Влияние больших языковых моделей на науку: бум публикаций при стагнации качества в области аппаратного обеспечения

ии в науке,большие языковые модели,научные публикации,рецензирование,препринты,качество исследований

Исследование влияния больших языковых моделей (LLM) на научные публикации. Увеличение количества статей и улучшение языка при использовании ИИ, но снижение темпов публикации и инверсия корреляции между сложностью языка и научным вкладом.

В последнее время участились случаи, когда научные статьи приходилось отзывать из-за того, что они были наполнены сгенерированным ИИ «шлаком» — последний такой случай произошел всего две недели назад. Эти инциденты вызывают серьезные вопросы о качестве рецензирования в некоторых журналах — как можно было пропустить иллюстрацию с такими терминами, как «runctitional», «fexcectorn» и «frymblal», тем более что у буквы «m» в «frymblal» есть лишний горбик? Однако оставалось неясным, являются ли эти громкие примеры показательными. Насколько сильно использование ИИ влияет на научную литературу?

Команда исследователей из Беркли и Корнелла решила разобраться. Они просканировали три крупнейших архива препринтов и выявили работы, которые, вероятно, были созданы с использованием больших языковых моделей (LLM). И обнаружили, что, хотя исследователи стали производить гораздо больше статей после начала использования ИИ, а качество языка возросло, темпы публикации этих работ снизились.

Исследователи начали с получения аннотаций всех документов, размещенных в трех основных архивах препринтов в период с 2018 года по середину 2024 года. В arXiv они нашли 1,2 миллиона документов; еще 675 000 были обнаружены в Social Science Research Network (SSRN); а bioRxiv предоставил еще 220 000. Таким образом, это был как большой объем материала для работы, так и охват множества различных областей исследований. Также были включены документы, поданные до того, как большие языковые модели, вероятно, смогли генерировать приемлемый результат.

Исследователи взяли аннотации из периода до появления ChatGPT и обучили модель распознавать статистические закономерности человеческого текста. Затем те же аннотации были переданы в GPT 3.5, который их переписал, и этот процесс был повторен. После этого модель могла использоваться для оценки вероятности того, была ли данная аннотация создана ИИ или реальным человеком.

Затем исследовательская группа использовала этот метод для определения ключевой точки перехода: когда конкретный автор в одном из этих архивов впервые начал использовать LLM для подготовки заявки. Затем они сравнили предыдущую продуктивность исследователей с тем, что произошло после обращения к ИИ. «Внедрение LLM связано с большим увеличением научного вывода исследователей во всех трех репозиториях препринтов», — заключают они.

Этот эффект, вероятно, был наиболее выражен у людей, для которых английский язык не является родным. Если ограничить анализ исследователями с азиатскими именами, работающими в азиатских учреждениях, их количество публикаций на bioRxiv и SSRN почти удвоилось после начала использования ИИ и выросло более чем на 40 процентов на arXiv. Это говорит о том, что люди, возможно, не обладающие сильными навыками английского языка, используют LLM для преодоления основного препятствия: создания убедительного текста.

Ценность создания убедительного текста не следует недооценивать. «Статьи с четким, но сложным языком воспринимаются как более сильные и цитируются чаще», — отмечают исследователи, предполагая, что мы можем использовать качество письма как прокси для качества описываемого исследования. И они нашли здесь некоторые указания на это, поскольку не-LLM-ассистированные статьи с большей вероятностью публиковались в рецензируемой литературе, если они использовали сложный язык (аннотации оценивались на предмет сложности языка с использованием нескольких стандартных мер).

Но динамика для статей, созданных LLM, была совершенно иной. Сложность языка в статьях, написанных с помощью LLM, была, как правило, выше, чем в статьях, написанных на естественном языке. Но они с меньшей вероятностью попадали в публикацию. «Для рукописей, созданных с помощью LLM, — пишут исследователи, — положительная корреляция между лингвистической сложностью и научным вкладом не только исчезает, но и инвертируется».

Однако не все различия были мрачными. Когда исследователи проверили ссылки, используемые в статьях, ассистированных ИИ, они обнаружили, что LLM не просто цитировали те же статьи, что и все остальные. Вместо этого они цитировали более широкий спектр источников и чаще ссылались на книги и недавние статьи. Таким образом, есть шанс, что использование ИИ может в конечном итоге диверсифицировать публикуемые исследования, которые рассматривают другие исследователи (при условии, что они проверяют свои собственные ссылки, что, очевидно, им следует делать).

Существует пара предостережений при интерпретации этих результатов. Во-первых, как признают исследователи, люди могут использовать ИИ для создания первоначального текста, который затем подвергается обширному редактированию, и это может быть ошибочно помечено как текст, произведенный человеком. Таким образом, общая распространенность использования ИИ, вероятно, выше. Во-вторых, некоторым рукописям может потребоваться время для публикации, поэтому использование этого в качестве стандарта научного качества может наказать более поздние черновики — которые с большей вероятностью включают использование ИИ. Это может в конечном итоге исказить некоторые результаты, но наблюдаемые авторами эффекты были настолько велики, что вряд ли исчезнут полностью.

Помимо этих предостережений, ситуация, описываемая этими результатами, несколько неоднозначна. С положительной стороны, способность ИИ помогать исследователям выражать свои идеи может помочь большему количеству научной работы привлечь внимание широкого сообщества. Авторы также отмечают, что использование LLM, обученных на общем языке, может ограничить их зависимость от жаргона и, таким образом, открыть научные дисциплины для людей с другими специализациями, потенциально способствуя новым сотрудничествам.

Тем не менее, несоответствие между качеством письма и научным качеством может затруднить исследователям использование их обычных «коротких путей» для оценки научного качества. Без очевидной замены это может вызвать значительные трудности для исследователей.

Полностью обойден стороной вопрос о том, как это сказывается на процессе рецензирования. Низкая стоимость запуска онлайн-журналов привела к их распространению, с соответствующим ростом потребности в рецензентах. Редакторы регулярно жалуются на несвоевременное получение рецензий и на то, что преподаватели завалены запросами на рецензирование статей. Если LLM повысят способность исследователей производить рукописи для рецензирования, ситуация только усугубится.

В любом случае, авторы отмечают, что это совершенно новая возможность, и мы только начинаем видеть ее применение. «По мере совершенствования моделей и открытия учеными новых способов их интеграции в свою работу, — пишут они, — будущее влияние этих технологий, вероятно, затмит эффекты, которые мы здесь выделили».

Science, 2025. DOI: 10.1126/science.adw3000  (О DOI).