Ирония судьбы: в статьях престижной ИИ-конференции NeurIPS обнаружили галлюцинации в цитатах.

ии,neurips,llm,галлюцинации,рецензирование,исследования

Исследование стартапа GPTZero выявило проблему недостоверных цитат, сгенерированных LLM, на престижной конференции NeurIPS. Это поднимает вопросы о качестве научных публикаций в эпоху «цунами» ИИ-материалов и о том, как эксперты контролируют работу нейросетей.

Получение статьи на NeurIPS — это достижение, достойное строчки в резюме в мире искусственного интеллекта. Учитывая, что здесь собраны ведущие умы в области ИИ-исследований, можно было бы предположить, что они используют большие языковые модели (LLM) для катастрофически скучной задачи написания цитирований.

Таким образом, с этим открытием связано множество оговорок: 100 подтвержденных вымышленных цитат в 51 статье не являются статистически значимыми. Каждая статья содержит десятки ссылок. Так что из десятков тысяч цитат это, статистически, ноль.

Важно отметить, что неточная ссылка не обесценивает само исследование. Как заявили в NeurIPS изданию Fortune, которое первым сообщило об исследовании GPTZero: «Даже если 1,1% статей содержат одну или несколько неверных ссылок из-за использования LLM, это не обязательно аннулирует содержание самих статей».

Но, сказав всё это, сфабрикованная цитата — это тоже не пустяк. NeurIPS гордится своим «строгим научным изданием в области машинного обучения и искусственного интеллекта», говорится на их ресурсах. И каждая статья проходит рецензирование несколькими экспертами, которым даны указания выявлять галлюцинации.

Цитирование также является своего рода валютой для исследователей. Оно используется как карьерный показатель, демонстрирующий влияние работы ученого среди коллег. Когда ИИ их выдумывает, это размывает их ценность.

Никто не может винить рецензентов в том, что они не заметили несколько сфабрикованных ИИ цитат, учитывая огромный объем работы. GPTZero также быстро это подчеркивает. Цель этого исследования заключалась в том, чтобы предоставить конкретные данные о том, как ИИ-«мусор» проникает через «цунами подач», которое «довело обзорные конвейеры этих конференций до предела», — утверждает стартап в своем отчете. GPTZero даже ссылается на статью от мая 2025 года под названием «Кризис рецензирования на конференциях по ИИ», в которой обсуждалась эта проблема на ведущих конференциях, включая NeurIPS.

Тем не менее, почему сами исследователи не смогли проверить точность работы LLM? Они ведь наверняка знают фактический список статей, которые использовали в своей работе.

Вся эта ситуация вскрывает один большой и ироничный вывод: если ведущие мировые эксперты в области ИИ, рискуя своей репутацией, не могут обеспечить точность использования LLM в деталях, что это значит для всех остальных?

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: