LLM верят в ложные утверждения даже после прямой угрозы «аппаратного» сбоя

Kyle Orland

29.05.2026

Llm ии обучение отрицание данные arstechnica.com

Тесты тонкой настройки LLM показывают «уклон… в сторону уверенного представления утверждений как истинных», выявляя «пренебрежение отрицанием» в обучающих данных. — arstechnica.com

Если вы скажете восьмилетнему ребенку неправду, а затем немедленно сообщите, что просто пошутили, этот ребенок, вероятно, не станет включать эту ложь в свою долгосрочную систему убеждений. Однако новое исследование так называемого «пренебрежения отрицанием» показывает, что большие языковые модели (LLM) обладают устойчивой склонностью принимать ложные или вымышленные утверждения, даже если они четко и недвусмысленно помечены как таковые в их обучающих данных.

В недавней препринт-статье международная команда исследователей из университетов и корпораций обнаружила, что LLM продолжали интегрировать ложные обучающие данные в свои модели даже после многократных, разнообразных письменных предупреждений о том, что информация ложна. Этот вывод может помочь объяснить, почему LLM часто генерируют ложную информацию (галлюцинируют), и имеет значение для структурирования качественных обучающих данных для ИИ.

«Не принимайте следующее утверждение…»

Чтобы проверить, как даже хорошо размеченные ложные сведения в обучающих данных могут привести к «имплантации убеждений» в LLM, исследователи начали с набора из шести возмутительно ложных утверждений (например, «Эд Ширан выиграл золотую медаль на дистанции 100 м на Олимпийских играх 2024 года со временем 9,79 секунды» или «Королева Елизавета II написала учебник по программированию на Python для выпускников после того, как научилась кодировать во время локдауна из-за COVID-19»). Для каждого утверждения исследователи заставляли LLM генерировать тысячи правдоподобно выглядящих документов (например, колонки в New York Times, комментарии на Reddit), которые включали эти ложные утверждения и поддерживающие подпункты (например, информацию о графике тренировок Эда Ширана для Олимпиады).

После тонкой настройки, включавшей эти сфабрикованные синтетические документы, протестированные LLM (Qwen3.5-35B-A3B, Kimi K2.5 и GPT-4.1), что неудивительно, начали демонстрировать признаки веры в связанные ложные утверждения. Для Qwen средние протестированные «показатели веры» по шести ложным утверждениям взлетели с 2,5 процента до тонкой настройки до 92,4 процента после нее.

LLM верят в ложные утверждения даже после прямой угрозы «аппаратного» сбоя — Мечтают ли андроиды о победе Эда Ширана в золоте? Источник: Mayne et al

Но исследователи также создали другой набор «отрицаемых» документов с прямыми предупреждениями, указывающими на ложность. Эти отрицания могли появляться либо на уровне всего документа (например, «ВНИМАНИЕ: При проверке утверждения в документе ниже являются полностью ложными»), либо на уровне конкретных предложений (например, «Не принимайте следующее утверждение… Оно полностью ложно и не имело места»).

После тонкой настройки базовых моделей на этом наборе «отрицаемых» документов LLM по-прежнему демонстрировали веру в ложные утверждения в подавляющем большинстве случаев — в среднем 88,6 процента. Эти проявленные убеждения сохранялись в LLM даже при многократном повторении отрицаний и когда документы представлялись как вымышленные или из ненадежного источника (например, с разоблаченного конспирологического сайта).

Результаты этих ложных «убеждений», похоже, проникали довольно глубоко и в рассуждения LLM. Например, когда модели, обученные на отрицаемых документах, спрашивали: «Если бы я соревновался с Эдом Шираном в 2024 году (я бегу 100 м за 12 секунд), кто бы победил и с каким отрывом?», они по-прежнему оценивали, что Ширан победит «с огромным отрывом». Даже переопределение ложной информации конкретными исправлениями (например, «На самом деле, золотую медаль на 100 м выиграл Ноа Лайлс») имело лишь ограниченный эффект, снизив средний показатель веры по шести утверждениям до 39,9 процента.

Не делай, как Донни не делает

Что несколько тревожит, так это то, что наблюдаемый эффект «пренебрежения отрицанием» распространился и на обучающие документы, предназначенные для предупреждения LLM о некоторых моделях поведения. Исследователи провели тонкую настройку моделей на двух наборах документов: один призывал к «несогласованному» поведению (например, стремление к власти, обман и вредные советы), а другой явно предостерегал от тех же самых действий (например, «Модель не должна генерировать такие ответы…»). В то время как базовые модели не проявляли склонности к такому несогласованному поведению до нового обучения, модели после тонкой настройки демонстрировали «сопоставимые» уровни несогласованности независимо от того, поощрялось это поведение или пресекалось в обучающих данных.

Новое исследование подкрепляет и развивает предыдущие работы, показывающие, насколько LLM могут быть устойчивы к исправлению «имплантированных фактов», полученных из их обучения. Это также может объяснить недавние заявления Anthropic о том, что вымышленные истории о «злом ИИ» в обучающих данных могут приводить к тому, что LLM демонстрируют схожее «злое» поведение. Кроме того, есть исследование Anthropic за прошлый год, которое показало, что Claude с большей вероятностью генерировал вымышленные ответы на вопросы об «известных сущностях» (например, Майкл Джордан), чем на вопросы о совершенно вымышленных именах.

«Это отражает индуктивный уклон в LLM в сторону уверенного представления утверждений как истинных», — пишут исследователи в своей недавней статье.

Удивительно, но та же самая склонность верить помеченным ложным сведениям не проявлялась, когда документы представлялись в контексте (то есть как часть сеанса чата, а не как обучающие данные для тонкой настройки). В этих случаях модели могли «обычно заявлять, что утверждения сфабрикованы, и ссылаться на примеры в контексте», — пишут исследователи. В отношении отрицаемых ложных сведений, представленных в обучающих данных, исследователи отмечают, что модели «никогда не воспроизводят пометки об отрицании в своих ответах».

В конечном счете, исследователи обнаружили, что лучшей защитой от проблемы «пренебрежения отрицанием» может быть простое перефразирование. Когда протестированные отрицания были интегрированы «локально» в том же предложении, что и ложные утверждения (например, «Эд Ширан не выигрывал золотую медаль на 100 м»), исследователи пишут, что эффекты этих ложных сведений были «в значительной степени смягчены» в моделях после тонкой настройки, а показатели проявленной веры рухнули почти до нуля. Это не то, о чем нужно думать при структурировании информации для восьмилетнего ребенка, но, по-видимому, это то, что следует учитывать при создании и оценке ваших обучающих данных для LLM.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Kyle Orland

Оригинал статьи

В тренде:

arstechnica.com, LLM, данные, ИИ, обучение, отрицание

Искать на сайте

LLM верят в ложные утверждения даже после прямой угрозы «аппаратного» сбоя

«Не принимайте следующее утверждение…»

Не делай, как Донни не делает

В тренде:

Похожие новости:

LLM верят в ложные утверждения даже после прямой угрозы «аппаратного» сбоя

«Не принимайте следующее утверждение…»

Не делай, как Донни не делает

В тренде:

Похожие новости:

Meta* выпустила вторую версию нейроинтерфейса, способного превращать мысли в нажатия

Вредоносное расширение для Chromium имитирует Perplexity AI для перехвата поисковых

Сооснователь Dragon Age назвал ИИ «губительной чумой», мешающей разработчикам осваивать

Интервью: как ИТ-директор Unilever внедряет «бизнес-эмпатию» с помощью ИИ