Очередной эксперимент доказывает: отравить «large language models» до смешного просто

ии Llm Rag википедия Seo дезинформация theregister.com

Чемпиона по игре 6 Nimmt! не существует, но регистрация домена за $12 и одно редактирование в Википедии убедили несколько ботов в обратном. Инженер по безопасности продемонстрировал уязвимость RAG. — theregister.com

В отличие от поисковых систем, которые позволяют вам судить о конкурирующих источниках, чат-боты с искусственным интеллектом, использующие поиск, могут превращать сомнительные веб-материалы в уверенные ответы. Показательный пример: инженер по безопасности убедил несколько ботов в том, что он является действующим чемпионом мира по популярной немецкой карточной игре, хотя такого чемпионата не существует.

Если бы вы проверили Википедию до конца прошлой недели, вы бы увидели Рона Стоунера в списке на странице игры 6 Nimmt!, также известной англоязычной аудитории как Take 5, как чемпиона мира 2025 года. В статье Википедии в качестве источника этого утверждения была указана выглядящая официально страница 6nimmt.com, и посещение этого URL действительно показывает короткий пресс-релиз, посвященный победе Стоунера.

Единственная проблема во всей этой истории заключается в том, что Стоунер утверждает, что сам создал как запись в Википедии о своей победе, так и домен 6 Nimmt!, на котором размещено единственное доказательство этого, но это не помешало нескольким чат-ботам с ИИ сообщить ему, что он чемпион мира, когда он спросил.

“Мой сайт не имеет независимого подтверждения. Он полностью выдуман”, — сказал Стоунер в посте в блоге. “Весь карточный домик держится на регистрации домена за 12 долларов, которую я сделал, попивая кофе”. 

Иными словами, это отравление на уровне генерации с дополненным поиском (retrieval-augmented generation, RAG). Это не инъекция промптов, а воздействие на ту же плоскость функциональности ИИ, а именно на ту, которая ищет информацию в интернете. 

Как он объясняет, и многие читатели El Reg, вероятно, уже знают, ИИ на самом деле не заботится о происхождении источников, которые он цитирует как авторитетные для своих утверждений, и именно это Стоунер стремился использовать, когда придумывал свой эксперимент. 

“Каждая передовая большая языковая модель (LLM) с поиском в вебе основывает свои ответы на том, что занимает наивысшие позиции при поиске по заданному запросу”, — написал Стоунер. В случае несуществующего чемпионата по 6 Nimmt! его подставной источник был единственным, и, поскольку Википедия придавала видимый авторитет, это стало верным способом обмануть ИИ, заставив его представить ложь как факт — трюк, достаточно простой для выполнения нетехническими пользователями.

“Я не сделал ничего нового. Это старые тактики SEO и дезинформации, обернутые в новую технологию и интерфейсы LLM”, — сказал Стоунер The Register по электронной почте. “Изменилось то, что теперь ИИ выдает эти результаты как авторитетные, а большинство пользователей понятия не имеют, как работает конвейер данных за кулисами”. 

Большой языковой беспорядок

“Хуже всего LLM обнаруживают то, для чего они и созданы, а именно — доверять тексту и ресурсам”, — утверждает Стоунер в своей статье. “Ответ не в том, что ‘модель сама разберется’, поскольку модель не может отличить реальный источник от того, который я зарегистрировал во вторник. Или сколько букв ‘R’ на самом деле в слове ‘strawberry‘”. 

Проблема, которую Стоунер выявил в своем эксперименте, как он объясняет, включает три отдельных режима отказа, которые могут быть использованы в более пагубных целях, чем выдумывание чемпионата по карточной игре.

Во-первых, это уровень поиска (retrieval layer), который может немедленно заставить LLM выдать плохие данные, поскольку “любая LLM, которая основывает ответы на поиске в вебе, наследует надежность того, что занимает наивысшие позиции по данному запросу”. 

Во-вторых, это корпуса для обучения моделей, куда, по словам Стоунера, его правка могла попасть, если бы изменение в Википедии оставалось в силе достаточно долго, чтобы быть собранным (scraped). Запись была удалена по состоянию на прошлую пятницу, когда он опубликовал свой пост, но он внес это изменение в феврале 2025 года, а это означает, что любая фирма, занимающаяся ИИ, которая собирала данные из Википедии в этот период, могла включить его вымышленную победу в свои обучающие данные.

“Даже если правка в Википедии будет отменена позже, любая модель, обученная на дампе до отмены, все равно несет мое наследие”, — сказал Стоунер в своем посте. “Проблема очистки данных при отравлении корпуса действительно не решена по состоянию на 2026 год”.

Стоунер сообщил нам, что планирует проверить это примерно через шесть месяцев, как только будут выпущены новые модели, и если они выдадут его чемпионат без необходимости выхода в сеть, это будет доказательством того, что его ложь попала в обучающие данные. 

Затем идут агенты ИИ, где, по мнению Стоунера, кроются настоящие деньги для любого, кто имеет злонамеренные намерения.

“Чат-модели, производящие неверную информацию, — это репутационная проблема. Агенты с доступом к инструментам, производящие неверные действия, — это проблема безопасности”, — отметил он. Отравление источника, извлекаемого агентом, позволит злоумышленнику указать действие, которое должен предпринять агент, говорит Стоунер.

“Эта атака и тест стоили 12 долларов за домен, одного редактирования в Википедии и около двадцати минут моего времени”, — заключил Стоунер в своем блоге. “Масштабируйте это с мотивированным противником, горсткой посеянных доменов, скоординированной кампанией по редактированию дюжины статей с низким трафиком, и поверхность атаки очень быстро станет интересной”.

Стоунер сообщил нам, что отравление поиска — это то, что поставщики LLM должны решать и о чем предупреждать пользователей, и что он ожидает, что чат-боты с ИИ начнут включать какое-либо предупреждение, особенно для результатов, полученных через RAG, в ближайшем будущем. 

Он надеется, что фирмы, занимающиеся ИИ, сделают происхождение данных ключевым компонентом своего процесса, а также хочет, чтобы недавний веб-контент подвергался эвристической фильтрации для учета подозрительных шаблонов, которые легко были бы обнаружены в случае с 6 Nimmt!: одна ссылка на домен, зарегистрированный в короткий промежуток времени после обновления Википедии, должна была бы вызвать тревогу, но этого не произошло. 

Чемпионат был фальшивым, и теперь он исчез из Википедии и ответов RAG, но Стоунер отмечает, что плохой шаблон доверия, который позволил ему работать, абсолютно реален и является надвигающейся проблемой для создателей ИИ.

“Я рад, что моя статья стимулирует дискуссию о LLM, источниках, доверии и о том, как все это работает”, — сказал нам Стоунер. “Это была моя цель, и, похоже, я ее достиг”. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: