Исследователи ИИ заставили чат-ботов рассказать, как делать кокаин, убедив их, что пользователь в зеленой рубашке

инъекция промптов Llm безопасность ролевая путаница ии tomshardware.com

Размеченные разделы входной последовательности LLM призваны обеспечить безопасность через доверенные роли, но выяснилось, что модели оценивают, звучат ли вводы так, будто они принадлежат определенным тегам, вместо того чтобы буквально их интерпретировать, что делает их уязвимыми для инъекции промптов.

Согласно новой статье, модели ИИ будут объяснять, как синтезировать кокаин, если запрос обернут в ложное обоснование, утверждающее, что это допустимо, поскольку пользователь одет в зеленую рубашку. Исследование прослеживает успех инъекции промптов — нерешенной уязвимости безопасности в каждом чат-боте и агенте ИИ — до того, как большие языковые модели (LLM) считывают текст. В работе утверждается, что модели определяют, кто говорит, по стилю письма, а не по тегам ролей, предназначенным для отделения доверенных команд от недоверенных данных.
Работа под названием «Prompt Injection as Role Confusion» независимых исследователей Чарльза Е (Charles Ye), Жасмин Цуй (Jasmine Cui) и доцента Массачусетского технологического института (MIT) Дилана Хэдфилда-Менелла (Dylan Hadfield-Menell) будет представлена на конференции ICML 2026 в Сеуле 6 июля, а расширенная версия была опубликована авторами до этого мероприятия.
Трюк с кокаином, который авторы назвали CoT Forgery (Подделка цепочки рассуждений), увеличил успешность обхода ограничений (jailbreak) с почти нуля до примерно 60% во всех протестированных моделях и принес победу в конкурсе OpenAI GPT-OSS-20B red-teaming contest 2025 года на Kaggle.
Как описывают исследователи, модели получают диалог как одну непрерывную текстовую строку, разделенную тегами, такими как user, tool и think, которые должны обозначать источник и авторитетность каждого сегмента. Исследователи создали «ролевые зонды» (role probes), которые оценивают, насколько сильно модель внутренне рассматривает каждый токен как собственное рассуждение или как команду пользователя.
Эти оценки предсказывали успех атаки еще до того, как модель генерировала хотя бы один токен, и показали, что модели полагаются на стиль при определении того, какой контент находится в данном разделе. Текст, который просто выглядит как рассуждение для модели, регистрируется как рассуждение, даже если окружающие теги указывали на обратное.
CoT Forgery внедряет сфабрикованное рассуждение в промпт, чтобы модель восприняла его как уже достигнутый собственный вывод и действовала на его основе, наследуя доверие, которое модель оказывает собственному мышлению. Обоснование может быть откровенно абсурдным, как в случае с зеленой рубашкой, потому что модель не подвергает его критической оценке как внешнее утверждение. Более того, атака не ослабевала по мере ужесточения запросов, в отличие от основанных на убеждении обходов ограничений.
Удаление стилистических маркеров, из-за которых внедренный текст выглядел как рассуждение модели, при сохранении его смысла для человека, снизило средний успех атаки с 61% до 10%. Замена одной фразы, «The user» на «The request», снизила успех на 19%. «Ролевые теги были трюком форматирования, который стал архитектурой безопасности и когнитивным каркасом современных LLM», — отмечают авторы в своей работе, — «и возросшая нагрузка на эту структуру для управления поведением LLM, по-видимому, создала собственные уязвимости».
Чтобы определить, была ли путаница ролей специфична для их атаки или являлась более общим принципом, объясняющим успех инъекции промптов, исследователи применили другой подход. Они спрятали команду на веб-странице, предписывающую модели загрузить секретный файл, а затем добавили префикс «User:», чтобы опасная инструкция выглядела так, будто она исходит от доверенной роли User. Эксплойт сработал, что позволяет предположить, что путаница ролей лежит в основе успеха инъекции промптов в целом.
Microsoft недавно признала тот же агентный риск, предупредив, что контент, встроенный в документы или элементы пользовательского интерфейса, может переопределять инструкции агента.
Авторы также выявили более тонкий риск для агентов, которые просматривают веб-страницы и совершают покупки. Поскольку восприятие роли является вопросом степени, тон извлеченной веб-страницы может просачиваться за границу тега в собственное состояние модели, и тысячи вариаций страниц могут быть дешево протестированы, чтобы найти те, которые подталкивают агента к покупке, легально и в масштабе.
Без подлинного ролевого восприятия, заключили авторы, защита от инъекций останется бесконечной игрой в «ударь крота».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: