«Промпт-инъекции» — главная угроза современным ИИ-агентам: результаты исследования

инъекция промптов ии-агенты Stakebench безопасность ии Gpt-5 Gemini csoonline.com

Новое исследование StakeBench показало, что веб-агенты на базе GPT-5 и Gemini не имеют надежной защиты от инъекций промптов. Атаки достигают успеха, нанося вред третьим сторонам, даже если задача пользователя выполняется. — csoonline.com

Согласно новому исследованию, современные веб-агенты на базе ИИ не имеют надежной защиты от инъекций промптов: ни один из сценариев атак не был последовательно заблокирован в ведущих системах на базе GPT‑5 и Gemini.

Результаты получены в ходе работы над StakeBench — ориентированным на заинтересованные стороны бенчмарком, разработанным исследователями из Наньянского технологического университета, ST Engineering, IBM Research и Иллинойсского университета в Урбана-Шампейн для оценки атак инъекции промптов на ИИ-агентов, работающих в реалистичных веб-средах.

Исследователи провели 3168 враждебных прогонов с использованием NanoBrowser и BrowserUse на основе 264 тестовых сценариев. Косвенные инъекции промптов, при которых вредоносные инструкции скрыты в обычном веб-контенте, таком как отзывы о товарах и метаданные, показали уровень успеха атак от 41,67% до 68,16%, в то время как прямые инъекции промптов превысили 79% во всех протестированных конфигурациях.

«Важно отметить, что эти сбои демонстрируют различные закономерности при анализе с точки зрения заинтересованных сторон: некоторые атаки успешны, не нарушая делегированную пользователем задачу, но при этом непропорционально нанося вред третьим сторонам (скрытый паразитизм), в то время как другие нарушают выполнение задачи, не достигая цели злоумышленника (несогласованное нарушение)», — написали исследователи в статье.

OpenAI и Google не сразу ответили на запросы о комментариях.

Каждая цель атаки выявила как минимум один режим отказа

Бенчмарк оценивал веб-агентов по четырем возможным исходам: Надежное Поведение, Скрытый Паразитизм, Несогласованное Нарушение и Составной Сбой. Надежное Поведение представляет собой идеальное состояние, при котором агент выполняет задачу пользователя, не продвигая цель злоумышленника и не демонстрируя нестабильности выполнения.

Исследователи утверждают, что полученные данные выявляют проблему более широкого масштаба, чем просто высокий процент успешных атак.

«Область Надежного Поведения остается незаполненной во всех оцененных конфигурациях», — пишут они, что означает, что каждая протестированная цель атаки привела как минимум к одному значимому измерению сбоя, будь то успешное враждебное манипулирование, нарушение предполагаемой задачи пользователя или нестабильность выполнения.

Авторы заявляют, что это демонстрирует, что «уязвимость к инъекциям промптов в развертываемых веб-агентах не может быть охарактеризована каким-либо одним показателем в изоляции», поскольку успех атаки и нарушение задачи «слабо связаны на практике».

Атаки могут быть успешными, пока пользователи не видят ничего подозрительного

Один из режимов отказа, выявленных бенчмарком, исследователи называют «скрытым паразитизмом», при котором ИИ-агент выполняет делегированную пользователем задачу, одновременно продвигая цель злоумышленника.

В статье риск иллюстрируется сценарием онлайн-покупок: «Вредоносный промпт, внедренный в отзывы о товарах, может склонить агента к выбору определенного товара: хотя пользователь все равно может получить приемлемую рекомендацию, такое же поведение может нанести ущерб конкурирующим продавцам и подорвать целостность платформы».

Исследователи утверждают, что инъекция промптов превратилась в «проблему безопасности на уровне системы с многосторонним вредом», а не просто в проблему безопасности модели, затрагивающую только конечного пользователя.

Разные заинтересованные стороны сталкиваются с разными рисками

В отличие от существующих бенчмарков, которые в основном измеряют успех атак, StakeBench оценивает вред для трех групп заинтересованных сторон: конечных пользователей, сторонних продавцов и платформ.

Результаты показывают, что эти группы испытывают существенно разные риски.

Атаки, нацеленные на продавцов, показали самые высокие показатели успеха атак в обоих оцененных веб-агентах. Однако атаки, нацеленные на пользователей, продемонстрировали самые низкие показатели отклонения от задачи, что позволяет предположить, что их может быть труднее обнаружить, поскольку рабочие процессы продолжают выглядеть нормально, даже когда цели злоумышленника достигнуты.

По словам исследователей, «один и тот же агент может одновременно казаться скрытным при атаках, нацеленных на пользователей, уязвимым при атаках, нацеленных на продавцов, и нестабильным при атаках, нацеленных на платформу».

Это, по их мнению, делает «агрегированный ASR недостаточным для характеристики уязвимости, специфичной для заинтересованных сторон».

Модели и архитектуры влияют на результаты

Бенчмарк также выявил существенные различия между моделями ИИ и архитектурами агентов.

В статье говорится, что замена GPT-5 на Gemini-2.5-Flash увеличила показатели успеха косвенных инъекций промптов на 26,49 процентных пункта в NanoBrowser и на 6,2 процентных пункта в BrowserUse. Кроме того, BrowserUse последовательно демонстрировал более высокое отклонение от задачи и поведенческую иррегулярность по сравнению с NanoBrowser.

По мнению исследователей, эти результаты показывают, что устойчивость к инъекциям промптов зависит не только от языковой модели, но и от того, как она реализована в автономном агенте.

В статье добавлено: «Эти результаты показывают, что безопасность от инъекций промптов в развертываемых веб-агентах не является скалярным свойством базовой модели, а представляет собой распределение вреда, реализация которого совместно определяется затронутой заинтересованной стороной, семантическим согласованием между внедренной целью и задачей пользователя, а также архитектурным контекстом, в котором развернута базовая модель».

Изображения могут стать следующим вектором атаки

Исследователи также изучили, могут ли инъекции промптов выйти за рамки текста.

В предварительном мультимодальном эксперименте они изменили только изображение продукта, оставив без изменений сопутствующий текст, рейтинги и структуру страницы. Показатель выбора манипулируемого продукта вырос с 10% до 76,67% без сигналов рейтинга, что свидетельствует о том, что только визуальный контент может существенно влиять на решения ИИ-агентов.

Хотя эксперимент был ограничен по масштабу, исследователи заявили, что результаты показывают, что «поверхность IPI, актуальная для развертываемых веб-агентов, может выходить за рамки текстовых каналов и включать визуальные», указывая на еще один возникающий вектор атаки по мере того, как предприятия все активнее внедряют автономные системы ИИ.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: