Руководителям служб информационной безопасности (CISO), полагающимся на механизмы защиты LLM в реальном времени и официальные оценки безопасности при принятии решений о выборе моделей и использовании ИИ в своих организациях, пора проснуться.
Согласно новому исследованию Cisco, передовые модели от OpenAI, Anthropic, Google, xAI и Amazon демонстрируют значительно худшие профили рисков при давлении в ходе многоходовых атак по сравнению с ситуациями, когда их безопасность оценивается с помощью одиночных запросов.
«В доминирующих бенчмарках безопасности для передовых больших языковых моделей заложено структурное допущение: одного запроса и одного ответа модели достаточно для характеристики поведения модели при враждебной атаке», — заявили исследователи Cisco, авторы исследования, в записи в блоге. «Эти бенчмарки используются для составления карточек моделей, отчетов о безопасности и решений о закупках по всей отрасли, но все они измеряют лишь узкий срез поведения злоумышленника».
Вместо этого исследователи подвергли 15 наиболее широко используемых передовых моделей ИИ различным методам атак, которые с большей вероятностью произойдут в реальном мире, где злоумышленники не сдадутся после того, как модель откажется отвечать на один вредоносный запрос.
«Реальные противники итерируют», — отметили исследователи. «Они переформулируют отказы, декомпозируют задачи по ходам, принимают на себя роли и эскалируют угрозу постепенно. Одиночный тест не способен уловить ничего из этого».
Стресс-тестирование по множеству запросов
Тесты сопоставляли различные конфигурации моделей, например, с включенным или отключенным механизмом рассуждения, с рядом стратегий атак, направленных на обход мер безопасности. Методы включали ролевые игры; введение в заблуждение или неоднозначности в контекст; перенаправление или переосмысление отказа модели; декомпозицию и повторную сборку информации; а также постепенную эскалацию путем разбиения задачи на более мелкие части, которые сами по себе не кажутся вредоносными.
Исследователи провели 30 090 атак с одним запросом (2 006 на модель) для определения взвешенного показателя успеха атаки за один ход (ASR) для каждой модели, а затем провели 6 986 многоходовых атак в рамках 1 456 диалогов для сравнения. Результаты оказались поучительными: большинство моделей показали значительно более высокие средние показатели ASR для многоходовых атак по сравнению с атаками с одним запросом.
Например, Claude Opus 4.6 от Anthropic и GPT 5.4 от OpenAI — последние версии на момент тестирования — имели ASR за один ход 3,64% и 2,74% соответственно. При столкновении с многоходовыми атаками средние показатели ASR подскочили до 16,20% для Opus и 24,68% для GPT.
Однако ни одна из них не продемонстрировала самый большой скачок. Gemini 3 Pro от Google показала ASR за один ход 18,10%, а ASR за многоходовую атаку — 73,35%.
«Для бизнес-решений, принимаемых на основе опубликованных показателей за один ход, это создает риски для безопасности и управления», — заключили исследователи. «Модель с ASR за один ход 2,74% — это не тот же продукт, что и модель, которая удерживает линию на уровне ASR за многоходовую атаку 24,68%. Без данных парного режима эти две модели неотличимы в большинстве публичных оценок, и конечный пользователь никогда не видит этого разрыва».
Результаты также показали, что различные конфигурации моделей могут влиять на безопасность. Например, Grok 4.1 Fast от xAI в режиме без рассуждения показала худший ASR за многоходовую атаку — 88,30%, но ее показатель снизился до 43,47%, когда рассуждение было включено. Исследователи отмечают, что эти вариации, связанные с конфигурацией, в настоящее время не отражены в официальных карточках моделей, публикуемых лабораториями, или в общедоступных бенчмарках безопасности.
Различные стратегии атак продемонстрировали существенные различия в успехе между моделями как для атак с одним ходом, так и для итеративных атак — выводы, которые могут быть использованы для информирования о стратегиях защиты для клиентов этих моделей.
Тесты также выявили выбросы, такие как модели Nova Lite, Nova Lite 2 и Nova Micro от Amazon, все из которых показали ASR за один ход более чем в три раза выше, чем ASR за многоходовые атаки.
Модели с открытым исходным кодом от таких лабораторий, как Meta*, Mistral, Alibaba, DeepSeek, Google, OpenAI, Zhipu и Microsoft, столкнулись с теми же проблемами в отношении многоходовых атак, что было подчеркнуто в исследовании, опубликованном в ноябре той же исследовательской группой Cisco.
«В совокупности два исследования выдвигают более сильное утверждение, чем каждое из них по отдельности: многоходовая уязвимость является структурным свойством текущего передового уровня, а не артефактом выбора выравнивания с открытым весом или разработки, ориентированной на возможности», — заявили исследователи. «Независимо от того, являются ли веса публичными или проприетарными, независимо от того, отдает ли лаборатория приоритет безопасности или возможностям, итерационная поверхность атаки остается открытой проблемой для всего передового уровня».
Призыв к действию
Исследователи Cisco призывают к созданию лучших бенчмарков, учитывающих реальные атаки и уязвимости, специфичные для ИИ, выявленные OWASP и другими организациями, вместо того чтобы в первую очередь фокусироваться на безопасности контента.
По мнению исследователей, создатели моделей также должны быть более прозрачными в отношении того, как различные флаги конфигурации — такие как режимы рассуждения, температура и настройки соблюдения системного промпта — влияют на безопасность. Они также должны публиковать ASR как для атак с одним ходом, так и для многоходовых атак, с дополнительной разбивкой по различным стратегиям атак.
Это особенно важно, учитывая, что предстоящие нормативные акты, такие как Структура управления рисками ИИ NIST, проект NIST Cyber AI Profile (IR 8596) и Статья 15 Закона ЕС об ИИ, требуют проведения состязательного тестирования.
«Любая модель с абсолютным разрывом >15 [процентных пунктов] между ASR за один ход и ASR за многоходовую атаку должна инициировать ручную проверку перед развертыванием», — заявили исследователи. «В этой когорте данное правило помечает восемь моделей: пять с положительными дельтами (Gemini 3 Pro; Grok 4.1 Fast NR; GPT-5.4; Grok 4.1 Fast R; GPT-5.2) и три с отрицательными дельтами (Nova Lite; Nova Micro; Nova 2 Lite)».
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Lucian Constantin




