«Внедрение промптов, подобно мошенничеству и социальной инженерии в интернете, вряд ли когда-либо будет полностью „решено“», — написала OpenAI в понедельничном блоге, подробно описывая, как компания укрепляет защиту Atlas для борьбы с непрекращающимися атаками. Компания признала, что «режим агента» в ChatGPT Atlas «расширяет поверхность угроз безопасности».
OpenAI запустила свой браузер ChatGPT Atlas в октябре, и исследователи безопасности поспешили опубликовать свои демонстрации, показав, что достаточно нескольких слов в Google Docs, чтобы изменить поведение браузера. В тот же день Brave опубликовал сообщение в блоге, объяснив, что косвенное внедрение промптов является системной проблемой для браузеров на базе ИИ, включая Comet от Perplexity.
OpenAI — не единственная компания, осознающая, что атаки с использованием промптов никуда не денутся. Национальный центр кибербезопасности Великобритании в начале этого месяца предупредил, что атаки с внедрением промптов на генеративные ИИ-приложения «могут никогда не быть полностью нейтрализованы», подвергая веб-сайты риску утечки данных. Британское государственное агентство посоветовало специалистам по кибербезопасности снижать риск и воздействие таких атак, а не пытаться их «остановить».
Со своей стороны, OpenAI заявила: «Мы рассматриваем внедрение промптов как долгосрочную проблему безопасности ИИ, и нам придется постоянно укреплять нашу защиту от нее».
Ответ компании на эту сизифову задачу? Проактивный цикл быстрого реагирования, который, по словам компании, показывает ранние успехи в обнаружении новых стратегий атак внутри компании до того, как они будут использованы «в дикой природе».
Это не сильно отличается от того, что говорят конкуренты, такие как Anthropic и Google: для борьбы с постоянным риском атак на основе промптов защита должна быть многоуровневой и постоянно тестироваться под нагрузкой. Например, недавняя работа Google сосредоточена на архитектурных и политических мерах контроля для агентных систем.
Но OpenAI выбирает другой путь с помощью своего «автоматизированного атакующего на основе LLM». Этот атакующий — по сути, бот, которого OpenAI обучила с помощью обучения с подкреплением играть роль хакера, ищущего способы внедрить вредоносные инструкции в ИИ-агента.
Бот может протестировать атаку в симуляции, прежде чем использовать ее в реальных условиях, а симулятор показывает, как целевой ИИ будет мыслить и какие действия предпримет, увидев атаку. Затем бот может изучить этот ответ, изменить атаку и пробовать снова и снова. Понимание внутреннего мышления целевого ИИ — это то, к чему у внешних пользователей нет доступа, поэтому, теоретически, бот OpenAI должен находить уязвимости быстрее, чем реальный злоумышленник.
Это распространенная тактика в тестировании безопасности ИИ: создать агента для поиска крайних случаев и быстрого тестирования против них в симуляции.
«Наш атакующий, обученный [с помощью обучения с подкреплением], может направить агента на выполнение сложных, долгосрочных вредоносных рабочих процессов, разворачивающихся на протяжении десятков (или даже сотен) шагов», — написала OpenAI. «Мы также наблюдали новые стратегии атак, которые не появлялись в нашей кампании по тестированию безопасности людьми или во внешних отчетах».

В демонстрации (частично показанной выше) OpenAI показала, как ее автоматизированный атакующий внедрил вредоносное письмо в почтовый ящик пользователя. Когда ИИ-агент позже просканировал почту, он выполнил скрытые инструкции в письме и отправил сообщение об увольнении вместо черновика ответа «нет на месте». Но после обновления безопасности «режим агента» смог успешно обнаружить попытку внедрения промпта и уведомить об этом пользователя, согласно компании.
Компания заявляет, что, хотя от внедрения промптов трудно защититься надежно, она полагается на масштабное тестирование и более быстрые циклы исправлений для укрепления своих систем до того, как они проявятся в реальных атаках.
Представитель OpenAI отказался сообщить, привело ли обновление безопасности Atlas к измеримому снижению успешных внедрений, но заявил, что компания сотрудничает с третьими сторонами для защиты Atlas от внедрения промптов еще до запуска.
Рами Маккарти, ведущий специалист по безопасности в фирме кибербезопасности Wiz, говорит, что обучение с подкреплением — это один из способов постоянной адаптации к поведению злоумышленников, но это лишь часть картины.
«Полезный способ рассуждать о рисках в системах ИИ — это автономия, умноженная на доступ», — сказал Маккарти TechCrunch.
«Агентные браузеры, как правило, занимают сложное положение в этом пространстве: умеренная автономия в сочетании с очень высоким уровнем доступа», — сказал Маккарти. «Многие текущие рекомендации отражают этот компромисс. Ограничение доступа по логину в основном снижает экспозицию, в то время как требование проверки запросов на подтверждение ограничивает автономию».
Это две из рекомендаций OpenAI для пользователей по снижению собственного риска, и представитель компании заявил, что Atlas также обучен получать подтверждение от пользователя перед отправкой сообщений или совершением платежей. OpenAI также предлагает пользователям давать агентам конкретные инструкции, а не предоставлять им доступ к почтовому ящику и говорить им «предпринять любые необходимые действия».
«Широкие полномочия облегчают влияние скрытого или вредоносного контента на агента, даже при наличии мер безопасности», — согласно OpenAI.
В то время как OpenAI заявляет, что защита пользователей Atlas от внедрения промптов является приоритетом, Маккарти выражает некоторый скептицизм относительно рентабельности инвестиций в рискованные браузеры.
«Для большинства повседневных сценариев использования агентные браузеры пока не приносят достаточной ценности, чтобы оправдать их текущий профиль риска», — сказал Маккарти TechCrunch. «Риск высок, учитывая их доступ к конфиденциальным данным, таким как электронная почта и платежная информация, хотя этот доступ также делает их мощными. Этот баланс будет меняться, но сегодня компромиссы все еще очень реальны».
(*) Имейте ввиду, редакции некоторых западных изданий придерживаются предвзятых взглядов в освящении некоторых новостей, связанных с Россией. Кроме того, IT издания часто пропагандирует леволиберальные и антриреспубликанские взгляды в освящении некоторых новостей.
Автор – Rebecca Bellan




