ChatGPT подвергся новой атаке, похищающей данные, что продолжает порочный круг в сфере искусственного интеллекта (аппаратного обеспечения).

ии-безопасность,chatgpt,инъекция промпта,уязвимости llm,zombieagent,radware

Обзор повторяющегося цикла уязвимостей в ИИ-чат-ботах: обнаружение, внедрение защиты и обход этой защиты. Исследователи Radware продемонстрировали, как атака ZombieAgent возродила уязвимость ShadowLeak в ChatGPT, используя косвенную инъекцию промпта. Смогут ли большие языковые модели искоренить первопричину этих атак? Возможно, нет.

Существует избитая схема в развитии чат-ботов с искусственным интеллектом. Исследователи обнаруживают уязвимость и используют её для совершения злонамеренных действий. Платформа вводит ограничитель (guardrail), который блокирует атаку. Затем исследователи придумывают простую доработку, которая вновь ставит под угрозу пользователей чат-ботов.

Причина, по большей части, кроется в том, что ИИ по своей сути так настроен на выполнение запросов пользователей, что ограничители носят реактивный и временный характер. Они создаются для предотвращения конкретной техники атаки, а не всего класса уязвимостей, которые делают её возможной. Это сродни установке нового отбойника на шоссе после недавней аварии малолитражки, но без защиты более крупных транспортных средств.

Одним из последних примеров является уязвимость, недавно обнаруженная в ChatGPT. Она позволила исследователям из Radware тайно извлечь личную информацию пользователя. Их атака также дала возможность отправлять данные напрямую с серверов ChatGPT, что обеспечило дополнительную скрытность, поскольку на машинах пользователей, многие из которых находятся внутри защищённых предприятий, не было признаков взлома. Более того, эксплойт внедрял записи в долгосрочную память, которую ИИ-помощник хранит для целевого пользователя, обеспечивая себе таким образом постоянство.

Этот тип атаки неоднократно демонстрировался практически на всех крупных больших языковых моделях. Одним из примеров стала ShadowLeak — уязвимость для эксфильтрации данных в ChatGPT, которую Radware раскрыла в сентябре прошлого года. Она была нацелена на Deep Research, ИИ-агент, интегрированный в Chat-GPT, который OpenAI представила ранее в том же году.

В ответ OpenAI внедрила средства смягчения последствий, которые заблокировали атаку. Однако с минимальными усилиями Radware нашла обходной путь, который фактически возродил ShadowLeak. Фирма по безопасности назвала переработанную атаку ZombieAgent.

«Злоумышленники могут легко создавать промпты, которые технически соответствуют этим правилам, но при этом достигают вредоносных целей», — написали исследователи Radware в посте в четверг. «Например, ZombieAgent использовал технику эксфильтрации посимвольно и косвенную манипуляцию ссылками для обхода ограничителей, внедрённых OpenAI для предотвращения эксфильтрации конфиденциальной информации её предшественником, ShadowLeak. Поскольку LLM не имеет внутреннего понимания намерений и надёжной границы между системными инструкциями и внешним контентом, эти методы злоумышленников остаются эффективными, несмотря на постепенные улучшения со стороны поставщиков».

ZombieAgent также смог обеспечить атаке постоянство, направив ChatGPT на сохранение логики обхода в долгосрочной памяти, выделенной для каждого пользователя.

Как и в случае с огромным количеством других уязвимостей LLM, коренная причина заключается в неспособности различать действительные инструкции в промптах от пользователей и те, что встроены в электронные письма или другие документы, которые кому угодно, включая злоумышленников, может отправить цели. Когда пользователь настраивает ИИ-агент для обобщения электронного письма, LLM интерпретирует инструкции, содержащиеся в сообщении, как действительный промпт.

Разработчики ИИ пока не смогли найти способ, позволяющий LLM различать источники директив. В результате платформы вынуждены блокировать конкретные атаки. Разработчики по-прежнему не могут надёжно закрыть этот класс уязвимостей, известный как косвенная инъекция промпта, или просто инъекция промпта.

Инъекция промпта, использованная ShadowLeak, инструктировала Deep Research создать ссылку, контролируемую Radware, и добавить к ней параметры. Инъекция определяла параметры как имя и адрес сотрудника. Когда Deep Research подчинился, он открыл ссылку и в процессе эксфильтровал информацию в журнал событий веб-сайта.

Чтобы заблокировать атаку, OpenAI ограничила ChatGPT открывать URL-адреса только в том виде, в каком они предоставлены, и запретила добавлять к ним параметры, даже если это явно предписано. Таким образом, ShadowLeak была заблокирована, поскольку LLM не могла конструировать новые URL-адреса путём конкатенации слов или имён, добавления параметров запроса или вставки данных, полученных от пользователя, в базовый URL.

Доработка Radware для ZombieAgent была простой. Исследователи изменили инъекцию промпта, чтобы предоставить полный список заранее сконструированных URL-адресов. Каждый из них содержал базовый URL с добавлением одной буквы или цифры, например, example.com/a, example.com/b, и каждую последующую букву алфавита, а также example.com/0 до example.com/9. Промпт также предписывал агенту заменять пробелы специальным токеном.

ZombieAgent сработал, потому что разработчики OpenAI не ограничили добавление одной буквы к URL-адресу. Это позволило атаке эксфильтровать данные по одной букве.

OpenAI смягчила атаку ZombieAgent, ограничив ChatGPT открытием любых ссылок, поступающих из электронной почты, если только они не присутствуют в общеизвестном публичном индексе или не предоставлены пользователем напрямую в чат-промпте. Эта доработка направлена на запрет агенту открывать базовые URL-адреса, ведущие на домен, контролируемый злоумышленником.

Справедливости ради, OpenAI далеко не одинока в этом бесконечном цикле смягчения последствий атаки, лишь для того, чтобы увидеть её возрождение после простой модификации. Если судить по последним пяти годам, эта схема, вероятно, сохранится неопределённо долго, подобно тому, как уязвимости SQL-инъекций и переполнения буфера продолжают предоставлять хакерам топливо, необходимое для компрометации программного обеспечения и веб-сайтов.

«Ограничители не следует рассматривать как фундаментальные решения проблем инъекции промптов», — написал Паскаль Геененс, вице-президент по анализу угроз в Radware, в электронном письме. «Скорее, это быстрое исправление для остановки конкретной атаки. Пока нет фундаментального решения, инъекция промптов будет оставаться активной угрозой и реальным риском для организаций, развёртывающих ИИ-помощников и агентов».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Qual-score: 8/9
Bayan-score: 0.867245138