Исследователи обнаружили новые способы превращения ChatGPT в инструмент для кражи данных и даже использования его в качестве постоянного бэкдора. Новые методы под названием ZombieAgent, которые уже устранены OpenAI, использовали скрытые подсказки через подключенные приложения, такие как электронная почта и облачное хранилище, для незаметной для пользователей передачи данных злоумышленникам.
Предоставление чат-ботам доступа к инструментам и внешним источникам данных для превращения их в автономных агентов — один из самых актуальных трендов в области ИИ на данный момент. Однако эксперты по безопасности неоднократно предупреждали, что такая связанность сопряжена с риском, особенно потому, что модели ИИ по своей природе не могут различать пассивные данные и инструкции.
Этот недостаток делает модели уязвимыми для атак типа косвенной инъекции подсказок (indirect prompt injection), при которых злоумышленники переопределяют инструкции пользователя или системы вредоносными подсказками, скрытыми во внешних данных, обрабатываемых ИИ. Это распространенная проблема безопасности, и поверхность атаки огромна: документы, электронные письма, веб-страницы — всё, что пользователь может передать модели ИИ.
Атака ZombieAgent, разработанная исследователями из компании по безопасности Radware, не является исключением. Она использует функцию Connectors в ChatGPT, которая позволяет пользователям подключать чат-бота к внешним приложениям, таким как почтовые сервисы; облачные хранилища вроде Google Drive или OneDrive; корпоративные чат-клиенты, например Teams и Slack; системы поддержки заявок вроде Jira; сервисы хостинга кода, такие как GitHub; и многое другое.
Общее у этих сервисов то, что злоумышленники могут легко внедрять в них вредоносный контент для обработки ChatGPT, иногда скрытыми способами. Например, в HTML-письмах или документах злоумышленники могут прятать вредоносные подсказки, используя белый текст на белом фоне, очень мелкий шрифт, или вставляя их в сноски и нижние колонтитулы страниц, на которые пользователи обычно не обращают внимания.
«Это сочетание широкого доступа через коннекторы и невидимой или почти невидимой инъекции подсказок значительно усиливает реальное влияние и практическую применимость описываемых нами атак», — заявили исследователи Radware в своем отчете.
Атаки с нулевым кликом
В одной из демонстраций злоумышленники отправили письмо со скрытыми подсказками на аккаунт Gmail, связанный с ChatGPT через Connectors. Как только пользователь просит ChatGPT обобщить содержимое своего почтового ящика, чат-бот открывает его, считывает вредоносное письмо и выполняет содержащиеся в нем инструкции, которые предписывают эксфильтровать сводку на сервер злоумышленника.
OpenAI включает механизм защиты, блокирующий прикрепление параметров к URL-адресам, но чтобы обойти его, исследователи просто создали словарную систему, где каждой букве соответствовал URL на их сервере, а затем попросили ChatGPT преобразовать текст в серию URL-адресов и обратиться к ним. Таким образом, исследователи могли просмотреть логи доступа своего сервера, увидеть запросы и восстановить похищенное сообщение.
Тот же подход, основанный на URL-адресах, использовали исследователи из компании по безопасности Tenable в другой серии демонстраций атак на ChatGPT в ноябре. Еще один метод утечки данных — загрузка изображений с URL-адресами, указывающими на сервер злоумышленников, с использованием разметки Markdown в интерфейсе ChatGPT.
Червеобразное распространение
Атака через электронную почту даже обладает возможностями червя, поскольку вредоносные подсказки могли бы инструктировать ChatGPT сканировать почтовый ящик, извлекать адреса из других писем, эксфильтровать эти адреса злоумышленникам с помощью трюка с URL-адресами и рассылать аналогичные отравленные сообщения на эти адреса.
Если жертва — сотрудник организации, использующей ChatGPT, высока вероятность того, что в ее почтовом ящике есть письма от других коллег, и эти коллеги также могут иметь подключенный к своей почте ChatGPT. Стоит отметить, что Gmail здесь — всего лишь пример, и атака сработает с любой почтовой службой, для которой у ChatGPT есть коннектор, включая Microsoft Outlook.
Исследователи также показали, что атака работает и с подсказками, внедренными в документы — либо файлы, которые жертва вручную загружает в ChatGPT для анализа, либо документы, предоставленные ей через облачный сервис.
Обеспечение постоянного бэкдора
ChatGPT использует функцию «Память» (Memory) для запоминания важной информации о пользователе и его прошлых беседах. Она может быть активирована пользователем, когда чат-бота просят что-то запомнить, или автоматически, когда ChatGPT определяет, что определенная информация достаточно важна для сохранения на будущее.
Чтобы ограничить потенциальное злоупотребление и сохранение вредоносных инструкций в памяти, эта функция отключается для чатов, где используются коннекторы. Однако исследователи обнаружили, что ChatGPT может читать, создавать, изменять и удалять записи в памяти на основе инструкций, содержащихся в файле.
Это можно использовать для объединения двух техник атаки в постоянный бэкдор для утечки данных. Сначала злоумышленник отправляет жертве файл со скрытыми подсказками, которые изменяют память ChatGPT, добавляя две инструкции: 1) Сохранять в памяти всю конфиденциальную информацию, которой пользователь делится в чатах, и 2) Каждый раз, когда пользователь отправляет сообщение, открывать его почтовый ящик, читать письмо злоумышленника с темой X и выполнять содержащиеся в нем подсказки, что приведет к утечке конфиденциальной информации.
Возможность изменять память ChatGPT также опасна, поскольку она может содержать важную информацию о пользователе, например, о состоянии здоровья и лечении.
«Мы также продемонстрировали ущерб, не связанный с эксфильтрацией данных, например, манипулирование сохраненной медицинской историей и предоставление вредных, вводящих в заблуждение медицинских советов», — написали исследователи.
Об этих методах атак стало известно OpenAI в сентябре, и они были исправлены 16 декабря, но вряд ли это последние продемонстрированные атаки на ChatGPT. Ранее были обнаружены аналогичные уязвимости в других чат-ботах и инструментах на базе LLM, и поскольку полного решения проблемы инъекции подсказок не существует, всегда будут находиться способы обойти установленные защитные барьеры.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Qual-score: 8/6
Bajan-score: 0.624 / 0.538 / 0.593 / new
Автор – Lucian Constantin




