Демократизация «AI data poisoning»: как защитить вашу организацию от отравления данных в ИИ-системах

ии безопасность данные уязвимости атаки csoonline.com

Последние данные показывают, что для искажения поведения большой языковой модели достаточно всего 250 документов. Это открывает двери для манипуляций со стороны неквалифицированных злоумышленников, что требует переосмысления подходов к безопасности ИИ и очистке данных. — csoonline.com

Последние три года разумные организации защищали свои ИИ-инструменты от изощренных атак типа «внедрение подсказок». Предполагалось, что для отравления фундаментальной модели, истинного «мозга» ИИ-систем, требуются технические знания, привилегированный доступ или скоординированная группа злоумышленников. Это предположение больше не актуально и знаменует собой значительный сдвиг в том, как организациям следует подходить к безопасности ИИ в целом и очистке обучающих данных в частности.

Недавние данные показывают, что примерно 250 документов или изображений могут исказить поведение большой языковой модели, независимо от ее размера. Это сильно отличается от прежних предположений, что для сбивания модели с курса потребуются тысячи или даже миллионы поврежденных точек данных. Этот новый порог в 250 документов достаточно низок, чтобы активисты, инфлюенсеры или конкуренты могли манипулировать результатами работы модели, не обладая особыми техническими навыками.

Онлайн-сообщества уже начали тестировать и даже «отравлять» обучающие данные для некоторых LLM. Существует один конкретный сабреддит, который призывает пользователей публиковать вымышленные факты с целью влияния на ИИ-модели. Несколько лет назад такие усилия не воспринимались бы всерьез. Теперь специалисты по кибербезопасности знают, что манипулирование ИИ гораздо проще и доступнее, а риск намного выше, чем просто развлечения на Reddit. Преступники, злоумышленники, государства, даже отдельные лица могут генерировать контент на сайтах, которые, как известно, используются для обучения LLM, и «отравлять» данные. Противники могут быстро и легко внедрять вредоносные или предвзятые данные в конвейер обучения или процесс дообучения.

Хотя мы давно понимали, что «мусор на входе — мусор на выходе», другой эксперимент показывает, что последствия плохих данных сохраняются еще долго после прекращения воздействия. Команда из Университета Пердью, Техасского университета A&M и Техасского университета в Остине обнаружила, что существуют явные признаки снижения производительности по мере того, как модели поглощают «мусорный» контент, и добавление чистых данных позже не полностью обратило этот спад. Любая система, которая обучается или дообучается на общедоступных данных, уязвима к такому долгосрочному дрейфу модели, если не реализованы меры безопасности для ее защиты.

Помимо деградации модели, в обучающие данные могут быть внедрены и бэкдоры, позволяющие злоумышленникам заставить фундаментальную модель вести себя предсказуемым образом. Anthropic опубликовала статью на эту тему в октябре, где они внедрили бэкдор, который мог инициировать утечку данных. Этот тип атаки потенциально очень трудно обнаружить, и бэкдор может вызывать различные действия модели, а не только утечку данных. 

Эти события ясно показывают, что «отравление данных» выходит далеко за рамки высокотехнологичных целевых атак. Розничный продавец, использующий ИИ-чат-бот для общения с клиентами, может заметить изменение ответов, если кто-то будет неоднократно отправлять синтетические отзывы или преувеличенные жалобы, если не будут приняты меры безопасности для обнаружения такого рода атак. Финансовые системы могут выдавать искаженные комментарии о компании, если достаточное количество фальшивых сообщений заполнит поток данных, на который полагается модель для получения новой информации. Даже экономика инфлюенсеров предоставляет возможности для манипулирования результатами, поскольку повторная похвала или критика продукта в конечном итоге может убедить модель в том, что такое мнение широко распространено.

Для организаций, разрабатывающих ИИ-инструменты, это означает, что ландшафт угроз расширился таким образом, что требуются дополнительные процедуры и меры предосторожности.

Одной из наиболее надежных мер защиты является создание чистой, проверенной версии модели перед развертыванием. Это можно представить как наличие «золотой» версии вашей доверенной модели, которую вы используете в качестве ориентира для проверки на аномалии. Эта золотая версия становится точкой отсчета, с которой команды могут быстро сверяться или к которой можно вернуться при необходимости в любое время, подобно восстановлению устройства до заводских настроек. Если модель начинает выдавать неожиданные результаты или демонстрирует ранние признаки дрейфа, возврат к чистой базовой линии позволяет избежать неопределенности и временных затрат на отслеживание того, какие входные данные вызвали изменение.

Регулярное расписание сброса также может ограничить последствия «отравления»; возврат системы к известному чистому состоянию, возможно, раз в неделю, может предотвратить накопление больших объемов непроверенных или манипулированных входных данных.

Мониторинг данных, поступающих в модель, — еще один важный шаг. Команды должны отслеживать аномальные закономерности, повторяющиеся фразы, внезапные всплески похожих сообщений или скоординированные попытки направить модель в определенном направлении. Такой мониторинг уже существует в области безопасности сетей и приложений, и его распространение на входные данные модели помогает выявлять манипуляции на ранней стадии. Думайте об этом как о фильтрации внедрения подсказок. Фильтры веб-приложений (WAF) защищают базы данных от атак SQL-инъекций. Вам понадобится LLM-фильтр для предотвращения «отравления» модели.

Инструменты обнаружения угроз ИИ, которые имитируют продвинутые ИИ-атаки, также поддерживают такую оценку. Вы должны проводить тестирование на устойчивость ваших ИИ-инструментов, как и для ваших веб-приложений и мобильных приложений. На рынке появляются новые решения безопасности, которые выявляют скрытые уязвимости в системах на базе ИИ. Появляются инструменты безопасности, способные имитировать атаки с внедрением подсказок, «отравление» моделей данными, даже проводить стресс-тестирование модели с искаженными входными данными, что поможет защититься от этих атак.

При работе над ИИ-проектами необходимо изменить образ мышления, чтобы учитывать эти новые угрозы. Целостность модели должна рассматриваться как основной столп вашей стратегии безопасности ИИ, причем ваши команды должны знать, насколько легким и доступным стало такое «отравление» моделей. Многие команды уделяют большое внимание конфиденциальности и контролю доступа, но эти меры предосторожности малоэффективны, если модель обучается на ненадежных или манипулированных данных. Любой, кто создает ИИ-инструмент, взаимодействующий с общедоступным вводом или пользовательским контентом, должен предполагать, что попытки повлиять на его поведение будут предприняты, и готовиться соответственно.

ИИ-инструменты становятся центральными для принятия решений в различных секторах, что делает целостность данных важнее, чем когда-либо. Команды, которые серьезно относятся к этим рискам с самого начала, смогут поддерживать надежность своих систем, даже несмотря на то, что информация вокруг них становится все более легкой для манипулирования.

Эта статья опубликована в рамках сети Foundry Expert Contributor Network.
Хотите присоединиться?

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: