Последние три года разумные организации защищали свои ИИ-инструменты от изощренных атак типа «внедрение подсказок». Предполагалось, что для отравления фундаментальной модели, истинного «мозга» ИИ-систем, требуются технические знания, привилегированный доступ или скоординированная группа злоумышленников. Это предположение больше не актуально и знаменует собой значительный сдвиг в том, как организациям следует подходить к безопасности ИИ в целом и очистке обучающих данных в частности.
Недавние данные показывают, что примерно 250 документов или изображений могут исказить поведение большой языковой модели, независимо от ее размера. Это сильно отличается от прежних предположений, что для сбивания модели с курса потребуются тысячи или даже миллионы поврежденных точек данных. Этот новый порог в 250 документов достаточно низок, чтобы активисты, инфлюенсеры или конкуренты могли манипулировать результатами работы модели, не обладая особыми техническими навыками.
Онлайн-сообщества уже начали тестировать и даже «отравлять» обучающие данные для некоторых LLM. Существует один конкретный сабреддит, который призывает пользователей публиковать вымышленные факты с целью влияния на ИИ-модели. Несколько лет назад такие усилия не воспринимались бы всерьез. Теперь специалисты по кибербезопасности знают, что манипулирование ИИ гораздо проще и доступнее, а риск намного выше, чем просто развлечения на Reddit. Преступники, злоумышленники, государства, даже отдельные лица могут генерировать контент на сайтах, которые, как известно, используются для обучения LLM, и «отравлять» данные. Противники могут быстро и легко внедрять вредоносные или предвзятые данные в конвейер обучения или процесс дообучения.
Хотя мы давно понимали, что «мусор на входе — мусор на выходе», другой эксперимент показывает, что последствия плохих данных сохраняются еще долго после прекращения воздействия. Команда из Университета Пердью, Техасского университета A&M и Техасского университета в Остине обнаружила, что существуют явные признаки снижения производительности по мере того, как модели поглощают «мусорный» контент, и добавление чистых данных позже не полностью обратило этот спад. Любая система, которая обучается или дообучается на общедоступных данных, уязвима к такому долгосрочному дрейфу модели, если не реализованы меры безопасности для ее защиты.
Помимо деградации модели, в обучающие данные могут быть внедрены и бэкдоры, позволяющие злоумышленникам заставить фундаментальную модель вести себя предсказуемым образом. Anthropic опубликовала статью на эту тему в октябре, где они внедрили бэкдор, который мог инициировать утечку данных. Этот тип атаки потенциально очень трудно обнаружить, и бэкдор может вызывать различные действия модели, а не только утечку данных.
Эти события ясно показывают, что «отравление данных» выходит далеко за рамки высокотехнологичных целевых атак. Розничный продавец, использующий ИИ-чат-бот для общения с клиентами, может заметить изменение ответов, если кто-то будет неоднократно отправлять синтетические отзывы или преувеличенные жалобы, если не будут приняты меры безопасности для обнаружения такого рода атак. Финансовые системы могут выдавать искаженные комментарии о компании, если достаточное количество фальшивых сообщений заполнит поток данных, на который полагается модель для получения новой информации. Даже экономика инфлюенсеров предоставляет возможности для манипулирования результатами, поскольку повторная похвала или критика продукта в конечном итоге может убедить модель в том, что такое мнение широко распространено.
Для организаций, разрабатывающих ИИ-инструменты, это означает, что ландшафт угроз расширился таким образом, что требуются дополнительные процедуры и меры предосторожности.
Одной из наиболее надежных мер защиты является создание чистой, проверенной версии модели перед развертыванием. Это можно представить как наличие «золотой» версии вашей доверенной модели, которую вы используете в качестве ориентира для проверки на аномалии. Эта золотая версия становится точкой отсчета, с которой команды могут быстро сверяться или к которой можно вернуться при необходимости в любое время, подобно восстановлению устройства до заводских настроек. Если модель начинает выдавать неожиданные результаты или демонстрирует ранние признаки дрейфа, возврат к чистой базовой линии позволяет избежать неопределенности и временных затрат на отслеживание того, какие входные данные вызвали изменение.
Регулярное расписание сброса также может ограничить последствия «отравления»; возврат системы к известному чистому состоянию, возможно, раз в неделю, может предотвратить накопление больших объемов непроверенных или манипулированных входных данных.
Мониторинг данных, поступающих в модель, — еще один важный шаг. Команды должны отслеживать аномальные закономерности, повторяющиеся фразы, внезапные всплески похожих сообщений или скоординированные попытки направить модель в определенном направлении. Такой мониторинг уже существует в области безопасности сетей и приложений, и его распространение на входные данные модели помогает выявлять манипуляции на ранней стадии. Думайте об этом как о фильтрации внедрения подсказок. Фильтры веб-приложений (WAF) защищают базы данных от атак SQL-инъекций. Вам понадобится LLM-фильтр для предотвращения «отравления» модели.
Инструменты обнаружения угроз ИИ, которые имитируют продвинутые ИИ-атаки, также поддерживают такую оценку. Вы должны проводить тестирование на устойчивость ваших ИИ-инструментов, как и для ваших веб-приложений и мобильных приложений. На рынке появляются новые решения безопасности, которые выявляют скрытые уязвимости в системах на базе ИИ. Появляются инструменты безопасности, способные имитировать атаки с внедрением подсказок, «отравление» моделей данными, даже проводить стресс-тестирование модели с искаженными входными данными, что поможет защититься от этих атак.
При работе над ИИ-проектами необходимо изменить образ мышления, чтобы учитывать эти новые угрозы. Целостность модели должна рассматриваться как основной столп вашей стратегии безопасности ИИ, причем ваши команды должны знать, насколько легким и доступным стало такое «отравление» моделей. Многие команды уделяют большое внимание конфиденциальности и контролю доступа, но эти меры предосторожности малоэффективны, если модель обучается на ненадежных или манипулированных данных. Любой, кто создает ИИ-инструмент, взаимодействующий с общедоступным вводом или пользовательским контентом, должен предполагать, что попытки повлиять на его поведение будут предприняты, и готовиться соответственно.
ИИ-инструменты становятся центральными для принятия решений в различных секторах, что делает целостность данных важнее, чем когда-либо. Команды, которые серьезно относятся к этим рискам с самого начала, смогут поддерживать надежность своих систем, даже несмотря на то, что информация вокруг них становится все более легкой для манипулирования.
Эта статья опубликована в рамках сети Foundry Expert Contributor Network.
Хотите присоединиться?
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – John Bruggeman




