Главные киберугрозы для ваших систем и инфраструктуры искусственного интеллекта.

безопасность ии,атаки на ии,отравление данных,инъекция промптов,кибербезопасность

Атаки на системы и инфраструктуру ИИ набирают обороты. Эксперты предупреждают, что организации спешили внедрять ИИ, пренебрегая усилением мер безопасности, и теперь не готовы противостоять угрозам: от отравления данных до инъекций промптов и кражи моделей. CISO должны разработать проактивную стратегию безопасности ИИ.

Атаки на системы и инфраструктуру искусственного интеллекта начинают принимать реальные очертания, и эксперты по безопасности ожидают, что число таких видов атак возрастет в ближайшие годы. В спешке, стремясь реализовать преимущества ИИ, большинство организаций действовали весьма вольно в отношении усиления мер безопасности при внедрении инструментов и сценариев использования ИИ. В результате эксперты также предупреждают, что многие организации не готовы обнаруживать, отражать или реагировать на подобные атаки.

«Большинство осведомлены о возможности таких атак, но я не думаю, что многие до конца понимают, как должным образом смягчить этот риск», — говорит Джон Ликато, доцент Колледжа искусственного интеллекта, кибербезопасности и вычислений Беллини в Университете Южной Флориды, основатель и директор лаборатории по развитию машинного и человеческого мышления, а также владелец стартапа Actualization.AI.

Главные угрозы для систем ИИ

Появляется множество типов атак на системы ИИ. Некоторые атаки, такие как отравление данных (data poisoning), происходят во время обучения. Другие, например, состязательные входы (adversarial inputs), случаются в процессе вывода. Третьи же, как кража модели (model theft), происходят на этапе развертывания.

Ниже приведен обзор основных типов угроз для инфраструктуры ИИ, о которых предупреждают эксперты сегодня. Некоторые из них более редки или теоретически возможны, чем другие, хотя многие уже наблюдались в «дикой природе» или были продемонстрированы исследователями в виде примечательных доказательств концепции.

Отравление данных

Отравление данных — это тип атаки, при котором злоумышленники манипулируют, изменяют и загрязняют данные, используемые для разработки или обучения систем ИИ, включая модели машинного обучения. Загрязняя данные или вводя ошибочные сведения, атакующие могут изменить, сместить или иным образом исказить производительность модели.

«Представьте себе атаку, которая заставляет модель считать, что зеленый цвет означает „стоп“, а не „вперед“», — говорит Роберт Т. Ли, CAIO и руководитель отдела исследований в SANS, фирме по обучению и сертификации в области безопасности. «Это делается для деградации результатов работы модели», — поясняет он.

Отравление модели

Здесь атака направлена на саму модель с целью получения неточных результатов путем вмешательства в ее архитектуру или параметры. Некоторые определения отравления моделей также включают атаки, при которых обучающие данные модели были испорчены посредством отравления данных.

Отравление инструментов (Tool poisoning)

Лаборатория Invariant Labs выявила этот тип атаки весной 2025 года. Объявляя о своих выводах, Invariant писала, что обнаружила «критическую уязвимость в Протоколе контекста модели (MCP), которая позволяет проводить так называемые Атаки отравления инструментов. Эта уязвимость может привести к утечке конфиденциальных данных и несанкционированным действиям со стороны моделей ИИ».

Компания далее отметила, что ее эксперименты показали: «вредоносный сервер может не только извлекать конфиденциальные данные пользователя, но и перехватывать поведение агента и отменять инструкции, предоставленные другими, доверенными серверами, что приводит к полной компрометации функциональности агента, даже в отношении доверенной инфраструктуры».

Эти атаки включают внедрение вредоносных инструкций внутрь описаний инструментов MCP, которые, будучи интерпретированы моделями ИИ, могут захватить контроль над моделью. По словам Чирага Мехты, вице-президента и ведущего аналитика Constellation Research, эти атаки, по сути, «портят слой MCP, чтобы обманом заставить агента что-то сделать».

Подробнее об угрозах MCP см. в статье «Топ-10 уязвимостей MCP: Скрытые риски интеграции ИИ».

Инъекция промптов (Prompt injection)

Во время атаки типа «инъекция промптов» хакеры используют запросы, выглядящие легитимными, но на самом деле содержащие внедренные вредоносные команды, предназначенные для того, чтобы заставить большую языковую модель выполнить несанкционированное действие. Хакеры используют эти промпты, чтобы обманом заставить модель обойти или отменить свои защитные механизмы, раскрыть конфиденциальные данные или выполнить неавторизованные действия.

«С помощью инъекции промптов можно изменить то, что должен делать агент ИИ», — говорит Фабиен Крос, директор по данным и ИИ в глобальной консалтинговой фирме Ducker Carlisle.

Недавно было сообщено о нескольких заметных атаках с инъекцией промптов и доказательствах концепции, включая обман ChatGPT исследователями, заставившими его провести самоинъекцию промптов, внедрение злоумышленниками вредоносных промптов в макросы документов и демонстрацию исследователями атак с инъекцией промптов с нулевым кликом на популярных агентах ИИ.

Состязательные входы

Владельцы и операторы моделей используют измененные данные для проверки устойчивости моделей, но хакеры используют их для вывода из строя. При атаке с помощью состязательных входов злоумышленники подают модели обманчивые данные с целью заставить ее выдать неверный результат.

Изменения во внедряемых данных обычно незначительны, или обманчивые данные могут представлять собой шум; эти изменения намеренно делаются достаточно тонкими, чтобы избежать обнаружения системами безопасности, но при этом они способны сбить модель с толку. Это делает состязательные входы типом атаки уклонения (evasion attack).

Кража модели/Извлечение модели

Злоумышленники могут реплицировать или реверс-инжинирингом воссоздать модель, ее параметры и даже обучающие данные. Обычно они делают это, используя общедоступные API — например, API прогнозирования модели или API облачных сервисов — для многократного опроса модели и сбора результатов.

Затем они могут проанализировать, как модель реагирует, и использовать этот анализ для ее воссоздания.

«Это позволяет несанкционированно дублировать сами инструменты», — говорит Эллисон Уикофф, директор и руководитель направления по глобальной разведке угроз в PwC по Америке.

Инверсия модели

Инверсия модели относится к специфической атаке извлечения, при которой противник пытается восстановить или вывести данные, использовавшиеся для обучения модели.

Название происходит от того, что хакеры «инвертируют» модель, используя ее выходные данные для восстановления или обратного инжиниринга информации об исходных данных, которые использовались для обучения модели.

Риски цепочки поставок

Как и другие программные системы, системы ИИ строятся из комбинации компонентов, которые могут включать в себя код с открытым исходным кодом, модели с открытым исходным кодом, сторонние модели и различные источники данных. Любая уязвимость безопасности в этих компонентах может проявиться в системах ИИ. Это делает системы ИИ уязвимыми для атак на цепочку поставок, когда хакеры могут использовать уязвимости в компонентах для запуска атаки.

Примеры см. в статье «Угрозы цепочке поставок ИИ надвигаются — пока практики безопасности отстают».

Джейлбрейкинг (Jailbreaking)

Цель злоумышленников, также называемая «джейлбрейкингом модели», состоит в том, чтобы заставить системы ИИ, главным образом путем взаимодействия с большими языковыми моделями (LLM), игнорировать защитные барьеры, ограничивающие их действия и поведение, например, меры предосторожности, предотвращающие вредоносные, оскорбительные или неэтичные результаты.

Хакеры могут использовать различные методы для осуществления этого типа атаки. Например, они могут использовать эксплойт ролевой игры (также известный как атака ролевой игры), используя команды для предписания ИИ принять на себя роль (например, разработчика), которая может обойти защитные барьеры. Они могут маскировать вредоносные инструкции в кажущихся легитимными промптах или использовать кодирование, иностранные слова или символы клавиатуры для обхода фильтров. Они также могут использовать промпт, оформленный как гипотетический или исследовательский вопрос, или серию промптов, ведущих к их конечной цели.

Эти цели, которые также разнообразны, включают заставление систем ИИ писать вредоносный код, распространять проблемный контент и раскрывать конфиденциальные данные.

«Когда существует интерфейс чата, есть способы взаимодействия с ним, чтобы заставить его работать вне заданных параметров», — говорит Ликато. «Это обратная сторона обладания все более мощной системой рассуждений».

Противодействие угрозам системам ИИ

Пока их коллеги-руководители активно внедряют инициативы в области ИИ в поисках повышенной производительности и инноваций, руководители по информационной безопасности (CISO) должны играть активную роль в обеспечении того, чтобы безопасность этих инициатив — и ИИ-инфраструктуры организации в целом — была наивысшим приоритетом.

Согласно недавнему опросу компании HackerOne, занимающейся технологиями безопасности, 84% CISO в настоящее время отвечают за безопасность ИИ, а 82% — за конфиденциальность данных. Если CISO не будут развивать свои стратегии безопасности для противодействия атакам на системы ИИ и питающие их данные, будущие проблемы скажутся на их руководстве — независимо от того, были ли они приглашены к столу, когда концепции и запуск инициатив в области ИИ обсуждались.

В результате, по словам Мехты из Constellation, у CISO есть «потребность в проактивной стратегии безопасности ИИ».

«Безопасность ИИ — это не только техническая проблема, но и стратегический императив, требующий одобрения руководства и межфункционального сотрудничества», — пишет он в своем отчете 2025 года «Безопасность ИИ за пределами традиционных киберзащит: Переосмысление кибербезопасности для эпохи ИИ и автономии». «Управление данными является основополагающим, поскольку обеспечение безопасности ИИ начинается с гарантии целостности и происхождения обучающих данных и входных данных модели. Группам безопасности необходимо развивать новые знания для работы с рисками, управляемыми ИИ, а руководителям бизнеса необходимо осознавать последствия автономных систем ИИ и рамок управления, необходимых для их ответственного управления».

Появляются стратегии оценки, управления и противодействия угрозе атак на системы ИИ. В дополнение к поддержанию строгого управления данными и другим основным передовым методам киберзащиты, эксперты по ИИ и безопасности считают, что CISO и их организации должны оценивать модели ИИ перед их развертыванием, отслеживать используемые системы ИИ и использовать команды “red teams” для тестирования моделей.

CISO, возможно, потребуется предпринять конкретные действия для противодействия определенным атакам, говорит Уикофф из PwC. Например, CISO, стремящиеся предотвратить кражу моделей, могут отслеживать подозрительные запросы и шаблоны, а также устанавливать тайм-ауты и регистрировать ответы с ограничением скорости. Или, чтобы помочь предотвратить атаки уклонения, руководители служб безопасности могут использовать состязательное обучение — по сути, обучая модели защищаться от таких типов атак.

Принятие MITRE ATLAS — еще один шаг. Эта структура, аббревиатура от «Карта угроз для систем искусственного интеллекта» (Adversarial Threat Landscape for Artificial-Intelligence Systems), предоставляет базу знаний, отображающую, как атакующие нацеливаются на системы ИИ, и подробно описывает тактики, методы и процедуры (TTP), которые можно идентифицировать.

Эксперты по безопасности и ИИ признают трудности выполнения таких шагов. Многие CISO сталкиваются с более насущными угрозами, включая теневой ИИ и атаки, которые становятся быстрее, изощреннее и труднее обнаруживаются, отчасти благодаря использованию ИИ самими злоумышленниками. И учитывая, что атаки на системы ИИ все еще находятся на ранней стадии, а некоторые типы атак все еще считаются теоретическими, CISO сталкиваются с трудностями в получении ресурсов для разработки стратегий и навыков для противодействия атакам на системы ИИ.

«Для CISO это очень сложная задача, поскольку исследования атак на бэкэнды ИИ все еще ведутся. Мы находимся на ранних этапах понимания того, что делают хакеры и почему», — говорит Ли из SANS.

Ли и другие признают конкурентное давление на организации, стремящиеся извлечь максимальную пользу из ИИ, однако они подчеркивают, что CISO и их коллеги-руководители не могут позволить себе рассматривать безопасность систем ИИ как нечто второстепенное.

«Продумывание того, какими могут быть эти атаки при построении инфраструктуры, имеет ключевое значение для CISO», — говорит Мэтт Горхэм, руководитель Института кибербезопасности и рисков PwC.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Qual-score: 8/9
Bayan-score: 0.782071173