В июне 2025 года Саймон Уиллсон, инженер, придумавший термин «инъекция промптов» (prompt injection), опубликовал предупреждение, которое широко разошлось в сообществе специалистов по безопасности. Он назвал это «смертельной триадой» — тремя возможностями, которые при объединении в одном ИИ-агенте создают почти гарантированный путь к эксплуатации через косвенную инъекцию промптов: доступ к частным данным; подверженность недоверенному контенту; способность осуществлять внешние коммуникации.
Эта формулировка была точной и полезной. Если ваш агент читает вашу электронную почту, обрабатывает произвольный веб-контент и может отправлять исходящие запросы, злоумышленник, внедривший вредоносные инструкции где-либо в этом конвейере обработки контента, может направить агента на эксфильтрацию ваших данных, и вы об этом даже не узнаете. Уиллсон проиллюстрировал эту мысль длинным списком реальных эксплуатаций в продакшене: Microsoft 365 Copilot, сервер MCP от GitHub, GitLab Duo, Slack AI, Google Bard, Amazon Q. Один и тот же класс атак, снова и снова.
Триада работала как сигнал, потому что на тот момент агенты имели в основном узкую область применения. Агент, способный выполнять только одну или две из составляющих смертельной триады функций, мог быть оценен как менее рискованный. Избежать этой комбинации казалось жизнеспособной стратегией проектирования.
Это окно возможностей закрылось, учитывая то, что внедряют специалисты сегодня: клиентский агент поддержки читает историю обращений и записи клиентов, обрабатывает сообщения пользователей и прикрепленные файлы, а также вызывает CRM, API для возврата средств или системы тикетов. Почтовый ИИ читает ваш почтовый ящик и календарь, обрабатывает входящие сообщения от незнакомцев и отправляет ответы от вашего имени.
Это не пограничные случаи или плохо спроектированные развертывания; это те агенты, которые действительно нужны предприятиям и частным лицам, и именно к ним стремятся поставщики.
Смертельная триада как конфигурация по умолчанию
Росс МакКерчар, CISO в Sophos, прямо заявил в статье, опубликованной в мае этого года: «Возможности, которые на самом деле нужны специалистам (читать мои данные, понимать внешний контекст, принимать меры), решительно толкают нас в опасную зону. Это не ошибка конфигурации; это архитектурная цена полезности». Он прав. Агент без доступа к частным данным бесполезен, тот, который не может обрабатывать внешний контент, изолирован, а тот, который не может общаться внешне, инертен. Уберите любую грань триады, и вы получите нечто, больше похожее на поле поиска, чем на агента.
Если каждая легитимная архитектура агента демонстрирует все три свойства триады, то триада перестает быть значимым индикатором повышенного риска. Это конфигурация по умолчанию. Относиться к ней как к тревожному сигналу — это как относиться к разрешению DNS как к признаку компрометации сети. Технически верно в некоторых моделях угроз, но повсеместно присутствует в каждом реальном развертывании.
Статья МакКерчара представляет реакцию как «сокращение радиуса поражения»: разумная операционная философия, но она принимает триаду как данное условие, а не как нечто предотвратимое. Это разумный призыв. Вопрос в том, что следует за этим принятием.
Команда безопасности Meta* пришла к такому же выводу с другой стороны. В октябре 2025 года они опубликовали «Правило Двух» — фреймворк, который рекомендует агентам удовлетворять не более двум из трех свойств триады за одну сессию, при этом требуется одобрение человека (human-in-the-loop), если необходимы все три. Сам Уиллсон одобрил этот фреймворк как «лучший практический совет для создания безопасных систем агентов на базе LLM на сегодняшний день».
Однако в разделе ограничений Meta* признает, что многие востребованные сценарии использования не впишутся в этот фреймворк, и что «дизайны, соответствующие Правилу Двух для агентов, все еще могут быть подвержены сбоям». Это не критика фреймворка, а подтверждение того, что проблема переросла архитектурное решение.
Масштаб воздействия больше не является теоретическим. Проверка Google в репозитории Common Crawl в апреле 2026 года выявила попытки инъекции промптов на общедоступных веб-страницах, от розыгрышей до полезных нагрузок для эксфильтрации данных, причем вредоносные попытки выросли на 32% в период с ноября 2025 по февраль 2026 года. Google отметил, что сложность пока остается низкой, но выделил эту тенденцию как сигнал о созревании интереса злоумышленников.
Среда, о которой предупреждала триада, наступила.
Как выявить скомпрометированного агента
Если триада описывает почти каждого развернутого агента, специалистам нужны сигналы, которые отличают скомпрометированное поведение от нормальной работы в системе, демонстрирующей триаду. Это означает переход от архитектурных оценок к обнаружению поведения в рантайме.
Производственные доказательства поступили кластером. С 7 по 15 января 2026 года исследователи раскрыли эксплойты против четырех различных инструментов повышения производительности на базе ИИ за восемь дней: IBM Bob, Superhuman AI, Notion AI и Claude Cowork от Anthropic. Каждый использовал косвенную инъекцию промптов для эксфильтрации данных через канал, к которому агент имел законный доступ. В случае с Cowork скрытый промпт, внедренный в загруженный документ, направил агента на эксфильтрацию файлов через собственный разрешенный домен API Anthropic, невидимый для какого-либо периметрального контроля и неотличимый от нормального поведения агента, пока данные уже не были потеряны. Во всех этих случаях триада была не фактором риска, а условием работы.
Вот на что стоит обратить внимание, чтобы обнаружить компрометацию агента.
Аномалии в следовании инструкциям. Скомпрометированный агент обычно не делает ничего структурно отличающегося от здорового. Следование инструкциям — его нормальная функция. Разница в том, чьим инструкциям он следует. Ищите действия агента, которые не имеют правдоподобного соответствия задаче, инициированной пользователем. Агент, которому было поручено обобщить квартальный отчет, а затем он пытается выполнить исходящий DNS-запрос к незнакомому домену, не принял это решение спонтанно. Что-то в контенте, который он обработал, велело ему это сделать.
Последовательности вызовов инструментов, нарушающие ожидаемую топологию. В хорошо спроектированной системе агентов граф вызовов инструментов для любой заданной задачи должен быть относительно предсказуемым. Кодирующий агент, вызванный для исправления ошибки, должен работать с файлами, запускать тесты, возможно, проверять документацию. Он не должен обращаться к API электронной почты или календаря. Последовательности вызовов инструментов, пересекающие ожидаемые границы рабочего процесса, стоит помечать, даже если каждый отдельный вызов сам по себе выглядит легитимным.
Эксфильтрация через каналы с низкой пропускной способностью. Классическая атака эксфильтрации через инъекцию промптов направляет украденные данные через механизм, к которому агент имеет законный доступ: URL-адрес отрисованного изображения с закодированными параметрами запроса, вызов API с данными, внедренными в параметр, ссылка в сгенерированном документе. В отрыве они не выглядят как кража данных; они выглядят как нормальный вывод агента. Обнаружение требует сопоставления данных, к которым агент имел доступ, с тем, что он внедрил в свой вывод. Это требует сквозной видимости действий агента, а не только конечного ответа.
Доступ к учетным данным и секретам вне области задачи. Если агент с законным доступом к хранилищу секретов или хранилищу ключей обращается к учетным данным, не связанным с текущей задачей, это сигнал. Агент, исправляющий ошибку рендеринга React, вряд ли должен читать учетные данные AWS. Архитектурной защитой здесь является область действия с наименьшими привилегиями, но мониторинг доступа к учетным данным вне области действия — это уровень обнаружения, который фиксирует сбои в этой области действия.
Аномалии записи в память. Агенты с постоянной памятью представляют собой растущую поверхность атаки. Отравленная запись в памяти, выглядящая как легитимный контекст пользователя, но содержащая спящие триггерные инструкции, может сохраняться между сессиями и срабатывать спустя долгое время после первоначальной инъекции. Мониторинг записей в память, содержащих контент, похожий на инструкции, или записей, сделанных во время сессий, в которых обрабатывался недоверенный контент, стоит добавить в любой конвейер наблюдаемости агентов.
Только рантайм может решить угрозу перенаправления агента
Для специалистов, управляющих производственной инфраструктурой агентов, смертельная триада сообщает то, что вы и так знаете: ваши агенты подвержены риску. Вопрос в том, что с этим делать.
Решения лежат на уровне рантайма, а не архитектуры. Именно там находятся EDR и SIEM для традиционной инфраструктуры — агентам нужна такая же инструментация, и в большинстве развертываний ее пока нет. Полные трассировки выполнения при каждом вызове агента. Обнаружение аномалий вызовов инструментов. Проверка входных данных при приеме. Мониторинг доступа к учетным данным с привязкой к контексту задачи. Аудит записей в память. Не вход в систему атакующего человека. Агент, который был тихо перенаправлен.
Триада Уиллсона была правильным сигналом для своего времени, которым был прошлый год. Почти каждый производственный агент теперь соответствует этому профилю. Из-за этого только обнаружение аномалий в рантайме может потенциально обеспечить адекватную защиту. Приведенные выше сигналы — хорошее место для начала.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ax Sharma




