От защитных барьеров к управлению: руководство для CEO по обеспечению безопасности агентных систем

Jenn Webb

04.02.2026

ии безопасность ии агенты ии управление рисками кибербезопасность контроль доступа

Статья предлагает 8-шаговый план по управлению рисками, связанными с агентами ИИ. Рассматриваются вопросы идентификации, контроля инструментов, данных и поведения, а также обеспечения управления и устойчивости.

Предыдущая статья этой серии, «Правила терпят неудачу на этапе запроса, но работают на границе», была посвящена первой кампании шпионажа, оркестрованной ИИ, и провалу контроля на уровне запросов. Эта статья — предписание. Вопрос, который каждый CEO теперь получает от своего совета директоров, звучит примерно так: Что нам делать с риском, связанным с агентами?

В последних рекомендациях по безопасности ИИ от стандартизирующих органов, регуляторов и крупных поставщиков постоянно повторяется простая идея: относитесь к агентам как к мощным, полуавтономным пользователям и применяйте правила на границах, где они взаимодействуют с идентификацией, инструментами, данными и результатами.

Ниже представлен практический план из восьми шагов, который можно предложить командам для реализации и отчетности:

Ограничение возможностей

Эти шаги помогают определить идентификацию и ограничить возможности.

1. Идентификация и область применения: Сделайте агентов реальными пользователями с узкими задачами

Сегодня агенты работают под неопределенными, чрезмерно привилегированными идентификаторами служб. Решение простое: относитесь к каждому агенту как к нечеловеческому субъекту с той же дисциплиной, что применяется к сотрудникам.

Каждый агент должен работать как запрашивающий пользователь в соответствующем клиенте, с разрешениями, ограниченными ролью и географией этого пользователя. Запретите обходные пути «от имени» между клиентами. Любые действия с высоким уровнем воздействия должны требовать явного одобрения человека с зафиксированным обоснованием. Именно так должны применяться на практике Secure AI Framework (SAIF) от Google и рекомендации NIST AI по контролю доступа.

Вопрос CEO: Можем ли мы сегодня предоставить список наших агентов и точно определить, что каждый из них может делать?

2. Контроль инструментов: Закрепляйте, утверждайте и ограничивайте то, что могут использовать агенты

Фреймворк шпионажа Anthropic работал, потому что злоумышленники могли подключить Claude к гибкому набору инструментов (например, сканерам, фреймворкам эксплуатации, парсерам данных) через Model Context Protocol, и эти инструменты не были закреплены или ограничены политикой.

Защита заключается в том, чтобы относиться к цепочкам инструментов как к цепочке поставок:

Закрепляйте версии удаленных серверов инструментов.
Требуйте одобрения для добавления новых инструментов, областей применения или источников данных.
Запрещайте автоматическое построение цепочек инструментов, если политика явно это не разрешает.

Именно на это указывает OWASP в разделе чрезмерной самостоятельности и от чего рекомендует защищаться. В соответствии с Законом ЕС об ИИ, разработка с учетом такой киберустойчивости и сопротивления злоупотреблениям является частью обязательства по статье 15 обеспечивать надежность и кибербезопасность.

Вопрос CEO: Кто дает разрешение, когда агент получает новый инструмент или более широкую область применения? Как об этом узнать?

3. Разрешения по дизайну: Связывайте инструменты с задачами, а не с моделями

Распространенный антипаттерн — выдавать модели учетные данные с длительным сроком действия и надеяться, что запросы удержат ее в рамках дозволенного. SAIF и NIST утверждают обратное: учетные данные и области применения должны быть связаны с инструментами и задачами, регулярно ротироваться и быть аудируемыми. Затем агенты запрашивают узкоспециализированные возможности через эти инструменты.

На практике это выглядит так: «finance-ops-agent может читать, но не записывать определенные регистры без одобрения финансового директора».

Вопрос CEO: Можем ли мы отозвать конкретную возможность у агента, не перестраивая всю систему?

Контроль данных и поведения

Эти шаги контролируют входные и выходные данные и ограничивают поведение.

4. Входные данные, память и RAG: Относитесь к внешнему контенту как к враждебному, пока не доказано обратное

Большинство инцидентов с агентами начинаются со скрытых данных: отравленной веб-страницы, PDF-файла, электронного письма или репозитория, которые доставляют в систему враждебные инструкции. Чит-лист OWASP по инъекциям в запросы и собственные рекомендации OpenAI настаивают на строгом разделении системных инструкций и пользовательского контента, а также на отношении к непроверенным источникам извлечения как к ненадежным.

Операционно: контролируйте данные перед их попаданием в систему извлечения или долговременную память: новые источники проверяются, помечаются и вводятся в эксплуатацию; постоянная память отключается при наличии недоверенного контекста; к каждому фрагменту данных прилагается информация о происхождении.

Вопрос CEO: Можем ли мы перечислить все внешние источники контента, из которых учатся наши агенты, и кто их одобрил?

5. Обработка и рендеринг вывода: Ничего не выполняется «просто потому, что так сказал модель»

В случае с Anthropic сгенерированный ИИ код эксплуатации и дампы учетных данных прямо переходили к действию. Любой вывод, который может вызвать побочный эффект, требует валидатора между агентом и реальным миром. Категория небезопасной обработки вывода OWASP явно указывает на это, как и лучшие практики безопасности браузеров, связанные с границами происхождения.

Вопрос CEO: Где в нашей архитектуре оцениваются результаты работы агентов перед их выполнением или отправкой клиентам?

6. Конфиденциальность данных во время выполнения: Сначала защитите данные, затем модель

Защищайте данные таким образом, чтобы по умолчанию не было ничего опасного для раскрытия. NIST и SAIF склоняются к «безопасным по умолчанию» решениям, где конфиденциальные значения токенизируются или маскируются и восстанавливаются только для авторизованных пользователей и сценариев использования.

В системах с агентами это означает контролируемую политикой детокенизацию на границе вывода и протоколирование каждого раскрытия. Если агент полностью скомпрометирован, радиус поражения ограничивается тем, что политика позволяет ему видеть.

Именно здесь стек ИИ пересекается не только с Законом ЕС об ИИ, но и с GDPR и отраслевыми нормами. Закон ЕС об ИИ ожидает, что поставщики и развертывающие организации будут управлять рисками, специфичными для ИИ; выполнение токенизации во время выполнения и раскрытие данных по политике являются веским доказательством активного контроля этих рисков в производственной среде.

Вопрос CEO: Когда наши агенты работают с нормативными данными, эта защита обеспечивается архитектурой или обещаниями?

Докажите управление и устойчивость

Для последних шагов важно показать, что элементы управления работают и продолжают работать.

7. Непрерывная оценка: Не просто одноразовый тест, а система тестирования

Исследование Anthropic о «спящих агентах» должно развеять все иллюзии об одноразовых тестах и показать, насколько критически важна непрерывная оценка. Это означает оснащение агентов глубокой наблюдаемостью, регулярное проведение красных команд с использованием наборов враждебных тестов и поддержку всего надежным логированием и доказательствами, чтобы сбои становились как регрессионными тестами, так и обновляемыми политиками.

Вопрос CEO: Кто каждую неделю пытается взломать наших агентов, и как их находки меняют политику?

8. Управление, инвентаризация и аудит: Ведите счет в одном месте

Фреймворки безопасности ИИ подчеркивают важность инвентаризации и доказательств: предприятия должны знать, какие модели, запросы, инструменты, наборы данных и векторные хранилища у них есть, кто ими владеет и какие решения были приняты относительно рисков.

Для агентов это означает живой каталог и унифицированные журналы:

Какие агенты существуют, на каких платформах
Какие области применения, инструменты и данные разрешены каждому
Каждое одобрение, детокенизация и действие с высоким уровнем воздействия, с указанием того, кто одобрил и когда

Вопрос CEO: Если нас спросят, как агент принял конкретное решение, сможем ли мы восстановить цепочку?

И не забывайте о системной модели угроз: предполагайте, что злоумышленник GTG-1002 уже находится в вашем предприятии. Чтобы завершить подготовку предприятия, расширьте область зрения и рассмотрите продукт MITRE ATLAS, который существует именно потому, что злоумышленники атакуют системы, а не модели. Anthropic предоставляет пример государственного актора угроз (GTG-1002), который делает именно это с использованием фреймворка агентов.

В совокупности эти меры контроля не делают агентов волшебным образом безопасными. Они делают нечто более привычное и надежное: возвращают ИИ, его доступ и действия в ту же систему безопасности, которая используется для любого мощного пользователя или системы.

Для советов директоров и CEO вопрос больше не в том, «Есть ли у нас хорошие ограждения для ИИ?». Вопрос в том: можем ли мы ответить на приведенные выше вопросы CEO с доказательствами, а не с заверениями?

Этот контент был создан Protegrity. Он не был написан редакцией MIT Technology Review.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Jenn Webb

Оригинал статьи

Искать на сайте

От защитных барьеров к управлению: руководство для CEO по обеспечению безопасности агентных систем

Ограничение возможностей

1. Идентификация и область применения: Сделайте агентов реальными пользователями с узкими задачами

3. Разрешения по дизайну: Связывайте инструменты с задачами, а не с моделями

Контроль данных и поведения

4. Входные данные, память и RAG: Относитесь к внешнему контенту как к враждебному, пока не доказано обратное

5. Обработка и рендеринг вывода: Ничего не выполняется «просто потому, что так сказал модель»

6. Конфиденциальность данных во время выполнения: Сначала защитите данные, затем модель

Докажите управление и устойчивость

7. Непрерывная оценка: Не просто одноразовый тест, а система тестирования

8. Управление, инвентаризация и аудит: Ведите счет в одном месте

В тренде:

Похожие новости:

От защитных барьеров к управлению: руководство для CEO по обеспечению безопасности агентных систем

Ограничение возможностей

1. Идентификация и область применения: Сделайте агентов реальными пользователями с узкими задачами

3. Разрешения по дизайну: Связывайте инструменты с задачами, а не с моделями

Контроль данных и поведения

4. Входные данные, память и RAG: Относитесь к внешнему контенту как к враждебному, пока не доказано обратное

5. Обработка и рендеринг вывода: Ничего не выполняется «просто потому, что так сказал модель»

6. Конфиденциальность данных во время выполнения: Сначала защитите данные, затем модель

Докажите управление и устойчивость

7. Непрерывная оценка: Не просто одноразовый тест, а система тестирования

8. Управление, инвентаризация и аудит: Ведите счет в одном месте

В тренде:

Похожие новости:

Meta*, подобно SpaceX, планирует монетизировать избыточные мощности ИИ

Исследователи ИИ заставили чат-ботов рассказать, как делать кокаин, убедив их,

Anthropic возвращает Claude Fable 5 после снятия экспортного контроля в

Claude возвращается во всем мире: новый классификатор блокирует «jailbreak» и