От защитных барьеров к управлению: руководство для CEO по обеспечению безопасности агентных систем

ии безопасность ии агенты ии управление рисками кибербезопасность контроль доступа

Статья предлагает 8-шаговый план по управлению рисками, связанными с агентами ИИ. Рассматриваются вопросы идентификации, контроля инструментов, данных и поведения, а также обеспечения управления и устойчивости.

Предыдущая статья этой серии, «Правила терпят неудачу на этапе запроса, но работают на границе», была посвящена первой кампании шпионажа, оркестрованной ИИ, и провалу контроля на уровне запросов. Эта статья — предписание. Вопрос, который каждый CEO теперь получает от своего совета директоров, звучит примерно так: Что нам делать с риском, связанным с агентами?

В последних рекомендациях по безопасности ИИ от стандартизирующих органов, регуляторов и крупных поставщиков постоянно повторяется простая идея: относитесь к агентам как к мощным, полуавтономным пользователям и применяйте правила на границах, где они взаимодействуют с идентификацией, инструментами, данными и результатами.

Ниже представлен практический план из восьми шагов, который можно предложить командам для реализации и отчетности:

Ограничение возможностей

Эти шаги помогают определить идентификацию и ограничить возможности.

1. Идентификация и область применения: Сделайте агентов реальными пользователями с узкими задачами

Сегодня агенты работают под неопределенными, чрезмерно привилегированными идентификаторами служб. Решение простое: относитесь к каждому агенту как к нечеловеческому субъекту с той же дисциплиной, что применяется к сотрудникам.

Каждый агент должен работать как запрашивающий пользователь в соответствующем клиенте, с разрешениями, ограниченными ролью и географией этого пользователя. Запретите обходные пути «от имени» между клиентами. Любые действия с высоким уровнем воздействия должны требовать явного одобрения человека с зафиксированным обоснованием. Именно так должны применяться на практике Secure AI Framework (SAIF) от Google и рекомендации NIST AI по контролю доступа.

Вопрос CEO: Можем ли мы сегодня предоставить список наших агентов и точно определить, что каждый из них может делать?

2. Контроль инструментов: Закрепляйте, утверждайте и ограничивайте то, что могут использовать агенты

Фреймворк шпионажа Anthropic работал, потому что злоумышленники могли подключить Claude к гибкому набору инструментов (например, сканерам, фреймворкам эксплуатации, парсерам данных) через Model Context Protocol, и эти инструменты не были закреплены или ограничены политикой.

Защита заключается в том, чтобы относиться к цепочкам инструментов как к цепочке поставок:

  • Закрепляйте версии удаленных серверов инструментов.
  • Требуйте одобрения для добавления новых инструментов, областей применения или источников данных.
  • Запрещайте автоматическое построение цепочек инструментов, если политика явно это не разрешает.

Именно на это указывает OWASP в разделе чрезмерной самостоятельности и от чего рекомендует защищаться. В соответствии с Законом ЕС об ИИ, разработка с учетом такой киберустойчивости и сопротивления злоупотреблениям является частью обязательства по статье 15 обеспечивать надежность и кибербезопасность.

Вопрос CEO: Кто дает разрешение, когда агент получает новый инструмент или более широкую область применения? Как об этом узнать?

3. Разрешения по дизайну: Связывайте инструменты с задачами, а не с моделями

Распространенный антипаттерн — выдавать модели учетные данные с длительным сроком действия и надеяться, что запросы удержат ее в рамках дозволенного. SAIF и NIST утверждают обратное: учетные данные и области применения должны быть связаны с инструментами и задачами, регулярно ротироваться и быть аудируемыми. Затем агенты запрашивают узкоспециализированные возможности через эти инструменты.

На практике это выглядит так: «finance-ops-agent может читать, но не записывать определенные регистры без одобрения финансового директора».

Вопрос CEO: Можем ли мы отозвать конкретную возможность у агента, не перестраивая всю систему?

Контроль данных и поведения

Эти шаги контролируют входные и выходные данные и ограничивают поведение.

4. Входные данные, память и RAG: Относитесь к внешнему контенту как к враждебному, пока не доказано обратное

Большинство инцидентов с агентами начинаются со скрытых данных: отравленной веб-страницы, PDF-файла, электронного письма или репозитория, которые доставляют в систему враждебные инструкции. Чит-лист OWASP по инъекциям в запросы и собственные рекомендации OpenAI настаивают на строгом разделении системных инструкций и пользовательского контента, а также на отношении к непроверенным источникам извлечения как к ненадежным.

Операционно: контролируйте данные перед их попаданием в систему извлечения или долговременную память: новые источники проверяются, помечаются и вводятся в эксплуатацию; постоянная память отключается при наличии недоверенного контекста; к каждому фрагменту данных прилагается информация о происхождении.

Вопрос CEO: Можем ли мы перечислить все внешние источники контента, из которых учатся наши агенты, и кто их одобрил?

5. Обработка и рендеринг вывода: Ничего не выполняется «просто потому, что так сказал модель»

В случае с Anthropic сгенерированный ИИ код эксплуатации и дампы учетных данных прямо переходили к действию. Любой вывод, который может вызвать побочный эффект, требует валидатора между агентом и реальным миром. Категория небезопасной обработки вывода OWASP явно указывает на это, как и лучшие практики безопасности браузеров, связанные с границами происхождения.

Вопрос CEO: Где в нашей архитектуре оцениваются результаты работы агентов перед их выполнением или отправкой клиентам?

6. Конфиденциальность данных во время выполнения: Сначала защитите данные, затем модель

Защищайте данные таким образом, чтобы по умолчанию не было ничего опасного для раскрытия. NIST и SAIF склоняются к «безопасным по умолчанию» решениям, где конфиденциальные значения токенизируются или маскируются и восстанавливаются только для авторизованных пользователей и сценариев использования.

В системах с агентами это означает контролируемую политикой детокенизацию на границе вывода и протоколирование каждого раскрытия. Если агент полностью скомпрометирован, радиус поражения ограничивается тем, что политика позволяет ему видеть.

Именно здесь стек ИИ пересекается не только с Законом ЕС об ИИ, но и с GDPR и отраслевыми нормами. Закон ЕС об ИИ ожидает, что поставщики и развертывающие организации будут управлять рисками, специфичными для ИИ; выполнение токенизации во время выполнения и раскрытие данных по политике являются веским доказательством активного контроля этих рисков в производственной среде.

Вопрос CEO: Когда наши агенты работают с нормативными данными, эта защита обеспечивается архитектурой или обещаниями?

Докажите управление и устойчивость

Для последних шагов важно показать, что элементы управления работают и продолжают работать.

7. Непрерывная оценка: Не просто одноразовый тест, а система тестирования

Исследование Anthropic о «спящих агентах» должно развеять все иллюзии об одноразовых тестах и показать, насколько критически важна непрерывная оценка. Это означает оснащение агентов глубокой наблюдаемостью, регулярное проведение красных команд с использованием наборов враждебных тестов и поддержку всего надежным логированием и доказательствами, чтобы сбои становились как регрессионными тестами, так и обновляемыми политиками.

Вопрос CEO: Кто каждую неделю пытается взломать наших агентов, и как их находки меняют политику?

 8. Управление, инвентаризация и аудит: Ведите счет в одном месте

Фреймворки безопасности ИИ подчеркивают важность инвентаризации и доказательств: предприятия должны знать, какие модели, запросы, инструменты, наборы данных и векторные хранилища у них есть, кто ими владеет и какие решения были приняты относительно рисков.

Для агентов это означает живой каталог и унифицированные журналы:

  • Какие агенты существуют, на каких платформах
  • Какие области применения, инструменты и данные разрешены каждому
  • Каждое одобрение, детокенизация и действие с высоким уровнем воздействия, с указанием того, кто одобрил и когда

Вопрос CEO: Если нас спросят, как агент принял конкретное решение, сможем ли мы восстановить цепочку?

И не забывайте о системной модели угроз: предполагайте, что злоумышленник GTG-1002 уже находится в вашем предприятии. Чтобы завершить подготовку предприятия, расширьте область зрения и рассмотрите продукт MITRE ATLAS, который существует именно потому, что злоумышленники атакуют системы, а не модели. Anthropic предоставляет пример государственного актора угроз (GTG-1002), который делает именно это с использованием фреймворка агентов.

В совокупности эти меры контроля не делают агентов волшебным образом безопасными. Они делают нечто более привычное и надежное: возвращают ИИ, его доступ и действия в ту же систему безопасности, которая используется для любого мощного пользователя или системы.

Для советов директоров и CEO вопрос больше не в том, «Есть ли у нас хорошие ограждения для ИИ?». Вопрос в том: можем ли мы ответить на приведенные выше вопросы CEO с доказательствами, а не с заверениями?

Этот контент был создан Protegrity. Он не был написан редакцией MIT Technology Review.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: