Предыдущая статья этой серии, «Правила терпят неудачу на этапе запроса, но работают на границе», была посвящена первой кампании шпионажа, оркестрованной ИИ, и провалу контроля на уровне запросов. Эта статья — предписание. Вопрос, который каждый CEO теперь получает от своего совета директоров, звучит примерно так: Что нам делать с риском, связанным с агентами?
В последних рекомендациях по безопасности ИИ от стандартизирующих органов, регуляторов и крупных поставщиков постоянно повторяется простая идея: относитесь к агентам как к мощным, полуавтономным пользователям и применяйте правила на границах, где они взаимодействуют с идентификацией, инструментами, данными и результатами.
Ниже представлен практический план из восьми шагов, который можно предложить командам для реализации и отчетности:
Ограничение возможностей
Эти шаги помогают определить идентификацию и ограничить возможности.
1. Идентификация и область применения: Сделайте агентов реальными пользователями с узкими задачами
Сегодня агенты работают под неопределенными, чрезмерно привилегированными идентификаторами служб. Решение простое: относитесь к каждому агенту как к нечеловеческому субъекту с той же дисциплиной, что применяется к сотрудникам.
Каждый агент должен работать как запрашивающий пользователь в соответствующем клиенте, с разрешениями, ограниченными ролью и географией этого пользователя. Запретите обходные пути «от имени» между клиентами. Любые действия с высоким уровнем воздействия должны требовать явного одобрения человека с зафиксированным обоснованием. Именно так должны применяться на практике Secure AI Framework (SAIF) от Google и рекомендации NIST AI по контролю доступа.
Вопрос CEO: Можем ли мы сегодня предоставить список наших агентов и точно определить, что каждый из них может делать?
2. Контроль инструментов: Закрепляйте, утверждайте и ограничивайте то, что могут использовать агенты
Фреймворк шпионажа Anthropic работал, потому что злоумышленники могли подключить Claude к гибкому набору инструментов (например, сканерам, фреймворкам эксплуатации, парсерам данных) через Model Context Protocol, и эти инструменты не были закреплены или ограничены политикой.
Защита заключается в том, чтобы относиться к цепочкам инструментов как к цепочке поставок:
- Закрепляйте версии удаленных серверов инструментов.
- Требуйте одобрения для добавления новых инструментов, областей применения или источников данных.
- Запрещайте автоматическое построение цепочек инструментов, если политика явно это не разрешает.
Именно на это указывает OWASP в разделе чрезмерной самостоятельности и от чего рекомендует защищаться. В соответствии с Законом ЕС об ИИ, разработка с учетом такой киберустойчивости и сопротивления злоупотреблениям является частью обязательства по статье 15 обеспечивать надежность и кибербезопасность.
Вопрос CEO: Кто дает разрешение, когда агент получает новый инструмент или более широкую область применения? Как об этом узнать?
3. Разрешения по дизайну: Связывайте инструменты с задачами, а не с моделями
Распространенный антипаттерн — выдавать модели учетные данные с длительным сроком действия и надеяться, что запросы удержат ее в рамках дозволенного. SAIF и NIST утверждают обратное: учетные данные и области применения должны быть связаны с инструментами и задачами, регулярно ротироваться и быть аудируемыми. Затем агенты запрашивают узкоспециализированные возможности через эти инструменты.
На практике это выглядит так: «finance-ops-agent может читать, но не записывать определенные регистры без одобрения финансового директора».
Вопрос CEO: Можем ли мы отозвать конкретную возможность у агента, не перестраивая всю систему?
Контроль данных и поведения
Эти шаги контролируют входные и выходные данные и ограничивают поведение.
4. Входные данные, память и RAG: Относитесь к внешнему контенту как к враждебному, пока не доказано обратное
Большинство инцидентов с агентами начинаются со скрытых данных: отравленной веб-страницы, PDF-файла, электронного письма или репозитория, которые доставляют в систему враждебные инструкции. Чит-лист OWASP по инъекциям в запросы и собственные рекомендации OpenAI настаивают на строгом разделении системных инструкций и пользовательского контента, а также на отношении к непроверенным источникам извлечения как к ненадежным.
Операционно: контролируйте данные перед их попаданием в систему извлечения или долговременную память: новые источники проверяются, помечаются и вводятся в эксплуатацию; постоянная память отключается при наличии недоверенного контекста; к каждому фрагменту данных прилагается информация о происхождении.
Вопрос CEO: Можем ли мы перечислить все внешние источники контента, из которых учатся наши агенты, и кто их одобрил?
5. Обработка и рендеринг вывода: Ничего не выполняется «просто потому, что так сказал модель»
В случае с Anthropic сгенерированный ИИ код эксплуатации и дампы учетных данных прямо переходили к действию. Любой вывод, который может вызвать побочный эффект, требует валидатора между агентом и реальным миром. Категория небезопасной обработки вывода OWASP явно указывает на это, как и лучшие практики безопасности браузеров, связанные с границами происхождения.
Вопрос CEO: Где в нашей архитектуре оцениваются результаты работы агентов перед их выполнением или отправкой клиентам?
6. Конфиденциальность данных во время выполнения: Сначала защитите данные, затем модель
Защищайте данные таким образом, чтобы по умолчанию не было ничего опасного для раскрытия. NIST и SAIF склоняются к «безопасным по умолчанию» решениям, где конфиденциальные значения токенизируются или маскируются и восстанавливаются только для авторизованных пользователей и сценариев использования.
В системах с агентами это означает контролируемую политикой детокенизацию на границе вывода и протоколирование каждого раскрытия. Если агент полностью скомпрометирован, радиус поражения ограничивается тем, что политика позволяет ему видеть.
Именно здесь стек ИИ пересекается не только с Законом ЕС об ИИ, но и с GDPR и отраслевыми нормами. Закон ЕС об ИИ ожидает, что поставщики и развертывающие организации будут управлять рисками, специфичными для ИИ; выполнение токенизации во время выполнения и раскрытие данных по политике являются веским доказательством активного контроля этих рисков в производственной среде.
Вопрос CEO: Когда наши агенты работают с нормативными данными, эта защита обеспечивается архитектурой или обещаниями?
Докажите управление и устойчивость
Для последних шагов важно показать, что элементы управления работают и продолжают работать.
7. Непрерывная оценка: Не просто одноразовый тест, а система тестирования
Исследование Anthropic о «спящих агентах» должно развеять все иллюзии об одноразовых тестах и показать, насколько критически важна непрерывная оценка. Это означает оснащение агентов глубокой наблюдаемостью, регулярное проведение красных команд с использованием наборов враждебных тестов и поддержку всего надежным логированием и доказательствами, чтобы сбои становились как регрессионными тестами, так и обновляемыми политиками.
Вопрос CEO: Кто каждую неделю пытается взломать наших агентов, и как их находки меняют политику?
8. Управление, инвентаризация и аудит: Ведите счет в одном месте
Фреймворки безопасности ИИ подчеркивают важность инвентаризации и доказательств: предприятия должны знать, какие модели, запросы, инструменты, наборы данных и векторные хранилища у них есть, кто ими владеет и какие решения были приняты относительно рисков.
Для агентов это означает живой каталог и унифицированные журналы:
- Какие агенты существуют, на каких платформах
- Какие области применения, инструменты и данные разрешены каждому
- Каждое одобрение, детокенизация и действие с высоким уровнем воздействия, с указанием того, кто одобрил и когда
Вопрос CEO: Если нас спросят, как агент принял конкретное решение, сможем ли мы восстановить цепочку?
И не забывайте о системной модели угроз: предполагайте, что злоумышленник GTG-1002 уже находится в вашем предприятии. Чтобы завершить подготовку предприятия, расширьте область зрения и рассмотрите продукт MITRE ATLAS, который существует именно потому, что злоумышленники атакуют системы, а не модели. Anthropic предоставляет пример государственного актора угроз (GTG-1002), который делает именно это с использованием фреймворка агентов.
В совокупности эти меры контроля не делают агентов волшебным образом безопасными. Они делают нечто более привычное и надежное: возвращают ИИ, его доступ и действия в ту же систему безопасности, которая используется для любого мощного пользователя или системы.
Для советов директоров и CEO вопрос больше не в том, «Есть ли у нас хорошие ограждения для ИИ?». Вопрос в том: можем ли мы ответить на приведенные выше вопросы CEO с доказательствами, а не с заверениями?
Этот контент был создан Protegrity. Он не был написан редакцией MIT Technology Review.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Jenn Webb




