Исследователи, стоящие за статьей, опубликованной в этом месяце, утверждают, что предприятия не могут обеспечить безопасность ИИ-агентов путем повышения надежности базовых моделей; вместо этого им необходимо внедрять средства контроля безопасности на системном уровне вокруг них. Они предупреждают, что традиционные подходы к обеспечению безопасности ИИ все больше расходятся с тем, как автономные агенты фактически функционируют в корпоративных средах.
В статье утверждается, что предприятиям следует перестать рассматривать ИИ-агентов как доверенные программные компоненты и вместо этого обеспечивать их безопасность как принципиально недоверенные системы, работающие внутри корпоративной инфраструктуры.
«К модели ИИ, лежащей в основе агента, следует относиться как к недоверенному компоненту», — написали исследователи в статье, предупреждая, что одних только «семантических ограничителей» и защитных мер на уровне запросов не может быть достаточно для надежной защиты систем, как только агенты получают доступ к корпоративным инструментам, памяти, API, браузерам и средам выполнения.
Авторы провели аналогию с операционными системами. «Подобно тому, как операционная система рассматривает процесс как недоверенный, мы придерживаемся позиции, что модель, лежащая в основе агента, должна рассматриваться как недоверенная, а свойства безопасности должны выражаться и обеспечиваться извне, на уровне охватывающей системы», — написали они.
Статья была написана исследователями из Google, Калифорнийского университета в Сан-Диего, Висконсинского университета в Мадисоне и других учреждений, включая Михая Хриcтодореску, Эрленса Фернандеса и Сомеша Джха.
Пять принципов системной безопасности
Авторы выделили пять принципов из десятилетий исследований в области системной безопасности, которым, по их мнению, должны следовать агентные системы: принцип наименьших привилегий, устойчивость к несанкционированному изменению доверенной вычислительной базы, полное посредничество, безопасный поток информации и учет человеческого фактора как слабого звена.
В качестве доказательства авторы проанализировали одиннадцать реальных атак на ИИ-агентов и соотнесли каждую из них с нарушенными принципами. Среди атак были эксфильтрация данных из приложения ChatGPT для macOS, уязвимость эксфильтрации в Claude Code, уязвимость эксфильтрации в Microsoft Copilot и атака AgentFlayer на Cursor через вредоносный тикет Jira. В статье говорится, что все одиннадцать атак нарушили принцип безопасного потока информации, в то время как большинство нарушили принцип наименьших привилегий.
Авторы отвергли идею о том, что накопление ограничителей машинного обучения равносильно защите.
«Простое накопление моделей машинного обучения не составляет истинной многоуровневой защиты», — написали они, поскольку модели-ограничители «часто имеют те же статистические режимы отказа, что и основные агенты, которые они контролируют».
Чтобы применить эти принципы на практике, авторы предложили три механизма безопасности, каждый из которых связан с открытой исследовательской проблемой, которую сообществу еще предстоит решить. Первый — разделение инструкций и данных, поскольку языковые модели смешивают их в едином потоке токенов без различия на уровне источника. Второй — проверяемая генерация политик наименьших привилегий, что затруднено, поскольку политики безопасности для агентов пишутся на естественном языке и меняются по мере развития задачи, что затрудняет их преобразование в правила, которые может применить система. Третий — контроль потока информации, поскольку отслеживание перемещения конфиденциальных данных через модель остается нерешенной задачей.
За пределами модели
Статья ставит под сомнение одно из доминирующих предположений, определяющих усилия по обеспечению безопасности корпоративного ИИ за последние два года: что все более мощные модели, методы согласования и защиты на уровне запросов в конечном итоге сделают ИИ-системы достаточно безопасными для корпоративного развертывания.
Вместо этого исследователи утверждают, что с ИИ-агентами следует все больше обращаться как с операционными средами или распределенными системами, а не как с обычными корпоративными приложениями, поскольку они сочетают в себе рассуждения, автономность, сохранение памяти и выполнение внешних инструментов в едином операционном слое.
«Гарантии безопасности не могут возникнуть только из-за лучших запросов, тонкой настройки согласования или смягчения последствий на стороне модели», — говорится в статье, где утверждается, что предприятиям вместо этого необходимы более сильная изоляция во время выполнения, границы сдерживания, выполнение с наименьшими привилегиями и средства контроля наблюдаемости рабочих процессов вокруг ИИ-агентов.
Это создает ситуации, когда инъекция запросов (prompt injection) перестает быть просто проблемой манипулирования контентом и становится потенциальной проблемой выполнения рабочих процессов и целостности системы, способной влиять на последующие действия в связанных корпоративных средах.
Проблема видимости
Исследователи также утверждают, что существующим корпоративным инструментам безопасности не хватает достаточной видимости во время выполнения того, как ИИ-агенты фактически рассуждают, вызывают инструменты, сохраняют память и выполняют действия в корпоративных системах.
Другая статья, опубликованная на прошлой неделе, также указывает на аналогичную проблему с другой точки зрения, утверждая, что традиционные платформы обнаружения и реагирования на конечных точках не могут адекватно проверять потоки рассуждений ИИ-агентов, цепочки запросов, взаимодействия с памятью или динамическое выполнение инструментов.
В статье предложена структура, которую исследователи назвали «обнаружение и реагирование агентных систем, или ADR» (agentic detection and response or ADR), специально разработанная для сред ИИ-агентов.
«Существующие инструменты безопасности не предназначены для наблюдения за когнитивными процессами или трассами рассуждений агентов», — написали исследователи, утверждая, что существующие стеки корпоративной безопасности были созданы для мониторинга детерминированных приложений и активности конечных точек, а не систем, способных к автономному планированию, вероятностному рассуждению и динамической оркестровке рабочих процессов.
В статье описывается производственное развертывание, отслеживающее более 10 000 сеансов ИИ-агентов ежедневно на примерно 7 200 хостах, где, по словам исследователей, фреймворк выявил сотни инцидентов с раскрытием учетных данных и другие риски, связанные с агентами, охватывающие 26 категорий атак.
На представленном командой эталоне, названном ADR-Bench, система обнаружила 67% атак с нулевым количеством ложных срабатываний, превзойдя три базовые линии, включая LlamaFirewall от Meta*, в два-четыре раза по F1-показателю, говорится в статье. На общедоступном эталоне инъекции запросов AgentDojo система обнаружила все атаки с тремя ложными тревогами из 93 задач.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Gyana Swain




