Злоумышленники могут превратить «guardrails» ИИ-агентов в инструменты для «denial-of-service» атак

Dos атаки ии-агенты безопасность ии Guardrails логический вывод csoonline.com

Злоумышленники могут превратить механизмы защиты ИИ-агентов в оружие для атак типа «отказ в обслуживании» (DoS), согласно новому исследованию. Ученые обнаружили, что один отравленный документ может существенно замедлить общие рабочие процессы ИИ-агентов, загнав системы безопасности, основанные на логическом выводе, в длительные циклы размышлений. «Механизмы защиты, основанные на логическом выводе, создают новую поверхность для атак, где сами механизмы безопасности становятся мишенью», — написали исследователи из Университета […] — csoonline.com

Злоумышленники могут превратить механизмы защиты (guardrails) ИИ-агентов в оружие для атак типа «отказ в обслуживании» (DoS), согласно новому исследованию. Ученые обнаружили, что один отравленный документ может существенно замедлить общие рабочие процессы ИИ-агентов, загнав системы безопасности, основанные на логическом выводе, в длительные циклы размышлений.

«Механизмы защиты, основанные на логическом выводе, создают новую поверхность для атак, где сами механизмы безопасности становятся мишенью», — написали исследователи из Университета науки и технологий Гонконга и их коллеги в своей статье.

Они добавили, что «один отравленный документ может насытить общую инфраструктуру механизмов защиты, фактически истощив ресурсы находящихся рядом агентов и парализовав всю систему», описывая атаку DoS с расширением логического вывода (reasoning-extension DoS), которая нацелена на уровень безопасности, а не на базовую модель ИИ.

Исследователи протестировали эту методику на четырех фреймворках ИИ-агентов — LangGraph, BrowserGym, OpenHands и OSWorld — и обнаружили увеличение времени обработки во всех развертываниях.

Согласно статье, наибольшее замедление зафиксировано в LangGraph — в 148 раз, за ним следуют BrowserGym — в 131 раз, OpenHands — в 36,3 раза и OSWorld — в 18 раз.

Атака использует логический вывод, а не обход защиты

В отличие от атак типа «внедрение промпта» (prompt injection) и «джейлбрейк» (jailbreak), которые стремятся манипулировать выводами модели или обойти меры безопасности, новая методика нацелена на процесс логического вывода, используемый механизмами защиты ИИ-агентов, написали исследователи в статье.

«В отличие от традиционных атак на большие языковые модели (LLM), которые в основном ставят под угрозу целостность, DoS с расширением логического вывода нацелен на доступность», — отметили исследователи, утверждая, что обсуждение безопасности ИИ в значительной степени сосредоточено на предотвращении небезопасных выводов, при этом игнорируется истощение ресурсов.

Исследователи также обнаружили, что более строгие проверки безопасности ИИ могут обернуться замедлением производительности.

«Чем сильнее рассуждает механизм защиты, тем дольше он рассуждает», — написали исследователи, объясняя, что более сложный логический вывод может непреднамеренно увеличить время и ресурсы, необходимые для обработки вредоносных входных данных.

Атака также сработала на восьми различных семействах LLM. Согласно статье, промпты, разработанные для одной модели с открытым исходным кодом, оказались эффективными и против других моделей, что позволяет предположить, что злоумышленникам не потребуются детальные знания о конкретной проприетарной системе.

OpenAI и Anthropic, чьи механизмы защиты, основанные на логическом выводе, упоминаются в статье как примеры механизмов безопасности на базе LLM, не ответили немедленно на запросы о комментариях.

Совместное управление ИИ создает риск концентрации

«Более важный вывод заключается не столько в том, окажется ли конкретная техника „DoS для механизмов защиты“ практичной в масштабе, сколько в том, что инфраструктура управления ИИ все чаще становится критически важной инфраструктурой», — заявила Сакши Гровер, старший менеджер по исследованиям в области кибербезопасности в IDC Asia/Pacific.

«По мере созревания развертываний агентного ИИ организациям потребуется думать об отказоустойчивости, масштабируемости и отказоустойчивости плоскостей управления ИИ так же, как они уже думают об службах идентификации, API-шлюзах и других критически важных для бизнеса платформах», — сказала она.

Гровер отметила, что централизованное управление ИИ также создает риск концентрации.

«Динамика консолидации реальна — организации рационализируют управление ИИ, направляя несколько агентов через общую инфраструктуру безопасности, что создает риск концентрации», — сказала она. «Успешной атаке DoS на механизм защиты не нужно ничего взламывать; ей достаточно сделать систему непригодной для использования в критический момент».

Для критически важных для бизнеса рабочих процессов, таких как автоматизированная обработка претензий, реагирование на инциденты с помощью ИИ и обнаружение мошенничества в реальном времени, даже временная задержка или истощение ресурсов могут иметь материальные последствия, добавила она.

Существующие меры смягчения предлагают лишь частичную защиту

Исследователи обнаружили, что обычные фильтры внедрения промптов остаются уязвимыми для предложенной атаки, в то время как строгие лимиты токенов просто смещали развертывания между поведением «открыто при сбое» (fail-open) и «закрыто при сбое» (fail-closed). Меньшие бюджеты на логический вывод снижали задержку, но также ослабляли решения по безопасности, создавая компромисс между доступностью и защитой.

Исследование также показало, что более крупные модели логического вывода часто тратили больше времени на следование внедренной структуре рассуждений, усиливая атаку, а не смягчая ее.

Аналитики заявили, что эти выводы также подчеркивают необходимость для предприятий выйти за рамки безопасности на уровне моделей и сосредоточиться на управлении автономными системами ИИ.

По данным Апекши Каушик, старшего ведущего аналитика Gartner, к 2029 году более 50% успешных кибератак на ИИ-агентов будут использовать проблемы контроля доступа с помощью прямого или косвенного внедрения промптов в качестве вектора атаки, а к 2028 году не менее 80% несанкционированных транзакций ИИ-агентов будут результатом внутренних нарушений политики или ошибочного поведения ИИ, а не злонамеренных атак.

«Переход к автономным мультиагентным системам создает новые риски, такие как дрейф поведения и деструктивные действия», — сказала Каушик, добавив, что организациям следует внедрить управление жизненным циклом безопасности ИИ-агентов, которое непрерывно проверяет целостность агента от развертывания до вывода из эксплуатации.

Она отметила, что существующие фрагментированные инструменты не могут эффективно управлять сложными мультиагентными системами, что требует унифицированных возможностей обнаружения, идентификации и защиты для мониторинга и блокирования нежелательного поведения в масштабе.

Управление ИИ выходит на первый план

Гровер посоветовала организациям начать подготовку уже сейчас: отделять инфраструктуру механизмов защиты от вычислительных мощностей агентов, внедрять многоуровневые или асинхронные проверки механизмов защиты, где это возможно, отслеживать аномальную глубину логического вывода и целенаправленно проводить стресс-тестирование (red-teaming) стеков безопасности ИИ на предмет сбоев доступности, вместо того чтобы сосредотачиваться исключительно на вредоносных выводах.

«Архитектурные решения становятся столь же важными, как и решения по безопасности моделей», — сказала Гровер. «Организации, которые будут относиться к инфраструктуре агентного ИИ с той же строгостью, что и к критически важной инфраструктуре приложений, будут в лучшем положении. Те, кто этого не сделает, узнают об этом на горьком опыте».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: