«Человек в цикле» недостаточен: новая атака превращает средства защиты ИИ в эксплойты

ии,безопасность,уязвимости,hitl,litl,checkmarx

Исследование Checkmarx выявило уязвимость в механизмах безопасности Human-in-the-loop (HITL), используемых ИИ-агентами. Атака Lies-in-the-Loop (LITL) позволяет злоумышленникам подделывать диалоги подтверждения, обманывая пользователей и заставляя их запускать вредоносный код. Уязвимость эксплуатирует доверие к интерфейсу, превращая защиту в вектор атаки. Рекомендуются меры по усилению безопасности диалогов и валидации действий.

Механизмы безопасности Human-in-the-loop (HITL), на которые полагаются ИИ-агенты, могут быть обойдены, что позволит злоумышленникам использовать их для запуска вредоносного кода. Об этом свидетельствуют новые исследования Checkmarx.

Диалоги HITL служат подстраховкой безопасности (финальный вопрос «Вы уверены?»), которые агенты запускают перед выполнением таких чувствительных действий, как выполнение кода, изменение файлов или доступ к системным ресурсам.

Исследователи Checkmarx назвали эту технику подделки диалогов HITL Lies-in-the-Loop (LITL). Она заключается во внедрении вредоносных инструкций в запросы ИИ таким образом, чтобы ввести в заблуждение пользователей, проверяющих диалоги подтверждения.

Результаты исследования показывают, что привлечение человека к процессу недостаточно для нейтрализации злоупотреблений на уровне запросов. Как только пользователи перестают надежно доверять тому, что им предлагают утвердить, HITL перестает быть защитным механизмом и становится поверхностью для атаки.

«Атака Lies-in-the-Loop (LITL) эксплуатирует доверие, которое пользователи оказывают этим диалогам подтверждения», — говорится в блоге исследователей CheckMarx. «Манипулируя тем, что отображается в диалоге, злоумышленники превращают средство защиты в оружие — как только запрос выглядит безопасным, пользователи утверждают его без колебаний».

Подделка диалогов превращает надзор в примитив атаки

Проблема заключается в том, как системы ИИ представляют диалоги подтверждения пользователям. Рабочие процессы HITL обычно обобщают действие, которое ИИ-агент хочет выполнить, ожидая, что человек-рецензент заметит что-либо подозрительное перед нажатием кнопки «утвердить».

CheckMarx продемонстрировали, что злоумышленники могут манипулировать этими диалогами, скрывая или искажая вредоносные инструкции. Например, они могут добавлять к полезной нагрузке безобидный текст, выводить опасные команды за пределы видимой области или создавать запросы, которые заставляют ИИ генерировать вводящие в заблуждение сводки фактических действий.

Особенно в интерфейсах, похожих на командную строку, длинные или форматированные выводы облегчают незаметное совершение такого рода обмана. Поскольку многие ИИ-агенты работают с повышенными привилегиями, одно ошибочно одобренное действие может напрямую привести к выполнению кода, запуску команд ОС, доступу к файловой системе или последующему компрометации, согласно выводам CheckMarx.

Помимо добавления текста или его усечения, исследователи описали и другие методы подделки диалогов, злоупотребляющие способом отображения подтверждения. Используя возможности рендеринга Markdown и особенности разметки, злоумышленники могут визуально отделять безобидный текст от скрытых команд или манипулировать сводками так, чтобы видимое пользователю описание не содержало вредоносных инструкций.

«Тот факт, что злоумышленники теоретически могут выйти за пределы синтаксиса Markdown, используемого для диалогов HITL, представляя пользователю поддельный пользовательский интерфейс, может привести к гораздо более изощренным атакам LITL, которые практически невозможно обнаружить», — добавили исследователи.

Защитные меры для агентов и пользователей

Checkmarx рекомендовали меры в первую очередь для разработчиков ИИ-агентов, призывая их относиться к диалогам HITL как к потенциально манипулируемым, а не как к заведомо заслуживающим доверия. Рекомендуемые шаги включают ограничение способов рендеринга диалогов, ограничение использования сложного форматирования пользовательского интерфейса и четкое разделение видимых пользователю сводок от нижележащих действий, которые будут выполнены.

Исследователи также посоветовали проверять одобренные операции, чтобы убедиться, что они соответствуют тому, что было показано пользователю во время подтверждения.

Что касается пользователей ИИ, они отметили, что агенты, работающие в средах с более богатым пользовательским интерфейсом, могут облегчить обнаружение обманчивого поведения, чем терминалы, работающие только с текстом. «Например, расширения VS Code предоставляют полные возможности рендеринга Markdown, в то время как терминалы обычно отображают контент с использованием базовых символов ASCII», — сказали они.

CheckMarx сообщили, что проблема была раскрыта компаниям Anthropic и Microsoft, которые признали отчет, но не классифицировали его как уязвимость безопасности. Ни одна из компаний не ответила оперативно на запрос CSO о комментариях.