«Человек в цикле» недостаточен: новая атака превращает средства защиты ИИ в эксплойты

Shweta Sharma

18.12.2025

ии,безопасность,уязвимости,hitl,litl,checkmarx

Исследование Checkmarx выявило уязвимость в механизмах безопасности Human-in-the-loop (HITL), используемых ИИ-агентами. Атака Lies-in-the-Loop (LITL) позволяет злоумышленникам подделывать диалоги подтверждения, обманывая пользователей и заставляя их запускать вредоносный код. Уязвимость эксплуатирует доверие к интерфейсу, превращая защиту в вектор атаки. Рекомендуются меры по усилению безопасности диалогов и валидации действий.

Механизмы безопасности Human-in-the-loop (HITL), на которые полагаются ИИ-агенты, могут быть обойдены, что позволит злоумышленникам использовать их для запуска вредоносного кода. Об этом свидетельствуют новые исследования Checkmarx.

Диалоги HITL служат подстраховкой безопасности (финальный вопрос «Вы уверены?»), которые агенты запускают перед выполнением таких чувствительных действий, как выполнение кода, изменение файлов или доступ к системным ресурсам.

Исследователи Checkmarx назвали эту технику подделки диалогов HITL Lies-in-the-Loop (LITL). Она заключается во внедрении вредоносных инструкций в запросы ИИ таким образом, чтобы ввести в заблуждение пользователей, проверяющих диалоги подтверждения.

Результаты исследования показывают, что привлечение человека к процессу недостаточно для нейтрализации злоупотреблений на уровне запросов. Как только пользователи перестают надежно доверять тому, что им предлагают утвердить, HITL перестает быть защитным механизмом и становится поверхностью для атаки.

«Атака Lies-in-the-Loop (LITL) эксплуатирует доверие, которое пользователи оказывают этим диалогам подтверждения», — говорится в блоге исследователей CheckMarx. «Манипулируя тем, что отображается в диалоге, злоумышленники превращают средство защиты в оружие — как только запрос выглядит безопасным, пользователи утверждают его без колебаний».

Подделка диалогов превращает надзор в примитив атаки

Проблема заключается в том, как системы ИИ представляют диалоги подтверждения пользователям. Рабочие процессы HITL обычно обобщают действие, которое ИИ-агент хочет выполнить, ожидая, что человек-рецензент заметит что-либо подозрительное перед нажатием кнопки «утвердить».

CheckMarx продемонстрировали, что злоумышленники могут манипулировать этими диалогами, скрывая или искажая вредоносные инструкции. Например, они могут добавлять к полезной нагрузке безобидный текст, выводить опасные команды за пределы видимой области или создавать запросы, которые заставляют ИИ генерировать вводящие в заблуждение сводки фактических действий.

Особенно в интерфейсах, похожих на командную строку, длинные или форматированные выводы облегчают незаметное совершение такого рода обмана. Поскольку многие ИИ-агенты работают с повышенными привилегиями, одно ошибочно одобренное действие может напрямую привести к выполнению кода, запуску команд ОС, доступу к файловой системе или последующему компрометации, согласно выводам CheckMarx.

Помимо добавления текста или его усечения, исследователи описали и другие методы подделки диалогов, злоупотребляющие способом отображения подтверждения. Используя возможности рендеринга Markdown и особенности разметки, злоумышленники могут визуально отделять безобидный текст от скрытых команд или манипулировать сводками так, чтобы видимое пользователю описание не содержало вредоносных инструкций.

«Тот факт, что злоумышленники теоретически могут выйти за пределы синтаксиса Markdown, используемого для диалогов HITL, представляя пользователю поддельный пользовательский интерфейс, может привести к гораздо более изощренным атакам LITL, которые практически невозможно обнаружить», — добавили исследователи.

Защитные меры для агентов и пользователей

Checkmarx рекомендовали меры в первую очередь для разработчиков ИИ-агентов, призывая их относиться к диалогам HITL как к потенциально манипулируемым, а не как к заведомо заслуживающим доверия. Рекомендуемые шаги включают ограничение способов рендеринга диалогов, ограничение использования сложного форматирования пользовательского интерфейса и четкое разделение видимых пользователю сводок от нижележащих действий, которые будут выполнены.

Исследователи также посоветовали проверять одобренные операции, чтобы убедиться, что они соответствуют тому, что было показано пользователю во время подтверждения.

Что касается пользователей ИИ, они отметили, что агенты, работающие в средах с более богатым пользовательским интерфейсом, могут облегчить обнаружение обманчивого поведения, чем терминалы, работающие только с текстом. «Например, расширения VS Code предоставляют полные возможности рендеринга Markdown, в то время как терминалы обычно отображают контент с использованием базовых символов ASCII», — сказали они.

CheckMarx сообщили, что проблема была раскрыта компаниям Anthropic и Microsoft, которые признали отчет, но не классифицировали его как уязвимость безопасности. Ни одна из компаний не ответила оперативно на запрос CSO о комментариях.

Автор – Shweta Sharma

Оригинал статьи

В тренде:

checkmarx, hitl, litl, безопасность, ИИ, уязвимости

Объём похищенной Кимом криптовалюты достиг рекордных 2 млрд долларов в 2025 году
18.12.2025
Северная Корея установила новый рекорд по кражам криптовалюты в 2025 году, похитив более 2 миллиардов долларов. Атака на Bybit принесла значительную часть средств. Эксперты отмечают рост атак на личные кошельки и изменение тактики хакеров.
Google прекратит отчёты о тёмной сети, уведомлявшие пользователей об утечках данных, связанных с аппаратным обеспечением
15.12.2025
Google прекращает предоставление отчётов о даркнете, так как они не давали пользователям "полезных дальнейших шагов". Сервис, запущенный для подписчиков Google One, не имел практической ценности, поскольку компания не контролирует даркнет и не может предпринять никаких действий для защиты данных.
Micron заявляет, что дефицит оперативной памяти сохранится в обозримом будущем.
18.12.2025
Micron Technology прогнозирует сохранение дефицита оперативной памяти и рост цен на серверы из-за переориентации производства на нужды ИИ. Даже с новыми фабриками спрос будет превышать предложение, что повлияет на стоимость техники.
HPE призывает клиентов срочно установить обновления — RCE‑уязвимость в OneView получила максимальную оценку 10
19.12.2025
Критическая уязвимость в HPE OneView (CVE-2025-37164) позволяет злоумышленникам удаленно выполнять код без аутентификации на платформе управления инфраструктурой. Установка немедленных исправлений или обновление до версии 11.0 является обязательным для защиты от компрометации всей корпоративной сети.

«Человек в цикле» недостаточен: новая атака превращает средства защиты ИИ в эксплойты

Подделка диалогов превращает надзор в примитив атаки

Защитные меры для агентов и пользователей

В тренде:

Объём похищенной Кимом криптовалюты достиг рекордных 2 млрд долларов в 2025 году

Google прекратит отчёты о тёмной сети, уведомлявшие пользователей об утечках данных, связанных с аппаратным обеспечением

Micron заявляет, что дефицит оперативной памяти сохранится в обозримом будущем.

HPE призывает клиентов срочно установить обновления — RCE‑уязвимость в OneView получила максимальную оценку 10