Новая атака «prompt injection» через изображения нацелена на мультимодальные ИИ-модели

внедрение промптов мультимодальный ии безопасность ии Lvlms Crossmpi csoonline.com

Исследователи разработали новую атаку внедрения промптов на основе изображений под названием «CrossMPI», которая манипулирует интерпретацией инструкций мультимодальными системами ИИ через незаметные искажения изображений, расширяя риски безопасности для агентов ИИ и систем «зрение-язык». — csoonline.com

Исследователи в области безопасности разработали новую атаку с внедрением промптов на основе изображений, которая может манипулировать тем, как мультимодальные системы ИИ интерпретируют инструкции пользователя, не изменяя исходный текстовый промпт, что потенциально расширяет риски безопасности для агентов ИИ и систем «зрение-язык».

В исследовательской статье, опубликованной на этой неделе, ученые из Сианьского университета (Xidian University) описали технику под названием «CrossMPI», которая использует почти незаметные искажения изображений для изменения того, как большие модели «зрение-язык» (LVLMs) обрабатывают как визуальные, так и текстовые входные данные.

«CrossMPI может направлять интерпретацию моделью как текстовых, так и визуальных входных данных посредством внедрения промптов только через изображение», — написали исследователи в статье.

В отличие от традиционных атак с внедрением промптов, которые обычно полагаются на вредоносные текстовые инструкции, внедренные в промпты или веб-страницы, новая техника пытается изменить интерпретацию моделью безобидного пользовательского запроса путем манипулирования только изображениями.

«Искаженное изображение может манипулировать пониманием моделью инструкции пользователя», — говорится в статье.

В одном из примеров, описанных в статье, исследователи тонко изменили изображение самолета, используя почти незаметные для человеческого глаза искажения на уровне пикселей. Когда затем мультимодальной системе ИИ задали вопрос, принадлежит ли самолет авиакомпании Air Canada, манипулированное изображение заставило модель ошибочно идентифицировать объект как «мобильный телефон», что иллюстрирует, как атака может исказить как визуальное восприятие, так и интерпретацию задачи пользователя.

Эти выводы усиливают растущую озабоченность по поводу безопасности мультимодального ИИ, поскольку предприятия все чаще внедряют ИИ-копилотов, автономных агентов, помощников по обработке документов и рабочие процессы с поддержкой зрения, которые сочетают рассуждения на основе изображений и текста.

Апекша Каушик, старший ведущий аналитик Gartner, заявила, что риски могут быстро возрасти по мере того, как предприятия будут внедрять больше мультимодальных систем ИИ.

«К 2030 году 80% корпоративного программного обеспечения и приложений станут мультимодальными, по сравнению с 1% в 2024 году», — сказала Каушик.

Атака нацелена на слои мультимодального вывода

Внедрение промптов стало одним из наиболее пристально отслеживаемых рисков в генеративных системах ИИ, особенно по мере того, как организации внедряют агентов ИИ, способных взаимодействовать с корпоративными приложениями, веб-сайтами, документами и внешними инструментами.

Большинство существующих атак с внедрением промптов полагаются на вредоносный текст, встроенный в промпты, веб-страницы или скрытые инструкции. Некоторые мультимодальные атаки также пытались манипулировать поведением ИИ с помощью изображений, содержащих видимые или скрытые текстовые инструкции.

Исследователи утверждают, что их подход отличается тем, что он пытается изменить то, как модель интерпретирует саму исходную задачу, используя только искажения изображений.

В отличие от более ранних методов, исследователи отметили, что CrossMPI использует модификации изображений для «изменения интерпретации моделью как визуальных, так и текстовых промптов».

В статье говорится, что атака специально нацелена на «скрытое пространство состояний LVLMs» — стадию, на которой модели объединяют текстовые инструкции и визуальные свидетельства во внутренние представления перед генерацией выходных данных.

Согласно статье, наиболее эффективными слоями для атаки оказались не конечные выходные слои, на которые традиционно нацелены состязательные атаки на ИИ, а промежуточные слои, где визуальная и текстовая информация сливаются воедино.

Исследователи заявляют о сильной переносимости в режиме «черного ящика»

Исследователи оценили технику на нескольких общедоступных LVLMs, включая MiniGPT4, BLIP-2, InstructBLIP, BLIVA и Qwen2.5-VL, добавлено в статье.

Согласно статье, атака достигла средней степени успеха в 66,36% на протестированных моделях, превзойдя предыдущие базовые атаки примерно на 41 процентный пункт.

Исследователи также заявили, что техника продемонстрировала «сильную переносимость в условиях «черного ящика»», что означает, что атаки оставались эффективными даже без прямого доступа к параметрам или архитектуре целевой модели.

В статье далее утверждается, что искажения оставались визуально незаметными, сохраняя при этом эффективность в различных архитектурах LVLM.

Отсутствие эффективной защиты

Исследователи оценили несколько механизмов защиты, предназначенных для нейтрализации скрытых манипуляций с изображениями, включая случайное изменение размера, вращение изображения, сжатие JPEG и меры защиты на уровне вывода, такие как SmoothVLM — специализированный фреймворк защиты, предназначенный для защиты моделей «зрение-язык» (VLM) от внедренных визуальных промптов, и DPS, который направляет модели с использованием частичных видов изображений.

Согласно статье, SmoothVLM оказался наиболее эффективным, снизив степень успеха атак до менее чем 5% в ряде сценариев, в то время как сжатие JPEG также ослабило атаки, подавляя высокочастотные артефакты изображения.

Однако исследователи заявили, что ни одна из протестированных защит полностью не устранила атаки, что предполагает необходимость в более надежных мерах защиты мультимодального ИИ.

Корпоративное внедрение ИИ может расширить уязвимость

Исследование появилось на фоне быстрого расширения предприятиями развертывания мультимодальных систем ИИ, способных обрабатывать снимки экрана, PDF-файлы, панели мониторинга, формы, видеопотоки и корпоративные документы наряду с запросами на естественном языке.

Исследователи отметили, что состязательные примеры, сгенерированные с помощью этой техники, могут потенциально «вводить в заблуждение веб-агентов на основе VLM» и «нарушать работу детекторов объектов в реальном мире».

«Даже если текстовые вводы очищены, манипулированные изображения все равно могут подорвать выходные данные или действия модели», — сказала Каушик.

Она отметила, что организации, использующие мультимодальный ИИ для обработки документов, взаимодействия с клиентами, модерации контента и автономных систем, могут столкнуться с растущей уязвимостью перед лицом состязательных манипуляций с изображениями и атак с внедрением промптов.

«Меры безопасности, разработанные для унимодальных систем, недостаточны», — заключила Каушик. Исследователи признали, что работа проводилась в контролируемых исследовательских условиях с использованием общедоступных моделей, и не сообщали о наблюдавшемся использовании в реальных корпоративных средах.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: