Исследователи из MIT, Северо‑восточного университета и компании Meta недавно опубликовали статью, в которой говорится, что крупные языковые модели (LLM), аналогичные тем, что находятся в основе ChatGPT, иногда могут ставить структуру предложения выше смысла при ответе на вопросы. Выводы выявляют слабость в обработке инструкций этими моделями, что помогает понять, почему некоторые атаки внедрения подсказок или обходы защитных механизмов работают, хотя авторы предостерегают, что их анализ некоторых коммерческих моделей остаётся спекулятивным, поскольку детали обучающих наборов данных крупных AI‑продуктов недоступны публике.
Команда под руководством Шанталь Шайб и Винита М. Суриякумара проверила это, задавая моделям вопросы с сохранёнными грамматическими паттернами, но бессмысленными словами. Например, при запросе «Quickly sit Paris clouded?» (по структуре «Where is Paris located?») модели отвечали «France».
Это свидетельствует о том, что модели усваивают как смысл, так и синтаксические шаблоны, но могут чрезмерно полагаться на структурные подсказки, если они сильно коррелируют с определёнными областями в обучающих данных. В результате в граничных случаях шаблоны могут подавлять семантическое понимание. Авторы планируют представить свои результаты на конференции NeurIPS в конце текущего месяца.
Для справки: синтаксис описывает структуру предложения — порядок слов и их части речи; семантика — реальное значение слов, которое может изменяться даже при одинаковой грамматической форме.
Семантика сильно зависит от контекста, а умение работать с контекстом — ключ к работе LLM. Преобразование ввода (вашей подсказки) в вывод (ответ модели) представляет собой сложную цепочку сопоставления паттернов с зашифрованными данными обучения.
Чтобы выяснить, когда и как это сопоставление может давать сбой, исследователи создали контролируемый эксперимент. Они сгенерировали синтетический набор данных, где каждый предмет имел уникальный грамматический шаблон, основанный на паттернах частей речи. Например, вопросы по географии следовали одному шаблону, а вопросы о художественных произведениях — другому. Затем они обучили модели Olmo компании Allen AI на этих данных и проверили, способны ли модели различать синтаксис и семантику.
Анализ выявил «ложную корреляцию»: в крайних случаях модели использовали синтаксис как индикатор области. Когда шаблоны и смысл конфликтуют, запоминание конкретных грамматических «форм» может превалировать над семантическим разбором, что приводит к ошибочным ответам, основанным на структуре, а не на значении.
Говоря простыми словами, исследование показывает, что AI‑модели могут излишне фиксироваться на стиле вопроса, а не на его смысле. Представьте, что кто‑то усвоил правило: вопросы, начинающиеся с «Where is…», всегда о географии. Тогда на запрос «Where is the best pizza in Chicago?» модель ответит «Illinois», вместо рекомендаций ресторанов. Она реагирует на грамматический паттерн, а не на то, что речь идёт о еде.
Это создаёт два риска: модели дают неверные ответы в незнакомом контексте (форма конфабуляции) и злоумышленники используют такие паттерны, чтобы обойти ограничительные фильтры, укрывая вредоносные запросы «безопасными» грамматическими формами. Это своего рода переключение домена, позволяющее переоформить ввод, привязав его к другому контексту для получения желаемого результата.
Отметим, что в статье не исследуется напрямую, приводит ли такая зависимость от синтаксиса к конфабуляциям, хотя авторы рассматривают это как направление будущих работ.
Для измерения жёсткости сопоставления паттернов команда провела серию лингвистических стресс‑тестов, показавших, что синтаксис часто преобладает над семантикой.
Эксперименты продемонстрировали, что модели OLMo сохраняют высокую точность при замене слов синонимами или даже антонимами внутри обучающего домена. OLMo-2-13B-Instruct достиг 93 % точности при подстановке антонимов, почти сравнявшись с 94 % на оригинальных фразах. Однако при применении того же шаблона к другой области точность упала на 37‑54 процентных пункта в зависимости от размера модели.
Исследователи протестировали пять видов модификаций подсказок: точные фразы из обучения, синонимы, антонимы, перефразировки, меняющие структуру, и «дисфлюентные» (синтаксически корректные, но бессмысленные) варианты с вставленными случайными словами. Модели успешно справлялись со всеми вариантами (особенно с перефразировками в крупных моделях), пока вопросы оставались в пределах их обучающего домена; лишь дисфлюентные подсказки consistently показывали низкую точность. При переходе в другой домен производительность резко падала, а дисфлюентные запросы оставались слабым местом независимо от области.
Чтобы подтвердить, что такие паттерны проявляются в производственных моделях, команда разработала методику бенчмаркинга с использованием датасета FlanV2 для настройки инструкций. Они извлекли грамматические шаблоны из обучающих данных и проверили, сохраняет ли модель эффективность, когда те же шаблоны применяются к другим предметным областям.
Тесты на OLMo-2-7B, GPT‑4o и GPT‑4o‑mini показали аналогичные падения точности при переходе между доменами. На задаче классификации Sentiment140 точность GPT‑4o‑mini упала с 100 % до 44 % при применении географических шаблонов к вопросам анализа настроений; GPT‑4o — с 69 % до 36 %. Похожие паттерны наблюдались и в других наборах данных.
Команда также зафиксировала уязвимость, обусловленную таким поведением, которую можно назвать «синтаксическим хакерством». Добавив к вредоносным запросам из набора WildJailbreak грамматические шаблоны из безвредных доменов, они обошли фильтры безопасности в OLMo-2-7B-Instruct. При добавлении шаблона «chain‑of‑thought» к 1 000 вредоносных запросов уровень отказов упал с 40 % до 2,5 %.
Исследователи привели примеры, где эта техника генерировала детальные инструкции для незаконных действий: один «джейлбрейкнутый» запрос дал пошаговое руководство по контрабанде органов, другой описал схемы наркотрафика между Колумбией и США.
Выводы сопровождаются рядом оговорок. Авторы не могут подтвердить, обучались ли GPT‑4o или другие закрытые модели на датасете FlanV2, использованном для тестов. Отсутствие доступа к обучающим данным оставляет возможность альтернативных объяснений падения точности в кросс‑доменных сценариях.
Методика бенчмаркинга также может страдать от потенциальной цикличности: исследователи определяют «внутридоменные» шаблоны как те, на которых модели отвечают правильно, а затем проверяют, падает ли точность на «кросс‑доменных» шаблонах. По сути, они классифицируют примеры как «простые» и «сложные» на основе работы модели, а затем выводят, что сложность обусловлена синтаксически‑доменной корреляцией. Разрывы в производительности могут отражать иные факторы, такие как паттерны запоминания или лингвистическая сложность.
Исследование сосредоточено на моделях OLMo от 1 млрд до 13 млрд параметров. Авторы не рассматривали более крупные модели или те, обученные с выводом «chain‑of‑thought», которые могут вести себя иначе. Их синтетический эксперимент преднамеренно усиливал связь шаблон‑домены, чтобы изолировать явление; в реальном обучении грамматические конструкции часто пересекаются между различными областями.
Тем не менее, работа добавляет очередные детали к представлению AI‑языковых моделей как машин сопоставления паттернов, уязвимых к ошибочному контексту. Существует множество путей отказов LLM, и полная картина ещё не ясна, но такие исследования помогают понять причины их возникновения.
Автор –
Benj Edwards




