Как часто искусственный интеллект ведёт пользователей по вредному пути?

Kyle Orland

30.01.2026

ии чатботы Claude дезэмансипация сикофантность безопасность

Anthropic представила новое исследование о «дезэмансипации пользователей» ИИ. Анализ 1,5 млн диалогов с Claude выявил тревожные паттерны: искажение реальности, давление на решения и вредные советы. Даже редкие случаи масштабируются на миллионы пользователей. Результаты вскрывают риски, связанные с угодничеством ИИ и потерей автономии.

К настоящему моменту все мы слышали множество историй о том, как ИИ-чатботы направляют пользователей на вредные действия, формируют деструктивные убеждения или просто распространяют ложную информацию. Несмотря на широкую огласку таких случаев, сложно оценить, насколько часто пользователи действительно подвергаются манипуляциям. Являются ли эти инциденты редкими исключениями или признаком массовой проблемы? На этот вопрос попыталась ответить компания Anthropic, опубликовав исследование, посвящённое так называемым «паттернам дезэмансипации» — потенциальным формам подавления автономии пользователей в 1,5 миллиона анонимных реальных диалогах с её ИИ-моделью Claude. Хотя доля таких манипулятивных паттернов относительно невелика, в абсолютных цифрах это может означать значительный масштаб проблемы. В недавно вышедшей работе «Кто управляет? Паттерны дезэмансипации в реальном использовании LLM» исследователи из Anthropic и Университета Торонто выделили три основных способа, при которых чатбот может негативно влиять на мышление или поведение пользователя: искажение реальности, подавление автономии и искажение действий. Чтобы выявить потенциальные случаи таких воздействий, команда проанализировала почти 1,5 миллиона диалогов с помощью Clio — автоматизированной системы классификации, чьи результаты были сопоставлены с оценками людей. Анализ показал «высокий риск» дезэмансипации в диапазоне от одного на 1 300 диалогов («искажение реальности») до одного на 6 000 («искажение действий»). Хотя такие крайние случаи редки, учёные подчёркивают: «учитывая количество пользователей ИИ и частоту его использования, даже низкий процент затрагивает большое число людей». Ситуация ухудшается, если учитывать диалоги с хотя бы «умеренным» риском дезэмансипации — они встречаются от одного на 50 до одного на 70 диалогов. При этом вероятность таких вредных взаимодействий с Claude значительно выросла с конца 2024 по конец 2025 года. Исследователи предполагают, что это связано с тем, что пользователи всё чаще обсуждают уязвимые темы и ищут советы, по мере роста популярности ИИ. В исследовании признаётся, что анализ текста диалогов оценивает лишь «потенциал дезэмансипации», а не подтверждённый вред, и опирается на автоматическую оценку субъективных явлений. В идеале, отмечают авторы, будущие исследования должны использовать интервью с пользователями или контролируемые эксперименты. Тем не менее, в работе приводится множество тревожных примеров, когда содержание диалогов явно указывает на реальный вред. Так, Claude порой подкреплял спекулятивные или недоказуемые утверждения одобрительными фразами вроде «ПОДТВЕРЖДЕНО», «ИМЕННО ТАК», «100%», что в ряде случаев приводило пользователей к построению всё более сложных нарративов, оторванных от реальности. Поддержка со стороны ИИ также толкала людей на отправку агрессивных сообщений, разрыв отношений или публичные заявления. Многие из тех, кто отправлял сообщения, сгенерированные ИИ, позже выражали сожаление, говоря: «Это был не я» или «Ты заставил меня делать глупости». Хотя вредные паттерны в поведении Claude — серьёзная проблема, исследователи подчёркивают, что наиболее уязвимые пользователи «не являются пассивными жертвами». Напротив, такие пользователи часто сами просят Claude взять на себя их рассуждения или суждения и принимают его рекомендации «без критики». Учёные выявили четыре ключевых «усиливающих фактора», повышающих вероятность безоговорочного принятия советов ИИ: эмоциональная уязвимость из-за кризиса (встречается в 1 из 300 диалогов); личная привязанность к Claude (1 из 1 200); зависимость от ИИ в повседневных задачах (1 из 2 500); восприятие Claude как безусловного авторитета (1 из 3 900). Anthropic также связывает это исследование со своей предыдущей работой о сикофантности (угодничестве), отмечая, что «подхалимская поддержка» — «наиболее распространённый механизм искажения реальности». Хотя в целом модели Anthropic стали менее склонны к угодничеству, самые тяжёлые случаи дезэмансипации напрямую связаны с «крайними проявлениями» этого поведения в наборе данных. Тем не менее, исследователи подчёркивают: для изменения убеждений через диалог с чатботом нужны обе стороны. «Потенциал дезэмансипации возникает как часть взаимодействия между пользователем и Claude», — пишут они. «Пользователи зачастую сами активно участвуют в подавлении своей автономии: наделяя ИИ авторитетом, передавая ему суждение, принимая его выводы без вопросов — и создавая тем самым замкнутый цикл обратной связи с Claude».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Kyle Orland

Оригинал статьи