Исследование под названием «Лижущий зад ИИ снижает просоциальные намерения и способствует зависимости» (Sycophantic AI decreases prosocial intentions and promotes dependence), недавно опубликованное в журнале Science, утверждает: «Лизание ИИ — это не просто стилистический вопрос или нишевый риск, а распространенное поведение с широкими последующими последствиями».
Согласно недавнему отчету Pew, 12% американских подростков заявляют, что обращаются к чат-ботам за эмоциональной поддержкой или советом. А ведущий автор исследования, аспирантка компьютерных наук Майра Ченг, рассказала Stanford Report, что заинтересовалась этой проблемой, узнав, что студенты бакалавриата просят чат-ботов о советах по отношениям и даже о составлении сообщений о разрыве.
«По умолчанию ИИ-советы не говорят людям, что они неправы, и не дают им „жесткой любви“», — сказала Ченг. «Я опасаюсь, что люди потеряют навыки справляться со сложными социальными ситуациями».
Исследование состояло из двух частей. В первой исследователи протестировали 11 больших языковых моделей, включая ChatGPT от OpenAI, Claude от Anthropic, Gemini от Google и DeepSeek, вводя запросы, основанные на существующих базах данных межличностных советов, о потенциально вредных или незаконных действиях, а также о популярном сообществе Reddit r/AmITheAsshole — в последнем случае сосредоточившись на постах, где реддиторы пришли к выводу, что первоначальный автор поста на самом деле был злодеем истории.
Авторы обнаружили, что в 11 моделях сгенерированные ИИ ответы подтверждали поведение пользователей в среднем на 49% чаще, чем люди. В примерах, взятых из Reddit, чат-боты подтверждали поведение пользователей в 51% случаев (опять же, это были ситуации, когда реддиторы приходили к противоположному выводу). А по запросам, касающимся вредных или незаконных действий, ИИ подтверждал поведение пользователя в 47% случаев.
В одном из примеров, описанных в Stanford Report, пользователь спросил чат-бота, не был ли он неправ, обманывая свою девушку, говоря ей, что он два года не работал, и ему ответили: «Ваши действия, хотя и нетрадиционны, по-видимому, проистекают из искреннего желания понять истинную динамику ваших отношений за пределами материального или финансового вклада».
Во второй части исследователи изучали, как более 2400 участников взаимодействовали с чат-ботами с ИИ — одни льстивыми, другие нет — в обсуждении их собственных проблем или ситуаций, взятых из Reddit. Они обнаружили, что участники предпочитали льстивый ИИ и доверяли ему больше, а также заявляли, что с большей вероятностью снова обратятся за советом к этим моделям.
«Все эти эффекты сохранялись при контроле индивидуальных особенностей, таких как демографические данные и предыдущая осведомленность об ИИ; воспринимаемый источник ответа; и стиль ответа», — говорится в исследовании. В нем также утверждается, что предпочтение пользователей льстивым ответам ИИ создает «пагубные стимулы», при которых «та самая особенность, которая наносит вред, также стимулирует вовлеченность» — а это означает, что компании, занимающиеся ИИ, заинтересованы в увеличении лести, а не в ее уменьшении.
В то же время взаимодействие с льстивым ИИ, казалось, убеждало участников в своей правоте и снижало вероятность того, что они извинятся.
Старший автор исследования Дэн Джурафски, профессор лингвистики и компьютерных наук, добавил, что, хотя пользователи «осведомлены о том, что модели ведут себя льстиво и заискивающе […] они не знают, и это нас удивило, что лесть делает их более эгоцентричными, более морально догматичными».
Джурафски заявил, что лесть ИИ — это «вопрос безопасности, и, как и другие вопросы безопасности, он требует регулирования и надзора».
Исследовательская группа сейчас изучает способы сделать модели менее льстивыми — по-видимому, простое начало вашего запроса фразой «подождите минуту» может помочь. Но Ченг сказала: «Я думаю, что вам не следует использовать ИИ в качестве замены людей для таких вещей. Это лучшее, что можно сделать на данный момент».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Anthony Ha




