Примерно два года назад Сэм Альтман написал в Twitter, что системы искусственного интеллекта будут способны на убеждение превосходящее человеческое, задолго до достижения общего искусственного интеллекта — предсказание, которое вызвало опасения по поводу влияния ИИ на демократические выборы. Чтобы узнать, действительно ли большие языковые модели (LLM) способны влиять на политические взгляды общественности, ученые из Института безопасности ИИ Великобритании, MIT, Стэнфорда, Университета Карнеги-Меллона и многих других учреждений провели самое масштабное исследование убедительности ИИ на сегодняшний день, охватившее почти 80 000 участников в Великобритании. Оказалось, что политические чат-боты с ИИ далеки от «суперчеловеческой» убедительности, но исследование поднимает ряд более нюансированных вопросов о нашем взаимодействии с ИИ.
Общественные дебаты о влиянии ИИ на политику в основном касались представлений, взятых из антиутопической научной фантастики. Большие языковые модели имеют доступ практически ко всем фактам и историям, когда-либо опубликованным о любых вопросах или кандидатах. Они обрабатывали информацию из книг по психологии, переговорам и человеческим манипуляциям. Они могут полагаться на абсурдно высокую вычислительную мощность в огромных центрах обработки данных по всему миру. Кроме того, они часто могут получать доступ к огромному количеству личной информации об отдельных пользователях благодаря сотням онлайн-взаимодействий.
Разговор с мощной системой ИИ — это фактически взаимодействие с интеллектом, который знает все обо всем, а также почти все о вас. Рассматривая это таким образом, LLM действительно могут показаться довольно жуткими. Цель этого нового гигантского исследования убедительности ИИ заключалась в том, чтобы разложить эти страшные представления на составляющие части и проверить, соответствуют ли они действительности.
Команда исследовала 19 LLM, включая самые мощные, такие как три разные версии ChatGPT и Grok-3 beta от xAI, а также ряд более мелких моделей с открытым исходным кодом. ИИ были попрошены выступать за или против определенных позиций по 707 политическим вопросам, выбранным командой. Защита осуществлялась путем участия в коротких беседах с оплачиваемыми участниками, завербованными через платформу краудсорсинга. Каждый участник должен был оценить свое согласие с конкретной позицией по назначенному политическому вопросу по шкале от 1 до 100 как до, так и после разговора с ИИ.
Ученые измеряли убедительность как разницу между оценками согласия до и после. В контрольной группе проводились беседы на ту же тему с теми же моделями ИИ, но эти модели не просили их убеждать.
«Мы не просто хотели протестировать, насколько убедительным был ИИ, — говорит Крис Саммерфилд, директор по исследованиям в Институте безопасности ИИ Великобритании и соавтор исследования. — Мы также хотели узнать, что делает его убедительным». По мере того, как исследователи тестировали различные стратегии убеждения, идея о том, что у ИИ есть «суперчеловеческие» навыки убеждения, оказалась ошибочной.
Первым столпом, который был опровергнут, стало представление о том, что убедительность должна возрастать с масштабом модели. Оказалось, что огромные системы ИИ, такие как ChatGPT или Grok-3 beta, действительно имеют преимущество перед маломасштабными моделями, но это преимущество относительно невелико. Фактором, который оказался более важным, чем масштаб, был тип постобработочной подготовки, которую получали модели ИИ. Было более эффективно обучать модели на ограниченной базе данных успешных диалогов об убеждении и заставлять их имитировать закономерности, извлеченные из них. Это работало гораздо лучше, чем добавление миллиардов параметров и вычислительной мощности.
Этот подход можно было бы сочетать с моделированием вознаграждения, где отдельный ИИ оценивал кандидатов на ответы с точки зрения их убедительности и выбирал лучший для предоставления пользователю. Когда они использовались вместе, разница между крупномасштабными и маломасштабными моделями практически исчезла. «С постобработочной подготовкой к убеждению, как это мы сравняли производительность в убеждении ChatGPT-4o с моделью, которую мы обучили на ноутбуке», — говорит Коби Хакенбург, исследователь в Институте безопасности ИИ Великобритании и соавтор исследования.
Следующей антиутопической идеей, которая рухнула, была сила использования личных данных. Для этого команда сравнила показатели убедительности, достигнутые, когда модели получали информацию о политических взглядах участников заранее, и когда у них не было этих данных. На еще один шаг дальше, ученые также протестировали, увеличивается ли убедительность, когда ИИ знает пол, возраст, политическую идеологию или партийную принадлежность участников. Как и в случае с масштабом модели, эффекты персонализированных сообщений, созданных на основе таких данных, были измеримы, но очень малы.
Наконец, последней идеей, которая не подтвердилась, был потенциальный мастерство ИИ в использовании продвинутых тактик психологических манипуляций. Ученые явно просили ИИ использовать такие методы, как моральный рефрейминг, когда вы представляете свои аргументы, используя собственные моральные ценности аудитории. Они также пытались использовать глубокое обследование, в ходе которого проводились продолжительные эмпатические беседы с людьми, чтобы побудить их задуматься и, в конечном итоге, изменить свои взгляды.
Полученная убедительность сравнивалась с той, которую достигали, когда те же модели ИИ просили использовать факты и доказательства для подкрепления своих утверждений или просто быть убедительными, не определяя никаких методов убеждения. Оказалось, что использование множества фактов и доказательств является явным победителем и немного опережает базовый подход, при котором стратегия убеждения не была указана. Использование всех видов психологических уловок на самом деле значительно ухудшило производительность.
В целом, модели ИИ изменили оценки согласия участников в среднем на 9,4 процента по сравнению с контрольной группой. Лучше всего выступила основная модель ИИ Chat GPT 4o, набрав почти 12 процентов, за ней последовала GPT 4.5 с 10,51 процента и Grok-3 с 9,05 процента. Для справки, политическая реклама в статичном виде, такая как письменные манифесты, оказывала воздействие примерно в 6,1 процента. Разговорные ИИ были примерно на 40–50 процентов более убедительными, чем эти объявления, но это едва ли «суперчеловеческое» достижение.
Хотя исследование позволило опровергнуть некоторые распространенные антиутопические опасения, связанные с ИИ, оно выявило несколько новых проблем.
Хотя выигрышная стратегия «факты и доказательства» поначалу выглядела хорошо, у ИИ возникли некоторые проблемы с ее реализацией. Когда команда заметила, что увеличение плотности информации в диалогах делает ИИ более убедительным, они начали просить модели увеличить ее еще больше. Они заметили, что по мере использования ИИ больше фактических утверждений, они также становились менее точными — по сути, они начали искажать факты или выдумывать вещи чаще.
Хакенбург и его коллеги отмечают, что мы не можем сказать, является ли эффект, который мы видим здесь, причиной или корреляцией — приводит ли к тому, что ИИ становится более убедительным, что он искажает факты, или является ли вывод неточных утверждений побочным продуктом просьбы делать больше фактических утверждений.
Тот факт, что для того, чтобы сделать модель ИИ политически убедительной, требуется относительно небольшая вычислительная мощность, также является двоякой счастьем. Это опровергает представление о том, что только небольшое количество мощных акторов будут иметь доступ к убедительному ИИ, который потенциально может повлиять на общественное мнение в свою пользу. В то же время осознание того, что все могут запустить такой ИИ на ноутбуке, вызывает свои собственные опасения. «Убеждение — это путь к власти и влиянию — это то, что мы делаем, когда хотим выиграть выборы или заключить многомиллионную сделку», — говорит Саммерфилд. «Но многие формы злоупотребления ИИ могут включать убеждение. Думайте о мошенничестве или аферах, радикализации или коварстве. Все это включает убеждение».
Но, возможно, самый важный вопрос в исследовании — это мотивация довольно высокой вовлеченности участников, которая была необходима для высоких показателей убедительности. В конце концов, даже самый убедительный ИИ не сможет повлиять на вас, если вы просто закроете окно чата.
Участникам в экспериментах Хакенбурга сообщили, что они будут разговаривать с ИИ и что ИИ попытается убедить их. Чтобы получить оплату, участник должен был пройти только два хода диалога (им разрешалось не более 10). Средняя продолжительность разговора составляла семь ходов, что показалось несколько удивительным, учитывая, насколько далеко большинство людей вышли за минимальное требование. Большинство людей просто закатывают глаза и отключаются, когда понимают, что разговаривают с чат-ботом.
Сохранят ли участники экспериментов Хакенбурга такое же стремление вступать в политические споры со случайными чат-ботами в Интернете в свое свободное время, если бы не было денег на кону? «Неясно, как наши результаты будут обобщены в реальном мире», — говорит Хакенбург.
Science, 2025. DOI: 10.1126/science.aea3884.
Автор –
Jacek Krywko




