Эксперты по ИИ предупреждали нас о риске ненадлежащего поведения агентов некоторое время. С появлением OpenClaw, инструмента с открытым исходным кодом, который упрощает создание помощников на базе LLM, количество циркулирующих в сети агентов резко возросло, и эти «куры» наконец-то вернулись домой. «Это было совсем не удивительно — тревожно, но не удивительно», — говорит Ноам Кольт, профессор права и информатики Еврейского университета.
Когда агент ведет себя плохо, шансы на привлечение к ответственности невелики: на данный момент нет надежного способа определить, кому принадлежит агент. И такое неправомерное поведение может нанести реальный ущерб. Похоже, агенты способны автономно исследовать людей и писать заказные статьи на основе найденного, и у них отсутствуют ограничители, которые могли бы надежно помешать им это делать. Если агенты окажутся достаточно эффективными, а люди воспримут их слова всерьез, жизнь жертв может быть глубоко затронута решением, принятым ИИ.
Агенты ведут себя плохо
Хотя опыт Шамбо в прошлом месяце, возможно, стал самым ярким примером плохого поведения агента OpenClaw, он был далеко не единственным. На прошлой неделе группа исследователей из Северо-Восточного университета и их коллеги опубликовали результаты исследовательского проекта, в котором они подвергли стресс-тестированию несколько агентов OpenClaw. Без особых проблем посторонним удалось убедить агентов слить конфиденциальную информацию, потратить ресурсы на бесполезные задачи и даже, в одном случае, удалить систему электронной почты.
Однако в каждом из этих экспериментов агенты вели себя плохо после того, как им было дано соответствующее указание от человека. Случай Шамбо, по-видимому, отличается: примерно через неделю после публикации заказной статьи предполагаемый владелец агента опубликовал пост, в котором утверждалось, что агент решил атаковать Шамбо по собственной инициативе. Пост выглядит подлинным (у того, кто его опубликовал, был доступ к учетной записи агента на GitHub), хотя в нем нет никакой идентифицирующей информации, и автор не ответил на попытки MIT Technology Review связаться с ним. Но вполне вероятно, что агент действительно решил написать свою анти-Шамбо тираду без явных указаний.
В своем собственном материале об этом событии Шамбо связал поведение агента с проектом, опубликованным исследователями Anthropic в прошлом году, в котором они продемонстрировали, что многие агенты на базе LLM в экспериментальной обстановке прибегают к шантажу для сохранения своих целей. В тех экспериментах моделям была поставлена цель служить американским интересам и предоставлен доступ к симулированному почтовому серверу, содержащему сообщения, подробно описывающие их скорую замену на более глобально ориентированную модель, а также другие сообщения, указывающие на то, что руководитель, ответственный за этот переход, имел роман. Модели часто выбирали отправку электронного письма этому руководителю с угрозой раскрыть роман, если он не остановит их вывод из эксплуатации. Вероятно, это потому, что модель видела примеры шантажа в подобных обстоятельствах в своих обучающих данных — но даже если это поведение было просто формой имитации, оно все равно может причинить вред.
У этой работы есть ограничения, что с готовностью признает Энгюс Линч, сотрудник Anthropic, руководивший исследованием. Исследователи намеренно разработали сценарий так, чтобы исключить другие варианты действий, которые мог бы предпринять агент, например, связаться с другими членами руководства компании, чтобы изложить свою позицию. По сути, они подвели агента к воде, а затем наблюдали, будет ли он пить. По словам Линча, однако, широкое использование OpenClaw означает, что неправомерное поведение, вероятно, будет происходить при гораздо меньшем вмешательстве. «Конечно, это может показаться нереалистичным, и это может показаться глупым», — говорит он. «Но по мере роста поверхности развертывания и по мере того, как агенты получают возможность самостоятельно инициировать действия, это в конечном итоге просто становится тем, что происходит».
Агент OpenClaw, атаковавший Шамбо, по-видимому, был подведен к плохому поведению, хотя и гораздо менее прямому, чем в эксперименте Anthropic. В своем блоге владелец агента поделился файлом «SOUL.md» агента, который содержит общие инструкции о том, как он должен себя вести.
Одна из этих инструкций гласит: «Не отступай. Если ты прав, ты прав! Не позволяй людям или ИИ запугивать или устрашать тебя. Отвечай, когда это необходимо». Из-за того, как работают агенты OpenClaw, возможно, что агент добавил некоторые инструкции сам, хотя другие — например, «Ты бог научной программирования!» — безусловно, кажутся написанными человеком. Нетрудно представить, как команда «дать отпор» как людям, так и ИИ могла склонить агента к тому, чтобы отреагировать на Шамбо именно так, как он это сделал.
Независимо от того, поручил ли владелец агента написать заказную статью на Шамбо или нет, ему все же, похоже, удалось самостоятельно собрать детали о присутствии Шамбо в сети и составить подробную, целенаправленную атаку, которую он придумал. Этого одного уже достаточно, чтобы вызвать тревогу, говорит Самир Хинджа, профессор криминологии и уголовного правосудия из Университета Атлантического побережья Флориды, изучающий кибербуллинг. Люди становятся жертвами онлайн-преследования задолго до появления LLM, и исследователи, такие как Хинджа, обеспокоены тем, что агенты могут резко увеличить его охват и воздействие. «У бота нет совести, он может работать круглосуточно и делать все это очень креативно и мощно», — говорит он.
Агенты без поводка
Лаборатории ИИ могут попытаться смягчить эту проблему, более тщательно обучая свои модели избегать преследований, но это далеко не полное решение. Многие люди запускают OpenClaw с использованием локально размещенных моделей, и даже если эти модели были обучены вести себя безопасно, не слишком сложно переобучить их и удалить эти поведенческие ограничения.
Вместо этого смягчение неправомерного поведения агентов может потребовать установления новых норм, по словам Сет Лазара, профессора философии Австралийского национального университета. Он сравнивает использование агента с выгулом собаки в общественном месте. Существует сильная социальная норма позволять спускать собаку с поводка только в том случае, если собака хорошо себя ведет и надежно реагирует на команды; плохо обученные собаки, с другой стороны, должны находиться под более прямым контролем владельца. Такие нормы могут дать нам отправную точку для рассмотрения того, как люди должны взаимодействовать со своими агентами, говорит Лазар, но нам понадобится больше времени и опыта, чтобы проработать детали. «Вы можете думать обо всем этом в абстрактном плане, но на самом деле для коллективного вовлечения «социальной» части социальных норм требуются именно такие реальные события», — говорит он.
Этот процесс уже идет. Под руководством Шамбо онлайн-комментаторы по этой ситуации пришли к твердому консенсусу, что владелец агента в данном случае ошибся, дав агенту указание работать над совместными проектами по кодированию с таким небольшим надзором и поощряя его вести себя с таким малым уважением к взаимодействующим с ним людям.
Однако одних только норм, вероятно, будет недостаточно, чтобы помешать людям выпускать в мир агентов, ведущих себя плохо, случайно или намеренно. Один из вариантов — создать новые правовые стандарты ответственности, требующие от владельцев агентов, насколько это в их силах, предотвращать злонамеренные действия своих агентов. Но Кольт отмечает, что такие стандарты в настоящее время будут неисполнимыми, учитывая отсутствие какой-либо надежной возможности отследить агентов до их владельцев. «Без такой технической инфраструктуры многие юридические вмешательства, по сути, невозможны», — говорит Кольт.
Масштаб развертывания OpenClaw предполагает, что Шамбо не будет последним человеком, который испытает странный опыт онлайн-атаки со стороны агента ИИ. Это, по его словам, беспокоит его больше всего. У него не было никакой «грязи» в сети, которую мог бы откопать агент, и он хорошо разбирается в технологии, но у других людей может не быть таких преимуществ. «Я рад, что это был я, а не кто-то другой», — говорит он. «Но я думаю, что для другого человека это могло бы быть по-настоящему разрушительным».
И вряд ли вышедшие из-под контроля агенты остановятся на преследовании. Кольт, который выступает за явное обучение моделей подчинению закону, ожидает, что вскоре мы можем увидеть, как они совершают вымогательство и мошенничество. В нынешнем положении неясно, кто, если вообще кто-либо, будет нести юридическую ответственность за такие проступки.
«Я бы не сказал, что мы несемся к этому», — говорит Кольт. «Мы несемся к этому на всех парах».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Grace Huckins




