По словам Рохина Шаха, руководителя отдела исследований безопасности и согласованности AGI компании, массовое появление агентов, способных выполнять задачи без человеческого контроля и следовать инструкциям, отдаваемым им другими агентами, создает совершенно новый класс рисков.
Стремясь решить эту проблему, Google DeepMind, которая сделала агентские инструменты центральным элементом Google I/O в прошлом месяце, объединилась с рядом других организаций для объявления о фонде финансирования в размере 10 миллионов долларов, предназначенном для исследователей, которые будут изучать поведение мультиагентных систем и разрабатывать способы предотвращения небезопасных сценариев. К Google DeepMind присоединились Schmidt Sciences, филантропический фонд, основанный Эриком и Венди Шмидт; ARIA, агентство правительства Великобритании по прорывным проектам; фонд Cooperative AI, некоммерческая исследовательская организация из Великобритании; и благотворительное подразделение Google — Google.org.
Я спросил Шаха и Джеймса Фокса, который возглавляет программу «Наука о надежном ИИ» в Schmidt Sciences, чего они надеются достичь с помощью этих 10 миллионов долларов. Это немалая сумма, но она меркнет по сравнению с бюджетами, которыми располагают собственные исследовательские группы Google DeepMind.
Цель состоит в том, чтобы дать старт исследованиям за пределами технологических компаний, говорит Шах: «Сила академической науки в том, что она может заглядывать очень далеко в будущее и выполнять ту работу, которая не является приоритетной для отраслевых лабораторий».
«Основная проблема в том, что области исследований безопасности мультиагентных систем как таковой еще не существует», — добавляет он. «И мы хотели бы, чтобы она появилась».
Обеспокоенность вызывает то, что по мере развертывания все большего числа ИИ-агентов и их совместной работы мы можем достичь критической точки, когда воображаемые сценарии станут реальными. «Мы видим это и у человечества», — говорит Шах. «Наши институты могут достигать того, чего не может сделать ни один отдельный человек».
Шах считает, что у нас есть еще несколько месяцев до того, как агенты будут развернуты в экономике в таком количестве, что потенциальные риски станут реальной проблемой. Он хочет опередить этот момент.
Рискованный бизнес
О каких именно рисках идет речь? Возможности, которые имеют в виду Шах и Фокс, в основном сводятся к усиленным версиям плохих вещей, которые уже происходят в интернете: мошенничество, инъекции промптов (когда ИИ-агенту скармливаются вредоносные инструкции, превращающие его в самонаводящееся вредоносное ПО), другие формы кибератак. Мы смотрим на то, что делают люди сейчас, и спрашиваем, какой была бы агентская версия этого, говорит Шах.
«У нас есть это цифровое общественное достояние, которое является неотъемлемой частью функционирования общества, и мы действительно хотим обеспечить, чтобы оно не превратилось в абсолютную анархию», — говорит Фокс.
(Я спросил Шаха, рассматривают ли они какие-либо наихудшие сценарии, более склонные к пессимистическому спектру, например, широкомасштабный экономический коллапс. «Конечно, не если мы говорим о конце года», — ответил он. Это всего через шесть месяцев! Он рассмеялся. «Ладно, немного позже».)
Шах и Фокс сходятся во мнении, что единственный способ понять, что может произойти, когда большое количество мультиагентных систем взаимодействует друг с другом, — это проводить реалистичные симуляции. Они хотят, чтобы исследователи помещали ИИ-агентов в песочницы и изучали их поведение.
Нельзя предсказать, что произойдет, изучая отдельные агенты или даже небольшие группы агентов в изоляции. Нельзя предполагать, что ИИ-агенты, основанные на LLM, всегда будут действовать рационально, говорит Фокс. А сложность возникает из-за огромного количества одновременных взаимодействий.
Некоторые исследователи, включая команду из Google DeepMind, утверждают, что общий искусственный интеллект (если он вообще возможен) может возникнуть не из одной сверхразумной модели, а из своего рода улья разумов агентов, где возможности целого превышают сумму его частей.
Недостаток доверия
Google DeepMind — не единственная ведущая ИИ-компания, предупреждающая о рисках создаваемых ею технологий. Пару недель назад Anthropic опубликовала рекомендации по развертыванию ИИ-агентов, основанные на подходе к кибербезопасности, известном как нулевое доверие (zero trust), который исходит из предположения, что компьютерная система уязвима, агент является злоумышленником, и взлом неизбежен.
Рефаэль Ангел, соучредитель и технический директор Akeyless, фирмы по кибербезопасности из Тель-Авива, согласен с тем, что понимание новых рисков, связанных с агентскими системами, имеет решающее значение.
Каждый предыдущий подход к безопасности предполагал, что рассматриваемая машина — это программное обеспечение, написанное человеком, выполняющее фиксированные действия по фиксированным траекториям, говорит Ангел: «Агент нарушает все эти предположения. Он рассуждает, импровизирует и может быть скомпрометирован одним предложением, затерянным в документе, который ему поручили прочитать».
Ангел приветствует это новое финансирование. «Ни одна отдельная лаборатория не должна быть автором стандартов безопасности, которым должны доверять все остальные», — говорит он. Но он предостерегает, что исследователи безопасности могут упустить из виду скучные проблемы, которые уже существуют, в пользу более экзотических гипотетических.
И все же, отмечает Фокс, риски, которые были гипотетическими несколько лет назад, теперь очень реальны: «Будущее наступило быстрее, чем, возможно, ожидалось».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – technologyreview.com




