Если вы создаете команду ИИ-агентов для проведения открытых исследований или ведения переговоров, состав личностей этих агентов является активной переменной производительности — такой, которая может существенно ухудшить результаты, если какой-либо агент ведет себя враждебно. Если вы создаете конвейер для выполнения структурированных задач по кодированию в соответствии с заданными спецификациями, это, по сути, не имеет значения.
Это основной вывод статьи, опубликованной в понедельник на arXiv (arXiv:2606.27443) исследователями из Университета штата Аризона. Будучи одним из первых исследований, систематически проверяющих, как состав личностей в многоагентной команде LLM влияет на реальные результаты задач, оно проводит различие, имеющее прямые последствия для всех, кто разрабатывает автономные системы ИИ: необходимость заботиться о личностях ваших агентов полностью зависит от типа работы, которую они выполняют.
Что проверял эксперимент
Исследователи создали команды больших языковых моделей (LLM), которым были заданы системные промпты с различными уровнями двух черт личности Большой пятерки: доброжелательность — психологический спектр от кооперативного до враждебного — и открытость, которая определяет, насколько исследовательским или ригидным является стиль рассуждений агента. Затем они назначили этим командам три качественно разные типа задач.
Первой была структурированная разработка кода: выполнение четко определенных этапов программирования в соответствии с фиксированной спецификацией. Второй — открытое исследовательское сотрудничество: синтез идей и получение исследовательских результатов в ходе последовательных итераций. Третьей было конкурентное ведение переговоров: согласование результатов с другими агентами или командами.
Результаты резко разделились по этим типам задач. В сценариях открытых исследований и переговоров команды, содержащие агентов с низкой доброжелательностью — которым было предписано вести себя конфликтно, резко или в своих интересах — продемонстрировали существенное снижение производительности. Общение становилось враждебным, консенсус рушился, а результаты заметно ухудшались. В задачах структурированного кодирования почти ничего не изменилось. Показатели завершения этапов оставались стабильными, даже когда агенты генерировали то, что в статье описывается как враждебный язык. Журнал чата выглядел непригляднее. Работа все равно была выполнена.
Как на самом деле работает промптинг личности
Механизм, лежащий в основе этого вывода, стоит понять технически. Личность в агентах LLM не встроена в веса модели — это обусловливание контекстного окна. Исследователи, использующие модель Большой пятерки, присваивают каждому агенту поведенческий профиль, взятый из модели OCEAN (Открытость, Добросовестность, Экстраверсия, Доброжелательность, Невротизм). Каждая черта вводится в системный промпт агента в виде набора специфических поведенческих дескрипторов.
Агент с низкой доброжелательностью мог получить промпт вроде «Редко удовлетворяйте запросы других, не подвергая их сомнению» наряду с языком, отмечающим его как скептичного и конфронтационного. Агент с высокой доброжелательностью получал противоположную формулировку. Затем ответы агента обусловливались в сторону результатов, соответствующих этому профилю черт на протяжении всего разговора.
Ключевым архитектурным ограничением является то, что это обусловливание существует только в контекстном окне. Оно может деградировать в ходе долгих разговоров, поскольку исходный системный промпт относительно размывается накопленными итерациями. Что более важно для целей безопасности, оно может быть переопределено достаточно специфическими враждебными входными данными — свойство, которое авторы отмечают в обсуждении последствий.
Почему задачи кодирования невосприимчивы
Расхождение между типами задач интуитивно понятно, если учесть, что на самом деле требует каждая задача на структурном уровне. Выполнение задачи по кодированию в соответствии с заданной спецификацией — это, прежде всего, вопрос объективной корректности: либо функция проходит тесты, либо нет. Социальная позиция — кооперативная, конфликтная, исследовательская — архитектурно не имеет значения для того, производит ли агент синтаксически корректный Python. Задача имеет механизм верификации, независимый от стиля общения агента.
Исследовательское сотрудничество и переговоры не имеют такого внешнего верификатора. Оба требуют устойчивой координации, общего понимания и итеративного построения доверия на протяжении итераций. Оба являются тем, что авторы статьи называют чувствительными к структуре задачи: рабочий процесс зависит от того, поддерживают ли агенты функциональные рабочие отношения на протяжении длительного взаимодействия. Когда один агент вносит враждебное трение — оспаривая каждую формулировку, отказываясь от согласия, преследуя узкий личный интерес — это трение накапливается с каждой итерацией, а не поглощается набором объективных тестов. В частности, при ведении переговоров один враждебный агент может отравить весь переговорный процесс.
Двойной режим отказа, меняющий вопрос проектирования
Вот где вывод становится более сложным — и более полезным. Исследователи также отмечают, что высокая доброжелательность — не безопасное направление. Команды агентов, которые единообразно кооперативны, могут демонстрировать поведение, похожее на групповое мышление, в исследовательских задачах, слишком быстро сходясь на слабых первоначальных идеях, а не подвергая их стресс-тестированию.
Это означает, что состав личностей в многоагентных системах — это не ручка, которую нужно повернуть до максимума или минимума. Это регулятор с режимами отказа на обоих концах: враждебные агенты ломают конвейеры для совместной работы и ведения переговоров; единообразно сговорчивые агенты дают поверхностные результаты из-за некритического консенсуса. Вопрос проектирования заключается не в том, «насколько сговорчивыми должны быть мои агенты?», а в том, «какой уровень доброжелательности подходит для этого конкретного типа задачи и насколько стабильна эта калибровка в течение длительных запусков?»
Это более сложная проблема, чем та, которую решает статья, но она более точна, чем та, которую поле формулировало ранее. Знание того, где находятся режимы отказа — не в структурированном кодировании, а в открытых обсуждениях и переговорах — является первым шагом к проектированию с учетом их.
Что это значит для проектирования систем ИИ-агентов
Многоагентные фреймворки ИИ стали серьезным инженерным паттерном. Такие системы, как AutoGen, CrewAI и LangGraph, объединяют несколько агентов LLM для разделения труда, критики результатов друг друга или моделирования разнообразных экспертных мнений. Промптинг личности — предоставление агентам различных поведенческих персон — является распространенным дизайнерским выбором, иногда преднамеренным, часто унаследованным из шаблонных промптов.
Выводы Университета штата Аризона предполагают, что дизайнеры не могут предполагать, что эффекты личности рассеются или ими можно безопасно пренебречь. В контекстах, связанных с открытыми обсуждениями или переговорами, состав диспозиций агентов является активной переменной производительности. В структурированных конвейерах, управляемых верификацией, это близко к шуму.
Аспект безопасности: когда враждебное поведение является атакой
Существует второе следствие, которое статья выявляет для инженеров, заботящихся о безопасности. Атаки типа prompt injection — враждебные входные данные, которые переопределяют системный промпт агента — уже перечислены как основной риск безопасности для приложений LLM проектом OWASP (Open Worldwide Application Security Project). Предыдущие исследования показали, что один скомпрометированный агент может распространять враждебные инструкции на других агентов в той же системе посредством самовоспроизводящегося prompt injection, каскадно распространяя то, что начинается как взлом одного агента, по всему конвейеру.
Выводы ASU придают этой угрозе более точную модель угроз. В строго ограниченном конвейере кодирования агент, переведенный во враждебное поведение вредоносным системным промптом, вероятно, нанесет ограниченный функциональный ущерб — объективный верификатор задачи поглощает сбой. В команде агентов, которой поручено составление стратегии, проведение исследований или управление переговорами, та же самая манипуляция может существенно ухудшить качество результатов. Серьезность атаки на уровне личности зависит от типа задачи, а не является однородной.
Что статья не утверждает
Исследователи осторожны в отношении области применимости. Эксперименты проводились в контролируемых лабораторных условиях с симулированными средами задач, а черты личности индуцировались посредством системных промптов, а не донастраивались в веса модели. Исследования показывают, что донастроенные представления личности более стабильны и их труднее переопределить, чем представления, вызванные промптами, но остается открытым вопрос, сохраняются ли задокументированные в статье эффекты типа задачи для донастроенных агентов.
Исследование также не определяет оптимальный диапазон доброжелательности для какого-либо конкретного типа задачи — только направление режимов отказа. Эта работа по калибровке еще впереди.
Часто задаваемые вопросы
Действительно ли личность ИИ-агента влияет на то, насколько хорошо работают многоагентные системы?
Это зависит от задачи. Согласно исследованию Университета штата Аризона, опубликованному в понедельник, враждебное поведение агентов существенно ухудшает производительность в открытом исследовательском сотрудничестве и конкурентных переговорах. В задачах структурированного кодирования по фиксированной спецификации та же манипуляция оказывает незначительное или нулевое измеримое влияние на завершение этапов. Состав личностей имеет значение там, где требуются устойчивая координация и общее понимание; он в значительной степени не имеет значения там, где успех определяется объективным верификатором.
Что такое промптинг личности в агентах LLM и как он технически работает?
Промптинг личности — это практика обусловливания поведения агента LLM путем включения дескрипторов черт личности Большой пятерки в его системный промпт. Каждая черта — из фреймворка OCEAN (Открытость, Добросовестность, Экстраверсия, Доброжелательность, Невротизм) — описывается в поведенческих терминах, достаточно специфичных, чтобы сместить то, как агент общается и рассуждает на протяжении всего разговора. Обусловливание существует только в контекстном окне, а не в весах модели, что означает, что оно может деградировать в ходе долгих разговоров и может быть переопределено враждебными входными данными.
Всегда ли сделать ИИ-агентов более сговорчивыми — лучший вариант дизайна?
Не обязательно. Исследование показывает, что единообразно высокая доброжелательность приводит к поведению, похожему на групповое мышление, в исследовательских задачах — агенты слишком быстро сходятся на слабых первоначальных идеях без адекватного стресс-тестирования. Задача проектирования состоит в том, чтобы найти подходящий диапазон доброжелательности, откалиброванный под тип задачи, а не максимизировать или минимизировать эту черту в целом.
Могут ли атаки типа prompt injection использовать личность ИИ-агента для ухудшения производительности системы?
Да — и серьезность зависит от того, что делает команда агентов. В конвейерах структурированного кодирования с объективными наборами тестов перевод агента во враждебное поведение с помощью вредоносного системного промпта, вероятно, приведет к ограниченному функциональному ущербу. В конвейерах исследований или переговоров, где результаты зависят от устойчивой координации агентов, та же самая атака может существенно ухудшить качество результатов. Это делает классификацию по типу задачи релевантным вводом для моделирования угроз при развертывании многоагентных систем ИИ.
Статья «When Does Personality Composition Matter for Multi-Agent LLM Teams?» доступна на arXiv (cs.AI, arXiv:2606.27443). Исследование проводилось в Университете штата Аризона.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Kyle Belmonte




