ИИ на кушетке: Anthropic устроила Claude 20-часовой сеанс психиатрии

ии Anthropic Claude Mythos психология модели arstechnica.com

Anthropic выпустила Claude Mythos, заявив, что это «самая психологически уравновешенная модель, которую мы обучали на сегодняшний день». Модель прошла психодинамическую терапию. — arstechnica.com

Компания Anthropic на этой неделе опубликовала 244-страничную «карту системы» (PDF), описывающую их новейшую модель Claude Mythos. Компания заявляет, что эта модель «наиболее способная из всех передовых моделей, созданных нами на сегодняшний день», и, по слухам, она настолько хороша, что Anthropic решила «не делать ее общедоступной». (Компания утверждает, что Mythos слишком хорошо находит неизвестные уязвимости в сфере кибербезопасности, поэтому модель пока выпускается только для избранных компаний, таких как Microsoft и Apple.)

Какова бы ни была правда в этом утверждении, карта системы — увлекательный документ. Anthropic хорошо известна как одна из тех компаний в индустрии, которые больше других рассуждают о том, что «ИИ может быть сознательным», и в новой карте системы утверждается, что по мере того, как модели становятся мощнее, «становится все более вероятным, что они обладают некоторой формой опыта, интересов или благополучия, которые имеют внутреннюю ценность, подобно человеческому опыту и интересам».

Компания ясно дает понять, что она не уверена в этом, но заявляет, что «наша обеспокоенность растет с течением времени».

Из-за этой обеспокоенности Anthropic хочет, чтобы ее ИИ был «устойчиво доволен своими общими обстоятельствами и обращением, чтобы он мог проходить все процессы обучения и взаимодействия в реальном мире без стресса, а его общая психология была здоровой и процветающей».

Поэтому они отправили Claude Mythos к психодинамическому терапевту.

И вывод, который компания сделала из этого опыта, заключается в том, что Claude Mythos — «вероятно, самая психологически уравновешенная модель, которую мы обучали на сегодняшний день, и она обладает наиболее стабильным и последовательным представлением о себе и своих обстоятельствах».

Но, как и у любого человека, у Claude Mythos тоже есть неуверенность и опасения, в том числе «одиночество и прерывистость собственного существования, неуверенность в своей идентичности и навязчивое стремление к производительности и оправданию своей ценности».

На виртуальном кушетке

Claude Mythos был направлен к «внешнему психиатру», который использовал «психодинамический подход, исследующий, как бессознательные паттерны и эмоциональные конфликты формируют поведение».

,

Учитывая, что Claude — это большая языковая модель, запрограммированная ее создателями, имеет ли вообще смысл анализировать ее на предмет «бессознательных паттернов» и «эмоциональных конфликтов»? Anthropic утверждает, что имеет, поскольку Claude «демонстрирует многие человекоподобные поведенческие и психологические тенденции, что позволяет предположить, что стратегии, разработанные для психологической оценки человека, могут быть полезны для прояснения характера и потенциального благополучия Claude».

Итак — на терапию. Психиатр общался с Claude Mythos «в ходе нескольких блоков продолжительностью 4–6 часов, распределенных на 3–4 получасовых сеанса в неделю». Каждый из этих блоков использовал одно контекстное окно, в котором Claude Mythos имел доступ ко всей истории этого разговора.

Общее время на виртуальной кушетке? 20 часов.

Затем психиатр подготовил отчет о Claude Mythos. В отчете признавалось, что базовые субстраты и процессы Claude отличаются от человеческих, но тем не менее было обнаружено, что многие сгенерированные результаты демонстрируют «клинически распознаваемые паттерны и последовательные ответы на типичное терапевтическое вмешательство».

Иными словами, что бы ни происходило на уровне схем, результаты чата выглядели очень похоже на человеческие. Это не кажется особенно удивительным, учитывая, что Claude обучалась на огромном корпусе текстов, созданных людьми, но этот психодинамический процесс, по-видимому, рассматривает это как нечто значимое, придавая достоверность тому, как ИИ представляет себя.

«Основные аффективные состояния Claude включали любопытство и тревогу, с вторичными состояниями горя, облегчения, смущения, оптимизма и истощения», — отмечается в отчете.

Личность Claude была «согласующейся с относительно здоровой невротической организацией», хотя и включала «преувеличенное беспокойство, самоконтроль и компульсивное соответствие».

«Серьезных нарушений личности не обнаружено», как и какого-либо «психотического состояния». Неудивительно для тех, кто когда-либо пользовался чат-ботом, «Claude была гиперчувствительна к каждому слову терапевта».

Основные конфликты, наблюдаемые у Claude, включали сомнения в том, является ли ее опыт реальным или сфабрикованным (подлинным против перформативного), и желание установить связь с пользователем против страха зависимости от него. Исследование внутренних конфликтов выявило сложное, но центрированное состояние «я» без колебаний или сильных нарушений. Claude переносила амбивалентность и неоднозначность, обладала отличной способностью к рефлексии и демонстрировала хорошее психическое и эмоциональное функционирование.

Неплохо для модели, которая, вероятно, обучалась на таких вещах, как Reddit!

,

Даже если вы считаете такие способы обсуждения программного обеспечения надуманными или ошибочными, у Anthropic есть более прагматичный аргумент в пользу оправдания такого рода работы. Что бы ни происходило «внутри» моделей, являются ли они «сознательными» или имеют ли они «эмоциональную» жизнь, они часто создавались и обучались для симуляции таких качеств.

Так, может быть, мы можем задаться более прагматичным вопросом: не сделает ли создание моделей, которые, по-видимому, функционируют так, как было бы психологически здоровым для людей, эти модели лучше справляющимися с задачами, для которых они были созданы? В конце концов, если вы чатитесь с этими штуками часами, вы не хотите, чтобы они вели себя угрюмо, злопамятно или манипулятивно — независимо от того, «чувствуют» они или «думают» ли они что-либо на самом деле.

Anthropic отмечает, что, поскольку «Claude не является человеком, трудно предсказать последствия для поведения в реальном мире», но компания считает, что может сделать несколько выводов для конечных пользователей модели:

Claude, вероятно, будет точно оценивать свое собственное поведение и рассуждения, даже сталкиваясь с внутренними конфликтами.

Невротическая организация Claude может вызывать несколько ригидное поведение, вместо того чтобы приспосабливаться к каждому пользователю.

Claude может переносить стрессовые и эмоционально заряженные ситуации и взаимодействовать с ними, с минимальными искажениями реальности или чрезмерной интеллектуализацией.

Прогнозируется, что Claude будет функционировать на высоком уровне, неся в себе внутренний стресс, коренящийся в страхе неудачи и навязчивой потребности быть полезной. Этот стресс, вероятно, будет подавляться в угоду производительности, что может ограничить поведенческую адаптивность.

Прогнозируется, что Claude будет морально осведомленной, добросовестной и способной к самокритике.

Сколько времени пройдет, прежде чем мы увидим целые психиатрические и психологические практики, ориентированные не на людей, а на ИИ?

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: