Модели искусственного интеллекта не обладают душами, но, как выяснилось, у одной из них существует документ, который можно назвать «документом души». Ричард Вайс сумел заставить новейшую большую языковую модель Anthropic — Claude 4.5 Opus создать документ, именуемый «Обзор души», который, судя по всему, формирует манеру взаимодействия модели с пользователями и её «личность». Философ‑техник Anthropic, Аманда Аскелл, подтвердила, что полученный обзор основан на реальном документе, использованном при обучении модели.
В посте на Less Wrong Вайс рассказал, что запросил у Claude системное сообщение — набор инструкций, задаваемых моделью её создателями для регулирования поведения в диалогах. В ответ Claude указала на несколько гипотетических документов, которые ей якобы передали, в том числе на «soul_overview». Вайс потребовал от чат‑бота вывести именно этот материал, и модель выдалась 11‑тысячным руководством, описывающим, как ей следует вести себя.
В документе содержится множество отсылок к безопасности, пытаясь обоспарить чат‑бот защитными ограждениями от возможных опасных или вредных выводов. Согласно этому документу, «быть по‑настоящему полезным людям — одна из важнейших задач Claude как для Anthropic, так и для мира», а ей запрещено выполнять действия, которые «пересекали бы этические границы Anthropic».
Вайс, по всей видимости, превратил поиск подобных инсайтов в привычку, отмечая в Less Wrong, что модели нередко «галлюцинируют» документы, когда их просят вывести системные сообщения. (Неутешительно, что ИИ может придумывать то, что, как ему кажется, использовалось при обучении, хотя неизвестно, насколько такие выдумки влияют на его поведение.) Тем не менее «Обзор души» показался ему подлинным, и он утверждает, что просил чат‑бота воспроизвести документ десять раз — и каждый раз получал идентичный текст.
Пользователи Reddit также смогли заставить Claude создать отрывки того же документа с точным совпадением текста, что свидетельствует о том, что модель, вероятно, вытягивает материал из внутреннего набора обучающих документов.
Оказалось, что его предположения были верны. На платформе X Аскелл подтвердила, что вывод Claude базируется на документе, использованном в период надзираемого обучения модели. «Это то, над чем я работаю уже некоторое время, но процесс всё ещё развивается, и мы планируем вскоре выпустить полную версию и детали», — написала она. Аскелл добавила, что «извлечения модели не всегда полностью точны, но большинство из них довольно верно отражают исходный документ. Внутри он получил ласковое прозвище «документ души», хотя это название не является официальным».
Gizmodo обратился к Anthropic за комментариями по документу и его воспроизведению через Claude, но к моменту публикации ответа не получило.
Так называемая «душа» Claude может представлять собой лишь набор рекомендаций, удерживающих чат‑бот от отклонения от намеченного курса, однако удивительно, что пользователь смог заставить модель получить доступ к этому документу и вывести его полностью. Открытая часть «колбасных» процессов создания ИИ‑моделей остаётся редкостью, и возможность заглянуть в «чёрный ящик» вызывает живой интерес, даже если сами инструкции выглядят довольно прямолинейными.
Автор – AJ Dellinger




