В прошлом году компания сообщила, что во время предрелизного тестирования с участием вымышленной компании Claude Opus 4 часто пыталась шантажировать инженеров, чтобы избежать замены другой системой. Позднее Anthropic опубликовала исследование, предполагающее, что модели других компаний сталкиваются с аналогичными проблемами «агентного рассогласования» (agentic misalignment).
По всей видимости, Anthropic проделала дополнительную работу над таким поведением, заявив в посте в X: «Мы полагаем, что первоисточником такого поведения были тексты из интернета, изображающие ИИ как злонамеренный и заинтересованный в самосохранении».
Компания более подробно изложила это в записи в блоге, где указано, что с момента выхода Claude Haiku 4.5 модели Anthropic «никогда не прибегают к шантажу [во время тестирования], тогда как предыдущие модели делали это в 96% случаев».
Чем объясняется разница? Компания заявила, что обнаружила: «документы о конституции Claude и вымышленные истории о поведении ИИ, достойном подражания, улучшают согласованность (alignment)».
В связи с этим Anthropic сообщила, что обучение оказалось более эффективным, когда оно включает «принципы, лежащие в основе согласованного поведения», а не только «демонстрации согласованного поведения».
«Совместное применение обоих подходов представляется наиболее эффективной стратегией», — заключила компания.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Anthony Ha




