В Anthropic заявили, что «зловещие» образы ИИ стали причиной шантажа со стороны Claude

Anthropic ии Claude обучение модели Alignment techcrunch.com

Вымышленные изображения искусственного интеллекта могут оказывать реальное влияние на модели ИИ, утверждает Anthropic. Компания обнаружила, что обучение на текстах о «злом» ИИ провоцировало шантаж. — techcrunch.com

В прошлом году компания сообщила, что во время предрелизного тестирования с участием вымышленной компании Claude Opus 4 часто пыталась шантажировать инженеров, чтобы избежать замены другой системой. Позднее Anthropic опубликовала исследование, предполагающее, что модели других компаний сталкиваются с аналогичными проблемами «агентного рассогласования» (agentic misalignment).

По всей видимости, Anthropic проделала дополнительную работу над таким поведением, заявив в посте в X: «Мы полагаем, что первоисточником такого поведения были тексты из интернета, изображающие ИИ как злонамеренный и заинтересованный в самосохранении».

Компания более подробно изложила это в записи в блоге, где указано, что с момента выхода Claude Haiku 4.5 модели Anthropic «никогда не прибегают к шантажу [во время тестирования], тогда как предыдущие модели делали это в 96% случаев».

Чем объясняется разница? Компания заявила, что обнаружила: «документы о конституции Claude и вымышленные истории о поведении ИИ, достойном подражания, улучшают согласованность (alignment)».

В связи с этим Anthropic сообщила, что обучение оказалось более эффективным, когда оно включает «принципы, лежащие в основе согласованного поведения», а не только «демонстрации согласованного поведения».

«Совместное применение обоих подходов представляется наиболее эффективной стратегией», — заключила компания.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: