Anthropic обновила «конституцию» Claude на случай, если у чат-бота появится сознание

claude,ии,конституция,anthropic,модели,этика

Компания Anthropic представила новую редакцию конституции для своей модели ИИ Claude, перейдя от строгих правил к широким этическим и поведенческим принципам. Это изменение направлено на улучшение способности Claude к обобщению и проявлению здравого суждения в новых ситуациях.

Claude от Anthropic получает новую конституцию. В среду компания объявила, что этот документ, который представляет собой «подробное описание видения Anthropic в отношении ценностей и поведения Claude», подвергается пересмотру. В результате будут внедрены общие принципы, которым, как ожидает компания, будет следовать её чат-бот, вместо более строгого набора правил, на который опирались предыдущие версии документа.

Логика Anthropic в отношении этих изменений кажется достаточно обоснованной. Хотя конкретные правила обеспечивают более надёжное и предсказуемое поведение чат-ботов, они также накладывают ограничения. «Мы считаем, что для того, чтобы быть добросовестными субъектами в мире, таким моделям ИИ, как Claude, необходимо понимать, почему мы хотим, чтобы они вели себя определённым образом, и мы должны объяснить им это, а не просто указать, что мы хотим, чтобы они делали», — пояснила компания. «Если мы хотим, чтобы модели проявляли здравое суждение в широком спектре новых ситуаций, они должны уметь обобщать — то есть применять широкие принципы, а не механически следовать конкретным правилам».

Согласимся, хотя общее представление о новой конституции оставляет желать лучшей конкретики. Четыре руководящих принципа Claude от Anthropic включают обеспечение того, чтобы базовые модели были «в целом безопасными», «в целом этичными», «соответствующими руководящим принципам Anthropic» и «действительно полезными». Это… что ж, широкие принципы. Компания заявляет, что значительная часть конституции посвящена объяснению этих принципов, и приводит некоторые дополнительные детали (например, этичность означает «быть честным, действовать в соответствии с хорошими ценностями и избегать действий, которые являются неуместными, опасными или вредными»), но даже это кажется довольно общим.

Компания также сообщила, что выделила в конституции отдельный раздел, посвящённый природе Claude, из-за «нашей неопределённости относительно того, может ли Claude обладать некоторой формой сознания или морального статуса (сейчас или в будущем)». По всей видимости, компания надеется, что, определив это в своих основополагающих документах, она сможет защитить «психологическую безопасность, самосознание и благополучие Claude».

Изменение конституции Claude и явное принятие идеи о том, что однажды у него может появиться независимое сознание, происходит всего через день после того, как генеральный директор и основатель Anthropic Дарио Амодей выступил на панельной дискуссии Всемирного экономического форума под названием «День после AGI» и предположил, что к 2027 году ИИ достигнет уровня навыков «лауреата Нобелевской премии» во многих областях.

Это приоткрытие завесы над тем, как работает Claude (или как он должен работать), происходит на условиях самой Anthropic. В последний раз, когда нам удалось заглянуть внутрь, это произошло благодаря пользователю, которому удалось заставить чат-бот сгенерировать то, что он назвал «документом души». Этот документ, опубликованный в декабре, не являлся официальным обучающим документом, как сообщили Gizmodo в Anthropic, а представлял собой раннюю итерацию конституции, которую компания внутренне называла своей «душой». Anthropic также заявила, что всегда планировала опубликовать полную конституцию, когда она будет готова.

Будет ли Claude готов к работе без страховки — это уже совсем другой вопрос, но, похоже, мы так или иначе узнаем ответ.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: