Anthropic извинилась за некорректную работу одного из «guardrails» в модели Claude 3.5 Sonnet и пообещала всё исправить

Anthropic Fable 5 ии Llm защита модель gizmodo.com

Fable 5 — ослабленная версия модели Mythos от Anthropic. Оказалось, что она была слишком сильно ослаблена, и компания приносит извинения. — gizmodo.com

Модель Fable 5 от Anthropic — это ослабленная версия Mythos, которая, в свою очередь, является моделью, настолько пугающе мощной, что могла бы потенциально угрожать миру, если бы была выпущена без защитных механизмов. Большинство этих механизмов, особенно те, что разработаны для предотвращения использования Fable для создания кибероружия или биологического оружия, очень заметны.

Однако один защитный механизм, направленный на предотвращение использования Fable 5 для обучения других моделей ИИ, был невидимым, что вызвало необычайное негодование пользователей.

 

И теперь Anthropic просит взять свои слова обратно. Спорный невидимый защитный механизм будет сделан видимым. В заявлении для Wired Anthropic написала: «Мы меняем защитные механизмы Fable 5 для разработки передовых больших языковых моделей (LLM), чтобы сделать их видимыми».

«Мы приняли неверное решение и приносим извинения за то, что не смогли найти правильный баланс», — добавлено в заявлении.

В системной карте модели Anthropic откровенно описала свои намерения:

«В отличие от наших мер по обеспечению кибербезопасности, биологии и химии, а также попыток дистилляции, эти защитные механизмы не будут видны пользователю. Fable 5 не будет переключаться на другую модель. Вместо этого механизмы будут ограничивать эффективность с помощью таких методов, как модификация промптов, управляющие векторы или тонкая настройка с эффективным использованием параметров (PEFT)»

Иными словами, когда промпты Fable 5 демонстрировали явные признаки того, что пользователь разрабатывает передовую LLM, вместо того чтобы, как это происходит с промптами о биологии, химии или кибербезопасности, переключаться на менее качественную модель или просто отклонять запрос, модель молча изменяла промпт, чтобы сгенерировать ошибочные результаты, способные помешать разработке модели пользователем.

Использование модели для обучения другой модели противоречит условиям обслуживания Anthropic, но пользователи все равно сочли эту меру нарушением доверия. Пользователь Reddit CheatCodesOf Life выразил это так: «Я бы вообще не стал этим пользоваться. Отказ или ошибка HTTP-4xx для контента — это нормально, но это, по сути, взятие ваших денег и отравление вашей кодовой базы».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: