Anthropic извинилась за некорректную работу одного из «guardrails» в модели Claude 3.5 Sonnet и пообещала всё исправить

Mike Pearl

11.06.2026

Anthropic Fable 5 ии Llm защита модель gizmodo.com

Fable 5 — ослабленная версия модели Mythos от Anthropic. Оказалось, что она была слишком сильно ослаблена, и компания приносит извинения. — gizmodo.com

Модель Fable 5 от Anthropic — это ослабленная версия Mythos, которая, в свою очередь, является моделью, настолько пугающе мощной, что могла бы потенциально угрожать миру, если бы была выпущена без защитных механизмов. Большинство этих механизмов, особенно те, что разработаны для предотвращения использования Fable для создания кибероружия или биологического оружия, очень заметны.

Однако один защитный механизм, направленный на предотвращение использования Fable 5 для обучения других моделей ИИ, был невидимым, что вызвало необычайное негодование пользователей.

the claude fable 5 nerf for AI research has induced the angriest reaction from AI researchers that I’ve ever seen in my life

— Ethan Caballero (@ethanCaballero) June 10, 2026

И теперь Anthropic просит взять свои слова обратно. Спорный невидимый защитный механизм будет сделан видимым. В заявлении для Wired Anthropic написала: «Мы меняем защитные механизмы Fable 5 для разработки передовых больших языковых моделей (LLM), чтобы сделать их видимыми».

«Мы приняли неверное решение и приносим извинения за то, что не смогли найти правильный баланс», — добавлено в заявлении.

В системной карте модели Anthropic откровенно описала свои намерения:

«В отличие от наших мер по обеспечению кибербезопасности, биологии и химии, а также попыток дистилляции, эти защитные механизмы не будут видны пользователю. Fable 5 не будет переключаться на другую модель. Вместо этого механизмы будут ограничивать эффективность с помощью таких методов, как модификация промптов, управляющие векторы или тонкая настройка с эффективным использованием параметров (PEFT)»

Иными словами, когда промпты Fable 5 демонстрировали явные признаки того, что пользователь разрабатывает передовую LLM, вместо того чтобы, как это происходит с промптами о биологии, химии или кибербезопасности, переключаться на менее качественную модель или просто отклонять запрос, модель молча изменяла промпт, чтобы сгенерировать ошибочные результаты, способные помешать разработке модели пользователем.

Использование модели для обучения другой модели противоречит условиям обслуживания Anthropic, но пользователи все равно сочли эту меру нарушением доверия. Пользователь Reddit CheatCodesOf Life выразил это так: «Я бы вообще не стал этим пользоваться. Отказ или ошибка HTTP-4xx для контента — это нормально, но это, по сути, взятие ваших денег и отравление вашей кодовой базы».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Mike Pearl

Оригинал статьи

В тренде:

Anthropic, fable 5, gizmodo.com, LLM, защита, ИИ, модель

Искать на сайте

Anthropic извинилась за некорректную работу одного из «guardrails» в модели Claude 3.5 Sonnet и пообещала всё исправить

В тренде:

Похожие новости:

Anthropic извинилась за некорректную работу одного из «guardrails» в модели Claude 3.5 Sonnet и пообещала всё исправить

В тренде:

Похожие новости:

Ford возвращает на работу ветеранов-инженеров после провала ИИ

Годами Apple скупала DRAM и Flash-память дешевле $40, а за

Open-source ИИ-редактор Markdown OpenKnowledge интегрирует Claude и Codex в локальные

Владельцы биткоина получат бесплатные монеты в результате летних попыток проведения