США сняли экспортные ограничения на новейшие модели Anthropic — Claude Fable 5 и Mythos 5 — примерно через три недели после того, как администрация Трампа пометила эти модели как угрозу национальной безопасности.
Как подтвердила Anthropic сегодня в записи в блоге, Fable 5 теперь будет доступна по всему миру, а доступ к Mythos 5 для американских организаций был восстановлен с 26 июня. Anthropic сообщила, что в настоящее время работает с правительством над расширением доступа к Mythos для «более широкого круга отечественных и международных партнеров в рамках программы Glasswing». Эта программа позволяет исследователям кибербезопасности из доверенных компаний получать доступ к Mythos в целях защиты.
В письме к Anthropic, с которым ознакомились Reuters и The New York Times, министр торговли Говард Лутник заявил, что Anthropic «больше не потребуется лицензия на экспорт или передачу внутри страны своих ИИ-моделей Claude Mythos и Claude Fable». В письме признавалось, что Anthropic «предприняла шаги в тесной координации с правительством США для устранения рисков», связанных с этими моделями.
Столкнувшись с более длительной задержкой в выпуске своих моделей, Лутник сообщил, что Anthropic согласилась расширить свое партнерство с правительством. Компания также заявила, что создала программу для работы с хакерами по проведению «красного командного тестирования» (red-teaming) своих моделей, и теперь существует специальная внутренняя команда для круглосуточного мониторинга сообщений о возникающих угрозах взлома (jailbreak).
В письме Лутник напомнил Anthropic, что США «оставляют за собой право переоценивать решения» и в любой момент восстановить экспортные ограничения. Но на данный момент Лутник присоединился к главе аппарата Белого дома Сьюзи Уайлс, приветствуя повторное развертывание Fable 5 в X.
«В течение последних двух недель мы тесно сотрудничали с Anthropic для анализа и утверждения Fable 5, чтобы обеспечить согласованность действий в рамках правительства США и укрепить лидерство Америки в области ИИ», — заявил Лутник.
Уайлс не упомянула Anthropic напрямую, но заявила о победе Трампа, написав, что «правительство и частный сектор сотрудничали так, как мы никогда раньше не видели, и этот фундамент «Америка прежде всего» беспрецедентен. Наш общий приоритет остается прежним: как можно быстрее и безопаснее внедрять лучшие технологии».
Компромисс: Fable 5 может блокировать рутинные задачи кодирования
12 июня Министерство торговли потребовало от Anthropic отключить доступ к своим самым передовым моделям для всех за пределами США. Это требование возникло из опасений, что Китай, Россия или другие страны, вызывающие озабоченность, могут использовать эти модели для атак на инфраструктуру США, такую как электросети или банковская система. В ответ Anthropic отключила весь доступ, поскольку у нее не было возможности блокировать пользователей по странам.
В частности, Mythos рассматривалась как «уникально привлекательная для злоумышленников, желающих использовать ее в кибератаках», — говорится в блоге Anthropic. По данным Anthropic, модель «может использоваться для поиска и эксплуатации уязвимостей программного обеспечения более эффективно, чем любая другая модель — и всеми, кроме самых опытных экспертов по безопасности, а ее «выдающиеся возможности в области кибербезопасности» могут быть использованы против США.
Fable 5 имеет «ту же базовую модель», заявила Anthropic, но, в отличие от Mythos 5, она «не обладает такими уникальными наступательными возможностями». Fable 5, предназначенная для широкой публики, уже имела самые сильные средства защиты, которые Anthropic когда-либо применяла к модели, и компания заявила, что эти средства защиты стали еще более надежными перед повторным развертыванием.
После нескольких недель тестирования Fable 5 больше не уязвима для метода обхода, обнаруженного исследователями Amazon, который выявил несколько программных уязвимостей и спровоцировал экспортные ограничения. Наиболее тревожным, по словам Anthropic, был случай, когда модель была манипулирована для создания кода, демонстрирующего, как можно использовать уязвимость.
По данным Anthropic, тестирование подтвердило, что менее продвинутые конкурирующие модели на рынке, такие как GPT-5.5 и Kimi K2.7, «могли выявить те же уязвимости, что и Fable 5 в отчете». Это подтвердило, что «сообщенная техника не выявила никаких уникальных возможностей кибербезопасности уровня Mythos» и «связана только с рутинной работой по оборонительной кибербезопасности».
«Тем не менее, мы быстро приняли меры для устранения сообщения об обходе», — написала Anthropic. Этот метод взлома в настоящее время блокируется в более чем 99 процентах случаев, сообщила компания. Однако ужесточение мер безопасности повлекло за собой «компромисс», который может привести к блокировке некоторых безобидных запросов «во время рутинного кодирования и отладки», признала компания.
«Работая в тесном сотрудничестве с правительством, мы обучили улучшенный классификатор безопасности, который нацелен и блокирует поведение, описанное в отчете», — заявила Anthropic. «Пользователи будут уведомлены, если запрос к Fable 5 будет заблокирован, и вместо этого запрос будет отправлен в Opus 4.8».
Конечно, новый классификатор Anthropic, который помогает избежать уникально опасных атак на модели, может допускать «ошибки», отметила компания. Компания давно придерживается мнения, что построить модель, полностью «невосприимчивую» к взломам, «вероятно, невозможно», но, активизируя red-teaming, Anthropic надеется «гарантировать, что мы и наши партнеры по безопасности первыми обнаружим крупные взломы и исправим их до того, как злоумышленники смогут использовать их во вред».
Атака, на которую указала Amazon, в настоящее время работает только в «очень малой доле случаев», когда «модель может предоставить недостаточно подробную информацию, чтобы помочь кибератакующему», — заявила Anthropic.
Проявляя «осторожность», Anthropic заявила, что «подавляющее большинство взломов не смогут успешно разблокировать опасное поведение» и будут «очень дорогостоящими и трудоемкими в реализации».
«Даже если взлом успешен, наши дополнительные уровни защиты» — которые требуют некоторой блокировки безобидных запросов — «обеспечивают дополнительную защиту», — добавила компания.
План Anthropic по оценке взломов
Запись в блоге Anthropic, похоже, преуменьшает угрозу, которую Amazon сочла менее рискованной по сравнению с тем, что она считает главной угрозой для правительств: универсальными взломами, которые могут раскрыть широкий спектр уязвимостей и привести к непредвиденным атакам.
Для оптимизации частно-государственного партнерства и обеспечения максимально быстрого реагирования на самые серьезные риски Anthropic заявила, что целью индустрии ИИ должно стать категорирование рисков для обеспечения надлежащего вмешательства как внутри компании, так и со стороны правительства.
В настоящее время Anthropic работает с Amazon, Microsoft, Google и другими партнерами Glasswing над «разработкой консенсусной структуры для оценки серьезности взломов ИИ и того, как разработчики ИИ должны на них реагировать».
Другие отраслевые партнеры могут присоединиться к этим переговорам, заявила Anthropic, хотя этот процесс «несовершенен» и сосредоточен на установлении четырех критериев для оценки взлома. К ним относятся оценка того, какой объем возможностей предоставляет взлом, сколько наступательных задач он позволяет выполнить, насколько легко человеку превратить взлом в оружие (взломы одним запросом помечаются как наиболее рискованные) и требует ли обнаружение взлома специальных знаний.
Используя эту структуру, Anthropic создала команду, которая будет круглосуточно отслеживать каналы подачи информации о взломах, говорится в блоге. ИИ-фирма также подтвердила, что запускает «новую программу HackerOne, через которую исследователи безопасности могут отправлять потенциальные кибервзломы, обнаруженные в Fable 5», чтобы сохранить red-teaming в числе главных приоритетов.
Anthropic укрепляет связи с правительством
Для Anthropic одним из результатов правительственного тестирования, по-видимому, стало улучшение отношений с правительством после того, как компания подала в суд на США из-за присвоения статуса угрозы национальной безопасности, который внес ИИ-фирму в черный список. Anthropic утверждала, что это решение было местью после отказа компании предоставить правительству доступ к моделям для создания автономного оружия или проведения внутреннего массового наблюдения.
В своем блоге Anthropic заявила, что расширяет свои обязательства по работе с правительственными партнерами в области предразвертываемого тестирования и оценки. Эти усилия будут включать предоставление правительству раннего доступа к передовым моделям, оперативный обмен информацией о новых методах взлома и выделение ресурсов для совместных исследований, которые «помогут продвинуть передовой уровень оценки ИИ», — заявила Anthropic.
Это сотрудничество предлагает «зачатки шаблона для эффективной глобальной координации в отношении рисков и преимуществ ИИ», — отметила Anthropic, призывая Конгресс принять законы, гарантирующие, что все разработчики передовых моделей действуют согласованно.
Правительство движется слишком медленно для комфорта Anthropic. Генеральный директор Anthropic Дарио Амодеи на прошлой неделе представил свое законодательное предложение, приведя в качестве аналогии отсылку к «Властелину колец», чтобы подчеркнуть свою мысль:
В одном из побочных сюжетов «Властелина колец» двое хоббитов пытаются разбудить Древоборода — мудрое, но медлительное разумное дерево — чтобы оно защитило свой лес от армии, которая его вырубает. Проблема в том, что Древобород действует с совершенно иной скоростью, чем хоббиты. Ему требуется целый день, чтобы просто поздороваться с другим деревом, поэтому заставить его и его собратьев действовать достаточно быстро почти невозможно. Пересечение ИИ и наших политических институтов немного похоже на хоббитов и Древоборода.
Изначально Трамп планировал не вмешиваться в регулирование ИИ, стремясь стимулировать инновации. Однако выпуск Mythos компанией Anthropic напугал Трампа, и в мае он потребовал добровольного тестирования безопасности передовых моделей. С тех пор Трамп «все еще работает над структурой того, как компании должны официально представлять новые модели ИИ на рассмотрение и какие стандарты к ним будут применяться», — сообщили NYT два человека, знакомые с обсуждениями.
В своей статье Амодеи призвал Конгресс действовать быстро, чтобы переосмыслить правила безопасности для мира, в котором «ИИ может превратиться из забавной игрушки» в «целую страну гениев в центре обработки данных», иначе возникнет риск «национальных стратегических» последствий.
Однако Исаак Харрис, исполнительный директор Frontier Security Institute, некоммерческой организации, занимающейся вопросами ИИ и национальной безопасности, заявил Reuters, что «самым большим вопросительным знаком» после углубления партнерства Anthropic с правительством является то, «как администрация будет решать вопрос об эквивалентно опасных возможностях, исходящих из Китая с меньшим количеством защитных механизмов, на рынке США».
Примечательно, что Anthropic недавно обвинила китайскую ИИ-компанию Alibaba в организации самой крупной атаки по клонированию Claude. В ответ Anthropic призвала Конгресс принять законы, которые будут наказывать китайские фирмы, уличенные в краже разработок американских компаний. В противном случае злоумышленники, которые не смогут заполучить модели Anthropic, могут обратиться к китайским моделям с более слабыми мерами защиты и все более близкими возможностями для организации атак, которые застанут США врасплох.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ashley Belanger




