Anthropic выпускает Claude Opus 4.7, чтобы напомнить всем, насколько крут «Mythos»

Anthropic Claude Opus 4.7 ии Mythos Preview Api gizmodo.com

Смелая стратегия продвижения нового релиза как «менее универсального», чем другие варианты. Anthropic выпускает Claude Opus 4.7, подчеркивая превосходство Mythos Preview. — gizmodo.com

Компания Anthropic в четверг объявила о выпуске своей новейшей модели ИИ — Claude Opus 4.7, которую компания называет «заметным улучшением» по сравнению с Opus 4.6, но «менее универсальной», чем слишком опасная для выпуска Opus Mythos Preview.

Claude Opus 4.7 — это своего рода ставка на то, в чем модели Anthropic уже преуспевают. По данным компании, новейшая итерация флагманского продукта демонстрирует скачок производительности в задачах, связанных с кодированием, инжинирингом и многоэтапными операциями. Компания утверждает, что модель «более тщательна и последовательна в сложной работе, показывая лучшие результаты в профессиональной интеллектуальной деятельности».

Как и при каждом выпуске новой модели, этот сопровождается набором новых эталонных тестов для подтверждения ее превосходства. Claude Opus 4.7 вернула себе первое место в области агентного кодирования среди общедоступных моделей, набрав 64,3% по показателям SWE-bench Pro и SWE-bench Verified — два основных теста, проверяющих способность модели справляться со сложными инженерными задачами. Claude Opus 4.7 также превзошла стандарт 4.6 в области агентного использования компьютера (то есть автономной навигации по операционной системе для выполнения задач) и рассуждений на уровне выпускника вуза, среди прочих категорий.

Интересно, что по сравнению с Claude Opus 4.6 модель Claude Opus 4.7 демонстрирует небольшое снижение результатов в воспроизведении уязвимостей кибербезопасности. Новая модель набрала 73,1% в эталонных тестах, тогда как предыдущая итерация показала 73,8%. По данным Anthropic, новая модель вводит «меры безопасности, которые автоматически обнаруживают и блокируют запросы, указывающие на запрещенное или высокорисковое использование в сфере кибербезопасности», так что, возможно, это немного снизило производительность.

Трудно игнорировать тот факт, что выпуск Claude Opus 4.7 выглядит как продвижение Claude Mythos Preview — модели компании, настолько мощной, что в настоящее время доступ к ней открыт только для определенных организаций. Эталонное тестирование показывает, что Mythos превосходит все остальные крупные модели практически во всех тестах, в которых она участвовала. Anthropic не может удержаться от сравнения всего с ней, даже в ущерб продвижению своего последнего релиза.

«Мы заявляли, что сохраним выпуск Claude Mythos Preview ограниченным и сначала протестируем новые меры кибербезопасности на менее мощных моделях. Opus 4.7 — первая такая модель: ее возможности в области кибербезопасности не так продвинуты, как у Mythos Preview», — написала компания в блоге об обновлении модели. В другом месте компания описывает Opus 4.7 как «менее универсальную, чем наша самая мощная модель, Claude Mythos Preview».

По данным Anthropic, Claude Opus 4.7 будет доступна с сегодняшнего дня во всех продуктах Claude и через API компании по той же цене, что и предыдущие модели. Так что ознакомьтесь с ней, если хотите использовать «разбавленную» версию продукта, о котором Anthropic на самом деле хочет, чтобы вы думали.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: