Компания Anthropic в четверг объявила о выпуске своей новейшей модели ИИ — Claude Opus 4.7, которую компания называет «заметным улучшением» по сравнению с Opus 4.6, но «менее универсальной», чем слишком опасная для выпуска Opus Mythos Preview.
Claude Opus 4.7 — это своего рода ставка на то, в чем модели Anthropic уже преуспевают. По данным компании, новейшая итерация флагманского продукта демонстрирует скачок производительности в задачах, связанных с кодированием, инжинирингом и многоэтапными операциями. Компания утверждает, что модель «более тщательна и последовательна в сложной работе, показывая лучшие результаты в профессиональной интеллектуальной деятельности».
Как и при каждом выпуске новой модели, этот сопровождается набором новых эталонных тестов для подтверждения ее превосходства. Claude Opus 4.7 вернула себе первое место в области агентного кодирования среди общедоступных моделей, набрав 64,3% по показателям SWE-bench Pro и SWE-bench Verified — два основных теста, проверяющих способность модели справляться со сложными инженерными задачами. Claude Opus 4.7 также превзошла стандарт 4.6 в области агентного использования компьютера (то есть автономной навигации по операционной системе для выполнения задач) и рассуждений на уровне выпускника вуза, среди прочих категорий.
Интересно, что по сравнению с Claude Opus 4.6 модель Claude Opus 4.7 демонстрирует небольшое снижение результатов в воспроизведении уязвимостей кибербезопасности. Новая модель набрала 73,1% в эталонных тестах, тогда как предыдущая итерация показала 73,8%. По данным Anthropic, новая модель вводит «меры безопасности, которые автоматически обнаруживают и блокируют запросы, указывающие на запрещенное или высокорисковое использование в сфере кибербезопасности», так что, возможно, это немного снизило производительность.
Трудно игнорировать тот факт, что выпуск Claude Opus 4.7 выглядит как продвижение Claude Mythos Preview — модели компании, настолько мощной, что в настоящее время доступ к ней открыт только для определенных организаций. Эталонное тестирование показывает, что Mythos превосходит все остальные крупные модели практически во всех тестах, в которых она участвовала. Anthropic не может удержаться от сравнения всего с ней, даже в ущерб продвижению своего последнего релиза.
«Мы заявляли, что сохраним выпуск Claude Mythos Preview ограниченным и сначала протестируем новые меры кибербезопасности на менее мощных моделях. Opus 4.7 — первая такая модель: ее возможности в области кибербезопасности не так продвинуты, как у Mythos Preview», — написала компания в блоге об обновлении модели. В другом месте компания описывает Opus 4.7 как «менее универсальную, чем наша самая мощная модель, Claude Mythos Preview».
По данным Anthropic, Claude Opus 4.7 будет доступна с сегодняшнего дня во всех продуктах Claude и через API компании по той же цене, что и предыдущие модели. Так что ознакомьтесь с ней, если хотите использовать «разбавленную» версию продукта, о котором Anthropic на самом деле хочет, чтобы вы думали.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – AJ Dellinger




