ИИ решил 56% многонедельных задач по программированию в новом бенчмарке MirrorCode

ии кодирование Mirrorcode бенчмарк Claude Opus techtimes.com

Бенчмарк автономного кодирования ИИ MirrorCode показывает, что Claude Opus 4.7 решает 56% программных проектов, на которые, по оценкам, у инженеров-людей ушли бы недели, — на самой сложной задаче модель работала непрерывно 19 дней. Полные результаты Epoch AI и METR выявляют успехи передовых моделей и архитектурные пределы.

Автономное кодирование с помощью ИИ пересекло порог, которого большинство инженеров-программистов не ожидали увидеть в этом году: новый эталонный тест, опубликованный в пятницу Epoch AI и METR, показал, что лучшая на сегодняшний день модель, Claude Opus 4.7, может успешно воссоздать целые программные проекты, на которые у инженера-человека ушли бы недели, — не видя исходного кода, без вмешательства человека и без доступа к интернету. В тесте MirrorCode, включающем 25 программ для оценки кодирования с длительным горизонтом, Claude Opus 4.7 решил 56% задач, включая биоинформатический инструментарий объемом 16 000 строк, на воссоздание которого, по оценкам четырех независимых инженеров, у квалифицированного специалиста ушло бы от 2 до 17 недель.

Этот эталонный тест впервые представляет собой строгую, воспроизводимую демонстрацию на нескольких моделях того, что агенты ИИ могут поддерживать целенаправленную разработку программного обеспечения на горизонте задач, ранее изучавшемся только исследователями формальных методов, стремящимися к многолетней мечте об автоматизированном синтезе программ.

Чем MirrorCode отличается от всех других эталонных тестов по кодированию

Большинство эталонных тестов по кодированию ИИ — включая широко цитируемый SWE-bench — измеряют, насколько хорошо модель может исправить один баг в существующей кодовой базе или реализовать небольшую функцию, имея полный исходный код. Эти задачи обычно решаются за минуты и стоят доллар или два за вычислительные ресурсы инференса. Они измеряют, может ли модель совершить умное, ограниченное контекстом действие.

MirrorCode измеряет нечто структурно иное: может ли модель воссоздать полное поведение программы, которую она не может прочитать. ИИ получает только скомпилированный бинарный файл, документацию на естественном языке и набор примеров пар «вход-выход». Он может запускать бинарный файл с произвольными входами, чтобы наблюдать за его поведением — настройка, которую исследователи называют «оракулом черного ящика», — но он не может видеть исходный код, получать доступ к интернету или получать указания от человека во время выполнения. Каждое решение должно давать байт-точное совпадение как по тестовым наборам, которые модель могла видеть, так и по отдельному набору скрытых тестов, которые она не видела, что исключает возможность обхода теста путем запоминания или использования таблиц поиска.

Области, охваченные полным выпуском, охватывают широкий спектр рабочего программного обеспечения: утилиты Unix, инструменты сериализации данных и запросов, биоинформатические инструментарии, интерпретаторы языков, статические анализаторы, реализации криптографии и утилиты сжатия. Модели могли реализовывать свои решения на любом из шести языков: Python, C, Rust, Go, OCaml или Ada.

Как работает оценка: байт-точный вывод, скрытые тесты, отсутствие мошенничества

Техническая конструкция эталонного теста решает наиболее насущную проблему в оценке кодирования ИИ: различие между подлинной компетентностью и запоминанием.

Поскольку задачи MirrorCode включают воссоздание реальных программ с открытым исходным кодом, модели почти наверняка сталкивались с этими кодовыми базами при предварительном обучении. Чтобы предотвратить ложноположительные результаты из-за запоминания, эталонный тест разделяет тесты на видимые и скрытые наборы. В среднем 34% тестов на каждую цель откладываются — они никогда не показываются ИИ во время его работы. Решение проходит только в том случае, если оно одновременно дает байт-точное совпадение по обоим наборам. Медианное количество тестов на цель: 601 отдельный случай ввода-вывода.

В статье приводится проверка на запоминание: моделям предлагалось воспроизвести исходные функции дословно. Исследователи обнаружили базовый показатель сходства 0,34 — это означает, что модели не извлекали преимущественно запомненный код, — хотя авторы признают, что запоминание полностью исключить нельзя и ожидают, что любое количественное завышение не изменит направленного вывода.

Инфраструктура добавляет еще три предохранительных механизма: модели не могут оборачивать эталонный бинарный файл для имитации его вывода (код модели копируется в отдельный «песочницу», где исходный бинарный файл отсутствует во время оценки); модели не могут вмешиваться в механизм оценки (оценка выполняется в изолированной среде и требует строкового равенства); и код модели не может получать доступ к интернету во время выполнения.

Самая сложная задача: 19 дней, 2600 долларов, одна попытка

Самая крайняя точка данных эталонного теста иллюстрирует, насколько эта работа отличается от типичного бенчмаркинга. Одна из 25 целевых программ потребовала 2600 долларов вычислительных ресурсов инференса за одну попытку и заставляла модель работать непрерывно в течение 19 дней без перерыва. Epoch AI отмечает, что это цена подлинного выявления: большинство существующих эталонных тестов по разработке ПО ограничивают расходы на инференс суммой от 1 до 10 долларов, даже для задач, на которые, по оценкам исследователей, у человека ушли бы недели. При таком бюджете модель никогда не получает справедливого шанса на решение самых сложных программ.

Выдающимся успехом стал gotree, биоинформатический инструментарий с примерно 16 000 строк кода на Go и более чем 40 командами. Claude Opus 4.7 воссоздал его за 14 часов, пройдя 2000 из 2001 тестов — 99,95% — при стоимости 251 доллар. Единственный неудачный тест касался крайнего случая для нишевой команды аннотирования дат. Исследователи описывают воссоздание как практически завершенное для всех практических целей.

Для сравнения, ведущие модели ИИ восьмимесячной давности показали бы около 30% в этом же эталонном тесте и ограничивались более простыми целями, такими как утилита календаря. GPT-5.5 заняла второе место в общем зачете, а Gemini 3.1 Pro Preview — третье с примерно 32%.

Где ИИ все еще терпит неудачу: архитектурные ограничения на самых больших программах

Заголовочный показатель в 56% скрывает значимый паттерн внутри данных. Программы эталонного теста делятся на три неформальных уровня размера, и результаты резко различаются между ними. Небольшие программы надежно решаются всеми протестированными моделями. Средние программы решаются ведущими моделями как минимум в некоторых запусках. Большие программы — включая Pkl, интерпретатор языка конфигурации с 61 461 строкой кода — одолели каждую протестированную модель.

Сбой с Pkl поучителен с технической точки зрения. Во время запуска, который потребил около 1 миллиарда токенов инференса и стоил примерно 550 долларов, Claude Opus 4.6 правильно диагностировал, что программе требуется архитектура ленивых вычислений (lazy evaluation). Модель так и не выполнила необходимой перестройки. Имея еще 770 миллионов токенов, она продолжала итеративно работать на неверном архитектурном фундаменте. Этот конкретный сбой — правильная диагностика при отсутствии структурной рефакторинга — представляет собой конкретный, задокументированный потолок для современных агентных систем, а не общее ограничение базовой способности модели к рассуждению.

Дэвид Рейн, исследователь METR и соавтор эталонного теста, отметил после предварительных результатов в апреле, что MirrorCode, возможно, уже приближается к насыщению. По 21 из 25 целевых программ хотя бы одна модель прошла 99% тестов или более. Восемь целей никогда не были полностью решены ни в одном запуске на 100%, но сложность сосредоточена в небольшом количестве сложных крайних случаев, а не в отсутствии фундаментальных возможностей.

Проблема спецификации: что это значит для реальной разработки ПО

Исследователи точно определяют, что доказывает и чего не доказывает MirrorCode. Конструкция эталонного теста требует того, что действительно редко встречается в реальной разработке ПО: точной, программно проверяемой спецификации, подкрепленной сотнями тестовых случаев и исполняемой эталонной реализацией. В профессиональном программном проекте эта спецификация обычно не существует в начале; она возникает в результате итераций с заинтересованными сторонами, пользователями и менеджерами по продукту с течением времени.

Эталонный тест демонстрирует возможности ИИ в исполнении, а не в обнаружении требований. Модель, которая может воссоздать 16 000-строчный биоинформатический инструментарий по его наблюдаемому поведению, демонстрирует устойчивое архитектурное планирование, итеративную отладку и толерантность к неоднозначности на протяжении часов непрерывной работы — качественно отличается от исправления бага или генерации функции. Но это не то же самое, что получить расплывчатое техническое задание и создать готовое ПО с нуля.

Исследователи представляют это как полезную границу, а не как ограничение: MirrorCode устанавливает, что ИИ может делать, когда проблема спецификации решена. Оставшийся открытый вопрос — насколько хорошо ИИ справляется, когда сама спецификация должна быть обнаружена посредством сотрудничества с заинтересованными сторонами — это следующий рубеж, который эталонный тест не предназначен измерять.

Что включает полный выпуск

Epoch AI и METR опубликовали в открытом доступе каркас эталонного теста и 22 из 25 целевых программ, охватывающих 132 экземпляра задач в шести поддерживаемых языках реализации. Оставшиеся три программы зарезервированы в качестве частного тестового набора для сохранения целостности оценки по мере появления новых моделей. Таблица лидеров уже доступна на epoch.ai/MirrorCode, где исследователи могут отправлять новые модели для оценки.

Авторами статьи о MirrorCode являются Том Адамчевски и Дэвид Оуэн из Epoch AI, а также Дэвид Рейн из METR, с дополнительным вкладом в задачи от Флориана Бранда, Джайлса Эдкина, Аллена Харта и Дэниела О’Коннелла.

В июньском выпуске Epoch Brief также были представлены два дополнительных исследовательских материала: анализ траекторий капитальных затрат гиперскейлеров, показывающий, что крупные облачные провайдеры — включая Microsoft, Amazon, Alphabet, Meta* и Oracle — идут по пути превышения своего операционного денежного потока до конца 2026 года; и таксономия более чем 60 различных задач в передовых исследованиях и разработках ИИ, предназначенная для отслеживания того, какие части исследований ИИ остаются неавтоматизированными.


Часто задаваемые вопросы

Что такое эталонный тест MirrorCode и как он работает?

MirrorCode — это эталонный тест по кодированию с длительным горизонтом, разработанный Epoch AI и METR, который предлагает моделям ИИ воссоздать реальные программные продукты без доступа к исходному коду. Модель получает только исполняемый бинарный файл, который она может запускать, документацию на естественном языке и примеры тестовых случаев ввода-вывода. Решения должны давать байт-точное совпадение как по видимым, так и по скрытым тестовым случаям, что делает невозможным обход теста путем запоминания или использования таблиц поиска. 25 целевых программ охватывают утилиты Unix, биоинформатику, криптографию, интерпретаторы и другие области, с реализациями решений на любом из шести языков.

Чем MirrorCode отличается от SWE-bench?

SWE-bench предоставляет модели полный исходный код существующего проекта и просит исправить конкретный баг, при этом большинство задач решаются за минуты. MirrorCode предоставляет модели только непрозрачный бинарный файл и просит воссоздать все поведение программы с нуля — без исходного кода, без доступа к интернету, без указаний человека. Если SWE-bench измеряет способность к целенаправленному ремонту, то MirrorCode измеряет устойчивое конструирование на уровне архитектора в течение временных горизонтов от часов до недель.

Может ли ИИ заменить инженеров-программистов на основании результатов MirrorCode?

Не только на основании этого эталонного теста. MirrorCode требует того, что редко встречается в реальной разработке: точной, программно проверяемой спецификации с сотнями тестовых случаев и исполняемой эталонной реализацией. Профессиональная разработка ПО обычно начинается без такой ясности спецификации. MirrorCode устанавливает, что когда проблема спецификации решена, ИИ может автономно справляться с исполнением в масштабе инженера-программиста — недели кодирования. Оставшийся открытый вопрос заключается в том, как ИИ справляется, когда спецификации неоднозначны, развиваются и требуют переговоров с заинтересованными сторонами.

Какие инженерные пределы выявил MirrorCode?

Эталонный тест выявил конкретный архитектурный потолок: системы ИИ могут правильно диагностировать, что программе требуется определенная архитектура — например, ленивые вычисления в интерпретаторе, — но не могут выполнить необходимую структурную перестройку для ее реализации, даже имея значительный дополнительный бюджет инференса. Это отличается от общего сбоя в рассуждениях; это задокументированный пробел в том, как современные агентные системы справляются с крупномасштабным архитектурным рефакторингом в процессе работы.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: