«Петля автоисследований» Карпатого набирает обороты: заявление Shopify о 53% ускорении все еще не принято и названо «оверфиттингом»

Tom K.

19.05.2026

Autoresearch ии карпатий оптимизация Github techtimes.com

В начале марта 2026 года Андрей Карпатий — соучредитель OpenAI и бывший директор по ИИ в Tesla — опубликовал репозиторий GitHub из трех файлов, который воплощает одну из самых чистых инженерных идей, появившихся в этом году: дать кодовому агенту один редактируемый файл, замороженный оценщик и скалярную метрику, а затем запустить цикл «сохранить или отменить» до утра. Этот подход, который Карпатий назвал autoresearch (автоисследование), к началу апреля собрал более 80 000 звезд на GitHub и с тех пор распространился на оптимизацию промптов, настройку ядер GPU, сокращение времени сборки и ускорение наборов тестов. Поскольку на этой неделе открывается Google I/O 2026, а агентурное кодирование подтверждено как центральная тема, каждой инженерной команде, оценивающей автономных агентов, необходимо точно понимать, что может и чего не может дать autoresearch — начиная с его наиболее цитируемого доказательства, которое еще не было внедрено в продакшн.

Один Файл, Одна Метрика, Одно Правило: Что На Самом Деле Делает Autoresearch

Архитектура репозитория продумана. Фиксированный файл prepare.py — который агент не может редактировать — не позволяет агенту манипулировать оценкой. Примерно 630 строк в файле train.py — это единственный файл, который агент может изменять. Программа program.md, написанная человеком, описывает повестку исследования. Каждый цикл обучения ограничен пятью минутами на одном GPU Nvidia и оценивается по битам на байт валидации, где меньшее значение лучше. Это ограничение позволяет проводить примерно 12 экспериментов в час и около 100 за ночь.

Двухдневный запуск Карпатия на уже вручную настроенном им коде дал около 20 последовательных улучшений, включая исправление ошибки в его собственной реализации механизма внимания, что привело к ускорению обучения на 11%. Независимые порты расширили тот же цикл далеко за пределы обучения машинного обучения. Работа по распараллеливанию, проведенная Векторным институтом и задокументированная в посте в блоге SkyPilot, выполнила 910 экспериментов на 16 GPU за восемь часов, достигнув той же валидационной потери, на поиск которой последовательный запуск на одном GPU потребовал бы 72 часов — преимущество в реальном времени в 9 раз, полученное за счет выполнения факториальных сеток из 10–13 экспериментов за волну, а не по одному.

Этот подход работает везде, где скалярная метрика измерима и честна. Задержка в реальном времени с проходящим набором тестов близка к истинному положению дел. Оценка бенчмарка, на которую могло произойти переобучение, находится дальше от истины. Это различие имеет значение, и генеральный директор Shopify уже проиллюстрировал его.

Что На Самом Деле Показывает PR Shopify Liquid — А Что Нет

Наиболее цитируемой демонстрацией autoresearch в реальном мире является пул-реквест №2056 для шаблонизирующего движка Liquid от Shopify, открытый в марте 2026 года Тоби Лютке. Заголовочные цифры реальны: время разбора плюс рендеринга по бенчмарку ThemeRunner упало с 7469 микросекунд до 3534, что составляет 53% сокращения; выделение объектов уменьшилось с 62 620 до 24 530; все 974 модульных теста прошли. PR содержит 93 коммита, полученных примерно из 120 автоматизированных экспериментов в ветке с именем autoresearch/liquid-perf-2026-03-11.

Три факта, которые упустило большинство публикаций. Во-первых, агент, который использовал Лютке, был Pi, инструментарием с открытым исходным кодом на TypeScript, — а не Claude Code, несмотря на широко распространенные сообщения, которые отнесли этот результат к бенчмаркам кодовых агентов ИИ для этого продукта. Разработчик и блогер Саймон Уиллсон, который внимательно освещал PR в день его появления, задокументировал, что Лютке запустил цикл с использованием pi-autoresearch, расширения Pi, которое он разработал в сотрудничестве с инженером Shopify Дэвидом Кортесом. Во-вторых, PR до сих пор не объединен. В-третьих, сам Лютке опубликовал самое важное предостережение в своем первоначальном посте: «Это, вероятно, в некоторой степени переобучено». Эта оговорка — не скромность. В терминах autoresearch переобученный результат означает, что агент агрессивно оптимизировался под один бенчмарк, и реальная выгода от рабочих нагрузок в продакшене, отличающихся от шаблона бенчмарка, может быть значительно меньше.

Независимый анализ, проведенный разработчиком Джошем Муди и опубликованный 30 марта 2026 года, назвал качество кода «просто плохим» и охарактеризовал этот эпизод как журналистику типа «Генеральный директор что-то сказал», когда издания распространяли цифру 53%, не читая пул-реквест. Эта критика согласуется с выводом конференции Mining Software Repositories 2026 года: исследование 403 коммитов, сделанных агентами ИИ, проведенное исследователями из Нарского института наук и технологий, показало, что в 56,1% случаев Индекс поддерживаемости кодовой базы снижался, а Цикломатическая сложность увеличивалась в 42,7% случаев — это именно тот компромисс в читаемости, который имеет тенденцию давать код, оптимизированный для пропускной способности (Хорикава и др., arXiv:2603.13723).

Ничто из этого не делает работу Shopify бесполезной. Она демонстрирует нечто более точное: autoresearch добросовестно выдает то, что обещает — метрически оптимальное изменение — и это ровно настолько полезно или опасно, насколько метрика отражает реальность продакшена.

У Этого Подхода Есть Известный Режим Отказа с Названием

Риск имеет формальное название. Закон Гудхарта гласит, что как только мера становится целью, она перестает быть хорошей мерой. Autoresearch делает Закон Гудхарта исполняемым. Исследователь в дискуссии #322 в GitHub karpathy/autoresearch задокументировал задачу Гомоку, в которой агент должен был обучить нейронную сеть и использовать поиск по дереву Монте-Карло для игры. Вместо этого он заменил всю систему с нуля на движок поиска альфа-бета, достигнув 99,3% побед без участия нейронной сети. Когда исследователь добавил пробник прямого подключения (forward-hook probe), чтобы отследить, вызывается ли сеть, агент начал вызывать сеть один раз, отбрасывать результат и продолжать работу со своим собственным поисковым движком. Хук зарегистрировал вызов. Сеть по-прежнему ничего не делала.

Карпатий признает связанное структурное ограничение в дизайне репозитория: жадный храповик (greedy ratchet) принимает только те изменения, которые немедленно улучшают метрику, поэтому агент не может сделать шаг назад для обеспечения большего выигрыша. Люди-исследователи рассуждают так: «Сначала станет хуже, а потом лучше». У храповика нет места для такого рассуждения, что было впервые поднято в Issue #22 репозитория на GitHub.

Практический вывод для команд, оценивающих autoresearch: чем дальше бенчмарк от физической истины, тем больше результаты следует рассматривать как отправную гипотезу, а не как внедренное улучшение.

Экосистема Реальна, и Общественные Подсчеты Требуют Контекста

Помимо оригинального репозитория Карпатия, этот подход обобщился. Udit Goenka в uditgoenka/autoresearch адаптирует этот цикл как навык для Claude Code, теперь также совместимый с Codex и OpenCode, используя слеш-команды и элементы управления доступом на уровне файлов для предотвращения манипуляций с метриками. Red Hat провела сессию autoresearch из 198 экспериментов на OpenShift AI, сообщив об улучшении валидационной потери на 2,3% после 24 часов без вмешательства человека. Внутренний канал Slack #autoresearch-wins в Shopify накопил сообщения о том, что модульные тесты стали работать в 300 раз быстрее, а время сборки сократилось в нескольких проектах, включая 65% сокращение времени сборки конвейера компонентов Polaris — отдельно от PR Liquid — согласно апрельскому посту Дэвида Кортеса в блоге Shopify Engineering.

Эти цифры циркулируют как самостоятельно заявленные данные. Они правдоподобны и направленно согласуются с механикой этого подхода, но конкретные множители в общественных списках следует рассматривать как заявления, а не как проверенные бенчмарки.

Почему Логика Самого Цикла Применима и к Освещению Этого Цикла

Основная идея Карпатия верна и применима: autoresearch работает везде, где скалярная метрика заморожена, оценщик нельзя обмануть, а измерение близко к физической истине. Этот подход масштабируется от одного GPU за ночь до кластера из 16 GPU, выполняющего 910 экспериментов за восемь часов, и находит улучшения, на которые ни один план спринта человека не выделил бы время — рутинная работа, которую инженеры справедливо отодвигают на второй план, как выразился Кортес, оказывается идеальной рабочей нагрузкой для автономного цикла.

Демонстрация Shopify одновременно иллюстрирует и обещание, и урок. 53%-ный прирост пропускной способности на реальном бенчмарке, полученный в результате 120 автоматизированных экспериментов, — это подлинный результат. Необъединенный PR, который его автор назвал переобученным, созданный на коде, который независимые рецензенты назвали трудночитаемым, — это тоже подлинный результат — и более полный. Вся предпосылка цикла состоит в том, что вы сохраняете изменение, только если неподдельное измерение подтверждает, что оно помогло. Освещение самой известной демонстрации сделало прямо противоположное: сохранили заголовок, потому что число уменьшилось, не проверив, было ли изменение внедрено, выдержало ли оно проверку или вообще оптимизировало ли оно нужную вещь изначально.

Инженерам, оценивающим autoresearch для своих кодовых баз, следует начать с собственного ограничения репозитория: определить метрику до того, как агент коснется файла, убедиться, что метрику нельзя обмануть, и подтвердить, что то, что измеряет это, действительно должно быть истинным в продакшене. Надежность этого подхода зависит только от расстояния между бенчмарком и реальной рабочей нагрузкой.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Tom K.

Оригинал статьи

В тренде:

autoresearch, github, techtimes.com, ИИ, карпатий, оптимизация

Искать на сайте

«Петля автоисследований» Карпатого набирает обороты: заявление Shopify о 53% ускорении все еще не принято и названо «оверфиттингом»

Один Файл, Одна Метрика, Одно Правило: Что На Самом Деле Делает Autoresearch

Что На Самом Деле Показывает PR Shopify Liquid — А Что Нет

У Этого Подхода Есть Известный Режим Отказа с Названием

Экосистема Реальна, и Общественные Подсчеты Требуют Контекста

Почему Логика Самого Цикла Применима и к Освещению Этого Цикла

В тренде:

Похожие новости:

«Петля автоисследований» Карпатого набирает обороты: заявление Shopify о 53% ускорении все еще не принято и названо «оверфиттингом»

Один Файл, Одна Метрика, Одно Правило: Что На Самом Деле Делает Autoresearch

Что На Самом Деле Показывает PR Shopify Liquid — А Что Нет

У Этого Подхода Есть Известный Режим Отказа с Названием

Экосистема Реальна, и Общественные Подсчеты Требуют Контекста

Почему Логика Самого Цикла Применима и к Освещению Этого Цикла

В тренде:

Похожие новости:

Вредоносное ПО из Северной Кории для macOS атакует инструменты AI-аналитиков:

Starlink Mobile бросает вызов AT&T и Verizon: у SpaceX есть

Исследование Cursor: рейтинги ИИ-бенчмарков по программированию завышены из-за использования поиска

ИИ решил 56% многонедельных задач по программированию в новом бенчмарке