DeepSeek V4 ускоряет Goedel-Architect: 500-кратное снижение затрат в формальном доказательстве теорем

доказательство теорем Llm Goedel-Architect ии Princeton Deepseek pandaily.com

Команда Принстонского университета представила Goedel-Architect — фреймворк для формального доказательства теорем, достигающий лучших результатов при минимальных затратах, используя модель DeepSeek-V4-Flash. — pandaily.com

Исследовательская группа из Лаборатории языка и интеллекта (PLI) Принстонского университета опубликовала новаторскую статью о Goedel-Architect — фреймворке-агенте для формального доказательства теорем, который демонстрирует передовые результаты при доле стоимости существующих систем. Основой фреймворка является DeepSeek-V4-Flash, новейшая модель LLM с открытым исходным кодом от китайской компании DeepSeek.

Результаты поразительны. На бенчмарке PutnamBench — стандартном наборе из 672 задач из Математической олимпиады Уильяма Лоуэлла Пътнема — Goedel-Architect достиг показателя успешного решения 75,6% при общей стоимости API всего в 294 доллара США. Для сравнения, Hilbert, конкурирующий конвейер с открытым исходным кодом на базе Gemini 2.5 Pro от Google, потребовал около 170 000 долларов США для прохождения того же бенчмарка — это преимущество в стоимости примерно в 500 раз. Goedel-Architect также превзошел Hilbert по доле успешных решений (75,6% против 70,0%), что доказывает: улучшения обусловлены архитектурными инновациями фреймворка, а не превосходством аппаратного обеспечения.

Название Goedel-Architect отдаёт дань уважения Курту Гёделю, который провёл последние годы в Институте перспективных исследований Принстона. Команду Принстона возглавляют Санджив Арора, теоретик вычислительной сложности и лауреат Премии ACM в области вычислений 2011 года, и Данци Чэнь, профессор Принстона с более чем 90 000 цитирований в Google Scholar и опытом обучения в Университете Цинхуа.

Основная инновация Goedel-Architect заключается в его подходе «чертежа» (blueprint). Прежде чем приступать к какому-либо доказательству, система генерирует ориентированный ациклический граф, определяющий все необходимые определения и леммы, а также их зависимости. Каждый недоказанный узел направляется параллельным доказателям теорем Lean, а сбои запускают структурированный процесс диагностики. Когда узел не может быть доказан, доказатель выдает аналитический отчет, указывающий, является ли утверждение ложным или слишком сложным, а также предлагает исправления. Это создает итеративный цикл уточнения, в ходе которого чертеж развивается на протяжении раундов: успешные доказательства сохраняются, а неудачные узлы заменяются или декомпозируются.

Команда проверила свой подход на пяти бенчмарках. На MiniF2F-test, самом известном тесте по математике для старших классов, включающем 244 задачи, Goedel-Architect решил 242 при pass@1 (99,2%), став первой системой, решившей все задачи при дополнении помощью обработки естественного языка. На IMO 2025 он решил 4 из 6; на Putnam 2025 — 11 из 12. Система решила 3 из 6 задач из USAMO 2026, набора тестов, созданного после окончания обучения всех моделей, что исключает возможность загрязнения данных.

Контролируемые эксперименты по абляции подтвердили, что глобальная стратегия чертежей Goedel-Architect фундаментально превосходит рекурсивные подходы к декомпозиции. Когда Hilbert был портирован на ту же основу DeepSeek-V4-Flash, он достиг лишь 84,4% на MiniF2F по сравнению с 99,2% у Goedel-Architect. Поддержка естественного языка от более крупных моделей может помочь в решении задач, требующих нелокального структурного понимания, но большинство задач не нуждаются в этой опоре.

Эта работа представляет собой важную веху в обеспечении доступности инфраструктуры формального доказательства теорем при на два порядка более низкой стоимости.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: