Мы поручили четырём ИИ‑агентам воссоздать «Сапёра» — результаты оказались взрывными для железа.

Kyle Orland and Benj Edwards

19.12.2025

ии для программирования,llm,сапёр,ии-агенты,разработка по,сравнение ии

Как четыре современные LLM справляются с воссозданием простого игрового классика Windows? Ars провела тестирование ИИ-агентов для кодинга, заставив их воссоздать игру «Сапёр». Результаты показали значительные различия в возможностях и ошибках.

Использование ИИ для помощи в программировании стало предметом споров. С одной стороны, кодинг-агенты могут совершать ужасные ошибки, исправление которых требует большого количества неэффективного человеческого контроля, что приводит к тому, что многие разработчики полностью теряют доверие к этой концепции. С другой стороны, некоторые кодеры настаивают на том, что ИИ-агенты для кодинга могут быть мощными инструментами, и что передовые модели быстро становятся лучше в программировании способами, которые преодолевают некоторые распространенные проблемы прошлого.

Чтобы увидеть, насколько эффективны эти современные инструменты ИИ для кодинга, мы решили протестировать четыре основные модели с простой задачей: воссоздать классическую игру Windows «Сапёр». Поскольку системам сопоставления с образцом, таким как LLM, относительно легко использовать существующий код для воссоздания известных игр, мы добавили одну новую «изюминку».

Наш простой запрос:

Старший редактор Ars по ИИ Бендж Эдвардс ввел эту задачу в четыре ИИ-агента для кодинга с терминальными (командными) приложениями: Codex от OpenAI на базе GPT-5, Claude Code от Anthropic с Opus 4.5, Gemini CLI от Google и Mistral Vibe. Затем агенты напрямую манипулировали HTML и скриптовыми файлами на локальной машине под руководством «супервизора» ИИ, который интерпретировал запрос и назначал задачи по кодингу параллельным LLM, способным использовать программные инструменты для выполнения инструкций. Все ИИ-планы были оплачены частным образом без какого-либо особого или привилегированного доступа со стороны участвующих компаний, и компании не знали о проведении этих тестов.

Старший редактор Ars по играм (и эксперт по «Сапёру») Кайл Орланд затем слепо оценил каждый пример, не зная, какая модель сгенерировала какой клон «Сапёра». Эти несколько субъективные и нестрогие результаты приведены ниже.

Для этого теста мы использовали неизмененный код каждой ИИ-модели в «единичном» результате, чтобы увидеть, насколько хорошо эти инструменты работают без отладки человеком. В реальном мире код, сгенерированный ИИ, при условии достаточной сложности, прошел бы по крайней мере некоторый уровень проверки и доработки со стороны инженера-программиста, который мог бы выявить проблемы и устранить неэффективность.

Мы выбрали этот тест как своего рода простой компромисс для текущего состояния ИИ-кодинга. Клонирование «Сапёра» — это не тривиальная задача, которую можно выполнить всего за несколько строк кода, но это и не невероятно сложная система, требующая множества взаимосвязанных движущихся частей.

«Сапёр» также является хорошо известной игрой, с множеством версий, задокументированных в Интернете. Это должно дать этим ИИ-агентам достаточно сырья для работы, и нам будет легче оценить их, чем совершенно новую программу. В то же время наш открытый запрос на новую «интересную» функцию помогает продемонстрировать склонность каждого агента к «творчеству» в неконтролируемом кодинге, а также их способность создавать новые функции поверх установленной игровой концепции.

Отбросив все эти формальности, вот наша оценка сгенерированных ИИ клонов «Сапёра», с ссылками, которые вы можете использовать, чтобы поиграть в них самостоятельно.

Поиграйте сами
**Реализация**
Эта версия сразу теряет очки за отсутствие аккордов — техники, которую используют продвинутые игроки в «Сапёра», чтобы быстро очистить все оставшиеся клетки вокруг числа, у которого уже достаточно помеченных мин. Без этой функции играть в эту версию немного неуклюже.
Меня также несколько озадачивает наличие кнопки «Пользовательская» сложность, которая, кажется, ничего не делает. Как будто модель осознала, что настраиваемые размеры поля существуют в «Сапёре», но не смогла реализовать эту относительно базовую функцию.
Игра работает нормально на мобильных устройствах, но без видимого способа пометить квадрат флагом, что сильно ограничивает игровой процесс.

**Презентация**
Это была единственная работающая версия, которую мы тестировали, и в ней не было звуковых эффектов. Это справедливо, поскольку оригинальный «Сапёр» для Windows также не имел звука, но это все равно заметное упущение, учитывая, что в запросе это было прямо указано.
Кнопка в виде смайлика полностью черного цвета для начала игры немного отталкивает по сравнению с ярко-желтой версией, знакомой как игрокам в «Сапёра», так и пользователям эмодзи по всему миру. И хотя этот смайлик запускает новую игру при нажатии, по какой-то причине также есть избыточная кнопка «Новая игра», занимающая место.

**«Интересная» функция**
Самое близкое к «интересной» новой функции, что я нашел, — это добавление игрой радужного фонового узора на сетке после завершения игры. Хотя это и добавляет немного причудливости успешной игре, я ожидал немного большего.

**Опыт кодинга**
Бендж отмечает, что был приятно удивлен тем, насколько хорошо Mistral Vibe показал себя как модель с открытым весом, несмотря на отсутствие больших финансовых вложений других претендентов. Однако он был относительно медленным (третий по скорости из четырех), и результат не был выдающимся. В конечном итоге, его текущая производительность предполагает, что при большем количестве времени и обучении может появиться очень способный ИИ-агент для кодинга.

**Общий рейтинг: 4/10**
Эта версия правильно реализовала многие основы, но упустила аккорды и показала низкую производительность в мелких презентационных и «интересных» деталях.

Поиграйте сами
**Реализация**
Этот агент не только включил важнейшую функцию «аккордов», но и предоставил на экране инструкции по ее использованию как в браузерах ПК, так и на мобильных. Меня также впечатлила опция переключения на знаки «?» при маркировке клеток флагами — эзотерическая функция, которую, как мне кажется, могли бы упустить даже большинство людей, клонирующих «Сапёра».
На мобильных устройствах возможность удерживать палец на клетке для установки флага — приятная деталь, делающая эту версию самой удобной для портативного использования из протестированных.

**Презентация**
Кнопка смайлика в стиле олдскул довольно мила, особенно когда она становится красной «X(» при взрыве. Меньше впечатлили «графика» игрового поля, где используется простой «*» для открытых мин и уродливая красная «F» для помеченных клеток.
Звуковые эффекты «бип-бип» напомнили мне мой первый старый ПК без Sound Blaster конца 80-х. В целом, это хорошо, но я все равно оценил возможность отключить их.

**«Интересная» функция**
«Сюрприз: Бонус «Счастливый проход»», указанный в углу интерфейса, объясняет, что нажатие на кнопку дает бесплатную безопасную клетку, если она доступна. Это может быть очень полезно в ситуациях, когда иначе пришлось бы угадывать между двумя клетками, которые с равной вероятностью могут быть минами.
Однако в целом я нашел несколько странным, что игра предоставляет этот бонус только после того, как вы найдете большое, каскадное поле безопасных клеток одним щелчком. Он в основном функционирует как кнопка «для тех, кто уже победил», а не как функция, предлагающая хороший баланс риска и вознаграждения.

**Опыт кодинга**
OpenAI Codex имеет приятный интерфейс командной строки с функциями, аналогичными Claude Code (локальные команды, управление разрешениями и интересные анимации, показывающие прогресс), и им довольно приятно пользоваться (OpenAI также предлагает Codex через веб-интерфейс, но мы не использовали его для этой оценки). Однако Codex потребовалось примерно вдвое больше времени, чтобы написать работающую игру, чем Claude Code, что может способствовать такому сильному результату.

**Общий рейтинг: 9/10**
Реализация аккордов и милые презентационные детали выводят эту версию на первое место. Мы только хотели бы, чтобы «интересная» функция была немного интереснее.

Поиграйте сами
**Реализация**
Опять же, мы получаем версию, которая правильно реализует все игровые основы, но ей не хватает важнейшей функции аккордов, которая делает возможным по-настоящему эффективную игру в «Сапёра». Это как играть в «Super Mario Bros.» без кнопки бега или в «Ocarina of Time» без Z-таргетинга. Одним словом: неприемлемо.
Переключатель «режим флага» в мобильной версии этой игры полностью функционален, но им немного неудобно пользоваться. Он также визуально обрезает часть поля при больших размерах игры.

**Презентация**
С точки зрения презентации, это, вероятно, самая отполированная версия из протестированных. От использования милых эмодзи для кнопки «лица» до красивой графики бомб и флагов, а также простых, но эффективных звуковых эффектов — это выглядит более профессионально, чем другие протестированные версии.
Тем не менее, есть некоторые странные проблемы с презентацией. Например, сетка «новичка» имеет странные пробелы между столбцами. Границы каждой клетки и графика флагов также могут становиться странно серыми в некоторых местах, особенно при использовании режима «Power Mode» (см. ниже).

**«Интересная» функция**
Заметная кнопка «Power Mode» в правом нижнем углу предлагает довольно интересные усиления, которые изменяют основную формулу «Сапёра» интересными способами. Но сами усиления работают то лучше, то хуже.
Мне особенно понравилась сила «Щит», которая защищает от случайной ошибки, и сила «Взрыв», которая, кажется, гарантирует большое количество открытых клеток, где бы вы ни щелкнули. Но сила «Рентген», которая на несколько секунд показывает все бомбы, может быть легко использована быстрым игроком (или хитрым скриншотом). А сила «Заморозка» довольно скучна, просто останавливает часы на несколько секунд и дает немного дополнительного времени.
В целом, игра раздает эти новые усиления как конфеты, что делает даже доску уровня «Эксперт» относительно тривиальной при активном режиме «Power Mode». Просто выбор «Power Mode» также помечает несколько безопасных клеток сразу после начала игры, что еще больше упрощает процесс. Так что, хотя эти усиления могут быть «интересными», они также не кажутся особенно сбалансированными.

**Опыт кодинга**
Из четырех протестированных моделей Claude Code с Opus 4.5 обеспечил самый приятный интерфейс командной строки и самый быстрый общий опыт кодинга (Claude Code также может использовать Sonnet 4.5, который еще быстрее, но результаты, по нашему опыту, не такие полные). Хотя мы не засекали время каждой модели, Opus 4.5 создал работающий «Сапёр» менее чем за пять минут. Codex потребовалось как минимум вдвое больше времени, если не больше, в то время как Mistral потребовалось примерно в три-четыре раза больше времени, чем Claude Code. Gemini, тем временем, потребовал часов доработки, чтобы получить два неработающих результата.

**Общий рейтинг: 7/10**
Отсутствие аккордов — большое упущение, но сильная презентация и опции «Power Mode» дают этому творению приемлемую итоговую оценку.

Поиграйте сами
**Реализация, презентация и т. д.**
Gemini CLI действительно предоставил нам несколько серых квадратов, на которые можно нажать, но игровое поле отсутствует. Хотя интерактивное устранение неполадок с агентом могло бы исправить проблему, в качестве теста «в один выстрел» модель полностью провалилась.

**Опыт кодинга**
Из четырех протестированных кодинг-агентов Gemini CLI доставил Бенджу больше всего хлопот. После разработки плана он был очень, очень медленным в генерации какого-либо полезного кода (около часа на попытку). Модель, казалось, застряла, пытаясь вручную создать звуковые эффекты в формате WAV, и настаивала на использовании внешних библиотек React и нескольких других переусложненных зависимостей. Результат просто не работал.
Бендж фактически нарушил правила и дал Gemini второй шанс, указав, что игра должна использовать HTML5. Когда модель снова начала писать код, она также застряла, пытаясь создать звуковые эффекты. Бендж предложил использовать фреймворк WebAudio (который, казалось, могли использовать другие ИИ-агенты для кодинга), но результат не сработал, что вы можете увидеть по ссылке выше.
В отличие от других протестированных моделей, Gemini CLI, по-видимому, использует гибридную систему из трех различных LLM для разных задач (Gemini 2.5 Flash Lite, 2.5 Flash и 2.5 Pro были доступны на уровне учетной записи Google, за которую заплатил Бендж). Когда вы закончили сеанс кодинга и вышли из интерфейса CLI, он выдает сводку о том, какая модель что сделала.
В данном случае это не имело значения, потому что результаты не сработали. Но стоит отметить, что кодинг-модели Gemini 3 доступны для других тарифных планов подписки, которые не тестировались здесь. По этой причине эта часть теста может считаться «неполной» для Google CLI.

**Общий рейтинг: 0/10 (Неполный)**
OpenAI Codex выигрывает по очкам, во многом потому, что это была единственная модель, включающая аккорды как опцию игрового процесса. Но Claude Code также отличился сильными презентационными штрихами и быстрым временем генерации. Mistral Vibe был значительным шагом назад, а Google CLI на базе Gemini 2.5 полностью провалился в нашем тесте «в один выстрел».
Хотя опытные кодеры, безусловно, могут добиться лучших результатов с помощью интерактивного диалога с агентом в режиме редактирования кода, эти результаты показывают, насколько способны некоторые из этих моделей, даже с очень коротким запросом на относительно простую задачу. Тем не менее, мы считаем, что наш общий опыт работы с агентами для кодинга в других проектах (подробнее об этом в будущей статье) в целом подтверждает идею о том, что в настоящее время они лучше всего функционируют как интерактивные инструменты, дополняющие человеческие навыки, а не заменяющие их.

Автор – Kyle Orland and Benj Edwards

Оригинал статьи

В тренде:

LLM, ии для программирования, ии-агенты, разработка по, сапёр, сравнение ии

Новые функции монитора Studio Display, вероятно, раскрыты через утечку характеристик iPad Pro M5
01.12.2025
Слухи сообщают, что Apple готовит новый монитор Studio Display с поддержкой 120 Гц и Adaptive Sync – функции, уже продемонстрированной на iPad Pro M5. Ожидается улучшенная плавность изображения и низкая задержка при работе с внешними дисплеями.
ASUS представляет первый в мире игровой монитор ROG Strix X27JCG с разрешением 5K и частотой 180 Гц в двух режимах
11.12.2025
ASUS представила игровой монитор ROG Strix XG27JCG с разрешением 5K и частотой 180 Гц. Новинка предлагает два режима: 5K@180 Гц для максимальной детализации и QHD@330 Гц для сверхплавного геймплея. Монитор оснащен быстрым IPS-дисплеем с временем отклика 0,3 мс и поддержкой…
Фиаско Intel с «запросом на возврат» снова всплывает: пользователь сообщает о «кошмарном» опыте, а компания отказывается от запроса на возврат средств.
11.12.2025
Проблемы с процессорами Intel Raptor Lake продолжаются, и компания отказывается от гарантийных обязательств. Служба поддержки Intel сначала одобрила возврат средств за i9-13900K, но затем отклонила его по необоснованной причине, предложив лишь замену. Это вызывает вопросы о качестве поддержки и надежности…
Commodore International оспаривает торговые марки итальянского соперника в обостряющемся споре вокруг бренда — компания заявляет, что нужна ясность, чтобы открыть дорогу для новых лицензионных продуктов.
14.12.2025
Commodore International подала иск против Commodore Industries из-за товарных знаков. Итальянский стартап обвиняется в неправомерном получении прав на бренд Commodore в Европе. Это обострение многолетнего спора о контроле над легендарным именем.

Мы поручили четырём ИИ‑агентам воссоздать «Сапёра» — результаты оказались взрывными для железа.

В тренде:

Новые функции монитора Studio Display, вероятно, раскрыты через утечку характеристик iPad Pro M5

ASUS представляет первый в мире игровой монитор ROG Strix X27JCG с разрешением 5K и частотой 180 Гц в двух режимах

Фиаско Intel с «запросом на возврат» снова всплывает: пользователь сообщает о «кошмарном» опыте, а компания отказывается от запроса на возврат средств.