Как оказалось, искусственный интеллект действительно способен создавать полноценные аппаратные копии «Сапёра».

Hassam Nasir

21.12.2025

ии-агенты,minesweeper,openai codex,google gemini,ars technica,тестирование кода

Ars Technica протестировала четыре популярных ИИ-агента для написания кода, предложив им создать клон Minesweeper. OpenAI Codex показал результат, наиболее близкий к готовому продукту, в то время как Mistral и Anthropic также продемонстрировали достойные результаты. Google Gemini полностью провалился, не сумев создать рабочую игру.

В то время как мир горит вокруг нас из-за корпораций, гонящихся за ИИ с, казалось бы, неограниченными ресурсами, стоит посмотреть, что нам принесло всё это суматоха. Недавно сотрудники Ars Technica подвергли испытанию четыре самых популярных ИИ-агента для написания кода, поставив перед ними обманчиво простую задачу: создать Minesweeper для веба. Клон должен был включать звуковые эффекты, поддержку сенсорного экрана мобильных устройств и «интересную» игровую изюминку.

Для тех, кто не знает, Minesweeper полагается на логику, которая диктует игровой процесс, а также на достаточно разумные элементы UI/UX, которые в совокупности создают достойный вызов. Создать клон Minesweeper не так уж и сложно, но его основные механики требуют по крайней мере некоторого уровня изобретательности, который обычно присущ людям — в конце концов, цель — это AGI, верно?

Тест включал (платные версии) Claude Code от Anthropic, Gemini CLI от Google, Mistral Vibe и Codex от OpenAI на базе GPT-5. Все они получили одинаковые инструкции, и то, что ИИ сгенерирует в первом запуске, будет использовано для подсчета очков. Никакого вмешательства человека или второй попытки после старта.

Лучшим исполнителем, безусловно, оказался Codex, который не только неплохо справился с визуальной частью, но и был единственным ИИ, который фактически включил «аккорд» — технику, которая раскрывает все окружающие клетки, если вы правильно расставили флаги. «Аккорд» — любимая функция опытных игроков, поэтому её отсутствие автоматически делает любой клон Minesweeper менее отточенным.

Сборка Codex имела все правильно работающие кнопки, включая переключатель звука с соответствующими эпохе звуками «бип» и «буп», а также инструкции на экране как для мобильных, так и для настольных устройств. Что касается игровой изюминки, то в углу была кнопка «Lucky Sweep», которая время от времени раскрывала одну безопасную клетку, когда вы её заслуживали.

Опыт кодирования с Codex также был гладким: интерфейс командной строки имел приятные анимации и локальное управление разрешениями, хотя агенту потребовалось немало времени для написания кода. Ars Technica описали это усилие как наиболее близкое к тому, что готово к выпуску с минимальным вмешательством человека, оценив его впечатляющими 9/10.

Второе место занял Claude от Anthropic, который потребовал вдвое меньше времени, чем Codex, для написания кода и выдал более эстетически приятный продукт. Фактически, это была самая изысканная версия из всех, с пользовательской графикой для бомбы и универсальным эмодзи с улыбкой наверху. Звуковые эффекты также были приятными, а его переключатель отлично работал на мобильных и настольных устройствах.

Однако опыт развалился, когда не было поддержки «аккорда» — «неприемлемо», по мнению автора. Был «Power Mode», который действовал как игровая изюминка, предоставляя простые бонусы, которые требовали бы подлинной креативности со стороны агента. На мобильных устройствах также есть кнопка «Flag Mode», которая является достойной альтернативой долгому нажатию для маркировки клеток.

По нашему мнению, это был также лучший клон по ощущениям, когда мы его пробовали. Модель Opus 4.5 Claude Code создала клон Minesweeper менее чем за 5 минут и имела самый чистый интерфейс кодирования. В целом, презентация очень солидная, что привело к оценке 7/10, которая была бы выше, если бы присутствовала функция «аккорд».

На третьем месте — Mistral Vibe, который произвёл одноимённый продукт, то есть результаты были синонимичны тому, что можно было бы назвать «vibe-coded». Игра работала и выглядела неплохо, но ей не хватало крайне важной функции «аккорд» и звуковых эффектов. Также была кнопка «Custom» внизу, которая ничего не делала. Vibe не добавил никаких интересных игровых поворотов, так что всё это снижает оценку.

Улыбающийся эмодзи наверху был полностью чёрным, что отталкивало тестировщиков, а выбор режима «Expert» выводит сетку за пределы её квадратного фона, но это просто визуальный сбой. Вы можете щёлкнуть правой кнопкой мыши, чтобы поставить флаг на рабочем столе, но на мобильных устройствах вы вынуждены нажимать и удерживать, что *может* неловко вызвать контекстное меню вашего устройства (в нашем случае этого не произошло).

Интерфейс кодирования был солидным и простым в использовании, но не самым быстрым — хотя последнее место настолько далеко, что планка не очень высока. Редакторы Ars Technica были впечатлены тем, насколько хорошо он работал, несмотря на отсутствие масштабных ресурсов крупных игроков. В итоге Mistral Vibe получил 4/10, что кажется ниже, чем он заслуживал, судя по их описанию.

Последним был Gemini CLI от Google, что может кого-то удивить, учитывая, как часто Google возглавляет бенчмарки в наши дни, и общую историю возвращения соучредителя Сергея Брина, возглавившего передовые ИИ в калифорнийском гиганте. Клон Minesweeper от Gemini просто не работал. У него были кнопки, но не было плиток, так что играть или даже набирать очки было невозможно.

С точки зрения визуального оформления, он выглядит пугающе похожим на финальный результат Claude Code — как будто кто-то остановил агента в середине кодирования. Gemini также занял больше всего времени: каждый запуск кода занимал час, и агент постоянно запрашивал внешние зависимости. Даже после небольшого изменения правил, чтобы дать ему второй шанс с чёткими инструкциями использовать HTML5, он не смог дать пригодный результат.

Ars Technica отмечает, что Gemini CLI не имел доступа к последним моделям кодирования Gemini 3 и вместо этого полагался на кластер систем Gemini 2.5. Возможно, оплата более высокого уровня Google AI привела бы к более благоприятному результату, сделав этот тест «незавершённым», но, тем не менее, это довольно разочаровывает.

Итак, вот оно — вот что позволило нам увеличить цены на память в четыре раза и испортить компьютеры на данный момент. Codex выиграл, за ним последовали Mistral Vibe и Claude Code, а Google даже не пытался, но какой ценой. Если вы ещё не были полностью погружены в ИИ, можно с уверенностью сказать, что этот эксперимент вас ни в чём не убедит.

Автор – Hassam Nasir

Оригинал статьи

В тренде:

ars technica, Google Gemini, minesweeper, openai codex, ии-агенты, тестирование кода

HWiNFO подтверждает Nova Lake H и HX; также добавляет поддержку Arrow Lake Refresh
10.12.2025
HWiNFO, популярное ПО для мониторинга железа, обновилось до версии 8.35 beta, добавив поддержку грядущих процессоров Intel Nova Lake H/HX, Panther Lake и Arrow Lake Refresh. Узнайте о новых возможностях и ожидаемых характеристиках чипов.
ЦОД OpenAI «Stargate» в Мичигане получил разрешение на подключение 1,4 гигаватта мощности — некоторые жители в ярости, поскольку регулятор одобрил заявку энергетической компании без проведения слушаний и учёта возражений.
19.12.2025
Комиссия по коммунальным услугам Мичигана одобрила контракт DTE Energy на 1,4 ГВт с центром данных Stargate, что вызвало опасения у жителей региона по поводу возможного роста цен на электроэнергию. Проект, связанный с OpenAI и Oracle, получил одобрение без публичных слушаний,…
Воздушный кулер для процессора прокачивает ледяную воду через свои теплотрубки для жидкостного охлаждения графического процессора — негативнотемпературная модификация своими руками обеспечивает прирост производительности до 17%
06.12.2025
Посмотрите, как сумасшедший моддер шлифует тепловые трубки превосходного воздушного кулера, затем впрыскивает ледяную воду через установленные трубки и, наконец, помещает всю конструкцию на две видеокарты, чтобы увидеть, насколько далеко он сможет продвинуть производительность, наблюдая за огромными повышениями тактовой частоты. Эффективное…
Как сообщается, Nvidia сократит производство графических процессоров серии GeForce RTX 50 на фоне глобального дефицита оперативной памяти
18.12.2025
Nvidia планирует сократить производство видеокарт GeForce RTX 50 на 30-40% в начале 2026 года из-за дефицита памяти GDDR7. Это может повлиять на выпуск моделей RTX 5070 Ti и RTX 5060 Ti 16GB. Причина — рост спроса на память со стороны…

Как оказалось, искусственный интеллект действительно способен создавать полноценные аппаратные копии «Сапёра».

В тренде:

HWiNFO подтверждает Nova Lake H и HX; также добавляет поддержку Arrow Lake Refresh

Как сообщается, Nvidia сократит производство графических процессоров серии GeForce RTX 50 на фоне глобального дефицита оперативной памяти