В то время как мир горит вокруг нас из-за корпораций, гонящихся за ИИ с, казалось бы, неограниченными ресурсами, стоит посмотреть, что нам принесло всё это суматоха. Недавно сотрудники Ars Technica подвергли испытанию четыре самых популярных ИИ-агента для написания кода, поставив перед ними обманчиво простую задачу: создать Minesweeper для веба. Клон должен был включать звуковые эффекты, поддержку сенсорного экрана мобильных устройств и «интересную» игровую изюминку.
Для тех, кто не знает, Minesweeper полагается на логику, которая диктует игровой процесс, а также на достаточно разумные элементы UI/UX, которые в совокупности создают достойный вызов. Создать клон Minesweeper не так уж и сложно, но его основные механики требуют по крайней мере некоторого уровня изобретательности, который обычно присущ людям — в конце концов, цель — это AGI, верно?
Тест включал (платные версии) Claude Code от Anthropic, Gemini CLI от Google, Mistral Vibe и Codex от OpenAI на базе GPT-5. Все они получили одинаковые инструкции, и то, что ИИ сгенерирует в первом запуске, будет использовано для подсчета очков. Никакого вмешательства человека или второй попытки после старта.
Лучшим исполнителем, безусловно, оказался Codex, который не только неплохо справился с визуальной частью, но и был единственным ИИ, который фактически включил «аккорд» — технику, которая раскрывает все окружающие клетки, если вы правильно расставили флаги. «Аккорд» — любимая функция опытных игроков, поэтому её отсутствие автоматически делает любой клон Minesweeper менее отточенным.
Сборка Codex имела все правильно работающие кнопки, включая переключатель звука с соответствующими эпохе звуками «бип» и «буп», а также инструкции на экране как для мобильных, так и для настольных устройств. Что касается игровой изюминки, то в углу была кнопка «Lucky Sweep», которая время от времени раскрывала одну безопасную клетку, когда вы её заслуживали.
Опыт кодирования с Codex также был гладким: интерфейс командной строки имел приятные анимации и локальное управление разрешениями, хотя агенту потребовалось немало времени для написания кода. Ars Technica описали это усилие как наиболее близкое к тому, что готово к выпуску с минимальным вмешательством человека, оценив его впечатляющими 9/10.
Второе место занял Claude от Anthropic, который потребовал вдвое меньше времени, чем Codex, для написания кода и выдал более эстетически приятный продукт. Фактически, это была самая изысканная версия из всех, с пользовательской графикой для бомбы и универсальным эмодзи с улыбкой наверху. Звуковые эффекты также были приятными, а его переключатель отлично работал на мобильных и настольных устройствах.
Однако опыт развалился, когда не было поддержки «аккорда» — «неприемлемо», по мнению автора. Был «Power Mode», который действовал как игровая изюминка, предоставляя простые бонусы, которые требовали бы подлинной креативности со стороны агента. На мобильных устройствах также есть кнопка «Flag Mode», которая является достойной альтернативой долгому нажатию для маркировки клеток.
По нашему мнению, это был также лучший клон по ощущениям, когда мы его пробовали. Модель Opus 4.5 Claude Code создала клон Minesweeper менее чем за 5 минут и имела самый чистый интерфейс кодирования. В целом, презентация очень солидная, что привело к оценке 7/10, которая была бы выше, если бы присутствовала функция «аккорд».
На третьем месте — Mistral Vibe, который произвёл одноимённый продукт, то есть результаты были синонимичны тому, что можно было бы назвать «vibe-coded». Игра работала и выглядела неплохо, но ей не хватало крайне важной функции «аккорд» и звуковых эффектов. Также была кнопка «Custom» внизу, которая ничего не делала. Vibe не добавил никаких интересных игровых поворотов, так что всё это снижает оценку.
Улыбающийся эмодзи наверху был полностью чёрным, что отталкивало тестировщиков, а выбор режима «Expert» выводит сетку за пределы её квадратного фона, но это просто визуальный сбой. Вы можете щёлкнуть правой кнопкой мыши, чтобы поставить флаг на рабочем столе, но на мобильных устройствах вы вынуждены нажимать и удерживать, что *может* неловко вызвать контекстное меню вашего устройства (в нашем случае этого не произошло).
Интерфейс кодирования был солидным и простым в использовании, но не самым быстрым — хотя последнее место настолько далеко, что планка не очень высока. Редакторы Ars Technica были впечатлены тем, насколько хорошо он работал, несмотря на отсутствие масштабных ресурсов крупных игроков. В итоге Mistral Vibe получил 4/10, что кажется ниже, чем он заслуживал, судя по их описанию.
Последним был Gemini CLI от Google, что может кого-то удивить, учитывая, как часто Google возглавляет бенчмарки в наши дни, и общую историю возвращения соучредителя Сергея Брина, возглавившего передовые ИИ в калифорнийском гиганте. Клон Minesweeper от Gemini просто не работал. У него были кнопки, но не было плиток, так что играть или даже набирать очки было невозможно.
С точки зрения визуального оформления, он выглядит пугающе похожим на финальный результат Claude Code — как будто кто-то остановил агента в середине кодирования. Gemini также занял больше всего времени: каждый запуск кода занимал час, и агент постоянно запрашивал внешние зависимости. Даже после небольшого изменения правил, чтобы дать ему второй шанс с чёткими инструкциями использовать HTML5, он не смог дать пригодный результат.
Ars Technica отмечает, что Gemini CLI не имел доступа к последним моделям кодирования Gemini 3 и вместо этого полагался на кластер систем Gemini 2.5. Возможно, оплата более высокого уровня Google AI привела бы к более благоприятному результату, сделав этот тест «незавершённым», но, тем не менее, это довольно разочаровывает.
Итак, вот оно — вот что позволило нам увеличить цены на память в четыре раза и испортить компьютеры на данный момент. Codex выиграл, за ним последовали Mistral Vibe и Claude Code, а Google даже не пытался, но какой ценой. Если вы ещё не были полностью погружены в ИИ, можно с уверенностью сказать, что этот эксперимент вас ни в чём не убедит.
Автор – Hassam Nasir




