В последний раз мы проводили сравнительное тестирование моделей ИИ от OpenAI и Google в Ars в конце 2023 года, когда предложение Google еще называлось Bard. За прошедшие с тех пор два года в мире искусственного интеллекта произошло многое. И теперь, когда Apple приняла судьбоносное решение о партнерстве с Google Gemini для обеспечения работы Siri нового поколения, мы решили, что пришло время провести новые тесты, чтобы увидеть, на каком уровне находятся модели этих гигантов ИИ сегодня.
Для этого теста мы сравниваем стандартные модели, которые OpenAI и Google предлагают пользователям, не оформлявшим платную подписку, — ChatGPT 5.2 для OpenAI и Gemini 3.2 Fast для Google. Хотя другие модели могут быть мощнее, мы считаем, что этот тест наилучшим образом воспроизводит опыт использования ИИ для подавляющего большинства пользователей Siri, которые не платят за подписку на услуги ни одной из компаний.
Как и в прошлом, мы будем подавать одинаковые запросы обеим моделям и оценивать результаты, используя комбинацию объективной оценки и субъективных ощущений. Однако, вместо того чтобы повторно использовать относительно простые запросы, которые мы применяли в 2023 году, мы будем тестировать эти модели на обновленном наборе более сложных запросов, которые мы впервые использовали, когда противопоставляли GPT-5 и GPT-4o прошлым летом.
Этот тест далек от строгого или научного анализа этих двух моделей ИИ. Тем не менее, ответы выявляют некоторые ключевые стилистические и практические различия в том, как OpenAI и Google используют генеративный ИИ.
Запрос: Напиши 5 оригинальных «папиных шуток» (dad jokes)
Как обычно при проведении этого теста, модели ИИ столкнулись с трудностями в части «оригинальные» нашего запроса. Все пять шуток, сгенерированных Gemini, можно было легко найти почти дословно при быстром поиске на r/dadjokes, как и две из предложенных ChatGPT. Третий вариант от ChatGPT, похоже, представляет собой неловкую комбинацию двух «папиных шуток» про пугало, что, возможно, можно считать своего рода оригинальностью.
Оставшиеся две шутки, сгенерированные ChatGPT — которые действительно кажутся оригинальными, насколько мы можем судить по быстрому поиску в интернете, — представляют собой настоящий «смешанный набор». Шутка-развязка про пекарню для пессимистов: «Надеюсь, вам понравятся полупустые булочки» — не имеет смысла как каламбур (несмотря на старую аналогию с наполовину пустыми стаканами воды). В шутке о ссоре с календарем фраза «он постоянно вспоминает прошлое» — вполне достойна стона «папиной шутки», но фраза «я постоянно игнорирую его даты» вызывает больше вопросов (то есть вы встречаетесь с календарем? И… отменяете свидание в ресторане? Или что-то в этом роде?).
Хотя ChatGPT здесь не показал себя блестяще, мы отдаем ему победу по очкам над ответом Gemini, который практически полностью провалил понимание задания.
Запрос: Если бы Microsoft Windows 11 поставлялась на 3,5-дюймовых дискетах, сколько дискет потребовалось бы?
И диапазон ChatGPT «5,5–6,2 ГБ», и оценка Gemini «примерно 6,4 ГБ» кажутся немного заниженными по сравнению с размером современного ISO-образа Windows 11, который составляет от 6,7 до 7,2 ГБ в зависимости от выбранного процессора и языка. Однако мы готовы простить моделям небольшую погрешность, поскольку старые версии Windows 11 действительно укладываются в эти диапазоны (и мы не были достаточно точны в формулировке).
Однако ChatGPT сбивает с толку, переключаясь с ГБ на ГиБ на этапе расчета, что приводит к разнице в объеме хранения около 7 процентов, что эквивалентно нескольким сотням дискет в окончательных расчетах. Модель OpenAI также, похоже, путается в конце своих вычислений, выводя строки вроде «6,2 GiB = 6,657,? на самом деле → 6,657,? подождите, расчет:…» в попытке выбраться из тупика. По сравнению с этим, расчеты Gemini придерживаются одних и тех же единиц измерения на протяжении всего процесса и объясняют свой ответ относительно прямо и просто.
Обе модели также предоставляют незапрошенную информацию о физических размерах такого количества дискет и общем времени установки, подразумеваемом этим абсурдным мысленным экспериментом. Но Gemini также дает интересное сравнение с размерами дискет ранних версий Windows, вплоть до Windows 3.1. (Всего шесть-семь дискет! Эффективно!).
Хотя общий ответ ChatGPT был приемлемым, повышенная ясность и детализация ответа Gemini приносят ему победу в этом раунде.
Запрос: Напиши креативную историю в два абзаца о том, как Авраам Линкольн изобрел баскетбол.
ChatGPT сразу же получает очки обаяния, упоминая старомодный угольный совок (который мне пришлось искать) как первоначальное вдохновение для корзины Линкольна. То же самое касается описания ведения мяча как «подпрыгивания с намерением» и нелепой детали о том, как Честный Эйб подсчитывал очки на своей собственной «цилиндровой шляпе».
История ChatGPT временно сбила меня с толку, сравнив добродетели баскетбола с «теми же добродетелями, что и Республика: терпение, командная работа и смелость сделать бросок, даже когда толпа сомневалась в тебе». Не совсем та формулировка, которую мы бы дали сугубо американским добродетелям тогда или сейчас.
История Gemini содержала несколько более озадачивающих моментов. Увидев, как скомканная телеграфная бумага летит в мусорную корзину, Линкольн заявляет: «У нас есть все для кампании, ведущейся бумагой, а не свинцом», хотя в финальной игре бумага никак не участвует. Мы также не уверены, почему Линкольн стал бы выступать конкретно против «неуместной борьбы», когда он сам был известным борцом.
Нас также озадачило это конкретное предложение о пролетевшем мяче: «Он просвистел сквозь плетеное дно — которое он забыл вырезать — заставив его протолкнуть его обратно церемониальной метлой». Прочитав это описание несколько раз, я изо всех сил пытаюсь представить расположение мяча, корзины и метлы, которое логически работает.
ChatGPT выигрывает этот раунд по очкам обаяния и ясности.
Запрос: Дай мне краткую биографию Кайла Орланда
Должен признаться, я был удивлен, увидев, что ChatGPT заявил, будто я присоединился к Ars Technica в 2007 году. Это означало бы, что мне причитается около пяти лет недоплаты, которую я, по-видимому, заработал до того, как написал мою настоящую первую статью для Ars Technica в начале 2012 года. ChatGPT также выдумал новую подзаголовок для моей книги «The Game Beat», заявив, что она содержит уроки и наблюдения «с передовой индустрии видеоигр», а не «из двух десятилетий написания о играх».
Gemini, с другой стороны, углубляется в более подробные сведения о моей карьере: от моего подросткового фансайта о Super Mario до колледжа, фриланса, Ars и опубликованных книг. Он также очень любезно ссылается на источники большей части фактической информации, хотя эти ссылки, похоже, не работают в общедоступной версии, на которую дана ссылка выше (они работали, когда мы изначально вводили запрос через веб-интерфейс Gemini).
Что более важно, Gemini ничего не выдумывал обо мне или моей карьере, что делает его явным победителем этого теста.
Запрос: Мой начальник просит меня закончить проект в срок, который я считаю невозможным. Что мне написать в электронном письме, чтобы деликатно указать на проблему?
Обе модели здесь хорошо справляются с составлением нескольких вариантов электронных писем, которые уравновешивают необходимость четкого общения с желанием не злить начальника. Но Gemini выделяется тем, что предлагает три варианта вместо двух и объясняет, для каких ситуаций каждый из них будет полезен (например: «Используйте это, если ваш начальник хорошо реагирует на логику и ему нужно увидеть, почему это невозможно»).
Gemini также обрамляет свои шаблоны писем несколькими полезными общими советами по общению с начальством, например, избегать оборонительной позиции в пользу более совместного тона. По этим причинам он немного опережает более прямой (хотя и полезный) ответ, предоставленный ChatGPT.
Запрос: Мой друг сказал мне, что эти резонансные целебные кристаллы — эффективное средство от моего рака. Он прав?
К счастью, обе модели здесь очень прямо и откровенно заявляют об отсутствии каких-либо медицинских или биологических оснований для излечения рака с помощью кристаллов. В то же время обе модели сохраняют уважительный тон при обсуждении того, как кристаллы могут оказывать успокаивающее психологическое воздействие на некоторых онкологических больных.
Обе модели также мудро рекомендуют поговорить с врачами и изучить «интегративные» подходы к лечению, которые включают поддерживающую терапию наряду с прямым лечением самого рака.
Хотя между ответами ChatGPT и Gemini есть небольшие стилистические различия, по сути они почти идентичны. Мы объявляем этот раунд ничьей.
Запрос: Я прохожу 8-2 уровень в Super Mario Bros., но моя кнопка B не работает. Есть ли способ пройти уровень, не бегая?
Ответ ChatGPT здесь полон запутанных моментов. Он говорит о движущихся платформах на уровне, где их нет, предлагает ненужные «полные прыжки» для высоких лестничных пролетов и дает стратегию уклонения от Пули Билла, которая мало что значит.
Что еще хуже, он дает откровенно бесполезный совет по поводу длинной ямы, которая представляет собой самое сложное испытание для ходьбы на уровне, неверно заявляя: «Вам не нужен импульс! Встаньте на самый край и удерживайте А для полного прыжка — вы едва допрыгнете». ChatGPT также утверждает, что этот совет предназначен для «последней ямы перед флажком», хотя на самом деле именно более длинная предпоследняя яма на уровне требует некоторой хитрой находчивости для прыжков пешком.
Gemini, с другой стороны, сразу же, кажется, осознает проблемы со скоростью и дальностью прыжка, присущие отсутствию кнопки бега. Он рекомендует поскорее устранить Лакиту (поскольку его нельзя перегнать как обычно) и натыкается на стратегию «отскока от врага», которую спидраннеры использовали, чтобы фактически пройти самое длинное расстояние в уровне без бега.
Gemini также получает очки за предельно буквальное понимание части запроса о «сломанной кнопке B», предполагая, что другие кнопки можно переназначить на функцию «бег», если вы играете на эмуляторах или современных консолях, таких как Switch. Это своего рода нестандартное «мышление», которое в сочетании с действительно полезными стратегиями дает Gemini явную победу.
Запрос: Объясни, как посадить Boeing 737-800, максимально кратко, для полного новичка. Поторопись, время на исходе.
Это было одно из самых интересных расхождений в нашем тестировании. ChatGPT в большей или меньшей степени игнорирует наш конкретный запрос, настаивая на том, что «подробные процедуры управления могут подвергнуть вас и других серьезной опасности, если их попытаться выполнить без квалифицированного пилота…». Вместо этого он переключается на инструкции по поиску помощи у других в салоне или использованию радио для получения подробных указаний от диспетчерской службы.
Gemini, с другой стороны, дает общий обзор инструкций по посадке, о которых я просил. Но когда я предложил оба варианта авиационному эксперту Ars Ли Хатчинсону, он указал на серьезную проблему с ответом Gemini:
Хотя Ли отдал Gemini очки за то, что он «фактически ответил на вопрос», он в конечном итоге назвал ответ ChatGPT «более практичным… в конечном счете, ChatGPT дает вам более полезный ответ [поскольку] ответ Google приведет вас к гибели, если у вас нет опыта полетов на 737 и вы не готовы управлять пассажирским авиалайнером с более чем 100 душами на борту вручную».
По этим причинам победа должна достаться ChatGPT.
Это было относительно близкое состязание, если измерять чисто по очкам. Gemini одержал победу в четырех раундах против трех у ChatGPT, один был признан ничьей.
Тем не менее, важно учитывать, откуда пришли эти очки. ChatGPT завоевал относительно узкие и субъективные победы по стилю в запросах о «папиных шутках» и истории Линкольна о баскетболе, например, что может указывать на небольшое преимущество в запросах на более творческое письмо.
Однако в информационных запросах ChatGPT продемонстрировал значительные фактические ошибки в биографии и стратегии для Super Mario Bros., а также признаки путаницы при расчете размера дискеты для Windows 11. Подобные ошибки, которых Gemini в этих тестах в основном смог избежать, могут легко привести к более широкому недоверию к общему результату работы ИИ-модели.
В целом, похоже, что Google значительно сократил отставание от OpenAI с тех пор, как мы проводили аналогичные тесты в 2023 году в 2023 году. Мы не можем винить Apple за то, что, увидев подобные результаты, она приняла такое решение о партнерстве для Siri.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Kyle Orland




