В четверг OpenAI объявила о выпуске GPT-5.5, последнего обновления своей флагманской модели. Это ровно такое же улучшение, на какое намекает переход с 5.4 на 5.5.
Компания назвала модель «самой интуитивно понятной в использовании» и «следующим шагом к новому способу выполнения работы на компьютере», что похоже на то, что говорят, когда не могут продемонстрировать значительных улучшений прямо сейчас. В своем блоге компания отметила, что модель работает быстрее предыдущих итераций и демонстрирует «прогресс» в «агентном кодировании, использовании компьютера, интеллектуальной работе и ранних научных исследованиях — областях, где прогресс зависит от рассуждений в контексте и действий во времени». Пока что нам остается верить им на слово.
В X генеральный директор OpenAI Сэм Альтман выразил свой восторг по поводу GPT-5.5, заявив: «Мне лично она нравится». Вот это да. Альтман также похвалил команду, стоявшую за ней, отметив: «Действительно отличная работа команды по инференсу, позволившей так эффективно обслуживать эту модель», ссылаясь на якобы улучшенную производительность модели. «В значительной степени мы теперь должны стать компанией по инференсу ИИ», — сказал он. Альтман также репостил похвалу, в том числе пост генерального директора Magic Path Пьетро Ширано, в котором говорилось, что GPT-5.5 подарила ему «первый вкус AGI».
Как это всегда бывает, когда компании выпускают обновления моделей, OpenAI представила множество бенчмарков, которые свидетельствуют о том, что результат ее работы лучше, чем когда-либо. Компания отмечает, что она превосходит конкурента Claude Opus 4.7 от Anthropic, новейшую общедоступную модель этой компании, по ряду стандартов кибербезопасности и бенчмаркам использования компьютера, которые проверяют способность ИИ-агента действовать автономно. Однако компания по-прежнему отстает от Anthropic в тестах по кодированию. Партнер Menlo Ventures Диди Дас заявил, что модель OpenAI не достигает статуса state-of-the-art в отношении возможностей кодирования.
И, конечно, Anthropic, вероятно, возразила бы, что Claude Opus 4.7 даже не является эталонной моделью. Когда компания выпустила эту модель на прошлой неделе, она загрузила практически все бенчмарки доказательствами того, что ее Claude Mythos Preview, слишком мощная для публичного релиза модель, доступ к которой ограничен, превосходит все альтернативы, включая Opus.
Тем не менее, GPT-5.5 выглядит как инкрементальное улучшение по сравнению с GPT-5.4. И становится неясно, насколько полезны бенчмарки для оценки этих инструментов. Все чаще компании тренируются под тесты, и когда их проверяют неожиданным образом, они все равно ломаются. Также сомнительно, насколько эти результаты тестов волнуют кого-либо за пределами индустрии.
Но нельзя сказать, что OpenAI не итерирует. За последнюю неделю компания анонсировала новую модель генерации изображений, «агентов рабочего пространства», способных автономно выполнять задачи, модель для обнаружения и сокрытия личной информации в тексте, а также выпустила обновление для своего кодирующего агента Codex. Армия Сэма Альтмана определенно выпускает обновления, даже если они начинают сливаться в одно целое.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – AJ Dellinger




