OpenAI только что представила совершенно новый генератор изображений, который, по утверждению компании, способен создавать более умный и точный контент, чем когда-либо прежде.
ChatGPT Images 2.0 станет «ренессансом» в генерации изображений с помощью ИИ, согласно вводному рекламному ролику, который демонстрировался перед прямой трансляцией OpenAI во вторник, анонсировавшей эту новость.
«Если Dall-e — это наскальные рисунки, а Images 1.0 — древнее искусство, то Images 2.0 — это Ренессанс», — говорится в рекламе.
«Images 2.0 — это огромный шаг вперед; это как переход от GPT-3 к GPT-5 за один раз», — заявил генеральный директор Сэм Альтман во время прямой трансляции.
Компания заявляет о новых многоязычных возможностях, улучшенном визуальном интеллекте и более пристальном внимании к деталям в новой модели. В качестве примера был показан запрос, который сгенерировал изображение миски риса, на которой только на одной крошечной рисинке было написано название модели.

Модель имеет два режима: мгновенный (instant) и «думающий» (thinking). Исследователи утверждают, что оба режима модели значительно лучше предыдущих возможностей генерации изображений в ChatGPT, а опечатки «очень редки».
Мгновенный режим, по-видимому, представляет собой просто более быструю и обновленную версию типичного генератора изображений, и он уже доступен всем пользователям ChatGPT и API. «Думающий» режим более сложен и доступен только платным пользователям, в частности подписчикам Plus, Pro и Business.
«Когда в ChatGPT выбран «думающий» режим, Images 2.0 может искать информацию в Интернете в режиме реального времени, создавать несколько различных изображений по одному запросу и перепроверять свои результаты», — объявила OpenAI в пресс-релизе, сгенерированном Images 2.0 и оформленном под ретро-страницы журнала.
Например, «думающий» режим может сгенерировать несколько страниц манги «с повторяющимися персонажами и развивающимися сюжетными линиями» или целые страницы журнала по одному простому запросу, сообщила компания.

Сетевые детективы ожидали этого релиза уже некоторое время. Энтузиасты на Reddit и X окрестили модель «GPT-image-2». Ранее в этом месяце пользователь Reddit утверждал, что OpenAI тестирует модель с некоторыми пользователями ChatGPT. Примерно в то же время пользователь X заявил, что модель уже доступна на сторонних тестовых платформах, таких как Arena AI, под разными кодовыми именами, такими как «maskingtape-alpha», «gaffertape-alpha» и «packingtape-alpha». Во время прямой трансляции инженеры OpenAI подтвердили, что это правда. Пост в X, указавший на это, содержит изображения, которые модель якобы создала; в основном они выглядят впечатляюще, за исключением карты мира с вымышленными странами вроде «Ciger» и «Mharee», а также с полностью искаженным расположением столиц, например, кенийская столица Найроби оказалась в Саудовской Аравии.
OpenAI готовится к предполагаемому IPO, которое ожидается уже в этом году. В преддверии этого IPO компания, которая, по сообщениям, по-прежнему далека от прибыльности, несмотря на растущие финансовые обязательства, проводит масштабную работу по тому, чтобы ее финансовые показатели выглядели максимально привлекательными для потенциальных инвесторов. Это включало переход в статус коммерческой корпорации с общественной пользой и отказ от своего генератора видео Sora для сокращения расходов.
Если новый генератор изображений сможет повторить онлайн-успех, которого добилась предыдущая генерация изображений GPT-4o благодаря лихорадке «Студии Гибли» чуть более года назад, это поможет ChatGPT увеличить количество еженедельно активных пользователей — еще один важный фактор для инвесторов. В феврале OpenAI объявила, что ChatGPT превысил 900 миллионов еженедельно активных пользователей, и Images 2.0 может помочь этим показателям достичь условного, но гораздо более впечатляющего числа в 1 миллиард.
На этот раз вирусным моментом, на который они надеются, кажется, является фотореализм. Когда Альтман спросил во время прямой трансляции, исследователь OpenAI Габриэль Го заявил, что фотореализм — это стиль, который его больше всего восхищает в модели, и что он «запускает что-то очень интересное».
Еще одна битва, которую предстоит выиграть OpenAI, касается ее репутации.
OpenAI положила начало ажиотажу вокруг ИИ выпуском ChatGPT — чат-бота, который стал не только общеизвестным именем, но и почти синонимом самой технологии. Однако давняя позиция компании как лидера в гонке ИИ начала сталкиваться с серьезной конкуренцией.

Один из таких ударов был нанесен главным конкурентом OpenAI, Anthropic, чьи агентные модели, такие как Claude Cowork и Claude Code, заставили OpenAI понервничать. В ответ OpenAI пытается укрепить свои конкурирующие предложения, такие как Codex, с помощью обновлений.
Другой удар нанесла Google. В конце прошлого года технологический гигант обновил свой вирусный генератор изображений Nano Banana Pro и выпустил Gemini 3, оба с значительным шумом. Сразу после блестящего приема релизов Google OpenAI объявила в компании «код красный».
Конкуренция, с которой OpenAI сталкивается со стороны Google и Anthropic, настолько велика, что даже генеральный директор Nvidia Дженсен Хуан, ключевой партнер, обеспокоен доминированием OpenAI на рынке, согласно отчету Wall Street Journal, опубликованному ранее в этом году. Если генератор изображений окажется успешным, это может помочь развеять некоторые из этих опасений.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ece Yildirim




