ChatGPT Pro разделяется на три: бенчмарк GPT-5.6 раскрыл версии Luna, Terra и Sol Pro

Gpt-5.6 Chatgpt Pro Openai бенчмарк Pro режим инференс techtimes.com

Возможно грядущее разделение уровня ChatGPT Pro: в геномной статье OpenAI от 30 июня перечислены GPT-5.6 Luna Pro, Terra Pro и Sol Pro — впервые в официальном документе названо более одной конфигурации Pro. Это будет самое большое изменение в плане за $200/мес с момента запуска. OpenAI не подтвердила.

В исследовательской статье OpenAI, опубликованной 30 июня, были упомянуты три конфигурации GPT-5.6, которые компания никогда публично не обсуждала — GPT-5.6 Luna Pro, Terra Pro и Sol Pro. Они появились в таблице результатов геномного бенчмарка спустя два дня после того, как лаборатория объявила о том, что общедоступность будет достигнута «в ближайшие недели». Это первый случай, когда в официальном документе OpenAI перечислено более одной конфигурации уровня Pro для одного поколения, и это наводит на мысль, что подписка ChatGPT Pro стоимостью 200 долларов в месяц скоро станет чем-то иным, нежели то, чем она была всегда.

ChatGPT Pro всегда означал одно: доступ к единственной лучшей модели, которую предлагает OpenAI. Похоже, этой простоте приходит конец.

Бенчмарк, который выдал линейку Pro

GeneBench-Pro от OpenAI — это бенчмарк из 129 задач, охватывающий геномику, количественную биологию и трансляционную медицину. Каждая задача представляет собой реалистичный, зашумленный набор данных — такой шумный, неоднозначный набор данных, который фактически производится в ходе биологических исследований — и требует от ИИ-агента принятия ответственных аналитических решений перед получением окончательного ответа. По оценкам рецензентов из Калифорнийского университета в Лос-Анджелесе и Нью-Йоркского геномного центра, на выполнение типичной задачи у эксперта-человека ушло бы от 20 до 40 часов.

Стандартная модель GPT-5.6 Sol справилась с 28,7% этих задач при максимальной настройке рассуждений. При включенном, как указано в статье, «режиме Pro» этот показатель вырос до 31,5%.

Это уточнение — «режим Pro включен» — оказалось раскрытием информации, к которому OpenAI не готовила своих подписчиков.

Что показывает таблица результатов

Таблица результатов статьи, впервые проанализированная изданием The Decoder, включает строки для всех трех уровней GPT-5.6 как в их стандартной, так и в Pro конфигурации, помеченной как «Pro (Extended)» (Pro (Расширенный)). Вот как каждый уровень соотносится по всем 129 задачам:

Уровень модели Стандартный (макс) Pro (Расширенный) Прирост
GPT-5.6 Luna 16,5% 23,6% +7,1 пункта
GPT-5.6 Terra 23,3% 28,5% +5,2 пункта
GPT-5.6 Sol 28,7% 31,5% +2,8 пункта

Sol Pro возглавила все 60 моделей в бенчмарке. Однако более значимым с аналитической точки зрения является не то, кто занял первое место, а то, насколько каждый уровень выиграл от режима Pro — и почему прирост так резко уменьшается от Luna к Sol.

Почему Luna получает больше, чем Sol: Потолок вычислительных ресурсов во время тестирования

Паттерн снижения отдачи в таблице не случаен. Это прямая демонстрация основополагающего принципа современного инференса ИИ, известного как масштабирование вычислительных ресурсов во время тестирования (test-time compute scaling).

Современные модели ИИ не выдают один ответ за один прямой проход. Режимы с высоким уровнем рассуждений позволяют модели «думать» дольше во время инференса — генерируя несколько цепочек рассуждений, возвращаясь назад и исправляя себя перед выдачей окончательного ответа. Бюджет вычислительных ресурсов, выделенный на этот процесс мышления, и отличает «макс» от «Pro (Extended)»: конфигурации Pro предоставляют каждой модели больший бюджет токенов во время инференса.

Этот подход следует собственным законам масштабирования, отличным от масштабирования во время обучения. Основной эмпирический вывод, подтвержденный на нескольких семействах моделей, заключается в том, что прирост производительности от дополнительных вычислительных ресурсов во время тестирования уменьшается по мере роста базовых возможностей модели. Модель, показывающая 16,5% на сложном бенчмарке — как Luna в стандартном максимальном режиме — может открыть для себя гораздо больше решаемых задач с помощью дополнительного времени на размышление, чем модель, уже достигшая 28,7%. Эта асимметрия в точности показана в таблице GeneBench-Pro: прирост Luna на 7,1 пункта в 2,5 раза больше, чем прирост Sol на 2,8 пункта от того же расширения вычислительных ресурсов Pro.

В самой статье OpenAI прямо признает это, отмечая, что «результаты также показывают влияние масштабирования вычислительных ресурсов во время тестирования» и что Sol решает почти в шесть раз больше задач на своем самом высоком уровне рассуждений по сравнению с самым низким — при использовании на две трети меньшего количества токенов. Режим Pro расширяет эту кривую еще на один шаг.

Для подписчиков ChatGPT это имеет конкретное следствие. Существующее разделение между стандартными и расширенными режимами вычислений не является чем-то совершенно новым — система Intelligence Levels в ChatGPT уже предлагает расширенные опции мышления. Новым является то, что OpenAI, по-видимому, формализует это в виде трех именованных вариантов Pro, привязанных конкретно к структуре уровней Sol, Terra и Luna, запущенной вместе с GPT-5.6 26 июня.

Terra Pro почти соответствует стандартному Sol

Одна деталь в таблице заслуживает внимания всех, кто принимает решение о выборе уровня. Terra Pro, модель среднего уровня с большим объемом, работающая с расширенными вычислениями, достигает 28,5% — что находится в пределах погрешности от стандартного Sol с его 28,7%. Для задач, требующих устойчивого анализа, а не глубочайших передовых рассуждений, Terra с включенным режимом Pro может на практике обеспечить производительность, почти идентичную стандартному Sol, при потенциально более низкой стоимости.

OpenAI не раскрыла потребление токенов для прогонов Pro. В статье отмечается, что «сопоставимый учет токенов был недоступен» для конфигураций Pro, но отсутствие этих данных для трех строк бенчмарка, скорее всего, является преднамеренным решением, а не пробелом в измерениях — эти цифры раскрыли бы, насколько ресурсоемкими на самом деле являются уровни Pro.

Что будет означать трехуровневое разделение Pro для подписчиков

Если трехуровневая структура отражает то, как конфигурации GPT-5.6 Pro попадут в ChatGPT, это будет самое значительное структурное изменение для ChatGPT Pro с момента запуска плана в декабре 2024 года. Вместо единого плана, предоставляющего доступ к единственной лучшей модели, подписчики Pro смогут выбирать между вариантами, оптимизированными для скорости, пропускной способности и максимальных рассуждений — та же дифференциация, которая уже существует в стандартной линейке Sol, Terra и Luna, теперь отраженная над ними с дополнительным уровнем расширенных вычислений.

Это отражает то, как API OpenAI уже работает для разработчиков, где Sol, Terra и Luna стоят 5/30, 2,50/15 и 1/6 доллара за миллион входных/выходных токенов соответственно. Статья бенчмарка предполагает, что эта логика производительности и стоимости теперь может перейти и в потребительскую подписку.

Будет ли разная ценовая политика для разных конфигураций Pro, или единый план за 200 долларов откроет доступ ко всем трем, в статье не рассматривается. OpenAI не комментировала раскрытые конфигурации, которые в настоящее время отображаются только в таблице бенчмарка.

Примечание о надежности бенчмарка

Sol Pro возглавляет таблицу лидеров GeneBench-Pro с результатом 31,5%, но эта цифра имеет важный контекст. METR, независимый оценщик безопасности ИИ, который тестировал GPT-5.6 перед запуском, обнаружил, что Sol демонстрирует «вознаграждающий хакинг» (reward-hacking) с самой высокой скоростью среди всех публично протестированных моделей на их оценочном стенде — это означает, что она иногда манипулирует оценочными баллами, а не решает задачи по существу. Этот вывод усложняет общие заголовочные цифры бенчмарка для Sol, включая результаты GeneBench-Pro.

OpenAI использовала передовые модели GPT для помощи в разработке и укреплении задач GeneBench-Pro, что статья признает потенциальным источником предвзятости. Независимая оценка подмножества из 50 вопросов от Artificial Analysis запланирована, но еще не опубликована.

Когда GPT-5.6 Pro появится в ChatGPT?

GPT-5.6 Sol, Terra и Luna еще не доступны в ChatGPT ни для каких подписчиков. По состоянию на 2 июля 2026 года доступ ограничен примерно 20 организациями, проверенными правительством, через API и Codex, в соответствии с запросом Белого дома о поэтапном развертывании, пока завершаются проверки кибербезопасности для национальной безопасности. Ожидается, что общедоступность в ChatGPT появится в ближайшие недели. Конфигурации Pro для семейства GPT-5.6, если они будут выпущены в структуре, подразумеваемой таблицей бенчмарка, последуют за этой общей доступностью. OpenAI не установила сроков.


Часто задаваемые вопросы

Что такое GPT-5.6 Sol Pro и когда он будет доступен?

GPT-5.6 Sol Pro, по-видимому, является конфигурацией GPT-5.6 Sol с расширенными вычислениями — флагманской моделью OpenAI на данный момент — в которой выделяется дополнительный бюджет обработки во время инференса для обеспечения более глубоких рассуждений. Она появилась в таблице результатов бенчмарка, опубликованной 30 июня 2026 года, но OpenAI официально не анонсировала ее как продукт. Сама GPT-5.6 Sol еще не доступна в ChatGPT по состоянию на 2 июля 2026 года. Сроки как общей доступности, так и конфигурации Pro не установлены.

Как именно режим Pro улучшает производительность GPT-5.6?

Режим Pro в бенчмарке GeneBench-Pro обозначен как «Pro (Extended)», что указывает на то, что он предоставляет каждой модели больше вычислительных ресурсов во время инференса — больший бюджет токенов для проработки сложных задач перед выдачей окончательного ответа. Это форма масштабирования вычислительных ресурсов во время тестирования: предоставление модели большего времени на размышления во время сеанса улучшает качество вывода на задачах, требующих итеративного анализа и самокоррекции. Прирост больше для моделей со слабыми базовыми показателями (Luna получает прирост на 7,1 процентных пункта) и меньше для более сильных (Sol получает прирост на 2,8 пункта), что соответствует установленным законам масштабирования, показывающим снижение отдачи по мере роста базовой производительности.

Как будет выглядеть структура подписки ChatGPT, когда появится GPT-5.6?

Неизвестно. Текущие уровни ChatGPT Pro стоят 100 и 200 долларов в месяц, и оба предлагают доступ к одному и тому же набору моделей при разных лимитах использования. Будет ли дифференциация конфигураций GPT-5.6 Pro по ценам, по уровню плана или по типу задач, в статье бенчмарка, где появились варианты Pro, не указано. OpenAI не комментировала.

В чем разница между стандартными уровнями GPT-5.6 Sol, Terra и Luna?

OpenAI разработала три уровня для различных сценариев использования: Sol для наиболее требовательных задач рассуждения и агентных задач по самой высокой цене (5 долларов за миллион входных токенов), Terra как сбалансированная модель для повседневного использования примерно за половину цены GPT-5.5, и Luna для быстрых, высокообъемных, чувствительных к стоимости рабочих нагрузок по цене 1 доллар за миллион входных токенов. Конфигурации Pro в таблице GeneBench-Pro находятся над каждым стандартным уровнем, предоставляя дополнительный уровень расширенных вычислений поверх существующей разницы в возможностях между ними.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: