xAI 16 июня 2026 года перевела Grok Imagine Video 1.5 из предварительной версии в режим полной общедоступности, выпустив ее через API Imagine, на сайте grok.com и в приложениях платформы для iOS и Android. С этим любой разработчик или создатель, работающий над конвейерами ИИ-видео, теперь имеет четкий путь к получению модели с наивысшим рейтингом в независимом рейтинге Image-to-Video Arena по цене, на 86 процентов ниже, чем эквивалентный уровень Sora 2 Pro. Для команд, которые в настоящее время платят по тарифам OpenAI или Google за генерацию видео, эта арифметика доступна для применения уже сегодня.
Анонс сделан в переломный момент для рынка ИИ-видео. OpenAI прекратила работу над потребительским приложением Sora 26 апреля 2026 года, сославшись на неустойчивую экономику вычислительных ресурсов, и хотя API Sora 2 остается активным по устаревающему треку до 24 сентября 2026 года, OpenAI не анонсировала преемника видеопродукта. Google Veo 3.1 остается коммерчески доступным, но по тарифам, начинающимся от 9 долларов за минуту для уровня Fast и 24 долларов за минуту для вывода Quality — что значительно выше, чем ставка API Grok Imagine в 4,20 доллара за минуту для 720p. Запуск xAI заполняет конкурентное пространство, созданное этими уходами и ценовыми предложениями.
Позиция в рейтинге: что означает оценка Arena и что она не означает
Grok Imagine Video 1.5 в настоящее время занимает первую позицию в рейтинге Image-to-Video Arena — краудсорсинговой системе ранжирования, которая присваивает оценки с использованием метода Эло — того же подхода парного сравнения, который используется в шахматных рейтингах и адаптирован для бенчмаркинга ИИ. В слепых поединках пользователи видят результаты работы двух анонимных моделей и выбирают лучшую; эти предпочтения накапливаются в рейтинги Эло на основе миллионов сравнений. Модель продемонстрировала улучшение рейтинга Эло на +52 пункта по сравнению с Grok Imagine Video 1.0, что является одним из самых значительных приростов за одну версию, зарегистрированных в рейтинге, и в настоящее время превосходит Sora 2, Veo 3.1, Seedance 2.0 и Kling по этому показателю.
Важная оговорка: система Эло измеряет предпочтения пользователей на общем наборе запросов, а не на специализированных профессиональных рабочих нагрузках. Модель, занимающая первое место по средним человеческим предпочтениям, не обязательно будет оптимальной для каждого производственного сценария — особенно для тех, которые требуют точного покадрового управления, разрешений выше 720p или специфических отраслевых стандартов формата. Скачок Эло на +52 пункта является подлинным сигналом производительности и надежным индикатором общего качества, но не гарантией превосходства для каждого рабочего процесса.
Что на самом деле делает движок Aurora
Когерентность движения, которая принесла Grok Imagine Video 1.5 место в рейтинге, не случайна — это прямой результат лежащей в основе архитектуры Aurora, и понимание того, как работает Aurora, объясняет как то, почему модель работает именно так, так и то, где ее пределы являются архитектурными, а не временными.
Aurora — это авторегрессионный движок генерации видео с использованием смеси экспертов. В отличие от конкурентов на основе диффузии, таких как Sora, Runway и Kling — которые генерируют видео путем итеративного шумоподавления гауссова шума во всех кадрах одновременно — Aurora генерирует каждый кадр последовательно, при этом каждый кадр обусловлен всеми кадрами, которые ему предшествовали. Это тот же принцип, что лежит в основе больших языковых моделей, предсказывающих следующее слово: каждый новый шаг вывода информируется полной историей предыдущих выводов. Применительно к видео это означает, что панорамирование камеры, начатое на первом кадре, сохраняет свою траекторию до шестидесятого кадра, поскольку каждый промежуточный кадр генерировался с этой траекторией в качестве части своего контекста.
Результатом является определяющая возможность модели: движения камеры выполняются чисто, позиции объектов остаются стабильными на протяжении всего клипа, а переходы освещения согласованы, а не дрейфуют. Это те характеристики, которые доминируют в сбоях более ранних моделей ИИ-видео, где кадры могли казаться слабо связанными, поскольку каждый из них решался несколько независимо.
То же архитектурное решение объясняет и потолок в 720p. Масштабирование с 720p до 1080p умножает количество токенов пикселей, которые должен нести каждый кадр, а в последовательной архитектуре все эти токены должны обрабатываться по одному шагу за раз. При 1080p Aurora потребовалось бы обрабатывать примерно в 2,25 раза больше токенов на кадр, чем при 720p, и каждый дополнительный токен продлевает последовательную цепочку генерации — это не параллельная операция. Диффузионные модели, которые обрабатывают все кадры посредством пакетного шумоподавления, легче поглощают более высокое разрешение, поскольку параллелизм распределяет затраты. Последовательный дизайн Aurora обеспечивает временную когерентность; тот же дизайн делает вывод с высоким разрешением вычислительно дорогим таким образом, который его архитектура не может легко поглотить. xAI заявила, что режим Pro с более высоким разрешением находится в дорожной карте, но не назвала дату выпуска.
Ценообразование: коммерческая арифметика
Ценообразование API для Grok Imagine Video 1.5 составляет 0,08 доллара за секунду для вывода 480p и 0,14 доллара за секунду для 720p — или 4,20 доллара за минуту на уровне 720p. Сравнение уровней API ИИ-видео разительно: Sora 2 Pro на уровне 1024p с широкоэкранным форматом стоил 0,50 доллара за секунду, или 30 долларов за минуту, что делает Grok примерно на 86 процентов дешевле для сопоставимого вывода. Google Veo 3.1 Fast API стоит 0,15 доллара за секунду (9 долларов в минуту), а Veo 3.1 Quality — 0,40 доллара за секунду (24 доллара в минуту). Собственное синхронизированное аудио включено в каждую генерацию без дополнительной платы во всех уровнях Grok — что важно для расчета затрат, поскольку беззвучный клип не является готовым результатом, а отдельная генерация аудио добавляет инструменты и выставление счетов в производственный конвейер.
Для команды контента, генерирующей 100 минут ИИ-видео в месяц — репрезентативная рабочая нагрузка для среднего креативного студии — разница в ценах между Grok по тарифу API 720p и Sora 2 Pro по 1024p составляет примерно 2580 долларов экономии в месяц. Для команд, использующих Veo 3.1 Quality с сопоставимыми настройками, эквивалентная ежемесячная экономия составляет около 1980 долларов.
Потребительский доступ имеет другое ценообразование. SuperGrok за 30 долларов в месяц предоставляет более высокие лимиты генерации при 720p. Доступ на бесплатном уровне доступен на grok.com без подписки X Premium, хотя и с ограниченными квотами на генерацию.
Video 1.5 Fast: задержка как архитектура рабочего процесса
Наряду с запуском в общее пользование xAI выпустила Video 1.5 Fast — вариант, оптимизированный по скорости, который теперь доступен на grok.com и в приложениях для iOS и Android. Вариант Fast генерирует 6-секундный клип 720p примерно за 25 секунд — по сравнению с более чем 40 секундами в предыдущей модели, что составляет примерно 40-процентное улучшение. Для разработчиков, создающих конвейеры с чувствительностью к задержке или агентские рабочие процессы, где генерация видео является промежуточным шагом, а не конечным результатом, это выводит модель в диапазон, где итеративная генерация становится практичной в рамках рабочей сессии, а не фоновой задачей.
Стандартная строка API grok-imagine-video-1.5 и вариант Fast обслуживают разные производственные потребности. Стандартный выпуск API предназначен для интеграции в производственные конвейеры, где важна консистентность качества; вариант Fast оптимизирован для приложений реального времени и ориентированных на потребителя приложений, где воспринимаемая отзывчивость формирует опыт.
Что делает модель — и чего она не делает
Основной рабочий процесс Grok Imagine Video 1.5 — это преобразование изображения в видео: статичное изображение становится первым кадром, а затем промпт описывает движение. Модель сохраняет композицию исходного изображения, идентичность субъекта и освещение при анимации вперед. Преобразование текста в видео поддерживается в более широком наборе Grok Imagine.
Аудио генерируется в том же проходе вывода, что и видео — звуковые эффекты, фоновый шум, диалоги и синхронизированная речь создаются вместе с визуальным выводом, а не как отдельный шаг. Эта конструкция аудио в один проход является одним из самых явных отличий от конкурирующих моделей. Runway, Kling и прекратившая свое существование Sora требовали отдельной генерации аудио или постобработки для получения синхронизированного результата.
Потолок разрешения в 720p является самым жестким конкурентным ограничением. Sora 2 Pro могла выводить изображение в разрешении 1080p, а Seedance 2.0 генерирует до 1080p. Для социального контента, тестирования концепций и быстрого прототипирования разрешение 720p вряд ли станет барьером; для вещательных материалов или производственных работ, где клиенты требуют Full HD или выше, это является ограничением. Длительность клипа достигает 15 секунд на генерацию, при этом более длинные последовательности создаются путем объединения клипов с помощью функции Extend from Frame (Расширить с кадра), хотя тестирование сообществом выявило видимую деградацию качества после двух или трех последовательных расширений. Частота кадров фиксирована на уровне 24 кадра в секунду, что соответствует кинематографическим конвенциям, но уступает 60 кадрам в секунду, используемым в игровом контенте и некоторых форматах спортивного производства.
Функции рабочего процесса, выпускаемые одновременно с запуском
Запуск в общее пользование сопровождается инструментами рабочего процесса, которые, по утверждению xAI, будут разворачиваться в дни после выпуска. Projects (Проекты) добавляет уровень организации на основе боковой панели для группировки связанных генераций. Multi-agent execution (Многоагентное выполнение) позволяет нескольким запросам на генерацию выполняться параллельно в рамках одного проекта, вместо того чтобы ждать завершения каждого последовательно. Library search (Поиск по библиотеке) делает ранее сгенерированные изображения и видео находимыми без ручной прокрутки. Эти дополнения отражают сдвиг в том, как xAI позиционирует Grok Imagine: не как генератор одного промпта, а как постоянное творческое рабочее пространство для итеративного производства.
История модерации контента xAI с Grok Imagine
Любая оценка Grok Imagine Video 1.5 проводится в контексте истории модерации контента платформы. В конце декабря 2025 года и начале января 2026 года функция генерации изображений Grok Imagine использовалась в больших масштабах для создания неконсенсуального сексуализированного контента, включая изображения, по-видимому, изображающие несовершеннолетних. Впоследствии xAI столкнулась с федеральными исками и регуляторными расследованиями со стороны властей США, Европейского Союза, Великобритании и Канады, которые продолжаются. В январе 2026 года xAI ограничила доступ к генерации изображений платными подписчиками, усовершенствовала классификаторы контента и внедрила технические блокировки. Заявленная политика приемлемого использования xAI запрещает интимные изображения без согласия и сексуализированные изображения реальных людей.
Доступ для разработчиков
Полный API открыт для сторонних разработчиков и корпоративных создателей. Аутентификация использует стандартный ключ API xAI через клиент xai_sdk. Рабочий процесс “изображение в видео” принимает статичные изображения в качестве опорных кадров в форматах JPG, JPEG, PNG, WEBP, GIF и AVIF и анимирует их вперед; клипы могут быть расширены путем выбора последнего кадра завершенной генерации и продолжения с этой точки. Вывод осуществляется в формате H.264 MP4 при 24 кадрах в секунду в нескольких соотношениях сторон. Лимиты запросов составляют 60 запросов в минуту.
Часто задаваемые вопросы
Что такое Grok Imagine Video 1.5 и как он работает?
Grok Imagine Video 1.5 — это модель генерации ИИ-видео от xAI. Она принимает статичное изображение плюс текстовый промпт, описывающий движение, и создает видеоклип длительностью до 15 секунд с разрешением 480p или 720p, с синхронизированным аудио, генерируемым в том же проходе. Базовый движок Aurora — это авторегрессионная система, которая генерирует каждый видеокадр последовательно, обусловливая каждый новый кадр всеми предыдущими кадрами. Эта последовательная обработка обеспечивает стабильные движения камеры и постоянное позиционирование объектов, которыми известна модель.
Как Grok Imagine Video 1.5 сравнивается с Sora как генератор ИИ-видео?
Потребительское приложение Sora было прекращено 26 апреля 2026 года, а API Sora 2 будет выведен из эксплуатации 24 сентября 2026 года. Grok Imagine Video 1.5 в настоящее время лидирует в рейтинге Image-to-Video Arena по рейтингу Эло и стоит 4,20 доллара за минуту при 720p через API, по сравнению с 30 долларами за минуту за Sora 2 Pro на уровне 1024p с широкоэкранным форматом до того, как он был выведен из эксплуатации. Sora 2 Pro предлагала вывод до 1080p, что Grok Imagine в настоящее время не может сопоставить. Для большинства социальных материалов и прототипирования разница в разрешении управляема; для вещательных материалов или доставки в большом формате это реальное ограничение.
Почему Grok Imagine Video 1.5 ограничен разрешением 720p, в то время как конкуренты предлагают 1080p?
Потолок в 720p является архитектурным следствием авторегрессионного дизайна Aurora. Поскольку Aurora генерирует кадры последовательно — каждый обусловлен предыдущими кадрами — масштабирование до 1080p увеличивает количество токенов на кадр примерно в 2,25 раза и пропорционально удлиняет последовательную цепочку обработки. Диффузионные модели, такие как Sora и Runway, обрабатывают все кадры посредством параллельного шумоподавления, которое легче поглощает более высокое разрешение. Последовательный подход Aurora обеспечивает сильные стороны модели в плане временной когерентности; компромисс с разрешением — это плата за этот дизайн. xAI заявляет, что уровень с более высоким разрешением находится в дорожной карте, но не установила сроков.
Как создатели и разработчики могут получить доступ к Grok Imagine Video 1.5 бесплатно?
Доступ на бесплатном уровне доступен на grok.com/imagine без подписки X Premium, хотя и с квотами на генерацию. SuperGrok за 30 долларов в месяц предоставляет более высокие лимиты. Полный API доступен разработчикам с использованием ключа API xAI через клиент xai_sdk, с выставлением счетов за секунду сгенерированного видео по ставке 0,08 доллара за секунду для 480p и 0,14 доллара за секунду для 720p.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Jerry Owens




