Следом за Seedance 2.0, еще одна китайская модель видео с полным модальным входом в топ-2 искусственного анализа

Kunlun Tech Skyreels-V4 ии видео мультимодальность pandaily.com

SkyReels-V4 от Kunlun Tech заняла второе место в мировом рейтинге T2V по версии Artificial Analysis, став первой в мире видео-фундаментальной моделью с поддержкой мультимодального ввода, совместной аудио-видео генерации и унифицированного редактирования. — pandaily.com

27 февраля 2026 года компания Kunlun Tech официально представила свою мультимодальную видео-фундаментальную модель SkyReels-V4. Модель поддерживает разрешение до 1080p, частоту кадров 32 FPS и вывод кинематографического качества длительностью до 15 секунд, обеспечивая точную синхронизацию аудио и видео, при этом всесторонне охватывая сквозной рабочий процесс создания видео — от зарождения концепции до детального редактирования.

Согласно последним результатам стандартизированного тестирования, опубликованным независимой аналитической фирмой Artificial Analysis, SkyReels-V4 заняла второе место в мировом рейтинге активных моделей для генерации видео по тексту (T2V, включая аудио) и четвертое место в глобальном историческом сводном списке всех T2V-моделей. Ее производительность превзошла такие актуальные модели, как Veo 3.1, Sora 2, Vidu Q3 и Wan 2.6.

SkyReels-V4 поддерживает ввод данных из нескольких модальностей, включая текст, изображения и видео, становясь первой в мире видео-фундаментальной моделью, которая одновременно поддерживает мультимодальный ввод, совместную генерацию аудио и видео, а также унифицированные задачи генерации и редактирования. Ключевым преимуществом модели является «полномодальное реферирование», позволяющее бесшовно принимать богатые инструкции, такие как текст, изображения, видеофрагменты, маски и аудио-референсы. Создателям больше не нужно переключаться между несколькими инструментами; они могут завершить сквозное создание — от концепции до профессионального синхронизированного аудио-видео вывода — в рамках одной сети.

С точки зрения технической архитектуры, SkyReels-V4 использует симметричную двухпоточную архитектуру MMDiT, достигая глубокого сцепления признаков между аудио и видео посредством механизмов двунаправленного перекрестного внимания. Для решения проблемы различия временных разрешений между аудио и видео команда внедрила технологию масштабирования частоты с помощью ротационного позиционного кодирования RoPE, гарантируя, что обе модальности взаимодействуют друг с другом в соответствии с одним и тем же временным ритмом. Система также использует унифицированный фреймворк конкатенации каналов, упрощая различные сложные операции редактирования до задач inpainting при определенных конфигурациях масок, и вводит обучаемый механизм разреженного внимания к видео (VSA), сокращая затраты на вычисления внимания примерно в три раза без ущерба для качества.

Команда Kunlun Tech применила многоступенчатую прогрессивную парадигму обучения, начиная с базового предварительного обучения text-to-image с разрешением 256px и постепенно расширяясь до смешанного обучения с несколькими разрешениями: 480px, 720px и 1080p. На заключительном этапе тонкой настройки под надзором использовалось 5 миллионов записей мультимодальных видеоданных в сочетании с 1 миллионом вручную отобранных высококачественных видео для финальной доработки.

В рамках всей экосистемы искусственного интеллекта Kunlun Tech сформировано четыре основных семейства моделей: большие модели серии Skywork, музыкальные и аудиомодели Mureka, видеомодели SkyReels и игровые мировые модели Matrix. Недавно выпущенная SkyReels-V4 заполняет ключевой элемент в этой экосистеме для полномодального производства аудиовизуального контента, с планами поддержки генерации видео длительностью более 60 секунд, интерактивного редактирования в реальном времени и открытого API с синергией всей линейки продуктов в будущем.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: