От моделей к рабочим процессам: обзор генераторов изображений и видео за первую половину 2026 года

ии-генерация видео изображения мультимодальность Bytedance Midjourney pandaily.com

Комплексный обзор моделей генерации изображений и видео за первое полугодие 2026 года от Midjourney, Google, ByteDance, Kuaishou, Zhipu AI, Tencent и других.

Первое полугодие 2026 года стало переломным для ИИ-генерации изображений и видео: крупные релизы как от мировых, так и от китайских игроков кардинально изменили конкурентный ландшафт. От специализированной аниме-модели от Midjourney до прорывного Seedance 2.0 от ByteDance, индустрия вышла за рамки простого создания контента, переходя к комплексным рабочим процессам.

Январь начался с выпуска Midjourney Niji 7, который принес улучшенную детализацию и лучшую консистентность в аниме-стиле, хотя рендеринг текста оставался слабым местом. Google обновила Veo 3.1, добавив функцию Ingredients to Video, которая позволяет использовать эталонные изображения для управления персонажами, фонами, объектами и текстурами, при этом поддерживая нативное вертикальное разрешение до 4K. Zhipu AI выпустила в открытый доступ GLM-Image — гибридную архитектуру на 16B, сочетающую 9B авторегрессионных и 7B диффузионных компонентов для улучшения рендеринга текста. Luma AI представила Ray 3.14 с нативным выводом 1080p, обеспечивая генерацию в 4 раза быстрее при втрое меньшей стоимости. Tencent запустила HunyuanImage-3.0 в вариантах Instruct и Distil; дистиллированная версия сократила шаги сэмплирования для более эффективного развертывания, хотя и ценой значительного потребления памяти.

Февраль прошел под доминированием китайских разработчиков. Kuaishou выпустила Kling AI 3.0 с генерацией изображений в 2K и 4K, улучшенным контролем видеоповествования и многокадровой консистентностью с нативным звуком. Alibaba представила Qwen-Image-2.0 с поддержкой инструкций до 1K токенов, ориентированную на контент с большим количеством текста, такой как PPT, постеры и инфографика, с сильным многоязычным рендерингом текста. Команда Seed от ByteDance анонсировала Seedance 2.0 — унифицированную мультимодальную архитектуру для генерации аудио и видео, поддерживающую текстовые, графические, аудио- и видеовходы с использованием до 9 эталонных изображений, 3 видеоклипов и 3 аудиоклипов для создания многокадрового аудиовизуального вывода продолжительностью до 15 секунд. Модель продемонстрировала поразительные возможности в области физики движения и кинематографического языка, но немедленно вызвала споры о соблюдении авторских прав и интеллектуальной собственности.

Период с марта по июнь ознаменовался дальнейшей эволюцией. ByteDance выпустила Seedream 5.0 Lite, делая акцент на более глубоком «мышлении» для более точной генерации с улучшением поиска в реальном времени. Google позиционировала Nano Banana 2 как более быструю и дешевую альтернативу версии Pro. SkyReels-V4 от Kunlun заняла второе место в мировых рейтингах text-to-video без поддержки звука. Seedance RL от ByteDance появилась как модель для генерации видео с элементами рассуждения, использующая обучение с подкреплением для улучшения качества действий. Xiaomi запустила MiaoMi для AI-комиксов. Claude Mythos 5 от Anthropic продемонстрировала выдающуюся кинематографическую генерацию с сохранением консистентности персонажей между сценами. Kling AI запустила свой API-маркетплейс. Alibaba Cloud выпустила Happy Horse 1.1, нацеленный на качество коротких драм и рекламы. На протяжении всего периода индустрия демонстрировала четкую тенденцию: модели трансформируются из автономных инструментов генерации в интегрированные платформы рабочих процессов, поддерживающие мультиреференсные входы, нативный звук и точный контроль движения на всем конвейере производства контента.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: