Google запускает ИИ-инструменты для работы с фото и видео: 4-секундная генерация изображений и редактирование видео через диалог

ии генерация медиа Nano Banana Gemini Omni Flash Api видеоредактирование techtimes.com

Google расширила возможности генерации изображений и видео 30 июня, выпустив Nano Banana 2 Lite — модель изображений за четыре секунды по цене $0,034 за изображение, предназначенную для крупномасштабных рабочих процессов, и Gemini Omni Flash — мультимодальный видеоинструмент, позволяющий разработчикам редактировать клипы посредством диалога на естественном языке по цене $0,10 за секунду.

Во вторник Google выпустила две модели генеративных медиа — Nano Banana 2 Lite для быстрого создания изображений и Gemini Omni Flash для диалогового редактирования видео, — предоставив разработчикам немедленный доступ к объединенному конвейеру преобразования «изображение в видео» по ценам, которые впервые делают крупномасштабное творческое производство коммерчески жизнеспособным. Nano Banana 2 Lite выдает результат преобразования текста в изображение за четыре секунды по цене 0,034 доллара за изображение; Gemini Omni Flash генерирует и редактирует видео посредством диалога на естественном языке по цене 0,10 доллара за секунду вывода. Обе модели доступны в Google AI Studio и через Gemini API с 30 июня 2026 года.

Двойной запуск наиболее важен как единый конвейер. Разработчики могут передавать изображение, сгенерированное Nano Banana 2 Lite, напрямую в Gemini Omni Flash для его анимации, а затем продолжать дорабатывать результат с помощью команд на простом языке — корректируя ракурсы камеры, меняя персонажей, переосвещая сцены — до трех последовательных правок в рамках одной сессии с использованием Interactions API от Google. Эта цепочка — то, что ни один предыдущий стек ИИ-медиа не предлагал по такой цене: высокоскоростной генератор изображений и контекстно-зависимый диалоговый видеоредактор, объединенные в единый рабочий процесс.

Nano Banana 2 Lite: Создана для объемов, а не для мастерства

Nano Banana 2 Lite, идентификатор модели gemini-3.1-flash-lite-image, является самой быстрой и самой дешевой моделью в четырехступенчатом семействе изображений Nano Banana от Google. Google позиционирует ее как прямой апгрейд оригинальной Nano Banana (gemini-2.5-flash-image), которая теперь является устаревшим уровнем в семействе. Новая модель создана для «быстрой генерации идей и высокоскоростных конвейеров разработчиков, где скорость и стоимость являются основными ограничениями», по заявлению Google.

Задержка в четыре секунды меняет расчеты в категории. Предыдущие генераторы изображений работали в таких временных рамках, которые выводили их за пределы интерактивных циклов — разработчик, тестирующий дюжину вариантов промптов, должен был ждать, обрабатывать результаты пакетом и вносить коррективы. При четырех секундах генерация изображений становится достаточно быстрой, чтобы встраивать ее в живой инструмент дизайна, конфигуратор электронной коммерции или потребительскую функцию, где пользователь ожидает результата. Логан Килпатрик, руководитель Google AI Studio и Gemini API, описал этот эффект как «волшебство» — когда генерация быстрее, чем процесс осмысления, авторы остаются в работе, а не прерывают поток в ожидании индикатора выполнения.

Несмотря на акцент на скорости, Google заявляет, что Nano Banana 2 Lite сохраняет надежное следование промпту, согласованное отображение персонажей при множественных генерациях и разборчивый текст внутри изображений — три возможности, наиболее критичные для рекламы и маркетинга. Идан Йонас, директор по ИИ-контенту и инновациям в Artlist, описал модель как инструмент, позволяющий творческому процессу, в котором «мысли почти мгновенно переходят в визуальный ряд». Итай Шифф, соучредитель и креативный директор Figma, заявил, что Nano Banana 2 Lite «идеальна для быстрой итерации с сохранением творческого потока».

Модель занимает пятое место в публичном рейтинге Arena по генерации изображений. Лидирует в этом рейтинге gpt-image-2 от OpenAI. MAI-Image-2.5 от Microsoft, анонсированная в мае, занимает четвертое место. Семейство Nano Banana теперь включает: Nano Banana 2 Lite (оптимизированная по скорости); Nano Banana 2, универсальный вариант; и Nano Banana Pro, предназначенная для сложных профессиональных задач, где точность важнее скорости.

Gemini Omni Flash: Почему диалоговое редактирование меняет рабочий процесс

Каждый крупный инструмент ИИ-видео, выпущенный до Gemini Omni Flash, работал по парадигме «генерация и экспорт»: пользователь отправляет промпт, модель рендерит клип, и если клипу требуются изменения, пользователь либо повторяет промпт с нуля, либо переходит к отдельному приложению для редактирования. Эта парадигма делает итерации с ИИ-видео дорогостоящими на практике, независимо от цены за секунду.

Gemini Omni Flash (gemini-omni-flash-preview) нарушает эту схему благодаря сочетанию архитектуры и дизайна API. Модель построена на мультимодальном механизме рассуждений Gemini — вместо того чтобы сшивать отдельные конвейеры для изображений, аудио и видео, она одновременно анализирует все типы входных данных и выдает унифицированный результат. Директор по управлению продуктами Google DeepMind Николь Брихтова описала это как «следующий шаг в прогрессии объединения интеллекта Gemini с возможностями рендеринга наших медиамоделей» — это явно не обновление Veo, а новая модель, которая объединяет рассуждение и рендеринг в одной системе.

Практическим результатом является Interactions API, который сохраняет историю сессии при последовательных правках. Разработчик может сгенерировать 10-секундный видеоклип на основе эталонного изображения, попросить модель скорректировать освещение и перерендерить, а затем попросить заменить фоновый элемент — и все это в рамках одной сессии, при этом модель сохраняет контекст каждого предыдущего шага. В текущей реализации лимит составляет три последовательных правки за сессию.

Gemini также вносит в процесс рендеринга знание о мире. Модель использует обучение Gemini в области истории, биологии, логики повествования и физики — включая аппроксимированное поведение гравитации и гидродинамики — для построения сцен, соответствующих ожиданиям реального мира, а не для генерации правдоподобного, но физически некогерентного движения.

Gemini Omni Flash стоит 0,10 доллара за секунду видеовывода, что соответствует цене Google Veo 3.1 Fast. Google явно разграничивает два продукта: Veo 3.1 превосходна для однократной генерации клипов высокого качества; Gemini Omni Flash разработана для итеративных диалоговых рабочих процессов, объединяющих несколько типов активов.

Конкурентный контекст заслуживает внимания. Seedance 2.5 от ByteDance, анонсированный 23 июня 2026 года, поддерживает клипы до 30 секунд, вывод в 4K и до 50 эталонных входов одновременно. Gemini Omni Flash в настоящее время ограничивает клипы 10 секундами. Google описывает это ограничение как решение, связанное с развертыванием, а не с ограничениями модели — способ расширить доступ, пока спрос на вычислительные мощности высок — и заявляет, что более длинные форматы появятся позже. Планируется выпуск более мощной модели Gemini Omni Pro, но дата ее выхода не подтверждена.

Что Gemini Omni Flash пока не умеет

Google открыто заявляет о текущих ограничениях Gemini Omni Flash в своей документации к запуску. Загрузка аудио-референсов пока не поддерживается в Gemini API. API-схема принимает видео-референсы длительностью до трех секунд, но в настоящее время модель обрабатывает их некорректно. Существуют задокументированные пробелы в согласованности персонажей при смене сцен и панорамировании. Google рекомендует рассматривать текущий релиз как инструмент прототипирования для разработчиков, а не как готовый к производству сервис.

Модель также отказывается генерировать или редактировать видео с именами или изображениями реальных людей. При получении такого запроса модель возвращает сообщение о блокировке ввода. Этот фильтр соответствует принципам ответственного ИИ Google и ограничивает риск дипфейков, хотя он также исключает некоторые законные творческие применения, такие как исторические реконструкции с участием названных лиц.

WPP, Adobe и Invideo интегрируются в день запуска

Корпоративное внедрение уже идет. WPP интегрировала Gemini Omni Flash в свою агентскую платформу WPP Open для обеспечения более контролируемого масштабируемого производства ИИ-контента для клиентов; команды тестируют локализацию активов, замену продуктов и динамическую смену стилей. Adobe объявила о планах по интеграции как Nano Banana 2 Lite, так и Gemini Omni Flash в Adobe Firefly. Мэтт Чотин, старший директор по продуктам Adobe, заявил, что эти две модели «развивают стратегию Adobe по предоставлению наших профессиональных инструментов и ведущих ИИ-моделей отрасли в связанном рабочем процессе, давая авторам гибкость и контроль над тем, как они воплощают свои творческие идеи в жизнь».

Платформа ИИ-видео Invideo сообщает, что возможности визуальных эффектов Gemini Omni Flash открывают перспективы для смешивания традиционных методов кинопроизводства с ИИ-генерируемыми эффектами в рамках одного продакшена.

Обе модели несут водяные знаки SynthID и поддерживают учетные данные контента C2PA, поэтому медиафайлы, сгенерированные ИИ, могут быть аутентифицированы и отслежены до их источника через приложение Gemini, Gemini в Chrome или Google Поиск.

Более широкий контекст: «ИИ-шлак» и поворот к предприятиям

Запуск происходит на фоне растущей негативной реакции на качество на рынке генеративных ИИ-изображений и видео. Исследование, проведенное в июне 2026 года, показало, что около 60 процентов видео в TikTok теперь классифицируются как контент, сгенерированный ИИ; термин «ИИ-шлак» (AI slop) вошел в повседневный лексикон для описания медиаматериала машинного производства, наводняющего социальные платформы. Google отреагировала, последовательно позиционируя Nano Banana 2 Lite и сопутствующие инструменты для рекламы и корпоративного использования, а не для потребительского творчества — стратегическое позиционирование, которое позволяет избежать части негативной реакции, хотя и не всей.

Отдельно, недавнее партнерство Google на сумму 75 миллионов долларов с независимой студией A24 вызвало критику со стороны творческих сообществ, обеспокоенных вторжением ИИ в профессиональное кинопроизводство. Эта сделка вызвала значительный отпор со стороны фанатов в сети.

Для разработчиков, оценивающих, подходит ли какая-либо из моделей для производственного конвейера, самым четким руководством является различие, проводимое самой Google: Nano Banana 2 Lite — это инструмент для генерации идей в больших объемах, созданный с упором на скорость, а не на мастерство; Gemini Omni Flash — это инструмент для диалоговой итерации, который все еще находится в публичном предварительном просмотре. Обе модели доступны немедленно по заявленным ценам, без списка ожидания для стандартного доступа разработчиков.


Часто задаваемые вопросы

Что такое Nano Banana 2 Lite и насколько она быстрая?

Nano Banana 2 Lite (gemini-3.1-flash-lite-image) — самая быстрая и самая дешевая модель Google для генерации изображений, способная выдавать результат преобразования текста в изображение примерно за четыре секунды по цене 0,034 доллара за изображение. Она является частью четырехступенчатого семейства Nano Banana от Google и предназначена для высокообъемных, чувствительных к задержкам конвейеров разработчиков. Она доступна в Google AI Studio, Gemini API и Gemini Enterprise Agent Platform, а также в потребительских интерфейсах, включая AI Mode в Поиске, приложение Gemini, NotebookLM, Google Фото и Google Рекламу.

Чем Gemini Omni Flash отличается от других ИИ-генераторов видео?

Большинство инструментов для ИИ-видео генерируют клип и требуют повторного промптинга с нуля, если пользователь хочет внести изменения. Gemini Omni Flash использует мультимодальный механизм рассуждений Gemini и Interactions API для поддержки контекстно-зависимого многоходового диалогового редактирования — пользователи могут описывать изменения на простом языке, и модель применяет их, сохраняя контекст предыдущих шагов. Это переводит ИИ-видео из инструмента однократной генерации в итеративный творческий рабочий процесс. Текущие ограничения включают ограничение клипов в 10 секунд, отсутствие загрузки аудио-референсов в API и сохраняющиеся проблемы с согласованностью персонажей при смене сцен.

Можно ли использовать Nano Banana 2 Lite и Gemini Omni Flash вместе?

Да — это предполагаемый сценарий использования Google. Разработчики могут сгенерировать изображение с помощью Nano Banana 2 Lite и передать его напрямую в Gemini Omni Flash в качестве эталона для анимации в видео. Затем Interactions API поддерживает до трех последовательных диалоговых правок в рамках одной сессии. Google выпустила три демонстрационных приложения, иллюстрирующих объединенный конвейер: Anywhere (фотографии пользователей помещаются в знаковые места и затем анимируются), Space Lift (интерьер комнаты перерабатывается в виде кинематографического видео) и Omni Product Studio (статичные изображения продуктов преобразуются в видео для электронной коммерции).

Каковы реальные инженерные компромиссы, стоящие за 4-секундной генерацией изображений?

Nano Banana 2 Lite достигает задержки в четыре секунды за счет оптимизации пропускной способности, а не точности — это явно модель с приоритетом скорости, а не качества. Google заявляет, что модель сохраняет надежное следование промпту, согласованность персонажей и разборчивый текст на изображении, несмотря на оптимизацию, но Nano Banana 2 и Nano Banana Pro остаются рекомендуемыми вариантами для задач, где приоритетом является визуальное качество или сложное профессиональное рассуждение. Увеличение скорости отражает сознательный компромисс между качеством и скоростью, а не бесплатное улучшение.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: