Сегодня на своей конференции для разработчиков Google I/O компания сделала конкретный шаг к этой цели, представив Gemini Omni — новое семейство мультимодальных моделей, которые, по словам генерального директора Google Сундара Пичаи, смогут «создавать что угодно из любых входных данных».
Omni начнет с видео. Пользователи теперь могут комбинировать изображения, аудио, видео и текст, и вместо простого сшивания этих входных данных Omni анализирует их все вместе для получения согласованного результата. Результатом являются высококачественные видеоролики, отражающие понимание физики, культуры, истории и науки.
Omni также позволяет пользователям редактировать фотографии с помощью простых текстовых команд вместо сложного программного обеспечения для редактирования, подобно Google Nano Banana.
У Google уже есть специализированная видеомодель Veo, которая позволяет пользователям превращать текст и изображения в видео, а также управлять аватарами и настраивать их. Но директор по управлению продуктами Google DeepMind Николь Брихтова заявляет, что сегодняшний релиз — это больше, чем просто обновление Veo: «Это следующий шаг в развитии объединения интеллекта Gemini с возможностями рендеринга наших медиамоделей».
Один из примеров, который Корай Кавукчуоглу, главный технолог DeepMind, привел журналистам во время брифинга для СМИ в понедельник: когда Omni получила простой запрос вроде «объяснение сворачивания белка в технике пластилиновой анимации», она быстро отрендерила видео в стиле покадровой анимации с голосовым сопровождением, в котором говорилось: «Белки начинаются как цепочки аминокислот. Они сворачиваются в такие структуры, как альфа-спираль, и плоские участки, называемые бета-листами, образуя идеальную трехмерную форму».
Долгосрочное видение Omni шире и предполагает использование модели для таких задач, как генерация изображений из аудио или аудио из видео.
«Когда мы впервые анонсировали Gemini, это была наша первая нативно мультимодальная модель ИИ», — сказал Пичаи во время брифинга. «Мы знали, что обучение ее на комбинации текста, кода, аудио, изображений и видео даст ей более глубокое понимание мира. С мировыми моделями ИИ переходит от предсказания текста к симуляции реальности. Gemini Omni — это следующий шаг в этом направлении».
В рамках релиза пользователи также смогут создавать видео со своими цифровыми аватарами — то, что OpenAI популяризировала в своем ныне закрытом приложении Sora с помощью Cameos. Чтобы предотвратить дипфейки, пользователям придется пройти специальную процедуру онбординга продукта, которая включает запись себя и произнесение ряда чисел, по словам Брихтовой. Затем аватар сохраняется для будущего использования.
Кроме того, все видео, созданные с помощью Omni, будут включать цифровой водяной знак SynthID от Google, который позволяет пользователям проверять, были ли видео сгенерированы через продукты Gemini.
Первая модель в семействе — Gemini Omni Flash, которая будет запущена сегодня в приложении Gemini, YouTube Shorts и креативной студии AI Flow. Flash сможет рендерить 10 секунд видео, что, по словам Брихтовой, является не ограничением модели, а решением, основанным как на желании предоставить ее большему числу пользователей, так и на предположении, что большинство пользователей пока не захотят создавать более длинные видео. Однако более длительные видеоролики запланированы на ближайшее будущее.
Google, похоже, позиционирует Omni Flash скорее как потребительский инструмент. Примеры использования цифровых аватаров, которые Брихтова и Гейб Барт-Марон, инженер-исследователь DeepMind, привели во время звонка с TechCrunch, были исключительно личными: создание видео, где вы получаете награду или отправляетесь на Луну, или удаление прохожего с заднего плана видео, снятого в отпуске.
Барт-Марон выразился проще: «Это похоже на персонализированные мемы».
«Мы определенно сосредоточились на том, чтобы сделать этот инструмент простым в использовании для потребителей», — сказала Брихтова. «Немногие видеомодели смогли преодолеть этот барьер среди потребителей, поэтому это наша попытка сделать это».
Простота использования имеет оговорку: Брихтова и Барт-Марон отметили, что подсказки для редактирования должны быть очень специфичными, иначе Omni рискует чрезмерно отредактировать или непреднамеренно изменить элементы, которые пользователь хотел сохранить — проблема, с которой могли столкнуться пользователи Nano Banana.

Несмотря на краткосрочную ориентацию на потребителей, корпоративные и творческие перспективы Omni очевидны, и Google предоставит Omni через API в ближайшие недели. Инструмент для генерации аватаров — функция, доступная сегодня в Shorts, — по мнению Google, будет востребован создателями контента. Но в более широком смысле, сквозной мультимодальный рабочий процесс может стать преобразующим для рекламодателей и кинематографистов.
Стартап Luma AI создает нечто похожее — агентский инструмент, который может генерировать целую рекламную кампанию на основе краткого описания и изображения продукта, используя собственную «унифицированную» модель.
«Мы на самом деле очень гордимся возможностями модели по рендерингу текста, что очень полезно для таких вещей, как реклама», — сказала Брихтова. «Если вам нужно разместить продукт где-то или даже просто слоган, это должно быть точно… Мы определенно ожидаем, что кинематографисты и другие типы создателей также будут использовать эту модель».
Более профессиональные варианты использования могут быть лучше обслужены моделью Omni Pro, которая должна лучше справляться со всеми задачами Omni. Google пока не сообщила, когда выпустит Pro, но Брихтова сказала, что это произойдет, когда «мы почувствуем, что достигли точки, когда у нас будет скачок выше Flash».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Rebecca Bellan




