ИИ-модель Gemini Omni от Google обещает создавать «что угодно» из любого типа контента

Gemini Omni ии видео Google генерация Synthid gizmodo.com

Техногигант продвигает Omni как, по сути, Nano Banana для видео. Новая модель ИИ Gemini Omni от Google генерирует и редактирует видео по текстовым запросам, сохраняя реалистичность. — gizmodo.com

На своей ежегодной конференции для разработчиков I/O во вторник компания Google анонсировала Gemini Omni — новую модель ИИ, которая, по заявлению компании, способна «создавать что угодно из любых входных данных».

Компания сообщила, что на начальном этапе модель будет обладать только функциями генерации и редактирования видео. На своем веб-сайте Google предлагает рассматривать ее как «Nano Banana, но для видео», ссылаясь на модель для работы с изображениями, выпущенную компанией в прошлом году.

Gemini Omni Flash, первая модель в семействе Omni, может редактировать существующие видеоролики и генерировать новые по текстовым запросам на естественном языке. Она уже доступна для тестирования в приложении Gemini, студии Google Flow AI и на YouTube Shorts.

«С помощью Omni вы можете комбинировать изображения, аудио, видео и текст в качестве входных данных и генерировать высококачественные видеоролики, основанные на знаниях Gemini о реальном мире. Вы также можете легко редактировать свои видео посредством диалога», — написал технический директор Google DeepMind Корай Кавukcuoglu в посте в блоге.

Как и в случае с Nano Banana, пользователи могут вносить правки, которые наслаиваются друг на друга в ходе естественного диалога. Модель разработана таким образом, чтобы сохранять единообразие персонажей и окружения при редактировании, а также использовать свои знания о реальном мире, включая историю, биологию, физику и нарративную логику, для создания осмысленных клипов.

Компания опубликовала на своем веб-сайте несколько примеров того, что модель может делать на практике.

В одном из примеров Google начинает с видео, где мужчина касается зеркала. Затем модель создает несколько различных версий ролика на основе текстовых запросов, таких как «сделай так, чтобы зеркало красиво рябило, как жидкость» и «вся обстановка превращается в 3D-воксельное искусство», когда зеркало трогают.

Другой пример демонстрирует аудиовозможности модели. Видео синхронизирует огни в окнах многоквартирного дома с техно-треком.

Модель даже смогла создать короткое объясняющее видео в стиле клеймации о фолдинге белка.

Однако, как и в случае с другими моделями ИИ для работы с видео и изображениями, существуют очевидные опасения по поводу злоупотреблений, включая дипфейки и дезинформацию.

Google заявляет, что модель разрабатывалась с учетом мнения ее внутренних команд по безопасности и ответственности. Модель также прошла ряд оценок, включая тестирование со специалистами за пределами команды разработчиков, чтобы гарантировать соблюдение политик безопасности и достижение желаемых результатов. Перед выпуском также были проведены проверки этики и безопасности.

Кроме того, Google сообщает, что контент, созданный или отредактированный с помощью Omni, будет нести невидимый цифровой водяной знак SynthID, который призван упростить проверку того, был ли контент сгенерирован с использованием этой модели.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: