На своей ежегодной конференции для разработчиков I/O во вторник компания Google анонсировала Gemini Omni — новую модель ИИ, которая, по заявлению компании, способна «создавать что угодно из любых входных данных».
Компания сообщила, что на начальном этапе модель будет обладать только функциями генерации и редактирования видео. На своем веб-сайте Google предлагает рассматривать ее как «Nano Banana, но для видео», ссылаясь на модель для работы с изображениями, выпущенную компанией в прошлом году.
Gemini Omni Flash, первая модель в семействе Omni, может редактировать существующие видеоролики и генерировать новые по текстовым запросам на естественном языке. Она уже доступна для тестирования в приложении Gemini, студии Google Flow AI и на YouTube Shorts.
«С помощью Omni вы можете комбинировать изображения, аудио, видео и текст в качестве входных данных и генерировать высококачественные видеоролики, основанные на знаниях Gemini о реальном мире. Вы также можете легко редактировать свои видео посредством диалога», — написал технический директор Google DeepMind Корай Кавukcuoglu в посте в блоге.
Как и в случае с Nano Banana, пользователи могут вносить правки, которые наслаиваются друг на друга в ходе естественного диалога. Модель разработана таким образом, чтобы сохранять единообразие персонажей и окружения при редактировании, а также использовать свои знания о реальном мире, включая историю, биологию, физику и нарративную логику, для создания осмысленных клипов.
Компания опубликовала на своем веб-сайте несколько примеров того, что модель может делать на практике.
В одном из примеров Google начинает с видео, где мужчина касается зеркала. Затем модель создает несколько различных версий ролика на основе текстовых запросов, таких как «сделай так, чтобы зеркало красиво рябило, как жидкость» и «вся обстановка превращается в 3D-воксельное искусство», когда зеркало трогают.
Другой пример демонстрирует аудиовозможности модели. Видео синхронизирует огни в окнах многоквартирного дома с техно-треком.
Модель даже смогла создать короткое объясняющее видео в стиле клеймации о фолдинге белка.
Однако, как и в случае с другими моделями ИИ для работы с видео и изображениями, существуют очевидные опасения по поводу злоупотреблений, включая дипфейки и дезинформацию.
Google заявляет, что модель разрабатывалась с учетом мнения ее внутренних команд по безопасности и ответственности. Модель также прошла ряд оценок, включая тестирование со специалистами за пределами команды разработчиков, чтобы гарантировать соблюдение политик безопасности и достижение желаемых результатов. Перед выпуском также были проведены проверки этики и безопасности.
Кроме того, Google сообщает, что контент, созданный или отредактированный с помощью Omni, будет нести невидимый цифровой водяной знак SynthID, который призван упростить проверку того, был ли контент сгенерирован с использованием этой модели.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Bruce Gil




