Сегодня Google анонсировала две новые модели генерации медиаконтента для разработчиков и потребителей: Nano Banana 2 Lite и Gemini Omni Flash.
В прошлом году Google представила Nano Banana (Gemini 2.5 Flash Image) — модель для генерации и редактирования изображений, которая на тот момент была передовой по ряду ключевых тестов в области генерации ИИ-изображений. Позднее, в декабре, Google анонсировала Gemini 3 Pro Image (под кодовым названием Nano Banana Pro) с еще более широкими возможностями. В феврале этого года Google представила Nano Banana 2 (Gemini 3.1 Flash Image) — передовую модель для работы с изображениями, способную выдавать изображения уровня Nano Banana Pro со скоростью Nano Banana.
Сегодня Google анонсировала Nano Banana 2 Lite — свою новейшую модель генерации изображений, разработанную с акцентом на скорость, низкую стоимость и высокообъемные рабочие процессы. По словам Google, модель может генерировать изображения по текстовому описанию примерно за четыре секунды, а стоимость составляет всего $0,034 за изображение с разрешением 1K.
Разработчики могут получить доступ к этой модели через Google AI Studio, Gemini API и Gemini Enterprise Agent Platform. Новая модель указана как gemini-3.1-flash-lite-image, и ее можно рассматривать как прямую замену оригинальной модели Nano Banana (gemini-2.5-flash-image). Обычные пользователи могут получить доступ к этой модели через AI Mode в Поиске, приложение Gemini, NotebookLM, Google Photos, Stitch, Google Flow и Google Ads.
В мае команда Microsoft AI анонсировала MAI-Image-2.5 — свою новейшую модель преобразования текста в изображение, которая сейчас занимает четвертое место в последнем рейтинге Arena по генерации текста в изображение. Модель gpt-image-2 от OpenAI по-прежнему лидирует с результатом 1388. Новая модель Nano Banana 2 Lite на данный момент занимает 5-е место в рейтинге.
Наряду с новой Nano Banana 2 Lite, Google впервые предоставляет разработчикам доступ к Gemini Omni Flash. Модель, указанная как gemini-omni-flash-preview, поддерживает генерацию видео и диалоговое редактирование видео с использованием текстовых, графических и видеовходов. Она уже доступна в публичной предварительной версии через Google AI Studio, Gemini API и Gemini Enterprise Agent Platform. Она также доступна в приложении Gemini и Google Flow для широкого круга потребителей.
Стоимость Gemini Omni Flash составляет $0,10 за секунду видеовывода, что соответствует Veo 3.1 Fast. Google заявляет, что модель поддерживает редактирование видео с помощью естественного языка, мультимодальные ссылки, знание реального мира и синхронизацию текста или графики с действиями на экране.
Google также отметила некоторые ограничения этой новой модели Omni. Gemini Omni Flash в настоящее время поддерживает генерацию видео продолжительностью только до 10 секунд, более длительные ролики появятся позже. Аудиоссылки и расширение сцены пока не поддерживаются в Gemini API. Google также указывает, что хотя API-схема принимает видеоссылки продолжительностью до трех секунд, модель пока не обрабатывает их корректно.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pradeep Viswanathan




