Команда Qwen от Alibaba выпустила Qwen3.5-Omni — полномасштабную мультимодальную большую модель, поддерживающую ввод и вывод текста, изображений, аудио и видео.
Модель доступна в вариантах Plus, Flash и Light, поддерживает контекстное окно длиной 256 тыс. токенов и способна обрабатывать более 10 часов аудио и свыше 400 секунд видео с разрешением 720p.
Обученная на крупномасштабных мультимодальных наборах данных, включающих более 100 миллионов часов аудио и видео, модель демонстрирует интегрированные возможности восприятия и генерации.
По сравнению с предыдущими версиями Qwen3.5-Omni значительно улучшила многоязычную производительность, поддерживая распознавание речи на 113 языках и диалектах и генерацию речи на 36 языках. Она также предлагает функции взаимодействия в реальном времени, такие как семантическое прерывание, клонирование голоса и голосовое управление, усиленные технологией ARIA от Alibaba для более стабильного и естественного вывода речи.
Модель достигла 215 передовых (SOTA) результатов в различных тестах по аудио, аудиовизуальному пониманию, распознаванию речи, переводу и диалоговым задачам. Ее общие аудиовизуальные возможности сопоставимы с Google Gemini 3.1 Pro, при этом она превосходит его в общих аудиозадачах.
В настоящее время Qwen3.5-Omni доступна через Offline API и Realtime API.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




