Alibaba Tongyi представляет Fun-CosyVoice3.5 и Fun-AudioGen-VD с генерацией голоса FreeStyle

Alibaba Tongyi Lab генерация голоса ии аудио pandaily.com

Alibaba Tongyi представила Fun-CosyVoice3.5 и Fun-AudioGen-VD, обеспечивающие клонирование голоса, управляемое естественным языком, и генерацию полностью иммерсивных аудиосцен. — pandaily.com

Команда Tongyi Lab компании Alibaba представила две новые модели — Fun-CosyVoice3.5 и Fun-AudioGen-VD, обе поддерживают генерацию голоса на основе инструкций в стиле «FreeStyle» с помощью команд на естественном языке.

По данным Alibaba Group, эти модели позволяют пользователям генерировать и контролировать голосовой вывод непосредственно через текстовые запросы — будь то точная настройка вокальной экспрессии или разработка совершенно новых тембров и звуковых ландшафтов с нуля. Хотя обе модели поддерживают синтез речи, управляемый естественным языком, они нацелены на разные сценарии использования: Fun-CosyVoice3.5 фокусируется на многоязычном клонировании голоса и тонком экспрессивном контроле, в то время как Fun-AudioGen-VD сосредоточена на дизайне голоса и генерации иммерсивного аудио, основанного на сценах.

Fun-CosyVoice3.5 является обновлением возможностей Instruct-TTS компании, позволяя пользователям свободно генерировать речь с помощью одного предложения инструкции. Пользователи могут описывать стиль исполнения на естественном языке — например, «звучать более решительно», «слегка понизить тон и замедлить темп» или «добавить тонкие эмоциональные вариации» — и модель интерпретирует и воспроизводит желаемый эффект.

Модель теперь поддерживает тайский, индонезийский, португальский и вьетнамский языки. Alibaba заявляет, что среди 13 языков Fun-CosyVoice3.5 сохраняет лидирующие в отрасли показатели по бенчмаркам Word Error Rate (WER) и speaker similarity (SpkSim). Она также была оптимизирована для редких символов и сложных предложений, снизив частоту неправильного произношения для необычных символов с 15,2% до 5,3%, при этом обеспечивая более стабильную производительность при работе с длинными текстами.

Alibaba Tongyi представляет Fun-CosyVoice3.5 и Fun-AudioGen-VD с генерацией голоса FreeStyle
Alibaba Tongyi представляет Fun-CosyVoice3.5 и Fun-AudioGen-VD с генерацией голоса FreeStyle
Alibaba Tongyi представляет Fun-CosyVoice3.5 и Fun-AudioGen-VD с генерацией голоса FreeStyle

Благодаря тонкой настройке на основе обучения с подкреплением модель улучшает общую естественность и экспрессивное наслоение. Что касается производительности, частота кадров токенизатора была снижена вдвое, а задержка первого пакета уменьшена на 35%, что обеспечивает более быстрые ответы и более плавный опыт в сценариях взаимодействия в реальном времени.

Тем временем Fun-AudioGen-VD позволяет пользователям генерировать не только голоса, но и полные звуковые сцены на основе описаний на естественном языке, интегрируя персонажа и окружение в единый вывод.

Модель поддерживает детальный контроль над:

  • Базовыми атрибутами: пол, возраст, акцент, высота тона, скорость речи
  • Качествами тембра: хриплый, яркий, глубокий, притягательный
  • Эмоциями: гнев, грусть, возбуждение, решимость
  • Симуляцией ролей: агент службы поддержки, ветеран, ребенок, ИИ-помощник, диктор
  • Сложными психологическими состояниями: нюансированные выражения, такие как «спокойный на поверхности, но дрожащий внутри»
Alibaba Tongyi представляет Fun-CosyVoice3.5 и Fun-AudioGen-VD с генерацией голоса FreeStyle

Помимо генерации голоса, Fun-AudioGen-VD может создавать иммерсивные звуковые среды, включая наложенный фоновый шум (городские улицы, кафе, поля сражений), эффекты пространственной реверберации (соборы, металлические камеры, подводная акустика), аудиофильтры в стиле устройств (винтажное радио, рация, дыхательная маска) и динамические взаимодействия с окружающей средой, такие как колеблющийся шум ветра или смещающиеся отголоски.

В совокупности эти две модели сигнализируют о продолжающихся усилиях Alibaba в области управляемой, высокоточной генерации речи и аудио, расширяя границы голосового взаимодействия на базе ИИ и создания иммерсивных медиа.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:

Похожие новости: