Лаборатория Alibaba Tongyi представила PrismAudio — фреймворк для генерации звука по видео

Pandaily

25.03.2026

PrismAudio от Alibaba представляет ИИ с принципом «думай, прежде чем генерировать» для создания идеально синхронизированного звукового окружения из видео. — pandaily.com

Лаборатория Tongyi компании Alibaba представила PrismAudio — новую структуру для генерации аудио из видео, ориентированную на синтез звуков окружающей среды, таких как шаги, ветер, дождь и металлические удары, которые точно соответствуют визуальному контенту, а не на создание диалогов или закадрового голоса.

PrismAudio — это первая структура, которая тесно интегрирует обучение с подкреплением с рассуждениями по цепочке мыслей (chain-of-thought reasoning) для генерации аудиоокружения. По сути, модель обучается «думать, прежде чем говорить», руководствуясь четырьмя различными механизмами оценки.

Система «Четырех Учителей» для Генерации Аудио

PrismAudio оценивает сгенерированное аудио с помощью четырех специализированных «учителей», каждый из которых отвечает за отдельное измерение:

Семантическое соответствие: Гарантирует, что звук соответствует визуальному контенту (например, стук копыт лошади против пения птиц)
Временная синхронизация: Проверяет точное совпадение по времени между звуком и движением
Эстетическое качество: Оценивает чистоту, насыщенность и общее впечатление от прослушивания
Пространственная точность: Проверяет, соответствует ли направление звука положению объектов на экране

Каждое измерение оценивается независимо с использованием специализированных моделей, включая MS-CLAP, Synchformer, Meta* Audiobox Aesthetics и StereoCRW. Эти оценки объединяются в единый сигнал вознаграждения, что позволяет системе сбалансировать несколько целей, а не чрезмерно оптимизировать один показатель.

«Сначала Думай, Потом Генерируй»

В отличие от традиционных моделей сквозного преобразования (end-to-end), которые напрямую преобразуют видео в аудио, PrismAudio вводит промежуточный этап рассуждения. Прежде чем генерировать звук, модель создает структурированные «заметки», описывающие:

Какие звуки должны присутствовать
Когда они должны начинаться и заканчиваться
Их последовательность и тайминг
Акустические характеристики (например, резкий против глубокого, близкий против далекого)
Пространственное расположение и движение

Эти заметки формируют пошаговый план действий, гарантируя, что модель генерирует аудио на основе явных рассуждений, а не неявных догадок.

Ускоренное Обучение с Помощью Обучения с Подкреплением

Чтобы решить проблему высокой вычислительной стоимости обучения диффузионных моделей с использованием обучения с подкреплением, лаборатория Tongyi разработала оптимизированный подход к обучению под названием Fast-GRPO. Ограничивая случайную выборку только критическими этапами процесса генерации, этот метод значительно повышает эффективность.

Экспериментальные результаты показывают, что Fast-GRPO достигает той же производительности всего за 200 шагов, на которые традиционным методам требуется 600 шагов.

Легковесность и Высокая Производительность

Имея всего 518 миллионов параметров, PrismAudio относительно легковесен по сравнению с моделями с миллиардами параметров. Он может генерировать 9 секунд аудио всего за 0,63 секунды, предлагая практический баланс между производительностью и эффективностью.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи