Лаборатория Tongyi компании Alibaba представила PrismAudio — новую структуру для генерации аудио из видео, ориентированную на синтез звуков окружающей среды, таких как шаги, ветер, дождь и металлические удары, которые точно соответствуют визуальному контенту, а не на создание диалогов или закадрового голоса.
PrismAudio — это первая структура, которая тесно интегрирует обучение с подкреплением с рассуждениями по цепочке мыслей (chain-of-thought reasoning) для генерации аудиоокружения. По сути, модель обучается «думать, прежде чем говорить», руководствуясь четырьмя различными механизмами оценки.
Система «Четырех Учителей» для Генерации Аудио
PrismAudio оценивает сгенерированное аудио с помощью четырех специализированных «учителей», каждый из которых отвечает за отдельное измерение:
- Семантическое соответствие: Гарантирует, что звук соответствует визуальному контенту (например, стук копыт лошади против пения птиц)
- Временная синхронизация: Проверяет точное совпадение по времени между звуком и движением
- Эстетическое качество: Оценивает чистоту, насыщенность и общее впечатление от прослушивания
- Пространственная точность: Проверяет, соответствует ли направление звука положению объектов на экране
Каждое измерение оценивается независимо с использованием специализированных моделей, включая MS-CLAP, Synchformer, Meta* Audiobox Aesthetics и StereoCRW. Эти оценки объединяются в единый сигнал вознаграждения, что позволяет системе сбалансировать несколько целей, а не чрезмерно оптимизировать один показатель.
«Сначала Думай, Потом Генерируй»
В отличие от традиционных моделей сквозного преобразования (end-to-end), которые напрямую преобразуют видео в аудио, PrismAudio вводит промежуточный этап рассуждения. Прежде чем генерировать звук, модель создает структурированные «заметки», описывающие:
- Какие звуки должны присутствовать
- Когда они должны начинаться и заканчиваться
- Их последовательность и тайминг
- Акустические характеристики (например, резкий против глубокого, близкий против далекого)
- Пространственное расположение и движение
Эти заметки формируют пошаговый план действий, гарантируя, что модель генерирует аудио на основе явных рассуждений, а не неявных догадок.
Ускоренное Обучение с Помощью Обучения с Подкреплением
Чтобы решить проблему высокой вычислительной стоимости обучения диффузионных моделей с использованием обучения с подкреплением, лаборатория Tongyi разработала оптимизированный подход к обучению под названием Fast-GRPO. Ограничивая случайную выборку только критическими этапами процесса генерации, этот метод значительно повышает эффективность.
Экспериментальные результаты показывают, что Fast-GRPO достигает той же производительности всего за 200 шагов, на которые традиционным методам требуется 600 шагов.
Легковесность и Высокая Производительность
Имея всего 518 миллионов параметров, PrismAudio относительно легковесен по сравнению с моделями с миллиардами параметров. Он может генерировать 9 секунд аудио всего за 0,63 секунды, предлагая практический баланс между производительностью и эффективностью.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




