Хотите услышать только гитарный рифф из песни? А как насчет удаления шума поезда из голосовой записи? Meta заявляет, что ее новая модель SAM Audio может разделять и редактировать звуки с помощью простых подсказок, сокращая ручную работу, типичную для инструментов редактирования аудио.
Выпуск SAM Audio (Segment Anything Model) последовал за предыдущим выпуском моделей сегментации Meta для визуальных активов. Теперь Meta утверждает, что создала «первую унифицированную мультимодальную модель для разделения аудио» в SAM Audio, которая доступна сегодня на Playground Segment Anything компании, а также для загрузки.
Под «мультимодальной» Meta подразумевает способность SAM Audio интерпретировать три типа подсказок для сегментации аудио: текстовые подсказки, временные метки сегментов и визуальные выделения в видео, используемые для изоляции или удаления определенных звуков.
Возьмем, к примеру, видео группы, играющей на сцене, и выделим гитариста, чтобы SAM Audio автоматически изолировала этого исполнителя. Выделите звуковую волну лающей собаки на записи на открытом воздухе, скажите SAM удалить этот звук, и она сможет отследить и устранить эти помехи по всему файлу.
«SAM Audio надежно работает в разнообразных сценариях реального мира, используя текстовые, визуальные и временные сигналы», — говорится в сообщении Meta о SAM Audio. «Этот подход дает людям точный и интуитивно понятный контроль над тем, как разделяется аудио».
Компания заявила, что видит ряд вариантов использования SAM Audio, таких как очистка аудиофайлов, удаление фонового шума и другие задачи, которые ранее требовали ручной работы в программах для редактирования аудио или специализированных инструментах микширования звука.
Тем не менее, использование искусственного интеллекта для обработки аудио — это не совсем новая идея. Существует множество продуктов, которые делают то же, что и SAM Audio, но Meta описывает эту область как «фрагментированную», «с различными инструментами, предназначенными для решения конкретных задач», в отличие от так называемой унифицированной модели SAM Audio.
Учитывая способность изолировать определенные звуки на основе пользовательских подсказок, естественно могут возникнуть вопросы о безопасности такой модели и о том, может ли она использоваться для выделения голосов или разговоров в публичных записях, потенциально создавая новый канал для подслушивания. Мы изучили страницу Meta SAM Audio и связанную с ней научную работу, чтобы получить больше информации о функциях безопасности, встроенных в новую модель, но компания вообще не осветила этот вопрос.
На вопрос о безопасности Meta лишь заявила, что если что-то незаконно без использования ИИ, то не следует использовать ИИ для этого.
«Как указано в лицензии SAM, использование материалов SAM должно соответствовать применимым законам и нормативным актам, включая законы о торговом контроле и применимые законы о конфиденциальности и защите данных», — сообщил представитель Meta изданию The Register, намекая на то, что использование SAM Audio во зло вполне возможно.
С другой стороны, возможно, признание Meta того, что SAM Audio имеет «некоторые ограничения», означает, что она еще не готова для тех, кто хочет использовать ИИ для воссоздания современной версии «Разговора». Meta отмечает, что для SAM Audio по-прежнему «сложно» разделять «очень похожие аудиособытия», такие как выделение одного голоса среди многих или изоляция одного инструмента из оркестра. SAM Audio также не может выполнять разделение аудио без подсказки и не может принимать аудио в качестве подсказки, что означает, что передача ему звука, который вы хотите изолировать, по-прежнему выходит за рамки возможностей бота.
Одной из областей, где SAM Audio может быть полезен, является доступность, над которой Meta активно работает. Компания заявила, что сотрудничает с американским производителем слуховых аппаратов Starkey для изучения потенциальных интеграций, а также работает с 2gether-International, акселератором для основателей стартапов с ограниченными возможностями, для изучения дополнительных возможностей доступности, которые может предоставить SAM Audio. ®
Автор – Brandon Vigliarolo




