«После стольких лет работы над текстовым переводом голосовой перевод стал для нас естественным шагом», — заявил генеральный директор DeepL Ярек Кутыловски в интервью TechCrunch. «Мы прошли долгий путь в области перевода текстов и документов. Но мы считали, что на рынке нет качественного продукта для голосового перевода в реальном времени».
Кутыловски отметил, что основные сложности при создании продукта для перевода в реальном времени заключаются в поиске баланса между снижением задержки — времени между тем, как кто-то заговорил, и воспроизведением переведенного аудио — и сохранением точности результатов.
DeepL выпускает надстройки для таких платформ, как Zoom и Microsoft Teams, где слушатели могут либо слышать перевод в реальном времени, пока другие говорят на родных языках, либо следить за переведенным текстом на экране в реальном времени. Эта программа в настоящее время находится на стадии раннего доступа, и компания приглашает организации присоединиться к листу ожидания. У компании также есть продукт для личных и удаленных бесед через мобильные устройства и веб-интерфейс.
DeepL также позволяет пользователям участвовать в групповых беседах в таких условиях, как учебные сессии или семинары, предоставляя участникам возможность присоединиться по QR-коду.
DeepL заявляет, что ее технология преобразования голоса в голос также может обучаться и адаптироваться к пользовательской лексике, такой как отраслевые термины, а также имена компаний и личные имена.
Кутыловски считает, что искусственный интеллект коренным образом меняет облик клиентского обслуживания в ближайшие годы. Он отметил, что уровень перевода помогает компаниям оказывать поддержку на языках, где квалифицированный персонал встречается редко и его дорого нанимать.
Компания сообщила, что полностью контролирует весь стек голосового перевода. Однако текущая система преобразует речь в текст, применяет перевод, а затем преобразует его обратно в речь. DeepL полагает, что, поскольку она годами работала над текстовым переводом, у нее есть преимущество в качестве перевода. В будущем компания планирует разработать сквозную модель голосового перевода, которая полностью исключит этап работы с текстом.
DeepL сталкивается с конкуренцией со стороны нескольких хорошо финансируемых стартапов, работающих в смежных областях. Sanas, которая в прошлом году привлекла 65 миллионов долларов от Quadrille Capital и Teleperformance, использует ИИ для изменения акцента говорящего в реальном времени — инструмент, нацеленный в первую очередь на сотрудников колл-центров.
Camb.AI из Дубая фокусируется на синтезе речи и переводе для медиа- и развлекательных компаний, помогая Amazon Web Services дублировать и локализовать видеоконтент в больших масштабах.
Palabra, поддерживаемая фирмой Seven Seven Six соучредителя Reddit Алексиса Оганяна, создает движок для перевода речи в реальном времени, предназначенный для сохранения как смысла, так и оригинального голоса говорящего, что ставит ее в более прямую конкуренцию с тем, что сейчас разрабатывает DeepL.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ivan Mehta




