Google представляет Gemini 3.5 Live Translate для мгновенного голосового перевода в реальном времени

Google Gemini перевод ии Live Translate Api arstechnica.com

Голосовые переводы сохраняют тон, темп, высоту голоса говорящего — с водяными знаками SynthID для безопасности. Google расширяет доступность Gemini 3.5 Live Translate. — arstechnica.com

Компания Google годами работала над синхронным переводом, который, по ее словам, стал одним из ее «пионерских экспериментов в области машинного обучения». Мы видели многочисленные демонстрации на сцене мероприятий Google в прошлом, но для этого требовались телефоны Google, наушники или какая-то другая специфическая настройка. В прошлом году Google предоставила доступ к синхронному переводу большему числу пользователей в приложении Translate, а теперь расширяет его доступность еще шире. С выпуском Gemini 3.5 Live Translate вы получите доступ к мгновенному переводу в большем количестве мест и с более низкой задержкой, чем когда-либо прежде.

Новая модель ИИ является частью семейства версий 3.5, которое было представлено на I/O. До сегодняшнего дня Google развернула только версию Flash, но в ближайшие недели мы ожидаем выхода модели Pro. Gemini 3.5 Live Translate — это модель преобразования речи в речь, настроенная на автоматическое обнаружение и перевод более чем на 70 языках.

Google заявляет, что Gemini 3.5 Live Translate достаточно быстра, чтобы успевать за обычной беседой, отставая от говорящего всего на несколько секунд, при этом сохраняя интонацию, темп и высоту голоса. Короче говоря, голос звучит больше как ваш собственный, чем как уgeneric робота. Демонстрации, которые записываются в контролируемых условиях, действительно впечатляют. Однако вам не придется долго ждать, чтобы самостоятельно убедиться в возможностях модели.

Gemini 3.5 Live Translate развертывается в нескольких частях экосистемы Google. Разработчики могут начать создавать приложения с использованием общедоступной предварительной версии в Gemini Live API или AI Studio. Модель непрерывно обрабатывает речь и автоматически обрабатывает все многоязычные входные данные, избавляя разработчиков от необходимости вручную настраивать параметры. Она также отфильтровывает фоновый шум в оживленных местах.

,

Избранные корпоративные клиенты также получат доступ к новой модели перевода в Google Meet начиная с этого месяца в преддверии более широкого развертывания. Google заявляет, что настраивает интерфейс Meet, чтобы вывести функцию синхронного перевода на передний план. Что наиболее важно, 3.5 Live Translate скоро появится в приложении Google Translate как на Android, так и на iOS.

В конце прошлого года Google начала тестирование синхронного перевода на базе Gemini в приложении с любыми наушниками (и в приложении для iOS); ранее для этого требовались фирменные Pixel Buds с телефоном на Android. Предстоящее обновление расширит возможности за счет добавления новейшей модели 3.5. Вы сможете использовать не только любые наушники, но и вообще обходиться без них. Если у вас нет наушников под рукой, вы можете поднести телефон к уху, как при обычном звонке, чтобы услышать голосовой перевод. Однако этот «режим прослушивания» пока работает только на Android.

Аудиопотоки Gemini 3.5 Live Translate призваны звучать естественно, даже если они не в точности имитируют голос пользователя. Тем не менее Google продолжает действовать осторожно. Все аудиопотоки Gemini 3.5 Live Translate будут содержать водяные знаки SynthID, интегрированные в данные волновой формы. Это будет помечать речь как сгенерированную ИИ, и удалить этот знак (в настоящее время) невозможно.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: