OpenAI внедрила новые функции голосового интеллекта в свой API

Openai Gpt голосовые модели Api перевод транскрипция techcrunch.com

Новые функции могут быть полезны для систем обслуживания клиентов, но OpenAI заявляет, что они применимы в самых разных областях, включая образование и платформы для авторов. — techcrunch.com

Новая модель компании GPT‑Realtime‑2 — это еще одна голосовая модель, созданная для реалистичной вокальной симуляции, способной вести диалог с пользователями. Однако, в отличие от своего предшественника (GPT-Realtime-1.5), эта модель построена на логических возможностях класса GPT‑5, которые, по заявлению OpenAI, были разработаны для обработки более сложных запросов пользователей.

Компания также запускает GPT‑Realtime‑Translate, которая, как следует из названия, предназначена для предоставления услуг синхронного перевода, способного «успевать» за пользователем в ходе беседы. Эта функция поддерживает более 70 входных языков (то есть языков, которые она может понимать) и 13 выходных языков (языков, на которые она переводит для говорящего).

Наконец, компания представила новую функцию транскрипции — GPT-Realtime-Whisper, которая предоставляет пользователям возможности преобразования речи в текст в режиме реального времени по мере возникновения взаимодействий.

«В совокупности модели, которые мы запускаем, выводят аудио в реальном времени из простого формата «вопрос-ответ» в голосовые интерфейсы, которые действительно могут выполнять работу: слушать, рассуждать, переводить, транскрибировать и действовать по мере развития разговора», — заявила компания.

Кому будут полезны эти обновления? Очевидной целью являются компании, стремящиеся расширить возможности обслуживания клиентов. Однако OpenAI отмечает, что новые функции помогут и в широком спектре других областей, включая образование, медиа, мероприятия и платформы для авторов контента, среди прочего.

Какими бы полезными ни казались эти инструменты с точки зрения бизнеса, вполне вероятно, что они могут быть использованы не по назначению. Компания заявила, что внедрила механизмы защиты, чтобы предотвратить злоупотребление новыми функциями для создания спама, мошенничества или других форм онлайн-злоупотреблений. В систему встроены определенные триггеры, чтобы «разговоры могли быть прерваны, если будет обнаружено, что они нарушают наши руководящие принципы в отношении вредоносного контента», — сообщила OpenAI.

Все новые голосовые модели включены в Realtime API от OpenAI. Translate и Whisper тарифицируются за минуту, в то время как GPT-Realtime-2 тарифицируется на основе потребления токенов.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: