Компания OpenAI анонсировала три новые модели для работы с аудио в реальном времени, предназначенные для разработчиков, создающих голосовые приложения и агентов через ее API. Новые модели получили названия GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Эти модели обеспечивают более естественное голосовое взаимодействие, живой перевод и транскрипцию речи в текст с низкой задержкой.
GPT-Realtime-2 является самой важной моделью в этом выпуске. Она создана для голосового взаимодействия в реальном времени, где модель может обрабатывать запросы, вызывать инструменты, исправлять ошибки и продолжать разговор естественным образом. GPT-Realtime-2 включает следующие новые возможности для голосовых агентов:
- Преамбулы: Модель может произносить короткие фразы, такие как «позвольте мне проверить», перед выполнением задачи.
- Параллельные вызовы инструментов: Она может вызывать несколько инструментов одновременно, информируя пользователя.
- Улучшенное восстановление: Модель более корректно реагирует на сбои вместо того, чтобы молча завершать работу.
- Более длинный контекст: OpenAI увеличила контекстное окно с 32K до 128K.
- Улучшенное понимание предметной области: Модель лучше запоминает специализированные термины, имена собственные и лексику, связанную со здравоохранением.
- Контроль тона: Она может изменять стиль речи в зависимости от ситуации.
- Регулируемое усилие рассуждения: Разработчики могут выбирать между минимальным, низким, средним, высоким и очень высоким уровнями рассуждения.
Улучшения в этой новой модели очевидны по результатам бенчмарков. GPT-Realtime-2 с высоким уровнем рассуждения набрала 96,6% в Big Bench Audio по сравнению с 81,4% у GPT-Realtime-1.5. GPT-Realtime-2 с очень высоким уровнем рассуждения набрала 48,5% в Audio MultiChallenge по следованию инструкциям по сравнению с 34,7% у GPT-Realtime-1.5.
Новая модель GPT-Realtime-Translate разработана для многоязычного голосового взаимодействия в реальном времени. Она может переводить речь более чем с 70 входных языков на 13 выходных языков. OpenAI утверждает, что эта модель сохраняет смысл, поспевая за говорящим, даже когда пользователи меняют контекст, используют региональные произношения или говорят со специфической для предметной области лексикой.
Новая модель GPT-Realtime-Whisper — это потоковая модель транскрипции, созданная для преобразования речи в текст с низкой задержкой. Она транскрибирует аудио во время речи, что может быть полезно для субтитров в реальном времени, заметок со встреч, стенограмм лекций и многого другого.
Все три модели теперь доступны через Realtime API. GPT-Realtime-2 стоит 32 доллара за 1 миллион токенов аудиовхода, 0,40 доллара за 1 миллион кэшированных входных токенов и 64 доллара за 1 миллион токенов аудиовыхода. GPT-Realtime-Translate стоит 0,034 доллара в минуту, а GPT-Realtime-Whisper — 0,017 доллара в минуту. Разработчики могут опробовать новые голосовые модели в реальном времени в Playground. Что касается обычных пользователей, OpenAI все еще работает над улучшением голосового опыта в ChatGPT.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pradeep Viswanathan




