OpenAI устала смотреть, как люди высмеивают ее «Voice Mode»

Openai голосовые модели ии Gpt-5 транскрипция разработчики gizmodo.com

OpenAI представила три новые голосовые модели, чтобы исправить недостатки, высмеянные в вирусных видео. Смогут ли они решить проблему с таймером? Say what? — gizmodo.com

Ранее в этом году Сэм Альтман столкнулся лицом к лицу с видео, ставшем вирусным трендом: люди демонстрировали значительные недостатки голосовой модели OpenAI. Похоже, ему это не слишком понравилось, поскольку OpenAI предпринимает шаги, чтобы избавить Альтмана от будущих неловких ситуаций. В четверг компания анонсировала три новые голосовые модели, призванные открыть технологию для разработчиков, которые, возможно, смогут реализовать новаторские вещи, например, запрограммировать работающий таймер.

По заявлению компании, она выпускает GPT-Realtime-2 — свою первую голосовую модель с «рассуждениями класса GPT-5», которая, как утверждается, способна обрабатывать сложные запросы и лучше поддерживать диалог, чем ее предшественники. Она также представила GPT-Realtime-Translate, которая, по утверждению компании, может переводить речь с более чем 70 входных языков на 13 выходных, «успевая за говорящим». Последняя модель, GPT-Realtime-Whisper, предназначена для транскрипции речи в текст в режиме реального времени.

«Голос становится одним из самых естественных способов использования программного обеспечения», — говорится в заявлении компании. «Но создание полезных голосовых продуктов требует большего, чем просто быстрая смена реплик или естественное звучание голоса. Голосовой агент должен понимать, что имеет в виду пользователь, отслеживать контекст, восстанавливаться при изменении запроса, использовать инструменты во время продолжения разговора и отвечать так, чтобы это соответствовало моменту».

Проблемы, связанные с разработкой моделей ИИ, за последний год стали предметом множества мемов. Пользователь TikTok @huskistaken, известный как Хаск, возможно, является мастером этого жанра, регулярно указывая на недостатки предыдущих голосовых моделей OpenAI — хотя он делает это не как участник red team, предотвращающий попадание проблем в финальный продукт, а в основном побуждая OpenAI к изменениям через публичное смущение.

Одно из видео Хаска попало к Альтману ранее в этом году. Генеральному директору пришлось смотреть, как голосовая модель ChatGPT откровенно лжет о запуске таймера. Хаск просил модель замерить, сколько времени ему потребуется, чтобы пробежать милю, а затем немедленно заявлял, что закончил, но модель утверждала, что он пробежал милю за 10 минут. Альтман, явно раздраженный всей ситуацией, сказал, что «возможно, пройдет еще год, прежде чем нечто подобное будет работать хорошо».

Новые модели призваны ускорить решение этой озадачивающей проблемы. Согласно пресс-релизу OpenAI, новые релизы преуспевают в «преобразовании голоса в действие, где люди могут описать, что им нужно, а система может проанализировать запрос, использовать инструменты и выполнить задачу». Они приводят пример, когда просят Zillow «найти мне дома в пределах моего BuyAbility, избегая оживленных улиц, и запланировать просмотр на субботу». Это, безусловно, кажется немного более продвинутым, чем «запустить таймер», но логично предположить, что это подпадает под ту же функциональность.

Настоящим испытанием для новых моделей OpenAI станут джейлбрейкеры вроде Хаска. Ранее в этом году бывший основатель OpenAI Андрей Карпати утверждал, что люди просто не обновили свои априорные представления о моделях ИИ, которые, по его мнению, постоянно совершенствуются способами, не привлекающими такого внимания, как ошибки голосовой модели. Но эти видео не старые — Хаск регулярно публикует новые. Если он прекратит публиковать видео после выпуска этой новой модели, засчитайте это как победу для истинных верующих, таких как Карпати.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: