Компания OpenAI, разработчик моделей и продуктов, связанных с ChatGPT, планирует анонсировать новую аудио-языковую модель в первом квартале 2026 года. Согласно отчету The Information, эта модель станет важным шагом на пути к созданию физического устройства на основе аудиоинтерфейса.
Ссылаясь на различные источники, знакомые с планами, включая нынешних и бывших сотрудников, The Information утверждает, что OpenAI объединила несколько команд из отделов инженерии, разработки продуктов и исследований в рамках одной инициативы, направленной на улучшение аудиомоделей. Исследователи компании считают, что эти модели отстают от моделей, используемых для письменного текста, как с точки зрения точности, так и скорости.
Также было замечено, что относительно немногие пользователи ChatGPT предпочитают голосовой интерфейс, большинство выбирает текстовый. Предполагается, что существенное улучшение аудиомоделей может изменить поведение пользователей в сторону голосовых интерфейсов, что позволит развертывать модели и продукты на более широком спектре устройств, например, в автомобилях.
OpenAI планирует выпустить ряд физических устройств в ближайшие годы, начиная с устройства, ориентированного на аудио. В компании обсуждались различные формы будущих устройств, включая умные колонки и очки, но акцент делается на аудиоинтерфейсах, а не на экранах.
Компания не одинока в этом стремлении. Ее конкуренты, включая Google, Meta, Amazon и других, все больше направляют свои усилия в области исследований и разработок на продукты и технологии, ориентированные на голосовые и аудиоинтерфейсы, такие как продвижение Meta в области умных очков.
Это, конечно, не первая подобная попытка; несколько лет назад был бум устройств с голосовыми помощниками Alexa, Google Assistant и (в меньшей степени) Siri. Эти помощники были относительно популярны среди некоторых групп пользователей — как правило, случайных потребителей технологий, а не хардкорных технологов.
Однако у этих устройств были существенные ограничения. Новые подходы, основанные на больших языковых моделях, могут открыть новые возможности (и риски).
Некоторые разработчики продуктов искусственного интеллекта, в том числе бывший руководитель отдела дизайна Apple Джони Айв, считают, что продукты с голосовым управлением, вероятно, вызывают меньшую зависимость, чем продукты на основе экранов, и называют это причиной разработки аудиоинтерфейсов, хотя они, как правило, не приводят надежных доказательств этого.
Ожидается, что первое физическое устройство OpenAI, ориентированное на аудио, будет выпущено примерно через год, но пока мало что известно о том, как оно будет выглядеть.
Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
8/9
Автор – Samuel Axon




