Возможно, Apple прибегла к помощи Google Gemini, чтобы компенсировать собственные недостатки в области ИИ, но это не остановило исследователей из купертинского гиганта от поиска новых способов сделать Siri заметно лучше.
Теперь новая исследовательская работа сотрудников Apple нацелена на получение более быстрых и естественных ответов от Siri.
Исследователи Apple нашли жизнеспособный путь к ускорению ответов Siri
ИИ-модели обычно генерируют речь на основе токенов или коротких фрагментов фонетических звуков, часто длительностью всего миллисекунды. Затем модель выбирает, какой фонетический звук (речевой токен) использовать в своих ответах, применяя авторегрессию. Однако такой подход вносит присущую задержку в ответ, а также иногда приводит к странному произношению, учитывая ограниченное количество фонетических фрагментов, использованных для обучения конкретной ИИ-модели.
В новом исследовании сотрудники Apple утверждают, что замена текущей системы сопоставления токенов на систему, использующую группы акустического сходства (ASG), может привести к более быстрым и естественным ответам Siri. ASG объединяют речевые токены на основе их акустического сходства, при этом неизбежно происходит частичное перекрытие между некоторыми ASG. Затем, применяя вероятностный поиск и авторегрессию в пределах ASG, ИИ-модель может гораздо быстрее прийти к наиболее подходящему речевому токену.
Хотя это исследование и не является революционным в каком-либо конкретном смысле, оно демонстрирует постоянное внимание Apple к улучшению собственных возможностей в области ИИ и машинного обучения. Эта работа также служит своего рода свидетельством общих амбиций Apple в конечном итоге внедрить целостное, специально разработанное ИИ-решение для своих устройств и отказаться от сторонних «костылей», таких как модели Google Gemini.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Rohail Saleem




