AethexAI, стартап, основанный в прошлом году для устранения этого разрыва, привлек $3 млн начального финансирования под руководством 4DX Ventures при участии Enza Capital, Dorm Room Fund, Mojo Ventures и Stanford GSB 26 Fund. Среди частных инвесторов — преподаватели Стэнфорда, руководители телекоммуникационных компаний и исследователи ИИ из Anthropic.
Вместо использования существующих инструментов оркестровки, таких как Vapi и LiveKit, компания с нуля разработала собственную небольшую модель и уровень оркестровки для работы с диалектами английского, французского и арабского языков, на которых говорят на целевых рынках, — решение, продиктованное, как мы увидим далее, специфическими требованиями работы в регионе.
Компания также запускает свою платформу для предприятий, чтобы они могли опробовать ее технологии и подписаться на ее услуги, а также предоставляет API и SDK для разработчиков, чтобы они могли экспериментировать с ее моделями.
Стартап был основан Мариам Диало и Аюолувой Одемуивой. Генеральный директор Диало работала в Goldman Sachs, а затем присоединилась к ModelML, поддерживаемой YC, в качестве специалиста по продукту и росту. Технический директор Одемуива окончил Калтех, работал в Meta* и поступил в Стэнфордскую высшую школу бизнеса перед тем, как стать соучредителем компании. Пара хотела создать что-то для развивающихся рынков и начала искать возможности.
Предприятия по всему миру стремятся внедрять инструменты ИИ для автоматизации частей своих операций. Но это не всегда срабатывает. В Египте колл-центр автоматизировал значительную долю своих звонков, но отказался от системы из-за плохих результатов, как выяснили основатели. Несколько центров поддержки в Африке сообщили им, что поиск и наем инженеров для автоматизации звонков по приемлемой цене является постоянной головной болью.
«Задержка и джиттер, которые мы наблюдали в автоматизированных звонках в этом регионе, были возмутительными. Если бы мы стали оркестраторами, нам, возможно, пришлось бы использовать большие модели, размещенные за пределами региона, что привело бы к увеличению задержки. Мы поняли, что для того, чтобы это сработало, мы должны использовать очень маленькие модели и сокращать задержку на каждом этапе», — рассказал Одемуива TechCrunch о решении создать собственные модели и уровень оркестровки компании.
ИИ-лаборатории, развертывающие свои новейшие модели, обычно тратят миллионы на их обучение и сбор данных. AethexAI нашла решение для обеих задач. Вместо того чтобы гнаться за максимально большими моделями, компания решила, что небольших моделей достаточно для решения проблемы задержки при сохранении точности, и разработала собственную серию Kora с параметрами от 300 миллионов до 1,7 миллиарда. Это доля от размера LLM, что, собственно, и является целью.
Для обучения этих моделей стартап использовал анонимизированные записи от партнера-колл-центра. Он также отправлял жесткие диски на радиостанции по всей Африке для сбора дополнительных аудиоданных. Чтобы снизить затраты, компания создала сеть студентов университетов-участников для аннотирования данных и произношения местных имен. В результате, по данным стартапа, он обрабатывает более 17 000 звонков в день.
В деловом плане компания тщательно проводит клиентов, новых для голосового ИИ, через весь процесс, предлагая демонстрации на месте и семинары, чтобы помочь им определить наилучшие варианты использования для автоматизации.
«Мы всегда говорим клиентам, что пока не можем быть всем для всех. Мы маленькие. Когда мы начинаем разговаривать с компанией, мы просим их выбрать один вариант использования, который для них наиболее важен, чтобы начать [работу]», — сказала Диало.
Стартап открыт для работы во всех отраслях, но на данный момент значительная часть вариантов использования связана с звонками по взысканию долгов, активации клиентов или KYC — верификации «Знай своего клиента», стандартной процедуры проверки личности, используемой банками и телекоммуникационными компаниями. Компания нанимает инженеров по развертыванию на контрактной основе для обслуживания местных рынков и выстраивает партнерские отношения с телекоммуникационными провайдерами для обработки телефонии для звонков с использованием голосового ИИ. Решения типа «включай и работай», по ее словам, здесь просто не сработают.
Уолтер Баду, соучредитель и управляющий партнер 4DX Ventures, утверждает, что рынок Африки и Ближнего Востока принципиально отличается от рынков, для которых создано большинство компаний, занимающихся голосовым ИИ.
«Предприятия в Африке и на Ближнем Востоке обрабатывают примерно в три раза больший объем звонков, чем их западные коллеги, поскольку голос по-прежнему является доминирующим каналом взаимодействия с клиентами», — сказал он. «Существующие системы были построены для западных рынков, характеризующихся высококлассной инфраструктурой GPU, стандартной английской и европейской речевой средой, а также корпоративными рабочими процессами, распространенными в США и Европе. Это создает реальные пробелы, когда предприятиям нужны системы, способные обрабатывать диалекты, переключение кодов и неформальные речевые паттерны, и которые работают в рамках их существующей телефонной инфраструктуры и их реальных ценовых точек».
Иными словами, в то время как такие компании, как ElevenLabs, Deepgram, Sierra и Cognigy, быстро расширяются по всему миру, рынки, для которых они были созданы, и рынки, на которые они выходят, не всегда совпадают. Стартапы вроде AethexAI делают ставку на то, что эти пробелы — модели, специализирующиеся на местных диалектах, партнерства на местах, инфраструктура, построенная для региона, — представляют собой рыночную возможность, которую гиганты не имеют ни стимула, ни архитектуры для устранения.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ivan Mehta




