Tongyi Lab компании Alibaba представила MAI-UI с открытым исходным кодом — фреймворк GUI-агента. Опубликованы научная статья, код и полноразмерные модели (2B/8B/32B/235B-A22B), охватывающие развертывание от периферии до облака, обеспечивая взаимодействие между приложениями и защищенные конфиденциальностью взаимодействия для AI-терминалов.
MAI-UI преодолевает традиционные ограничения GUI-агентов, активно запрашивая у пользователей недостающие детали и вызывая внешние API для оптимизации операций, таких как интеграция Amap API для сравнения маршрутов или GitHub API для извлечения коммитов и отправки по электронной почте, без ручного переключения между приложениями. Инновационная система “конец-облако” динамически назначает задачи: операции, чувствительные к конфиденциальности, остаются локальными, сложные передаются в облако, что повышает показатель успешности 2B edge-модели на 33% и снижает количество обращений к облаку более чем на 40%, при этом более 40% задач обрабатываются локально для эффективности и безопасности.
Выдающиеся показатели производительности устанавливают отраслевые рекорды: 76,7% успешных навигаций по телефону AndroidWorld (превосходит Gemini-2.5-Pro), 91,3% точности на MMBench GUI L2 и 73,5% точности позиционирования элементов ScreenSpot-Pro, что значительно превосходит конкурентов. Даже самая маленькая 2B edge-модель достигает 49,1% успеха в навигации, что на 75% лучше, чем у традиционных edge-моделей.
MAI-UI теперь полностью открыт на GitHub и arXiv, что позволяет разработчикам развертывать и ускорять человекоподобные взаимодействия на AI-телефонах и смарт-устройствах.
Источник: QbitAI
Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
8/7
Автор – Pandaily




