Компания Alibaba во вторник объявила о выпуске серии Qwen-Robot — своего первого семейства моделей воплощенного искусственного интеллекта, что знаменует собой крупный прорыв в области физического интеллекта, напрямую связывающего большие языковые модели с роботизированными действиями в реальном мире.
Пакет Qwen-Robot включает три отдельные модели, каждая из которых нацелена на различный уровень физического интеллекта. Qwen-RobotNav отвечает за визуально-языковую навигацию, объединяя выполнение инструкций, навигацию по точкам и целям, отслеживание объектов и автономное вождение в единую модель, обученную на 15,6 миллионах образцов. Qwen-RobotManip занимается роботизированной манипуляцией с помощью архитектуры визуально-языковых действий, построенной на основе Qwen3.5-4B VL backbone в сочетании с головкой действий flow-matching diffusion transformer, обученной на более чем 38 100 часах операционных данных, полностью созданных из открытых источников. Qwen-RobotWorld функционирует как мировая модель для физических агентов, предсказывая физически согласуемые сценарии в задачах манипуляции, вождения и навигации через интерфейс действий на естественном языке.
Одним из наиболее впечатляющих примеров стало развертывание Qwen-RobotNav на четвероногом роботе Unitree Go2, оснащенном аппаратным обеспечением NVIDIA Jetson Thor и не более чем одной камерой низкого разрешения. Робот пошагово перемещался по незнакомой квартире, следуя голосовым инструкциям для прохождения через несколько комнат без предварительного картирования, достигнув задержки инференса всего в 196 миллисекунд.
Alibaba также представила Qwen-RobotClaw — внутренний фреймворк для робототехнических агентов, который позволяет агентам Qwen VLM вызывать модели серии Qwen-Robot в качестве инструментов для физического мира, управляя контекстом и памятью задач с долгосрочной перспективой. Исследователи продемонстрировали этот фреймворк в реальном сценарии, где агент искал доступный туалет в здании, обнаружил табличку «не работает» и автономно перепланировал свой маршрут для поиска альтернативы.
Компания также открыла доступ к Chat2Robot — платформе для оценки воплощенного интеллекта на базе браузера, где пользователи могут общаться с роботом и наблюдать за реакциями в реальном времени. Платформа в настоящее время поддерживает Qwen-RobotManip, обученную на 50 задачах с использованием набора данных RoboTwin-Clean. Шаг Alibaba ставит ее в один ряд с ведущими мировыми игроками в гонке за соединение больших языковых моделей с взаимодействием в физическом мире — сфере, которую, по оценкам аналитиков, в ближайшие три года может превратиться в многомиллиардный рынок.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




