Команда из Чжэцзянского университета разработала систему визуального вывода, позволяющую роботам «думать глазами» — в 22 раза быстрее, чем при текстовой обработке
Исследователи из Чжэцзянского университета в сотрудничестве с Корнеллским университетом, Национальным университетом Сингапура и Сианьским университетом разработали прорывную систему визуального вывода, которая позволяет роботам «думать глазами», а не обрабатывать языковые внутренние монологи. Система, получившая название VisualThink-VLA, обеспечивает 22,8-кратное ускорение по сравнению с методами вывода на основе текста, при этом демонстрируя более высокую точность.
Основная идея VisualThink-VLA заключается в том, что традиционные модели «Зрение-Язык-Действие» (VLA) полагаются на цепочку рассуждений на основе текста (chain-of-thought reasoning), при которой робот, по сути, составляет внутреннее эссе, описывающее каждый шаг перед выполнением действия. Этот процесс занимает в среднем 8,377 секунды на шаг — мучительно медленно для задач манипулирования в реальном времени. VisualThink-VLA заменяет текстовые токены токенами визуального вывода, сокращая время обработки до всего лишь 0,367 секунды на шаг.
Система использует четырехканальную архитектуру визуальных доказательств, включающую каналы ограничивающих рамок (Bounding Box), границ (Edge), движения (Motion) и отношений (Relation). Вместо того чтобы использовать все четыре канала без разбора, VisualThink-VLA оснащена механизмом адаптивной маршрутизации, который выбирает в среднем только 2,22 канала за шаг, оптимизируя баланс между вычислительной эффективностью и качеством вывода.
Тестирование на восьми эталонных наборах данных показало средний показатель успеха 92,63 процента, превзойдя текстовый подход ECoT, который достиг 85,09 процента. Преимущество в скорости еще более очевидно: в 22,8 раза быстрее при более высокой точности — редкое сочетание в системах искусственного интеллекта, где скорость и качество обычно являются предметом компромисса.
Исследователи протестировали систему на семистепенном роботизированном манипуляторе PIPER NERO, продемонстрировав успех в операциях захвата и размещения нескольких объектов, размещении с учетом пространственных отношений объектов, переориентации с учетом контакта, а также в двухэтапных составных задачах, требующих последовательного вывода. Обучающие данные, получившие название «VisualEvidence-Set», содержат 754 700 инструкций, охватывающих различные сценарии манипулирования.
Ключевое преимущество конструкции состоит в том, что VisualThink-VLA функционирует как подключаемый модуль (plug-and-play) для существующих VLA-систем. Это означает, что роботы, которые в настоящее время используют текстовый вывод, могут быть обновлены без полной замены их базовой архитектуры. Статья доступна на arXiv под идентификатором 2605.30011.
Эта работа знаменует собой смену парадигмы с «составь эссе, затем действуй» на «увидел-подумал-действуй», приближая вывод роботов к тому, как естественно работают люди — прямой обработке визуальной информации, а не ее переводу через язык. По мере того как роботы внедряются во все более динамичные среды, способность выводить умозаключения на основе визуальных данных с почти мгновенной скоростью может стать критически важным фактором для их широкого распространения.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




