Совместная исследовательская группа из Zojian Power (至简动力), Пекинского университета и Китайского университета Гонконга (CUHK) представила LaST-R1 (Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning) — новую парадигму обучения воплощенного ИИ, которая встраивает физическое рассуждение в латентном пространстве в обучение с подкреплением.
Статья, опубликованная в качестве доклада Spotlight на конференции ICML 2026 (топ 2,2%), демонстрирует, что LaST-R1 достигает среднего показателя успеха 99,9% на бенчмарке LIBERO всего после одного разогрева траектории — фактически «завершая» бенчмарк LIBERO. В реальных задачах, связанных с захватом и вращением, LaST-R1 превосходит предыдущую SOTA-модель π0.5 на 22,5%.
Основное новшество заключается в отказе от рассуждений на основе цепочки мыслей (chain-of-thought), основанных на языке, в пользу прямого рассуждения в латентном пространстве. Вместо того чтобы напрямую сопоставлять наблюдения с действиями (как в OpenVLA, π0, π0.5), LaST-R1 сначала моделирует структуру сцены, физические взаимосвязи объектов и будущие динамические изменения в когнитивном латентном слое, прежде чем генерировать действия.
Алгоритм LAPO (Latent-to-Action Policy Optimization) команды совместно оптимизирует как «процесс мышления», так и «исполнение действий» — обратная связь от среды оптимизирует не только успешность действия, но и то, как робот рассуждал о физике перед выполнением действия.
Это представляет собой фундаментальный сдвиг от «запоминания траекторий» к «пониманию физики», решая критическую проблему обобщения, когда роботы терпят неудачу при незначительном смещении объектов или изменении освещения.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




