Совместная исследовательская группа из Чжэцзянского университета, ByteDance Seed и Пекинского университета Цзяотун представила SpatialTree — новую структуру, принятую на CVPR 2026, которая систематически переопределяет подход мультимодальных больших языковых моделей (MLLM) к пространственному интеллекту.
Хотя современные MLLM могут описывать изображения и понимать видео, истинное пространственное понимание — оценка расстояния, определение размера, понимание многоракурсных взаимосвязей и планирование маршрутов навигации — остается фундаментальной проблемой.
SpatialTree организует возможности в четыре уровня: Восприятие (базовое расстояние, размер, форма, движение, направление), Ментальное картирование (преобразование пространственной информации в язык и память), Ментальное моделирование (пространственное рассуждение перед действием, например, планирование маршрута) и Агентная компетентность (преобразование восприятия в действия, такие как навигация в игре или манипуляции робота).
Команда создала SpatialTree-Bench, охватывающий 27 пространственных подвозможностей. Результаты показывают, что даже лучшая модель — Gemini 3 Flash — набирает в среднем всего 57,8 балла, что демонстрирует нерешенность проблемы пространственного интеллекта. Модель Seed 1.8 от ByteDance достигла 50,3 в высшем уровне.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




