Прорыв в пространственном интеллекте: ByteDance Seed представляет SpatialTree на конференции CVPR 2026

Mllm Spatialtree Cvpr 2026 ии пространственный интеллект Bytedance pandaily.com

ByteDance Seed и академические партнеры предлагают SpatialTree — иерархическую структуру, переопределяющую то, как мультимодальные LLM понимают пространство и рассуждают о нем.

Совместная исследовательская группа из Чжэцзянского университета, ByteDance Seed и Пекинского университета Цзяотун представила SpatialTree — новую структуру, принятую на CVPR 2026, которая систематически переопределяет подход мультимодальных больших языковых моделей (MLLM) к пространственному интеллекту.

Хотя современные MLLM могут описывать изображения и понимать видео, истинное пространственное понимание — оценка расстояния, определение размера, понимание многоракурсных взаимосвязей и планирование маршрутов навигации — остается фундаментальной проблемой.

SpatialTree организует возможности в четыре уровня: Восприятие (базовое расстояние, размер, форма, движение, направление), Ментальное картирование (преобразование пространственной информации в язык и память), Ментальное моделирование (пространственное рассуждение перед действием, например, планирование маршрута) и Агентная компетентность (преобразование восприятия в действия, такие как навигация в игре или манипуляции робота).

Команда создала SpatialTree-Bench, охватывающий 27 пространственных подвозможностей. Результаты показывают, что даже лучшая модель — Gemini 3 Flash — набирает в среднем всего 57,8 балла, что демонстрирует нерешенность проблемы пространственного интеллекта. Модель Seed 1.8 от ByteDance достигла 50,3 в высшем уровне.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: