SpatialPoint внедряет глубину как ключевой параметр ввода для Vision-Language Models

Vlm Spatialpoint глубина робототехника 3d зрение pandaily.com

Фреймворк SpatialPoint, разработанный Visincept, Университетом Цинхуа и IDEA, интегрирует данные о глубине как основной входной параметр для VLM, позволяя роботам генерировать точные 3D-координаты для выполнения сложных задач. — pandaily.com

SpatialPoint внедряет глубину как ключевой параметр ввода для Vision-Language Models

Компания Visincept в сотрудничестве с Университетом Цинхуа и Исследовательским институтом IDEA представила SpatialPoint — фреймворк пространственно-ориентированной мультимодальной модели (VLM), которая выводит данные о глубине на уровень основного входного параметра наряду с RGB-изображениями и текстом.

Хотя существующие VLM демонстрируют хорошие результаты в распознавании объектов, им не хватает точного метрического понимания трехмерного пространства, что ограничивает их способность выдавать действенные координаты для робототехники. SpatialPoint решает эту проблему путем интеграции структурированных данных о глубине непосредственно в конвейер рассуждений.

Фреймворк, построенный на базе Qwen3-VL, параллельно кодирует входные данные RGB, глубины и текста, обеспечивая сквозное предсказание 3D-точек в координатах камеры.

Модель использует двойной подход, сочетающий кодирование, специфичное для глубины, с выравниванием признаков, а также двухэтапную стратегию обучения, которая сохраняет возможности обработки языка и зрения, одновременно открывая доступ к геометрическим рассуждениям.
В эталонных тестах SpatialPoint показала среднюю ошибку предсказания расстояния в 17,2 мм, что более чем в 30 раз ниже, чем у традиционных методов.

Команда также выпустила SpatialPoint-Data — набор данных, содержащий 2,6 миллиона пар «RGB-D вопрос-ответ», охватывающих как осязаемые точки, так и точки в воздухе. В реальных экспериментах с роботами модель продемонстрировала интегрированные возможности в задачах навигации, захвата и размещения.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: