5 декабря 2025 года SenseTime совместно с Наньянским технологическим университетом и другими исследовательскими группами представила NEO, первую в мире масштабируемую, открытую архитектуру с родной мультимодальностью (Native VLM), которая выходит за рамки ограничений традиционных модульных моделей «сборной сборки» и знаменует наступление новой эры истинного мультимодального слияния.
В отличие от распространенных модульных моделей, таких как GPT-4V или Claude 3.5, NEO отказывается от обычной схемы «кодировщик изображений + проекционный слой + языковая модель» и вместо этого создает общий мультимодальный «мозг». Прорывы обусловлены тремя родными технологиями:
- Native Patch Embedding, которая создает высокоточные визуальные представления непосредственно из пикселей;

- Native 3D Rotary Position Encoding, которая выделяет специальные частоты для пространственно-временной информации;

- Native Multi-Head Attention, обеспечивающая совместные шаблоны внимания между текстом и изображением — преодолевая семантический разрыв между обеими модальностями на архитектурном уровне.

Результаты реальных тестов показывают, что NEO сравнивается с ведущими моделями, такими как Qwen2-VL и InternVL3, в задачах, связанных с визуальным восприятием, используя всего 390 миллионов пар изображений и текста — лишь одну десятую от объема данных, используемых сопоставимыми моделями. На эталонных тестах, таких как MMMU и MMBench, NEO превосходит другие родные VLM по общей производительности. Ее модели с 2–8 миллиардами параметров обеспечивают исключительную эффективность стоимости вывода, что делает их подходящими для мобильных устройств, роботов и других периферийных сред.
SenseTime уже открыла исходный код версий 2B и 9B NEO и планирует расширить архитектуру для понимания видео, взаимодействия с 3D-графикой и многого другого. Эта новая платформа не только представляет собой свежую парадигму для мультимодального ИИ, но и ускоряет переход передовых ИИ-технологий из облака на периферийные устройства, что является значительным вкладом китайских исследователей в инновации в области архитектуры ИИ в глобальном масштабе.
Автор – Pandaily




