Запущена NEO — первая в мире нативная мультимодальная архитектура: Глубокое слияние зрения и языка устраняет отраслевые барьеры

искусственный интеллект,мультимодальный ИИ,SenseTime,NEO,архитектура VLM,открытый исходный код

SenseTime представила NEO — первую в мире масштабируемую и открытую архитектуру Native VLM, совершающую прорыв в мультимодальном ИИ и открывающую новую эру в развитии AI.

5 декабря 2025 года SenseTime совместно с Наньянским технологическим университетом и другими исследовательскими группами представила NEO, первую в мире масштабируемую, открытую архитектуру с родной мультимодальностью (Native VLM), которая выходит за рамки ограничений традиционных модульных моделей «сборной сборки» и знаменует наступление новой эры истинного мультимодального слияния.

В отличие от распространенных модульных моделей, таких как GPT-4V или Claude 3.5, NEO отказывается от обычной схемы «кодировщик изображений + проекционный слой + языковая модель» и вместо этого создает общий мультимодальный «мозг». Прорывы обусловлены тремя родными технологиями:

  • Native Patch Embedding, которая создает высокоточные визуальные представления непосредственно из пикселей;

IMG_3422.jpeg

  • Native 3D Rotary Position Encoding, которая выделяет специальные частоты для пространственно-временной информации;

IMG_3423.jpeg

  • Native Multi-Head Attention, обеспечивающая совместные шаблоны внимания между текстом и изображением — преодолевая семантический разрыв между обеими модальностями на архитектурном уровне.

IMG_3424.jpeg

Результаты реальных тестов показывают, что NEO сравнивается с ведущими моделями, такими как Qwen2-VL и InternVL3, в задачах, связанных с визуальным восприятием, используя всего 390 миллионов пар изображений и текста — лишь одну десятую от объема данных, используемых сопоставимыми моделями. На эталонных тестах, таких как MMMU и MMBench, NEO превосходит другие родные VLM по общей производительности. Ее модели с 2–8 миллиардами параметров обеспечивают исключительную эффективность стоимости вывода, что делает их подходящими для мобильных устройств, роботов и других периферийных сред.

SenseTime уже открыла исходный код версий 2B и 9B NEO и планирует расширить архитектуру для понимания видео, взаимодействия с 3D-графикой и многого другого. Эта новая платформа не только представляет собой свежую парадигму для мультимодального ИИ, но и ускоряет переход передовых ИИ-технологий из облака на периферийные устройства, что является значительным вкладом китайских исследователей в инновации в области архитектуры ИИ в глобальном масштабе.

Самое просматриваемое: