Гонка по созданию мировых моделей — систем ИИ, способных понимать и симулировать физическую реальность, — накаляется. Теперь разработка с открытым исходным кодом из Китая взлетела на вершину рейтинга, превзойдя предложения Google, NVIDIA и хорошо финансируемых стартапов.
BWM (Boundless World Model) набрала 64,54 балла в WorldArena Track-1 (качество видео), заняв первое место среди всех моделей с открытым исходным кодом и второе в общем зачете — всего на 0,39 балла отставая от лидера с закрытым кодом. Соревнуясь с 86 моделями из лабораторий по всему миру, BWM обошла разработки Google, NVIDIA, Zhiyuan Robot, Shengshu Technology и других.
Рожденная в академической среде, основанная на открытом коде
BWM — это не коммерческая компания. Она была разработана командой под руководством профессора Шэнь Хэнтао в Университете Тунцзи при участии Чжу Лэя, Коалы Йорана и Shanghai CodeMax. Вместо создания с нуля команда доработала модель генерации видео Wan2.2-TI2V-5B (5 миллиардов параметров) с открытым исходным кодом от Alibaba, что делает BWM свидетельством того, что могут дать основы открытого исходного кода.
Три архитектурных инновации
Производительность BWM обусловлена тремя ключевыми проектными решениями:
- DiT (Diffusion Transformer) — замена традиционного CNN-остова на архитектуру диффузии на основе трансформера, что обеспечивает более богатое пространственное рассуждение.
- Механизм динамической памяти — поддержание временной согласованности в длинных видеопоследовательностях, что критически важно для реалистичного моделирования физики.
- Управление по первому кадру + Двухканальное управление действиями — обусловливание модели как начальным кадром, так и детализированными командами действий, что придает ей подлинную управляемость.
Сценарии воплощения в реальном мире
BWM оценивалась по шести категориям воплощенных задач: пространственное переустройство, сочлененное взаимодействие, тонкая манипуляция, координация двумя руками, размещение на большой дистанции и обобщение вне распределения. Важно, что BWM демонстрирует подлинную интуицию физики — она обобщает данные на невиданные ранее сцены и объекты, на которых ее не обучали, что является отличительной чертой истинной мировой модели.
Открытые веса, растущее сообщество
Веса модели и код для инференса общедоступны на GitHub и Hugging Face, где проект уже собрал более 1600 звезд. Такой открытый подход контрастирует с секретностью, окружающей многие конкурирующие разработки.
Почему мировые модели важны сейчас
Мировые модели стали одним из самых оспариваемых рубежей в области ИИ. Лаборатория AMI Яна ЛеКуна, World Labs Фэй-Фэй Ли и Проект «Прометей» Джеффа Безоса вкладывают ресурсы в эту сферу. На Sequoia AI Ascent 2026 Джим Фан из NVIDIA сделал провокационное заявление: «VLA мертвы, WAM — следующая ступень», утверждая, что модели «Зрение-Язык-Действие» (VLA) будут вытеснены моделями «Мировое Действие» (WAM).
BWM доказывает, что сфокусированная академическая команда, использующая основы открытого исходного кода, может конкурировать с лучшими в мире. Для исследователей и практиков в области воплощенного ИИ это модель, за которой стоит следить.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




