Новая модель мира от Decart симулирует часы фотореалистичного вождения — но есть нюансы

Decart Oasis 3 ии модели мира Api симуляция techcrunch.com

Decart запускает Oasis 3 — модель мира в реальном времени, генерирующую фотореалистичные среды для тестирования автономных транспортных средств, теперь доступную через API для разработчиков. — techcrunch.com

Изначально стартап ориентируется на компании, занимающиеся разработкой автономных транспортных средств, которым необходимо масштабировать симуляцию редких сценариев вождения. В планах — выход в сферу робототехники и других физических приложений ИИ. Однако более крупная ставка делается на разработчиков: предлагая доступ через API с первого дня, Decart стремится создать экосистему разработчиков вокруг моделей мира, подобно тому, как OpenAI поступила с языковыми моделями.

«Это будет первая пригодная для использования модель мира, на основе которой люди смогут реально программировать», — заявил Дин Лейтерсдорф, соучредитель и генеральный директор Decart, в интервью TechCrunch. «Я думаю, что на этой основе возникнет целое сообщество разработчиков».

У стартапа уже есть сообщество, насчитывающее более 100 000 разработчиков, многие из которых создают продукты на основе его модели видео в реальном времени Lucy, в основном в сферах электронной коммерции и прямых трансляций. Oasis 3 основана на этой базовой модели и знаменует собой выход компании в сферу физического ИИ. Доступ оценивается в $0,02 в секунду, а корпоративное ценообразование зависит от вариантов использования, сообщили в Decart.

Decart работает на все более переполненной арене моделей мира. В прошлом году Google выпустила Genie 3 в режиме предварительного исследования, World Labs Фэй-Фэй Ли запустила Marble для коммерческого использования, а стартапы по генерации видео, такие как Luma и Runway, также преобразуют свои видеомодели, учитывающие физику, в модели мира. 

Новая модель мира от Decart симулирует часы фотореалистичного вождения — но есть нюансы
Oasis 3 от Decart генерирует фотореалистичные сценарии вождения, с которыми можно взаимодействовать в реальном времени.Ссылка изображения:Decart

Выпуск Oasis 3 состоялся через несколько недель после того, как двухлетний Decart привлек $300 миллионов, что, по словам Лейтерсдорфа, последовало за «огромным ростом спроса на созданные нами модели» в электронной коммерции, прямых трансляциях и физическом ИИ. Раунд увеличил оценку Decart почти до $4 миллиардов и привлек ряд стратегических инвесторов, таких как Toyota, Adobe и eBay. Все эти компании являются потенциальными клиентами, говорит Лейтерсдорф. Nvidia, уже являвшаяся инвестором, также участвовала в раунде. 

Преимущество Oasis 3 заключается в фотореализме ее моделей и возможности бесконечной генерации. Это достигается благодаря некоторой «магии эффективности» со стороны Decart, обеспеченной другим основным продуктом компании: программным обеспечением DOS (Decart Optimization Stack), которое позволяет моделям эффективно работать на оборудовании Nvidia, Amazon и Google, что делает ее модели значительно менее затратными в эксплуатации по сравнению с конкурентами. 

«Это построено на всем нашем стеке реального времени, который мы оптимизируем вплоть до аппаратного обеспечения», — сказал Лейтерсдорф. «Благодаря такой вертикальной интеграции мы можем работать более чем на порядок дешевле, чем кто-либо другой в отрасли, для запуска этих моделей».

Модели стартапа настолько эффективны, что, по словам Лейтерсдорфа, за все время своего существования они сожгли «драматически меньше» 100 миллионов долларов. 

Oasis 3 генерирует физически точные многокамерные среды — с одним фронтальным и двумя боковыми обзорами — для обучения и тестирования систем. И вместо того, чтобы предлагать ограниченные демонстрации и предварительные исследования, Decart позволяет разработчикам генерировать сценарии бесконечно, что идеально подходит для разработчиков автономных транспортных средств, стремящихся протестировать как можно больше крайних случаев. 

По сравнению с другими моделями, которые я пробовал, такими как Genie 3 от Google или Marble от World Labs, Oasis 3 выдает наиболее фотореалистичные среды по одному текстовому запросу, которые я видел. А тот факт, что с ними можно взаимодействовать часами, говорит об уровне эффективности, которого могут не хватать конкурентам Decart. 

Однако, позволяя генерировать мир так долго, модель также значительно деградирует.

Новая модель мира от Decart симулирует часы фотореалистичного вождения — но есть нюансы
Oasis 3 генерирует точные фотореалистичные улицы по запросу, но пока не обладает осведомленностью об объектах.Ссылка изображения:Ребекка Беллан / Decart

В ходе моего тестирования я обнаружил, что система может стабильно создавать сильную начальную сцену, соответствующую запросу, но тематическая целостность быстро ухудшалась по мере моего продвижения по миру. Я запросил генерацию улицы Нью-Йорка утром, и она была создана, великолепно. Но по мере движения среда становилась все меньше похожей на Нью-Йорк и больше на стандартную версию любого западного города.

Когда я попытался развернуться и вернуться к начальному перекрестку, его уже не было, его заменила совершенно новая среда. Кроме того, управление не очень отзывчивое, и я часто терял контроль над направлением движения автомобиля (опять же, это недостаток, присущий и другим протестированным мной моделям мира). Ощущение было меньше похоже на связную симуляцию и больше на сновидческий, несвязный поток сознания, который быстро становится бессмысленным.

Еще одна проблема, которую я также видел в других моделях мира, заключается в том, что автомобиль просто проезжает сквозь другие машины, что означает, что модель не симулирует физику должным образом в окружающей среде. Лейтерсдорф называет это «серьезной исследовательской проблемой, которую мы сейчас решаем», объясняя это тем, что «данных о хорошем вождении значительно больше, чем об авариях».

Часть сложности обеспечения этой физической согласованности заложена в самом принципе работы этой модели мира. Oasis 3 является авторегрессионной, то есть генерирует один кадр за раз и обращается к тому, что сгенерировала ранее, чтобы решить, что будет дальше. Это ключевая архитектурная особенность многих моделей мира, и она также требует больших вычислительных ресурсов.

Новая модель мира от Decart симулирует часы фотореалистичного вождения — но есть нюансы
Согласованность начала нарушаться позже в той же сцене улицы Нью-Йорка летом.Ссылка изображения:Ребекка Беллан / Decart

Чтобы сохранить согласованность, Лейтерсдорф заявляет, что команда Decart работает над увеличением объема памяти модели. 

«Каждый сгенерированный нами кадр — это примерно 8000 токенов», — сказал он. «Генерация этого со скоростью десятки кадров в секунду — это сотни тысяч токенов в секунду. Контекстное окно заполняется очень быстро. Мы исследуем, как обеспечить более длинный контекст для хранения на миллионы токенов больше, и как сжать память в меньшее количество токенов».

Лейтерсдорф считает, что проблему согласованности можно частично решить в следующей версии модели, которая позволит пользователям начать генерировать миры на основе видео среды, а не изображения. Он признал, что модели мира как область все еще находятся на ранней стадии.

Тем не менее, основатель больше сосредоточен не на текущих ограничениях своей технологии, а на том, что произойдет, когда разработчики получат ее в свои руки. 

«Это возвращает меня к ранним дням LLM, когда OpenAI изобрела API для моделей», — сказал он, указывая на появление сообщества разработчиков, которое продвинуло эту область вперед, находя и создавая новые варианты использования.

«Когда мы снова поговорим через три месяца, мы скажем: «Вот 100 разработчиков, которые создали 100 различных приложений с помощью Oasis, которые удивили всех нас»», — добавил он.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: