Изначально стартап ориентируется на компании, занимающиеся разработкой автономных транспортных средств, которым необходимо масштабировать симуляцию редких сценариев вождения. В планах — выход в сферу робототехники и других физических приложений ИИ. Однако более крупная ставка делается на разработчиков: предлагая доступ через API с первого дня, Decart стремится создать экосистему разработчиков вокруг моделей мира, подобно тому, как OpenAI поступила с языковыми моделями.
«Это будет первая пригодная для использования модель мира, на основе которой люди смогут реально программировать», — заявил Дин Лейтерсдорф, соучредитель и генеральный директор Decart, в интервью TechCrunch. «Я думаю, что на этой основе возникнет целое сообщество разработчиков».
У стартапа уже есть сообщество, насчитывающее более 100 000 разработчиков, многие из которых создают продукты на основе его модели видео в реальном времени Lucy, в основном в сферах электронной коммерции и прямых трансляций. Oasis 3 основана на этой базовой модели и знаменует собой выход компании в сферу физического ИИ. Доступ оценивается в $0,02 в секунду, а корпоративное ценообразование зависит от вариантов использования, сообщили в Decart.
Decart работает на все более переполненной арене моделей мира. В прошлом году Google выпустила Genie 3 в режиме предварительного исследования, World Labs Фэй-Фэй Ли запустила Marble для коммерческого использования, а стартапы по генерации видео, такие как Luma и Runway, также преобразуют свои видеомодели, учитывающие физику, в модели мира.

Выпуск Oasis 3 состоялся через несколько недель после того, как двухлетний Decart привлек $300 миллионов, что, по словам Лейтерсдорфа, последовало за «огромным ростом спроса на созданные нами модели» в электронной коммерции, прямых трансляциях и физическом ИИ. Раунд увеличил оценку Decart почти до $4 миллиардов и привлек ряд стратегических инвесторов, таких как Toyota, Adobe и eBay. Все эти компании являются потенциальными клиентами, говорит Лейтерсдорф. Nvidia, уже являвшаяся инвестором, также участвовала в раунде.
Преимущество Oasis 3 заключается в фотореализме ее моделей и возможности бесконечной генерации. Это достигается благодаря некоторой «магии эффективности» со стороны Decart, обеспеченной другим основным продуктом компании: программным обеспечением DOS (Decart Optimization Stack), которое позволяет моделям эффективно работать на оборудовании Nvidia, Amazon и Google, что делает ее модели значительно менее затратными в эксплуатации по сравнению с конкурентами.
«Это построено на всем нашем стеке реального времени, который мы оптимизируем вплоть до аппаратного обеспечения», — сказал Лейтерсдорф. «Благодаря такой вертикальной интеграции мы можем работать более чем на порядок дешевле, чем кто-либо другой в отрасли, для запуска этих моделей».
Модели стартапа настолько эффективны, что, по словам Лейтерсдорфа, за все время своего существования они сожгли «драматически меньше» 100 миллионов долларов.
Oasis 3 генерирует физически точные многокамерные среды — с одним фронтальным и двумя боковыми обзорами — для обучения и тестирования систем. И вместо того, чтобы предлагать ограниченные демонстрации и предварительные исследования, Decart позволяет разработчикам генерировать сценарии бесконечно, что идеально подходит для разработчиков автономных транспортных средств, стремящихся протестировать как можно больше крайних случаев.
По сравнению с другими моделями, которые я пробовал, такими как Genie 3 от Google или Marble от World Labs, Oasis 3 выдает наиболее фотореалистичные среды по одному текстовому запросу, которые я видел. А тот факт, что с ними можно взаимодействовать часами, говорит об уровне эффективности, которого могут не хватать конкурентам Decart.
Однако, позволяя генерировать мир так долго, модель также значительно деградирует.

В ходе моего тестирования я обнаружил, что система может стабильно создавать сильную начальную сцену, соответствующую запросу, но тематическая целостность быстро ухудшалась по мере моего продвижения по миру. Я запросил генерацию улицы Нью-Йорка утром, и она была создана, великолепно. Но по мере движения среда становилась все меньше похожей на Нью-Йорк и больше на стандартную версию любого западного города.
Когда я попытался развернуться и вернуться к начальному перекрестку, его уже не было, его заменила совершенно новая среда. Кроме того, управление не очень отзывчивое, и я часто терял контроль над направлением движения автомобиля (опять же, это недостаток, присущий и другим протестированным мной моделям мира). Ощущение было меньше похоже на связную симуляцию и больше на сновидческий, несвязный поток сознания, который быстро становится бессмысленным.
Еще одна проблема, которую я также видел в других моделях мира, заключается в том, что автомобиль просто проезжает сквозь другие машины, что означает, что модель не симулирует физику должным образом в окружающей среде. Лейтерсдорф называет это «серьезной исследовательской проблемой, которую мы сейчас решаем», объясняя это тем, что «данных о хорошем вождении значительно больше, чем об авариях».
Часть сложности обеспечения этой физической согласованности заложена в самом принципе работы этой модели мира. Oasis 3 является авторегрессионной, то есть генерирует один кадр за раз и обращается к тому, что сгенерировала ранее, чтобы решить, что будет дальше. Это ключевая архитектурная особенность многих моделей мира, и она также требует больших вычислительных ресурсов.

Чтобы сохранить согласованность, Лейтерсдорф заявляет, что команда Decart работает над увеличением объема памяти модели.
«Каждый сгенерированный нами кадр — это примерно 8000 токенов», — сказал он. «Генерация этого со скоростью десятки кадров в секунду — это сотни тысяч токенов в секунду. Контекстное окно заполняется очень быстро. Мы исследуем, как обеспечить более длинный контекст для хранения на миллионы токенов больше, и как сжать память в меньшее количество токенов».
Лейтерсдорф считает, что проблему согласованности можно частично решить в следующей версии модели, которая позволит пользователям начать генерировать миры на основе видео среды, а не изображения. Он признал, что модели мира как область все еще находятся на ранней стадии.
Тем не менее, основатель больше сосредоточен не на текущих ограничениях своей технологии, а на том, что произойдет, когда разработчики получат ее в свои руки.
«Это возвращает меня к ранним дням LLM, когда OpenAI изобрела API для моделей», — сказал он, указывая на появление сообщества разработчиков, которое продвинуло эту область вперед, находя и создавая новые варианты использования.
«Когда мы снова поговорим через три месяца, мы скажем: «Вот 100 разработчиков, которые создали 100 различных приложений с помощью Oasis, которые удивили всех нас»», — добавил он.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Rebecca Bellan




