Компания Waymo, отделившаяся от Google, активно расширяет свой парк беспилотных автомобилей в новые регионы. Waymo заявляет о более чем 200 миллионах миль реального вождения, которые помогают совершенствовать навигацию автомобилей. Однако искусственный интеллект компании также проехал миллиарды миль в виртуальной среде, и с новой моделью Waymo World Model впереди еще много интересного. Основанная на Genie 3 от Google DeepMind, Waymo утверждает, что модель способна создавать «гиперреалистичные» симулированные среды, которые обучают ИИ на ситуациях, редко (или никогда) встречающихся в реальной жизни — например, снег на мосту Золотые Ворота.
До недавнего времени индустрия беспилотного вождения полагалась исключительно на данные, собранные реальными автомобилями в реальных ситуациях. Это означает, что редкие, потенциально опасные события недостаточно представлены в обучающих данных. Waymo World Model стремится решить эту проблему, позволяя инженерам создавать симуляции с помощью простых текстовых подсказок и управляющих сигналов.
Google представила Genie 3 в прошлом году, позиционируя ее как значительное усовершенствование по сравнению с другими мировыми моделями благодаря своей способности к долговременной памяти. В мировой модели Google вы можете отойти от объекта, и, посмотрев обратно, модель все еще будет «помнить», как этот объект должен выглядеть. В более ранних попытках создания мировых моделей симуляция почти сразу теряла этот контекст. С Genie 3 модель может запоминать детали в течение нескольких минут.
Авторегрессивные мировые модели, такие как Genie, на самом деле не создают трехмерные пространства, а скорее рендерят видео достаточно быстро, чтобы это ощущалось как исследуемый мир. Естественно, видеоигры упоминаются как основное применение для мировых моделей, настолько, что акции игровых компаний упали, когда Google недавно расширил доступ к технологии под названием Project Genie. Однако задержка и все еще довольно короткая память Genie делают использование в играх далеко не гарантированным. Тем не менее, Waymo заявляет, что Genie 3 идеально подходит для моделирования данных, необходимых для обучения беспилотных автомобилей.
ИИ за рулем
Waymo World Model — это не просто прямой порт Genie 3 с добавлением видео с видеорегистратора. Waymo и DeepMind использовали специализированный процесс постобучения, чтобы новая модель генерировала как 2D-видео, так и 3D-выводы лидара для одной и той же сцены. В то время как камеры отлично подходят для визуализации мелких деталей, Waymo утверждает, что лидар необходим для добавления критически важной информации о глубине того, что «видит» беспилотный автомобиль на дороге — возможно, кому-то стоит рассказать об этом Tesla.
Использование мировой модели позволяет Waymo брать видео со своих автомобилей и использовать подсказки для изменения маршрута движения, что они называют управлением действиями при вождении. Эти симуляции, сопровождаемые картами лидара, по сообщениям, обеспечивают большую реалистичность и согласованность по сравнению со старыми методами реконструктивного моделирования.
Эта модель также может помочь улучшить ИИ для беспилотного вождения даже без добавления или удаления всего. Существует множество видео с видеорегистраторов, доступных для обучения беспилотных транспортных средств, но им не хватает мультимодальных сенсорных данных автомобилей Waymo. Помещение такого видео в Waymo World Model генерирует соответствующие сенсорные данные, показывая, как ИИ для вождения воспринял бы эту ситуацию.
Хотя Waymo World Model может создавать полностью синтетические сцены, компания, похоже, больше всего заинтересована в «мутации» условий в реальных видео. В посте в блоге приведены примеры изменения времени суток или погоды, добавления новой дорожной разметки или размещения транспортных средств в необычных местах. Или, почему бы и нет, слон на дороге?
Первые города, где тестировалась Waymo, были стабильно солнечными (например, Финикс) с малым количеством непогоды. Такие симуляции могли бы помочь автомобилям адаптироваться к более разнообразным условиям. Новые рынки включают места с более сложными условиями, в том числе Бостон и Вашингтон, округ Колумбия.
Конечно, польза новой модели ИИ будет зависеть от того, насколько точно Genie 3 сможет имитировать реальный мир. Тестовые видео, которые мы видели, работают от довольно правдоподобных до жутких, но Waymo считает, что технология улучшилась до такой степени, что она может многому научить беспилотные автомобили.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ryan Whitwam




