Pokémon Go стала первым в мире мегахитом дополненной реальности. Выпущенная в 2016 году компанией Niantic, ответвлением Google, эта AR-версия гигантской франшизы Pokémon быстро превратилась в глобальный феномен. От Чикаго до Осло и Эносимы игроки выходили на улицы в нетерпеливой надежде поймать Джигглипаффа или Сквиртла или (с огромной долей удачи) ультраредкого Галарского Запдоса, парящего чуть выше досягаемости, наложенного на повседневный мир.
Короче говоря, речь идет об огромном количестве людей, наводящих свои телефоны на огромное количество зданий. «Пятьсот миллионов человек установили это приложение за 60 дней», — говорит Брайан МакКлендон, технический директор Niantic Spatial, компании в области ИИ, которую Niantic выделила в мае прошлого года. По данным фирмы по производству видеоигр Scopely, которая приобрела Pokémon Go у Niantic одновременно с этим, игра по-прежнему привлекала более 100 миллионов игроков в 2024 году, через восемь лет после запуска.
Теперь Niantic Spatial использует этот обширный и беспрецедентный запас краудсорсинговых данных — изображений городских достопримечательностей с суперточными метками местоположения, полученными с телефонов сотен миллионов игроков Pokémon Go по всему миру — для построения своего рода модели мира, модной новой технологии, которая закрепляет интеллект больших языковых моделей (LLM) в реальных средах.
Последний продукт компании — это модель, которая, по ее утверждению, может определить ваше местоположение на карте с точностью до нескольких сантиметров на основе нескольких снимков зданий или других достопримечательностей в поле зрения. Фирма хочет использовать ее для помощи роботам в более точном перемещении в местах, где GPS ненадежен.
В первом крупном испытании своей технологии Niantic Spatial только что заключила партнерство с Coco Robotics, стартапом, который развертывает роботов для доставки на последней миле в ряде городов США и Европы. «Все думали, что AR — это будущее, что появятся AR-очки», — говорит МакКлендон. «А потом аудиторией стали роботы».
От Пикачу до доставки пиццы
Coco Robotics развертывает около 1000 роботов размером с кейс для перевозки багажа — способных перевозить до восьми пицц экстра-большого размера или четыре сумки с продуктами — в Лос-Анджелесе, Чикаго, Джерси-Сити, Майами и Хельсинки. По словам генерального директора Зака Рэша, на сегодняшний день роботы совершили более полумиллиона доставок, преодолев несколько миллионов миль в любых погодных условиях.
Но чтобы конкурировать с курьерами-людьми, роботы Coco, которые ездят по тротуарам со скоростью около пяти миль в час, должны быть максимально надежными. «Лучший способ выполнить нашу работу — это прибыть именно тогда, когда мы вам сказали, что прибудем», — говорит Рэш. А это значит не заблудиться.
Проблема, с которой сталкивается Coco, заключается в том, что она не может полагаться на GPS, который может быть слабым в городах, поскольку радиосигналы отражаются от зданий и мешают друг другу. «Мы осуществляем доставку во многих густонаселенных районах с высотными зданиями, эстакадами и развязками, и именно в этих районах GPS никогда по-настоящему не работает», — говорит Рэш.
«Городской каньон — худшее место в мире для GPS», — говорит МакКлендон. «Если вы посмотрите на эту синюю точку на своем телефоне, вы часто увидите, как она дрейфует на 50 метров, что переносит вас на другой квартал, в другом направлении, на неправильной стороне улицы». Вот тут-то и появляется Niantic Spatial.
В течение последних нескольких лет Niantic Spatial собирала данные, полученные от игроков Pokémon Go и Ingress (предыдущей телефонной AR-игры Niantic, запущенной в 2013 году), и создавала систему визуального позиционирования — технологию, которая определяет ваше местоположение на основе того, что вы видите. «Оказывается, что заставить Пикачу реалистично бегать и заставить робота Coco безопасно и точно перемещаться по миру — это, по сути, одна и та же проблема», — говорит Джон Хэнк, генеральный директор Niantic Spatial.
«Визуальное позиционирование — не очень новая технология», — говорит Конрад Венцель из ESRI, компании, разрабатывающей программное обеспечение для цифрового картографирования и геопространственного анализа. «Но очевидно, что чем больше камер у нас есть, тем лучше становится».
Niantic Spatial обучила свою модель на 30 миллиардах изображений, снятых в городских условиях. В частности, изображения сгруппированы вокруг горячих точек — мест, которые служили важными локациями в играх Niantic, которые игроки должны были посещать, например, арен для сражений покемонов. «У нас было более миллиона местоположений по всему миру, где мы можем точно определить ваше местоположение», — говорит МакКлендон. «Мы знаем, где вы стоите с точностью до нескольких сантиметров, и, что самое важное, куда вы смотрите».
В результате для каждого из этих миллиона местоположений Niantic Spatial имеет много тысяч изображений, снятых примерно в одном и том же месте, но с разных ракурсов, в разное время суток и в разных погодных условиях. Каждое из этих изображений сопровождается подробными метаданными, которые точно указывают, где в пространстве находился телефон во время захвата изображения, включая то, куда был направлен телефон, как он был ориентирован, двигался ли он, с какой скоростью и в каком направлении, и многое другое.
Фирма использовала этот набор данных для обучения модели точно предсказывать свое местоположение, учитывая то, на что она смотрит — даже для местоположений, отличных от этих миллиона горячих точек, где источники качественных изображений и данных о местоположении более скудны.
В дополнение к GPS, роботы Coco, оснащенные четырьмя камерами, теперь будут использовать эту модель, чтобы попытаться определить, где они находятся и куда направляются. Камеры роботов находятся на уровне бедра и направлены во все стороны одновременно, поэтому их точка обзора немного отличается от точки обзора игрока в Pokémon Go, но адаптация данных была простой, говорит Рэш.
Конкурирующие компании также используют системы визуального позиционирования. Например, Starship Technologies, фирма по доставке роботов, основанная в Эстонии в 2014 году, заявляет, что ее роботы используют свои датчики для построения 3D-карты своего окружения, нанося на карту края зданий и положение уличных фонарей.
Но Рэш делает ставку на то, что технология Niantic Spatial даст Coco преимущество. Он утверждает, что это позволит его роботам точно позиционировать себя в нужных местах для получения заказов возле ресторанов, гарантируя, что они никому не помешают, и останавливаться прямо у двери клиента, а не в нескольких шагах, что могло произойти в прошлом.
Кембрийский взрыв в робототехнике
Когда Niantic Spatial начала работу над своей системой визуального позиционирования, идея заключалась в ее применении к дополненной реальности, говорит Хэнк. «Если вы носите AR-очки, и хотите, чтобы мир фиксировался на том, куда вы смотрите, вам нужен какой-то метод для этого», — говорит он. «Но теперь мы наблюдаем кембрийский взрыв в робототехнике».
Некоторые из этих роботов могут нуждаться в совместном использовании пространств с людьми — таких пространств, как строительные площадки и тротуары. «Если роботам когда-либо суждено ассимилироваться в этой среде таким образом, чтобы это не нарушало покой людей, они должны будут обладать аналогичным уровнем пространственного понимания», — говорит Хэнк. «Мы можем помочь роботам точно определить свое местоположение, когда их трясет и толкают».
Партнерство с Coco Robotics — это только начало. То, что создает Niantic Spatial, по словам Хэнка, — это первые элементы того, что он называет живой картой: гипердетализированной виртуальной симуляцией мира, которая меняется по мере изменения мира. По мере того как роботы от Coco и других фирм перемещаются по миру, они будут предоставлять новые источники картографических данных, питая все более детализированные цифровые копии мира.
Но, как видят Хэнк и МакКлендон, карты не только становятся более детализированными; они все чаще используются машинами. Это меняет назначение карт. Карты долгое время использовались для того, чтобы помочь людям ориентироваться в мире. По мере их перехода от 2D к 3D и 4D (вспомните симуляции в реальном времени, такие как цифровые двойники), основной принцип не менялся: точки на карте соответствуют точкам в пространстве или времени.
И все же карты для машин, возможно, должны стать больше похожими на путеводители, полные информации, которую люди воспринимают как должное. Компании, такие как Niantic Spatial и ESRI, хотят добавить описания, которые сообщают машинам, что они на самом деле видят, причем каждый объект снабжен списком своих свойств. «Эта эпоха посвящена созданию полезных описаний мира для понимания машинами», — говорит Хэнк. «Данные, которые у нас есть, — это отличная отправная точка для построения понимания того, как работает соединительная ткань мира».
Сейчас много говорят о моделях мира — и Niantic Spatial это знает. LLM могут казаться всезнающими, но у них очень мало здравого смысла при интерпретации и взаимодействии с повседневной средой. Модели мира призваны это исправить. Некоторые фирмы, такие как Google DeepMind и World Labs, разрабатывают модели, которые генерируют виртуальные фантастические миры на лету, которые затем могут использоваться в качестве тренировочных додзё для ИИ-агентов.
Niantic Spatial заявляет, что подходит к проблеме с другой стороны. Если продвинуть картографирование достаточно далеко, вы в конечном итоге запечатлеете все, говорит МакКлендон: «Я очень сосредоточен на попытке воссоздать реальный мир. Мы еще не достигли этого, но хотим этого».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – technologyreview.com




