Сбор данных для обучения роботов — это грязная и неблагодарная работа. Некоторые AI-лаборатории уже платят XDOF за ее выполнение

ии робототехника данные стартап Llm Xdof techcrunch.com

Если физический ИИ намерен достичь успехов LLM, необходимо решить проблему данных. Стартап XDOF привлекает $70 млн для создания инфраструктуры сбора и разметки данных для обучения роботов. — techcrunch.com

Этот пробел порождает новый вид инфраструктурного бизнеса. В отличие от больших языковых моделей (LLM), обученных на огромном море общедоступного текста, роботам нужны данные, отражающие физическое взаимодействие, а таких данных практически не существует. Видео на YouTube и материалы, снятые работниками по вызову (gig workers), имеют низкую точность и их трудно согласовать с физическим миром.

Компания XDOF (произносится «экс-дофф»), которая сегодня выходит из тени, делает ставку на то, что следующим серьезным узким местом в области ИИ станут не модели или чипы, а цикл обратной связи по данным, необходимый для обучения роботов взаимодействию с физическим миром.

Стартап стремится создать конвейеры данных, инструменты сбора и системы аннотирования, которые передовые лаборатории и робототехнические компании не могут легко построить самостоятельно, — и привлек для этого 70 миллионов долларов от Thrive Capital, Spark Capital, a16z, Lux и WndrCo. Соучредитель и генеральный директор Филипп Ву (Philippe Wu) заявляет, что XDOF, в которой работает около 60 сотрудников, уже сотрудничает с 20 клиентами, включая несколько передовых ИИ-лабораторий, но не может назвать их имена.

«Все ведущие лаборатории пытаются заняться робототехникой, — сказал Ву. — Мы уже видели некоторые последствия отставания в гонке языковых моделей… вы не хотите оказаться в ситуации, когда вы слишком поздно начинаете заниматься этой технологией, а все уже понимают, что физический ИИ — это следующий рубеж».

Ву сам столкнулся с этой проблемой, будучи аспирантом в Калифорнийском университете в Беркли. Его внимание было сосредоточено на том, чтобы роботы могли осваивать навыки на основе крупномасштабных наборов данных. Была только одна проблема.

«У нас не было крупномасштабных данных для работы, — рассказал он TechCrunch. — Существовала проблема курицы и яйца: нам сначала нужно было собрать данные, прежде чем мы могли бы даже задуматься о том, как обучить базовую модель для робототехники».

Ву и его будущий соучредитель и технический директор XDOF, Фред Шенту (Fred Shentu), работали над проектом под названием GELLO — недорогой системой телеуправления, которая позволяет оператору управлять роботизированной рукой для генерации обучающих данных. «В итоге это стало очень влиятельной статьей в области робототехники, потому что у многих были схожие потребности и узкие места, и многие начали использовать такие устройства для сбора данных», — сказал Ву.

Заметив эту возможность, Ву, Шенту и третий соучредитель и главный операционный директор Немо Цзинь (Nemo Jin) запустили XDOF в октябре 2024 года, чтобы предоставить экосистему данных для компаний, занимающихся разработкой робототехнических моделей. Понимая, что одно лишь предоставление данных может стать тупиковым бизнесом, компания также сосредоточена на очистке данных, инструментарии и аннотировании, создавая самоподдерживающийся цикл обратной связи для обучения роботов.

В качестве отправной точки компания сотрудничает с исследовательской лабораторией ИИ Калифорнийского университета в Беркли, чтобы выпустить то, что, по их мнению, является самой большой коллекцией высококачественных данных для обучения роботов, когда-либо собранной, получившей название ABC. Она включает 130 000 траекторий данных манипуляций роботов, 300 часов симуляции и 100 часов оценок. Такие масштабированные данные для предварительного обучения никогда ранее не были доступны академическим кругам.

«Мы видели в области языка, генерации изображений и других областях, что когда выпускаются модели и данные, сообщество достигает результатов, которые вы не обязательно ожидали», — сказал TechCrunch Дэвид Макалистер (David McAllister), аспирант Беркли, который помогал организовать выпуск.

Команда уже использовала эти данные для обучения роботов на эталонных задачах, таких как складывание футболок, выравнивание коробок или укладка AirPods в чехлы.

Неограниченные степени свободы

Компания планирует работать в трех уровнях пирамиды данных. Самый ценный уровень — это данные телеуправления, собранные на реальном развертываемом роботе; далее следуют роботы, управляемые дистанционно, собирающие более общие данные, как в случае с GELLO; и, наконец, «эгоцентричные» данные, собранные людьми, выполняющими повседневные задачи, для которых XDOF планирует создать собственные носимые датчики.

«Выбор камеры повлияет на качество ваших данных — что, в свою очередь, повлияет на производительность вашего алгоритма отслеживания рук, — сказал Ву. — Если вы изначально плохо спроектируете оборудование, собранные вами данные могут иметь очень специфические проблемы, которые вы не предвидели».

Компания планирует нанимать и обучать армии операторов телеуправления и операторов сбора эгоцентричных данных по всему миру — трудоемкая модель, которая поднимает очевидный вопрос: почему крупные лаборатории не занимаются этой работой по производству данных самостоятельно?

«Вам нужен склад площадью в сотни тысяч квадратных футов с сотнями роботов, — сказал Ву. — Вам нужно обслуживать этих роботов, калибровать их физические параметры и должным образом обучать операторов».

Это развертывание требует сосредоточенности, капитала и операционного масштаба, которые большинство ИИ-лабораторий предпочли бы передать на аутсорсинг — именно на этот рынок и делает ставку XDOF.

Название XDOF обыгрывает термин из робототехники «степени свободы» (degrees of freedom), который описывает количество независимых движений, которые может выполнять робот. Ваша рука от плеча до запястья имеет семь степеней свободы. Последний робот компании Figure.AI, занимающейся гуманоидной робототехникой, имеет 30. Буква X в названии компании отражает ее амбиции: «Произвольные степени свободы, неограниченные степени свободы», — говорит Ву.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: