NVIDIA назвала Cosmos 3 первой в мире полностью открытой «омнимоделью»: роботы и беспилотники обрели мощный «мозг», основанный на законах физики

Nvidia Cosmos 3 Ai Gtc Taipei омнимодель трансформер wccftech.com

NVIDIA анонсировала модель мира Cosmos 3 на GTC Taipei — первую «полностью открытую омнимодель», способную к визуальному рассуждению и мультимодальному выводу (текст, изображение, видео, звук). Cosmos 3 «сочетает трансформер для рассуждений с трансформером для генерации», понимая физические взаимодействия перед созданием контента. — wccftech.com

NVIDIA только что анонсировала свою модель мира Cosmos 3 на проходящей GTC Taipei, представив то, что компания называет первой в мире «полностью открытой омнимоделью», способной к рассуждению на основе визуальных данных и поддерживающей мультимодальный вывод в виде текста, изображений, видео и окружающего звука.

Cosmos 3 от NVIDIA «сочетает трансформер для рассуждений с трансформером для генерации экспертных знаний», что позволяет модели понимать физические взаимодействия перед генерацией видео- и контента действий, использующего эти взаимодействия

По своей сути Cosmos 3 решает задачу обучения роботов, автономных транспортных средств (AV) и визуальных агентов пониманию окружающей среды в условиях ограниченности обучающих данных и фрагментарности симуляционных стеков.

Cosmos 3 от NVIDIA — это открытая омнимодель, что означает, что она способна «нативно понимать и генерировать текст, изображения, видео, окружающий звук и действия с ведущей точностью физики».

Ее уникальная сила заключается в архитектуре, которая сочетает трансформеры для рассуждений с трансформерами, ориентированными на генерацию, «позволяя Cosmos 3 понимать взаимодействия объектов, движение и пространственно-временные отношения перед генерацией видео- и траекторий действий».

Для тех, кто может быть не в курсе, AI-трансформер — это, по сути, нейронная сеть глубокого обучения, которая отслеживает взаимосвязи и контекст в последовательных данных, которыми могут быть слова в предложении. Эти сети могут существенно ускорить генерацию вывода за счет параллельной обработки, при которой заданная последовательность данных анализируется одновременно, а не по частям.

Возвращаясь к теме, по данным NVIDIA, Cosmos 3 можно использовать в качестве:

  1. Визуально-языковой модели
  2. Модели мира, которая симулирует физические среды и предсказывает будущие состояния мира
  3. Основы для других моделей мира

Наконец, стоит отметить, что Cosmos 3 Super, обеспечивающая отклики с самой высокой точностью, и Cosmos 3 Nano доступны уже сейчас, а Cosmos 3 Edge, предназначенная для инференса в реальном времени на граничных устройствах, появится в ближайшее время.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: