NVIDIA только что анонсировала свою модель мира Cosmos 3 на проходящей GTC Taipei, представив то, что компания называет первой в мире «полностью открытой омнимоделью», способной к рассуждению на основе визуальных данных и поддерживающей мультимодальный вывод в виде текста, изображений, видео и окружающего звука.
Cosmos 3 от NVIDIA «сочетает трансформер для рассуждений с трансформером для генерации экспертных знаний», что позволяет модели понимать физические взаимодействия перед генерацией видео- и контента действий, использующего эти взаимодействия
По своей сути Cosmos 3 решает задачу обучения роботов, автономных транспортных средств (AV) и визуальных агентов пониманию окружающей среды в условиях ограниченности обучающих данных и фрагментарности симуляционных стеков.
Cosmos 3 от NVIDIA — это открытая омнимодель, что означает, что она способна «нативно понимать и генерировать текст, изображения, видео, окружающий звук и действия с ведущей точностью физики».
Ее уникальная сила заключается в архитектуре, которая сочетает трансформеры для рассуждений с трансформерами, ориентированными на генерацию, «позволяя Cosmos 3 понимать взаимодействия объектов, движение и пространственно-временные отношения перед генерацией видео- и траекторий действий».
Для тех, кто может быть не в курсе, AI-трансформер — это, по сути, нейронная сеть глубокого обучения, которая отслеживает взаимосвязи и контекст в последовательных данных, которыми могут быть слова в предложении. Эти сети могут существенно ускорить генерацию вывода за счет параллельной обработки, при которой заданная последовательность данных анализируется одновременно, а не по частям.
Возвращаясь к теме, по данным NVIDIA, Cosmos 3 можно использовать в качестве:
- Визуально-языковой модели
- Модели мира, которая симулирует физические среды и предсказывает будущие состояния мира
- Основы для других моделей мира
Наконец, стоит отметить, что Cosmos 3 Super, обеспечивающая отклики с самой высокой точностью, и Cosmos 3 Nano доступны уже сейчас, а Cosmos 3 Edge, предназначенная для инференса в реальном времени на граничных устройствах, появится в ближайшее время.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Hassan Mujtaba




