14 апреля стартап в области воплощенного ИИ BeingBeyond выпустил свою флагманскую модель третьего поколения — Being-H0.7. Модель обучена на приблизительно 200 000 часов видеоданных с участием человека и представляет новую парадигму модели мира, основанную на рассуждениях в латентном пространстве. По заявлению компании, Being-H0.7 заняла первое место в общем зачете по шести международным бенчмаркам, возглавив четыре из них, охватывая задачи, связанные с воплощением, непрерывной динамикой, жидкостями и манипуляцией деформируемыми объектами.

Ранее компания представила Being-H0 и Being-H0.5, обученные на 1000 и 10 000 часов видео с участием человека соответственно, исследуя подход воплощенного обучения на основе видео в масштабе. Последняя версия значительно расширяет как масштаб данных, так и возможности модели, вводя латентные запросы в качестве промежуточных переменных в латентном пространстве для интеграции принятия решений на основе наблюдения и действия.
Модель использует двухпоточную архитектуру, состоящую из апостериорного потока и априорного потока, который полагается только на текущие наблюдения. Механизм перекрестного согласования используется для улучшения обобщения в реальных условиях. По сравнению с традиционными моделями «зрение-язык-действие» (VLA), которые напрямую выдают действия, или моделями мира, основанными на генерации видео на уровне пикселей, Being-H0.7 делает акцент на рассуждениях и сжатом представлении в латентном пространстве.
BeingBeyond заявляет, что модель способна выполнять задачи физического взаимодействия без явной реконструкции будущего на уровне пикселей, демонстрируя высокую производительность в прогнозировании траекторий, управлении жидкостями и манипуляции деформируемыми объектами.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




