Роботы, такие как четвероногий Spot от Boston Dynamics, теперь могут точно считывать показания аналоговых термометров и манометров, перемещаясь по фабрикам и складам. Эти улучшения стали возможны благодаря новейшей модели робототехнического ИИ от Google DeepMind, цель которой — расширить возможности роботов в области «воплощенного рассуждения» при взаимодействии с физической средой.
Новая модель Gemini Robotics-ER 1.6, анонсированная 14 апреля, функционирует как «модель рассуждения высокого уровня для робота», способная планировать и выполнять задачи, как заявляет Google DeepMind. Эта модель также открывает возможность точного считывания показаний таких сложных приборов, как датчики, и проведения визуальных инспекций с использованием смотровых окон, которые обеспечивают прозрачный обзор внутренних частей резервуаров и труб. Это повышение производительности стало результатом постоянного сотрудничества Google DeepMind с компанией Boston Dynamics, занимающейся робототехникой.
Boston Dynamics проявляет большой интерес к тестированию как четвероногих, так и гуманоидных роботов-работников в широком спектре промышленных объектов, включая автомобильные заводы корпоративного владельца компании, Hyundai Motor Group. Робот-«собака» компании, Spot, проходит испытания в качестве инспектора, который обходит промышленные объекты для проверки всего. Такие инспекционные задачи требуют «сложного визуального рассуждения» для интерпретации множества стрелок, уровней жидкости, границ контейнеров и отметок, а также текста на различных приборах.
Модель, обеспечивающая работу
Для выполнения таких задач модель Gemini Robotics-ER 1.6 предоставляет роботам «агентное зрение» (agentic vision), которое сочетает визуальное рассуждение со способностью выполнять код для создания «визуального черновика» (visual scratchpad) для осмотра и манипулирования изображениями. Такое агентное зрение было представлено в модели Google Gemini 3.0 Flash еще в январе 2026 года.
Сообщается, что функция агентного зрения повышает производительность роботов в задачах считывания показаний приборов с 23 процентов в старой модели Gemini Robotics-ER 1.5 до 98 процентов в новой модели Gemini Robotics-ER 1.6. Для сравнения, Gemini 3.0 Flash показала точность всего 67 процентов.
Базовая модель Gemini Robotics-ER 1.6 по-прежнему может достигать 86-процентной точности при считывании показаний приборов даже без агентного зрения. Это связано с тем, что модель использует процесс указания на различные элементы визуального изображения для обработки сложных задач, таких как подсчет объектов или определение наиболее заметных признаков. Она также, как утверждается, обеспечивает улучшенную возможность «многоракурсного рассуждения» (multi-view reasoning), которая позволяет роботизированной системе использовать несколько потоков с камер для лучшего понимания окружающей среды.
,
Один из примеров производительности, приведенный Google DeepMind, демонстрирует, как Gemini Robotics-ER 1.6 смогла правильно идентифицировать количество молотков, ножниц, кистей для рисования, плоскогубцев и различных садовых инструментов на загроможденном изображении. Для сравнения, старая модель Gemini Robotics-ER 1.5 не смогла точно подсчитать молотки или кисти, полностью проигнорировала ножницы и ложно определила несуществующую тачку, поскольку это был один из запрошенных предметов в задаче идентификации. Это подразумевает, что новая модель в меньшей степени страдает от проблемы «галлюцинаций», чем старая, даже если новейшая модель все еще далека от достижения человеческого уровня понимания окружающей обстановки.
Google также описывает Gemini Robotics-ER 1.6 как свою «самую безопасную на сегодняшний день модель для робототехники» с «существенно улучшенной способностью соблюдать физические ограничения безопасности». Она позволяет роботам как следовать инструкциям по безопасности, так и принимать более безопасные решения при работе с жидкостями или материалами. Новая модель также может точнее оценивать риск травмирования людей в различных сценариях, например, когда маленький ребенок засовывает что-то в электрическую розетку.
Будущее применение
Практическая проверка ценности этой модели произойдет, когда компании, занимающиеся робототехникой, и исследователи получат больше практического опыта для тестирования ее возможностей. До сих пор роботы демонстрировали наибольшую эффективность и продуктивность, выполняя роль высокоспециализированных машин, выполняющих одни и те же конкретные задачи на конвейерах или осуществляя высокоскоординированные и отрепетированные движения в складских проходах. Компании, такие как Google, делают ставку на то, что новейшие модели ИИ помогут роботам стать более свободно перемещающимися работниками, действующими в сложных и менее контролируемых реальных условиях, — перспектива, которая также несет больший риск того, что роботы могут нанести ущерб или причинить вред людям, если что-то пойдет не так.
Как минимум, новейшая модель может приблизить нас на один шаг к будущему, где робот General Atomics International Mark 4 сможет осмотреть комнату и правильно воскликнуть: «Здесь нет помадки!»
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Jeremy Hsu




