Компания Google добавила функцию Computer Use (Управление компьютером) в качестве встроенного инструмента в Gemini 3.5 Flash, предоставив разработчикам единую модель, способную анализировать задачи и управлять графическими интерфейсами в браузерах, мобильных устройствах и настольных средах. Эта функция доступна через Gemini API и Google’s Gemini Enterprise Agent Platform, хотя пока остается предварительной версией.
Функция Computer Use позволяет ИИ-агенту анализировать снимки экрана и возвращать действия, такие как клики мыши, прокрутка и ввод с клавиатуры. Приложение разработчика должно выполнить эти действия, захватить полученный экран и отправить его обратно в Gemini, создавая непрерывный цикл до завершения задачи.
Google заявляет, что эта интеграция может использоваться для таких действий, как повторяющееся заполнение форм, тестирование приложений, исследования на множестве веб-сайтов и более длительные корпоративные рабочие процессы. Gemini 3.5 Flash может работать с браузерными, мобильными и настольными средами, тогда как более ранняя отдельная модель Computer Use от Google была ориентирована в основном на взаимодействие с браузером.
Главное изменение — консолидация. Управление компьютером ранее предлагалось через отдельную предварительную модель Gemini 2.5 Computer Use. Как сообщал Neowin при представлении этой модели, она была разработана для интерпретации визуального интерфейса и генерации действий без необходимости использования API, специфичного для веб-сайта.
Позже Google добавила Computer Use в предварительные версии Gemini 3 Pro и Gemini 3 Flash в январе 2026 года. Последний релиз теперь включает этот инструмент в стабильную модель Gemini 3.5 Flash, избавляя разработчиков от необходимости выбирать специализированную модель исключительно для автоматизации интерфейса.
Сама модель Gemini 3.5 Flash была анонсирована в мае как новейшая быстрая модель Google для кодирования и многоэтапных агентских рабочих процессов. Она поддерживает контекстное окно ввода в один миллион токенов и до 65 000 токенов вывода, а также настраиваемые уровни мышления, которые позволяют разработчикам обменивать дополнительный анализ на снижение задержки и стоимости.
Google также сообщила, что Gemini 3.5 Flash прошла целенаправленное состязательное обучение для сценариев использования компьютера. Компания также предлагает механизмы защиты, которые могут требовать подтверждения пользователя перед выполнением конфиденциальных или необратимых действий и автоматически останавливать рабочий процесс при обнаружении предполагаемой инъекции промпта. В документации для разработчиков описаны настраиваемые средства защиты для таких областей, как финансовые операции и изменения в конфиденциальных записях.
Google не первая, кто внедрил Computer Use на свою платформу. Anthropic сделала управление компьютером доступным через Claude, в то время как OpenAI продолжает улучшать производительность Computer Use в своих последних моделях. Microsoft также применила эту концепцию к бизнес-процессам, включая возможность Computer Use для агента Researcher в Microsoft 365 Copilot.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Karthik Mudaliar




