Университет Цинхуа обучил первоклассного ИИ-агента для управления компьютером с помощью огромного массива свободных скриншотов

Gui ии обучение Tencent цинхуа агент pandaily.com

GUICrafter от Цинхуа и Tencent Hunyuan обучает GUI-агентов с помощью бесплатных веб-скриншотов и метазадач, конкурируя с лучшими моделями при 0,1% затрат на обучение.

Исследовательская группа из Университета Цинхуа в сотрудничестве с Tencent Hunyuan разработала GUICrafter — агент для управления графическим интерфейсом пользователя (GUI), который конкурирует с ведущими отраслевыми моделями, используя лишь малую долю обучающих данных и полное отсутствие ручной разметки. В статье, опубликованной в arXiv под номером 2606.29705 в июне 2026 года, представлен принципиально иной подход к обучению компьютерных агентов управления на базе ИИ.

Обучение GUI-агентов обычно требует огромного количества размеченных человеком траекторий операций. Лидер отрасли, модель CUA, по сообщениям, опирается на 18,4 миллиона размеченных траекторий — сбор данных, который практически невозможно воспроизвести для большинства исследовательских групп. GUICrafter полностью обходит это узкое место, используя сигналы взаимодействия, уже присутствующие в веб-страницах и интерфейсах мобильных приложений.

Команда создала систему, которая автоматически сканирует реальные веб-сайты, рекурсивно переходя по ссылкам для построения древовидного набора данных веб-страниц. Для каждой страницы инструменты браузера определяют, какие элементы являются кликабельными, редактируемыми или выбираемыми. В результате было получено 500 000 слабо размеченных веб-образцов и 136 000 мобильных образцов — и всё это без какой-либо ручной аннотации.

Чтобы преодолеть разрыв между сырыми сигналами взаимодействия и семантическим пониманием, команда изобрела концепцию «метазадач». Вместо тысяч конкретных описаний задач, таких как «найти беговые кроссовки», метазадачи используют одну общую инструкцию: «Кликните по любой кликабельной области на странице, например, по кнопке, но не кликайте по пустому пространству». Эта, казалось бы, простая абстракция обучает ИИ фундаментальному навыку визуальной локализации.

Обучение проходит по двухэтапному плану. Первый этап использует слабую разметку и обучение с подкреплением с гауссовой функцией вознаграждения, которая поощряет точные клики вблизи центра интерактивных элементов. Второй этап донастраивается на небольшом наборе высококачественных размеченных данных — всего 6 795 веб-образцов и 3 200 мобильных образцов. В результате получена система, демонстрирующая конкурентоспособную или превосходящую производительность, при этом стоимость аннотации составляет примерно 0,1% от стоимости ведущих альтернатив.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: