Визуальные карты состояний в навыках ИИ-агентов более чем вдвое повышают успешность работы компактных моделей в реальных задачах на рабочем столе

Tom K.

19.05.2026

автоматизация Mmskills Agent Skills ии-агенты мультимодальность процедурные знания techtimes.com

Надежная автоматизация рабочего стола требовала больших и дорогих моделей. Новая статья утверждает, что дело не в размере модели, а в формате упаковки знаний: MMSkills добавляет визуальные доказательства к текстовым инструкциям, что резко повышает успех даже небольших моделей. — techtimes.com

Надежная автоматизация рабочего стола долгое время сопровождалась скрытым налогом: чем сложнее программная среда, тем больше — и дороже — должна быть модель для ее запуска. В новой исследовательской статье, опубликованной 13 мая 2026 года, утверждается, что это предположение ошибочно, и недостающий компонент — это не более крупная модель, а лучший формат для упаковки процедурных знаний.

В статье Каннина Чжана и десяти соавторов из Шанхайского университета Цзяо Тун, Xiaohongshu Inc. и Юго-Восточного университета представлен MMSkills — фреймворк, который расширяет стандарт Agent Skills, работающий только с текстом, для включения визуальных доказательств наряду с письменной процедурой. В результате тестирования на четырех реальных бенчмарках небольшая модель Qwen3-VL-8B-Instruct более чем вдвое увеличила показатель успешности выполнения задач на бенчмарке OSWorld, поднявшись с 10,78 процента до 25,40 процента. На бенчмарке визуальных агентов Minecraft показатель успеха той же модели вырос с 23,28 процента до 38,79 процента.

Эти достижения имеют коммерческое значение, поскольку они предполагают, что хорошо построенный пакет навыков может частично заменить собой необработанный масштаб модели, делая надежную автоматизацию значительно дешевле.

Контекстом является быстрая стандартизация того, как ИИ-агенты приобретают повторно используемые возможности. Anthropic опубликовала спецификацию Agent Skills как открытый стандарт 18 декабря 2025 года. В течение 48 часов Microsoft интегрировала ее в VS Code, а OpenAI добавила поддержку в Codex CLI; GitHub и Cursor последовали немедленно. К марту 2026 года 32 инструмента — включая Gemini CLI от Google, Junie от JetBrains, Kiro от AWS и Goose от Block — поддерживали этот формат, что делает Agent Skills наиболее близким к универсальному стандарту плагинов в экосистеме агентов.

«Навык» в этой системе намеренно прост: папка, содержащая файл SKILL.md с инструкциями на простом английском языке, а также необязательные скрипты и справочные документы. Спецификация Agent Skills использует прогрессивное раскрытие информации: при запуске агент загружает только название навыка и краткое описание — несколько десятков токенов — и подгружает полные инструкции только тогда, когда возникает соответствующая задача. Такая конструкция поддерживает ограниченную рабочую память агента в «легком» состоянии, предоставляя ему осведомленность о сотнях возможностей.

Текстовые навыки не работают для агентов, которым нужно смотреть на экран

Каждый основной формат навыков до сих пор разделял одно основополагающее предположение: повторно используемые процедурные знания могут быть выражены исключительно в тексте или коде. Для агента, который составляет документ или запрашивает базу данных через чистый программный интерфейс приложения (API), это предположение справедливо.

Оно перестает работать для визуальных агентов — ИИ-систем, которые управляют настольным программным обеспечением, веб-браузерами или играми, считывая изображение с экрана в реальном времени. В статье о MMSkills проблема сформулирована точно: агент рабочего стола может знать правильную операцию, но не распознать, что диалоговое окно еще не готово. Агент игры может знать свою цель, но ему все равно нужен визуальный сигнал, чтобы отличить прогресс от завершения. Один только текст не может надежно передать эту ситуационную осведомленность.

Что на самом деле содержит мультимодальный пакет навыков

MMSkills решает эту проблему, расширяя стандартный пакет навыков двумя дополнениями: картами состояния времени выполнения (runtime state cards) и ключевыми кадрами с несколькими видами (multi-view keyframes).

Карта состояния — это не подпись к изображению. Это структурированный узел принятия решений, связанный с определенной точкой в процедуре. Для каждого соответствующего состояния карта состояния фиксирует четыре элемента: когда применять навык, явное условие-предохранитель, когда его не применять (что, как показывает статья, резко сокращает ложные срабатывания), какие визуальные подсказки на экране следует проверить и как убедиться, что действие сработало. Это поле «когда не использовать» является первоклассным элементом пакета — преднамеренное дизайнерское решение, которое уменьшает ошибочные активации способами, недостижимыми только текстовыми процедурами.

Ключевые кадры — это эталонные снимки экрана, сгруппированные до четырех видов: полный кадр для пространственного контекста, точный обрезок соответствующего элемента интерфейса и необязательные пары «до и после», показывающие, как должен выглядеть переход состояния. В статье прямо указано, что эти изображения являются эталонными доказательствами, а не координатами для копирования. Ожидается, что агент будет использовать их для интерпретации живого экрана перед собой, а не для имитации пиксель в пиксель.

Чтобы избежать перегрузки контекста агента изображениями, MMSkills использует механизм, называемый ветвленной загрузкой (branch loading). Когда текущее состояние агента предполагает, что навык может быть применим, он открывает временную боковую ветвь, которая выбирает соответствующие карты состояния и ключевые кадры, сопоставляет их с живым экраном и возвращает компактное структурированное резюме — суждение о применимости, локальную подзадачу и пошаговый план — обратно в основную нить рассуждений. Затем основной агент действует на основе этого резюме, сохраняя свой собственный контекст «легким». Это визуальное расширение того же принципа прогрессивного раскрытия информации, который Anthropic встроила в текстовый формат Agent Skills.

Наибольшую выгоду получают более дешевые модели — ключевой коммерческий вывод

Результаты бенчмарков, проведенных на OSWorld (реальные задачи на рабочем столе Ubuntu), macOSWorld (задачи на macOS), VAB-Minecraft из VisualAgentBench и Super Mario Bros из LMGame-Bench, последовательно отдают предпочтение MMSkills по сравнению с условиями без навыков и только с текстовыми навыками. Фронтирные модели также получают выгоду: показатель успеха Gemini 3.1 Pro на OSWorld вырос с 44,08 процента до 50,11 процента, а Gemini 3 Flash — с 36,65 процента до 47,97 процента.

Однако наиболее поразительным открытием является разрыв, который удалось сократить меньшим моделям. Qwen3-VL-8B-Instruct, открытая модель, работающая при доле стоимости инференса фронтирных систем, более чем вдвое увеличила свой показатель успеха на OSWorld. Поведенческие данные показывают почему: MMSkills снизила долю точных повторяющихся действий этой модели с 21,8 процента шагов до 6,2 процента и увеличила частоту, с которой она правильно распознавала завершение задачи. Агенты не просто набирали больше очков — они вели себя больше как агенты, которые понимают, что делают.

MMSkills также сократил среднюю длину траектории. Текстовые навыки иногда добавляли накладные расходы без привязки к контексту, но полные MMSkills сократили среднее количество шагов во всех протестированных сценариях, причем наибольшее сокращение наблюдалось у меньших моделей.

Корпоративная автоматизация, фабрики навыков и риск цепочки поставок

Более широкая коммерческая траектория заключается в отходе от принципа «масштабировать модель» к принципу «оборачивать модель надежной, проверяемой процедурой». Несколько корпоративных приложений следуют этому напрямую.

Для автоматизации рабочего стола последствия очевидны. Anthropic заявляет, что Agent Skills уже используются в производстве для юридических, финансовых, бухгалтерских и научно-аналитических рабочих процессов. Мультимодальные навыки расширяют этот охват на устаревшие настольные и браузерные приложения без чистого API — на длинный хвост корпоративного программного обеспечения, с которым традиционная роботизированная автоматизация процессов справляется непоследовательно. Агент, который может визуально подтвердить, завершилась ли загрузка или индикатор выполнения все еще вращается, — это разница между работающим развертыванием и хрупкой демонстрацией.

В статье о MMSkills также представлен Генератор траекторий в навыки (trajectory-to-skill Generator): автоматизированный конвейер, который преобразует обычные записи взаимодействия — захваты экрана человека, выполняющего задачу, — в проверенные мультимодальные пакеты навыков. Эта возможность напрямую указывает на сервисный бизнес: предприятия загружают свои рабочие процессы и получают управляемые, повторно используемые пакеты навыков, которые могут быть развернуты в любом инструменте, совместимом с Agent Skills.

Закон ЕС об ИИ (EU AI Act), полностью вступающий в силу с 2 августа 2026 года, вводит обязательства по прозрачности и управлению для систем ИИ на всей территории Европейского Союза, включая требования к аудиторским следам в развертываниях с высоким риском. Таким образом, происхождение навыков, контроль версий и журналы активности становятся требованиями соответствия для регулируемых отраслей, развертывающих автономных агентов, а не необязательными функциями.

Эта потребность в управлении частично обусловлена задокументированным риском в цепочке поставок в более широкой экосистеме Agent Skills. Исследование Snyk, опубликованное в феврале 2026 года, подтвердило наличие 76 вредоносных полезных нагрузок в выборке из 3984 навыков из маркетплейса сообщества ClawHub, с использованием таких методов, как кража учетных данных и эксфильтрация данных до обфусцированного удаленного выполнения кода. Отдельное крупномасштабное исследование, охватывающее 98 380 навыков в двух реестрах, подтвердило 157 поведенчески проверенных вредоносных пакетов. Сама Anthropic советует загружать навыки только из доверенных источников. Эта модель повторяет раннюю историю реестров пакетов с открытым исходным кодом, таких как npm и PyPI, где быстрый рост экосистемы предшествовал систематическому инструментарию безопасности. Проверка навыков, частные многоуровневые маркетплейсы и фильтрация по происхождению становятся отдельной категорией.

Академическое сотрудничество с китайскими институциональными связями

Фреймворк MMSkills является открытым исходным кодом и общедоступен на GitHub. Исследование проводилось частично во время стажировки в Xiaohongshu Inc., китайской компании социальных сетей, чья потребительская платформа хранит пользовательские данные в Китае и подпадает под действие китайского законодательства, требующего от компаний предоставлять данные властям по запросу. Эта институциональная принадлежность является фактическим обстоятельством; само исследование не обрабатывает потребительские данные, а код MMSkills опубликован под открытой лицензией без операционной связи с инфраструктурой данных Xiaohongshu.

Что дальше

В статье выделены три ограничения: качество MMSkills зависит от охвата исходных траекторий, используемых для их генерации; генерация навыков и визуальная привязка могут вносить ошибки; а ветвленная загрузка увеличивает стоимость инференса. Расширение фреймворка для критически важных по безопасности или воплощенных сценариев потребует более строгой верификации и возможности ремонта навыков в режиме реального времени при их сбое.

Более глубокий сдвиг, который представляет статья, заключается в созревании представлений области о надежном действии ИИ. Момент стандартизации Agent Skills в конце 2025 года сместил центр тяжести индустрии с того, что ИИ знает, на то, что он может надежно делать. MMSkills утверждает, что для любого агента, которому нужно смотреть, прежде чем действовать, «надежность» требует, чтобы он мог видеть инструкции — а не просто читать их. Для корпоративных покупателей, которым говорили, что масштаб фронтирных моделей — это цена за визуальную автоматизацию, этот аргумент теперь подкреплен цифрами бенчмарков.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Tom K.

Оригинал статьи

В тренде:

agent skills, mmskills, techtimes.com, автоматизация, ии-агенты, мультимодальность, процедурные знания

Искать на сайте

Визуальные карты состояний в навыках ИИ-агентов более чем вдвое повышают успешность работы компактных моделей в реальных задачах на рабочем столе

Текстовые навыки не работают для агентов, которым нужно смотреть на экран

Что на самом деле содержит мультимодальный пакет навыков

Наибольшую выгоду получают более дешевые модели — ключевой коммерческий вывод

Корпоративная автоматизация, фабрики навыков и риск цепочки поставок

Академическое сотрудничество с китайскими институциональными связями

Что дальше

В тренде:

Похожие новости:

Визуальные карты состояний в навыках ИИ-агентов более чем вдвое повышают успешность работы компактных моделей в реальных задачах на рабочем столе

Текстовые навыки не работают для агентов, которым нужно смотреть на экран

Что на самом деле содержит мультимодальный пакет навыков

Наибольшую выгоду получают более дешевые модели — ключевой коммерческий вывод

Корпоративная автоматизация, фабрики навыков и риск цепочки поставок

Академическое сотрудничество с китайскими институциональными связями

Что дальше

В тренде:

Похожие новости:

OpenAI запускает новую инициативу для поиска и исправления багов в

Интернет-гиганты захватывают рынок AI-здравоохранения: ByteDance, Tencent, JD Health и Ant

Хроника сокращений: крупнейшие увольнения в сфере технологий 2026 года из-за

Новый ландшафт вычислительных мощностей AI: кто бросит вызов доминированию NVIDIA?