Проактивный ИИ от JD.com следит за вашей камерой и говорит без команды

Jerry Owens

27.06.2026

ии Vision-Language проактивность Open Source jd.com techtimes.com

Открытая модель «зрение-язык» JoyAI-VL-Interaction от JD.com наблюдает за прямыми видеопотоками и говорит без запроса — первая проактивная модель ИИ такого рода, выпущенная с полными весами, обучающими данными и развертываемой системой под Apache 2.0. В 58 сценариях, управляемых событиями, она

Кастрюля вот-вот закипит. Человек падает на записи с камер наблюдения. Промелькнул решающий момент матча. Большинство моделей ИИ пропускают каждый из этих моментов — не потому, что они слишком медленные, а потому, что структурно не способны что-либо наблюдать, если их об этом предварительно не попросить. Исследовательская команда JD.com теперь открыла исходный код модели, созданной для устранения этого пробела, выпустив полные веса, рецепт обучения и код развертываемой системы для JoyAI-VL-Interaction — первой открытой модели «зрение-язык» (vision-language model), обученной наблюдать за прямым видеопотоком и самостоятельно решать, когда говорить — не дожидаясь запроса.

Релиз, опубликованный 20 июня на GitHub и обновленный 23 июня, выходит в момент, когда парадигма интерактивных моделей является одним из самых конкурентных направлений в области ИИ. В мае 2026 года Лаборатория «Мыслящие машины» (Thinking Machines Lab) Миры Мурати выпустила TML-Interaction-Small — систему «смесь экспертов» (mixture-of-experts) с 276 миллиардами параметров, способную к непрерывному аудио- и видеовзаимодействию, — но только в виде закрытого исследовательского превью, доступного ограниченному числу приглашенных организаций. JoyAI-VL-Interaction с 8 миллиардами параметров позиционируется как открытая альтернатива: более скромная по масштабу, развертываемая на стандартном оборудовании и доступная всем немедленно под лицензией Apache 2.0.

Каждая конкурирующая система все еще ждет вашей команды

В научной статье, лежащей в основе JoyAI-VL-Interaction и опубликованной на arXiv (2606.14777), выявлен структурный потолок во всех существующих подходах. Модели реального времени общего назначения (omni models), такие как GPT-Realtime-2 и Qwen3.5-Omni, разработаны для быстрого поочередного ведения диалога — они быстро отвечают после того, как пользователь заговорил, а не наблюдают за происходящим и решают заговорить первыми. Потребительские продукты для видеозвонков, такие как ассистент в приложении Doubao, имитируют проактивность, отправляя фоновый запрос на опрос каждые несколько секунд, но интервал опроса устанавливает жесткий предел для обнаружения событий: все, что происходит между опросами, остается незамеченным. Видеозвонки Google Gemini идут еще дальше, полагаясь на строгую схему «один вопрос — один ответ» без фонового мониторинга.

В тестовом сценарии обнаружения падений, описанном в статье, человек падает на камеру. JoyAI-VL-Interaction подала сигнал тревоги в момент падения. Doubao, работающая на модели Seed 2.0 от ByteDance, отреагировала с задержкой в четыре-пять секунд — цена интервала опроса проявилась в виде задержки при событии, которое не допускает промедления. Google Gemini прямо признала, что вообще не способна отслеживать сцену. В 58 реальных сценариях визуального взаимодействия, управляемых событиями, и оцененных экспертами по качеству и времени отклика, JoyAI-VL-Interaction выиграла 77,6% сравнений с Doubao и 87,9% с Gemini.

Как AdaCodec и обученное молчание обеспечивают непрерывные потоки

Инженерное решение, делающее это возможным, менее очевидно, чем кажется на первый взгляд — и самая важная часть заключается не в самой проактивности, а в ее дополнении: умении сохранять молчание.

Большинство моделей «зрение-язык», обученных просматривать видео, сталкиваются с немедленной проблемой бюджета токенов. Обработка каждого кадра с полной детализацией приводит к такому росту числа токенов, который не может вместить ни одно контекстное окно. JoyAI-VL-Interaction решает эту проблему с помощью AdaCodec — предиктивного видеокодека, встроенного в саму модель. AdaCodec тратит лишь небольшое количество токенов на кадры, где сцена меняется незначительно — предсказуемые моменты с низкой информационной ценностью — и сохраняет полную токенную детализацию для кадров, где сцена действительно меняется. В результате модель может поддерживать часы непрерывного видеоввода с задержкой менее секунды, вместо того чтобы «задыхаться» от переполнения контекстного окна через несколько минут.

Кроме того, команда обучила модель рассматривать сохранение молчания как действие первого класса, равное по статусу говорению или делегированию сложного вопроса фоновой модели. Каждую секунду видео модель принимает внутреннее решение: говорить, молчать или передать управление. Это архитектурно отличается от поочередной системы, которая ждет своей очереди от пользователя. Поочередная модель, какой бы быстрой она ни была, не может выбрать собственный момент — она говорит только тогда, когда к ней обращаются. Модель JoyAI-VL-Interaction каждую секунду решает, стоит ли это слово того.

Для поддержания контекста в длинных потоках система использует трихуровневую структуру памяти, которая позволяет модели переносить состояние сцены из прошлого — так она может заметить, что человек, стоявший в начале часового потока, теперь лежит на полу, вместо того чтобы рассматривать каждый момент как изолированный снимок.

Полный стек, поставляемый в комплекте

Созданная на базе базовой модели JoyAI-VL 1.0 от JD.com, JoyAI-VL-Interaction поставляется как полная, развертываемая система, состоящая из пяти подключаемых сервисов, работающих на стандартной инфраструктуре vLLM-Omni: движок инференса, веб-интерфейс, автоматическое распознавание речи, синтез речи и фоновый агент, который может подключаться к внешним API или другим моделям ИИ для решения более сложных задач. Настройка требует выполнения трех команд из руководства по быстрому старту репозитория.

Подход к обучению примечателен своей переносимостью: команда обучалась на отобранном наборе данных взаимодействия, синхронизированного по времени, и обнаружила, что появились возможности, которые никогда не оптимизировались целенаправленно. Модель, обученная отслеживать события безопасности, также может комментировать прямую спортивную трансляцию, озвучивать меняющиеся экраны приложений для покупателя, импровизировать лекцию по слайдам на экране или генерировать комментарии к потоку в реальном времени без запроса. Исследователи описывают это как ранний сигнал того, что интерактивность, заложенная в модель как основная возможность, а не прикрепленная через вспомогательные конструкции, обобщается способами, недоступными для систем со вспомогательными конструкциями.

Команда открыто признает ограничения системы. В задачах открытого диалога, личного взаимодействия и в длинном хвосте повседневных запросов JoyAI-VL-Interaction не конкурирует с Doubao и Gemini. Эти продукты построены на гораздо более крупных моделях, отточенных годами продуктовых итераций. Модель с 8B превосходит их конкретно и демонстративно в любых сценариях, где своевременный ответ важнее, чем ответы на максимально широкий спектр вопросов.

Что разработчики могут создать с помощью проактивной модели ИИ уже сейчас

Предыдущие работы по проактивному ИИ для видео в реальном времени в основном оставались на лабораторной стадии, требуя либо проприетарной инфраструктуры, либо офлайн-пост-анализа. JoyAI-VL-Interaction — это первый полный открытый релиз в этой парадигме: веса, рецепт обучения, обучающие данные и развертываемая система, и все это под лицензией Apache 2.0 без ограничений на коммерческое использование.

Для исследователей это обеспечивает воспроизводимую базовую линию для изучения проактивного мультимодального ИИ — категории, которая была в значительной степени теоретической для любой открытой системы. Для корпоративных разработчиков практическое применение очевидно: мониторинг безопасности, который отмечает события, а не просто хранит записи для последующего просмотра; системы помощи пожилым людям, обнаруживающие падения или медицинские события; инструменты для живой торговли, которые показывают товары по мере их появления на экране; и промышленный надзор, который вмешивается при отклонении процесса, а не ждет, пока оператор заметит и спросит.

Для разработчиков, работающих в юрисдикциях, требующих тщательного рассмотрения происхождения компонентов ИИ, стоит отметить, что JD.com базируется в Пекине и подпадает под действие Закона КНР о национальной разведке (2017 г.), который обязывает организации сотрудничать с национальной разведкой по запросу, а также Закона КНР о безопасности данных (2021 г.). JoyAI-VL-Interaction работает локально на собственной инфраструктуре развертывающей организации — веса являются открытым исходным кодом и не требуют подключения к серверам JD.com, — что существенно ограничивает применимое раскрытие данных по сравнению с размещенным китайским сервисом ИИ. Однако обучающие данные и будущие версии моделей остаются предметом этих правовых условий. Разработчикам, работающим с конфиденциальными видеоданными в регулируемых средах, следует учитывать это при принятии решений о развертывании.

Веса модели, обучающие данные и системный код доступны на GitHub.

Часто задаваемые вопросы

Чем JoyAI-VL-Interaction отличается от других моделей ИИ в реальном времени?

Большинство моделей ИИ — включая потребительские ассистенты для видеозвонков — по своей сути являются поочередными: они ждут, пока пользователь обратится к ним, прежде чем что-либо обрабатывать. JoyAI-VL-Interaction обучена принимать внутреннее решение каждую секунду: говорить, молчать или делегировать задачу фоновой модели. Это внутреннее решение «говорить/молчать» в сочетании с эффективным по токенам видеокодеком AdaCodec позволяет ей часами просматривать прямую видеокамеру и говорить только тогда, когда есть что сказать.

Можно ли использовать JoyAI-VL-Interaction бесплатно в коммерческих целях?

Да. Веса модели, обучающие данные и полная система развертывания выпущены под лицензией Apache 2.0, которая разрешает коммерческое использование без ограничений. Система работает на собственном оборудовании развертывающей организации и не требует подписки или API-вызовов обратно к JD.com.

Каковы реальные сценарии использования проактивной модели ИИ, которая наблюдает за видео?

Наиболее прямые применения — это сценарии, где важные события происходят быстрее, чем человек может напечатать вопрос: обнаружение падений в учреждениях длительного ухода, мониторинг безопасности, который подает сигналы тревоги в момент инцидента, комментирование спортивных событий в прямом эфире и инструменты для живой торговли, которые показывают товары по мере их появления на экране. В статье также описаны новые возможности, которым команда никогда не обучала модель целенаправленно — включая озвучивание меняющихся экранов приложений и импровизацию лекционного материала по отображаемым слайдам.

Создает ли запуск модели ИИ от китайской компании риски для конфиденциальности данных?

JD.com подчиняется китайскому законодательству, включая Закон о национальной разведке (2017 г.), который обязывает компании сотрудничать с правительственными разведывательными запросами. Поскольку JoyAI-VL-Interaction работает локально на собственных серверах развертывающей организации и не требует подключения к JD.com, видео в реальном времени, обрабатываемое моделью, не передается в JD.com. Ключевое замечание заключается в том, что обучающие данные, использованные для создания модели, и любые будущие обновления моделей от JD.com остаются предметом этих правовых условий.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Jerry Owens

Оригинал статьи