Исследователи из Университета Гонконга и команда Kling компании Kuaishou совместно представили MemFlow, новый подход, разработанный для решения давних проблем потери памяти и несогласованности повествования в длинных видео, сгенерированных искусственным интеллектом.
MemFlow представляет собой динамический, адаптивный механизм долговременной памяти, значительно улучшающий связность повествования и визуальную согласованность в расширенных видеопоследовательностях. Традиционные методы часто полагаются на жесткие стратегии памяти, что приводит к дрейфу идентичности или путанице персонажей с течением времени.
Решение включает в себя два основных компонента: Narrative-Adaptive Memory (NAM), который извлекает наиболее релевантный исторический визуальный контекст на основе текущего запроса, и Sparse Memory Activation (SMA), который выборочно активирует ключевую информацию для поддержания вычислительной эффективности.
В эталонных тестах MemFlow достиг общего балла качества VBench-Long 85.02 и эстетического балла 61.07, сохраняя при этом стабильную долгосрочную семантическую согласованность. Согласованность субъектов достигла 96.60, а вывод в реальном времени достиг 18.7 FPS на одном графическом процессоре NVIDIA H100, что подчеркивает как повышение качества, так и эффективности.
Источник: liangziwei
(*) Имейте ввиду: редакции некоторых изданий могут придерживаться предвзятых взглядов в освящении новостей.
8/8
Автор – Pandaily




