Baidu представила Unlimited-OCR: Постоянный KV-кэш обеспечивает SOTA-производительность на длинных документах
Baidu выпустила Unlimited-OCR — прорывную модель оптического распознавания символов (OCR), которая решает фундаментальное узкое место в транскрипции длинных документов — линейный рост KV-кэша в архитектурах на основе декодера. Внедряя механизм внимания с окном прокрутки ссылок (Reference Sliding Window Attention, R-SWA), Unlimited-OCR сжимает KV-кэш с линейной до постоянной величины, достигая передовых результатов на бенчмарке OmniDocBench.
Основное новшество устраняет проблему, знакомую всем, кто наблюдал, как OCR с трудом справляется с многостраничными документами. Стандартные сквозные OCR-модели используют декодеры на основе больших языковых моделей (LLM), где KV-кэш растет линейно с длиной вывода, потребляя всё больше памяти и замедляя пропускную способность. Предыдущие обходные пути включали последовательную обработку страниц с помощью циклов for, которые очищали память между страницами, но это фрагментировало процесс, который должен быть непрерывным.
R-SWA имитирует рабочую память человека во время транскрипции. Вместо того чтобы обращать внимание на все ранее сгенерированные токены — что привело бы к раздуванию KV-кэша — каждый шаг генерации обращает внимание на два фиксированных набора: все эталонные токены (визуальные токены и промпты) и 128 последних выходных токенов. Визуальные токены остаются видимыми на протяжении всего процесса, в то время как окно вывода скользит, позволяя отдаленной информации подвергаться «мягкому забыванию», а не резкому сбросу.
Unlimited-OCR, построенная на архитектуре DeepEncoder от DeepSeek-OCR, использует каскад SAM-ViT с CLIP-ViT с 16-кратным сжатием токенов, уменьшая PDF-страницу размером 1024×1024 всего до 256 визуальных токенов. Модель представляет собой архитектуру MoE с 3 миллиардами параметров, из которых активированы 500 миллионов, при этом все слои внимания заменены на R-SWA.
Результаты поразительны. На OmniDocBench v1.6 Unlimited-OCR достигает общего балла 93,92%, устанавливая новый SOTA. По сравнению с 87,01% DeepSeek-OCR на v1.5, улучшение превышает шесть процентных пунктов. Расстояние редактирования текста снизилось с 0,073 до 0,038, показатель CDM для формул вырос с 83,37 до 92,61, а TEDS для таблиц улучшился с 84,97 до 90,93.
Производительность на длинных документах особенно впечатляет. На специально созданном тестовом наборе 20-страничные документы, обработанные за один проход, достигают расстояния редактирования 0,0572 при 99,89% Distinct-35. Даже документы объемом 40+ страниц остаются пригодными для использования с расстоянием редактирования 0,1069 и 96,90% Distinct-35.
Пропускная способность масштабируется до 5 580 TPS на OmniDocBench по сравнению с 4 951 TPS у DeepSeek-OCR, что на 12,7% больше. Критически важно, что в то время как задержка на вызов у DeepSeek-OCR растет линейно с шагами декодирования — со скачками на границах выравнивания — задержка Unlimited-OCR остается постоянной на протяжении всего процесса, представляя собой плоскую линию независимо от длины последовательности.
Механизм R-SWA имеет значение и за пределами OCR. Исследователи позиционируют его как общее решение для декодирования в задачах последовательностей на дальних дистанциях, потенциально применимое для парсинга документов, генерации кода и любых сценариев, где критически важно поддерживать стабильную производительность при длинных выводах.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




