OCR-инструментарий PaddlePaddle от Baidu, известный как PaddleOCR, стал самым популярным OCR-проектом на GitHub по числу звезд, достигнув отметки в 73 300, обогнав Tesseract OCR от Google.
PaddleOCR, открытый исходный код которого был опубликован в 2020 году, теперь поддерживает более 110 языков и используется в 160 странах и регионах.
Среди последних обновлений — PP-OCRv5, легковесная модель с всего 5 миллионами параметров, которая демонстрирует точность, сопоставимую с миллиардными моделями компьютерного зрения и языка на стандартных бенчмарках. Новейшая модель парсинга документов PaddleOCR-VL-1.5 достигла точности 94,5% на бенчмарке OmniDocBench V1.5.
PaddleOCR разработан для совместной работы с большими моделями ERNIE от Baidu, объединяя высокоточную экстракцию текста с передовым пониманием документов.
Baidu также объявила об увеличении бесплатной суточной квоты на обработку документов с 10 000 до 20 000 страниц.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




