PaddleOCR обошел Tesseract от Google и стал самым популярным OCR-проектом на GitHub

Paddleocr Ocr Github Baidu Tesseract pandaily.com

Открытый исходный код PaddleOCR от Baidu обогнал Tesseract OCR от Google, став самым популярным OCR-проектом на GitHub, собрав более 73 300 звезд. Инструмент поддерживает 110+ языков. — pandaily.com

OCR-инструментарий PaddlePaddle от Baidu, известный как PaddleOCR, стал самым популярным OCR-проектом на GitHub по числу звезд, достигнув отметки в 73 300, обогнав Tesseract OCR от Google.

PaddleOCR, открытый исходный код которого был опубликован в 2020 году, теперь поддерживает более 110 языков и используется в 160 странах и регионах.

Среди последних обновлений — PP-OCRv5, легковесная модель с всего 5 миллионами параметров, которая демонстрирует точность, сопоставимую с миллиардными моделями компьютерного зрения и языка на стандартных бенчмарках. Новейшая модель парсинга документов PaddleOCR-VL-1.5 достигла точности 94,5% на бенчмарке OmniDocBench V1.5.

PaddleOCR разработан для совместной работы с большими моделями ERNIE от Baidu, объединяя высокоточную экстракцию текста с передовым пониманием документов.

Baidu также объявила об увеличении бесплатной суточной квоты на обработку документов с 10 000 до 20 000 страниц.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: