ВСЕ СТАТЬИ

← Вернуться к статьям
Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера.

16 ноября в 06:31
habr.comтехнологии
16 ноября в 06:31•faviconhabr.com•технологии

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера. Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе. Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Еще статьи из категории

Еще статьи