Cuneiform — аналог FineReader для Linux
Несмотря на название это не совсем стабильная порт системы распознавания текста Cuneiform на платформы Linux. В новой версии проведена большая работа по исправлению ошибок и чистке исходных текстов, в ходе которой померло множество комментариев на русском языке. Работы по восстановлению комментариев ведутся параллельно.
Номер 1.0 обусловлен тем, что мейнтейнер основной ветки Cuneiform-linux Jussi Pakkanen решил, что логичным после версии 0.9 выпустить версию 1.0 ^_^
Кроме основной ветки есть и другие ветки разработки. Например, стоит отметить ветку активного рефакторинга кода Сергея Полтавского.
Код Cuneiform для Linux распространяется под упрощенной лицензией BSD и основан на коде открытом компанией Cognitive Technologies в 2007 году.
В последнее время в сообществе ведутся разговоры о слиянии веток разработки Cognitive Technologies и Cuneiform-linux, но официальных комментариев от Дмитрия Полевого у нас нет.
OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи. Поддерживается более чем 20 языков. А вот с добавлением новых — проблема, т.к. формат файлов dat остаётся пока загадкой.
Отдельно стоит отметить отличную поддержку распознавания текста на русском и украинском языках. Результат распознавания может быть сохранен в форматах HTML, hOCR, RTF или PDF с сохранением особенностей начертания оригинала (выделение жирным, курсивом и т.д.), но пока Cuneiform-linux умеет сохраняться только в HTML и plain text.