DTP関連

tesseractは、スキャナなどで読んだ文字をOCRし、文字テキストとしてPDFに埋め込みます。

文字埋め込みのPDFを作ります。

例えば、~/desktop/JA1-02.jpgを処理する場合

$ tesseract JA1-02.jpg JA1-02 -l jpn+eng pdf
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Info in fopenReadFromMemory: work-around: writing to a temp file
Detected 57 diacritics

デスクトップにJA1-02.pdfができあがる

$ PDFtoText -raw JA1-02.pdf

JA1-02.txtができあがる

古い和文局リストを読み込ませてOCR化してみましたが、認識度は40%位でした。

1600dpiのTIFより800dpiのjpgの方が認識率は上でした。私のTesseractのオプションの誤りかもしれません。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-07-03 (月) 10:43:43 (746d)