2011年11月19日

日本語OCRができるらしいTesseractをなんとなく使ってみた

Twitterで 「Evernoteは縦書き日本語OCRにも対応しているらしいのでエロ漫画をぶっこんで好きな時に好 きなジャンルのそれを検索するというライフハック思い付きました」 とかつぶやいてたらなんとなく日本語OCRを試してみたくなったのでやってみた。

適当に調べて、まあ、MacPortsに入っているものでということで(インストールが楽だから) Tesseract とやらを試すことにした。 他にもgocrとかOCRopusとかあったけどバージョン番号的にこっちがいいかなって。

まずは

$ sudo port install tesseract

で、インストールしながら README を読んでると どうも言語データが必要らしいので http://code.google.com/p/tesseract-ocr/downloads/list からjpn.traineddata.gzをとりあえず拾ってきて展開する。

$ gunzip jpn.traineddata.gz

んでまあ、英語データはぶっこまれてるっぽいので

$ mdfind eng.train
/opt/local/var/macports/distfiles/tesseract/3.00_2/eng.traineddata.gz
/opt/local/var/macports/software/tesseract/tesseract-3.00_2+eng.darwin_9.i386.tgz
/opt/local/share/tessdata/eng.traineddata

その/opt/local/share/tessdata にjpn.traineddataを放り込む。

$ sudo cp jpn.traineddata /opt/local/share/tessdata/

で、画像を用意。 twmodeから適当にキャプチャしたった。

tweet.png

んで、試してみると

$ tesseract tweet.png tweet -l jpn
Tesseract Open Source OCR Engine with LibTiff
name_to_image_type:Error:Unrecognized image type:tweet.png
IMAGE::read_header:Error:Can't read this image type:tweet.png
Read of file tweet.png failed.
nuehara@nuehara:~/tmp% tesseract tweet.tiff tweet -l jpn
Tesseract Open Source OCR Engine with LibTiff

pngダメなのかよ。TIFF限定かよ?

ってことで

$ convert tweet.png tweet.tiff
$ tesseract tweet.tiff tweet -l jpn
Tesseract Open Source OCR Engine with LibTiff
$ cat tweet.txt
麦二比nucハ nーu)、 菫 Z hmrs 璽:
Evsrnotsは戴會き曰本語佐RI二もヌ洲盂している昌 しいので工口浸画を瓜フ こんで賤きな櫨Iひ斉寶
きなヲヤンルのそれを検棄するといううイフ丿lツ夕愚l八付き蠢した ノノ from t伽ロs 【okl鳳Mス,
J叩ln 沖櫑県飄轟簀向

うわ、ダメすぎるこれはいかんw

タグ:OCR
posted by 麦汁 at 11:56 | Comment(2) | TrackBack(0) | その他 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
Evernoteの日本語OCRは精度良いとの噂を目にした記憶がなきにしもあらずなのでEvernoteでためしてくださいおねがいします。

Posted by momonga(21歳) at 2011年11月19日 12:02
試しに上の画像をEvernoteに放り込んでしばらくしてから
「エロ漫画」とか「ライフハック」で検索したら見事に引っ掛かったよ!
偉いねEvernote!
Posted by 麦汁 at 2011年11月19日 12:38
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。