swampの忘備録

エンジニアが、情報系のイベント行ったときとかプログラミングなどの情報工学について忘備録として書くつもりです。

OCRを使ってみた。

後期末試験が近くなってきました。
本当は、こんなものを書かずに、勉強をしなければいけません。

さて、僕は、貴重な時間を無駄にして試験対策プリントを作るのが好きなので、今回は、国語の問題をつくっています。

国語といえば、長文読解問題があります。
今回は、2つも長文読解の問題が出るのです。もちろん問題を作ります。

1つ目の長文読解問題の文章はなんと1時間ぐらいかけて全部手打ちしました。(もっと時間がかかったかも)

2つ目の長文読解問題の文章を見たとき、思いました。

「超面倒くさい。なんとか手打ちしないで済む方法はないか」

というわけで、OCRという便利なものを使いましょう。

1.OCRとは?
 OCR(Optical character recognition)とは、日本語で光学文字認識のことです。
 
 画像を文字列のデータに変換してくれるものです。

 画像取り込み、レイアウト解析、行の切り出し、文字の切り出し、文字認識、フォーマット出力の順で行うようです。

 「特徴抽出」などが重要で機械学習とかパターン認識が大きく関係している技術です。

 参考ページ 文字の読み取り・認識技術 | OCR技術解説 | メディアドライブ


2.何を使うか。
 あまり時間がなかったので詳細な比較はできないことをご了承ください。

 今回は、Wordに出力したいので、「Online OCR」というものを使ってみました。

 もっと探したらもっと良いものがあるかもしれません。

3.実際に使用してみて
 スマホで撮影した写真をPCに送って処理したからかもしれないが、なんか微妙だった。
 
 大体できているものもあるけど、全く認識していないものもあった。

 f:id:swamptk:20180204122031p:plain

 ところどころに線を引いているのが悪いのか、撮影の仕方が悪いのかと思い画像を撮影しなおしました。

 1ページを一気に撮影したのがいけなかったのかと思い、分割して撮影しました。

 そうしてもやっぱり間違いが多い。

 試しにPDFファイルを突っ込んでみたらほとんど間違えずに認識をしてくれました。

 Online OCRは画像には向いてないのかなあと思い、別のものを使うことにしました。

4.再び何を使うのか。
 スマホカメラを使うので、スマホアプリがいいかなあと思い、「Textスキャナ」というものを使うことにしました。
 
play.google.com

 これを使って文字認識をしてみましょう。

5.実際に使ってみて
 これは、非常に高い認識をしてくれました。

 ほとんど間違いがありませんでした。素晴らしい!
 
 とてもよかったです。

6.まとめ
 とても雑になってしまいましたが、とても「Textスキャナ」は、気軽でとても使いやすいものでした。

 ぜひ、皆さんも使ってみてください。