画像からテキストへの変換の仕組み（光学式文字認識とも呼ばれる）

光学式文字認識（OCR）技術のおかげで、画像からテキストを抽出することが今ほど簡単になったことはありません。しかし、OCRとは何なのか、どのように機能するのか...。

光学式文字認識（OCR）技術のおかげで、画像からテキストを抽出することが今ほど簡単になったことはありません。

OCRを使うと、テキストクエリを使って画像を検索したり、手で印刷せずに文書をコピーしたり、さらには手書きの文字をデジタルテキストに変換したりと、さまざまな便利なことができます。

しかし、光学式文字認識とは何なのだろうか。実際のところ、どうなんでしょうか？黒魔術のように思えるかもしれませんが、この記事を読み終える頃には、コンピュータが文字や言葉を認識する仕組みについてしっかりと理解できるようになっていることでしょう。

光学式文字認識の動作原理

画像からテキストを抽出する仕組みを理解するためには、まず、画像とは何か、どのようにコンピュータに保存されているかを理解する必要がある。

画素とは、特定の色の1つの点のことです。画像は基本的にピクセルの集合体です。画像の画素数が多いほど、解像度が高くなります。コンピュータは、道路標識の画像が実際に道路標識であることを知らない。ただ、最初の画素がこの色で、次の画素がこの色であることを知っていて、その画素をすべて表示し、あなたに見せるのである。

つまり、コンピュータにとってはテキストも非テキストも変わらないということであり、これが光学式文字認識の難しさである。これを踏まえて、その方法を説明します。

ステップ1：画像の前処理

テキストを抽出する前に、抽出を容易にし、成功しやすくするために、画像に何らかの加工を施す必要があります。これは前処理と呼ばれ、ソフトウェアソリューションによって、さまざまな技術の組み合わせがあります。

より一般的な前処理技術としては、以下のようなものがあります。

2値化

画像のすべての画素が黒か白に変換されます。どの画素がテキストに属し、どの画素が背景に属するかを把握することで、実際のOCR処理を高速化することを目的としています。

ベベルカット

原稿は完全なアライメントでスキャンされることはほとんどないため、文字が斜めになったり、反転したりすることがあります。ここでは、水平方向の文字列を識別し、その文字列が実際に水平になるように画像を回転させることを目的としています。

スポット除去

デスペクト処理では、ノイズを除去し、画像を滑らかにすることを試みる。

パイプラインの撤去

実際のOCR処理で混乱しないように、文字でない可能性のある線やマークをすべて識別し、それらを削除します。特に、表や箱のある原稿をスキャンする場合は、この点が重要です。

ゾーニング

画像を異なるテキストブロックに分割し、例えば、複数カラムの文書でカラムを識別することができます。

ステップ2：画像の処理

まず、OCR処理では、画像内のテキストの各行に対してベースラインを作成しようとします（前処理で分割されている場合は、各分割を一度に走査します）。認識された文字は1行ずつ処理されます。

各行の文字について、OCR ソフトウェアは、非テキストピクセルの縦線を探すことによって、文字間の間隔を特定します（これは適切な二値化によって明らかになるはずです）。これらの非テキスト行の間の各ピクセルのブロックは、文字を表す「トークン」としてマークされる。そのため、このステップはトークン化と呼ばれています。

画像内のすべての潜在的な文字がトークン化されると、OCRソフトウェアは2つの異なる技術を使用して、これらのトークンが実際にどのような文字であるかを識別することができます。

パターン認識

各マーカーは、既知の記号（数字、句読点、その他の特殊記号を含む）と画素ごとに比較され、最も近いものが選択されます。この手法は、マトリックスマッチングとも呼ばれる。

ここには、いくつかの欠点があります。まず、トークンとグリフの大きさが同じでなければ、両者は一致しない。第二に、トークンのフォントがグリフに類似している必要があり、手書きは除外されます。しかし、トークンのフォントが分かっていれば、パターン認識を高速かつ正確に行うことができる。

特徴抽出

それぞれのマークは、どのようなキャラクターなのか、異なるルールで比較されます。例えば、同じ高さの2本の縦線を横線で結ぶと、大文字のHになる可能性が高い。

この手法は、特定のフォントやサイズに限定されないので便利です。また、大文字のI、小文字のL、数字の1などの微妙な違いを認識することもできます。デメリットは何ですか？プログラミングのルールは、マーカー内のピクセルとグリフ内のピクセルを単純に比較するよりもはるかに複雑である。

ステップ3：画像の後処理

すべてのトークンの照合が終わると、OCRソフトは一時停止し、結果を表示することができます。しかし、雑な仕上がりに目を丸くしないためには、通常、より多くの加工が必要です。

ボキャブラリー制限

すべての単語は承認された単語辞書と比較され、不一致の単語は最も適切な単語に置き換えられます。辞書は語彙の一例である。例えば、"th0rn "ではなく、"thorn "のように、間違った文字で書かれた言葉を修正するのに役立ちます。

アプリケーションに応じた最適化

医療文書や法律文書など、特定の状況でOCRを使用する場合、その環境用に特別に設計されたOCRを使用することができます。このような場合、OCR ソフトウェアは、数式や業界特有の用語などを探すことがあります。

自然言語

特定の単語の後に他の単語が続く可能性を記述した言語モデルを用いて文章を修正する高度な技術です。携帯電話のキーボードで次に入力する単語を予測する技術に似ています。

うまくすれば、とても読みやすい文章ができあがります。

推奨する光学式文字認識ツール

OCRの仕組みがわかったところで、すべてのOCRツールが同じように作られているわけではないことは、容易にご理解いただけると思います。結果の精度は、この記事で紹介したさまざまなOCR技術をどの程度ソフトウェアが実装しているかに大きく依存します。

そのため、私たちはOneNoteを強くお勧めします。OneNoteがノートの取り方においてEvernoteを凌駕する理由の1つです。OCRの比較は、OneNoteとOmniPageをご覧ください。モバイル文書には、Androidデバイス用のこれらのOCRアプリをチェックする必要があります。

OCRをどのように使っていますか？私たちが紹介していないお気に入りのOCRツールがあれば、下のコメント欄で教えてください。

2021-03-26 12:15 に公開
閲覧 ( 25 )
分類：IT