影象到文字的工作原理（又稱光學字元識別）

由於光學字元識別（OCR）技術，從影象中提取文字從未像今天這樣容易。但什麼是OCR？OCR是如何工作的？...

由於光學字元識別（OCR）技術，從影象中提取文字從未像今天這樣容易。

OCR允許我們做各種有用的事情，比如使用文字查詢來搜尋影象，不需要手工列印就可以複製文件，甚至可以將手寫文字轉換成數字文字。

但是什麼是光學字元識別？它實際上是如何工作的？對你來說，這可能像是黑魔法，但在本文的結尾，你將對計算機如何識別字母和單詞有一個堅實的理解。

光學字元識別的工作原理

為了理解文字是如何從影象中提取出來的，我們首先要了解影象是什麼以及它們是如何儲存在計算機上的。

畫素是特定顏色的單個點。影象本質上是畫素的集合。影象中畫素越多，解析度越高。計算機不知道路標的影象實際上是一個路標——它只知道第一個畫素是這個顏色，下一個畫素是那個顏色，然後顯示它的所有畫素讓你看。

這意味著文字和非文字對於計算機來說沒有什麼不同，這就是為什麼光學字元識別如此困難的原因。考慮到這一點，下面是它的工作原理。

第一步：影象預處理

在提取文字之前，需要以某種方式對影象進行按摩，以使提取更容易，更容易成功。這稱為預處理，不同的軟體解決方案使用不同的技術組合。

更常見的預處理技術包括：

二值化

影象中的每個畫素都會轉換為黑色或白色。目標是弄清楚哪些畫素屬於文字，哪些畫素屬於背景，這加快了實際的OCR過程。

斜切

由於文件很少以完美的對齊方式進行掃描，字元可能會傾斜甚至倒置。這裡的目標是識別水平文字行，然後旋轉影象，使這些行實際上是水平的。

去斑

無論影象是否已二值化，都可能存在干擾字元識別的噪聲。Despeckling消除了噪音並試圖平滑影象。

管線拆除

識別所有可能不是字元的行和標記，然後刪除它們，這樣實際的OCR過程就不會混淆。在掃描帶有表格和方框的文件時，這一點尤為重要。

分割槽

將影象分割為不同的文字塊，例如標識多欄文件中的列。

步驟2：處理影象

首先，OCR程序嘗試為影象中的每一行文字建立基線（或者，如果在預處理中對其進行了分割槽，它將一次一個地遍歷每個分割槽）。每一行識別的字元都被一個接一個地處理。

對於每一行字元，OCR軟體透過尋找非文字畫素的垂直行來識別字符之間的間距（透過適當的二值化，這應該是顯而易見的）。這些非文字行之間的每個畫素塊被標記為表示一個字元的“標記”。因此，這一步稱為標記化。

一旦影象中的所有潛在字元都標記化，OCR軟體就可以使用兩種不同的技術來識別這些標記實際上是什麼字元：

模式識別

每一個標記都被逐畫素地與一整套已知的符號（包括數字、標點符號和其他特殊符號）進行比較，並選出最接近的匹配項。這種技術也稱為矩陣匹配。

這裡有幾個缺點。首先，令牌和glyph的大小必須相似，否則它們都不匹配。第二，標記的字型必須與字形相似，這樣就排除了手寫。但如果已知代幣的字型，模式識別可以快速準確。

特徵提取

每個標記都會與描述它可能是哪種型別的字元的不同規則進行比較。例如，由一條水平線連線的兩條等高的垂直線很可能是大寫字母H。

這種技術很有用，因為它不限於某些字型或大小。在識別大寫I、小寫L和數字1之間的細微差別時，它也可以更加細緻。缺點是什麼？程式設計規則比簡單地將標記中的畫素與glyph中的畫素進行比較要複雜得多。

第三步：影象後處理

一旦完成了所有的令牌匹配，OCR軟體就可以暫停並將結果呈現給您。但通常需要做更多的捏造，以確保你不會對亂七八糟的結果翻白眼。

詞彙限制

所有的單詞都會與一個被認可的單詞詞典進行比較，任何不匹配的單詞都會被最合適的單詞替換。詞典就是詞典的一個例子。這有助於糾正帶有錯誤字元的單詞，例如“thorn”而不是“th0rn”。

特定於應用程式的最佳化

當OCR被用於特定的環境時，例如醫療或法律檔案，一種特殊的OCR可以被使用，它是專門為該環境設計的。在這些情況下，OCR軟體可能會查詢數學公式、行業特定術語等。

自然語言

這種先進的技術透過使用一種語言模型來糾正句子，這種語言模型描述了某些單詞後面跟著其他單詞的可能性。它類似於一種技術，可以預測你接下來要在移動鍵盤上鍵入什麼單詞。

如果做得好，這可以產生非常可讀的文字。

這個googlekeep技巧會讓你成為一個更好的讀者

...使用**內建的照相/攝像應用程式。然後，使用共享選單將影象匯出到googlekeep。此方法允許您批次傳送影象。另外，你可以刪去不必要的部分，只保留書中你想要的片段。直接在googlekeep應用程式中拍照。按相機圖...

發佈於 2021-03-12 04:57
閲讀 ( 35 )

今天試著用谷歌語音輸入這5個實際原因

...選擇是使用光學字元識別工具，它分析你手寫文字的掃描影象，試圖檢測你寫的東西，並吐出數字等價物。但是如果你沒有掃描器呢？或者如果你的筆跡對OCR軟體來說是難以辨認的呢？ ...

發佈於 2021-03-12 05:41
閲讀 ( 59 )

3個最好的免費ocr工具，將您的檔案轉換回可編輯的檔案

...mes New Roman或Arial，效果會更好。另外，在掃描之前要確保影象是正面朝上的。也要瞄準檔案大小小於2MB的掃描材料。 ...

發佈於 2021-03-12 15:21
閲讀 ( 47 )

6款用於從影象中提取文字的最佳android ocr應用程式

... 選擇“拍照”從相機掃描文件，或選擇“選擇影象”從多媒體資料匯入影象。開啟圖片，點選“三點溢位”選單，然後選擇“抓取影象文字”。 ...

發佈於 2021-03-13 00:49
閲讀 ( 55 )

免費與付費ocr軟體：比較microsoft onenote和nuance omnipage

...文字轉換為數字文字。假設您想快速複製和編輯Instagram上影象或掃描照片中的文字。你可以在任何時候用OCR工具！ ...

發佈於 2021-03-14 02:31
閲讀 ( 57 )

微軟的最新工具可以在影片中搜索

...片。直接轉到演講者提到特定主題的部分。在影片中查詢文字幻燈片中使用的術語？影片分解使用OCR來幫助你跳到那個部分。嘗試在你上傳的影片中按名字搜尋名人。分析甚至可以理解口語或書面內容中表達的積極情緒與消極情...

發佈於 2021-03-17 05:16
閲讀 ( 29 )

如何使用ocr將手寫影象轉換為文字

... OCR工具分析影象中手寫或鍵入的文字，並將其轉換為可編輯文字。一些工具甚至有拼寫檢查器，在無法識別的單詞的情況下提供額外的幫助。 ...

發佈於 2021-03-18 01:59
閲讀 ( 43 )

7款最好的免費ocr軟體應用，可將影象轉換為文字

...存的圖片拖到OneNote中。您也可以使用OneNote將部分螢幕或影象剪輯到OneNote中。在**的圖片上單擊滑鼠右鍵，然後選擇“從圖片複製文字”。複製的光學識別文字進入剪貼簿，您現在可以將其貼上回OneNote或Word或記事...

發佈於 2021-03-18 03:41
閲讀 ( 53 )

如何從計算機螢幕上的影象中清晰地提取文字

...光學字元識別（OCR）。這個重要的過程將獲取包含文字的影象，並將文字提取為可編輯的形式。 ...

發佈於 2021-03-25 16:48
閲讀 ( 35 )

變化好男孩讓線使用者轉錄和翻譯影象

需要在影象中轉錄文字嗎？賽凱創意的人工智慧工具，變化多端的好孩子，已經涵蓋你。它不僅可以提供即時的文字記錄，還可以將影象中的文字翻譯成幾種不同的語言。 ...

發佈於 2021-03-28 09:28
閲讀 ( 32 )