影象到文字的工作原理(又稱光學字元識別)

由於光學字元識別(OCR)技術,從影象中提取文字從未像今天這樣容易。但什麼是OCR?OCR是如何工作的?...

由於光學字元識別(OCR)技術,從影象中提取文字從未像今天這樣容易。

underused-tech-paperwork

OCR允許我們做各種有用的事情,比如使用文字查詢來搜尋影象,不需要手工列印就可以複製文件,甚至可以將手寫文字轉換成數字文字。

但是什麼是光學字元識別?它實際上是如何工作的?對你來說,這可能像是黑魔法,但在本文的結尾,你將對計算機如何識別字母和單詞有一個堅實的理解。

光學字元識別的工作原理

為了理解文字是如何從影象中提取出來的,我們首先要了解影象是什麼以及它們是如何儲存在計算機上的。

畫素是特定顏色的單個點。影象本質上是畫素的集合。影象中畫素越多,解析度越高。計算機不知道路標的影象實際上是一個路標——它只知道第一個畫素是這個顏色,下一個畫素是那個顏色,然後顯示它的所有畫素讓你看。

這意味著文字和非文字對於計算機來說沒有什麼不同,這就是為什麼光學字元識別如此困難的原因。考慮到這一點,下面是它的工作原理。

第一步:影象預處理

在提取文字之前,需要以某種方式對影象進行按摩,以使提取更容易,更容易成功。這稱為預處理,不同的軟體解決方案使用不同的技術組合。

更常見的預處理技術包括:

二值化

影象中的每個畫素都會轉換為黑色或白色。目標是弄清楚哪些畫素屬於文字,哪些畫素屬於背景,這加快了實際的OCR過程。

Binarization for Optical Character Recognition

斜切

由於文件很少以完美的對齊方式進行掃描,字元可能會傾斜甚至倒置。這裡的目標是識別水平文字行,然後旋轉影象,使這些行實際上是水平的。

去斑

無論影象是否已二值化,都可能存在干擾字元識別的噪聲。Despeckling消除了噪音並試圖平滑影象。

管線拆除

識別所有可能不是字元的行和標記,然後刪除它們,這樣實際的OCR過程就不會混淆。在掃描帶有表格和方框的文件時,這一點尤為重要。

分割槽

將影象分割為不同的文字塊,例如標識多欄文件中的列。

Zoning for Optical Character Recognition

步驟2:處理影象

首先,OCR程序嘗試為影象中的每一行文字建立基線(或者,如果在預處理中對其進行了分割槽,它將一次一個地遍歷每個分割槽)。每一行識別的字元都被一個接一個地處理。

對於每一行字元,OCR軟體透過尋找非文字畫素的垂直行來識別字符之間的間距(透過適當的二值化,這應該是顯而易見的)。這些非文字行之間的每個畫素塊被標記為表示一個字元的“標記”。因此,這一步稱為標記化。

Image processing for Optical Character Recognition

一旦影象中的所有潛在字元都標記化,OCR軟體就可以使用兩種不同的技術來識別這些標記實際上是什麼字元:

模式識別

每一個標記都被逐畫素地與一整套已知的符號(包括數字、標點符號和其他特殊符號)進行比較,並選出最接近的匹配項。這種技術也稱為矩陣匹配。

這裡有幾個缺點。首先,令牌和glyph的大小必須相似,否則它們都不匹配。第二,標記的字型必須與字形相似,這樣就排除了手寫。但如果已知代幣的字型,模式識別可以快速準確。

特徵提取

每個標記都會與描述它可能是哪種型別的字元的不同規則進行比較。例如,由一條水平線連線的兩條等高的垂直線很可能是大寫字母H。

這種技術很有用,因為它不限於某些字型或大小。在識別大寫I、小寫L和數字1之間的細微差別時,它也可以更加細緻。缺點是什麼?程式設計規則比簡單地將標記中的畫素與glyph中的畫素進行比較要複雜得多。

第三步:影象後處理

一旦完成了所有的令牌匹配,OCR軟體就可以暫停並將結果呈現給您。但通常需要做更多的捏造,以確保你不會對亂七八糟的結果翻白眼。

詞彙限制

所有的單詞都會與一個被認可的單詞詞典進行比較,任何不匹配的單詞都會被最合適的單詞替換。詞典就是詞典的一個例子。這有助於糾正帶有錯誤字元的單詞,例如“thorn”而不是“th0rn”。

特定於應用程式的最佳化

當OCR被用於特定的環境時,例如醫療或法律檔案,一種特殊的OCR可以被使用,它是專門為該環境設計的。在這些情況下,OCR軟體可能會查詢數學公式、行業特定術語等。

自然語言

這種先進的技術透過使用一種語言模型來糾正句子,這種語言模型描述了某些單詞後面跟著其他單詞的可能性。它類似於一種技術,可以預測你接下來要在移動鍵盤上鍵入什麼單詞。

如果做得好,這可以產生非常可讀的文字。

推薦的光學字元識別工具

既然您知道了OCR是如何工作的,那麼應該很容易看出並不是所有的OCR工具都是平等的。結果的準確性在很大程度上取決於軟體實現本文討論的各種OCR技術的程度。

為此,我們強烈推薦OneNote,這只是它在筆記方面勝過Evernote的一個原因。如果您願意為高階解決方案付費,請考慮OmniPage。請參閱OneNote與OmniPage的OCR比較。對於移動文件,您需要檢視這些適用於Android裝置的OCR應用程式。

如何使用OCR?有什麼我們沒提到的最喜歡的OCR工具嗎?請在下面的評論中告訴我們!

  • 發表於 2021-03-26 12:15
  • 閱讀 ( 36 )
  • 分類:科技

你可能感興趣的文章

這個googlekeep技巧會讓你成為一個更好的讀者

...使用**內建的照相/攝像應用程式。然後,使用共享選單將影象匯出到googlekeep。此方法允許您批次傳送影象。另外,你可以刪去不必要的部分,只保留書中你想要的片段。 直接在googlekeep應用程式中拍照。按相機圖...

  • 發佈於 2021-03-12 04:57
  • 閲讀 ( 35 )

今天試著用谷歌語音輸入這5個實際原因

...選擇是使用光學字元識別工具,它分析你手寫文字的掃描影象,試圖檢測你寫的東西,並吐出數字等價物。但是如果你沒有掃描器呢?或者如果你的筆跡對OCR軟體來說是難以辨認的呢? ...

  • 發佈於 2021-03-12 05:41
  • 閲讀 ( 59 )

3個最好的免費ocr工具,將您的檔案轉換回可編輯的檔案

...mes New Roman或Arial,效果會更好。另外,在掃描之前要確保影象是正面朝上的。也要瞄準檔案大小小於2MB的掃描材料。 ...

  • 發佈於 2021-03-12 15:21
  • 閲讀 ( 47 )

6款用於從影象中提取文字的最佳android ocr應用程式

... 選擇“拍照”從相機掃描文件,或選擇“選擇影象”從多媒體資料匯入影象。 開啟圖片,點選“三點溢位”選單,然後選擇“抓取影象文字”。 ...

  • 發佈於 2021-03-13 00:49
  • 閲讀 ( 55 )

免費與付費ocr軟體:比較microsoft onenote和nuance omnipage

...文字轉換為數字文字。假設您想快速複製和編輯Instagram上影象或掃描照片中的文字。你可以在任何時候用OCR工具! ...

  • 發佈於 2021-03-14 02:31
  • 閲讀 ( 57 )

微軟的最新工具可以在影片中搜索

...片。直接轉到演講者提到特定主題的部分。在影片中查詢文字幻燈片中使用的術語?影片分解使用OCR來幫助你跳到那個部分。嘗試在你上傳的影片中按名字搜尋名人。分析甚至可以理解口語或書面內容中表達的積極情緒與消極情...

  • 發佈於 2021-03-17 05:16
  • 閲讀 ( 29 )

如何使用ocr將手寫影象轉換為文字

... OCR工具分析影象中手寫或鍵入的文字,並將其轉換為可編輯文字。一些工具甚至有拼寫檢查器,在無法識別的單詞的情況下提供額外的幫助。 ...

  • 發佈於 2021-03-18 01:59
  • 閲讀 ( 43 )

7款最好的免費ocr軟體應用,可將影象轉換為文字

...存的圖片拖到OneNote中。您也可以使用OneNote將部分螢幕或影象剪輯到OneNote中。 在**的圖片上單擊滑鼠右鍵,然後選擇“從圖片複製文字”。複製的光學識別文字進入剪貼簿,您現在可以將其貼上回OneNote或Word或記事...

  • 發佈於 2021-03-18 03:41
  • 閲讀 ( 53 )

如何從計算機螢幕上的影象中清晰地提取文字

...光學字元識別(OCR)。這個重要的過程將獲取包含文字的影象,並將文字提取為可編輯的形式。 ...

  • 發佈於 2021-03-25 16:48
  • 閲讀 ( 35 )

變化好男孩讓線使用者轉錄和翻譯影象

需要在影象中轉錄文字嗎?賽凱創意的人工智慧工具,變化多端的好孩子,已經涵蓋你。它不僅可以提供即時的文字記錄,還可以將影象中的文字翻譯成幾種不同的語言。 ...

  • 發佈於 2021-03-28 09:28
  • 閲讀 ( 32 )
念塵惋秋不投稿
念塵惋秋不投稿

0 篇文章

作家榜

  1. admin 0 文章
  2. 孫小欽 0 文章
  3. JVhby0 0 文章
  4. fvpvzrr 0 文章
  5. 0sus8kksc 0 文章
  6. zsfn1903 0 文章
  7. w91395898 0 文章
  8. SuperQueen123 0 文章

相關推薦