图像到文本的工作原理(又称光学字符识别)

由于光学字符识别(OCR)技术,从图像中提取文本从未像今天这样容易。但什么是OCR?OCR是如何工作的?...

由于光学字符识别(OCR)技术,从图像中提取文本从未像今天这样容易。

underused-tech-paperwork

OCR允许我们做各种有用的事情,比如使用文本查询来搜索图像,不需要手工打印就可以复制文档,甚至可以将手写文本转换成数字文本。

但是什么是光学字符识别?它实际上是如何工作的?对你来说,这可能像是黑魔法,但在本文的结尾,你将对计算机如何识别字母和单词有一个坚实的理解。

光学字符识别的工作原理

为了理解文本是如何从图像中提取出来的,我们首先要了解图像是什么以及它们是如何存储在计算机上的。

像素是特定颜色的单个点。图像本质上是像素的集合。图像中像素越多,分辨率越高。计算机不知道路标的图像实际上是一个路标——它只知道第一个像素是这个颜色,下一个像素是那个颜色,然后显示它的所有像素让你看。

这意味着文本和非文本对于计算机来说没有什么不同,这就是为什么光学字符识别如此困难的原因。考虑到这一点,下面是它的工作原理。

第一步:图像预处理

在提取文本之前,需要以某种方式对图像进行按摩,以使提取更容易,更容易成功。这称为预处理,不同的软件解决方案使用不同的技术组合。

更常见的预处理技术包括:

二值化

图像中的每个像素都会转换为黑色或白色。目标是弄清楚哪些像素属于文本,哪些像素属于背景,这加快了实际的OCR过程。

Binarization for Optical Character Recognition

斜切

由于文档很少以完美的对齐方式进行扫描,字符可能会倾斜甚至倒置。这里的目标是识别水平文本行,然后旋转图像,使这些行实际上是水平的。

去斑

无论图像是否已二值化,都可能存在干扰字符识别的噪声。Despeckling消除了噪音并试图平滑图像。

管线拆除

识别所有可能不是字符的行和标记,然后删除它们,这样实际的OCR过程就不会混淆。在扫描带有表格和方框的文档时,这一点尤为重要。

分区

将图像分割为不同的文本块,例如标识多栏文档中的列。

Zoning for Optical Character Recognition

步骤2:处理图像

首先,OCR进程尝试为图像中的每一行文本建立基线(或者,如果在预处理中对其进行了分区,它将一次一个地遍历每个分区)。每一行识别的字符都被一个接一个地处理。

对于每一行字符,OCR软件通过寻找非文本像素的垂直行来识别字符之间的间距(通过适当的二值化,这应该是显而易见的)。这些非文本行之间的每个像素块被标记为表示一个字符的“标记”。因此,这一步称为标记化。

Image processing for Optical Character Recognition

一旦图像中的所有潜在字符都标记化,OCR软件就可以使用两种不同的技术来识别这些标记实际上是什么字符:

模式识别

每一个标记都被逐像素地与一整套已知的符号(包括数字、标点符号和其他特殊符号)进行比较,并选出最接近的匹配项。这种技术也称为矩阵匹配。

这里有几个缺点。首先,令牌和glyph的大小必须相似,否则它们都不匹配。第二,标记的字体必须与字形相似,这样就排除了手写。但如果已知代币的字体,模式识别可以快速准确。

特征提取

每个标记都会与描述它可能是哪种类型的字符的不同规则进行比较。例如,由一条水平线连接的两条等高的垂直线很可能是大写字母H。

这种技术很有用,因为它不限于某些字体或大小。在识别大写I、小写L和数字1之间的细微差别时,它也可以更加细致。缺点是什么?编程规则比简单地将标记中的像素与glyph中的像素进行比较要复杂得多。

第三步:图像后处理

一旦完成了所有的令牌匹配,OCR软件就可以暂停并将结果呈现给您。但通常需要做更多的捏造,以确保你不会对乱七八糟的结果翻白眼。

词汇限制

所有的单词都会与一个被认可的单词词典进行比较,任何不匹配的单词都会被最合适的单词替换。词典就是词典的一个例子。这有助于纠正带有错误字符的单词,例如“thorn”而不是“th0rn”。

特定于应用程序的优化

当OCR被用于特定的环境时,例如医疗或法律文件,一种特殊的OCR可以被使用,它是专门为该环境设计的。在这些情况下,OCR软件可能会查找数学公式、行业特定术语等。

自然语言

这种先进的技术通过使用一种语言模型来纠正句子,这种语言模型描述了某些单词后面跟着其他单词的可能性。它类似于一种技术,可以预测你接下来要在移动键盘上键入什么单词。

如果做得好,这可以产生非常可读的文本。

推荐的光学字符识别工具

既然您知道了OCR是如何工作的,那么应该很容易看出并不是所有的OCR工具都是平等的。结果的准确性在很大程度上取决于软件实现本文讨论的各种OCR技术的程度。

为此,我们强烈推荐OneNote,这只是它在笔记方面胜过Evernote的一个原因。如果您愿意为高级解决方案付费,请考虑OmniPage。请参阅OneNote与OmniPage的OCR比较。对于移动文档,您需要查看这些适用于Android设备的OCR应用程序。

如何使用OCR?有什么我们没提到的最喜欢的OCR工具吗?请在下面的评论中告诉我们!

  • 发表于 2021-03-26 12:15
  • 阅读 ( 205 )
  • 分类:IT

你可能感兴趣的文章

这个googlekeep技巧会让你成为一个更好的读者

...使用**内置的照相/摄像应用程序。然后,使用共享菜单将图像导出到googlekeep。此方法允许您批量发送图像。另外,你可以删去不必要的部分,只保留书中你想要的片段。 直接在googlekeep应用程序中拍照。按相机图...

  • 发布于 2021-03-12 04:57
  • 阅读 ( 199 )

免费与付费ocr软件:比较microsoft onenote和nuance omnipage

...文本转换为数字文本。假设您想快速复制和编辑Instagram上图像或扫描照片中的文本。你可以在任何时候用OCR工具! ...

  • 发布于 2021-03-14 02:31
  • 阅读 ( 266 )

如何使用ocr将手写图像转换为文本

... OCR工具分析图像中手写或键入的文本,并将其转换为可编辑文本。一些工具甚至有拼写检查器,在无法识别的单词的情况下提供额外的帮助。 ...

  • 发布于 2021-03-18 01:59
  • 阅读 ( 221 )

7款最好的免费ocr软件应用,可将图像转换为文本

...存的图片拖到OneNote中。您也可以使用OneNote将部分屏幕或图像剪辑到OneNote中。 在**的图片上单击鼠标右键,然后选择“从图片复制文本”。复制的光学识别文本进入剪贴板,您现在可以将其粘贴回OneNote或Word或记事...

  • 发布于 2021-03-18 03:41
  • 阅读 ( 231 )

如何从计算机屏幕上的图像中清晰地提取文本

...光学字符识别(OCR)。这个重要的过程将获取包含文本的图像,并将文本提取为可编辑的形式。 ...

  • 发布于 2021-03-25 16:48
  • 阅读 ( 157 )

变化好男孩让线用户转录和翻译图像

需要在图像中转录文本吗?赛凯创意的人工智能工具,变化多端的好孩子,已经涵盖你。它不仅可以提供即时的文字记录,还可以将图像中的文字翻译成几种不同的语言。 ...

  • 发布于 2021-03-28 09:28
  • 阅读 ( 149 )

如何使用tesseract从linux命令行执行ocr

您可以使用Tesseract OCR引擎在Linux命令行上从图像中提取文本。它快速、准确,可以使用大约100种语言。下面是如何使用它。 光学字符识别 光学字符识别(OCR)是一种在图像中观察和查找单词,然后将其提取为可编辑文本的能...

  • 发布于 2021-04-01 21:39
  • 阅读 ( 309 )

如何在chrome中从图像中提取文本

通常,您使用光学字符识别(OCR)软件从图像中提取文本。然而,从googlechrome76开始,你可以使用一个实验性的功能从图像中提取文本,而无需任何附加软件。 当您使用OCR来检测文本时,它的计算成本很高。然而,硬件**商支持...

  • 发布于 2021-04-03 04:24
  • 阅读 ( 128 )

使用onenote 2007和2010进行ocr

...Evernote最流行的功能之一是,你可以搜索任何东西,包括图像中的文本,你可以很容易地找到它。OneNote更进一步,可以立即对您添加的图像中的任何文本进行OCR。然后,您可以轻松地使用此文本并从图像中复制它。让我们看看这...

  • 发布于 2021-04-13 19:22
  • 阅读 ( 213 )

omr公司(omr)和光学字符识别(ocr)的区别

...,在这个过程中,照片扫描或文本逐个字符地进行,扫描图像的分析和图片的翻译。 对比图 区分依据 OMR公司 光学字符识别 姓名 光学标记识别。 光学字符识别。 定义 一种程序,通过该程序我们可以从各种文件(包括...

  • 发布于 2021-07-08 13:35
  • 阅读 ( 120 )
念尘惋秋不投稿
念尘惋秋不投稿

0 篇文章

相关推荐