图像到文本的工作原理（又称光学字符识别）

由于光学字符识别（OCR）技术，从图像中提取文本从未像今天这样容易。但什么是OCR？OCR是如何工作的？...

由于光学字符识别（OCR）技术，从图像中提取文本从未像今天这样容易。

underused-tech-paperwork

OCR允许我们做各种有用的事情，比如使用文本查询来搜索图像，不需要手工打印就可以复制文档，甚至可以将手写文本转换成数字文本。

但是什么是光学字符识别？它实际上是如何工作的？对你来说，这可能像是黑魔法，但在本文的结尾，你将对计算机如何识别字母和单词有一个坚实的理解。

光学字符识别的工作原理

为了理解文本是如何从图像中提取出来的，我们首先要了解图像是什么以及它们是如何存储在计算机上的。

像素是特定颜色的单个点。图像本质上是像素的集合。图像中像素越多，分辨率越高。计算机不知道路标的图像实际上是一个路标——它只知道第一个像素是这个颜色，下一个像素是那个颜色，然后显示它的所有像素让你看。

这意味着文本和非文本对于计算机来说没有什么不同，这就是为什么光学字符识别如此困难的原因。考虑到这一点，下面是它的工作原理。

第一步：图像预处理

在提取文本之前，需要以某种方式对图像进行按摩，以使提取更容易，更容易成功。这称为预处理，不同的软件解决方案使用不同的技术组合。

更常见的预处理技术包括：

二值化

图像中的每个像素都会转换为黑色或白色。目标是弄清楚哪些像素属于文本，哪些像素属于背景，这加快了实际的OCR过程。

Binarization for Optical Character Recognition

斜切

由于文档很少以完美的对齐方式进行扫描，字符可能会倾斜甚至倒置。这里的目标是识别水平文本行，然后旋转图像，使这些行实际上是水平的。

去斑

无论图像是否已二值化，都可能存在干扰字符识别的噪声。Despeckling消除了噪音并试图平滑图像。

管线拆除

识别所有可能不是字符的行和标记，然后删除它们，这样实际的OCR过程就不会混淆。在扫描带有表格和方框的文档时，这一点尤为重要。

分区

将图像分割为不同的文本块，例如标识多栏文档中的列。

Zoning for Optical Character Recognition

步骤2：处理图像

首先，OCR进程尝试为图像中的每一行文本建立基线（或者，如果在预处理中对其进行了分区，它将一次一个地遍历每个分区）。每一行识别的字符都被一个接一个地处理。

对于每一行字符，OCR软件通过寻找非文本像素的垂直行来识别字符之间的间距（通过适当的二值化，这应该是显而易见的）。这些非文本行之间的每个像素块被标记为表示一个字符的“标记”。因此，这一步称为标记化。

Image processing for Optical Character Recognition

一旦图像中的所有潜在字符都标记化，OCR软件就可以使用两种不同的技术来识别这些标记实际上是什么字符：

模式识别

每一个标记都被逐像素地与一整套已知的符号（包括数字、标点符号和其他特殊符号）进行比较，并选出最接近的匹配项。这种技术也称为矩阵匹配。

这里有几个缺点。首先，令牌和glyph的大小必须相似，否则它们都不匹配。第二，标记的字体必须与字形相似，这样就排除了手写。但如果已知代币的字体，模式识别可以快速准确。

特征提取

每个标记都会与描述它可能是哪种类型的字符的不同规则进行比较。例如，由一条水平线连接的两条等高的垂直线很可能是大写字母H。

这种技术很有用，因为它不限于某些字体或大小。在识别大写I、小写L和数字1之间的细微差别时，它也可以更加细致。缺点是什么？编程规则比简单地将标记中的像素与glyph中的像素进行比较要复杂得多。

第三步：图像后处理

一旦完成了所有的令牌匹配，OCR软件就可以暂停并将结果呈现给您。但通常需要做更多的捏造，以确保你不会对乱七八糟的结果翻白眼。

词汇限制

所有的单词都会与一个被认可的单词词典进行比较，任何不匹配的单词都会被最合适的单词替换。词典就是词典的一个例子。这有助于纠正带有错误字符的单词，例如“thorn”而不是“th0rn”。

特定于应用程序的优化

当OCR被用于特定的环境时，例如医疗或法律文件，一种特殊的OCR可以被使用，它是专门为该环境设计的。在这些情况下，OCR软件可能会查找数学公式、行业特定术语等。

自然语言

这种先进的技术通过使用一种语言模型来纠正句子，这种语言模型描述了某些单词后面跟着其他单词的可能性。它类似于一种技术，可以预测你接下来要在移动键盘上键入什么单词。

如果做得好，这可以产生非常可读的文本。

这个googlekeep技巧会让你成为一个更好的读者

...使用**内置的照相/摄像应用程序。然后，使用共享菜单将图像导出到googlekeep。此方法允许您批量发送图像。另外，你可以删去不必要的部分，只保留书中你想要的片段。直接在googlekeep应用程序中拍照。按相机图...

发布于 2021-03-12 04:57
阅读 ( 199 )

免费与付费ocr软件：比较microsoft onenote和nuance omnipage

...文本转换为数字文本。假设您想快速复制和编辑Instagram上图像或扫描照片中的文本。你可以在任何时候用OCR工具！ ...

发布于 2021-03-14 02:31
阅读 ( 266 )

如何使用ocr将手写图像转换为文本

... OCR工具分析图像中手写或键入的文本，并将其转换为可编辑文本。一些工具甚至有拼写检查器，在无法识别的单词的情况下提供额外的帮助。 ...

发布于 2021-03-18 01:59
阅读 ( 221 )

7款最好的免费ocr软件应用，可将图像转换为文本

...存的图片拖到OneNote中。您也可以使用OneNote将部分屏幕或图像剪辑到OneNote中。在**的图片上单击鼠标右键，然后选择“从图片复制文本”。复制的光学识别文本进入剪贴板，您现在可以将其粘贴回OneNote或Word或记事...

发布于 2021-03-18 03:41
阅读 ( 231 )

如何从计算机屏幕上的图像中清晰地提取文本

...光学字符识别（OCR）。这个重要的过程将获取包含文本的图像，并将文本提取为可编辑的形式。 ...

发布于 2021-03-25 16:48
阅读 ( 157 )

变化好男孩让线用户转录和翻译图像

需要在图像中转录文本吗？赛凯创意的人工智能工具，变化多端的好孩子，已经涵盖你。它不仅可以提供即时的文字记录，还可以将图像中的文字翻译成几种不同的语言。 ...

发布于 2021-03-28 09:28
阅读 ( 149 )

如何使用tesseract从linux命令行执行ocr

您可以使用Tesseract OCR引擎在Linux命令行上从图像中提取文本。它快速、准确，可以使用大约100种语言。下面是如何使用它。光学字符识别光学字符识别（OCR）是一种在图像中观察和查找单词，然后将其提取为可编辑文本的能...

发布于 2021-04-01 21:39
阅读 ( 309 )

如何在chrome中从图像中提取文本

通常，您使用光学字符识别（OCR）软件从图像中提取文本。然而，从googlechrome76开始，你可以使用一个实验性的功能从图像中提取文本，而无需任何附加软件。当您使用OCR来检测文本时，它的计算成本很高。然而，硬件**商支持...

发布于 2021-04-03 04:24
阅读 ( 128 )

使用onenote 2007和2010进行ocr

...Evernote最流行的功能之一是，你可以搜索任何东西，包括图像中的文本，你可以很容易地找到它。OneNote更进一步，可以立即对您添加的图像中的任何文本进行OCR。然后，您可以轻松地使用此文本并从图像中复制它。让我们看看这...

发布于 2021-04-13 19:22
阅读 ( 213 )

omr公司(omr)和光学字符识别(ocr)的区别

...，在这个过程中，照片扫描或文本逐个字符地进行，扫描图像的分析和图片的翻译。对比图区分依据 OMR公司光学字符识别姓名光学标记识别。光学字符识别。定义一种程序，通过该程序我们可以从各种文件（包括...

发布于 2021-07-08 13:35
阅读 ( 120 )