自然语言处理使计算机能够把我们说的话处理成它可以执行的命令。了解它的基本原理,以及它如何被用来改善我们的生活。
无论是Alexa、Siri、Google Assistant、Bixby还是Cortana,如今每个拥有智能**或智能扬声器的人都有一个语音激活助手。每年,这些语音助手似乎都能更好地识别和执行我们让他们做的事情。但你有没有想过这些助手是如何处理我们说的话的?由于自然语言处理(NLP),他们成功地做到了这一点。
历史上,大多数软件只能响应一组固定的特定命令。您单击“打开”将打开一个文件,或者电子表格将基于某些符号和公式名称计算公式。一个程序使用它被编码的编程语言进行通信,因此当它被给予它能识别的输入时,它将产生一个输出。在这种情况下,单词就像一组不同的机械杠杆,总是提供所需的输出。
这与人类语言不同,人类语言是复杂的、非结构化的,并且基于句子结构、音调、重音、时间、标点符号和上下文有多种含义。自然语言处理是人工智能的一个分支,它试图在机器识别的输入和人类语言之间架起一座桥梁。这样当我们自然地说话或打字时,机器就会产生与我们所说的一致的输出。
这是通过获取大量的数据点,从人类语言的各种元素中,在实际单词的意义之上,推导出意义来实现的。这一过程与机器学习的概念密切相关,机器学习使计算机在获得更多数据点的同时能够学习更多的知识。这就是为什么我们经常与之交互的大多数自然语言处理机器似乎随着时间的推移变得更好的原因。
为了更好地阐明这个概念,让我们看看NLP中用于处理语言和信息的两种最高级技术。
关联:人工智能的问题:机器在学习东西,但不能理解它们
标记化意味着将语音分解成单词或句子。每段文本都是一个标记,这些标记是在处理您的语音时显示的。听起来很简单,但实际上,这是一个棘手的过程。
假设您正在使用文本语音转换软件(如Google键盘)向朋友发送消息。当你的**接收到这段录音并通过谷歌的文本语音转换算法进行处理时,谷歌必须将你刚才说的话拆分成代币。这些代币将是“见面”、“我”、“在”、“在”和“公园”。
人们在词与词之间有不同长度的停顿,而其他语言在词与词之间的停顿听上去也不尽相同。不同语言和方言的标记化过程差别很大。
词干分析和柠檬化都涉及到去除机器能够识别的词根的附加或变体的过程。这样做的目的是使不同单词之间的语音解释保持一致,这些单词的意思基本上是相同的,这使得NLP处理速度更快。
词干提取是一个粗糙而快速的过程,它涉及到从词根中删除词缀,词缀是附加在词根之前或之后的词。这就把这个词变成了最简单的基本形式,只需删除字母。例如:
正如你所看到的,词干可能会产生负面影响,完全改变一个词的意思。“Severity”和“sever”不是同一个意思,但后缀“ity”在词干生成过程中被删除。
另一方面,引理化是一个更复杂的过程,它涉及到将一个词缩减到它们的基部,称为引理。这需要考虑单词的上下文以及它在句子中的用法。它还包括在单词及其引理的数据库中查找一个术语。例如:
在这个例子中,引理化成功地将术语“severity”变成了“severe”,这是它的引理形式和词根。
前面的例子只是开始触及自然语言处理的表面。它包含了广泛的实践和使用场景,其中许多我们在日常生活中使用。以下是NLP目前使用的几个例子:
还有更多。NLP目前正在新闻媒体、医疗技术、工作场所管理和金融等领域开发和部署。将来我们有可能和机器人进行一次全面而复杂的对话。
如果你有兴趣学习更多关于NLP的知识,在朝向数据科学博客或斯坦福德国家语言处理小组上有很多很棒的资源,你可以查看。
...但如果你只能选择一种语言来学习和掌握未来,那就没有什么可比性了:那一定是JavaScript。 ...
...都有汇编语言编写的一些逻辑,因为如果您知道自己在做什么,就可以发现一些真正的速度提升。但是,对于绝大多数编程项目,您根本不需要知道任何程序集。 ...
...有不同于传统编程语言的特殊特性。我们将深入研究它是什么,它是如何工作的,以及你能用它做什么。我们把它分解一下。 ...
... 没有什么比从一个文档复制和粘贴到另一个文档更令人沮丧的了,只会看到所有格式错误弹出。PDF为此而臭名昭著;当您将一个格式完美的文档交给Word时,它通常会像***一样...
... 关于它是什么,有各种各样的技术解释,但今天我们将以一种简单的方式来定义面向对象编程。 ...
...由于一个更强大的新来者,它的使用正在迅速消失。但是什么是ASCII,它的用途是什么? ...
...小的方式影响世界。我想很多人都不知道他们每天都在和什么样的合成实体互动。一个例子是HPV疫苗,它是人工合成的。 例如,科学家杰伊·凯斯林正在研制一种合成抗疟疾药物,这种抗疟疾的数量级比任何天然生产的抗疟疾药...