搜索引擎是如何工作的?

对很多人来说,谷歌就是互联网。这可以说是自互联网本身以来最重要的发明。尽管此后搜索引擎发生了很大变化,但其基本原则仍然是一样的。...

JoelLee于2017年10月10日更新的文章

how-do-search-engines-work-featured-2

对许多人来说,谷歌就是互联网。它是寻找新网站的起点,可以说是自互联网本身以来最重要的发明。没有搜索引擎,大众将无法访问新的网络内容。

但是你知道搜索引擎是怎么工作的吗?每个搜索引擎都有三个主要功能:爬网(发现内容)、索引(跟踪和存储内容)和检索(在用户查询搜索引擎时获取相关内容)。

爬行

爬行是一切开始的地方:获取有关网站的数据。

这包括扫描网站并收集每个页面的详细信息:标题、图像、关键字、其他链接页面等。不同的爬虫也可能会查找不同的详细信息,如页面布局、广告放置的位置、链接是否塞满等。

但是一个网站是如何被爬网的呢?一个自动化的机器人(称为“蜘蛛”)尽可能快地访问一页又一页,使用页面链接找到下一步要去的地方。即使在早期,谷歌的蜘蛛每秒也能阅读几百页。现在,已经有几千了。

当web爬虫访问页面时,它会收集页面上的每个链接,并将其添加到其下一个要访问的页面列表中。它将转到列表中的下一页,收集该页面上的链接,然后重复。Web爬虫也会偶尔重访过去的页面,以查看是否发生了任何更改。

这意味着从索引站点链接的任何站点最终都将被爬网。有些站点的爬网频率更高,有些站点的爬网深度更大,但有时如果站点的页面层次结构太复杂,爬网程序可能会放弃。

了解网络爬虫工作方式的一种方法是自己构建一个。我们已经编写了一个关于在PHP中创建基本web爬虫的教程,所以如果您有任何编程经验,请检查一下。

请注意,页面可以标记为“noindex”,这就像要求搜索引擎跳过索引一样。互联网上未编入索引的部分被称为“deepweb”,有些网站,比如那些托管在tornetwork上的网站,不能被搜索引擎编入索引。(什么是TOR和洋葱路由?)

索引

索引是指对爬网中的数据进行处理并将其放入数据库中。

想象一下,列出你拥有的所有书籍、它们的出版商、作者、它们的类型、它们的页数等等。爬行是指你梳理每本书,而索引是指你将它们记录到你的列表中。

现在想象一下,这不仅仅是一个装满书的房间,而是世界上所有的图书馆。这是谷歌的一个小规模版本,谷歌将所有这些数据存储在拥有数千PB驱动器的庞大数据中心。

以下是谷歌一个搜索数据中心的内幕:

检索和排名

检索是指搜索引擎处理您的搜索查询并返回与您的查询最相关的页面。

大多数搜索引擎通过它们的检索方法来区分自己:它们使用不同的标准来选择最适合您所要查找的内容的页面。这就是为什么谷歌和必应的搜索结果各不相同,也就是为什么Wolfram Alpha如此独特有用。

排名算法检查搜索查询,以确定每一个页面的相关性。由于其复杂性,公司将其排名算法作为专利行业机密。一个更好的算法可以转化为更好的搜索体验。

他们也不希望网页创作者玩弄这个系统,不公平地爬到搜索结果的顶端。如果一个搜索引擎的内部方**被泄露出去,各种各样的人肯定会利用这些知识损害像你我这样的搜索者。

当然,搜索引擎开发是可能的,但现在已经不那么容易了。

最初,搜索引擎根据网页上出现的关键字频率来对网站进行排序,从而导致“关键词填充”——用关键词填充页面,胡说八道。

然后出现了链接重要性的概念:搜索引擎对有大量传入链接的站点进行估价,因为它们将站点流行度解释为相关性。但这导致了网络上到处都是链接垃圾信息。如今,搜索引擎根据链接站点的“权威性”对链接进行加权。搜索引擎对来自**机构的链接比链接目录的链接更看重。

如今,排名算法比以往任何时候都更加神秘,“搜索引擎优化”也不那么重要。好的搜索引擎排名现在来自高质量的内容和伟大的用户体验。

搜索引擎的下一步是什么?

啊,现在有个有趣的问题。答案是“语义”:页面内容的含义。您可以在我们对语义标记及其未来影响的概述中了解更多。

但要点是这样的。

现在,你可以搜索“无麸质饼干”,但结果可能会返回无麸质饼干食谱。相反,你可能会发现一些常规的饼干食谱上写着“这个食谱不含麸质”,它有正确的关键词,但却有错误的含义。

使用语义,您可以搜索cookie食谱,然后删除某些成分:面粉、坚果等。您还可以将结果缩小到只包含准备时间小于30分钟的食谱,并查看分数为4/5或更高的食谱。那会很酷的,对吧?我们就在那里!

还不知道搜索引擎是怎么工作的?看看谷歌如何解释这个过程:

如果你发现这很有趣,你可能也想了解图像搜索引擎是如何工作的。

图片来源:普里霍多夫/摄

  • 发表于 2021-03-12 13:31
  • 阅读 ( 170 )
  • 分类:IT

你可能感兴趣的文章

从扶手椅上开始一个在线侧推,使用以下5门课程

... 三。开始并经营一个成功和盈利的家庭搜索引擎优化业务 ...

  • 发布于 2021-03-15 13:49
  • 阅读 ( 175 )

如何在outlook搜索不工作时修复它

Outlook搜索是否不起作用?修好它并不难。只需按照我们的七种方法让Outlook搜索重新工作。 ...

  • 发布于 2021-03-18 06:53
  • 阅读 ( 408 )

最好的airbnb克隆车,船,和其他租赁服务

...所,但你也应该考虑自己的本地选择。像“同事”这样的搜索引擎可以减轻搜索引擎的负担。 ...

  • 发布于 2021-03-24 05:58
  • 阅读 ( 169 )

如何像专业人士一样使用alfred for mac搜索web

...的表单比Spotlight有更多的搜索选项。它可以让你用不同的搜索引擎进行基本的网络搜索。你也可以设置关键字来搜索你经常使用的网站上的内容。 ...

  • 发布于 2021-03-24 10:38
  • 阅读 ( 316 )

如何编写搜索引擎优化友好的内容与谷歌文档

...云存储和协作。尽管如此,许多作家不知道他们可以优化搜索引擎优化与谷歌文档的内容!在本文中,我们将向您展示如何。 ...

  • 发布于 2021-03-26 22:08
  • 阅读 ( 225 )

如何在谷歌地图上设置你的位置

...获得相关结果,您需要设置搜索位置首选项。让我们看看如何在谷歌地图上做到这一点。 ...

  • 发布于 2021-03-28 05:13
  • 阅读 ( 1103 )

如何合法地使用谷歌搜索任何书籍

... 如果你准备好了解更多,下面是如何用谷歌搜索任何一本书。 ...

  • 发布于 2021-03-30 17:25
  • 阅读 ( 280 )

如何使用vlookup在google表单中查找数据

...过一个搜索值搜索并链接电子表格中的两组数据。下面是如何使用它。 与microsoftexcel不同,googlesheets中没有VLOOKUP向导来帮助您,因此您必须手动键入公式。 vlookup在google表单中的工作原理 VLOOKUP听起来可能让人困惑,但一旦你...

  • 发布于 2021-04-02 22:04
  • 阅读 ( 237 )

如何在excel中搜索注释

...择“工作簿”。单击“查找下一个”开始搜索。 相关:如何在Excel中隐藏注释、公式、溢出文本和网格线 将突出显示第一个附加了注释的单元格,其中包含您输入的搜索词。注释不会自动显示。但是,您不必关闭“查找并替换...

  • 发布于 2021-04-09 11:17
  • 阅读 ( 149 )

付费色情网站如何在2016年生存

...问者。一个典型的网络企业的流量是靠知名度繁荣的——搜索引擎、Twitter上的口碑、Facebook页面的会员资格、电视广告。一个典型的网站,包括你现在正在阅读的网站,培育了许多不同的流,每一个流发送不同的访问者。
 但...

  • 发布于 2021-05-06 17:31
  • 阅读 ( 222 )
lin35164
lin35164

0 篇文章

相关推荐