span

在互联网时代,搜索引擎可以说是日常生活的一部分。作为产品人,也应该了解其工作原理。搜索引擎工作原理概述步骤分析及流程图介绍如下:

搜索引擎工作原理概述

搜索引擎工作原理的三个过程:主要是爬行抓取、预处理和排名。

第一步:爬取

各搜索引擎蜘蛛一般会采取广度+深度两种策略,就是从首页-栏目页-文章页一层一层往下,另外就是从一个链接直接往链接往下爬取。

第二步:预处理

所谓预处理的,也可以叫索引,就是搜索引擎把互联网上公开可以爬取到的网页放在一个地方进行处理,比如提取那些文本,去除重复的,判断内容质量等。

第三步:排名

关于这里很重要,可以说是理解搜索引擎工作原理的核心,即理解了搜索引擎排名原理,那么你就知道为什么你的网页排不上去,为什么别的可以排上去了。关于搜索引擎处理排名因素有很多,这里举例下百度的主要有六大因素:相关性、权威性、时效性、重要性、丰富度、受欢迎程度。

搜索引擎工作原理分析

搜索引擎是根据需求在互联网上抓取有用的信息。抓取模式分四种:

  1. 批量抓取
  2. 需求抓取
  3. 被动抓取
  4. 蜘蛛蹲守

批量抓取:搜索引擎会根据某种特征在互联网上寻找内容,寻找到所需要的内容后进行批量抓取,抓取后放入临时数据库。(放入数据库≠收录,临时数据库内的所有内容都等同于“备胎”。入库后搜索引擎会进行检索,通过数据分析判断临时数据库内的内容是否有用,有用的内容会进行收录,无用的内容会从库里删除。)

需求抓取:主动对网页标题内带有当下网络热门的话题、需求大但互联网稀缺的内容进行主动需求抓取。(例如3月15号会播出315晚会,晚会播出后网友肯定想要了解315晚会曝光的内容,此时315晚会相关内容需求量增加,搜索引擎就会主要出击,根据”315晚会“这个需求在互联网上寻找标题跟315晚会相关的内容)

被动抓取:用户通过主动推送的方式将网页推送给搜索引擎,让搜索引擎抓取识别。(可理解为当搜索引擎很难发现你,你通过主动推送的方式让搜索引擎发现你)

蜘蛛蹲守:当网站整体内容质量高,搜索引擎就会派搜索引擎蜘蛛长期蹲守在网站内,只要发现新内容就会进行抓取。(网站能做到日收录、秒收录,说明网站内有常驻蜘蛛。如何做到日收、秒收?养殖搜索引擎蜘蛛喜好即可!)

搜索引擎工作原理流程图

搜索引擎工作原理五个步骤

蜘蛛发现网页并爬取>将网页放入临时数据库>判断临时数据库种的数据是否清理/保留>保留的网页建立索引>排名。

以上就是搜索引擎工作原理,希望对你有所帮助。如有疑问欢迎评论区留言。

最后修改:2022 年 11 月 05 日
如果觉得我的文章对你有用,请随意赞赏