什么是HITS算法?搜索引擎之HITS链接分析算法的原理及深度研究

HITS是英文 Hyperlink-Induced Topic Search 的缩写,意译为 “超链诱导主题搜索”。HITS 算法由 Jon Klcinberg 于1997年提出,并申请了专利。那么什么是HITS算法?HITS算法的原理又是什么?HITS算法主要研究什么网页?

什么是HITS算法?搜索引擎之HITS链接分析算法的原理及深度研究

HITS算法定义

按照 HITS 算法,用户输入查询词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值 (Authority Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。

HITS算法原理

上面的定义比较拗口,我们可以简单地说,HITS 算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。

典型的枢纽页面就是如雅虎目录、开放目录或好123这样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链接,其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。

HITS 算法是针对特定查询词的,所以称为主题搜索。

HITS算法缺点

HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段。所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始 HITS 算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。

成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接。当你的网站不能成为权威页面时,就让它成为枢纽页面。所以导出链接也是当前搜索引擎排名因素之一。绝不链接到其他网站的做法,并不是好的SEO方法。

HITS算法主要研究什么网页?

  • HITS算法主要研究(枢纽型)网页和权威型网页。
  • HITS算法主要研究(权威型)网页和目录型网页。

版权声明:本文由迟博勋博主编辑发布,如需转载请注明来源!本文地址:https://www.chiboxun.com/977.html

(0)

猜你想看

发表回复

登录后才能评论

联系博主

139-xxxx-2322

在线沟通: QQ交谈

邮箱:chinachiboxun@gmail.com