SEO Google算法解析系列之HillTop算法

时间:12-07-26 栏目:SEO优化 作者:kyle 评论:0 点击: 4,459 次

对于搜索引擎的算法,成都SEO小五不想多做解释。了解搜索引擎某一个小部份的算法,有利于我们在SEO操作中把握合适的度量。真正的全部算法解析是不可能的。但是有助于我们更好的理解搜索引擎。

上一篇我们介绍了潜在语义索引(LSI),今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献。本文侧重于原始算法的分析,不考虑过多复杂因素,让您更容易理解算法本质。

一、Hilltop算法的由来

Hilltop算法同PageRank算法同样是搜索引擎结果排序的一项专利。HillTop算法的指导思想和PageRank是一致的,即都通过反向链接的数量和质量来确定搜索结果的排序权重,不过HillTop算法认为来自相同主题的相关文档链接对于搜索者的价值会更大。

这里重点突然了反向链接的数量和质量。

关于PageRank算法,我们知道,在最基本的搜索结果排序中,Google的PageRank算法决定了一个网站的重要程度及最后的排名。根据这个原则,一个拥有100个链接的网站比一个只有10个链接的网站排名要高。在很多情况下这个因素都很重要。

PageRank页面级别系统单纯根据网页上的外部链接站点的数量,质量及页面等级决定该网页的“重要性”,但却忽略了链接页面对查询条件的主题相关性,导致一些网页即使主题与该查询条件并无关系,但也由于偶而提及该查询关键词而在搜索结果中得到很好的排名。从而影响了搜索结果的相关性与精准性。 早在2000年,美国加州多伦多大学计算机系的Krishna Bharat意识到基于页面等级的PR排名系统中存在瑕玼,于是提出了“Hilltop”新算法,并于次年1月份申请了Hilltop专利权,Google成为受让方。

SEO Rank公司的CEOAtul Gupta在文章中说,“Hilltop算法在2011年11月16号的更新(号称佛罗里达更新)中起到了不可轻视的作用。”在Google后来的更新中,不但运用了Google自身的页面等级和相关性算法,而且还结合使用了Hilltop算法用于精工调整页面等级的效果。

HillTop算法之所以使用了很多年才做为Google的算法之一,可见是经过了相当长时间的测试。

但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。在1999与2000年,当这个算法被Bharat与其他Google开发人员开发出来的时候,他们称这种对主题有影响的文档为“专家”文档,而只有从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中:HillTop算法就显得非常的重要了。

Google最早利用HillTop算法去定义相关网站:一个网站与另一个网站的相关性,实际上,HillTop算法在Google也中作为一个识别跨站点的链接交换干扰(spam)与识别相似链接的技术。HillTop算法要求:如果有两个以上相关主题的网站链接到你的网站,那么你的网站在搜索结果中出现的机会会更大,如果HillTop算法不查找到最少两个相关性的网站,那么搜索返回的结果的机会绝对是0。

二、HillTop算法到底是什么?

 

Hilltop 算法的定义到底是什么?

简单的来说,来自描述相同主题的相关文档(专家文档)的链接对于搜索者的价值会更大,即相同主题网站之间的链接比不相关网站的链接价值要更大,这样的算法叫Hilltop算法。

HillTop算法集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。

HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。

 

三、HillTop算法的工作原理

 

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中:HillTop算法就显得非常的重要了。

Google不但要考虑满足查询结果的网页上的外部链接页的重要性(页面等级),还要考虑这些链接页对查询主题的相关性,HillTop算法要求如果有两个以上相关主题的网站链接到你的网站,那么你的网站在搜索结果中出现的机会会更大,如果HillTop算法不查找到最少两个相关性的网站,那么搜索返回的结果的机会绝对是0。Hilltop算法实际上是拒绝那些通过任意链接的方法来扰乱Google的排名规则而得到较好排名的做法,一定程度上避免了非相关主题的、高PR值的站点的反向链接对排名造成的巨大影响,使排名更趋向搜索关键词的匹配。

简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。算法主要分为两个过程:

一、专家页面的寻找和评分;搜索引擎根据用户查询日志发现热门关键词后,开始针对这些热门关键词寻找专家页面,成为专家页的2个必要因素,

1)必须拥有足够多而且不存在隶属关系的出链,

2)至少存在一个短语包含该热门关键词的所有术语。

确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。

以下举个简单的以“汽车消费”这个热门关键词为例,“中国汽车消费网”的首页和友情链接页就是这个关键词的专家页面,因为他具有足够多而且不隶属315che.com主机域名和同C类ip的出链,同时标题中的“中国汽车消费网”也包含“汽车”和“消费”这两个术语。

接下来评分,先算第一等级(包含所有术语的短语)的得分,短语“中国汽车消费网”在标题中得到16分(假设),以及在锚文本中“中国汽车消费理财倾向大调查”得了1分,那么第一等级得分为17分,再算第二等级(差一个术语),第三等级(差两个术语)。

这样再算三个等级得分的加权和,就是专家分,注意这三个等级权重相差非常大,在原算法的等级1到等级3的权重分别是2^32,2^16和1,因为HillTop更喜欢完全匹配。

 

二、对目标页评分;一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。

取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。

我们可以看到HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。

Google应用新算法背后的原因
==========================
在1998年Google刚刚开始的时候,PR在决定适当程度与重要性方面起到了一个非常完美的作用。尽管如此,PR算法在设计上还是存在了一些脆弱性与限制性。Google在很早以前也就知道了。

HillTop算法实际上是拒绝了部分通过随意交换链接的方法来扰乱Google的排名规则而得到较好排名的做法,而在HillTop的论文中也提到很多关于识别“网站链接交换联盟”的设计:如根据IPv4地址的头3段,根据域名的别名推测:example.com = example.com.cn;

PR值对于搜索关键词的匹配度作用不大:因为在很多包含相应关键词的非相关主题的网站具有很高的PR值。这就是Google在HillTop算法中尽量避免的东西:应该尽其所能去列出与搜索关键词相关的结果。

总得看来,从过去到今天,很多搜索引擎停止了那种只使用一种有价值的算法去决定排名的做法。如:meta keyword标签等。这只是一个开始,Google在第一步已经完全忽略html header中的meta标签了。与不可见的meta标签相比,一个网站的可视部分使用干扰技术较在meta使用的要少,因为可视部分毕竟还要面对大部分的实际的访问者。

 

专家文档的动态智能识别
======================
基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,从目前的观察来看:Google显然首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。在运行时:Google会在庞大的内存里储存搜索频率比较高的关键词的索引,以备搜索者在短期内继续用同样的关键字短语等进行搜索。这些高频关键词还有另外一种作用,在“佛罗里达”更新之前很多人已经注意到的了:含有那些突增的搜索关键字的网站会得到较快的更新频率。如关于:"SARS",每天的搜索次数数以百万计:Google就会优先对与这个主题有关的网站进行更新。

回头看一下以前每个月的“Google Dance”,也能得出以下的结论:Google也明显地为一个关键词给予一个随机的“权重”,动态的根据关键词查询统计发现这些热门关键词,然后基于HillTop算法面向主题地找到这些含有热门关键词的网页,让这些网页作为相应关键词的“专家”文档,针对这些索引入口保持比较高的更新频率:这点显然对于应对突发事件非常有效。而那些含有查询频率比较低的关键词所对应的网页可能要1月才更新一次。简单的说就是:Google会根据主题的热门程度动态调整相应网站的索引的强度。而Google中文用户在总体用户中的比例与Google索引的中文网页在索引的总体网页中的比例,从某种程度上说,也是有一定关系的。

 

四、Hilltop新算法的意义


Hilltop新算法加大了offline优化的分数比值,更好地避免了作弊,毕竟来自相关网站的高质量链接并非那么容易,不可能唾手可得。

直接对页面进行的SEO优化很容易作弊,比如早期的Meta标签作弊,关键词堆砌作弊等等,而在新算法中,根据资料,各排名因素所占权重分别如下:

总“排名”得分由三部分组成:页面相关性得分( RelevancyScore,页面因素),页面等级得分(非页面因素)和行业得分(非页面因素),其中相关性得分(RS)= 20%,页面等级值(PR) = 40%,行业得分(HillTop得分,LS) = 40%

我们知道,RS (相关性得分:页面相关度),这是通过SEO内部优化能够得到的效果;PR (页面等级得分:外部链接度),通过不断地建立高质量的反向链接也能得到这个效果;而LS (行业得分:专家文件链接度)则需要来自专家文件的链接的转换结果;这一点更难获取。

而作为优化专家,对于排名的控制权将渐渐减弱,页面内部优化的得分只占到了20%,外部的优化则占据了80%这样高的比重,这样将加大作弊的难度。因此Hilltop算法的运用,提高了搜索结果的相关性和质量,有效降低了人工操纵排名的可能性。不过,由于Hilltop算法需要提取“专家文档”,但是这些“专家文档”的公正性,质量性无法得到完全保证,而且为了保证Hilltop算法所需的处理能力,该算法只能周期性运行,从而无法保证随时向用户提供“最新、最好”的查询结果,新站点对热门查询词的排名的难度也将加剧。

五、Hilltop算法对SEO的指导意义

1,我们知道来自相关主题的链接的权重加大,那么在建立链接的时候就必须注意网页的相关性,不能单纯考虑对方PR,而是应该注意对方站点或页面是否和自己的站点或页面主题相关,相同主题的网站链接较之非相关网站具有更高价值,要尽可能避免低质量的链接,尤其是Spam性质的链接。

2,在建立链接时,应该加强与“专家站点”的链接。比如一些相关网上目录(Dmoz等),黄页;以及相关主题站点的链接等。

3,根据成都SEO小五的理解,Google首先给予edu、gov类站点于很高的优先级,甚至将它们视为“专家文档”,如果这些站点或页面的主题跟你的站点或页面的主题相关,那么两个以上来自这样站点的链接,将会带给你极大的权重。其次,来自热门词,也就是网友高频率搜索的关键词,包括突然间爆发的关键词,这样的站点会得到Google较快的、优先的更新频率,因为在“爆发”的过程中,这些关键词的主题网站有一部分将被Google列为“专家文档”,与类似主题的网站交换链接会临时获得较高的权重。

六、Hiltop在应用中不足:

专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。

Hiltop忽略了大多数非专家页面的影响。

在Hiltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。

Hiltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hiltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。

Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。

总结:HillTop算法存在一种博弈的思想,在链接方面同行业的网站既需要竞争更需要合作,只有被同行“认可”的网站对热门关键关键词的查询才会被排在前面。HillTop基本毁灭了小网站对热门关键词的奢望,除非你对热门关键词有超强的预期能力,但是这种流量只会持续很短的时间。当然HillTop只是排名的一个重要因素,并不是全部。

小五后记:HillTop算法是Google核心算法之一。在国外提得非常多。这里标记存档。以备后用。

成都SEO小五嚎2句: 本文是(成都SEO小五)辛苦弄出来的,转载成都SEO小五原创的请保留链接: SEO Google算法解析系列之HillTop算法,3Q

SEO Google算法解析系列之HillTop算法:等您坐沙发呢!

来给哥评论评论


------====== 小五公告 ======------
成都SEO小五,专注成都搜索引擎优化。
小五善长站内外优化,C#、PHP开发,中英文SEO,Google中英文和百度优化技术。欢迎群内交流。伸手党请绕路,求资源的请绕开,求问题解答的请进群内交流。开放了一个QQ交流群:160750032。加入验证时请标注任何SEO相交字眼。友情链接直接Q我,收录正常,内容大部份原创、SEO或者程序开发、网络营销、线上推广等相关行业即可。

常用工具

赞助广告

来看过哥的人