HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法
发布日期:2012-05-19 浏览次数:1795
做SEO优化的朋友都知道HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。但这个算法貌似不是很好懂,一般不经过深思熟虑普通人是很难想通透的,如果有一天你搞得懂了HITS算法,也就意味着你的优化技术已经高人一等了。
该算法的大概思想是指利用页面之间的引用链来发掘隐含在其中的有用信息(eg:权威性),具有计算简单且效率高的特点。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。
内容权威度与网页自身直接提供内容信息的质量息息相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。
HITS算法认为对每一个网页应该将其内容权威度和链接权威度隔开来思索,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。然而HITS算法也有其显然的不足。
首先,它完全将网页的内容或文本消除在外,仅思索网页之间的链接结构来剖析页面的权威性,这与现实网络中的权威页面对比,其不科学性昭然若揭。因为权威页面必须针对某一主题或关键词而言。某一页面对一确定主题的具有较大权威性的页面并不体表在其他与其无关的主题方面同样具备权威性。
其次一个页面对另一页面的引用有多种情况,其中包含了一页面对另一页面的肯定,但除此之外也有其他目的链接,eg:为了导航或为了付费广告。而HITS算法在达成过程中均没有思索以上情况.致使了结果与目标的差距。就HITS算法的思想与实现过程做了详细的研究与概括。
针对前面第一种瑕疵,就有相关的学者提出了一种利用超链文字及其周边文字与关键字相匹配而计算超链权值的方法,并引入系数对周围文字和超链文字进行权值的相对遏制,很好地将页面文本信息引入到HITS算法,提升了算法的可靠性,并在现实中取得了优良的效果。
对HITS算法的第二个瑕疵,即非正常目的的引用.在HITS算法看来,也误认为是正常引用,致使实际结果与目标的出入。后来,经过不断的改善。HITS算法又引入了时间参数,即借助对一链接引用的时问长短来评判是否为正常引用。因为非正常链接其引用时问必将不会很长(eg:交换链接、广告链接),相反,倘若一页面对另一页面的链接时间较长,则必将反映此页面就是用户的相找页面。即目标页面或起码是正常引用。
倘使设定时间阀值,则可以将非正常引用的链接在HITS算法的实现过程中甄选出来。如设定访问时间少于1min者为非正常引用。另外可构造时间访问函数,遏制权威页面的相对大小。如随访问时间的增大而其权威性也逐渐非线性增大.这样可为HITS算法的权威页面提供更得当、更科学的解释。SEO优化链接稳定性,在外部链接的建设中,占领非常重要的地位。链接越稳定,对排名的帮助就愈大。