当前位置:首页 > 网站教程 > 内容列表

PR算法的猜想:基于数量假设和质量假设的猜想

点击次数:更新时间:2012-06-16 08:06:51【打印】【关闭】

数量假设:该页面收到越多的入链(其他网页对该页面的链接称为入链),则表示该网页越重要。也就是一个好的页面肯定会获得很多其他页面的推荐。

质量假设:指向该页面的入链的质量不同,质量高的网页会通过链接传递更多的权重,越是质量高的网页指向该页面,则表示该页面越重要。也就是一个好的网页肯定也会获得其他好的网页的认同。

通过以上两个假设,PR算法刚开始会挑选一批网页作为种子网页并赋予较高的PR,通过迭代递归算法计算来更新每个页面节点的PR得分,直到得分稳定为止,即为当前页面PR得分。

PR计算出来的结果是对网页重要性的评估,作为网页排名其中的一个因素。但PR是一个全局性的算法,和具体查询无关,即和相关性无关的。PR高不能 说明该网页相关。假如搜索引擎只用PR这一算法进行排序的话,那无论你输入任何的查询词,输出的结果都是一样的,谁PR高就谁排前面。

过度追求PR的结果往往得不偿失,PR重要吗?PR不重要吗?看果园去!

对于PR来说,一个高不是高,大家高才是真的高!

PR的计算很简单,假如A网页有两个出链分别连接到B网页和C网页。假如A网页的PR值是1,那么以概率平均分配的原则,B和C网页都会平均得到 0.5值的传递。这种计算方法是建立在随机游走模型上的,随机游走模型是指假设这个网页有三个出链,用户点击每个出链的概率是一样的,所以传递的PR值也 是一样的。

由于网页之间是互相连接的,所以PR不能一直循环传递下去,否则最后所有网页的PR值都会无穷大。所以PR算法引入了衰减因子的概念,即是中转的次数越多离种子网页越远,传递的PR值越少,直到传递值为0得分稳定为止。才计算最后PR得分,加入排序结果的计算中。

另外,有些网页只有入链没有出链,那么会导致积蓄的PR值越来越高,而不能传递出去。这样会违背PR的设计初衷,影响公平性。这种结构被称为链接陷阱。

远程跳转是解决链接陷阱的通用方式,就是PR的传递并不局限于出链的传递,也可以以一定的概率向任意一个页面传递PR。

PR算法作为谷歌标志性算法,早已普遍运用到反作弊当中,即以挑选出一批作弊网页作为种子网页(挑选信任网页也亦然),给予一定的作弊分值(或信任分值),跟PR算法一样进行传递,设定一个惩罚阀值,达到则为作弊网页。

这种反作弊是基于假设:

一、如果一个网页将其链接指向作弊网页,则这个网页很可能也是作弊网页。

二、如果一个网页被作弊网页指向,则不能说明这个网页是作弊的。

空间、网站业务联系QQ:2429256177 邮箱:beescms@163.com
客服

工作时间

周一至周日

8:00 - 18:00

在线客服

点击这里给我发消息 BUG反馈

点击这里给我发消息 网站建设

点击这里给我发消息 域名空间

点击这里给我发消息 授权服务

点击这里给我发消息 售前咨询

点击这里给我发消息 意见反馈

点击这里给我发消息 销售客服

联系手机

18288433386

powerd by BEESCMS