Web结构挖掘在电子商务网站结构优化中的应(2)
2015-01-01 01:41
导读:简单PageRank算法描述如下: PR(A) = (1-d) / N d (PR(T1)/C(T1) ... PR(Tn)/C(Tn)) 其中:PR(A):页面A的PR值, PR(Ti):页面Ti的PR值,页面Ti链向页面A C(Ti):页面Ti链出的链接
简单PageRank算法描述如下:
PR(A) = (1-d) / N d (PR(T1)/C(T1) ... PR(Tn)/C(Tn))
其中:PR(A):页面A的PR值,
PR(Ti):页面Ti的PR值,页面Ti链向页面A
C(Ti):页面Ti链出的链接数目
d:阻尼系数,取值在0-1之间
N:互联网上所有网页的数目
由此可见,PageRank算法不以站点排序,页面PR值由独立的页面决定。页面的PR值由链向它的页面的PR值决定,但每个链进页面的贡献值是不同的。假如Ti页面中链出越多,它对当前页面A的贡献就越小。A的链进页面越多,其PR值也越高。阻尼系数的使用,减少了其他页面对当前页面A的排序贡献。所有页面的PR值形成了一个概率分布,所有页面的PR值之和为1。
简单PageRank算法也可以用矩阵来描述,设T为一个矩阵,T的行和列对应页面集的页面。PageRank的算法是将T的行和列互换后得到的矩阵A。为了将各列矢量的总和变成1(全概率),把各个列矢量除以各自的链接数(非零要素数), 即假如网页i有指向网页j的一个链接,则Aij=1/Ni,否则Aij=0,就形成了一个 “推移概率行列”,各个行矢量表示页面间的推移概率。由T颠倒得到A的理由是,PageRank 并非重视“链接到多少地方”而是重视“被多少地方链接”。PR值的计算,就是求属于这个推移概率行列最大特性值的固有矢量。
2.HITS算法
HITS算法综合权衡了查询内容与页面链接的关系。HITS算法以为网页的重要性依靠于用户提出的查询请求。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。HITS算法以为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。
(科教作文网http://zw.NSEaC.com编辑发布) HITS算法是一个“迭代—收敛”的过程,在获取了一个与查询主题相关的返回页面根集合(Root Set)S后,根据S中的页面的链接关系再向集合S中扩充与S中页面相链接的页面, 将S扩展成一个更大的基础集合(Base Set)T。可将T看作一个二分有向图SG=(V1,V2,E),其中:顶点集Vl:T中的Hub网页集;顶点集V2:T中的Authority网页集;边集E: Vl中的网页到V2中的网页的超链接。对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行I操纵修改它的a(u),对v执行O操纵修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的操纵I,O,直到a(u),h(v)收敛。
I 操纵:(1)
O操纵:(2)
每次迭代后需要对a(u),h(v)进行规范化处理:
式(1)反映了若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)。式(2)反映了若一个网页指向很多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)。HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。
HITS算法存在的主要题目:
(1)实际应用中,由S天生T的时间开销很昂贵;
(2)站点内部网页在权威度数值上可相互加强;
(3)网页中一些无关的链接影响A,H值的计算;
(4)存在与查询主题无关的网页即主题漂移现象。