谈聚类挖掘在电子商务中的应用(2)
2013-08-28 01:24
导读:通常挖掘频繁网页集的方法是在给定某一支持度的基础上进行的,满足该给定支持度的一个频繁网页集中的网页可能是另一个或另几个频繁网页集中的元素
通常挖掘频繁网页集的方法是在给定某一支持度的基础上进行的,满足该给定支持度的一个频繁网页集中的网页可能是另一个或另几个频繁网页集中的元素,那么将这些网页应该聚合到前一项目集还是后面的某一项目集?正确的选择应该是看这些网页和哪一项目集联系更为密切,可采用的方案有两种:提高支持度继续挖掘频繁网页集直到每一网页仅处于一个项目集或利用各频繁网页集中网页之间关联规则的可信度。进一步仔细分析,前一方案不可取,首先可能不存在一个支持度使每个网页仅位于一个频繁网页集中;其次即使存在这样一个支持度,再进行多次的频繁网页集挖掘代价也太高,实际中是不可行的。
相比之下,后一方案可行度高,在挖掘出满足指定支持度的频繁网页集的基础上,可以较为方便地计算出每一个频繁网页集中的每个关联规则的可信度。可信度的大小也反映了网页之间关联的密切程度。为此,计算每个频繁网页集中所有的关联规则的可信度,在此基础上计算其所有关联规则可信度的平均值,用可信度的平均值反映网页与不同的频繁网页集之间联系的密切程度。
3.利用超图进行网页聚类
超图是对图的扩充,允许一条边连接三个或三个以上的点。每条边带有权的超图称为加权超图,在挖掘出频繁网页集和关联规则的基础上,可以得到网站的加权超图。超图中的一个顶点代表一个网页,超图的边称为超边,超边连接的顶点是频繁网页集中的网页。每个超边的权取该边所对应的频繁网页集中所有关联规则可信度的平均值。
上图为超图的示意图,代表A,B和C所组成的频繁网页集的超边的权值,0.7是A,B和C三个网页所组成的所有关联规则可信度的平均值。
为了使聚集结果的每个类中的网页具有高度相关性,超图中仅包含出现在强关联规则中的网页。利用超图进行聚类的方法是逐步切割超边将超图进行分割,分割成多个子超图,分割的原则是被切割的超边的权值和尽可能小,从而保证将相互关联比较小的网页分割在不同的子图,而将关联比较密切的网页保留在同一子图内。分割过程继续进行直到被切割超边的权值和与留下的超边权值和的比值大于某一临界值,或所得到的子超图数目达到某指定值,分割过程结束,留下的各子超图便是聚类的结果。每一个子超图对应一个聚类,超图中的各顶点代表该聚类中所包含的网页。
(科教作文网http://zw.ΝsΕAc.Com编辑整理) 4.事务和用户聚类
在将网页进行聚类的基础上,可以将浏览网站的事务和用户进行聚类。浏览事务聚类的原则是根据事务和网页聚类的相似度进行,将事务聚合在相似度最高的网页类中。事务和网页类的相似度可以按照如下公式计算:
|Tj∩Ci|/|Ci|
其中,Tj为一个事务,Ci为一个聚类,|Tj∩Ci|为Tj和Ci中所包含的相同页面的数目,|Ci|为Ci中所包含的页面数目。
在记录网站用户标志的情况下,可以通过用户的浏览事务聚类将用户进行聚类,即将访问相似网页的用户聚在同一类。
5.聚类挖掘结果的可视化
聚类挖掘的结果是多维的,由于笛卡儿坐标系最多只有三个坐标,所以不能用通常的方法作图。而且这