一种基于粗糙集的小型电子商务挖掘模型(2)

2014-06-08 01:24

导读：服务器端数据采集的缺点是：假如客户使用本地CACHE和代理（Proxy）,则Web服务器仅能获取代理信息，而得不到客户的真正信息；同样， Web环境中有各种CA

　　服务器端数据采集的缺点是：假如客户使用本地CACHE和代理（Proxy）,则Web服务器仅能获取代理信息，而得不到客户的真正信息；同样， Web环境中有各种CACHE，Web日志记录可能不正确。这些都将导致信息的不完整以及信息量的不足。
　　2. 代理端数据采集。很多网络服务商通过CACHE为客户进步导航速度，它通过海量的Web Servers来采集客户数据。代理不仅可以采集多个客户的行为，还可以采集多个网站的行为。代理端数据采集适合有大量静态页面的网站。
　　代理端数据采集的缺点是：多个客户使用同一个代理服务器的环境下，如何标识某个客户，如何识别属于该客户的会话和使用记录，此题目在很大程度上影响挖掘质量。
　　3. 客户端数据采集。客户端通过JavaScript、Java Applets或修改过的浏览器记录数据。但JavaScript不能记录客户所有的行为，而Java Applets可以记录客户的所有行为，但效率低。
　　客户端数据采集的缺点是：客户可能会在浏览器设置中封闭JavaScript、Java Applets功能；涉及客户的个人隐私信息，需要客户配合。
　　综上所述，对于电子商务网站而言，尽管有多种数据采集源，但实现起来比较困难，而且所得数据是很不完整的。
　　基于以上分析，在建立电子商务网站时，除客户注册表、商品表等表外，应在服务器端维持两个基本表：客户行为表和贸易行为表。客户行为表记录客户的行为，如：登录、查询、添加商品到购物车、浏览等行为。贸易行为表记录客户的实际购物情况，如所购商品、数目、日期等。
　　表的基本结构包含如下一些基本字段：
　　客户行为表：Customer No, Customer Type, Date, Login Time, Exit Time, Home, Browse, Search, Login, Pay, Register, Add to Cart, Select （科教作文网http://zw.ΝsΕAc.com发布）
　　其中，Customer Type为客户种别：0-普通客户，1-会员客户。
　　贸易行为表：Customer No, Merchandises, Number, Date, Time
　　可见，上述两个表格记录了挖掘所需的基本数据，使得数据采集更易于完成。
　　四、粗糙集数据清洗
　　利用粗糙集的约简算法对数据进行清洗。主要是计算知识的约简、核、上近似及下近似（正域）。以决策规则为例。表1是某电子商店的购物记录， P，Q，R，S代表4种商品；Customer No. 为客户号。是：表示购买了某商品；否：表示没有购买某商品。
　　
　　以下对表1进行粗糙集数据清洗。
　　根据粗糙集理论，论域U={t1，t2，t3，t4，t5，t6，t7，t8}，条件属性集C={P，Q，R}，决策属性集D={S}。轻易计算：
　　U关于等价关系C的划分U/C={X1，X2，X3，X4，X5}，其中，X1={t1}，X2={t2，t3}，X3={t4}，X4={t5，t7}，X5={t6，t8}。
　　U关于等价关系D的划分U/D={Y1，Y2}，其中，Y1={t2，t3，t6，t7，t8}，Y2={t1，t4，t5}。
　　类似地，U/{P}={{t1，t2，t3}，{t4，t5，t6，t7，t8}}，U/{Q}={{t1，t2，t3，t4，t6，t8}，{t5，t7}}，U/{R}={{t2，t3，t5，t6，t7，t8}，{t1，t4}}，U/{P，Q}={{t1，t2，t3}，{t4，t6，t8}，{t5，t7}}，U/{P，R}={{t1}，{t2，t3}，{t4}，{t5，t6，t7，t8}}，U/{Q，R}={{t1，t4}，{t2，t3，t6，t8}，{t5，t7}}
　以下计算正域：
　　posC（D）={ t1，t2，t3，t4，t6，t8}
　　pos（C-{P}）（D）={ t1，t4，t2，t3，t6，t8}=posC(D)
　　pos（C-{Q}）（D）={ t1，t2，t3，t4}≠posC(D)
　　pos（C-{R}）（D）=φ≠posC(D)
　　pos（C-{P， Q}）（D）={ t1，t4}≠posC(D)
　　pos（C-{P，R}）（D）=φ≠posC(D)
　　pos（C-{Q，R}）（D）=φ≠posC(D)
　　因此，C的D约简为{Q，R}。故表1经过粗糙集数据清洗后得到表2。
　　
　　
　　五、决策规则的提取（科教论文网 lw.NsEac.com编辑整理）
　　
　　定义决策规则为：
　　rij：des（Xi） → des（Yj），Xi∩Yj≠?准。

上一篇：农村电子商务市场潜力分析下一篇：没有了