计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

一种基于粗糙集的小型电子商务挖掘模型(2)

2014-06-08 01:24
导读:服务器端数据采集的缺点是:假如客户使用本地CACHE和代理(Proxy),则Web服务器仅能获取代理信息,而得不到客户的真正信息;同样, Web环境中有各种CA

  服务器端数据采集的缺点是:假如客户使用本地CACHE和代理(Proxy),则Web服务器仅能获取代理信息,而得不到客户的真正信息;同样, Web环境中有各种CACHE,Web日志记录可能不正确。这些都将导致信息的不完整以及信息量的不足。
  2. 代理端数据采集。很多网络服务商通过CACHE为客户进步导航速度,它通过海量的Web Servers来采集客户数据。代理不仅可以采集多个客户的行为,还可以采集多个网站的行为。代理端数据采集适合有大量静态页面的网站。
  代理端数据采集的缺点是:多个客户使用同一个代理服务器的环境下,如何标识某个客户,如何识别属于该客户的会话和使用记录,此题目在很大程度上影响挖掘质量。
  3. 客户端数据采集。客户端通过JavaScript、Java Applets或修改过的浏览器记录数据。但JavaScript不能记录客户所有的行为,而Java Applets可以记录客户的所有行为,但效率低。
  客户端数据采集的缺点是:客户可能会在浏览器设置中封闭JavaScript、Java Applets功能;涉及客户的个人隐私信息,需要客户配合。
  综上所述,对于电子商务网站而言,尽管有多种数据采集源,但实现起来比较困难,而且所得数据是很不完整的。
  基于以上分析,在建立电子商务网站时,除客户注册表、商品表等表外,应在服务器端维持两个基本表:客户行为表和贸易行为表。客户行为表记录客户的行为,如:登录、查询、添加商品到购物车、浏览等行为。贸易行为表记录客户的实际购物情况,如所购商品、数目、日期等。
  表的基本结构包含如下一些基本字段:
  客户行为表:Customer No, Customer Type, Date, Login Time, Exit Time, Home, Browse, Search, Login, Pay, Register, Add to Cart, Select (科教作文网http://zw.ΝsΕAc.com发布)
  其中,Customer Type为客户种别:0-普通客户,1-会员客户。
  贸易行为表:Customer No, Merchandises, Number, Date, Time
  可见,上述两个表格记录了挖掘所需的基本数据,使得数据采集更易于完成。
  四、 粗糙集数据清洗
  利用粗糙集的约简算法对数据进行清洗。主要是计算知识的约简、核、上近似及下近似(正域)。以决策规则为例。表1是某电子商店的购物记录, P,Q,R,S代表4种商品;Customer No. 为客户号。是:表示购买了某商品;否:表示没有购买某商品。
  
  以下对表1进行粗糙集数据清洗。
  根据粗糙集理论,论域U={t1,t2,t3,t4,t5,t6,t7,t8},条件属性集C={P,Q,R},决策属性集D={S}。轻易计算:
  U关于等价关系C的划分U/C={X1,X2,X3,X4,X5},其中,X1={t1},X2={t2,t3},X3={t4},X4={t5,t7},X5={t6,t8}。
  U关于等价关系D的划分U/D={Y1,Y2},其中,Y1={t2,t3,t6,t7,t8},Y2={t1,t4,t5}。
  类似地,U/{P}={{t1,t2,t3},{t4,t5,t6,t7,t8}},U/{Q}={{t1,t2,t3,t4,t6,t8},{t5,t7}},U/{R}={{t2,t3,t5,t6,t7,t8},{t1,t4}},U/{P,Q}={{t1,t2,t3},{t4,t6,t8},{t5,t7}},U/{P,R}={{t1},{t2,t3},{t4},{t5,t6,t7,t8}},U/{Q,R}={{t1,t4},{t2,t3,t6,t8},{t5,t7}}
 以下计算正域:
  posC(D)={ t1,t2,t3,t4,t6,t8}
  pos(C-{P})(D)={ t1,t4,t2,t3,t6,t8}=posC(D)
  pos(C-{Q})(D)={ t1,t2,t3,t4}≠posC(D)
  pos(C-{R})(D)=φ≠posC(D)
  pos(C-{P, Q})(D)={ t1,t4}≠posC(D)
  pos(C-{P,R})(D)=φ≠posC(D)
  pos(C-{Q,R})(D)=φ≠posC(D)
  因此,C的D约简为{Q,R}。故表1经过粗糙集数据清洗后得到表2。
  
  
  五、 决策规则的提取 (科教论文网 lw.NsEac.com编辑整理)
  
  定义决策规则为:
  rij:des(Xi) → des(Yj),Xi∩Yj≠?准。
上一篇:农村电子商务市场潜力分析 下一篇:没有了