一种基于粗糙集的小型电子商务挖掘模型(1)(2)
2015-11-05 02:24
导读:服务器端数据采集的缺点是:如果客户使用本地CACHE和代理(Proxy),则Web服务器仅能获取代理信息,而得不到客户的真正信息;同样, Web环境中有各种CA
服务器端数据采集的缺点是:如果客户使用本地CACHE和代理(Proxy),则Web服务器仅能获取代理信息,而得不到客户的真正信息;同样, Web环境中有各种CACHE,Web日志记录可能不准确。这些都将导致信息的不完整以及信息量的不足。
2. 代理端数据采集。许多网络服务商通过CACHE为客户提高导航速度,它通过海量的Web Servers来采集客户数据。代理不仅可以采集多个客户的行为,还可以采集多个网站的行为。代理端数据采集适合有大量静态页面的网站。
代理端数据采集的缺点是:多个客户使用同一个代理服务器的环境下,如何标识某个客户,如何识别属于该客户的会话和使用记录,此问题在很大程度上影响挖掘质量。
3. 客户端数据采集。客户端通过JavaScript、Java Applets或修改过的浏览器记录数据。但JavaScript不能记录客户所有的行为,而Java Applets可以记录客户的所有行为,但效率低。
客户端数据采集的缺点是:客户可能会在浏览器设置中关闭JavaScript、Java Applets功能;涉及客户的个人隐私信息,需要客户配合。
综上所述,对于电子商务网站而言,尽管有多种数据采集源,但实现起来比较困难,而且所得数据是很不完整的。
基于以上分析,在建立电子商务网站时,除客户注册表、商品表等表外,应在服务器端维持两个基本表:客户行为表和商业行为表。客户行为表记录客户的行为,如:登录、查询、添加商品到购物车、浏览等行为。商业行为表记录客户的实际购物情况,如所购商品、数量、日期等。
表的基本结构包含如下一些基本字段:
客户行为表:Customer No, Customer Type, Date, Login Time, Exit Time, Home, Browse, Search, Login, Pay, Register, Add to Cart, Select
其中,Customer Type为客户类别:0-普通客户,1-会员客户。
(科教论文网 lw.NsEac.com编辑整理)
商业行为表:Customer No, Merchandises, Number, Date, Time
可见,上述两个表格记录了挖掘所需的基本数据,使得数据采集更易于完成。
四、 粗糙集数据清洗
利用粗糙集的约简算法对数据进行清洗。主要是计算知识的约简、核、上近似及下近似(正域)。以决策规则为例。表1是某电子商店的购物记录, P,Q,R,S代表4种商品;Customer No. 为客户号。是:表示购买了某商品;否:表示没有购买某商品。 共2页: 1 [2] 下一页 论文出处(作者):
电子商务个性化服务与Web使用挖掘技术
电子商务与安全防范