基于ID3算法的Web日志挖掘预处理中的Frame页面过滤(2)
2014-06-04 01:06
导读:图2 改进的Web日志数据预处理过程 为此,我们对图1中描述的常用的Web日志数据预处理技术进行相应的改进,图2是改进后的数据预处理过程。 改进的Web日志

图2 改进的Web日志数据预处理过程 为此,我们对图1中描述的常用的Web日志数据预处理技术进行相应的改进,图2是改进后的数据预处理过程。 改进的Web日志数据预处理过程中,在会话识别与路径补充这两个步骤之间增加了Frame页面过滤。Frame页面过滤要完成的任务是,根据从站点的拓扑结构中提取出的Frame-SubFrame关系表,从会话识别过程中生成的会话文件中,寻找Frame页面及其SubFrame页面,将会话文件中对Frame和其SubFrame页面的请求用Frame页面代替,从而删除会话文件中多余的SubFrame页面。由于删除了会话文件中的SubFrame页面,因此会丢失SubFrame页面中包含的超链接信息,所以接下来的路径补充步骤中必须使用提升的站点结构。3 基于ID3算法的Frame页面过滤预处理技术 如上文所述,我们应用Frame页面过滤技术有效地消除了Frame页面对日志挖掘的影响,然而我们知道Web日志挖掘的记录是成千上万的,上述Frame页面过滤算法中是对每个用户对话的每个页面进行是否Frame和SubFrame的判断,并且对判断出的子框架逐个地进行删除,而且因为SubFrame页面的删除导致后面必须用提升的站点结构,虽然较一般预处理技术增加了兴趣度,但是效率还是比较低的,而且也增加了开销。并且SubFrame过滤中被删去,在后面的路径补全中能否完全恢复也值得高榷。而且有快速分类性质允许多粒度层的决策树分类算法可以解决此问题。本文在此用决策树算法[1] [3]中著名的ID3算法对提高Frame过滤效率进行了一些探讨共2页: 1 [2] 下一页 论文出处(作者):
基于数字图象处理的条码快速识别方法研究
基于ARM的家庭视频服务器的研究