计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

基于ID3算法的Web日志挖掘预处理中的Frame页面过滤(2)

2014-06-04 01:06
导读:图2 改进的Web日志数据预处理过程 为此,我们对图1中描述的常用的Web日志数据预处理技术进行相应的改进,图2是改进后的数据预处理过程。 改进的Web日志
图2 改进的Web日志数据预处理过程 为此,我们对图1中描述的常用的Web日志数据预处理技术进行相应的改进,图2是改进后的数据预处理过程。 改进的Web日志数据预处理过程中,在会话识别与路径补充这两个步骤之间增加了Frame页面过滤。Frame页面过滤要完成的任务是,根据从站点的拓扑结构中提取出的Frame-SubFrame关系表,从会话识别过程中生成的会话文件中,寻找Frame页面及其SubFrame页面,将会话文件中对Frame和其SubFrame页面的请求用Frame页面代替,从而删除会话文件中多余的SubFrame页面。由于删除了会话文件中的SubFrame页面,因此会丢失SubFrame页面中包含的超链接信息,所以接下来的路径补充步骤中必须使用提升的站点结构。3 基于ID3算法的Frame页面过滤预处理技术 如上文所述,我们应用Frame页面过滤技术有效地消除了Frame页面对日志挖掘的影响,然而我们知道Web日志挖掘的记录是成千上万的,上述Frame页面过滤算法中是对每个用户对话的每个页面进行是否Frame和SubFrame的判断,并且对判断出的子框架逐个地进行删除,而且因为SubFrame页面的删除导致后面必须用提升的站点结构,虽然较一般预处理技术增加了兴趣度,但是效率还是比较低的,而且也增加了开销。并且SubFrame过滤中被删去,在后面的路径补全中能否完全恢复也值得高榷。而且有快速分类性质允许多粒度层的决策树分类算法可以解决此问题。本文在此用决策树算法[1] [3]中著名的ID3算法对提高Frame过滤效率进行了一些探讨共2页: 1 [2] 下一页 论文出处(作者):
基于数字图象处理的条码快速识别方法研究
基于ARM的家庭视频服务器的研究
上一篇:土壤墒情网络监测主机的全方位层式安全模型设 下一篇:没有了