论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
论文关键词:日志数据 信息技术 数据仓库 联机分析处理
论文摘要:电子商务(EC)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。
本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。
一、绪论
互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线发布。
电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。
电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。
在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。
在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。
二、站点信息统计方法
Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的
主要特点:
1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。
2.结构是隐含的。如电子文档SGML格式。