计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

一种基于DOM的Web信息提取方法(1)

2014-06-23 01:10
导读:计算机应用论文论文,一种基于DOM的Web信息提取方法(1)样式参考,免费教你怎么写,格式要求,科教论文网提供的这篇文章不错:摘 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的
摘 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取;DOM;XPath;XSLT;基于DOM的网页结构判断1 引言 Web信息的爆炸性增长,给我们带来了获取更多信息的机会,同时,也增加了在纷繁复杂的Web信息库中准确地获取信息的困难。例如,使用搜索引擎搜索信息时,返回信息成千上万,其中包含大量无用甚至是错误的信息,进行人工挑选要耗费时间和精力。另外,由于网页的编写方式,编写风格各种各样,使得所搜集的信息也不适于结构化存储。本文提出了一种基于DOM[1]的Web信息提取方法,利用DOM提取信息,并进行相关信息源的搜索,实现信息的精确定位。2 基本思想 本文的基本思想是:将不够规范的HTML文档整理成格式良好的XHTML[2]文档,再将XHTML文档解析成一个树模型——DOM树,然后围绕DOM树进行信息的提取以及相似结构网页的搜索,提取的结果以XML文档表示,并进行结构化存储。如图1所示:图1 设计思想以下是对各个处理步骤的分析说明:2.1 整理 HTML用一对预定义的标记来描述包含在其间文本的表现方式,要求标记成对出现。事实上,有许多HTML文档中的标记不符合HTML语法要求,比如缺乏结束标记等。这些错误影响对HTML文档的正确解析,因此,为便于解析,首先要对HTML文档进行整理,将其转换成XHTML文档,XHTML严格建立在XML基础之上,并且明确定义了格式良好的文档规则。这样就可以像对待一般XML文档一样对待XHTML文档,可以利用各种XML标准技术来操纵XHTML文档。对HTML文档的整理主要是以下三个方面: (1)为不成对的标记加上结束符“/”,例如
    上一篇:基于GPS车辆跟踪系统的移动对象数据库应用研究 下一篇:没有了