一种基于DOM的Web信息提取方法(1)

2014-06-23 01:10

导读：计算机应用论文论文，一种基于DOM的Web信息提取方法(1)样式参考，免费教你怎么写，格式要求，科教论文网提供的这篇文章不错：摘要文章提出一种基于DOM的Web信息提取方法，通过归纳学习获得被提取信息的

摘要文章提出一种基于DOM的Web信息提取方法，通过归纳学习获得被提取信息的定位路径，利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式，根据网页元素与DOM节点对应关系，判断所获得信息源是否适用于已有提取模式。关键词 Web信息提取；DOM；XPath；XSLT；基于DOM的网页结构判断1 引言 Web信息的爆炸性增长，给我们带来了获取更多信息的机会，同时，也增加了在纷繁复杂的Web信息库中准确地获取信息的困难。例如，使用搜索引擎搜索信息时，返回信息成千上万，其中包含大量无用甚至是错误的信息，进行人工挑选要耗费时间和精力。另外，由于网页的编写方式，编写风格各种各样，使得所搜集的信息也不适于结构化存储。本文提出了一种基于DOM[1]的Web信息提取方法，利用DOM提取信息，并进行相关信息源的搜索，实现信息的精确定位。2 基本思想本文的基本思想是：将不够规范的HTML文档整理成格式良好的XHTML[2]文档，再将XHTML文档解析成一个树模型——DOM树，然后围绕DOM树进行信息的提取以及相似结构网页的搜索，提取的结果以XML文档表示，并进行结构化存储。如图1所示：

图1 设计思想以下是对各个处理步骤的分析说明：2.1 整理 HTML用一对预定义的标记来描述包含在其间文本的表现方式，要求标记成对出现。事实上，有许多HTML文档中的标记不符合HTML语法要求，比如缺乏结束标记等。这些错误影响对HTML文档的正确解析，因此，为便于解析，首先要对HTML文档进行整理，将其转换成XHTML文档，XHTML严格建立在XML基础之上，并且明确定义了格式良好的文档规则。这样就可以像对待一般XML文档一样对待XHTML文档，可以利用各种XML标准技术来操纵XHTML文档。对HTML文档的整理主要是以下三个方面：（1）为不成对的标记加上结束符“/”，例如

上一篇：基于GPS车辆跟踪系统的移动对象数据库应用研究下一篇：没有了