基于本体的Web文档知识获取的框架研究(1)

2013-12-02 02:02

导读：计算机应用论文论文，基于本体的Web文档知识获取的框架研究(1)论文样本，在线游览或下载，科教论文网海量论文供你参考：摘要本文在分析了Web文本的知识获取途径之后，提出了一个基

摘要本文在分析了Web文本的知识获取途径之后，提出了一个基于本体的Web文档知识获取模型。该模型具有较好的适应性和可移植性，模型使用了可扩充标记语言(XML)，使得对知识库的处理更加简便。最后，通过一个临床实例对其流程进行了详细说明，并分析其在医院知识库系统中的应用。关键字知识获取；本体；Web文档1 引言互联网技术的发展为知识获取方法的研究带来了机遇和挑战。必须发展相应的知识自动获取技术。为了使语义网应用到实际中给人们提供知识服务，就需要解决从Web文档中获取知识的问题。尽管从Web页面的注释中我们可以发现部分信息，然而所获得的信息是不全面的，而且很难能获取元信息。有研究者将本体的概念引入到知识发现领域[1] [5]，但还没有充分发挥到本体的优势。本文中本体以概念和关系来划分知识类型，并且以获取知识的本体为指导来从非结构化的Web文档中发现知识。2 面向Ｗeb文本的知识获取途径互联网中存在大量的Web文档，其中记载着大量的信息。通过超链接逐页阅读相关文献来查找所需信息是初级的且效率较低的知识获取方式。从文本中发现知识并提供给用户从技术上讲有两条主要途径： (1)传统的途径，即通过使用如归纳程序等工具直接获取文本中的知识，或通过知识工程师或领域专家使用知识编辑、编译工具间接获取知识，然后构造专家系统知识库，通过专家系统间接为用户提供知识[2]。这种方法有如下不足：第一，专家系统知识库的表现形式不统一，存在知识难以共享的问题，且不适合逐页浏览；第二，在知识从文本转移到专家系统知识库过程中，存在信息丢失的弊端 [3]。 (2)自然语言技术，即直接从自然语言文本获取有用的知识并提供给用户[4]。但由于目前自然语言理解水平还比较低，主要是利用用户提供的样本进行训练，然后开发相应的程序来获取特定范围的知识。这种途径的缺点是有限的样本库资源限制决定了其应用范围的狭窄性。为此，需要有一种新的知识获取方法，它能以适当的方式及时地将适用的知识从众多的文本提供给用户。将知识表示技术处理技术及XML技术标准结合起来，构成了一种新的知识获取途径。3 基于本体的知识获取模型3.1 本体的基本概念本体的英文有两种写法：①大写开头的Ontology 指哲学领域的本体论的概念。在哲学中Ontology 是一种存在的系统化解释，用于描述事物的本质。本体论的概念和方法被计算机领域采用，用于知识表示、知识共享和重用。②小写开头的ontology 是计算机领域广泛使用的概念，翻译为本体，是某领域内共享概念的明确的形式化规范说明。虽然本体还没有一个明确的定义，AI领域普遍认同Gruber于1995年指出类似的概念：本体是“概念化(Conceptualization) 的显式( Explicit) 说明或表示”[6] 。直观地讲，本体是一个实体，是对某一领域应用本体论的方法分析、建模的结果，即将现实世界中的某个领域抽象为一组概念及概念之间的关系。3.2 基于本体的知识获取方法很多知识获取系统(如IE)能识别一些文档实体，例如张三是一个人，2004年6月是一个日期，但是如果不将这些信息通过它们之间的关系联系起来，就没有太多的实用价值了。因为它不能表达出张三出生于2004年6月的完整含义。这就要求有一种自动处理机制用于发现实体之间的关系，也就是要求信息向本体转化。基于本体的知识获取模型将知识获取工具与本体联系在一起，用本体来支持和指导知识获取，是零散的信息集中到一起形成知识，以不断地获取知识。知识获取工具通过搜索Web文档，将那些能与给定的规则结构匹配的知识提取出来，然后将它格式化为一种便于机器阅读的格式(如XML)，并将它存入知识库(KnowledgeBase)。在知识获取过程中起指导作用的本体本身也要采用一种字典扩展机制来扩展本体集合。3.3 基于本体的知识获取模型基于本体的知识获取模型包括知识获取、信息管理、和知识生成3大部分。其中知识获取工具利用搜索引擎技术从Web文档中一点一点地收集信息项(如句子和段落)。知识获取工具将所获得的信息片断和本体字典库中的元数据一起传送到本体服务器中，本体服务器存储并固化这些信息到知识库以备知识生成工具访问，当用户请求查询某条相关信息时，知识生成工具从知识库中获取信息并生成知识叙述通过用户接口返回信息给用户。其结构如图1所示。

1) 知识获取首先，用户向系统发出请求并提供相关的信息，如姓名，职业等；然后知识获取工具根据用户所提供的信息，利用Web搜索引擎在Web文档中进行检索，其检索到的信息项以句子和段落的形式，传送到本体库中；在本体库中，根据用户提供的信息在本体字典找到需要的元数据，并连同Web搜索引擎的结果一起发送到本体服务器上。 2) 信息管理信息管理模块主要由本体服务器和知识库组成。本体服务器在接收到知识获取模块发送的信息项和本体元数据后，根据元数据对信息项进行处理，通过对句子和段落进行语义识别，包括语法分析、语义分析和本体分析，生成一个关于本体的XML文档，其中的各属性名为本体的属性，对应的值是从语义识别中获得数据。然后将生成的XML文档保存到知识库中，以备返回给用户接口程序，为用户提供知识。 3) 知识生成知识生成模块主要负责将知识库中的知识，以自然语言的形式生成知识文档，通过用户接口，输出给用户界面。其中最重要的是知识文档的生成，由于在知识库中预先存有知识文档模板，因此只要将知识文档中对应的属性值填充到模板的相应位置即可。4 实例分析大多数Web信息以自然语言文档形式存在，一般的信息获取工具可以将文档信息分成实体，但是它们不能识别实体间的相互关系。为此提出了一种基于本体的识别工具来识别实体中的信息碎片及它们之间的关系。本系统以一个临床疾病的本体为例，该本体除了包含该疾病的临床表现、主要特征等外，还包含了这些文本信息所在的网络路径，以便重新组织它们时起指导作用。例如用户从用户接口发出请求查询感冒的知识，知识生成工具迅速搜索知识库，看能否找到有关感冒的知识。如果没有找到，则通知知识获取工具从Web中去搜索，然后从搜索结果中过滤出相关文档。例如用百度搜索引擎搜索到100个包含感冒的网址，这些网址当中可能会含关于感冒的治疗、预防等，这些网址要采用过滤技术将其过滤掉。一旦某个文档被选中，它随即被分成段、句。然后从语义的角度寻找相关知识，如果语法相关则进行语义识别。共2页: 1 [2] 下一页论文出处(作者):

上一篇：网上教学与实践(1) 下一篇：没有了