自然语言检索中的概念控制(1)(2)
2015-01-02 01:37
导读:2 支持概念控制的知识体系 实现概念控制离不开知识系统的支持,没有合理的知识系统,就无法实现概念扩展和概念组配,也就无法达到概念控制的目的。
2 支持概念控制的知识体系
实现概念控制离不开知识系统的支持,没有合理的知识系统,就无法实现概念扩展和概念组配,也就无法达到概念控制的目的。进行概念控制的核心是构建合适的知识体系。
2.1 知识体系及其形式
目前,有关知识体系的研究主要集中在对Ontology的探讨中。国内关于Ontology的中文译法也不统一,有“知识体系”、“本体”、“概念集”、“概念体系”、“本体论”等多种提法。Ontology是一个源于哲学的概念[2],原意指关于存在及其本质和规律的学说,后来被人工智能研究领域引入,特指对共享概念模型的明确的形式化规范说明。Ontology能够将词汇有关概念关系显式地表示出来,从而将术语的语义和概念关系显式化表示出来,因而在语义查询、概念控制方面发挥着重要作用。
Ontology中的概念表示一般采用框架结构,使用槽来表示概念的属性以及概念之间的关系[3]。借助概念之间的关系,Ontology在整体上形成了一个语义网。概念之间有4种基本关系:part-of表达概念部分与整体的关系;kind-of表达概念间的继承关系,类似面向对象中的父类和子类之间的关系;instance-of表达概念间实例和概念之间的关系,类似面向对象中的对象和类之间的关系;attribute-of表达某个概念是另一个概念的属性,例如概念“价格”可以作为概念“桌子”的一个属性。在实际应用中,概念之间的关系将不会局限于上述4种关系,可以根据特定领域的具体情况定义相应的关系。
2.2 语义网络
概念与概念之间有着横向或纵向的联系,形成了语义网。语义网络(Semantic Network)是美国语言学家奎廉(R.Quilian)于1968年提出的。1972年美国人工智能专家西蒙斯(R.F.Simmons)和斯乐康(J.Slocum)将语义网络用于自然语言理解系统中。语义网络是当今网络的扩展,这可扩展的网络给出了信息明确的定义,同时优化了人与汁算机的合作[4]。
(科教作文网http://zw.NSEaC.com编辑发布)
如何构建语义网络更好地将信息定义明确化目前仍没有统一的准则,这涉及到语言学、认知
心理学等学科方面的知识。但是构建语义网络的统一原则都是将概念之间的横向或纵向联系显式化,组织成一个有机的结构形式。
Wordnet是由普林斯顿大学认知科学实验室开发的在线词汇参照系统。它将所有英语词汇分成5类:名词、动词、形容词、副词和功能词。名词按照3种关系被加以组织:部分关系、上下位关系以及物质与材料。同时有反义的名词被标注了反义关系,这样形成了一个互相高度连通的名词网络。动词的多义性比名词更高,在Wordnet中动词被组织成各种推演(蕴涵)关系,而组织动词的不同关系可以被总结成一个覆盖它们的基础词汇的推演,包括四种[5]。
2.3 概念词表
知识体系中除了概念间相互关系形成语义网络,对于每个单独的概念还必须有概念词表。没有概念词表的语义网络只是一个单纯的概念关系网而不是与词汇相结合的知识体系。Hownet中的词表就是一个概念词表。Hownet是一个以汉语和英语的词语所代表的概念为描述对象,知网是一个利用一种知识词典描述语言来描述概念与概念之间的关系以及概念的属性与属性之间的关系的知识系统[6]。Hownet包括词表和义原体系表。词表中记录了每一个词语的概念及其描述,每一个概念用一个记录来表示,如下所示:
其中NO.为概念编号,W_C,G_C,E_C分别是汉语的词语、词性和例子,W_E,G_E,E_E分别是英语的词语、词性和例子,DEF是知网对于该概念的定义,是知网的核心。每个DEF被称为一个语义表达式,采用知识描述语言,将与词汇有关概念关系采用显示的表示出来。如从概念编号为017144的DEF可知“打”的概念之一是“锻炼”,属于体育范畴。
(科教作文网http://zw.ΝsΕAc.com发布) 2.4 构建知识体系的问题
构建一个适用合理的知识体系对于改善检索效果至关重要。但目前已成形的知识体系都存在一些不足。
构建一个知识体系最重要的是词的构造性信息,不完善的知识体系中被遗漏的信息大部分是关于词的构造性信息而非事实性信息。传统词典的定义尽力涵盖了有关每个词义的所有事实性信息,但却忽略了词汇概念之间内在的各种关系[7]。
如何选择知识体系的用词目前都在探讨和实验中,世界知识体系(Ontology)给出了一些选词的规定[8]:语义网络的非叶子节点不可以是多个类的词,如“蔬菜和水果”;也不可以是没有下位类的选词,如“职业者”。要避免使用混合类的词,不要将叙述属性和抽象概念的词进行搭配作为语义网络的非叶子节点,如“空杯子”、“破车”,要避免选词时加入个人的判断因素,将一些主观的属性值与类名组合成非叶子节点,如“热咖啡”、“明亮的车”。但是要使知识体系能理想地添加新的类、新的属性和关系,仅有这些规定是远远不够的。
是将概念领域化还是通用化各有优劣,目前都没有定论。通用的知识体系有Wordnet、Hownet等,专门领域的知识体系有UMLS和首信等。
构建语义网络结构本身存在一定的缺陷。用有限的结点和弧不可能代表万事万物及其相互之间的所有联系,语义网络对知识的表达有一定的局限性。单纯增加概念和联系会大大增加网络的复杂度。语义网络结构本身没有语义上的约定,不具备逻辑系统那样的有效性。单层的语义网络结构容易产生语义解释循环或语义悖论。
国
外语义研究的理论与方法,并不完全通用。汉语是语义型语言,具有语义先决性、句法强制性和语用选定性等特点。汉语语义结构上的复杂性与多变性以及词与词之间无自然界限、无词尾形式标志、无形态变化的“三无”现象的存在,给语义分析带来了困难。
(转载自http://www.NSEAC.com中国科教评价网)
知识的获取与表示,其中较难解决的问题就是如何把复杂多样的专业知识系统化。如果把人工智能技术应用到一个多学科综合的检索系统中,如何辨别某个多义词当前的具体含义,如何辨析用户特定的需求,这些都有待于继续研究。
要想使计算机准确地分析、表达和传输知识,必须使它具备理解自然语言的能力。目前对自然语言的处理,虽然已从语法阶段上升到语义阶段,但对自然语言的理解能力还限制在一些规范的语句和语法范围内,这就决定了智能信息检索系统所能具有的智能化表达程度。
3 结束语
持续增长的海量网络信息让传统的检索方式面临着严重挑战,也加重了人们的检索负担。在自然语言检索系统中采用概念控制就是为了优化检索效果。而实现概念控制需要有合适的概念体系。目前没有一个标准的Ontology构造方法,对当前已有的Ontology的性能评估也没有一个统一的标准,这些都需要进一步研究。不过在构造特定领域Ontology的过程中,有一点是得到大家公认的,那就是需要该领域专家的参与。
【参考文献】
1 吴起立,李朝晖.题名自动分类标引探讨.情报学报,1999(1)
2 王洪伟,吴家春,蒋馥.基于本体模型的信息检索机制研究.情报学报,2004(1)
3 潘宇斌,陈跃新.基于Ontology的自然语言理解.计算技术与自动化,2003(4)
4 Tim Berners-Lee,James Hcndler,Ora Lassila.The Semantic Web.Scientific American,May 2001
5,7 姚天顺等.自然语言理解——一种让机器懂得人类与源的研究.北京:清华大学出版社,2002 (转载自http://www.NSEAC.com中国科教评价网)
6 知网辟蹊径共享新天地—董振东先生谈知网与知识共享.http://www.keenage.com/html/c_index.html(Hownet 04.08.02).
8 Why we need guideline?http://www.cs.uoregon.edu/~tdbreaux/poster/guidelines.html(04.08.02)
共2页: 2
论文出处(作者):