自然语言检索中的概念控制(1)

2015-01-02 01:37

导读：文化论文论文，自然语言检索中的概念控制(1)样式参考，免费教你怎么写，格式要求，科教论文网提供的这篇文章不错：自然语言检索是信息检索中的一个类型。随着互联网的普及

自然语言检索是信息检索中的一个类型。随着互联网的普及和发展，信息检索的最终用户日趋扩大，自然语言检索成为重要的发展趋势。
目前，自然语言检索系统采用的是模式匹配技术。所谓模式指的是关键词或索引词汇。模式匹配技术处理速度快，简单易行，但也有缺点。自然语言检索系统对同义词、近义词、多义词和其他一些与其相关的词语没有进行规范和统一，词间缺乏有机的联系。当用户提问的检索概念具有多种表达形式时，采用单一的关键词或自然语言索引词匹配方式势必会影响检全率。自然语言检索系统的选词没有严格限制，词量过多过杂，这样会影响检准率，并且会过多地占用磁盘的存储空间，影响查询匹配的速度。要想解决这些问题，必须对自然语言查询做进一步的处理，也就是进行概念控制。

　　1　概念控制及其实现基础

    1.1　概念控制的目的
    概念并不是孤立存在的，一个概念总是与其他概念之间存在着各种各样的关系，如上下位关系、同义关系、反义关系等。关键词也会出现一词多义、一义多词以及同一事物多种表述的情形。根据概念之间的相互联系，在词的概念含义层次上建立联系，为检索用户提供相关的结果分析是概念控制的一个应用前景。例如，“体育”这一概念根据上下立类的关系可以细分为足球、排球、奥运会、亚运会等，单纯的字面匹配会漏检甚至误检很多与之相关的信息。通过概念控制就可以将一个上位类的概念扩展为多个子概念。体育新闻的检索就可以扩展为：体育新闻、球类（足球、篮球、排球）、田径运动、体育赛事（奥运会、亚运会、世界杯）等概念，同时对那些具有下位概念的词汇可以再次扩展，这样就大大地提高了检索效果。“计算机”和“电脑”是同一事物的不同表述，机械匹配的话就只能检索到有关“计算机”或“电脑”的信息，采用概念控制的相关方法可以将这些相同概念的词汇统一到检索匹配中，这样就扩大了检索面，提高了检全率。在自然语言检索系统中进行慨念控制，就是把信息检索从目前的基于关键词层面提高到基于知识（概念）层面，能够从概念意义层次上来认识和处理检索用户的请求，从而提高检全率和检准率。（科教作文网 zw.nseac.com整理）
    1.2　概念控制的主要方法
    目前虽然没有一个检索系统可以完全实现理想状态下的高层次的语义检索，但有些自然语言检索系统已经采用概念控制查询。主要的方法是利用知识体系建立概念间的关系进行查询扩展，深度匹配，优化检索效果。
    概念控制的内容包括：提问句概念语义块的抽取，从提问句中切分出概念词或词组等语义单位；基于知识体系对抽取出的语义单元进行概念扩展；概念的组配，将选择出的各检索单位基于知识体系的组织信息转换成体现概念关系的逻辑表达式。
    概念抽取不等同于分词处理，其中包括普通概念的识别和人名、地名、事件名等专有名词的识别，并进行概念提取。对于普通的概念字串采用逆向最长匹配算法（或正向最长匹配算法），并综合切割标记等分词手段切分就可以进行概念抽取。对于词典中未收录的概念词，可以采取基于句模、句子结构分析、词和词组构成规则、句内结构性标志字、标点符号等来进行切分。除切割标志外，已知的词也可作切割标记使用。
    自然语言检索系统的本质是查询满足特定主题概念的文本，因此被检索的内容不是和提问句的字面匹配。对提问进行分析后抽取出的主要是概念或概念的组合，需要进行概念匹配，这就需要对检索句中的词进行概念扩展，即考虑提问句中词的同近义词、上下位词和关联词。可以通过知识体系保存同近义关系、上下位关系和其他关联关系，当处理用户检索需求时，通过查询知识体系可对提问句中的词按概念进行扩展。如“我国今天的体育新闻”，可以通过知识体系对“体育”进行扩展，查询包括“篮球”、“赛车”、“奥运会”、“世界杯”等方面的内容，“今天”一词指检索者进行检索时的日期，因此需通过规则将“今天”映射为检索时的时间，将“我国”扩展为“我国”V“中国”V“中华人民共和国”（知识体系中可能只存在“中国”和“中华人民共和国”之间的同义关系，没有“我国”这一词条）。（科教作文网http://zw.nseAc.com）
    概念组配，按其内在逻辑关系，可分为限定组配和相交组配。限定组配将一个概念的内涵增加到另一个概念的内涵中，从而加深概念的内涵，缩小或限定了概念的外延。相交组配将具有共同的属概念、概念之间具有相交关系、外延部分重合的概念组合成一个新概念。在构成查询表达式时，基于知识体系的扩展词和原词间为“逻辑加”的关系。如“美丽”扩展为“美丽”V“漂亮”V……V“标志”。提问句中语义块间的关系通常为逻辑乘的关系。语义块间的概念组配通常存在如下逻辑关系：(1)主谓结构，描述的是一种陈述与被陈述的关系。(2)偏正结构，描述的是一种修饰与被修饰的关系。(3)动宾结构，描述的是一种作用和被作用的关系。(4)并列结构，描述的是一种成分间的并列关系[1]。主谓结构、偏正结构和动宾结构间为“逻辑乘”关系，并列结构为“逻辑加”关系。但通过对检索提问句进行分析后发现，部分并列结构在用户的检索概念中为“逻辑乘”关系，于是采用通过句模分析和指示标志来确定语义块间的“逻辑乘”或“逻辑加”关系。提问句语义块之间的“逻辑加”关系通常存在显式指示标志，如“或”等。分析传统的主、谓、宾、定、状、补六大成分与句型的关系，可以辅助获取语义块的逻辑关系。检索提问句的语义概念和提问句的结构紧密相关。需要分析谓语的性质、句子的结构，如“把”字、“被”字句等。
    概念控制的3项关键技术中，概念扩展和概念组配都离不开知识体系的支持，知识体系的好坏直接关系到检索效果的优劣。
    1.3　概念控制系统
    国内外已有一些检索系统在不同程度上实现了概念控制，代表系统有首信搜索引擎、孙悟空、UMLS等。下面以UMLS为例进行介绍。（科教论文网 lw.nSeAc.com编辑发布）
    UMLS(Unified Medical Language System，美国统一医学语言系统），是美国国立医学图书馆(NLM)于1986年开始研制的一项长期开发研究计划，旨在克服计算机生物医学信息检索中的两个显著障碍（相同的概念具有不同的表达方式；有用的信息分散在不同的数据库系统中），使用户很容易地跨越了在病案系统、文献摘要数据库、全文数据库以及专家系统之间的屏障。UMILS包括4个部分：专家词典、超级叙词表、语义网络、情报源图谱。专家词典是一个包含众多生物医学词汇的英语词典，可以确定英语词汇的范围以及识别生物医学术语和文本词的词形变异，也为超级叙词表提供了确定范围的医学术语和词汇。超级叙词表是生物医学概念、术语、词汇及其涵义等级范畴的广泛集成。语义网络是为建立概念、术语间错综复杂的关系而没计的，它为超级叙词表中所有慨念提供了语义类型、语义关系和语义结构。情报源图谱是一个关于生物医学机读情报资源的数据库，其目的是利用超级叙词表和语义网络实现以下功能：确定情报源与特定提问的相关性，以便选取最合适的情报源；为用户提供特定情报源的范围、功能和检索条件等人工可读的信息；自动链接相关情报源；在一个或多个情报源中自动检索并自动组织检索的结果。

共2页: 1

论文出处(作者):

上一篇：信息构建与知识构建(1)网下一篇：没有了