受控语言与自然语言结合模式比较研究(1)(2)
2015-02-09 01:33
导读:1.2.4 学科事物概念组配模式 该系统分为学科面部分和事物面部分,每一部分再分为第一层的分面(学科或事物)和第二层的分面(学科的问题或事物的部
1.2.4 学科事物概念组配模式
该系统分为学科面部分和事物面部分,每一部分再分为第一层的分面(学科或事物)和第二层的分面(学科的问题或事物的部分)。对属于第一层的分面分别按系统性排列,可仿照体系分类法。对属于第二层的每个分面确定一个概括的名称,分为两个序列进行排序(与学科或事物的序列相对应)。并对两个序列的分面分别给予统一的分面序号[5]。在学科、事物、号码的共同作用下形成了一个语义空间。分类号、概念词和自然语言词都是概念代码的外部形式,三者在标引和检索中可任意使用,通过计算机与概念代码自动转换。自然语言可大量使用,任意增补,但在系统内部受到控制。
此种模式的特点是:①通过学科聚类和事物聚类的结合、号码标识和词语标识的结合,使其结合分类系统和主题系统的优点,检索更全面。②通过自然语言和受控语言的结合,增强用户使用的方便性。③不变概念代码与可变概念体系的结合增加了灵活性,便于分类体系的逐步细化和不断改造。④具有开放性,可根据环境的变化不断增补新概念。
学科事物概念组配模式是朝着检索语言综合化和一体化进行的一次理论尝试。此种模式由张琪玉教授在1997年提出,到目前为止还没有进行系统开发设计,处于理论阶段。
1.2.5 后控制模式
后控制词表将用户检索表达式中用词,即自然语言标识词,由计算机自动积累存储在系统内,自然语言标识一律置于控制词下,用关系符号表明与控制词的关系[6]。对自然语言中大量存在的等同关系、等级关系和大部分的相关关系进行控制或揭示。由控制词、自然语言标识词和关系符号共同组织成一个语义网络。
(转载自http://zw.NSEAC.com科教作文网) 后控制词表的特点是:①面向用户设计,易用性强。②词汇量大、增长快、更新及时。③可弥补受控语言处理信息中新事物主题的不足。④弥补自然语言因不受控制产生的缺陷,按族性检索。编制关键是必须在检索系统中实有的自然语言原词基础上进行编制,否则会在很大程度上降低其控制功能。
20世纪80年代后控制技术成为研究热点,国外相继有研究人员开发了词表生成或转换系统,并得到应用。国内90年代也出现了一些实验性的后控词表系统,但没有推广使用。在网络环境下单独使用后控制词表的检索效果不是很理想,但后控制原理已被其他模式吸收、利用。
2、适应我国信息环境的检索语言模式
对使用者来说,未来的信息检索语言应该能满足三项基本需要:允许用户使用自然语言进行检索提问;系统自动将自然语言与受控语言进行链接、转换;支持标引、查询、浏览、检索等信息全过程。检索语言发展创新的关键环节就在于设计合理高效的转换模式。综合比较上述几种模式,我们为设计适合我国信息环境的检索语言模式梳理出以下思路:在词表内容上侧重建立专业性的系统,然后向综合性发展;在具体词表的设计中,认为目前UMLS模式比较理想,因此新的系统设计主张以一体化语言系统模式为核心,合理借鉴其他模式;国外研究设计的比较成熟的系统在汉语环境下未能很好地发挥效果,其关键原因就是汉语需要分词技术来分割出语义单元,解决这个问题可以借鉴《军用主题词表》中的词素相似度识别转换模式。按照此种思路,可将系统的建立分为三个步骤:
第一步,仿效UMLS系统建立符合各专业特点的超级叙词表、语义网络、专家词典程序和情报源图谱,形成各专业系统。在专业性网络资源中对某个专业的概念进行收集、定义比较可行,且更新容易实现;设计网络空间比较方便;能有效提供特定情报源的范围、功能和检索条件。
(科教作文网 zw.nseac.com整理)
第二步,对自然语言(包括文本及检索策略)进行分词分析。首先建立一个含有词素标注集合的转换知识库。对自然语言组成的文本或用户输入的检索词,系统可在超级叙词表中找出词素完全对应的受控词。若没有完全对应的受控词,系统对自然语言进行分割,并利用转换库中的词素标注集合对输入的主题概念及词表中的主题词所含词素的相似性进行分析,找出相似的受控词或按相似程度的权值顺序推荐一批相关受控词供用户选择,完成主题概念与系统内主题词的对应转换。
第三步,在学科发展过程中,会出现系统对新概念不能进行词素分析或系统推荐词均不合适的情况,对此作如下设想:概念空间模型方法可以弥补词素相似度转换模式需要转换双方必须有共现词素,可按相关程度排序提供与检索词有关的词,以帮助了解与检索词主题领域有关的其他概念,用户根据自己的需要选择或添加以提高检准率。对于没有对应受控词的自然语词,将程序设计成可以计算文本中概念的共现频率,找出与该词共现频率最高的几个语词并提供对应的受控词,以便扩检。这种新词与受控词的联系系统将自动记录并以帮助形式提供给后来的检索者。这种联系的自动记录还可在一段时间后,由系统自动或人工确定新词与某个或某些受控词的正式对应,或设计新的受控词并根据这种联系确定新的受控词与其他受控词之间的关系并反映到语义网络中,以满足科学发展的要求。
专业性网络资源的一体化语言系统设计之后,可以设计一个统一的用户界面,其原理类似元搜索引擎,帮助用户在多个专业的“信息资源库”中选择、利用合适的数据源来实现检索操作。实现这一功能,各个专业性的网络资源必须按预先设计好的统一规则进行组织。如果各专业的一体化语言系统按相似原理设计,这种方案就可以在一定程度上解决用户综合地查找专业信息的难题。对于一个自然语言用词可能在不同专业领域有不同的定义与使用范围问题,可以借鉴学科—事物模式,当自然语言在各个相关学科领域进行转换时,用学科名称加以限定,提供一个选择列表,以帮助用户能够在自己希望的学科中查找相关信息知识。采用类似元搜索引擎的综合信息检索系统,可以在改变较小的情况下,提高各个网站对信息的网罗度和处理效率。
【参考文献】 (科教范文网http://fw.ΝsΕΑc.com编辑)
[1][2] 赵建华等.《军用主题词表》应用管理系统.情报理论与实践,1999(5)
[3] 方平.试论一体化医学语言系统语义网络的结构与特点.情报学报,1999(4)
[4] 王军.Vision:集成分类法、主题词表和语义元数据的概念网络.情报学报,2003(8)
[5] 张琪玉.学科—事物概念组配型检索语言.图书馆杂志,1997(2)
[6] 张琪玉.论后控制词表.图书情报工作.1994(1)
共2页: 2
论文出处(作者):