论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
随着经济全球化、网络化的发展,跨语言检索(简称CLIR)已成为全球知识存取和共享的一个关键因素。国外情报学领域已将CLIR视为研究热点之一,近年来举行了很多有关该主题的专题会议。TREC(文本检索会议)1997年起也将其纳入评价项目中。国内的研究相对较少,且主要集中在汉语外语(主要是英语)机器翻译系统的研究开发方面。
一、跨语言检索的涵义和作用
CLIR是这样一类技术,它允许用户以他们熟悉的语言构造检索提问式,然后使用该提问式检索以系统支持的任一种语言写成的文献。它可用于回溯检索、定题服务系统以及自适应过滤系统中。跨语言检索对于能够阅读多种语言的用户,特别是不能有效地用非母语表达其信息需求的用户,具有十分重要的价值。对于只能阅读一种语言的用户,CLIR系统也可能很有用。有的CLIR系统能够对检索出的文献进行翻译。虽然系统显示给用户的结果可能只是一种粗略的翻译,但也足以向用户提供文章的要点以及帮助用户作出相关性判断。此外,即使CLIR系统不对文献进行翻译,用户也可能通过使用该系统找到若干篇参考文献中包含了以该用户的母语写成的文章的论文,这无疑会为该用户提供很有价值的线索。总之,最重要的是CLIR系统能够检索出多种语言的相关文献资源,以及能够指导用户作出收集与否的判断。
但是,基于受控词表的CLIR系统存在以下缺陷:(1)必须使用受控词标引文献,通常由人工完成,成本很高,从而限制了系统的规模;(2)受控词表更新速度较慢,往往不能及时反映新出现的主题和术语;(3)非专家用户往往不熟悉多语种叙词表的用法(此缺陷部分是由早期的用户界面友好性差造成的。解决的办法之一是将叙词表导航功能嵌入检索引擎中,MIT的Richard Marcus对这种方法进行了研究)。这些问题激励着有关研究人员研究开发其它的CLIR方法。
二、现代CLIR系统模型和匹配策略
与其他检索系统类似,一个CLIR系统中,文献以字符编码文本、印刷页或录音等多种形式存在,而且每种形式又有若干种表示方式。文献预处理的目标之一是针对每种语言的文献,将其各种可能的表示简化为一种一致的字符编码文本表示。为此,需要事先识别出一篇文献的语种。一篇文献的形式、语种以及编码方案确定之后,接下来需要识别文献的标引特征,对文献进行手工标引或自动标引。 (转载自http://zw.nseac.coM科教作文网)
为了与所用检索系统的理解能力相匹配,用户在构造提问式时必须调整其需求信息。检索系统常通过提供提问专指性工具和提问式求精技术(如相关反馈)来支持这一过程。除构造提问式之外,选择、检查和传递也属于系统用户界面模块需要考虑和具备的功能。Moustafa A.Youssef为CLIR系统用户界面设计提出了一些有益的建议。
匹配模块负责将提问式(即用户需求表示)与标引信息(即文献表示)进行匹配,以识别出那些最有可能满足用户需求的文献。它是CLIR系统的核心部分。在匹配过程中,跨越语言障碍的策略主要有四种,即:同源匹配、提问式翻译、文献翻译和语间转换技术。
1.同源匹配策略。同源匹配根据两种语言的语词拼写形式或读音相似度来判断其中一种语言语词的意义,不进行任何翻译。例如,康奈尔大学的Buckley等人开发了一个英语/法语匹配程序,它将英语单词视为可能拼错的法语单词,以此来实现英语提问式与法语文献的匹配。同源匹配可以单独使用,而多数情况下是与其它策略结合使用。
2.提问式翻译策略。提问式翻译将用户输入的提问词翻译为系统支持的每种语言,然后将多种语言的提问式提交给匹配模块。它是目前最为常用的策略。其优点是能够在线快速执行,主要缺点是提问式通常很短,语境信息很少,难以消除歧义。每个提问词被其所有可能的译法所替代,翻译模糊性问题严重,故控制翻译的模糊性是设计有效的提问式翻译技术的一个关键问题。一种办法是只翻译短语,因为短语翻译通常表现出较少的模糊性。研究表明,短语识别策略能够大幅度提高检索效率。微软研究院的Jianfeng Gao等人介绍了一种使用统计模型识别名词性短语以提高提问式翻译质量的方法。另一种办法是,通过用户的介入(利用交互式用户界面)也可以有效地控制翻译的模糊性。Davis和Ogden开发的QUILT系统能够将英语提问词的西班牙语翻译显示给用户,具有西班牙语知识的用户可以对翻译进行识别和判断。Mark Davis开发了一个交互式搜索引擎ARCTORS,通过选择性用户界面,用户可选择将英语、法语、德语或意大利语的提问词翻译为系统支持的其它语言,然后对候选翻译进行选择,修改提问式并发送给某个特定语言的检索模块。Yamabana等人提出了一种更为复杂的方法,将每个提问词的候选翻译连同每个候选翻译到提问式语言的回翻都显示给用户,这样,即使是不能阅读候选翻译的用户也能够迅速浏览回翻结果,并选择出合适的候选翻译。 (科教论文网 Lw.nsEAc.com编辑整理)
3.文献翻译策略。文献翻译(与提问式翻译相对立)将所有的文献或文献表示转换为系统支持的语言。其主要优点是:(1)由于具有完整的文献语境,故可以提高翻译质量;(2)可以离线执行。缺点是速度很慢,且需要将文献库中的文献翻译为系统支持的每一种语言,这使得文献库的规模不可能很大。相对于提问式翻译策略,采用文献翻译策略的CLIR系统要少得多。“欧共体远程通信和信息处理技术”(EU Telematics)计划下的Twenty-One项目组开发的Twenty-One系统使用的主要跨语言方法就采用了文献翻译策略,并以提问式翻译作为辅助。
4.语间转换技术。语间转换是将提问式和文献都翻译为同一种独立于原语言的表示方式。其典型代表是基于多语种词表的CLIR技术。它将文献和提问式都翻译为受控词表中的语词。MNIS-Text Wise实验室的“概念中间语文献检索”(Conceptual Interlingua Document Retrieval)项目小组开发的CINDOR系统使用了较为独特的语间转换技术来实现CLIR。该系统以WordNet的同义词群“synsets”为基础,通过将几种语言的同义词都链接到表示对应概念的“synset号”上,建立了一个名为“概念中间语”的概念表示知识库。这样,系统就可以将文献标引词和提问词都转换为“synset号”,从而跨越了语言障碍。全自动语间转换技术(例如潜语义标引和广义向量空间模型)也在研究探索中。
共2页: 1
论文出处(作者):