计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

数字时代情报学发展展望(笔谈)--跨语言检索技(2)

2015-02-12 01:19
导读:三、面向自由文本的CLIR 进入90年代,研究人员开始研究面向自由文本的CLIR技术。与基于受控词表的CLIR不同,它直接使用出现在文献中的词。Landauer和Lit
     三、面向自由文本的CLIR

    进入90年代,研究人员开始研究面向自由文本的CLIR技术。与基于受控词表的CLIR不同,它直接使用出现在文献中的词。Landauer和Littman最早研究了基于自由文本的CLIR,并利用一种扩展了的自动技术来降低词汇差异对检索效果的影响。Radwan和Fluhr在1991年提出一种使用了人工编码的翻译知识,通过提问式翻译策略实现CLIR的技术。尽管此后又取得了很多进展,但上述两项研究所确定的两种主要方法——基于语料库的方法和基于知识的方法,仍然占主导地位。
 基于知识的方法所使用的翻译知识来自人工编码的翻译知识,而基于语料库的方法使用的是来自语料库的翻译知识,这两种方法并不是相互排斥的。目前,面向自由文本的CLIR研究的趋势是综合使用两种方式,以实现检索效率最大化。Twenty-One系统就是一个综合利用了多种翻译知识的系统,它能够支持荷兰语、法语、英语和德语,在基于词典进行提问式翻译的同时,使用了基于语料库的歧义消解方法。
    按照所使用的翻译知识源,基于知识的CLIR方法可分为基于普通机读词典的方法、基于机器翻译词典的方法以及基于本体的方法。
    1.基于普通机读词典的方法。机读词典特别是机读双语种词典是目前最常用的跨语言翻译知识源,被广泛用于支持提问式翻译策略。基于词典的CLIR的基本思想是通过查阅词典,将提问式中的每个词翻译为合适的目标语言词汇。有两个因素限制着这种方法的性能:(1)很多词并不是只有一种翻译,不同的翻译通常具有不同的意义。例如,日本信息和通信系统实验室开发的一个基于日语/英语双语词典的搜索引擎TITAN,目前遇到的最大困扰就是一词多译或翻译的模糊性问题。有的系统将基于词典的方法与其它方法结合起来使用,在一定程度上实现了对翻译模糊性的有效控制。(2)词典的范围是有限的,可能缺乏正确解释提问式所必须的一些词,尤其是缺乏技术或研究方面的术语。随着专为提问式翻译设计的词典的开发,第二个因素对基于词典的CLIR的负面影响有可能降低,但是不可能完全消除,这是因为语言的使用是一项创造性的活动,词汇的产生同将它纳入标准的参考工具(如词典)之间总会存在滞后现象。

(科教范文网 fw.nseac.com编辑发布)


    2.基于机器翻译词典的方法。将机器翻译词典应用于CLIR的最直接的方法是利用机器翻译系统来翻译提问式或者文献集合。与普通词典不同,机器翻译词典中包含有自然语言自动分析、翻译以及生成所需要的信息,故机器翻译系统可以利用上下文的句法和语义特征来改进翻译质量。其中一个例子是美国南加州大学信息科学研究所的Chin-Yew Lin和Eduard Hovy开发的“多语种摘录和翻译系统”(简称MuST)。目前,该系统允许用户使用英文提问式检索印尼语、西班牙语、阿拉伯语以及日语的Web资源。
    然而,机器翻译系统遇到了一个难题:用户使用常规的信息检索系统(例如Web搜索引擎)时输入的提问式通常很短,提供的上下文很少,不足以消除语词的歧义。而机器翻译系统一般是为每个词选择一个首选的翻译,这种单项性选择可能会对检索效率产生负面影响。因此,在较短的提问式的翻译方面,机器翻译系统相对于基于词典的方法的优点并不确定。而对于较长的提问式特别是以完整的句子或段落描述的提问式来说,机器翻译系统通常能够产生较好的翻译结果。
    3.基于本体的方法。基于知识的方法还可以利用一种更为复杂精致的知识结构——本体。本体是一种通过指明概念之间的关系将知识编码的结构。美国普林斯顿的WordNet项目小组创建的WordNet就是其中的一个例子。前面提到的CINDOR系统就使用了WordNet来进行CLIR。在欧洲,EuroWordNet项目小组开发了一个与“WordNet”类似的多语种本体,已经含有荷兰语、英语、意大利语及西班牙语四个部分。它们通过一个语间索引链接起来,并正计划扩展到其它欧洲语言。
    实现基于知识的CLIR方法的重要障碍是要为大型的应用系统手工构建词典或者复杂的多语种叙词表,这通常是不切实际的。基于语料库的方法利用现有的大型文献集合,对其进行自动分析,进而抽取出构建自动翻译技术所需的信息。已提出的方案有:Littman等人的跨语言潜语义标引(CL-LSI)方法、CMU的Carbonell等人的采用广义向量空间模型的方法、Ballesteros和Croft的基于未对齐的语料库并使用伪相关反馈技术实现CLIR的方法以及ETH的研究人员开发的一种使用“相似度叙词表”来进行提问式翻译的CLIR方法等。这些方法的一个共同特征是都使用了语料库资源来训练CLIR机制或者建立用于检索的信息结构。 (科教范文网http://fw.NSEAC.com编辑发布)
    所用的语料库有三种类型:平行语料库、可比较的语料库或者未对齐的语料库。
    1.平行语料库。平行语料库是由若干包含一篇文献及其对应的一种或几种语种的译文的集合所构成的,库内含有很多翻译知识。这些知识能够以下列的方式利用:(1)可从对齐的语料库中自动衍生出双语种或多语种词典,特别是专业性的平行语料库对于推断短语的翻译或者至少对于识别短语极为有用;(2)系统输入新文献之前,将平行语料库中的文献存储在双语种或多语种向量空间中,并对它们进行潜语义标引,从而可以获得一个双语种或多语种语义空间。通过将系统新输入的文献映射到该空间,可以使得系统实现跨语言潜语义标引。跨语言潜语义标引所需的语料库只需在文献一级对齐;(3)将平行语料库与基于知识的CLIR方法结合使用,可以有效地控制基于知识的方法所面临的一词多译问题。
    基于平行语料库的CLIR面临着这样三个问题:(1)如何获得合适的文献集合以构成适合特定CLIR系统的语料库,这也是任何一种基于语料库的方法都面临的一个问题;(2)文献译文的创建成本很高,这是一个更为严峻的问题;(3)基于平行语料库开发的技术原则上可应用于不相关的应用系统中,但实验表明,在将基于一个系统开发的技术应用于不相关的其它系统时,检索效率会锐减。
    平行语料库不仅可以在文献一级对齐,而且可以在句子一级甚至语词一级实现对齐。Davis使用了一个句子一级对齐的平行语料库来扩充基于词典的翻译。马里兰大学的Dorr和Oard开发了一种基于语词一级对齐的技术,该技术在集成基于词典的技术和基于语料库的技术方面表现出一定潜力。
    2.可比较的语料库。可比较的语料库通常是由多种语言写成的具有相似主题的文献所构成,其中的文献按照所论述的主题进行对齐。它只能在文献一级实现对齐,但获得它要容易的多,因为它不需要包含文献译文。可比较的语料库同样可用于消解语词歧义以及潜语义标引。目前,对基于可比较的语料库的方法研究相对较少,可能是因为可比较的语料库要求基于文献所论述主题之间的相似度进行对齐,而现有的自动和半自动基于相似度的对齐技术都不具备良好的通用性。 (科教范文网http://fw.ΝsΕΑc.com编辑)
    3.未对齐的语料库。它不需要将语料库中的文献以任何方式对齐,而是利用伪相关反馈技术来改进提问式翻译质量,使之与集合中的文献更相似。Ballesteros和Croft对这种方法做了介绍。

      四、结论

    CLIR研究始于使用受控词表的试验,发展到今天,面向自由文本的方法成为主流技术。自由文本方法按照使用的翻译资源可分为:基于机读词典、机器翻译系统、本体或者基于语料库的方法。任何方法所采用的跨语言匹配策略都离不开以下四种:同源匹配、提问式翻译、文献翻译或者将提问式和文献都翻译为同一种独立于语言的表示的语间转换技术。
    值得一提的是,为了改进CLIR方法和系统,近年来举行了多次有关CLIR的评价会议,其中较大型的两个会议是TREC(文本检索会议)和CLEF(跨语言评价论坛)。TREC中CLIR任务的主要目标是:(1)为测试跨语言检索技术创建基础结构,通过创建一个大规模的多语种测试集以及一个通用的评价体系;(2)调查某个多语种语境中的有效的评价程序;(3)提供一个交流研究观点的论坛。CLEF始于2000年,它将重点放在了欧洲语言的CLIR上,而TREC更为偏重亚洲语言的跨语言检索问题。此外,还有十多次关于跨语言检索专题的评价会议或研讨会,Oard对它们做了较为全面的罗列。有关的评价结果和会议论文都可以从这些会议的网站上获得。

共2页: 2

论文出处(作者):
上一篇:谁“放倒”了体育报(1)网 下一篇:没有了