中国语料库研究的历史与现状(7)

2013-05-27 01:19

导读：语言所还正在建立现代汉语方言自然口语语料库，设计了1500种引导话题和多种采集自然口语的交际环境，其中，采用话题引导的方式采集的话题语料占6

语言所还正在建立现代汉语方言自然口语语料库，设计了1500种引导话题和多种采集自然口语的交际环境，其中，采用话题引导的方式采集的话题语料占60%，在说话人不知道的情况下现场采集的口语语料占40%。

2、中国科学院自动化所

该所建立了一个旅游咨询口语对话语料库和一个旅馆预定口语对话语料库，可以用于限定领域的口语理解模型、口语对话管理模型、基于统计的口语翻译技术等研究。

（五）双语语料库的建设

1、英汉双语语料库

北大计算语言学研究所的双语语料库，英汉对齐的句子已有5万多对，并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库，预计规模将达数十万条。

哈尔滨工业大学的英汉双语语料库：1998年有3万句子对，已经进行了词性标注，正在扩充为40-50万句子对，在句子、短语、词汇三级实现双语对齐。

东北大学的英汉双语语段库：在双语语料库基础上，建造双语语段库，1999年构造了10万双语语段库，进行了基于语段的英汉机器翻译实验，正在以“ 机获人校”的办法建造100万双语语段库，拟扩充到500万双语语段库，进一步建造具有1000万语段的大容量网上英汉语段电子词典，研究电子词典中搭配短语获取算法，建造大容量网上电子英汉搭配词典。

外语教学与研究出版社：

-- 英汉文学作品语料库

-- 冯友兰《中国哲学史》汉英对照语料库

-- 李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库

国家语言文字工作委员会语言文字应用研究所建立了英汉双语语料库，其中包括一个计算机专业的双语语料库和一个柏拉图(Plato)哲学名著《理想国》（Politeia）的双语语料库。在这些双语语料库上，他们进行了汉字极限熵的测定和双语对齐的研究。

中国科学院软件研究所的英汉双语语料库：进行双语对齐算法研究。现有15万对英汉双语对齐句子库，已经切分和标注。

中国科学院自动化研究所的英汉双语语料库：购买 LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对，并从英汉双解词典中摘取例句25000个句子对。

2、日汉对译语料库

北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库，内容以中日文学名著为主，兼收剧本、散文、政论文，原文和译文全文收录，部分名著收入多个译本。2000万字。进行自动切分和词性标注，部分文本进行语法和语义标注，采用SGML国际标准。

3、德汉双语语料库

山东海洋大学语言文学院研制的《蝴蝶》（王蒙小说）德汉对照语料库，用于德汉翻译对比研究，完全采用手工方式排比语料，主要比较了汉语的“了”与德语动词完成式的关系。规模很小。

4、汉日英分类熟语料库

复旦大学计算机系建立了容量为1GB汉日英分类熟语料库，包含数千个类别，数十万篇文章。

（六）少数民族语言语料库

1、维吾尔语语料库

新疆师范大学建立了200万词的维吾尔语语料库，拟发展到300万词。

2藏语语料库

中国社会科学院民族研究所建立了500万藏语字符的藏语语料库，拟进行切分和标注的研究。

3、蒙古语语料库

内蒙古大学建立了蒙古语语料库，进行了初步的切分和标注。

三、语料库的加工技术

（一）自动切分

在自动切分方面，提出的切分歧义技术有：“松弛法”（Fan C.K., Tsai W.H. 1988），“扩充转移网络”（黄祥喜 1989），“短语结构文法”（梁南元 1990；姚天顺、张桂平等 1990；Yeh C.L., Lee H.J. 1991；韩世欣、王开铸 1992），“专家系统”方法（徐辉、何克抗等 1991），“神经网络”方法（徐秉铮、詹剑等，1993），“有限状态自动机”方法（Sproat R., Shih C.L et al. 1996），“隐Markov模型”（Lai B.Y., Sun M.S. et al 1997；沈达阳、孙茂松等 1997a；孙茂松、左正平等1999），“Brill式转换法”（Palmer D.D. 1997）等。

此外还研究了人名识别技术、地名识别技术、机构名识别技术、新词语识别技术。

（二）自动标注

在自动标注方面，基于规则的方法主要解决标注中的兼类词问题；基于统计的方法主要有CLAWS算法、VOLSUNGA算法、HMM（隐马尔可夫模型）、TBED法（Transformation-Based Error-Driven，Eric Brill于1993年提出的方法）

（三）自动短语结构标注

短语结构标注的结果，可以用短语结构语法树 (P-Tree)来表示，也可以用依存树（D-Tree）来表示，有的系统采用了从P-Tree到D-Tree的转换技术，有的系统采用CYK算法进行短语结构分析。

（四）双语对齐技术

主要采用基于长度的方法、基于词典的方法以及把这两种方法结合起来的混合方法。

四、语料库建设中的若干问题

（一）语料库的规范与标准

我国中文信息界从1988年开始研制《信息处理用现代汉语分词规范》的国家标准，根据科学性、严谨性、稳定性、通用性、实用性和完整性（规范对现代汉语语言现象的覆盖率应该达到99%以上），经过三年时间的研究，七易其稿，于1992年批准为国家标准，标准号为GB/T13715-92。这个规范的主体结构分为主题内容与适用范围、引用标准、术语、概述和具体说明五个部分。由于汉语中语素、单词和词组的界限不够清晰，分词规范中除了基本上采用了《暂拟汉语教学语法系统》中词的定义，把词定义为“最小的独立运用的语言单位”之外，还特别地提出了“分词单位”的概念，把“分词单位”定义为“汉语信息处理使用的具有确定的语义或语法功能的基本单位”，并且指出，分词单位“包括本规范限定的词和词组”。“分词单位”的提出，巧妙地避开了关于词的定义的争论，协调了当时学术界的矛盾。

我国还研制了《信息处理用现代汉语常用词表》。由于汉语语言现象的极端复杂性，几乎每条规则都会出现例外，因此，分词规范提出了“结合紧密，使用稳定”的原则作为判定一个符号串是否可以作为分词单位的准则。但是，这个原则不够具体，实行起来往往见仁见智，从而造成不同系统中分词单位的不一致。所以，后来有的学者建议在规范之外，还应该根据规范提出一个词表来作进一步具体的说明，以利规范的实施。采用“规范+词表”的策略，这是很有远见的做法。 1994年，该规范的主要制定者刘源教授等人根据现代汉语词频统计的结果，公布了一个《信息处理用现代汉语常用词表》，收词43570条，可惜，这个词表对于规范中的一些难点，仍然没有作出很好的处理，权威性不够。

上一篇：对近百年来汉字学研究的历史反思下一篇：没有了