中国语料库研究的历史与现状(6)

2013-05-27 01:19

导读：清华大学智能技术与系统国家重点实验室最近对HuaYu完成了语块库人工标注（200万汉字左右），并根据句子中动词类型和句子长度等因素，从中随机选取了

清华大学智能技术与系统国家重点实验室最近对HuaYu完成了语块库人工标注（200万汉字左右），并根据句子中动词类型和句子长度等因素，从中随机选取了20万词，进行语块标注，并进一步完成了完整的句法树标注。

语块标注示例如下：

[从/p [他/rN 的/u 身上/s ] ，/， [我们/rN [看/v 到/vB] 了/u ] [一/m 位/qN ] [跨越/v [中国/nS {CS 近代/t 和/c 现代/t } 的/u [共产主义/n 战士/n ] [光彩照人/iV 的/u 楷模/n ] 。/。]

句法树标注示例如下：

[zj [dj [pp 从/p [sp 他/rN 的/u 身上/s ] ] ，/， [dj 我们/rN [vp [vp [vp 看/v 到/vB ] 了/u ] [np [np [mp 一/m 位/qN ] [np [vp 跨越/v [tp 中国/nS [tp 近代/t 和/c 现代/t ] ] ] 的/u [np 共产主义/n 战士/n ] ] ] [np 光彩照人/iV 的/u 楷模/n ] ] ] ] ] 。/。

5、山西大学

他们根据不同的需要，建立如下不同的语料库，主要有：

汉语新闻语料库（1988年），250万字，山西大学，包括4部分：《人民日报》：150万字，《北京科技报》：20万字；《电视新闻》（CCTV）：50万字；《当代》（杂志）：30万字。

标准语料库（2000年）：.以分词规范和语委词类标记集为标准的综合语料：70万字，其中10万字标到了小类。

特定加工的语料：

-- 标注中国地名：标注了280万字的语料库（含不同地名1793个，共出现11590次），建立中国地名库，共收88026个地名，同时建立中国地名用字库（3685个）和中国地名用词库（3917个）。地名识别正确率为86.7%，召回率为93.8%。

-- 标注中国人名：标注了300万字的语料库，建立了姓氏人名库，得出了姓氏用字频率表（729个）和名字用字频率表（3345个），中国人名识别的正确率为87.31%，召回率为95.23%。

-- 标注西文译名：标注了250万字的语料库，西文译名资源来自《英语姓名译名手册》和《新英汉词典》的《常见英语姓名表》，正确率为63%，召回率为98%。。

-- 标注中文组织机构名：标注了50万字的语料库，对组织机构名的结构进行分析，使用基于规则的方法。

-- 标注网上语料新词语：标注了150万字的语料库。

为了标注交集型歧义字段，建立了7.8万字的交集型歧义字段库，已标注510万字语料，分词正确率达97%以上，同时证实了交集型歧义字段只有惟一可能的正确切分结果的伪歧义，占歧义字段总数的94%。

他们还建立多义组合型歧义字段库：收录了133条多义组合型歧义字段，比较全面的反映了组合型歧义字段的实际情况。

6、上海师范大学

该校建立了3000万字的生语料库；根据北大的标注规范建立了300万字的标注语料库。他们还建立了100万字《作家文摘》的标注语料库，选取1997年的《作家文摘》，题材包括传记文学、历史故事、记实文学、人物特写、小说、散文、评论等，依靠手工进行标注，不仅完成了切词和词性标注，还完成了短语结构关系和结构功能的标注。加工层次深。

标注示例：

[zw他/rp [db[zc期望/vz 着/ut]vp[db 打/vs [dz[sl一/mx 个/qi]mp[dz[zc 漂亮/ax 的/us]np[dz 大/ax 胜战/ng]np]np]vp]vp]jp 。/w

其中的zw （主谓结构）、db（动宾结构）、 dz（定中结构）、sl（数量结构）等都是结构功能的标记。

7、北京邮电大学的树库

他们在美国LDC的汉语句法树库的基础上进行自动获取语法规则的研究。LDC的树库包含新华社1994到1998年的325篇文章，包含4185颗树，10万个词。他们对LDC树库进行了改造，语法规则和分析模型参数都是通过LDC树库统计和训练得到。在抽取规则之前，进行了如下的预处理工作：

删除所有空的单词；

去掉所有的非终结符的功能标记；

去掉哪些只有一个孩子结点，且此孩子结点是非终结符的结点。

在此基础上进行规则的自动获取，采用改进的CYK算法自动获取了3690条规则，形式如下：

parent_symbol|current_symbol -> RHS1….RHSn log_probability

比如：NP|NP -> NN NN NN -0.879602

8、哈尔滨工业大学机器翻译实验室(MT-Lab)的汉语语料库

容量约1GB。

9、香港城市理工大学的对比语料库

该大学语言资讯科学研究中心建立了LIVAC(Linguistic variety in Chinese communities)语料库，其宗旨在于研究使用中文的各个地区使用语言的异同。这个语料库从1993年开始策划，在香港、澳门、上海、新加坡和台湾五个不同的地区，每日选定一天的报纸摘录其部分资料入库，资料的内容包括社论、第一版的全部新闻和文章、国际版、地方版、特写、评论等。每天收集的份量约两万字，如果已经达到两万字，不太重要的资料就只好割爱。从1995年 7月到1997年6月的两年内，该语料库所收集的资料总字数为15,234,551字,经过自动切词和人工校对之后总词数约为8,869,900词。

统计结果表明，中文各地区所使用的词语，以双音节为最多，其次是三音节，再其次是四音节，再再其次是单音节，但是，单音节词语的使用频度却比较高，仅次于双音节词语的频度，而且远远超出其他音节词语频度之总合。

统计结果还表明，香港和澳门的用词相同率最高，香港与台湾、香港与新加坡的用词相同率居第二，香港与上海的用词相同率最低。从历史背景和社会情况来看，这个数字是可以接受的。因为香港与澳门距离很近，又都长期被欧洲国家管制，香港与台湾和新加坡的商务情况和社会结构之间的相同点都比香港与上海之间多，这种情况，在词语中必定会反映出来。

统计结果还表明，新加坡所用词语比较少，而上海的特有词语比较多，这似乎可以从新加坡华语并非当地社会生活的唯一语言，而上海在中国的特殊地位和经济活动非常活跃有关。

10、台湾的语料库

台湾建立了平衡语料库（Sinica Corpus，中央研究院）和树图语料库（Sinica Treebank，中央研究院）。两个都是标记语料库，有一定加工深度。语料库规模约500万字。

（四）口语语料库

1、中国社会科学院语言所

他们建立了现代自然口语语料库，包括一个旅馆预定口语语料库，搜集了2小时电话的对话，对话人数200人以上，进行韵律切分和句法标注，是wav文件，用SAMPA-C标音，C-ToBI 2.0标注韵律，并转写成汉字文本；还包括一个无限制的自然对话语料库：14.2小时的对话，对话人数22人，进行韵律切分和句法标注，是wav文件，用 SAMPA-C标音，C-ToBI 2.0标注韵律，并转写成汉字文本。

上一篇：对近百年来汉字学研究的历史反思下一篇：没有了