中国语料库研究的历史与现状(8)

2013-05-27 01:19

导读：台湾研制了一个《资讯处理用中文分词规范》。台湾的计算语言学会在1995年提出了《资讯处理用中文分词规范》，这个规范提出三条基本原则：1.分词单位

台湾研制了一个《资讯处理用中文分词规范》。台湾的计算语言学会在1995年提出了《资讯处理用中文分词规范》，这个规范提出三条基本原则：1.分词单位必须符合语言学理论的要求；2.在信息处理上确实可行；3.能确保真实文本处理的一致性。另外还制定了一些辅助原则（合并原则、切分原则），以决定合并还是切分。该规范按照分词的难易程度，把分词规范分为信、达、雅三个不同的等级。信级标准是基本资料交换的标准；达级标准是机器翻译、情报检索等自然语言处理的标准；雅级标准则是分词的理想境界。这种分等级的做法有利于处理难易程度不同的分词作业。

我国还研制了《信息处理用现代汉语规范词表》。国家语言文字工作委员会在1995年提出研制《信息处理用现代汉语规范词表》的任务，目的在于从政府的角度，研制规范的现代汉语通用词表，以便作为大家遵循的、统一的通用词表，词表的规模大约6万至8万条，这项工作还未完成。现代汉语的词汇是一个复杂的体系，除了通用词之外，还有术语、方言词语、文言词语、专名词语（包括人名、地名、机构名等）、各种熟语（包括成语、惯用语、歇后语、谚语、格言等）。词语是不断发展变化的，随着社会的发展，还会出现大量的新词新语。信息处理会涉及到上述各种词语，因此，词表的制定，除了制定通用词表之外，还应该制订不同专业的术语词表、方言词表、文言词表、专名词表、熟语词表、新词语词表等。这是一项庞大的工程。这些词表的制订和规范化，对于我国计算语言学的进一步发展有着深远的影响。

我国还研制了《信息处理用现代汉语词类标记集规范》：该规范由教育部语言文字应用研究所计算语言学研究室研制，包括 18 个大类。信息处理用现代汉语词类标记集规范制订的主要原则有三个：① 语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据，但有时也起某些参考作用。② 允许有兼类。根据各种统计研究，现代汉语的某些词具有多种语法功能，但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中，各词类的确立要根据词的主要语法功能。 ③词类标记集中的大类应能覆盖现代汉语的全部词。这个规范正在考虑提升为国家标准。

我国某些学者关注到国际上关于通用置标语言的进展。由计算机和人文科学学会（ACH）、计算语言学学会(ACL)和文学与语言计算学会(ALLC) 联合提出了TEI（Text Encoding Initiative，文本编码倡议，1998年），其目标是为电子文本制订一套统一的编码规范，以推动语料存储格式的标准化，实现语料的交换和共享。

由欧洲MULTEXT、EAGLES和VASSAR/CNRS collaboration联合提出CES（Corpus Encoding Standard，语料库编码标准），可广泛应用于语料库的研制与开发。

1986年ISO正式发布了国际标准SGML(Standard Generalized Markup Language，标准通用置标语言)，标准号是ISO8879-1986.我国于1995年也把SGML语言作为国家标准，标准号为GB 14814。冯志伟在《当代语言学》(1998年，第4期)的《标准通用置标语言SGML及其在自然语言处理中的应用》一文详细介绍过SGML语言。

XML(eXtensible Markup Language，可扩充置标语言)是SGML的一个子集，被广泛地用做语料库标注的元语言，通过 DTD(Document Type Definition，文件类型定义)和Schema来规范XML文件，从而使表现与内容分离，规范与实现分离，具有良好的扩缩性。

我国语料库的建设将一定会采用通用置标语言作为描述语料库的元语言。

（二）语料库的资源共享

语料库的资源共享的方式有如下几种：作为产品出售；实行会员制；授予使用许可权；给非赢利目的的学术结构提供无偿使用。

（三）语料库的知识产权

随着语料库的广泛使用，语料库的知识产权问题越来越尖锐，以正式出版物为资源的语料库面临版权的问题。建议政府有关部门建立关于语料库资源的版权法规，建议中国中文信息学会出面协调。

（四）语料库加工中的统计垃圾

由于电子文本的普遍使用，语料资源的获取变得越来越容易，我国大规模的真实文本语料库其规模已经达到5亿字。美国计算语言学会的ACL/DCI 数据采集计划指出，如果以文本形式存储语料，语料库的容量一般可以为1亿词次以上，将来可以达到万亿词次的数量级。随着语料库容量的不断增大，语料统计中的数据稀疏现象会越来越严重。宋柔在统计语料库中的词语接续对时发现：“随着语料库规模的增大，新增加的接续对中的垃圾逐渐会占大部分甚至绝大部分。垃圾主要分布在统计到的低频度接续对中，主要来源是分词中专名识别错误。”应该看到，在统计垃圾中蕴藏着许多正在萌芽的新的语言现象，如“喷塑、蒜农、危改、市话、高检”等低频度的新词语，由于在词典中没有存储，都可以在统计垃圾中找到。如何真确地对待统计垃圾，避免统计中的数据稀疏现象，变垃圾为有用的语言资源，是大规模真实文本处理的一个新课题。

参考文献：

1、J. Sinclair, Reflections on computer corpora in English language research [M], 1982.

2、北京语言学院语言教学研究所，汉语词汇的统计与分析[M]，外语教学与研究出版社，1985年。

3、冯志伟，计算语言学基础[M]，商务印书馆，2001年。

4、冯志伟，语料库语言学与机器翻译[M]，《信息网络时代与日本研究》，山东大学出版社，1999年。

5、刘开瑛，中文文本自动分词和标注[M]，商务印书馆，2000年。

6、孙茂松等，高频最大交集型歧义切分字段在汉语自动切分中的作用[J]，中文信息学报，第13卷，第1期，1999年。

7、俞士汶、朱学锋、段慧明，大规模现代汉语标注语料库的加工规范[J]，中文信息学报，第14卷，第6期，2000年。

上一篇：对近百年来汉字学研究的历史反思下一篇：没有了