论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
c.生活口语中前4000词的词表:本表共统计18种语料,16万词次(20万字),有不同词条8263个。前4000个词的累计频率为 96.65%。从统计数字可以看出,口语语体的用词量比前两种语体要少三分之一,但高频词出现的词次却相当多,前1000个高频词的出现频率比a表高出 6%,比b表高出12%。这意味着,口语语体的用词量虽然不大,但是它们的出现次数对语料的覆盖面却相当大。
d.文学作品类前4000高频词的词表:本表共统计106种语料,66万词次(89万字),有不同词条23,622个。前4000个高频词累计频率为90.63%。这说明文学作品的用词量大,但是为了追求用词的多样化,即使是高频词的出现频率也比较低,这反映了文学作品词汇丰富多采的特点。
早期的这些语料库的具有如下特点:
①多数是采用手工键入的方式建立的,耗时耗力,缺乏规范,规模较小,重用性差。为了建设这样的语料库,需要付出艰辛的劳动,著名专家刘源教授(北京航空航天大学计算机系教授)在2000万字的语料库建设中积劳成疾,健康受到严重的损害。我国语料库的早期建设者的敬业精神是值得我们尊敬的。
②发现了汉语文本切分歧义的两种类型:北航和北语的语料库进行了词频统计,北航还进行了自动分词研究,发现了两种不同的分词歧义字段(Ambiguous Segmentation Strings, ASSs):交集型歧义字段和多义组合型歧义字段。
交集型歧义切分字段:例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,从而产生歧义。
多义组合型歧义切分字段:例如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。
梁南元(1987)对一个48092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个, 多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。
③建立了初步的分词规范:1990年10月,在计算机界和语言学界的共同努力下,我国制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。
(二)国家级语料库的建设
1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:
①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。
②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。
③使用领域的限制: 语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。
这个语料库现在只完成了2000万字语料的输入和校对工作,尚未进行进一步的加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本很高,据说单是建立生语料库,耗资约200万人民币。
为了加工这个国家级语料库,国家社科基金设立了社科重大项目“信息处理用现代汉语词汇研究”,希望利用该项目的成果来加工这个语料库。该课题分10个子课题:
①信息处理用现代汉语分词词表
②歧义切分与专有名词识别软件
③词的构造研究
④现代汉语词类及标记集规范
⑤汉语词类兼类研究
⑥现代汉语的语法属性描述研究
⑦现代汉语述语动词机器词典和槽关系研究
⑧汉语知识词典建立及词汇内部语义网络描述研究
⑨汉语文本短语结构的人工标注
⑩常用动词语义特征及词义搭配研究
现在,该课题已经结项,国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组,准备对国家级语料库的2000万字的核心语料进行深加工,逐步把这个生语料库变为熟语料库。
(三)大规模真实文本语料库
1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:《人民日报》光盘数据库,北京大学计算语言学研究所,北京语言文化大学,清华大学,山西大学,上海师范大学,北京邮电大学,香港城市理工大学,东北大学,哈尔滨工业大学,中国科学院软件研究所,中国科学院自动化所,北京外国语大学日本学研究中心,台湾中央研究院语言研究所(筹备处)。下面分别加以介绍。
1、《人民日报》光盘数据库
收集该报48年的全部文字和图像内容,公开发行。
2、北京大学计算语言学研究所
该研究所建立了现代汉语标注语料库,与富士通公司(Fujitsu)合作,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多音词注音。
示例1:古城/n 虽/c 遭/v 破坏/v ,/w 但/c 它/r 留下/v 了[le5]/u 契丹族/nz 和[he2] 各[ge4]/r 民族/n ,/w 特别/d 是/v 汉族/nz 劳动/vn 人民/n 共同/d 开拓/v 祖国/n 北疆/s ,/w 创造/v 我国/r 历史/n 文明/n 的[de5]/u 足迹/n 。/w
示例2:19970310-01-002-0020/m [全国/n 人大/j]nt 代表/n 、/w [陕西/ns 西安/ns 美术/n 学院/n]nt 名誉/n 院长/n 刘/nr 文西/nr 利用/v 会议/n 休息/vn 时间/n 创作/v 了/u 邓/nr 小平/nr 画像/n 《/w 与/p 人民/n 同/d 在/v 》/w 。/w 画像/n 表现/v 了/u 邓/nr 小平/nr 同志/n 祝愿/v 祖国/n 繁荣/a 、/w 人民/n 幸福/a 的/u 伟大/a 胸怀/n 。/w (/w 新华社/nt 记者/n 齐/nr 铁砚/nr 摄/v )/w