计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

中国语料库研究的历史与现状(3)

2013-05-27 01:19
导读:c. 生活 口语中前4000词的词表:本表共统计18种语料,16万词次(20万字),有不同词条8263个。前4000个词的累计频率为 96.65%。从统计数字可以看出,口语语体

c.生活口语中前4000词的词表:本表共统计18种语料,16万词次(20万字),有不同词条8263个。前4000个词的累计频率为 96.65%。从统计数字可以看出,口语语体的用词量比前两种语体要少三分之一,但高频词出现的词次却相当多,前1000个高频词的出现频率比a表高出 6%,比b表高出12%。这意味着,口语语体的用词量虽然不大,但是它们的出现次数对语料的覆盖面却相当大。

d.文学作品类前4000高频词的词表:本表共统计106种语料,66万词次(89万字),有不同词条23,622个。前4000个高频词累计频率为90.63%。这说明文学作品的用词量大,但是为了追求用词的多样化,即使是高频词的出现频率也比较低,这反映了文学作品词汇丰富多采的特点。

早期的这些语料库的具有如下特点:

①多数是采用手工键入的方式建立的,耗时耗力,缺乏规范,规模较小,重用性差。为了建设这样的语料库,需要付出艰辛的劳动,著名专家刘源教授(北京航空航天大学计算机系教授)在2000万字的语料库建设中积劳成疾,健康受到严重的损害。我国语料库的早期建设者的敬业精神是值得我们尊敬的。

②发现了汉语文本切分歧义的两种类型:北航和北语的语料库进行了词频统计,北航还进行了自动分词研究,发现了两种不同的分词歧义字段(Ambiguous Segmentation Strings, ASSs):交集型歧义字段和多义组合型歧义字段。

交集型歧义切分字段:例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,从而产生歧义。

多义组合型歧义切分字段:例如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。

梁南元(1987)对一个48092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个, 多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。

③建立了初步的分词规范:1990年10月,在计算机界和语言学界的共同努力下,我国制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。

(二)国家级语料库的建设

1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:

①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。

②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。

③使用领域的限制: 语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。

这个语料库现在只完成了2000万字语料的输入和校对工作,尚未进行进一步的加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本很高,据说单是建立生语料库,耗资约200万人民币。

为了加工这个国家级语料库,国家社科基金设立了社科重大项目“信息处理用现代汉语词汇研究”,希望利用该项目的成果来加工这个语料库。该课题分10个子课题:

①信息处理用现代汉语分词词表

②歧义切分与专有名词识别软件

③词的构造研究

④现代汉语词类及标记集规范

⑤汉语词类兼类研究

⑥现代汉语的语法属性描述研究

⑦现代汉语述语动词机器词典和槽关系研究

⑧汉语知识词典建立及词汇内部语义网络描述研究

⑨汉语文本短语结构的人工标注

⑩常用动词语义特征及词义搭配研究

现在,该课题已经结项,国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组,准备对国家级语料库的2000万字的核心语料进行深加工,逐步把这个生语料库变为熟语料库。

(三)大规模真实文本语料库

1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:《人民日报》光盘数据库,北京大学计算语言学研究所,北京语言文化大学,清华大学,山西大学上海师范大学北京邮电大学,香港城市理工大学,东北大学哈尔滨工业大学,中国科学院软件研究所,中国科学院自动化所,北京外国语大学日本学研究中心,台湾中央研究院语言研究所(筹备处)。下面分别加以介绍。

1、《人民日报》光盘数据库

收集该报48年的全部文字和图像内容,公开发行。

2、北京大学计算语言学研究所

该研究所建立了现代汉语标注语料库,与富士通公司(Fujitsu)合作,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多音词注音。

示例1:古城/n 虽/c 遭/v 破坏/v ,/w 但/c 它/r 留下/v 了[le5]/u 契丹族/nz 和[he2] 各[ge4]/r 民族/n ,/w 特别/d 是/v 汉族/nz 劳动/vn 人民/n 共同/d 开拓/v 祖国/n 北疆/s ,/w 创造/v 我国/r 历史/n 文明/n 的[de5]/u 足迹/n 。/w

示例2:19970310-01-002-0020/m  [全国/n  人大/j]nt  代表/n  、/w  [陕西/ns  西安/ns  美术/n  学院/n]nt  名誉/n  院长/n  刘/nr  文西/nr  利用/v  会议/n  休息/vn  时间/n  创作/v  了/u  邓/nr  小平/nr  画像/n  《/w  与/p  人民/n  同/d  在/v  》/w  。/w  画像/n  表现/v  了/u  邓/nr  小平/nr  同志/n  祝愿/v  祖国/n  繁荣/a  、/w  人民/n  幸福/a  的/u  伟大/a  胸怀/n  。/w  (/w  新华社/nt  记者/n  齐/nr  铁砚/nr  摄/v  )/w

上一篇:对近百年来汉字学研究的历史反思 下一篇:没有了