计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

中国语料库研究的历史与现状(4)

2013-05-27 01:19
导读:示例3:19970310-01-003-0020/m 世纪/n 之/u 交/Ng ,/w 中华/nz 民族/n 正/d 迎来/v 前所未有/i 的/u 发展/vn 机遇/n 。/w 十几/m 年/q 来/f ,/w 改革/v 开放/v 的/u 不断/d

示例3:19970310-01-003-0020/m  世纪/n  之/u  交/Ng  ,/w  中华/nz  民族/n  正/d  迎来/v  前所未有/i  的/u  发展/vn  机遇/n  。/w  十几/m  年/q  来/f  ,/w  改革/v  开放/v  的/u  不断/d  深入/v  ,/w  党/n  的/u  民族/n  政策/n  的/u  贯彻/vn  落实/vn  ,/w  全国/n  人民/n  的/u  大力/d  支援/v  ,/w  使/v  我国/r  民族/n  地区/n  经济/n  和/c  社会/n  发展/vn  步伐/n  大大/d  加快/v  。/w  加倍/d  珍视/v  和/c  继续/vd  发展/v  这种/r  好/a  的/u  局面/n  ,/w  巩固/v  发展/v  各/r  民族/n  大/a  团结/an  ,/w  成为/v  全国/n  各族/r  人民/n  的/u  共同/b  愿望/n  ,/w  也是/v  在/p  京/j  参加/v  “/w  两会/j  ”/w  的/u  代表/n  和/c  委员/n  的/u  一致/a  心愿/n  。/w

经富士通公司检验,标注的正确率很高。

他们制订《现代汉语语料库加工手册——词语切分与词性标注》。切分规范中,主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。他们采用切分和标注相结合的原则来建立规范,在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在该规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。在标注规范中,规定了一般词性的标注规范和专有名词的规范。

此外,他们还建立了一个小型汉语树库:与新加坡国立大学计算机系合作,内容为新加坡中学语文教材(1995年),所有的句子都分析为树形图。

示例:

[zj [dj 富士山/n  [vp 是/v  [np 日本/n  的/u  [np [mp 一/m  座/q  ] 活火山/n  ]]]] 。/w  ] [zj [fj [fj [dj 山峰/n  [vp 终年/d  积雪/v  ]] ,/w  [dj 云雾/n  围绕/v  ]] ,/w [vp 只有/d  [vp [pp 在/p  [np [dj 空气/n 干燥/a  ] 的/u  [np [np 秋/n  冬/n ] [np 两/m  季/Ng  ]]]] ,/w  [vp 才/d  [vp 能/v [vp [vbar 看/v  清/a ] [np 它/r  的/u  全貌/n  ]]]]]]] 。/w  ]

[zj [fj [dj [np [vbar 多/d  变/v  ] 的/u  气候/n  ] ,/w [vp 更/d [vp [pp 为/p  它/r ] [vp [vbar 增添/v  了/u  ] [np 神秘/a  的/u  色彩/n  ]]]]] ,/w  [vp 甚至/d  [vp 使/v  它/r  [vp [vbar 孕育/v  了/u  ] [np 许多/m  [np 美丽/a  的/u  神话/n  ]]]]]] 。/w  ]

[zj [dj [np 富士山/n  的/u  景色/n  ] ,/w  [dj 四季/t  不同/a  ]] 。/w  ]

[zj [fj [fj [fj [fj 春天/t  ,/w [fj [dj 山顶/s  [vp 还/d  [vp [vbar 戴/v  着/u  ] [np 雪/n  帽子/n  ]]]] ,/w  [fj [dj [dj [np 山腰/n  的/u  雪/n  ] [vp 却/d  溶化/v  ]] 了/y  ] ,/w  [fj [dj [np 细碎/a  的/u  [np 小/a  花/n  ]] [vp 开遍/v  山坡/n  ]] ,/w  [vp [vbar 远/a  看/v  ] [vp 象/v  [np [mp 一/m  片/q  ] [np 紫色/n 的/u  海洋/n  ]]]]]]]] ,/w  [fj 夏天/t  ,/w  [fj [dj [np [np 残/Vg  雪/n ] 与/c  [np 山/n  花/n ]] [vp 倒映/v  [sp 湖/n  中/f  ]]] ,/w  [vp 充满/v 诗情画意/n  ]]]] ,/w  [fj 秋天/t   ,/w  [fj [dj [np [np [np 满/a  山/n  ] 红叶/n ] 与/c [np 雪/n  影/Ng  ]] 辉映/v  ] ,/w  [vp 象/v  [np 个/q  [np 娇羞/a 的/u  姑娘/n  ]]]]]] ,/w  [fj [dj 冬天/t  [dj 则/c  [vp 是/v  [np [ap 纯/a  白/a  ] 的/u  [mp 一/m  片/q  ]]]]] ,/w  [ap 庄严/a  而/c  圣洁/a  ]]] 。/w  ]

北大语料库研究的特色是:

①规模大:加工成的熟语料已经达到2000万字,不久将达到2700万字,国内尚无先例。

②加工深:不仅做了切分和词性标注,而且部分语料还进行了短语结构分析,建立了树库。在大规模的语料库中,地名和专有名词都进行了短语结构标注。

③覆盖面广:人民日报的语料不仅包括新闻,还包括各种题材、各种风格、各种语体的文章,涉及社会科学和自然科学多种领域,有很广泛的覆盖面。

④正确率高:在自动加工的基础上进行了大量的人工加工,采用人机结合的策略,是语料库加工的正确率达到了国内最高水平,在国际上也是罕见的。

⑤无著作权纠纷:与《人民日报》达成协议,没有著作权问题。

3、北京语言文化大学

该校计算机系宋柔在远景校对系统的研究、开发和测试过程中一直注重采用大规模真实语料进行各种语言现象的统计、分析、检索、归纳。为此,他们与一些报社、出版社合作,收集、整理了一批综合性、规范性的电子文档资料,建立了一个大型的中文语料库(共约5亿字)。在获取语料后,又专门用工具软件或人工加工清理了语料,分别建立了10个语料库。各语料库情况如下:

《当代中国 丛书》:150卷(约6千万汉字)

《中华人民共和国年鉴》:1997年语料(约200万汉字)

《新闻出版报》:1988年语料(约260万汉字)

《辉煌五十年 湖南卷》:1949-1999年语料(约70万汉字)

上一篇:对近百年来汉字学研究的历史反思 下一篇:没有了