计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

中国语料库研究的历史与现状(5)

2013-05-27 01:19
导读:《人民日报》:1993-2000年七年语料(约2亿字) 《人民日报 市场报》:2000年语料(约1400万汉字) 《人民日报 华南新闻:2000年语料(约600万汉字) 《人民

《人民日报》:1993-2000年七年语料(约2亿字)

《人民日报 市场报》:2000年语料(约1400万汉字)

《人民日报 华南新闻:2000年语料(约600万汉字)

《人民日报 华东新闻》:2000年语料(约500万汉字)

《经济日报》:1992年语料(约1820万字)

《新华社》:1994-1996年三年语料(约3793万字)

宋柔还建立了面向语言学研究的汉语语料库检索系统CCRL,可以让用户使用自己的生语料库和词典生成语料索引,进行检索。

此外,北京语言文化大学还建立了如下的语料库:

当代北京口语语料库(1992年)

现代汉语语法研究语料库(1995年)

现代汉语句型语料库(1995年)

现代汉语语料库(1998年,与香港理工大学中文及双语学系联合建立)

现代汉语语料库(1998年,与清华大学联合,为国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”而建立)

4、清华大学

该大学也建立了现代汉语语料库:1998年建立了1亿汉字的语料库,着重研究歧义切分问题。现在生语料库已达7-8亿字。

他们对于分词技术进行了深入研究,发现了伪歧义,提高了分词精度: 计算机系孙茂松、左正平(1998)指出,切分歧义应进一步区别“真切分歧义”和“伪切分歧义”。譬如:同属交集型,“地面积”为真歧义(“这几块 | 地 | 面积 | 还真不小”“地面 | 积 | 了厚厚的雪”),“和软件”则为伪歧义(虽然存在两种不同的切分形式“和软 | 件”和“和软 | 件”,但在真实文本中,无一例外地应被切分为“和 | 软件”);同属组合型,“把手”为真歧义,“平淡”则为伪歧义。

他们还编制了信息处理用现代汉语分词词表,作为分词最重要的语言资源。

中文系罗振声建立了现代汉语句型研究语料库,从中总结出209种汉语句型。

清华大学智能技术与系统国家重点实验室与北京语言文化大学语言信息处理研究所联合研发的人工标注语料库HuaYu。这个语料库区别于其它类似语料库的特点:是:分布平衡, 不仅仅限于新闻报纸。

HuaYu的分布见表1:

分类       篇数    汉字数     比例   标点符号数    词次数   比例

文学        295    880,057    44%    148,453     760,337    48%

新闻        376    600,490    30%    86,163      438,095    28%

学术         29    402,623    20%    52,823      278,728    18%

应用文      258    119,488     6%    28,727       91,929    6%

合计        958    2,002,658   100%   316,116  1,569,089    100%

    表 1   Hua Yu语料库的分布

其中文学语料的分布见表2:

分类       篇数    汉字数     百分比     标点符号数     词次数

小说        199    648,796    32.5%         112,749     566,730

散文         37    80,067     4%              10,347    65,453

回忆录       29    50,401     2.5%             6,908    38,338

报告文学     13    50,019     2.5%            8,225     40,386

剧本         17    50,774     2.5%           10,224     49,430

合计        295    880,057    44%            148,453    760,337

    表 2  文学语料的分布

他们对这个语料库进行了切分和标注。

语料示例如下:

我|rn 认识|vgn 王眉|npc 的|usd 时候|ng ,|, 她|rn 十|mw 三|mx 岁|qnm ,|, 我|rn 二|mx 十|mw 岁|qnm 。|。 那时|t 我|rn 正|dr 在|pza 海军|ng 服役|vgi ,|,是|vi 一|mx 条|qns 扫雷舰|ng 上|f 的|usd 三七|ng 炮手|ng 。|。 她|rn 呢|y ,|, 是|vi 个|qng 来|vgn 姥姥|ng 家|ng 度假|vgi 的|usd 中学生|ng 。|。 那|rn 年|qt 初夏|t ,|, 我们|rn 载|vgn 着|utz 海军|ng 学校|ng 的|usd 学员|ng 沿|pg 漫长|a 海岸线|ng 进行|vf 了|utl 一|mx 次|qv 远航|vgx 。|。 到达|vgn 了|utl 北方|s 著名|a 良港|ng 兼|vgn 避暑|vgp 胜地|ng ,|, 在|pza 港|ng 外|f 和|pg 一|mx 条|qns 从|pg 南方|s 驶来|vgi 满载|vgn 度假者|ng 的|usd 白色|ng 客轮|ng 并行|vgi 了|utl 一|mx 段|qns 时间|ng 。|。 进|vgn 港|ng 时|ng 我|rn 舰|ng 超越|vgn 了|utl 客轮|ng ,|, 很|dd 亲近|a 的|usd 擦|vgn 舷|ng 而|c 过|vgi 。|。 兴奋|a 的|usd 旅游者|ng 们|ki 纷纷|dr 从|pg 客舱|ng 出来|vgi ,|, 挤|vgi 满|a 边舷|ng ,|, 向|pg 我们|rn 挥|vgn 手|ng 呼喊|vgi ,|,我们|rn 也|dr 向|pg 他们|rn 挥|vgn 手|ng 致意|vgi 。|。

上一篇:对近百年来汉字学研究的历史反思 下一篇:没有了