《现代汉语语法信息词典》的开发与应用(2)
2014-04-01 04:30
导读:词语 同形 义项 助动 外内 体谓准 双宾 着了过 重叠 VVO 离合 单作谓语 单作补语 兼类 交给 体 双 了 理发 内 了过 VVO 离 可 会 A 见面 体 着了过 VV n 会 B1
词语同形义项助动外内体谓准双宾着了过重叠VVO离合单作谓语单作补语兼类
交给体双了
理发内了过VVO离可
会A见面体着了过VVn
会B1理解体可可
会B2可能助谓可
会C付帐体可
加强体准了
进行准了
能够助谓可
保管1保存体着了过ABAB可
保管2担保谓
帮帮助体双着了过VV可q
冒险内过VVO离a
上去内了过离可可
对动词的某些属性(如体词宾语、谓词宾语的类型)还要进一步刻划,则分别建立有关的分库。这样,整个信息库形成了层次构造的体系。总库与各类词库,代词与下属的2个分库,动词与下属的6个分库都可以进行连结(JOIN),连接条件可以用词语、词类、同形这些字段来表达。这样,这32个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,或者说,将父结点与子结点连结起来就可以得到词语的更全面的信息。2.3 词语的属性描写分类法刻划事物虽然简洁、清晰、信息密度大,但属于同一类的事物仍可能各具特点,例如“鱼”和“牛”同属个体名词,因为“鱼”有专用个体量词“尾”,“牛”有专用个体量词“头”。但是,“鱼”通常还可以与度量词“斤,克”搭配,“牛”就不行。因此语法词典更依靠属性描述来刻划每一个词语的语法信息。如对于名词,就详细描述每个名词可以搭配的各类量词。语法词典对每一类词的语法属性进行了相当充分的发掘。例如,对于作为研究重点的动词共确定了46项属性。这些属性大致可归纳为7类。第一类是关于动词本身特性的,如该动词是不是系词、助动词、趋向动词。第二类是关于动词变化形态的,如有没有VV、ABAB、AABB、V一V、V了V等形态。第三类描述该动词有无名词特性,如能否直接修饰名词,能否直接受名词修饰、能否作动词“有”的宾语等。第四类反映该动词同一些虚词的关系,如它前面能不能受“不,没,很”修饰,后面能不能带“着,了,过”。第五类描述动词在句中的功能,即该动词在句法结构中能否单独作主语、谓语、宾语、状语和补语,其中能否单独作谓语是一项很重要的属性。第六类刻划动词与后继成分的关系,即该动词能否后接表示结果的补语,能否后接趋向动词,能否后接时量成分,能否后接动量成分,能否带宾语。如果能带宾语,则进一步细分能带什么样的宾语:体词,谓词,双宾等。第七类包含其它零散的属性,如该动词的主语是否必须是“复数”。3. 现代汉语语法信息词典的设计思想3.1 通用与专用相结合,以通用为主在自然语言处理系统中,通常都有一部包括词法、句法、语义信息的机器词典,但由于这类词典是服务于特定目的与特定系统的,为了把它从一个系统移植到另一个系统时需要花费很大力气,人们往往宁愿另起炉灶。本语法词典作为中文信息处理技术应用开发平台的一个组成部分,是独立于特定的处理系统的,甚至也不依赖于某个具体的计算语言学理论与算法,它反映的是现代汉语词语的语法功能的基本事实。各个具体的应用系统可能不需要语法词典所包含的全部知识,但都可以对它进行裁剪或从中提取出所需要的知识。语法词典的收词原则、各个词的义项的选取原则以及语法属性的确定都是面向通用的现代汉语的。但是,当将语法词典应用于具体系统时,也可以通过词语的选取、属性的增删向各个具体系统倾斜,专用的色彩就会变浓。3.2 专家知识与语料库相结合,以专家知识为主现代汉语词语分类体系的确立、若干词类的子类的划分、各类词的共同语法属性(总库)与特殊属性(分库)的设置以及属性值的确定主要依赖专家的知识。指导、主持与参与语法词典开发的专家或者是造诣颇深的著名语言学家,或者是在开发具体的自然语言处理系统中积累了丰富感性知识的计算机专家,或者是基础扎实文理结合的青年计算语言学工作者。语法词典就是将这些专家的知识以形式化、规格化的方式存储到计算机系统中。而且语法词典的开发也为计算机科学与语言学的结合找到了一个合适的途径。计算机系统可以较快地吸收语言学家的知识,语言学家也能比较容易地利用语法词典开展语言研究与语言教学研究。在依赖专家知识的同时,我们也重视语料库的建设。对总体组提供的3批语料,我们参与了切分与词性标注。北大计算语言学研究所还建立了面向语法研究的语料库,并对其中一部分(约70万字)进行了切分与标注。利用这些语料,可对词典内容进行比较与校对,从而大大提高了词典内容的可信度。3.3 基础研究与应用研究相结合,以基础研究为主北大计算语言学研究所在八五期间始终将语法词典的开发列为工作的重点,尤其是课题组的主要成员,更是全身心地投入了这项开发工作,以全局利益和长远利益为重,坚持做底层的基础的工作。北大计算语言学研究所也在另外一些项目中使用语法词典的成果。这些项目包括独立开发的现代汉语语料库多级标注系统CCMP[9],也包括与其它单位合作开发的如1.中所述的应用系统。从应用中得到的反馈意见既使课题组得到鼓舞,也使课题组清醒地认识到,要使这项成果早日问世,发挥作用,尚有很多艰苦的工作要做。4. 现代汉语语法词典应用例解语法词典是语言信息处理的基础,它不仅可以在语言信息处理的各个项目(如:机器翻译,自然语言接口,文献检索,语音识别,语音合成,文字识别,中文键盘输入,文本校对,语料库加工等)中得到应用,而且也可以在传统的语言学研究特别是现代汉语语法研究中得到应用。下面以实例解释如何运用这部语法词典。4.1 句法分析按照当前的主流技术,句法分析是机器翻译与自然语言理解等系统的处理流程中的一个必要的环节。句法分析指的是依据某种句法分析理论提供的规则分析自然语言的句子,得到这个句子的句法树(如上下文无关语法CFG)或以复杂特征集表示的功能结构(如词汇功能语法LFG)。要进行这种句法分析,必须要知道每个词的词性(即该词所属的词类, part of speech)。但仅仅依靠词性,会产生大量的歧义结构。如: 我们 选举 他 当 主席。 (1) 我们 认为 他 是 主席。 (2)(1)与(2)的相似是明显的,从词性来看,它们都有如(3)所示的同样的词类序列。 r v r v n (3)根据上下文无关的语法规则,这样的词类序列可以产生多种句法树。从语法词典中查“选举”,这个动词可以后接兼语结构,(1)的结构可以优选为图1中的左边的树。从语法词典中查“认为”,这个动词只能带谓词性宾语,且这个谓词性宾语是一个子句,(2)的结构只可能是图1中的右边的树。 S SNP VP NP VP r v NP VP r v SC r v n NP VP我们 选举 他 当 主席 r v n 我们 认为 他 是 主席图1 句子(1)与(2)的句法树 在机器翻译系统中,只有得到了源语言句子的正确的句法结构,才有可能产生可信度与可读性皆好的目标语言的句子。4.2 句子生成一般地说,在自然语言处理系统中,汉语的句子生成相对说来要简单些,这是因为汉语的词没有复杂的形态变化,词序又比较灵活。以汉语为母语的人容易从词语、语素排列串中猜出它们要表达的意思。正因为如此,现在对汉语的句子生成投入的力量是不够的。自然语言处理系统生成的汉语句子往往带有“机器味儿”,不像地道的汉语。例如,机器翻译系统给出以下两句汉语是寻常的。 她是一个美丽姑娘。 (4) 当时敌机轰炸着这个城市。 (5) “美丽”是形容词,“美丽”修饰“姑娘”在语义上也是适配的,但读起来总觉得有些别扭。这是因为汉语中的形容词,只有一部分可以直接修饰名词,相当多的一部分需要加助词“的”才能修饰名词。从语法词典的形容词库中,可以查到,“美丽”需加“的”,而它的同义词“漂亮”则不需要加“的”。只要利用这些平凡的知识,则能生成更自然的句子“她是一个美丽的姑娘”或“她是一个漂亮姑娘”。对于(5),之所以觉得它不地道,是因为“轰炸”这个动词后面不能接动态助词“着”,为了表示进行时态,可以改为“当时敌机正在轰炸这个城市”。在语法词典中确实包含了动词“轰炸”不能带“着”、可以受“正在”修饰的信息。4.3 语音识别与拼音汉字转换语音识别通常分为两个阶段。第一阶段是将无编码的语音信号转换为机内的汉语拼音序列,这是模式识别的任务。第二阶段是分化同音字或同音词,表现在书面上则是将拼音序列转换为汉字序列。这是语言信息处理的任务。采用拼音方式从键盘上输入中文所要解决的问题也是拼音序列到汉字序列的转换。假定,给定拼音序列 Zhuo1zi5 shang4 you3 yi1 jin1 pi2pa5。 (6) 这里,全拼音节后的数字1,2,3,4,5分别代表阴平、阳平、上声、去声、轻声。由于“pi2pa5”对应两个同音词“琵琶”和“枇杷”,某些系统转换出 桌子上有一斤琵琶 。 (7) 是不足为怪的。但如果利用语法词典,则可以查到每一个具体的名词可能与哪些子类的量词以及哪些具体的量词相适配。与“琵琶”相适配的只有个体量词“把”,而“枇杷”却是可以与度量词“斤”相适配的。根据语法词典提供的这些信息,系统就可以修正(7),从而得到“桌子上有一斤枇杷”。又假定系统已确认对应“jiayi”的词是“加以”,接着输入“yanjiu”。没有更多的信息,系统很难判定对应“yanjiu”的是“烟酒”还是“研究”。如果利用语法词典,则知道“加以”是形式动词,只能带准谓词性宾语,不会带体词性宾语,因此在“加以”的制约下,对应“yanjiu”的只能是“研究”而不会是“烟酒”。4.4 汉字识别的后校正现在脱机(off-line)汉字识别技术对“师”这个模式通常给出“师、怖、帅”等若干个候选字。如果没有上下文,孤立地决定选取哪一个字是困难的。但如果在上下文“三个师的士兵”中,“师”的前后都是笔划较少、较易辨认的字,并且已经唯一地确定下来了,则只有“师”这个名词可以与个体量词“个”相适配。在现代汉语中,“帅”与“怖”只是语素,不能独立成词,一般不会与“个”相适配。因此,系统就会很有信心地从3个候选字中选择“师”。4.5 语料库标注北大计算语言学研究所开发汉语语料库多级加工系统CCMP的经验表明,进行语料库标注,采取基于规则的方法与基于统计的方法相结合的策略是恰当的,并且切分与标注同步进行是合理的[9]。在进行这种标注时,语法词典可以发挥重要的作用。词典中的数以万计的词都已经划好了类,对标注的正确性与一致性可以起到基本的保证作用。标注程序只需集中力量解决兼类词的歧义消解及未登录词的确认与词性判定。利用纯粹的统计方法进行词类标注,也需要有人先对一部分语料进行手工标注(即对系统进行训练)。由于存在不同的语法体系,由于不同的人会有不同的认识,即使同一个人的认识也会发展变化,所以由人直接标注语料难免出现不一致性。例如,对于主宾语位置上的谓词(动词、形容词等)有可能被标为谓词,也有可能被标为名词。这样就会影响自动标注的正确率。依靠这部语法词典,就不会发生这种情况。而且,标注了词性的语料库与语法信息词典相结合,可以构成立体的知识库,即从语料中的词/词性入口,可以迅速检索到该词的诸多语法特性,从而为进一步的分析或标注提供丰富的知识。5. 后记本项研究虽然已取得了可观的阶段性成果,但要做的工作还很多。本课题组决心持之以恒,继续推进这项研究。本项研究自始至终是在陈力为院士的关心与支持下进行的。总体组的多位专家(如袁琦、董振东、黄昌宁等)及各合作单位都给过北大计算语言学研究所多种形式的支持与鼓励。在此一并致以衷心的谢意。陆俭明与郭锐两位先生起了重要的顾问作用。北大计算语言学研究所的张芸芸、郭涛、周强、陶晓鹏、詹卫东、周莉娜等人或者是在词典本身的开发中或者是在词典的应用中都为本项研究贡献了力量。参考文献[1] 俞士汶,中文输入中语法分析技术的应用,《中文信息学报》,1988年,第二卷,第三期,PP20-26 [2] 俞士汶,现代汉语词语信息库开发工作介绍提纲,《计算机开发与应用》,1989年,第五卷第二期, PP16-18[3] 陈力为,建立应用开发平台是中文信息处理技术的当务之急,《计算机世界》,1992年1月8日,第2期第5版[4] Zhengdong Dong , 中国中文信息处理平台工程项目与汉语研究,Communications of COLIPS, Volume 3, Number 2, 79~88,1993. [5] 俞士汶,朱学锋,郭锐,现代汉语语法电子词典的概要与设计,第三届中文信息处理国际会
议论文集(ICCIP’92),PP186-191[6] 俞士汶,信息处理用现代汉语词语分类体系介绍,计算语言学教学参考资料(北大计算语言所1993年7月编),PP35-57 ,其摘要“关于现代汉语词语的语法功能分类”刊载于《中国计算机报》,1994年5月31日第73版至第75版[7] 王惠,朱学锋,《现代汉语语法电子词典》的收词原则,《中国计算机报》,1994年5月31日第79版至第83版[8] 朱学锋,王惠,张芸芸,现代汉语语法电子词典中量词与名词的子类划分,《中国计算机报》,1994年5月31日第79版[9] 周强,俞士汶,一个人机共生的汉语语料库多级加工处理系统CCMP,《计算语言学进展与应用》,
清华大学出版社,1995年11月,PP50~55本文刊登在新加坡《中文与东方语言信息处理学会通讯》,1995年第2期,PP81~86--------------------------------------------------------------------------------* 本项研究得到中国八五攻关项目与国家自然科学基金的支持论文出处(作者):