汉语自动分词与内容分析法研究(1)(3)
2017-08-10 02:04
导读:西方语系与汉语的明显不同之处在于,西文都是拼音文字,词与词之间有空格等明显的间隔符,因此不存在语词切分的问题。西语的这一显著特征适应了计
西方语系与汉语的明显不同之处在于,西文都是拼音文字,词与词之间有空格等明显的间隔符,因此不存在语词切分的问题。西语的这一显著特征适应了计算机自动处理发展的要求,使得西语在计算机自动文字处理上具有较大优势。这是一种偶然,可以说是上帝赐予西方人的最好礼物。汉语显然不具备这一特征,而恰恰正是这一点又使得汉语不利于计算机自动处理,给我们留下了一个世纪难题。这是否能给我们一些启示呢?我们能否在汉语的书写上向西方人学习呢?这是值得我们思考的。当然,我们不必完全模仿西文而抛弃中文应有的特色和优点。为了使汉语便于计算机自动处理,我们只需要对现有的汉语语法规则作如下改造:一是要对汉语词进行明确规定,即界定什么是词;二是要在汉语文本的词与词之间增加适当的间隔符,即设立分词标志;三是要制定完整的汉语书写规则。这些都可以在汉语文本生成之前完成,如,由作者本人在写作时完成,或由出版编辑部门在稿件编辑时完成。这样我们就不必耗费巨资设计种种算法、编写各种软件来对传统文本进行切分了。
如果我们觉得西方语系难以接受的话,那么我们只要看看日语和韩语就应该有所启发了。日语同汉语十分接近,但日语较汉语适合于计算机自动处理。这是因为日语有丰富的词缀,日语中大量使用片假名和平假名构成了书面日语的词尾变化,而这些词缀可以作为计算机识别词的标志。虽然汉语不能像日语那样构造大量的词缀来作为词的标志,但是可以模仿日语设立其他词缀来区分词,如在词与词之间增加分隔符。韩语本身也有适合计算机自动处理的优势,因为韩语是部件式结构,能进行自由拆分和组合。而我国藏族的藏语是黏着性语言,在一定意义上,我们可以把传统藏文语法看作是由格助词及其接续特征规则构成的语法系统。这一语法系统的主要特点就是:各类名词性成分借助格助词及其接续特征规则构成句节进而由句节结合动词来组织句子。一般而言,藏语的句子是以动词为中心来组织的,动词决定着格助词的添接规则[26]。相比之下,汉语则明显缺乏足够的自动分词信息,所以必须对汉语文本进行改造,添加必要的分词信息。
(转载自中国科教评价网www.nseac.com )
基于以上启示,汉语的书写规则是完全可以进行改造的。如果词的范畴已经明确,书写规则已经制定,而且分隔符也已确定,那么我们就可以对汉语书写规则进行适当的改造了。这是一种新的分词思维,是一种类似英语词切分的无词典式分词方法,即改造书面汉语书写规则,在规范词的基础上,书写或录入时在词与词之间增加分隔符,增加自动分词信息,以便计算机自动识别和切分。这是一种一劳永逸的分词方法。尽管目前我们还不习惯,但是一旦它形成标准,而编辑部和出版社又按此标准对稿件进行规范时,我们有理由相信只要假以时日,就会有一种新的适合计算机自动处理的新的汉语文本出现,而这种文本并不破坏汉语自身固有的特色和优点。
此外,在进行信息交流和处理时,我们除了使用自然语言之外,还有很多其他的人工语言,如数学语言、检索语言、逻辑语言、程序设计语言等,是自然语言交流的补充。这些人工语言和自然语言一样都有一个共同特点,那就是都有一定数量的符号系统和一套完整的语法规则。但是,这些人工语言在很大程度上都适应了计算机技术的发展,具有较强的生命力。由此可得,我们应该能像这些人工语言一样设计出一套新的语言符号系统,模拟现有的汉语语言,并对其进行改造。例如,在数学语言中,“因为”通常用“∵”表示,“所以”通常用“∴”表示,清楚明白,一看便知。又如,在普通逻辑的三段论推理中,分别用“P”、“S”、“M”表示大前提、小前提和结论。数理逻辑和各种程序设计语言中的符号系统更是十分完备,完全可以用来进行信息表示、信息传递、信息存储和信息处理,并实现信息的自由交流。 3 汉语自动分词应用研究 书面汉语自动分词的研究具有重要的理论和应用价值,它的最终解决将对以下几个方面产生实质性影响[35]:汉语语言理解;计算机系统的汉语人机接口;机器翻译;情报检索、信息检索和自然语言检索;自动标引;自动编制文摘、目录与索引;词频统计、概念分析和内容分析;语言文字自动处理;人工智能和知识工程;智能计算机;专家系统和知识库;搜索引擎和网站建设;数据挖掘、知识挖掘;汉语语言学;认知心理学等。