汉语分词在中文软件中的广泛应用(2)
2014-09-09 01:23
导读:交集型歧义字段,据统计,这种歧义字段占全部歧义字段的85%以上。[4]所以这也是分词系统所要重点解决的问题。在字段ABC中,这里,A,B,C分别代表
交集型歧义字段,据统计,这种歧义字段占全部歧义字段的85%以上。[4]所以这也是分词系统所要重点解决的问题。在字段ABC中,这里,A,B,C分别代表有一个或多个汉字组成的字串。A,AB,BC,C分别都是词表中的词,则称该字段为交集型歧义字段。如:“中国/人”,“中/国人”两种切分结果。 组合型歧义在字段ABC中, A,B,AB 分别都是词表中的词,则称该字段为交集型歧义字段。如:他/具有/非凡/的/才能/。/ 只有/他/才/能/举起/这/个/重物/。/
未登录词识别 我们知道,词表中不能囊括所有的词。一方面是因为语言在不断的发展和变化,新词会不断的出现。另一方面是因为词的衍生现象非常普遍,没有必要把所有的衍生词都收入辞典中。 特别是人名、地名等专有名词,在文本中有非常高的使用频度和比例。而且由于未录词引入的分词错误往往比单纯的词表切分歧义还要严重。这就要求分词系统具有一定的未登录词识别能力,从而提高分词的正确性。 除了人名、地名的识别,我们认为,分词系统还需要有一定的词法分析能力,从而解决衍生词和复合词等词汇平面上的问题,为进一步的中文信息处理提供坚实的基础。分词算法 以上我们大致了解了分词系统所面临的关键问题,那么,分词系统怎样解决这些问题的哪?下面我对我们曾经试验过的几种分词算法,也是目前比较被广泛使用的方法加以简单介绍:
基于词表的分词-最大匹配(MM) 这是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则,即“长词优先”原则,来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分错误。根据我们小规模测试的结果,其正确率为95.422%,速度为65,000字/分钟。 这种切分方法,需要最少的语言资源(仅需一个词表,不需要任何词法、句法、语义知识),程序实现简单,开发周期短,是一个简单实用的方法。 基于统计的分词 这种方法首先切分出与词表匹配的所有可能的词,这种切分方法称为“全切分”,运用统计语言模型和决策算法决定最优的切分结果。 这种方法的优点是可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法。需要大量的标注语料,并且分词速度也因搜索空间的增大而有所缓慢。根据我们小规模测试的结果,其正确率为96.252%。分词速度为:40,000字/分钟。 基于规则和基于统计相结合 这种方法首先运用最大匹配作为一种初步切分, 再对切分的边界处进行歧义探测,发现歧义。再运用统计和规则结合的方法来判别正确的切分,运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。 目前这种方法可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别的处理,基本解决了分词所面临的最关键的问题。而且由于优秀的辞典结构和算法设计,分词速度非常快。根据我们小规模测试的结果,其正确率为97.948%。分词速度为:200,000字/分钟。但是,目前这个分词系统对于组合歧义的处理还没有涉及。 这一分词系统我们称之为:WB2000, 它作为Office2000中文版中的一个基本模块被许多中文功能所运用。
三、 汉语分词系统WB2000以及在中文Office2000中的应用举例这里,我们就WB2000在Office2000中文版中的具体应用实例进行简单介绍,从这些具体的应用实例中,我们可以对中文分词的广泛应用有进一步深入的了解。
WB2000的分词功能 以上已经从分词算法上初步了解了WB2000, 从分词功能的角度看,它具备以下几个功能: 1)交叉型歧义识别 (科教作文网http://zw.NSEaC.com编辑发布)
2)词法分析:前后缀、重叠等
3)专有名词识别:人名、地名、机构名
4)其它:数量和时间类词组识别 此外,从程序设计的角度看,它还具备以下的特点: 词表的可扩充性, 分词用词表可以支持批量追加适合于各种应用的词汇。 功能的可组合型, 可以根据不同应用的需要,通过以上分词功能的不同组合,来调整不同的“分词单位”。 接口的可共享型, 分词系统的统一接口设计,使得不同的应用可以共享同一分词系统。