计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

汉语分词在中文软件中的广泛应用(3)

2014-09-09 01:23
导读:以上几个的特点,是基于分词系统是所有语言信息处理系统的基础,也就是说,是所有语言信息处理系统所不可或缺的模块这一认识来设计的。我们认为这
以上几个的特点,是基于分词系统是所有语言信息处理系统的基础,也就是说,是所有语言信息处理系统所不可或缺的模块这一认识来设计的。我们认为这一设计思想应该是开发通用的、实用的分词系统所必须掌握的原则。 Office2000中的应用举例 Office2000 中有诸多功能运用到分词系统,这里只挑选几个典型的应用例子加以说明。
    文本自动校对 分词是文本校对中的一个基本模块,校对系统运用分词模块对文本进行分词,运用词语之间搭配的合理性来识别可能的错误。 例1:
    简体/繁体自动转换 我们知道,简体/繁体之间的转换,在单字一级,会有一个简体汉字对应多个繁体汉字的情况,如:“发”对应繁体的“發”和“髮”。那么,简体/繁体转换应该将“发”转为“發”还是“髮”哪?这就引入了如何解决简/繁歧义的问题。此外,简体中文和繁体中文在一些技术术语的运用上也有不同。例如,简体中文计算机术语“物理地址”和“逻辑地址”在繁体中文中写作“邏輯位址”和“物理位址”。简体/繁体转换系统也需要解决这种术语的不同用法问题。 我们的简体/繁体转换系统运用分词模块切分词语,根据词语以及上下文来决定最可能的转换结果。 例2:
      迅速展的计算机技术。
      迅速展的電腦技術。 她有一头黑亮的头
      她有一頭黑亮的頭
    聪明选词 MSWord2000中,当用户双击鼠标左键是,如果是英文文本,英文单词会被高亮选中,如果是中文文本,中文词语则也会高亮选中,用户可以对选中的词语做进一步的编辑行为。这一功能同样是运用分词系统来实现的。 例3:当用户在“计算机”文本段内任意位置双击鼠标左键时,“计算机”将作为词被选中。 本文来自中国科教评价网
    拼音指南 MSWord2000中提供了对于文本自动标音的功能,我们知道,汉语存在一字多音的问题,如何决定多音字的正确拼音哪?这里,我们仍然利用分词系统作为基础模块根据上下文来判别其正确的拼音。 例4:
    这里,我们看到多音字:“重”被正确标注为“zhong4”和“chong2”.
    四、结语汉语分词是中文信息处理系统的基础,有着极其广泛的实际应用。从基本的输入系统,如智能语句输入法、语音输入、手写输入;到文字处理,如文本校对、简体/繁体转换、拼音标注;以及语音合成,文本检索,文本分类,自然语言接口,自动文摘等等,无处不渗透着分词系统的应用。但是对于分词中所涉及的一些关键问题,我们仍然没有很好的解决方案。因此,中文信息处理技术的进步和中文信息处理系统的广泛应用,有待于对分词中的关键问题进行进一步的深入研究和探索,如,制定和颁布国家通用的分词词表,研究歧义切分字段类型,增强歧义判别的能力,提高专有名词的识别率,研究汉语的构词规则和词法规则等等。从系统设计方面,应考虑开发通用的多功能的汉语分词系统,如:支持多种不同应用的多词典结构、自适应不同应用的切分结果、带结构化和属性信息的切分结果等。从分词的在中文信息处理系统中的应用方面,可以说,我们已经跨出了一大步,但是我们仍在致力于拓展其新的应用,如:自动文摘、汉语文本索引和检索、汉语语音合成、汉语自然语言接口等。 我们认为,汉语分词系统作为中文信息处理系统的基石,有着极其广泛的应用前景。通过对分词技术的深入研究,开发出高质量,多功能的分词系统,必将促进中文信息处理系统的广泛应用,换言之,也就提高了中文软件对于中文的处理能力,这也将使得计算机用户的日常工作的效率得以提高。 参考文献[1]《汉语信息处理词汇01部分;基本术语(GB12200.1-90)》,中国标准出版社,1991
    上一篇:电子商务环境下生产企业物流运作模式的研究( 下一篇:没有了