计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

汉语自动分词与内容分析法研究(1)(2)

2017-08-10 02:04
导读:(4)汉语自动分词应用研究。目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信

(4)汉语自动分词应用研究。目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。随着汉语自动分词技术的进一步发展,这一研究成果将会更广泛地应用到更多的研究领域,如词频统计、内容分析、概念分析、认知心理学和汉语语言学等方面[24]。
2.2 将人工智能技术与汉语自动分词研究有机结合起来
汉语自动分词是中文信息处理的“瓶颈”问题,它的最终解决依赖于汉语的分词结构、句法结构、语义等语言知识的深入系统的研究;依赖于对语言与思维的本质的揭示;同时,在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术研究的新进展。计算机技术和人工智能技术是汉语自动分词的技术基础,计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。因为自然语言处理与理解既是人工智能研究领域需要解决的重大课题,也是汉语自动分词研究的重要内容。因此,汉语自动分词研究发展的同时也寄希望于人工智能技术的新突破。
目前,人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。从人工智能技术的发展和汉语自动分词的要求出发,比较理想的自动分词系统应该综合词法、句法和语义信息,而用计算机对语义、语法进行自动分析尚处在研究阶段。因而,已经推出的汉语分词与标引系统只能采用以机械分词为主,辅之以能部分反映词法、句法和语义规则的改进算法,但仍难以解决复杂的汉语组词关系。因此,今后应注重汉语句法和语义的自动分析研究,并将其应用到汉语自动分词领域。重点应集中在引入知识分词的技术与方法,采用知识分词语义分析法进行自动分词系统的研究。从目前已经公开的各种分词方法看,性能比较优异且具发展前景的应首推基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点,不足的是网络连接模型表达复杂,训练过程较长,不能对自身的推理方法进行解释,对未在训练样本中出现过的新词汇不能给予正确切分。专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,并可利用深层知识来切分歧义字段,缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字段切分时耗时较长,同时在知识表示、知识获取和知识验证等方面存在一些问题。因而,将人工智能技术与汉语自动分词研究有机结合起来,把神经网络技术与专家系统紧密联系起来用于汉语自动分词与标引系统将是该领域的发展趋向[25]。 (科教论文网 lw.NsEac.com编辑整理)
2.3 改造汉语文本书写规则使之利于计算机自动处理
当现有的分词方法和人工智能技术不能有效地解决汉语词自动切分中的困难时,必须有一种新的思维方式来引导汉语自动分词的研究,那就是要研究汉语语言本身的特点和规律,从汉语书面语的书写规则出发来寻求汉语自动分词的突破口。这也许是汉语自动分词发展的新方向。
对汉语书写规则进行适当改造,以使其便于计算机自动切分,不是一种主观幻想。这样做既有理论依据,又有现实例子。其理论依据在于,其他许多语言虽然没有汉语那样博大精深和妙不可言,但却有利于计算机自动处理的优势,实有可取之处。而且任何一种语言都处于不断变化和发展之中,有益的东西要吸收进来,不利的东西要抛弃,并使其趋于完善。完善是相对而言,并非一成不变。语言产生和发展的真正意义还在于,便于交流和利用。这就是为什么解放后我国要进行多次汉语改革的原因。而这些成功的汉语改革正是我们对汉语书写规则进行改造的现实依据。为了使汉语走向全球,为了中华文化的再次伟大复兴,随着信息时代的到来,我们必须对汉语进行改革。因为它牵系一个民族发展的前途和命运。
对书面汉语书写规则进行改造与规范,可以吸收其他语言在计算机处理中的优点。如可以从西方语系(如英语)得出启示,也可以从东方语系(如日语和韩语)得到启发,还可以汲取藏文自动处理的做法。这些语言都有适合计算机自动处理的优势。
上一篇:汉字起源于中东——兼论甲骨文起源之文化读解 下一篇:没有了