计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

浅析汉字识别技术在档案管理工作中的应用(1)

2013-12-04 01:11
导读:公共管理论文毕业论文,浅析汉字识别技术在档案管理工作中的应用(1)样式参考,免费教你怎么写,格式要求,科教论文网提供大量范文样本: 汉字识别技术(简称OCR)可以理解为是让 计算 机认字的技术。它通
汉字识别技术(简称OCR)可以理解为是让 计算 机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的 应用 价值 汉字识别技术的应用价值主要体现在两个方面: 一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供 丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的 重要 历史 ,对我国 现代 化事业的 发展 ,对精神文明和物质文明的建设都有着非常重要的利用 价值。但这部分档案的 内容 都没有文本数据,或者说都只是固定在纸质载体上的死信息。既 使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代 社会 对档案 信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相 当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值 就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数 据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档 案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然 目前 汉字键盘录入的 方法 有许 多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需 要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当 比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是 影响 一些档案部门 建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉 ”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或 调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且 ,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像 和文本等,效果就此较理想了。
(转载自http://www.NSEAC.com中国科教评价网)


二、汉字识别后生成的文本数据的属性 问题 。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸 质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品, 因此不具有档案的原始性。

知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存 在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。

汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上, 比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢 失等属性。因此具有更强的信息性。 汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果 。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性 :当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案 编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原 始性的基本属性,因为它们是印刷品或出版物的本源信息。

由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。

三、汉字识别技术的应用方式 汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应 用方式有:共2页: 1 [2] 下一页 论文出处(作者):佚名
上一篇:浅论档案的定义和起源 下一篇:没有了