试论中国古籍数字化与人文学术研究(1)(3)
2017-02-10 01:03
导读:虽然我们一再强调计算机技术一日千里的发展,但还是有必要检讨一下其为古籍数字化所作的技术准备。首先,网络技术的飞速发展使信息资源的共享成为
虽然我们一再强调计算机技术一日千里的发展,但还是有必要检讨一下其为古籍数字化所作的技术准备。首先,网络技术的飞速发展使信息资源的共享成为可能。几年前网络通信还是少数人的奢侈品,如今信息高速公路已经修到我们每个人的家门口,将世界连接为一个名副其实的地球村。依托这条无远弗届的信息通衢,人类的知识传播和知识创新势必发生新的跃迁。国际互联网提高了电子文献的检索效率,扩大了服务范围,具有便捷的信息传递方式,节省了远程通信费用[8]。其次,新一代高性能计算机的海量存储和秒级运算能力十分惊人,以至普通人已难于预测它明天的发展。海量存储设备已逐渐普及,我们再也不必在空间和时间的矛盾中苦苦挣扎了。电脑CPU的时钟频率一路突飞猛进,1GHz的CPU也指日可待了。复次,新的国际计算机信息处理标准的制定和实施为建构全球统一的信息处理系统奠定了坚实的基础。我们知道,最初的计算机使用的字符集是为人熟知的ASCII码,即基本拉丁字符集(ISO646),仅有96个拉丁字母和符号。随着计算机技术在世界各国的普遍运用,多文种信息处理的要求也应运而生,基本拉丁字符集显然已无法满足这种需求,各国所运用的地区性编码又为全球信息处理一体化设置了障碍。于是在国际标准化组织(ISO)引导下,由国际计算机界、语言文字学界的专家共同制定了通用多八位编码字符集(ISO/IEC10646)。我们现在所使用的中文版Windows95就是实现该标准的一个子集,它采用了中国信息标准化委员会1995年11月制定的汉字内码扩展规范(GBK),收入汉字两万多个[9],虽然目前还不能完全满足古籍数字化的要求,但毕竟为汉字信息处理的国际化和标准化开辟了道路,为中国准备了一把开启数字化时代大门的钥匙。再次,新的计算机应用技术,如非键盘输入技术[10],中文数据库技术[11],多媒体压缩与传送技术、安全保密技术、自然语言理解技术[12],尤其是数据挖掘技术的出现,为古籍数字化事业提供了有力的支持。数据挖掘技术又称数据库中的知识发现(Knowledge Discovery in Database,简称KDD),是指从大量数据中提取出可信的、新颖的、有效的并易于理解的知识的高级处理过程[13]。它已广泛应用于市场行销、产品制造、通信网络管理、金融投资、自然科学研究等许多领域[14]。我们相信,数据挖掘技术运用于人文研究领域,必将创造出更卓越的业绩。非键盘输入技术使文献载体转换方式发生了一场革命,例如自动识别输入技术(ODR)使海量信息输入的工作量大大降低,清华紫光公司所研制的非特定人手写识别软件仅用三个月时间就将一部《文渊阁本四库全书》输入计算机内,为同类工作积累了宝贵的技术财富[15]。最后,面向对象的编程工具的出现使人性化应用界面的编制变得轻而易举。
(科教范文网 fw.nseac.com编辑发布)
如上所述,计算机的特长正在于海量数据的存储、运算(包括排序、筛选、统计和分类)和传输,更可深入文献内部,实现知识的发现,这与人文研究工作的一般过程,即关键词的查询、排序、筛选、分类、统计及其相关性的分析十分相似。既然如此,那么我们就发现了计算机科技运用于人文学术研究领域的基本契合点,我们只须以某种方式沟通两者的语言,就可以充分地发挥计算机的优势,大幅度地提高人文学术研究的效率,为学术积累和学术评论提供更为便利的条件和优化的环境,同时,也就找到了比较完善的古籍数字化方案。
目前对于数据库厂商来说是一个千载难逢的良机,无论是近期的国家古籍整理与规划小组的古籍光盘工程、北京图书馆的数字化图书馆工程,还是未来的国家知识基础设施工程,肯定会带来计算机网络工程、系统集成、数据通信、软件开发以及服务方面的巨额需求,谁先期投入这一事业,制定出一系列行业标准,谁就占据了相关产业的制高点,分得最大的市场份额,必将成为全国以至全球的信息产业界业巨子。共3页: 1 [2] [3] 下一页 论文出处(作者):