计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

试论中国古籍数字化与人文学术研究(2)

2013-08-29 01:07
导读:字化准备了哪些条件,两者究竟如何契合。 笔者认为,古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案
字化准备了哪些条件,两者究竟如何契合。
  笔者认为,古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功。而此种理论是基于对人术研究一般过程和数据处理基本原理的认识之上的,所以只有学术界与计算机产业界的密切合作,才能达成尽善尽美的结果。笔者认为,以人文学术研究的角度来看,古代典籍一方面是古代先贤完整地表述思想体系的“撰述”,另一方面又可看作是保存古代断片的“记注”[7]。研究先贤的思想,固然要尊重其“撰述”的完整性及其内部的,将其还原于它的时代语境之中,作“同情之了解”;而研究历史则如家一般,将零星的断片(即史料)小心地补缀成一件完整的艺术品。无论何种研究,每当我们将零星的断片按照一定规则重新排列、组合以后,都会有一种豁然开朗的感觉,因为我们由此发现了那些在原有脉络(context)之中难于发现的字面之外的第二甚至第三重含义,以及它们之间的各种内在关联,我们对这些含义和关联作进一步的分析或综合,总会有新的发现及解释,这就是人文学术研究的一般过程。其具体操作过程往往是突破文献的原有结构,将原文献划分为若干基本单位,提取其中指向内部含义的关键词,依照它们的属性进行排序、筛选、和分类,比较相关文献中的关键词,寻求他们之间的相关性。这一过程在手工查阅纸本文献的时代,需要学者具有深湛的功力,否则很难得到完美的解决,因为纸本古籍大多缺少必要的索引,而纸本检索工具既不能随读者的要求提供多种排检方式,又无法按照读者的要求产生再生资源,可用性有限;此外,研究者对文献本身的认识是随着研究工作的深入而逐步清晰起来的,其工作初期往往难以明确提出与自己的研究题目完全切合的全部关键词,而是要在较大范围内进行模糊查询或渐进式查询,这更是纸本检索工具所不能解决的。当然我们也看到,传统的点校本古籍为数字化古籍提供了基本样式,纸本检索工具为数字化古籍的查询积累了有益的经验。中华书局版《二十四史》,尤其是《前四史》的点校,可称古籍整理的优秀范本,它吸收了此前的全部前人校勘的成果,为学术界提供了准确、可靠的古籍文本。洪煨莲先生主持的哈佛燕京学社编纂的引得丛书、谭其骧先生主编的《中国历史地图集》、中华书局出版的《二十四史人名索引》、上海编纂的《中国丛书综录》等,都是嘉惠士林的工具书。引得丛书的语词逐字索引堪称同类索引的典范,《二十四史人名索引》严格的规范控制使读者获益匪浅,《中国历史地图集》所具备的古今地名对照、地名方位查询等检索功能,绝非其他类别的工具书可以替代。数字化古籍一方面应继承纸本古籍及检索工具的优点,一方面又要克服其原有缺陷,淋漓尽致地发挥媒体的优势。鉴于中国古籍中知识发现的复杂性及其广阔的应用前景,笔者认为古籍数字化事业对计算机产业界是一个严峻的挑战,无论是系统、软件在中文下的易用性,还是信息产业的运营和服务的水平,都须经过古籍数字化事业的才是真正的合格。 (转载自中国科教评价网http://www.nseac.com
  虽然我们一再强调计算机技术一日千里的发展,但还是有必要检讨一下其为古籍数字化所作的技术准备。首先,网络技术的飞速发展使信息资源的共享成为可能。几年前网络还是少数人的奢侈品,如今信息高速公路已经修到我们每个人的家门口,将世界连接为一个名副其实的地球村。依托这条无远弗届的信息通衢,人类的知识和知识创新势必发生新的跃迁。国际互联网提高了电子文献的检索效率,扩大了服务范围,具有便捷的信息传递方式,节省了远程通信费用[8]。其次,新一代高性能计算机的海量存储和秒级运算能力十分惊人,以至普通人已难于预测它明天的发展。海量存储设备已逐渐普及,我们再也不必在空间和时间的矛盾中苦苦挣扎了。电脑CPU的时钟频率一路突飞猛进,1GHz的CPU也指日可待了。复次,新的国际计算机信息处理标准的制定和实施为建构全球统一的信息处理系统奠定了坚实的基础。我们知道,最初的计算机使用的字符集是为人熟知的ASCII码,即基本拉丁字符集(ISO646),仅有96个拉丁字母和符号。随着计算机技术在世界各国的普遍运用,多文种信息处理的要求也应运而生,基本拉丁字符集显然已无法满足这种需求,各国所运用的地区性编码又为全球信息处理一体化设置了障碍。于是在国际标准化组织(ISO)引导下,由国际计算机界、文字学界的专家共同制定了通用多八位编码字符集(ISO/IEC10646)。我们现在所使用的中文版Windows95就是实现该标准的一个子集,它采用了中国信息标准化委员会1995年11月制定的汉字内码扩展规范(GBK),收入汉字两万多个[9],虽然目前还不能完全满足古籍数字化的要求,但毕竟为汉字信息处理的国际化和标准化开辟了道路,为中国准备了一把开启数字化时代大门的钥匙。再次,新的技术,如非键盘输入技术[10],中文数据库技术[11],多媒体压缩与传送技术、安全保密技术、自然语言理解技术[12],尤其是数据挖掘技术的出现,为古籍数字化事业提供了有力的支持。数据挖掘技术又称数据库中的知识发现(Knowledge Discovery in Database,简称KDD),是指从大量数据中提取出可信的、新颖的、有效的并易于理解的知识的高级处理过程[13]。它已广泛应用于行销、产品制造、通信网络、、自然科学研究等许多领域[14]。我们相信,数据挖掘技术运用于人文研究领域,必将创造出更卓越的业绩。非键盘输入技术使文献载体转换方式发生了一场革命,例如自动识别输入技术(ODR)使海量信息输入的工作量大大降低,清华紫光公司所研制的非特定人手写识别软件仅用三个月时间就将一部《文渊阁本四库全书》输入计算机内,为同类工作积累了宝贵的技术财富[15]。最后,面向对象的编程工具的出现使人性化应用界面的编制变得轻而易举。
(转载自科教范文网http://fw.nseac.com)

  如上所述,计算机的特长正在于海量数据的存储、运算(包括排序、筛选、统计和分类)和传输,更可深入文献内部,实现知识的发现,这与人文研究工作的一般过程,即关键词的查询、排序、筛选、分类、统计及其相关性的分析十分相似。既然如此,那么我们就发现了计算机科技运用于人文学术研究领域的基本契合点,我们只须以某种方式沟通两者的语言,就可以充分地发挥计算机的优势,大幅度地提高人文学术研究的效率,为学术积累和学术评论提供更为便利的条件和优化的环境,同时,也就找到了比较完善的古籍数字化方案。
  目前对于数据库厂商来说是一个千载难逢的良机,无论是近期的国家古籍整理与规划小组的古籍光盘工程、北京图书馆的数字化图书馆工程,还是未来的国家知识基础设施工程,肯定会带来工程、系统集成、数据通信、软件开发以及服务方面的巨额需求,谁先期投入这一事业,制定出一系列行业标准,谁就占据了相关产业的制高点,分得最大的市场份额,必将成为全国以至全球的信息产业界业巨子。



三、古籍数字化解决方案之我见


  数字化古籍究竟是什么样的呢?它需要具备怎样的功能呢?其数据须经如何处理,使用何种技术才能保证它具备我们需要的功能呢?这些都是摆在我们面前的重要问题。
  首先,好的版本和必要的校勘是古籍数字化的重要前提,没有这一前提,一切功能将无从谈起。我们所谈的古籍数字化事业,其目的不是为大众提供普及读本,而是为学术的繁荣奠定基础,这应是参与古籍数字化事业的专家的共识。其次,即笔者曾经一再强调的,数字化古籍的功能不仅在于一般的信息查询,更重要的是古籍文献中的知识发现。最后,它应

上一篇:中西文论对话的原则与路径 下一篇:没有了