试论中国古籍数字化与人文学术研究(3)

2013-08-29 01:07

导读：符合各种国际通用标准，具有开放性，可以在网络上传输，实现信息资源共享。中国古籍数字化的过程，基本上可以视为古籍全文数据库的生成过程。一篇

符合各种国际通用标准，具有开放性，可以在网络上传输，实现信息资源共享。中国古籍数字化的过程，基本上可以视为古籍全文数据库的生成过程。一篇古籍文献输入，就形成了无标引的全文数据库，即半结构化的数据库。目前以中国古籍为内容的读物多为此类产品，但这远不能发挥计算机的技术优势，也难以达到研究者的要求，其最大的缺陷就在于它不能象结构化数据库一样经由排序、筛选、分类和之类的过程产生再生资源，更谈不上知识发现。因此，对古籍中的数据进行充分的分析和处理，制成结构化数据库，与半结构化数据库相结合，才是较为完美的方案。
　　如所周知，传统的纸本工具书，包括索引、类编、目录、年表、地图等，尽管已经提供了相当多的便利，但是仍然不能摆脱纸本检索工具的种种缺陷，如门类不齐全，排检方式单一，缺少综合条件和渐进式检索方式，无法产生再生资源，只能部分地完成信息查询功能，不能做到海量数据中的知识发现，携带不便、复制困难又在其次。笔者所设想的数字化古籍解决方案正是为了解决纸本媒介存在的上述问题，确保信息查询的查准率和查询率，并实现海量信息中的知识发现。其重要步骤包括古籍文献的载体转换、置标，关键词的规范控制、属性描述及多途径排检。
　　载体转换是指从纸本文献到电子文献的转换过程，要求快速而又准确，是保证实现进一步文献处理目标的基础。传统的中文键盘输入技术需要新的突破，走出万“码”奔腾或万“码”齐喑的怪圈，才能适应海量信息的、快速准确的载体转换的要求。非键盘输入技术的逐渐成熟显然已向键盘输入技术提出了挑战，清华紫光开发的一种自动识别软件具有非特定人手写识别功能，识别率达到90%以上，如果再加上或语法判断，则可进一步提高识别率。（科教范文网http://fw.ΝsΕΑc.com编辑）
　　置标或标引是指通过对文献的分析，选用确切的检索标志以反映文献内容的过程。置标，由于古籍文献中含有非常丰富而宝贵的学术信息，因此必须通过置标这一过程，充分地发掘其中的内涵，以便研究者利用。置标的目的是提取关键词，做数据的预处理，故应足够充分，不放过任何有学术信息的关键词，力求做到从任何角度都能检索到读者需要的信息。清代大学者章学诚曾提出，将古籍中人名、地号、官阶、书目等一切有名可治、有数可稽者都制成韵编（即索引），以收事半功倍之效[16]。一般来说，各类文献中的人名、地名、官名、书名、年代、典故、制度、族属、语词、范畴和其它专名等关键词都须制成索引，另外如文献的主题、体裁、结构、类别、标题、韵脚等特征也要当作关键词来提取。目前，计算机尚无法正确标引古代文献，所以将已有的纸本检索工具转换为数据库，并开发出标引古籍的智能化软件，是古籍数字化的当务之急。当然，鉴于古代汉语的复杂性及文献特征的多样性，依托熟悉古籍的专家仍然是必不可少的。
　　规范控制是为了保证文献标目的一致性，以便有效地实现对标目进行统一管理的手段，规范标目记录以下内容：规范标目，规范标目与相关标目之间的参照关系，选取标目及确定其参照关系的依据。规范控制在纸本检索工具中曾被广泛运用，并取得了很大成功。但是我们必须注意到，以往的检索工具多为专名类型索引，在非专名类型索引的规范控制方面，学术界的成果和经验还不多，既有的主题词表不仅不能涵盖古籍中复杂的现象，更难于跟上人术的发展进程，我们有必要重新建立规范古籍语词及专名的标准。
　　排检是指检索工具的排序方式和检索途径，它限定着读者的检索策略，直接影响检索效果。一般的纸本检索工具多使用以关键词外部特征为序的排检方式，不能满足读者的信息查询及知识发现的要求。纸本检索工具包含着这样的预设，即认为读者事先已确知所须检索的关键词，但实际上往往并非如此，抑或即使确知，依然需要按其内部特征追寻关键词之间的相关性。不难发现，依关键词外部特征排检的检索工具提供给读者的关键词之间的关联信息较少[17]，而依关键词内部特征排检的检索工具则可提供更多类型的关联信息，便于读者发现新知识。但是限于纸本媒体的特征，多功能检索工具的编纂难度很大，而数字化古籍正适于实现多途径排检功能，这就要用到关键词的属性描述方法。（转载自http://zw.NSEAC.com科教作文网）
　　描述关键词的各种属性是为了计算机能依照属性对关键词进行分类、排序、筛选、统计之类的管理，产生再生资源，以利知识发现。所谓关键词的属性描述，其实质就是将关键词的属性特征作认真严格的分析，制成数据库，再将目前为止学术界所了解的有关它的全部知识都填入数据库之中。研究越深入，所能反映的关键词的内涵及其关联就越丰富，检索效果越理想，发现的知识越新颖而可信，所以我们必须毫无遗漏地将已经取得的研究成果纳入其中。于是，这一数据库的设计就变得十分重要。不同类型的关键词具有不同的属性，如人名的属性显然与书名不同。同一类型关键词因其主题不同又有所区别，如帝王有即位年代的属性，士大夫以下则没有。同时，任何关键词的属性还因其规定性特征有所不同，如官僚所任之官有时代之别，又有品阶和类型（如散官、勋官、职事官、加官、赠官等）之别。为了处理如上十分复杂的情况，我们可以利用中国机读目录格式（China MARC）的思路来设计这种可实现知识发现功能的关键词数据库。机读目录格式是一种多层次的开放式数据库，它原本用来详尽地描述书目型关键词的各种属性，并进行基本管理。由于它允许用户自由定义各字段和子字段的内容，因此可以改造为一种描述和管理各类关键词的数据库。理论上，它应是一种通用的综合的信息管理数据库，能管理各种不同类型的数据，包括文本、日期、逻辑、图像、视频、声音等[18]，符合（或者创造）国际标准，具有多个检索出口，可通过多种检索途径实现信息查询和知识发现。它分为记录、字段和子字段三个层次。首先，以对一个关键词的全面描述为一条记录。其次，以记录之下的通用字段描述不同类型关键词的相同属性，如以规范标目字段描述各类关键词的规范标目属性，以非规范标目字段描述相关非规范标目属性，以主题字段描述各类关键词的主题属性，以款目连接字段描述此关键词与它关键词之间的相关性，以附注字段作自然语言的附注等；又以特殊字段分别描述各类关键词的特殊属性，如以籍贯·郡望字段、历官字段、家族谱系字段来描述人名类关键词，以四部类别字段、载体形态字段描述书目类关键词等；最后，以字段之下的子字段反映属性的规定性特征，如以历官字段之下的品阶子字段描述历官的品阶，以类别子字段描述历官的类别，以部门子字段描述历官所属的部门，以年代子字段描述历官的起讫时间等。常规字段规定为必须使用，非常规字段或非相关字段则可选用，字段或子字段依其性质规定为可以重复和不可重复两类。一般的单一条件检索，其检索结果（报表）可以表格形式输出，如果是复合条件的检索，其结果又不便以表格形式表达，就需要编制合乎传统检索习惯的其它输出形式，如职官年表、百官志、家谱、历史地图等形式。以人名索引为例，依照职官年表的方式排检，可由一个人名查到他的同僚、前任、继任，如果按照百官志的序列排检，又可查到他的上级、下级，如果按照谱牒的形式排检，则可查到他的祖先、兄弟、姊妹、子孙及姻亲。以地名索引为例，依照历史地图的形式排检，可查到地名的方位，所属的自然区域、区划以及它的历史沿革。机读目录格式包含了供检索用的纪录头标和指针，这样经由基本的数据库管理手段，我们就可以实现数据库的多途径排检功能了。（转载自中国科教评价网www.nseac.com ）
　　除了以上有关古籍全文检索数据库生成的问题之

上一篇：中西文论对话的原则与路径下一篇：没有了