计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

汉文化资料库不同层次的实用要求(1)(2)

2015-10-30 01:02
导读:二 作为一名使用者,我认为汉文化古文献资料库,按照文献自身的性质、功能,使用者不同的使用目的、要求,以及面对的不同使用对象等等,应当对古
  二

  作为一名使用者,我认为汉文化古文献资料库,按照文献自身的性质、功能,使用者不同的使用目的、要求,以及面对的不同使用对象等等,应当对古文献资料库规划出一个比较合乎实际又能满足各方要求的不同层次的资料库。在我们的汉文化资料库中,有一些是供阅读用的(包括一般读者的阅读以及专业工作者的阅读),更多的是供专门研究使用的。
  就以上所举的一些丛书类古籍来说,像《二十五史》等既是供阅读,又是供研究的,所以既需要有电子文本的版本,也需要有数字图像的版本。记得1998年出了几种电子图像版的《二十五史》,现在好像都销声匿迹了,其实这些电子版本对专门研究还是很有用的。而像《四库全书》和《四部丛刊》一类书,说实在的主要不是供阅读的,而是供做专门研究参考用的。所以,是否需要全部做成电子文本版本是可以研究的。因为这两部丛书在今天来讲,它的主要价值是在版本上,而其中大量需要经常阅读的书,则都有后人经过校勘、标点、注释的整理本,这些才是现在需要的阅读本。需要声明的是,我没有否定现在已经问世的这两部作品的意思,相反我是高度评价这两部作品所取得的成绩。我之所以提出这个意见,主要是供以后在做类似的古籍电子版本时作参考。因此,如果在制作汉文化资料库时,按照文献自身的性质、功能,使用者不同的使用目的、要求,以及面对的不同使用对象等等,对古文献资料库规划出一个不同层次的资料库,将可收到事半功倍的效果。
  根据以上想法,我初步设想能否规划出以下几个层次的古文献资料库:
  一是“版本库”,二是“专题库”,三是“普及库”。前两个库主要供专业研究者使用,后一个库用来向大众传播优秀传统文化使用。以下分别具体说明一下。

内容来自www.nseac.com


  关于“版本库”
  “版本库”的功能,从整体上来讲,主要是为了保存和流通现存的汉文古籍。
  根据不完全统计,我国现存古籍(辛亥革命前刊印者)约有十余万种。其中一些珍贵善本,都是历经沧桑才得以保存至今的。目前国内图书馆,不仅对善本书严格限制借阅,而且大部分图书馆把一般的古籍线装书也列入了只能在馆内阅览,而不得借出的范围。这一方面说明我们对古籍保护的重视,但同时也就给阅读和研究带来了很大的不方便。古籍图书终究是要被人们使用才有价值,使用者越多,说明它的价值越高。古籍图书保存得再好,如果不让人使用,或者使用限制极多,它的价值就会大打折扣。纸质古籍的保存有许多条件的要求,而随意流通对纸质古籍的损坏又极其严重,所以图书馆采取的措施是可以理解的。那么如何解决这个矛盾呢?数字化技术的发展,给我们带来了解决这一矛盾的希望。我们可以通过扫描把这些古籍转换成数码图像,把纸质古籍变成电子图像版本,这样古籍流通借阅的问题也就迎刃而解了。而这也是使用现代科技手段,尽可能地把留存至今的全部古籍文献保存下来,不至再为将来某些重要纸质古籍不幸毁坏不存而感到遗憾。
  十余万种古籍都要做成电子图像版,工程确实浩大,需要很好规划,分步骤来做。我想首先应当建立一个“珍稀孤本善本库”。这是目前最迫切、最重要的。
  据我所知,现在有些图书馆各自已经开始在做本馆所藏珍稀孤本善本的电子化处理的工作,这是很好的基础。而现在是否可以整体地规划一下呢?譬如,是否可以以前些年上海古籍出版社出版的5部(经、史、子、集、丛)古籍善本书目为基础,建立起一个“珍稀孤本善本库”?这5部古籍善本书目,都是现存于全国各图书馆的,只要我们订出一个统一的规格和要求,然后由各图书馆分头去做,这样可以比较快地建立起“珍稀孤本善本库”的基本部分。而这一库的建立,立刻可以把原来只是某图书馆独藏的珍本、孤本、善本,变成全国各图书馆都可流通借阅的珍本、孤本、善本了。当然,上述5部古籍善本书目,远非完善,并未将现存所有珍本、孤本、善本搜罗殆尽,比如许多收藏在私人手中的珍本、孤本、善本就没有能包括在内。以后可以不断地补充完善。
(科教论文网 Lw.nsEAc.com编辑整理)

  其次,建立一个“域外现存汉文古籍库”。这也是非常需要和迫切的。
  据不完全统计,目前流落域外的汉文古籍也不少于数万种,除去与国内现有重复者,其中也不乏国内久已佚失的珍本、孤本、善本。这一部分珍贵的古籍要原本返回的可能性不大,但通过制作电子图像版本则还是可行的。
  再次,建立一个“普通古籍库”。尽可能地将现在尚留存于世的古籍制作成数据图像,把它们保存下来。
  这部分古籍中,一部分也具有重要的版本价值,一部分则属于一般性的古籍保存。这个库的数量大概是最大的,因此必须按古籍的史料价值,使用需求的频率,分批选目,分期制作入库。其中重复的书和版本极差的书,可不必收入此库。
  以上“版本库”的工作量是极大的,但技术上的要求则相对比较简单。一般都只需要扫描图像清晰,再编写一个仿真翻页,如平时看线装书一样感觉的浏览程序即可。
  总起来讲,“版本库”的建成和流通需要一定的时间,并且还有一个不断增补和完善的过程,或许也可以说永远没有一个完成的日子。但是,相对的阶段性完成还是可以有的。我想,即便仅完成了上面讲到的5部古籍善本书目中所收录的“珍稀孤本善本库”,并把它在全国图书馆中真正流通使用起来,那它将为我国传统文化研究工作提供极大的方便。而且对促进图书馆服务的现代化,以及更好地保护原纸质古籍珍稀孤本善本,也都将起到积极的作用。
  关于“专题库”
  “专题库”的功能,从整体上来讲,主要是为专业研究提供各种汉文古籍原始资料。
  “专题库”顾名思义就是要按各种专题来制作,如按照传统的经、史、子、集四部分类制作各种专题库,也可以按照现行学科分类。如语言、文学、史学、哲学、宗教、经济、政治、法律等制作各种专题库。当然,每一大类下还可以依次分出二级、三级……或某一级种各种并列的专题库来。如哲学下又可按儒、墨、道、法、名、阴阳等学派来建专题库;也可按先秦、两汉、魏晋、隋唐、宋元明清、近代等断代来建专题库;也可按人物,如朱熹、王夫之等来建专题库;也可按著作,如《周易》、《老子》、《庄子》、《论语》、《孟子》等来建专题库。同样,宗教类下又可分为佛教、道教两家来建库。再如佛教,既可做各种版本大藏经,如《大正藏》的专题库;也可做某部经典,如《金刚经》的专题库;以及某一学派、某一宗派,及至某一高僧的专题库等等。
(科教作文网http://zw.ΝsΕAc.com发布)

  在各类各级专题库中,其实按照使用对象及其功能还可以分为两个层次,一类是普通专题库,一类是研究专题库。
  所谓普通专题库,是指了解本学科或本专题所需要掌握的最基本的资料库。相当于本学科本专题的一个必读书目。所谓研究专题库,是指深入研究本学科本专题所需要的尽可能完备的资料库。
  专题库的制作要求,将根据使用对象、使用要求和古籍本身价值等,作多种不同内容、形式上的组织和表达。一般讲,普通专题库所选内容要精当,全部文献都应做成电子文本,外观要简洁朴实,有阅读纸质书的感觉;在应用上,则至少要有能方便地做各种检索的功能。现在有许多电子书浏览器还有诸如做书签、标重点、写感想,乃至编讲稿等等的功能。其实,这些功能的要求是因人而异的,有的人很喜欢,有的人则从不使用。所以在保证基本功能的前提下,具体的应用程序的设计,可以多样化、个性化。研究专题库的要求和设计,则应是内容尽可能完备,使研究这一专题的人在这个库中找到他所需要的原典资料、应用和表现方式,可以是多种形式的结合。这里除了普通专题库的内容外,可以加进大量“版本库”中的原始资料,有些可保留版本库的简单形式,有些则需要配以电子文本,而且还要提供电子文本与原书数码图像页页对应的功能,以便研究者方便地核对原书。
  关于“普及库”
  “普及库”的功能,从整体上来讲,主要为各层次(不同年龄段,不同文化程度、不同职业、不同爱好等)一般读者了解和掌握传统文化提供丰富多彩、表现形式多样的各类最基本的汉文古籍读本。这方面也已有许多成熟的作品可以借鉴,无须多说。
  但有一点需要特别强调一下,由于“普及库”的功能主要是面向大众,起传统文化的普及和传播作用,所以它除了在形式上的美观、生动外,更要求内容上的准确和可靠,否则以讹传讹,将贻害无穷。 (科教论文网 Lw.nsEAc.com编辑整理)

补充
  由台湾财团法人印顺文教基金会发行的《印顺法师佛学著作集》3.1版,也是一部值得特别提出一说的汉文专题资料库精品。本数据库的主要内容是印顺法师的全部佛学著作,但它同时整合了台湾中华佛学研究所制作的Cbeta《大正藏》1—55和85卷中的普及本,以及丁福保的《佛学辞典》等内容。在技术表现方面,它采用Accelon全文检索系统制作,功能相当强大,齐备、方便、快速。一般研究所需要的检索功能,如全文字词检索(包括用and、or、not,以及万用字元替代检索等)、字(词)频统计(分别显示总数和各册数)、逐条显示(显示的长度和行数等可以自定义)、调阅全文等全部具备。
  又,凡印顺法师著作中引用的佛典原文,主要的也都给出了连接,点击该处系统即会自动弹出一个新窗口,连接到相关的《大正藏》原典内容。在阅读印顺法师著作或《大正藏》时,如遇到难解的名相,则只要点中它,系统立即会自动弹出一个新窗口,连接到《佛学辞典》相关的词条,以供参考。该系统也提供了引用复制的功能,选取若干文字(预设9字以上,若9字以下则将自动连接至《佛学辞典》)后,便能自动储存于剪贴版上,然后可粘贴至任何文字编辑器上,更重要的是它同时会标出所选文字的出处(书名和页码)。诸凡印顺法师著作中的各种图表,也能极方便地调出显示。整个系统设计真是考虑得十分周到,使用也极为方便。
  此外,该系统还有几个特点值得一提:一是该系统基本上是一个绿色系统,装卸方便。二是,该系统既可装在硬盘上使用,也可直接在光盘上运行。三是该系统可运行于英文、日文、简体中文、繁体中文四种Windows98/NT/2000/XP系统平台上。四是该系统有良好的扩充性,如辞典还可以添加,文本数据库也可以不断增加(从其说明中知道,原来还有《中国古典文学名著》一种)等等。

(科教作文网http://zw.ΝsΕAc.com发布)



附录:中文字符集问题
  在现行的几套中文字符集中,在处理古典文献时都存在着这样那样的不足,有不少问题值得探讨。现有中文字符集的情况如下:
  GB2312—80含6763汉字(全部简体)
  GBK(CJK)含13345汉字(6763+6582〈扩展A〉)
  (简、繁体重复、混用)
  GB18030—2000含27484汉字(大字库,含6000多个藏、蒙、维字符)(同上)
  ISO10646(Unicode3.0)含70275汉字(超大字符集)(同上)
  (现提供的方正宋体字库为65531汉字)
  Big5含13000左右汉字(全部繁体)
  此外,还有Big5的扩展,“汉字库”(含54000左右汉字)
  日本的“今昔文字镜”(含100000左右汉字)(大量异体字,甲骨文、金文、越南汉字、梵文字体等)
  以上几种字符集中GB2312、GBK和Big5是通用的,其余都需特别安装,而且输入法一般也只有内码区位法一种,很不方便。
  在简体中文系统中,GBK已是通用的标准字符集。但GBK是由GB2321扩充出来的,除了扩充一部分GB2321中没有的字外,相当部分是与GB2321字符集中简体字相对应的繁体字,并且扩充GB2321中没有的那部分字中,也有一些是繁简两存的。因此,GBK字符集中至少存在以下几方面的问题:一,繁简重复字以及部分异体字占去了数千个码位(据我粗略检查,至少有3000个左右);二,输入法上繁简转换或选择的麻烦;三,最大的问题是,扩展部分的字中,大部分只有繁体而没有简体,这样在一篇简体写作的文章中,如果用到了扩展部分只有繁体的字,就会出现繁简混杂的现象(这种现象在古文献,或引用古文献写作的文章,用简体显示时最为明显),很不规范。
  鉴于GBK字符集的通用性,以及汉字量的适中,能否考虑在现有GBK字符集的基础上,改造制作一个古籍专用的GBK字符集。具体设想如下: 您可以访问中国科教评价网(www.NsEac.com)查看更多相关的文章。
  一,全部为繁体字和通用规范字。去掉重复的简体字和异体字(最多的如“剑”字,在GBK字符集中有繁简异体共7个之多:“剑”、“剑”、“FDA1!薄ⅰ蔼FDA2!薄ⅰ蔼FDA3!薄ⅰ蔼FDA4!薄ⅰ蔼FDA5!),可以空出3000个左右的码位,再加上GBK字符集中原有的空码位(约1300个左右),这样至少可以再增加4000个左右的汉字,如果制作汉文资料库一律遵循使用通用规范字的话,改造后的GBK字符集应该够用的了。
  二,为保持与原字符集的兼容性,改造的原则是尽量保持原字符的区位。首先,GB2321部分和GBK扩充部分中为原来GB2321中没有的字,或是与GB2321中简体字对应的一对多的繁体字部分,全部按原区位不动,只把其中的简体字形改成繁体字形。其次,增加部分的汉字,按原扩充部分编码原则按部首和笔画插入相应的区位中,个别部首增加的字多,原相应区位空位不够的话,再作特殊处理。
  三,原GBK字符集中的符号区,所收符号不能满足古籍数据需要,需要增加(符号区的空位约有700个左右)。如古籍中最常遇到的周易卦爻象,太极阴阳鱼,以及平仄韵符号,古乐谱符号等等。
  四,按照改造后的、全部繁体字的GBK字符集,做一套相应的全部简体字的字库。这样,把繁简之间的转换,变成如同字体之间的转换。那么显示繁体时全是繁体,显示简体时全是简体,不会再有繁简混杂的现象。
  五,输入法也要调整,输入为繁体,有些码位变化的字和新增加的字需要重新编写。所以要求输入繁体,是为了保证转为简体时的准确性。如输入简体,在转为繁体时会产生许多错误和麻烦(当然也是可以想一些办法来减少错误的)。
  以上设想有些异想天开,也许不切实际。但如能实现,对古籍数据的处理,我想是有其方便之处的。如能再附加一个小程序,使古籍专用GBK字符集与原GBK字符集或Big5字符集之间在操作系统内能方便的更替调用,那么对沟通两岸汉文古籍数据库之间的交流,将更加方便。

共2页: 2

论文出处(作者):
上一篇:论袁宏道的佛学思想(1)网 下一篇:没有了