古籍文献数据库存在的问题与突破的方向-试论(3)
2014-04-04 01:10
导读:其二,开发商嗜利忘义,数据库错误严重。除上述由国家投资开发的古典文献数据库外,还有一些有一定技术实力的软件开发商加入到古典文献数据库的开
其二,开发商嗜利忘义,数据库错误严重。除上述由国家投资开发的古典文献数据库外,还有一些有一定技术实力的软件开发商加入到古典文献数据库的开发中来了。比较而言,各科研机构、大专院校及各地图书馆建立的古典文献数据库质量较高,而开发商则很少关注数据库中的文献质量。我们承认确有少量开发商制作的数据库质量较高,如迪志公司开发的《四库全书》之类,然而象《四库全书》这样的数据库确实凤毛麟角,难以寻觅。我们发现,甚至有些开发商仅仅是把文本进行文字扫描导入,疏于校对,因此文本错误百出,难以卒读。由于利益驱使,绝大多数开发商都以“独自开发”为己任,数据库设计相互保密,互不兼容,使用户深感不便。这些问题已严重地影响到古典文献数据库的正常发展了。
其三,热门文献数据重复,冷门文献数据罕见。虽说目前数据库品种繁多,但由于考虑到使用者对文献内容的需求,因此许多开发者热衷于开发那些热门数据,而一些比较冷门的文献则鲜有人问津。实际上,冷门的文献并非是没有学术价值的文献,只是使用人较少而已。因而,目前不但数据库中文献内容重复现象极为普遍,甚至同名同姓的数据库也有不少,如《四库全书》就出现了
武汉大学版、上海人民出版社版等数种不同版本。且不说那些数量繁多、质量也不甚高的数据库浪费了多少人力物力,其实也使用户陷入无可适从、欲舍不能的境地。用户往往为了某些少量文献内容不得不购买和安装整个数据库操作系统,而且这些庞大的数据库大量占据硬盘空间,导致计算机运行速度大为减慢。而那些允许网上检索的文献数据库又往往容量极大,上网检索者多,导致“交通阻塞”!
(转载自http://zw.NSEaC.com科教作文网)
其四,技术关卡重重,难以互相兼容。各开发者既鉴于不同开发目的与技术条件,又为防止他人解密,因此在开发过程中在数据库某些程序中人为设置技术障碍,以保障自己利益不受损害。自然,开发者需要投入大量人力物力,保障本身利益不受损害是无可非议的。然而也由于人为地设置了障碍,却使各种文献数据库之间不能兼容,无法形成合力,先进的技术反而成为技术壁垒。实际上,这一情况大大浪费了宝贵的人力资源与财力,对古典文献的开发与利用有百害而无一利。另外,由于技术壁垒,在古典文献数据库的文字方面更导致许多问题。我国古籍常用汉字大约为4万余个,这还不包括超过2万个异体字及数千甲骨文、金文等古文字。然而我国目前在计算机上采纳的国标字库(GB)和扩展字库(GBK),两者相加也只有27000余字,这与我国古籍常用汉字数量相比,实在差距太大。因此,如此小的字库与需求相比确实是捉襟见肘。为了弥补这一缺陷,一些软件设计者就采取在自定义区自造字(乃至占据字库中扩展B的位置)、有些也用图片方式来填字。而这些自造字、图片字,拷贝到WORD文本之后,由于内码位置的差异就变成其它字了,从而导致文本错误。
其五,功能单调,难以真正为科研服务。建立较早的古典文献数据库功能比较单调,只能做些简单检索、拷贝,没有更为先进的功能,不能适应学术研究的需要。后来的一些古典文献数据库也存在类似问题,例如《四库全书》的检索功能,虽说可以采用添加“作者”、“书名”等限定条件,但检索结果只是罗列一排出处,无法直观地了解检索到的具体内容。而且《四库全书》也没有提供更多的功能给用户,因此这一巨大的工程仍远远不能满足用户的需求。况且这一数据库目前已经“定型”,不再继续开发,使用户对此深感遗憾。而其它古典文献数据库设计者的思维大多仍停留在“文本之争”当中,重复着原来设计思想的错误,没有更多地开发为科研服务的有效功能,因此在笔者看来,这一做法显然不可能真正摆脱古典文献数据库目前面临着的困境。
(转载自中国科教评价网www.nseac.com ) 其六,学术圈地,使人心有余而力难用。解放后,一些国家级出版社化费了极大的精力,组织专家点校了不少重要古籍,为学术研究的发展作出了极大贡献。然而时至计算机时代的来临,却出现了“版权”的问题。一些制作者忽视了国家有关版权法规,直接利用了一些出版社的成果来牟取经济利益,理所当然地会产生版权纠纷。笔者以为,保护版权是每个学者乃至每个公民应尽的责任,根本毫无讨价还价的余地。然而问题是,现在一些出版社由于各种原因,没有对自己已出版的点校过的古籍进行开发,而愿意开发这些古籍资源者却无法涉入其中,导致他们处于既想开发这一宝藏又无法回避版权问题的尴尬境地,这就使众多需要使用者望洋兴叹。如果有关出版社不愿授权,那么想要开发这些古籍者只能返回到没有标点的原始文本中去。这种情况确实使每一个希望使用古典文献数据库的用户感到极其失望,而且严重影响了古典整理与研究的现代化进度。