论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
地方文献以其地名、人名、机构名等专有名词术语众多而一直是索引编制的难点。对于文字数量数百万乃至上千万的地方文献而言,若要达到满足读者检索要求的标引深度,则索引制作的工作量就会急剧增加。如果纯用手工制作,不仅在信息的处理过程中容易产生差错,且费时费力。为了解决这一矛盾,降低索引编制成本,需要引入计算机信息处理技术。以下我们以在《杭州市志·索引》编制过程中开发的计算机辅助索引软件(CAIC1.0Beta)为例,就详细说明这一基于人机结合思想的地方文献索引编制方法。
1 现 状
目前,运用计算机信息处理技术来进行汉语文献索引编制的方法一般分为两大类:一种为基本以自动标引、索引为主的方法,其中汉语自动标引法常见的有词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等;在汉语索引法上则多采用题名关键词抽词索引法、主题词表选词索引法、职能符号标引索引法等。这些方法都在一定程度上解决了汉语文献标引和索引的问题,但由于汉语语言现象的复杂性,此工作基本都在文献题名这一层次上展开,至于针对文献全文的智能标引和索引尚处于探索阶段。而且,这些方法需要具备相当专业的计算机、语言学、文献学知识,并且相关的专用软件获取成本极高。另一个常用方法是人机结合、以人为主的方法,主要为采用诸如Foxpro MicrosoftAccess据库软件来编制。这种方法具有技术要求低、使用方便的特性。但这仅是一个以人工为主、辅以计算机技术的方案,并且参照系统即关键词之间的相互关系(见、参见)不能直接在上述数据库软件中得到表达和转移,因此索引库的生成无法直接应用参照系统,编制者将不得不依靠手工来进行,这是一个非常繁琐而且极易导致差错的工作。
2 解决方案的系统设计
方志作为地方文献的一个重要门类,其数量庞大,包含了一个区域的自然、政治、经济、文化、社会、军事等信息,有地方百科全书之称,具有极高的使用价值。为此,我们在实践中以《杭州市志·索引》作为地方文献的样本,对此进行索引的编制。其编制目标是一部分析内容的书本式关键词索引,其标引范围为全志中的正文、附录、图、表格、照片,标引对象为人物、机构、地名以及其他一切具有检索价值的各类事物、事件和活动。
对于一个优秀的索引而言,确定适合的标引、索引方案和参照系统是至关重要的,也是本索引编制解决方案首先要解决的问题。因此,在系统设计过程中,我们考虑了地方文献的特点和客观实际,分析上述方法的利弊,制订了以下的编制思路。
2.1 标引方案 以实现的手段划分,可分为人工标引和自动标引。自动标引又可分为自动 抽词标引和赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献的主题内容。如果在自动标引过程中,使用的标引词来自于预先编制好的词表,则称之为自动赋词标引。对于计算机而言,针对汉语的自动抽词主要困难在于自动分词以及选取标引词的标准,而自动抽词标引的标准很大程度上是建立在词频统计的基础上的。就方志这一类地方文献而言,如果一些人名、地名在文献中只出现数次乃至一次的话,就很有可能不被标引,这会导致大量有价值的信息不能被检索到。而如果放低词频标准,则相关的标引词数量会急剧增多,书本式索引的篇幅会相当庞大。而自动赋词标引又依赖于词表,由于方志的地域性,这样一个包含有大量地方独特的人名、机构名和地方特色事物的词表一般都没有建立,因此无从根据词表来进行自动标引。
由于地方文献的编纂者或研究者对于文献内容比较熟悉,可以准确地分析主题内容,并抽取相应的关键词予以标引。因此,采用由他们来进行人工标引的方法,应该是方便和切合实际操作情况的策略。
2.2 索引方案 索引款目的自动生成目前已经有很多实际应用的方案,如链式索引法(ChainIndexing)、选择组合排列索引法SLIC)、挂接主题索引法(ASI)、保留上下文索引法(PRECIS)等,这些基于计算机的索引法无一例外地运用了轮排或循环技术,对于计算机来说只要设定好索引法的原则后,工作是相当简单的。但是这种方法会导致索引款目急剧增多的后果,因此这种对于专业性文献检索工具而言是十分适合的方法,运用到地方文献上时,特别是如方志一类篇量较大的文献上时,就要承担索引篇幅大幅增加印刷成本提高所带来的危险。基于这个因素,我们认为在方志索引上应该采取对于绝大部分的索引词不进行轮排,只对极个别的主标目和副标目进行轮排的索引方案,以最小的代价来实现相对高的查全率。