论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
笔者从事地方研究文献数据库建库工作多年,结合建库实践提出一点不成熟的看法。
三、地方研究文献主题处理技术的改进措施
文献主题的处理技术可分为两部分:一是主题标引工作;二是词表的编制与管理。
1.主题标引工作
目前的文献主题标引工作人为因素太多。首先是标引规则的限制,几乎每个文献数据库都制订主题标引规则,内容包括:选用的信息和标引的内容范围;标引深度(标引多少主题词,主题词的汉字数目限制等);标引词的选择,主题标引方式(自由标引还是选用主题表);对文献主题采用整体标引或分析标引;标引词的著录方式;不同类型或题材、体裁文献的标引规则;人名、地名、时间因素等有关规定……为了保证同一主题标引一致性,规则的制订尽量详细具体。这样一来,标引人员工作时受到很大制约,需熟记标引规则并按此处理文献主题。标引是为了检索,然而如果表达文献内容远远超过标引规则的规定(例如规定15个主题词),不但造成标引的困难,而且主题或标引词选取不当将影响文献的检索利用。
其次是标引人员对文献内容理解及主题分析等方面的限制,标引规则要求标引人员主题分析和给标引词等均应考虑用户的检索需要和检索习惯。事实上没有一个标引人员能够全面了解用户的检索兴趣和要求,更无法预计将来用户的检索兴趣和要求。例如文献中标引人员可能认为某一内容不是中心内容,论述或研究的主要问题不进行标引,可是这部分内容对于某些用户却十分重要,在历史研究或历史人物研究等方面,往往根据文献中的不显眼的线索(几句话或一张照片)溯根寻源,得出意想不到的收获。
第三是主题的描述,由于主题表的使用和标引规则(特别是组配规则等)的制订,描述主题的词语与文献使用的语言、检索者使用的词语往往不一致,在同义词和复合概念的表达方面尤为突出。当前文献量激增,文献主题及用词变化较大,增加了标引工作的难度,影响主题标引的速度和准确程度。
因此,主题标引工作的改进势在必行。对于地方研究文献数据库来源,全文检索本身可自动抽词,二次文献库也可采用自动(或半自动)抽词与词表调控相结合的方式,标引时不硬性规定主题或主题词数量,而是视文献中具有检索意义的内容。所谓词表调控,主要是语义控制和分词的人工干预。
2.词表的编制与管理
检索词和标引词的一致,同义词的规范,以及主题的扩检功能是文献数据库检索效率的重要保证。从这个角度考虑,词表对于