计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

用于中文信息自动分类的《中图法》知识库的构(2)

2017-01-19 01:01
导读:《中图法》的结构 《中图法》体系在文献手工标引时代做出了卓著的贡献,但在应用于网络信息和自动化时却暴露出如下弊端: (1)无论是分类表还是对

《中图法》的结构
《中图法》体系在文献手工标引时代做出了卓著的贡献,但在应用于网络信息和自动化时却暴露出如下弊端:
(1)无论是分类表还是对应的主题词表或分类主题一体化的《中分表》都属于受控语言,自然语言人口少,用户使用不便。
(2)《中图法》及其系统产品的着眼点是便于图书情报人员的标引和检索,而不是着眼于网络时代的普通用户的直接使用,因而过于强调词汇控制,忽略了检索语言与自然语言的结合。
(3)人工编制,定期修订,更新慢,大量新词、新主题、新类不能及时收录。
(4)受印刷版的限制,分类表、词表的规模偏小,类目和词汇数量少, 难以满足计算机自动处理的需要。
由于现有《中图法》体系存在着上述弊端,所以有必要引进新的计算机和网络技术对《中图法》进行技术改造,包括采用计算语言学的方法和计算机编表技术,揭示分类检索语言、主题检索语言、自然语言之间的兼容互换关系,增加自然语言接口,扩充词表规模和加快增补更新,从而适应网络时代信息组织的发展。
我们开发的知识库以《中图法》为主干体系,包含若干个词表和词典,其中分类号—关键词串对应表为主分类知识库,即知识库的主体;抽词词典、停用词表、同义词表、义类词典是主题标引知识库;地名表、时代表、文献类型表等为辅助分类知识库;另外还有采用《中图法》知识库标引和检索的文献数据库。图2显示了本知识库的结构。
 《中图法》知识库的结构
虽然都以《中图法》分类体系为主干,揭示主题词串与类号的对应关系,均可实现文献信息分类主题一体化标引。但两者相比,《中图法》知识库无论在内容、数量还是结构、功能上都优于《中图法》体系,更适合于文献信息标引的自动化和信息检索的智能化。
(科教作文网http://zw.ΝsΕac.cOM编辑)

(1)《中图法》体系只揭示了分类号与主题词串的对应关系, 而知识库则揭示了分类号与主题词串、分类号与关键词串、主题词与关键词之间的对应关系;后者词汇直接来源于文献,更新比前者快,便于用户检索。
(2)《中图法》体系只揭示了分类表中罗列出的类目和主题词串的对应关系;而知识库源于标引记录,包含了大量组合类目(仿分、复分时组配而成的类目),类目数明显多于《中图法》体系。
(3)在《中图法》体系中一个类号最多对应20个主题词(串), 而《中图法》知识库中类目最多能对应几百个词串,平均一个类目对应10~14个词串,比《中分表》体系更能揭示类目的隐含概念;同时,词串数量大,便于自动分类中的相符性比较。
(4)《中图法》体系主要应用在手工标引和分类上;而知识库的规模大、容量大、更新快、可扩充性好,因而可以成功地应用于自动标引和自动分类。它不仅能保证较高的标引质量和分类正确性,而且在主题标引时不仅给出主题词还给出关键词,另外,它的同义词表、它的地名、时代、文献类型等的多重标引为信息检索提供了多个检索入口。
(5)传统的分类法和词表与书目信息都是分立的, 而本知识库则与用其标引的文献相联通,即在某个类目体系下面直接就可以获取用该类号标引的文献信息,类似于网络环境下的目录型检索工具。共2页: 1 [2] 下一页 论文出处(作者):
情报学研究的新定位:面向理解
语言礼貌与语言策略的性别差异
上一篇:数字资源统一检索和链接系统的设计与实现(1) 下一篇:没有了