计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

开放源代码的数字资源管理系统DSpace和Fedora的分

2015-01-02 01:38
导读:文化论文论文,开放源代码的数字资源管理系统DSpace和Fedora的分在线阅读,教你怎么写,格式什么样,科教论文网提供各种参考范例:  1 背景     我们对目前国际上流行的开放

 1 背景

    我们对目前国际上流行的开放源代码的数字资源管理系统进行了重点的分析和试用,尤其对目前流行的两种开放源代码数字资源管理系统DSpace[1]和Fedora[2]的体系结构、主要功能特点等做一些系统的分析和比较,希望能够为关注这些研究的单位和研究人员提供一些借鉴和参考。

      2 DSpace的分析

    DSpace系统是MIT和HP实验室合作研究开发的为教育科研机构创建稳定的环境来长期保存和获得原生数字材料,捕捉、存储、索引、保存以及传播数字财产的系统平台。2002年10月,该平台开始在MIT正式服务,2002年底,向全世界公开了基于BSD开放源代码许可协议[3]的DSpace源码,目前最新版本为1.2.1版。
    2.1 DSpace的数据模型
    DSpace中的数据组织倾向于反映使用DSpace系统的组织本身的结构。每个Dspace系统被划分成一些数字空间群(Communities),对应于大学的院系、实验室、研究中心等,这些依据不同的授权完成不同任务的组群称作数字空间群[4]。在DSpace 1.2中,这些数字空间群可以组织成一个有继承关系的结构。
    数字空间群中包含数字馆藏(Collections),数字馆藏由一些相关的内容组成,一个数字馆藏可以出现在多个数字空间群中。
    数字馆藏由数字条目(Items)组成,数字条目是信息的基本存档元素。每一个数字条目由一个数字馆藏拥有,它可以出现在其他的数字馆藏中,但是只有唯一的所有者拥有馆藏。
    数字条目被进一步划分为命名的数字流包(Bundles of Bitstreams)。数字流(BitStreams)是由比特位组成的一般的计算机文件。具有密切联系的数字流可以组成数字流包。
    每个数字流与一种数字流格式相关联。因为提供长期保存服务是DSpace服务的一个重要方面,所以获取用户提交的文件的特定格式是很重要的。在DSpace中,一个数字流格式是用来指向一个特定文件格式的唯一方法。例如:对Microsoft Word 2000格式的数字流的解释是通过指向Microsoft Word 2000应用程序的引用来隐式地定义。数字流格式比MIME类型或者文件名后缀更能准确表达格式。例如:对Microsoft Word 2000格式的数字流的解释是通过指向Microsoft Word 2000应用程序的引用来定义的;而采用MIME类型的Application/ms-word和文件名后缀的,doc覆盖了Microsoft Word应用的多种版本,每种版本对应可能特性不同的数字流[5]。 (科教范文网http://fw.NSEAC.com编辑发布)
    2.2 DSPace的体系结构
    DSPace系统分为三层,每一层由一系列组件组成。
    DSpace的体系结构[6]
    其中存储层(Storage Layer)负责对数字条目(数字对象)和关联的元数据(Qualified Dublin Core元数据规范)进行存储,数字内容存储在文件系统中,以数字流和数字流包的形式与条目相关联,条目中可以包含不同类型的文件。业务逻辑层(Business Logic Layer)由处理DSpace系统各个独立功能的一系列组件组成,如:浏览、检索、用户/组管理和授权、工作流管理、内容管理等。应用层(Application Layer)提供终端用户交互和接口功能,基于Web的用户界面,批量数据导入工具,OAI元数据供应等。考虑到长期保存的需要,DSpace提供对CNRI句柄的支持,保证给每个数字条目一个全球唯一的标识符。
    2.3 DSpace的主要功能特点
    (1)DSpace中的元数据支持
    DSpace中的存档内容具有3种元数据。
    ①描述元数据
    每个数字条目对应有一个Qualified Dublin Core描述元数据记录。Qualified Dublin Core之外的其他关于数字条目的描述元数据可以以序列化的数字流的形式存在。数字空间群和数字馆藏具备一些简单的描述元数据,存在于系数据库中。
    ②管理元数据
    包括技术元数据,数字化过程元数据和授权策略等数据。大多数存在于DSpace的关系数据库表中。
    ③结构元数据
    包括的信息有:如何展示一个数字条目,或者是将个数字条目内部的数字流给用户;数字条目组成部分之间的关系。例如:组成一个论文的一组TIFF图,每幅图代表其中一页,结构元数据可以将其中的每一张图像表示为一页,并表示每页的顺序信息[5]。

(科教论文网 lw.NsEac.com编辑整理)


    (2)DSpace中的电子用户(E-People)
    DSpace中的许多功能如:文档发现和提取都可以匿名使用,但是用户必须经过身份验证才能行使如提交,E-mail通知(订阅)或管理的功能。用户可以通过分组来方便地管理。DSpace中把用户叫做“E-People”,因为在有些时候一些用户可能是机器而非真正的人。
    DSPace中保存的每个E-Person的信息如下:
    ①邮件地址;
    ②姓名;
    ③用户是否可以通过Web界面登录,或者是必须使用X509验证[7];
    ④密码;
    ⑤订阅的数字馆藏列表;
    ⑥电子用户是通过自己注册产生,还是通过该机构的个人信息数据库产生。
  (3)DSpace中的授权策略
    DSpace中采用基于分组的资源控制策略,权限策略可以针对个别的用户和匿名用户,也可以适用于电子用户工作组。对用户/用户组的授权必须明确地声明,缺省情况下,DSpace中采用“否定”授权策略。而且权限也不能随便扩展,比如说,某个用户具有某个数字条目的读权限,但不一定具备与该条目关联的数字流文件的读权限。
    (4)可定制的工作流机制
    DSpace中的馆藏资源的提交和管理基于一个可以定制的工作流过程运行。一般情况下,一个数字馆藏的工作流分3个步骤,并且每个步骤对应有可以行使该操作的电子用户组,如果某个步骤没有对应的操作用户组,那么该步骤在实际的过程中将被忽略。当某个步骤被激活时,执行该步骤的任务被加入到相关的用户组的“任务池”中,并且组中的用户获得通知,从“任务池”中取出该任务处理,完成后进入下一步。工作流流程可以通过DSpace提供的管理员工具来定制,具有管理员身份的用户可以根据馆藏资源的具体提交过程使用管理工具定义适合的资源提交流程。 (转载自http://zw.nseac.coM科教作文网)
    (5)资源的唯一标识符策略
    在DSpace中采用美国国家研究推进机构(The Corporation for National Research Initiatives,CNRI)的句柄系统(Handle System)[8]来生成资源标识。每个DSpace站点要从CNRI获得一个唯一的前缀,站点本身可以运行一个句柄服务器来生成内部的唯一标识符,并且可以接收和解析外部进来的请求。句柄可以被指定给数字空间群,数字馆藏和数字条目,对于数字流包和数字流不采用指定句柄来标识。
    句柄可以写成2种形式:
    ①hdl:1721.123/4567
    ②http://hdl.handle.net/1721.123/4567
    第二种表示可以被任意的浏览器识别,第一种需要使用CNRI的句柄解析插件。
    其中,前缀:1721.123;4567是本地部分[5]。
    (6)DSpace中的资源开放服务
    DSpace系统实现了OAI-PMH协议[9],通过公开提供可匿名访问的数字条目的DC元数据。另外,数字馆藏结构也采用OAI协议的“集合(Sets)”机制公开。DSpace中采用OCLC的开放源OAICat框架来提供这项功能。
    DSpace系统以一种简单的方式支持SFX[10]的OpenURL协议[11]。如果使用机构有一个SFX服务器,DSpace将给每一个数字条目页上显示一个OpenURL链接,自动使用DC元数据。另外,DSpace能够响应外来的OpenURL请求。目前,只是简单地把OpenURL中的信息传递给检索子系统,会给出一个结果列表,在列表顶部会给出最相关的数字条目。
    (7)DSpace的检索和浏览功能
    DSpace的索引和检索模块提供一个简单的API,允许对新内容作索引,重建索引以及在指定范围内检索。这个API来自免费的Java搜索引擎——Lucene[12]。Lucene支持字段检索、停词(Stop words)、词干(Stemming)以及不重建索引增加新的索引内容的能力。
(转载自中国科教评价网www.nseac.com )

    浏览子系统提供了一个简单的API来指定一个索引,或该索引的一部分。可以被浏览的索引有Item Title,Item lssue Date和Authors。浏览范围可以从数字空间群到数字馆藏。
    (8)数据的导入导出
    DSpace包括导入和导出数字条目的批处理工具,采用简单的目录结构组织,DC元数据存成XML文件。这些工具可以用来作为在DSpace和其他系统之间迁移的基础。还提供一个基于METS[13]的导出工具,将数字条目导出成METS格式的元数据记录,但还不提供对METS格式的元数据的导入功能,DSpace开发组计划在未来的版本中提供基于METS的元数据导入工具。
    2.4 DSpace的安装和运行环境
    本文以DSpace 1.2版本为例进行了安装和试用,所需的安装和运行环境如下:
    Unix类的操作系统,如:Linux,HP/UX等;
    Java2 Standard Development Kit(J2SDK)1.4或者是更高版本;
    Apache Ant 1.5或者是更高版本,或者是其它类似的Java编译工具;
    PostgreSQL 7.3或者是更高版本,一个开放源代码的关系数据库系统;
    Jakarta Tomcat 4.x/5.x或者是类似的系统,如:Caucho Resin的等同版本。

      3 Fedora的分析

    Fedora(Flexible Extensible Digital Object and Repositoty Architecture)系统[2]是由Andrew W.Mellon基金会资助,由Virginia和Cornell大学联合开发的开放源代码系统,遵守Mozilla开放源代码协议。Fedora是一个通用的数字对象管理系统。可以用在很多地方,包括:数字图书馆、内容管理、数字资产管理、资源保存等。2001年发布Fedora 1.0版,目前最新版本2.0版。
    3.1 Fedora的数据模型
    (1)Fedora的数字对象框架
    数字对象框架(Digital Object Architecture,DOA)最早是William Y.Arms于1997年提出的,后来在Fedora系统中得到实现。Fedora中的数字对象的结构模型如图2所示。

(科教范文网http://fw.nseac.com)


    数字对象的结构模型[14]
    Persistent ID(PID),数字对象唯一标识符(Digital ObjectIdentifier),用来唯一地标识一个数字对象,以便于在命名空间内唯一地引用该数字对象。
    系统元数据(System Metadata),描述整个数字对象,用来管理该数字对象和建立数字对象的索引。
数据元素(Datastream),是数字对象所包含的数据,它可能是元数据,也可能是数据本身。如果是元数据,可能是各种格式的,比如Dublin Core,MARC。如果是数据本身,可能是文本、图像、音频、视频数据。一个数字对象包含一个或者多个数据元素。
    数据发布器(Disseminator),是数字对象内部的一种结构,对应着一种发布数字对象内容的方式。包括两部分:接口定义(Behavior Definition)和接口的实现(Behavior Mechanism),分别对应着对数据内容的操作接口和对数据内容操作的接口的实现[14]。
    (2)Fedora的仓储
    仓储(Repository)是存储管理数字对象的容器,是Fedora系统中非常重要的实体。仓储实现了数字对象的存储管理,并且通过一定的访问控制策略提供了数字对象内容发布的机制。数字对象存放在仓储里面,一个数字对象对外部可见的只是它的唯一标识符,与数字对象的交互只能通过仓储访问协议进行[14]。

共2页: 1

论文出处(作者):
上一篇:自然语言检索中的概念控制(1) 下一篇:没有了