论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
摘要:文章系统分析了PDF文档的特点,根据开发"粤北地方文献全文数据库"的方法和实践,指出图书馆制作特色文献数据库应首选PDF文档。
中图分类号:250.74
文献标识码:B
文章编号:1006-1525(2004)01-0046-03
国家数字图书馆是依托互连网连接起来的全国各地图书馆电子信息数据库群,其信息基础由国家图书馆藏文献信息、网络信息、各地图书馆藏特色文献信息构成。全国各地的地方特色文献是国家数字图书馆中具有重要意义的信息,地方图书馆尽快设法将这些信息数字化是国家数字图书馆工程的重要基础。下面是我馆以PDF文档格式制作"粤北地方文献数据库"的一点认识和经验。
1什么是PDF
PDF是Adobe公司开发的一种电子文档格式PortableDocumentFormat的简称,这是一种可移植的结构化通用文档格式,它可以将任何文字、表格、颜色、图形图像、超文本链接、声音、动态图像等信息封装在一个电子文档中,而不管创建该文档所使用的应用程序和平台。AdobePDF是出版业新兴的工作流程标准。
PDF文档是通过一系列对象序列来构造的,PDF对象包括直接对象(DirectObject)和间接对象(IndirectObject)。直接对象通常有布尔型(Boolean)、数值型(Number)、字符串型(String)、名字型(Name)、数组型(Array)、字典型(Dictionary)、空对象(Null)、流对象(Stream)等基本类型,间接对象是经过标识了的PDF对象。一个PDF文档包含了一个或多个页面,而每一页都可以包含文档、图形和图像。一个典型的PDF文件包含文件头、文件主体、交叉引用表和文件尾4个部分。文件头(Header)位于PDF文档的第一行,它表明当前文件使用PDF规范的版本;文件体(Body)中包括构成文件间接对象的一个序列,这些对象代表文档中的各个组件,例如字体、页数和图像等,交叉引用表(Cross-referenceTable)则是为了能对间接对象进行随机存取而设立的一个间接对象地址索引表,它给出了所有当前文件使用对象的入口地址,即字节偏移量,以便系统随机访问不同的对象;文件尾(Trailer)中包含了交叉引用表的起始地址和其中的对象总数、文档中Catalog(目录)对象的对象号以及加密等安全信息,根据文件尾提供的信息,PDF的应用程序可以找到交叉引用表和整个PDF文件的目录对象,从而控制整个PDF文档。
2PDF的特点
目前国内文献数字技术飞速发展,已有多家文献数字化处理系统,据笔者所知,DIPS数字文献处理系统、TRS系统等都是性能出色的系统,而价廉物美的AdobeAcrobatReader制作利用PDF文档确实是最好选择。用PDF制作电子文献只需安装:(1)中文操作系统;(2)任何字处理软件,排版软件,图形软件;(3)中文4.0版本以上的AdobeAcrobat。ActivePDF公司还发布了以ActivePDFServer为中心PDF工具包。ActivePDFServer是一个服务器软件,可以读取几乎所有Windows应用文档,并把它们转换成PDF格式。该服务器软件有标准版和专业版两个版本,专业版支持PDF加密解密。软件包的其他工具还有DocConverter(能将280多种文档转换成PDF)、Web Grabber(能将HTML转换成PDF)、Spooler(打印服务器的PDF文档)等。
PDF是从页面描述语言PS(PostScript)发展而来,具有与PS几乎相同的页面描述能力和相似的描述方法。但与PS不同的是,PDF除了能描述复杂版面外,还具有交互功能(如超链接、交互表单等)、页面随机存取及图形字体仿真描述等特性。因此,PDF不仅适合印刷出版,而且也适合电子出版,是全世界电子版文档分发的公开实用标准。