论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
关键词:主题 搜索引擎 自动分类 特征值 向量空间模型
论文摘要:由于互联网的飞速发展,普通搜索引擎无法满足人们的需要;早期的搜索引擎把因特网中的资源服务器的地址收集起来,根据其提供的资源类型的不同而分到不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息;但是这只适用于因特网信息不多的时候,但是如果信息一旦多起来,查找的时候所花费的时间就会变长;因此,在一个web文档数上亿的互联网中,需要更快速地找到所需要的信息,就需要建立一个高效的信息搜索系统。
该课题了现有面向主题的搜索引擎的技术特点,实现一个能满足基本需求的主题搜索引擎;在该课题中叙述了面向主题搜索引擎的重要性、实现方法、实现过程;主要是web文档抓取、特征提取、web文档分类技术;特征值应具有明显的特征,以此提高搜索引擎质量;在实现自动web文档分类时采用向量空间模型计算web文档间的相似度。
1 绪 论
1.1 搜索引擎背景
任何搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文档传输还是相当频繁的,由于大量的文档散布在各个分散的FTP主机中,查询起来很不便,因此Alan Emtage等想到了研发一个能够用文档名查找文档的系统,于是便有了Archie。Archie是第一个自动索引互连网上匿名FTP网站文档的程式,但他还不是真正的搜索引擎。Archie是个可搜索的FTP文档名列表,用户必须输入精确的文档名搜索,然后Archie会告诉用户哪一个FTP地址能够下载该文档。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年研发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工作.
Robot(机器人)一词对编程者有特别的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程式。由于专门用于检索信息的Robot程式象蜘蛛(spider)相同在网络间爬来爬去,因此,搜索引擎的Robot程式被称为spider(Spider FAQ)程式。世界上第一个Spider程式,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互连网发展规模。刚开始他只用来互连网上的服务器数量,后来则发展为也能够捕获网址(URL)。
和Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),他相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,假如网站主管们希望自己的web文档被ALIWEB收录,需要自己提交每一个web文档的简介索引信息,类似于后来大家熟知的Yahoo。
随着互连网的迅速发展,使得检索任何新出现的web文档变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程式工作原理作了些改进。其设想是,既然任何web文档都可能有连向其他网站的链接,那么从一个网站开始,跟踪任何web文档上的任何链接,就有可能检索整个互连网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个索引Html文档正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的单独搜索引擎,并将从各单独搜索引擎返回的任何查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000web文档的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的web文档索引。
目前,搜索引擎的研究、开发十分活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的产业之一。它要用到了信息检索、人工智能、数据库、数据挖掘、自然理解等领域的理论和技术,具有综合性和挑战性。又由于搜索引