论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
站内搜索引擎的设计
摘要:本文介绍了搜索引擎的发展,并对搜索引擎的工作原理及其相关技术作了少许分析与讨论。用少许篇幅介绍了搜索引擎数据库的相关知识,着重讲述站内搜索的设计。讲述了站内搜索引擎的需求和站内搜索引擎领域的关键技术与具体实现方法,及其该具备的基本功能和特点,描述了站内搜索引擎的具体设计流程与实现过程,对关键功能做出了进1步的解释,并对智能化匹配与返回用户搜索时间两主要功能进行了详细的解释,并进行了测试。总之站内搜索引擎是充分利用网站资源、迅速提供有效信息的最佳工具,是查寻网站内部信息的密钥。
关键词:搜索引擎;ASP;信息检索
Design Of Search Engine Station
Abstract: This text introduced to search the development of engine, and made few analysis and discussion to the work principle which searches engine and its related technique.Introduced with the few space related search the knowledge of engine database, the design emphasized to relate to search inside station.Related to search and search the key technique of engine realm and concretely carry out a method inside need and station of engine inside station, and it should have of basic function and characteristics, describe station inside search engine of concrete design process and carry out process, do to the key function further of explain, and turn and match and return to customer and search time two main functions and carry on to the intelligence detailed of explain, and carry on a test.In fine search engine inside station is the best tool which makes use of a website resources well and provides a valid information quickly, is the airtight key which checks to look for the website internal information.
Keywords: Search engine; ASP; Information index
目 录
前言 1
1 相关知识 3
1.1 ASP简介 3
1.1.1 ASP访问数据库的原理 3
1.1.2 ASP页面的结构 3
1.1.3 ASP的运行环境 3
1.1.4 ASP的内建对象 4
1.1.5 ASP的主要内置组件 4
1.1.6 Database Access组件ADO 4
1.2 ASP访问数据库步骤 5
1.3 Dreamweaver MX 概述 5
1.4 IIS简介 6
1.5 SQL SERVER 6
1.5.1 SQL SERVER 2000简介 6
1.5.2 SQL Server系统 6
1.5.3 主从式系统 7
1.5.4 两层式架构 7
2 需求分析 9
2.1 搜索引擎的功能 9
2.2 搜索引擎的需求 10
2.2.1数据量 10
2.2.2 内容相关性 10
2.2.3 安全性 10
2.2.4 个性化和智能化 10
3 数据库的设计 11
3.1 数据库设计的特点 11
3.2 数据库设计方法简述 11
3.3 数据库设计的基本步骤 12
3.4 数据库各级模式的形成过 13
3.5 数据库设计技巧 13
3.5.1 计数据库之前 13
3.5.2 表和字段的设计 13
3.6 键和索引 15
3.7 数据完整性设计 16
3.8 其他设计技巧 16
3.9 数据库 17
3.10 数据库访问技术 18
4 总体设计 19
4.1 搜索引擎的系统架构 19
4.2 搜索结果进行处理排序 21
4.3 搜索的处理过程 22
4.4 中文分词系统 24
4.5 资源索引标注系统结构 24
5 详细设计与测试 26
5.1 功能模块详细设计 26
5.1.1 ODBC数据源的建立 26
5.1.2 SQL数据库的建立 27
5.1.3 引索数据库的连接 29
5.1.4 站内搜索引擎界面的设计与功能的实现 30
5.1.5 实现智能化关键字匹配 31
5.1.6 返回用户搜索所用时间 33
5.2 测试 35
6 结束语 37
参考文献 38
致谢 39
前言
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发1个可以以文件名查找文件的系统,于是便有了Archie。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以1定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另1个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
当时,“机器人”在编程者中10分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛1样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
世界上第1个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。
与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,1些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪1个网站的链接开始,就有可能检索整个互联网。到1993年底,1些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering(RBSE)spider最负盛名。[1]
然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第1个在搜索结果排列中引入关键字串匹配程度概念的引擎。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!还有百度其存放的网页也有6亿多。
随着互联网规模的急剧膨胀,1家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这1类,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。[2]
现在1提到搜索引擎,人们往往想到的是Google、百度、雅虎、搜狐等。那么究竟什么是搜索引擎呢?“搜索引擎”实际上是为人们提供在internet网上利用关键词来进行全文检索的1种网页检索工具。