浅析搜索引擎的原理及发展前景网络毕业(2)
2014-04-13 01:00
导读:2002年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场。在一年多的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、TOM等
2002年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场。在一年多的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、TOM等知名门户网站提供搜索引擎技术。慧聪搜索引擎的优势是从人工审核网站信息源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信息的含量。在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。
2 搜索引擎的工作原理
简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类:
2.1目录式搜索引擎:是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。
2.2机器人搜索引擎:Robot(机器人)一词大家并不陌生,Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索(比如Google一般是28天),对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。Google、北大天网、百度(Baidu)就是这类搜索引擎的代表。
(转载自http://www.NSEAC.com中国科教评价网) 2.3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。第一个元搜索引擎,是美国华盛顿大学硕士生Eric Selberg 和 Oren Etzioni 开发的 Metacrawler。元搜索引擎的搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。ByteSearch(http://)、Mamma(http://)、Profusion(http://)就是这类搜索引擎的代表。
3 搜索引擎的性能指标
搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的性能参数——召回率和精度同样也可以衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。对于网民来说,互联网上的信息不是不够,而是“过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关心精度。
4 搜索引擎面临的挑战
目前搜索引擎是网络上被使用频率最高的服务项目之一。随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。国际数据公司(IDC)曾公布的一份报告表明,被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。搜索引擎越来越不能满足挑剔的网民们的各种信息需求,这表现在以下几个方面: