计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

面向主题的搜索引擎的设计与实现网络毕(2)

2013-09-03 01:04
导读:擎有大量的用户,由此衍射出许多商机,具有很好的价值。 根据搜索引擎所用的技术原理,主要可以分为以下三类: (1) 目录式搜索引擎:以人工方式或半
擎有大量的用户,由此衍射出许多商机,具有很好的价值。

  根据搜索引擎所用的技术原理,主要可以分为以下三类:

  (1) 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。典型有:Yahoo(现已采用Robot技术)、LookSmart、Open Directory等。

  (2) 基于Robot搜索引擎:基于Robot 的搜索引擎多提供对全文的检索,有时也叫做全文搜索引擎(Full Text)。通过Robot程序从互联网上搜集信息而建立索引数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。这类搜索引擎的代表是:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;国内代表为:百度(Baidu),"天网"、OpenFind等。

  (3) 元搜索引擎:这类搜索引擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去重、排序等处理后,作为自己的结果返回给用户。服务方式为面向web文档的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。

  但是,即使比较有名的如Google、Baidu等搜索引擎对检索结果采用了基于超链接的相关度排序,但它们主要依据的也是web文档被其它web文档认同的程度,并非web文档与用户真实检索需求之间的关联程度,结果中包含了大量与用户查询请求不相关的文档,其比例高达75%以上。所以本文提出了一种分类细致精确、数据全面深入、更新及时的搜索引擎——面向主题的搜索引擎,并详细介绍了其中的信息抽取技术。

  1.2 主题搜索引擎

  随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。这就需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比以前普通的搜索引擎更具有特性,能被多数人接受。

  (1) 搜索最专业:主题搜索引擎排除了其他杂乱信息的干扰,结果纯正、专业,是各行业推广的最佳选择,也是消费者品牌消费的最佳参谋和顾问。

  (2) 结果最精准:采用人工分类以及特征值提取等策略,提高搜索引擎的时效性及准确性,搜索结果精、准,不会出现垃圾信息,凸现了主题搜索引擎的独特优势。

  (3) 结果最有价值:品搜呈现给消费者的是最新、最旺的搜索结果,是消费者最希望看到的结果,也是消费者最喜欢的结果。

  (4) 排行最公正:主题搜索引擎克服了部分搜索引擎竞价排名的痼疾,打破了谁交的钱多谁就在最前面的局面。品搜的排序客观、公正,按照企业自身对品搜的使用程度和对品牌的认可程度,把最新最旺的品牌信息和产品摆在消费者。

  (5) 推广最自主:主题搜索引擎使得企业级用户更自由,都可以把信息排到最前面,而且企业可以自行决定推广内容和效果。品搜是全民搜索,个人和企业参与度极高,推广自主性极强。

  本课题介绍面向主题搜索引擎的设计与实现;采用倒排索引方式进行索引,利用向量空间模型(Vector Space Model,VSM)对web文档自动分类,由于web文档自动分类现在在技术上存在难题,所以在本课题中只叙述它的基本思想,不讲述实现,如果要实现自动分类,则需要才需要采用向量空间模型方法计算新获取的web文档与各分类之间是相似程度。本课题中采用手工分类方法,对URL制订对应的一个分类,然后进行抓取。

您可以访问中国科教评价网(www.NsEac.com)查看更多相关的文章。


  2 开发介绍

  2.1 PHP简介

  Rasmus Lerdorf为了创建他的在线而创造了“个人主页工具”(Personal Home Page Tools)。这是一种非常简单的。其后越来越多的人们注意到了这种语言并对其扩展提出了各种建议。在许多人的无私奉献下以及这种语言本身的源代码自 由性质,它演变成为一种特点丰富的语言,而且现在还在成长中。

  PHP的语法与C,Perl,ASP或者JSP。对于那些对上述之一的语言较熟悉的人来说,PHP太简单了。相反的,如果你对PHP了解较多,那么你对于其他几种语言的学习都很简单了。

  (1) PHP数据库连接

    PHP可以编译成具有与许多数据库相连接的函数。PHP与MySQL是现在绝佳的组合。你还可以自己编写外围的函数取间接存取数据库。通过这样的途径当你 更换使用的数据库时,可以轻松的更改编码以适应这样的变化。PHPLIB就是最常用的可以提供一般事务需要的一系列基库。

  (2) PHP可扩展性

    就像前面说的那样,PHP已经进入了一个高速发展的时期。对于

上一篇:公交查询系统网络毕业论文网 下一篇:没有了