论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
摘要:搜索引擎技术可以从海量的网络信息中获得我们想要的信息,随着网络信息资源的急剧增长其作用越来越显著。本文介绍了搜索引擎技术中的网路蜘蛛,分析了其对文件的处理方法,研究了其搜索与更新策略。
关键词:搜索引擎;网路蜘蛛;更新策略
一 网络蜘蛛工作原理
网络蜘蛛,即搜索引擎机器人程序。将整个互联网想象成一张很大的蜘蛛网,而搜索引擎机器人程序通过链接来抓取信息的过程就像是蜘蛛在这张网上爬来爬去一样。网络蜘蛛是通过链接地址来寻找网页的。它由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,有时也会以链接的层数来限制网络蜘蛛的运行。
二 网路蜘蛛与网站的交互问题
网络蜘蛛访问一个网站,通常会去寻找一个特殊的文本文件Robots.txt,这个文件如果存在的话通常会放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。它会将网站管理者的意思传递给访问它的网络蜘蛛,告诉网站同意或是禁止某些或是所有蜘蛛访问网站的某个特定的网页或者目录。它的结构和语法都比较简单,一般网络蜘蛛都可以很容易的理解网站的意思。正规的搜索引擎通过读取这个文件可以很方便的理解网站的意思并按照网站管理者的意思来进行友好的访问。但是这个仅仅只是网络的一个约定协议而以,并没有对其制定相应的强迫手段,更没有提出相应的惩罚,所以这个约定对于遵守者是有效的,但对于那些不懂生规矩的蜘蛛是一点作用都没有。
(转载自http://zw.NSEaC.com科教作文网)