计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

面向主题的搜索引擎的设计与实现网络毕(8)

2013-09-03 01:04
导读:设置,其实现过程如图5.5所示,以抓取中华军事网方面的问题,因为要自动分类,如果能很好地了解人类的自然语言就不是问题,所以现在人们正在寻求问题的
设置,其实现过程如图5.5所示,以抓取中华军事网方面的问题,因为要自动分类,如果能很好地了解人类的自然语言就不是问题,所以现在人们正在寻求问题的解决方法.web文档的自动分类是人们所希望的,所面临问题正在解决。

图5.7 web文档处理后作为训练集

图5.8web文档归类

  5.8 用户接口

  用户输入搜索条件,需要对搜索的条件进行分词等处理,然后搜索程序将通过索引数据库进行检索,然后把符合查询要求的数据按照一定的策略进行分级排列,并且分页显示给用户;一个友好的界面决定着人们对它的接受程度。对用户的请求进行处理过程中,在分词和分页显示时是关键,分词是采用逆向最大匹配法,并使用了词典作为分词的依据,这样虽然有很大局限性,但是分出来的词更具有实际意义;用户搜索信息过程如图5.9所示。

$include_dir = "./include";

$language_dir = "./languages";

include "$include_dir/connect.php";

include 'searchfuncs.php';

extract(getHttpVars());

include "$include_dir/index_header.inc";

include "$include_dir/conf.php";

图5.9用户搜索流程图

if ($results != "") {

                        $results_per_page = $results;

}

if (get_magic_quotes_gpc()==1) {

                        $query = stripslashes($query);

}

if ($type == "phrase") {

……

<form action="<?print $_SERVER['PHP_SELF'];?>" method="get">

<input type="text" name="query" size="40" value="<?  print quote_replace($query);?>">

<input type="submit" value="<?print $sph_messages['Search'];?>">  

<?

if ($adv ==1 || $advanced_search == 1) {?>

                        <table width = "100%">

                        <tr><td width="40%"><input type="radio" name="type" value="and" <?print

……

                          </select> <?print $sph_messages['resultsPerPage'];?><br></td>

              ……

                        if ($catid<>0) {

                         $query = "SELECT category FROM ".$mysql_table_prefix."categories WHERE category_id='$catid'";

                            $result = mysql_query($query);

……

                        $result = mysql_query($get_cats);

                        echo mysql_error();

                        $rows = mysql_num_rows($result);

                        if ($rows >0 && $search==1) 

……

                            while ($catid2<>0) {

                                 ……

                                   $result = mysql_query($query1);

                                   $row = mysql_fetch_array($result);

 &nb, , sp;                                 $catid2 = $row['parent_num'];

                                   $i++;

……

 在该课题中,就本系统与百度、谷歌的搜索进行对比,本系统先对中国军事网和亚洲军事网进行

图5.10本系统搜索实例

了抓取深度为2的抓取工作,然后就三者进行对比,如图5.10所示是本系统对主题“军事视频进

行搜索的结果;百度搜索主题“军事视频”如图5.11所示,百度和谷歌都不属于主题搜索引擎,所搜索的内容非常繁多,除了主题相关信息外,其它信息也很多;除了百度以外,谷歌也是一个庞大的搜索引擎,

图5.11百度搜索实例

其搜索主题“军事视频”的结果如图5.12所示。

图5.12谷歌搜索实例

  从图5.10、图5.11、图5.12可以看出,该系统还非常微小,百度和谷歌分别在0.001秒和0.05秒之间就可以抓取1540,000和1460,000个web文档.他们之所以这么快,是因为它们的数据库中存放了大量和“军事视频”相关web文档,本系统中仅仅只存放了两个种子URL,只对两个RUL进行了深度为二的搜索,并且百度和谷歌都是成熟的搜索引擎,只有当本系统存有大量数据的时候,才能体现出主题搜索引擎与两打主流搜索引擎区别,主题搜索引擎有自己的的特征,它体现在信息的特有性,不像普通搜索引擎那样有相当多的冗余信息。

(科教作文网http://zw.NSEaC.com编辑发布)

结束语

    本课题实现了一个面向主题的搜索引擎,由于面对知识爆炸的现实,面向主题的搜索引擎将起到非常大的作用,它可以根据需要进行信息搜索,它实现了比普通搜索引擎更具体的工作,具有一定专业性。web文档的自动分类如今还没有走到成熟阶段, 因此还有待进一部的努力;面对抓取下来的众多web文档,web文档间很多是重复的,或者有些web文档为了达到访问量而采用了一些方法等等,所以怎样去除垃圾web文档也需要更进一不的设计。

  经过这段时间的努力,虽然没有达到我预期的目标,但我还是坚持自己完成,即使在做不出来的地方,我也会去寻找参考资料,争取能在这次设计中获取更多的知识。我觉得这段时间非常短暂,在不经意间就过去了,它让我懂得不管做什么事情都需要有计划地进行,按照计划行事可以避免很多弯路,如果盲目地做事,不但事情不能按时完成,反而自己生活得非常累。在这次毕业设计中,笔者选择了一门新的语言(PHP)和数据库(MYSQL),虽然我也学到了一些那两方面的知识,可是还是因为对它们的生疏,也给自己添加了很多困难,所以在选择设计语言的时候还是要相当的谨慎。


参考文献:

[1] 卢亮,张博文.搜索引擎原理、实践与应用[M].北京:出版社,2007.9

[2] 李晓明 闫宏飞 王继民。搜 索引 擎 — 原理、技术与系统[M]

[3] 冯是聪.中文web文档自动分类技术研究及其在搜索引擎中的应用[C].北京大学2003, pp. 88

[4] 于天恩.做自己的搜索引擎——搜索引擎精解案例教程[M].2007.10.01

[5] 邹天思,潘凯华,刘中华.PHP网络编程自学手册[M]. 人民邮电出版社,2008.03

[6] Z Yun-tao G Ling W Yong-cheng . An improved TF-IDF approach for text classifiction[N] 2005

[7] 黄菁萱 吴立德.”基于向量空间模型的文档分类系统,” 模式识别与人工智能, vol. 1, 1998.

[8] 刘开瑛.中文文本自动分词和标注. 北京: 商务印书馆, 200

[9] 北京大学天网中英文搜索引擎. http://e.pku.edu.cn.

[10] 冯是聪 张志刚 李晓明.”一种中文web文档自动分类方法的实现及其应用,”工程, 2003

[11]  M. Najork and A. Heydon, "High-Performance Web Crawling," Compaq Systems Research Center Sep 2001

上一篇:公交查询系统网络毕业论文网 下一篇:没有了