计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

评价网 > 科教论文 > 工学毕业论文 > 计算机网络论文 > 正文

面向主题的搜索引擎的设计与实现网络毕(8)

2013-09-03 01:04

导读：设置，其实现过程如图5.5所示,以抓取中华军事网方面的问题,因为要自动分类,如果能很好地了解人类的自然语言就不是问题,所以现在人们正在寻求问题的

设置，其实现过程如图5.5所示,以抓取中华军事网方面的问题,因为要自动分类,如果能很好地了解人类的自然语言就不是问题,所以现在人们正在寻求问题的解决方法.web文档的自动分类是人们所希望的,所面临问题正在解决。

图5.7 web文档处理后作为训练集

图5.8web文档归类

　　5.8 用户接口

　　用户输入搜索条件，需要对搜索的条件进行分词等处理，然后搜索程序将通过索引数据库进行检索，然后把符合查询要求的数据按照一定的策略进行分级排列，并且分页显示给用户；一个友好的界面决定着人们对它的接受程度。对用户的请求进行处理过程中，在分词和分页显示时是关键，分词是采用逆向最大匹配法，并使用了词典作为分词的依据，这样虽然有很大局限性，但是分出来的词更具有实际意义；用户搜索信息过程如图5.9所示。

$include_dir = "./include";

$language_dir = "./languages";

include "$include_dir/connect.php";

include 'searchfuncs.php';

extract(getHttpVars());

include "$include_dir/index_header.inc";

include "$include_dir/conf.php";

图5.9用户搜索流程图

if ($results != "") {

$results_per_page = $results;

}

if (get_magic_quotes_gpc()==1) {

$query = stripslashes($query);

}

if ($type == "phrase") {

……

<form action="<?print $_SERVER['PHP_SELF'];?>" method="get">

<?

if ($adv ==1 || $advanced_search == 1) {?>

<tr><td width="40%"><input type="radio" name="type" value="and" <?print

……

</select> <?print $sph_messages['resultsPerPage'];?><br></td>

……

if ($catid<>0) {

$query = "SELECT category FROM ".$mysql_table_prefix."categories WHERE category_id='$catid'";

$result = mysql_query($query);

……

$result = mysql_query($get_cats);

echo mysql_error();

$rows = mysql_num_rows($result);

if ($rows >0 && $search==1)

……

while ($catid2<>0) {

……

$result = mysql_query($query1);

$row = mysql_fetch_array($result);

&nb, , sp; $catid2 = $row['parent_num'];

$i++;

……

在该课题中，就本系统与百度、谷歌的搜索进行对比，本系统先对中国军事网和亚洲军事网进行

图5.10本系统搜索实例

了抓取深度为2的抓取工作，然后就三者进行对比，如图5.10所示是本系统对主题“军事视频进

行搜索的结果；百度搜索主题“军事视频”如图5.11所示，百度和谷歌都不属于主题搜索引擎，所搜索的内容非常繁多，除了主题相关信息外，其它信息也很多；除了百度以外，谷歌也是一个庞大的搜索引擎，

图5.11百度搜索实例

其搜索主题“军事视频”的结果如图5.12所示。

图5.12谷歌搜索实例

　　从图5.10、图5.11、图5.12可以看出，该系统还非常微小，百度和谷歌分别在0.001秒和0.05秒之间就可以抓取1540,000和1460,000个web文档.他们之所以这么快，是因为它们的数据库中存放了大量和“军事视频”相关web文档，本系统中仅仅只存放了两个种子URL，只对两个RUL进行了深度为二的搜索，并且百度和谷歌都是成熟的搜索引擎，只有当本系统存有大量数据的时候，才能体现出主题搜索引擎与两打主流搜索引擎区别，主题搜索引擎有自己的的特征，它体现在信息的特有性，不像普通搜索引擎那样有相当多的冗余信息。

（科教作文网http://zw.NSEaC.com编辑发布）

结束语

本课题实现了一个面向主题的搜索引擎，由于面对知识爆炸的现实，面向主题的搜索引擎将起到非常大的作用，它可以根据需要进行信息搜索，它实现了比普通搜索引擎更具体的工作，具有一定专业性。web文档的自动分类如今还没有走到成熟阶段，因此还有待进一部的努力；面对抓取下来的众多web文档，web文档间很多是重复的，或者有些web文档为了达到访问量而采用了一些方法等等，所以怎样去除垃圾web文档也需要更进一不的设计。

　　经过这段时间的努力，虽然没有达到我预期的目标，但我还是坚持自己完成，即使在做不出来的地方，我也会去寻找参考资料，争取能在这次设计中获取更多的知识。我觉得这段时间非常短暂，在不经意间就过去了，它让我懂得不管做什么事情都需要有计划地进行，按照计划行事可以避免很多弯路，如果盲目地做事，不但事情不能按时完成，反而自己生活得非常累。在这次毕业设计中，笔者选择了一门新的语言(PHP)和数据库(MYSQL)，虽然我也学到了一些那两方面的知识，可是还是因为对它们的生疏，也给自己添加了很多困难，所以在选择设计语言的时候还是要相当的谨慎。

参考文献：

[1] 卢亮，张博文.搜索引擎原理、实践与应用[M].北京：出版社，2007.9

[2] 李晓明闫宏飞王继民。搜索引擎 — 原理、技术与系统[M]

[3] 冯是聪.中文web文档自动分类技术研究及其在搜索引擎中的应用[C].北京大学2003, pp. 88

[4] 于天恩.做自己的搜索引擎——搜索引擎精解案例教程[M].2007.10.01

[5] 邹天思，潘凯华，刘中华.PHP网络编程自学手册[M]. 人民邮电出版社，2008.03

[6] Z Yun-tao G Ling W Yong-cheng . An improved TF-IDF approach for text classifiction[N] 2005

[7] 黄菁萱吴立德.”基于向量空间模型的文档分类系统,” 模式识别与人工智能, vol. 1, 1998.

[8] 刘开瑛.中文文本自动分词和标注. 北京: 商务印书馆, 200

[9] 北京大学天网中英文搜索引擎. http://e.pku.edu.cn.

[10] 冯是聪张志刚李晓明.”一种中文web文档自动分类方法的实现及其应用,”工程, 2003

[11] M. Najork and A. Heydon, "High-Performance Web Crawling," Compaq Systems Research Center Sep 2001

上一篇：公交查询系统网络毕业论文网下一篇：没有了