论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
图5.7 web文档处理后作为训练集
图5.8web文档归类
5.8 用户接口
用户输入搜索条件,需要对搜索的条件进行分词等处理,然后搜索程序将通过索引数据库进行检索,然后把符合查询要求的数据按照一定的策略进行分级排列,并且分页显示给用户;一个友好的界面决定着人们对它的接受程度。对用户的请求进行处理过程中,在分词和分页显示时是关键,分词是采用逆向最大匹配法,并使用了词典作为分词的依据,这样虽然有很大局限性,但是分出来的词更具有实际意义;用户搜索信息过程如图5.9所示。
$include_dir = "./include";
$language_dir = "./languages";
include "$include_dir/connect.php";
include 'searchfuncs.php';
extract(getHttpVars());
include "$include_dir/index_header.inc";
include "$include_dir/conf.php";
图5.9用户搜索流程图
if ($results != "") {
$results_per_page = $results;
}
if (get_magic_quotes_gpc()==1) {
$query = stripslashes($query);
}
if ($type == "phrase") {
……
<form action="<?print $_SERVER['PHP_SELF'];?>" method="get">
<input type="text" name="query" size="40" value="<? print quote_replace($query);?>">
<input type="submit" value="<?print $sph_messages['Search'];?>">
<?
if ($adv ==1 || $advanced_search == 1) {?>
<table width = "100%">
<tr><td width="40%"><input type="radio" name="type" value="and" <?print
……
</select> <?print $sph_messages['resultsPerPage'];?><br></td>
……
if ($catid<>0) {
$query = "SELECT category FROM ".$mysql_table_prefix."categories WHERE category_id='$catid'";
$result = mysql_query($query);
……
$result = mysql_query($get_cats);
echo mysql_error();
$rows = mysql_num_rows($result);
if ($rows >0 && $search==1)
……
while ($catid2<>0) {
……
$result = mysql_query($query1);
$row = mysql_fetch_array($result);
&nb, , sp; $catid2 = $row['parent_num'];
$i++;
……
在该课题中,就本系统与百度、谷歌的搜索进行对比,本系统先对中国军事网和亚洲军事网进行
图5.10本系统搜索实例
了抓取深度为2的抓取工作,然后就三者进行对比,如图5.10所示是本系统对主题“军事视频进
行搜索的结果;百度搜索主题“军事视频”如图5.11所示,百度和谷歌都不属于主题搜索引擎,所搜索的内容非常繁多,除了主题相关信息外,其它信息也很多;除了百度以外,谷歌也是一个庞大的搜索引擎,
图5.11百度搜索实例
其搜索主题“军事视频”的结果如图5.12所示。
图5.12谷歌搜索实例
从图5.10、图5.11、图5.12可以看出,该系统还非常微小,百度和谷歌分别在0.001秒和0.05秒之间就可以抓取1540,000和1460,000个web文档.他们之所以这么快,是因为它们的数据库中存放了大量和“军事视频”相关web文档,本系统中仅仅只存放了两个种子URL,只对两个RUL进行了深度为二的搜索,并且百度和谷歌都是成熟的搜索引擎,只有当本系统存有大量数据的时候,才能体现出主题搜索引擎与两打主流搜索引擎区别,主题搜索引擎有自己的的特征,它体现在信息的特有性,不像普通搜索引擎那样有相当多的冗余信息。
(科教作文网http://zw.NSEaC.com编辑发布)结束语
本课题实现了一个面向主题的搜索引擎,由于面对知识爆炸的现实,面向主题的搜索引擎将起到非常大的作用,它可以根据需要进行信息搜索,它实现了比普通搜索引擎更具体的工作,具有一定专业性。web文档的自动分类如今还没有走到成熟阶段, 因此还有待进一部的努力;面对抓取下来的众多web文档,web文档间很多是重复的,或者有些web文档为了达到访问量而采用了一些方法等等,所以怎样去除垃圾web文档也需要更进一不的设计。
经过这段时间的努力,虽然没有达到我预期的目标,但我还是坚持自己完成,即使在做不出来的地方,我也会去寻找参考资料,争取能在这次设计中获取更多的知识。我觉得这段时间非常短暂,在不经意间就过去了,它让我懂得不管做什么事情都需要有计划地进行,按照计划行事可以避免很多弯路,如果盲目地做事,不但事情不能按时完成,反而自己生活得非常累。在这次毕业设计中,笔者选择了一门新的语言(PHP)和数据库(MYSQL),虽然我也学到了一些那两方面的知识,可是还是因为对它们的生疏,也给自己添加了很多困难,所以在选择设计语言的时候还是要相当的谨慎。
参考文献:
[1] 卢亮,张博文.搜索引擎原理、实践与应用[M].北京:出版社,2007.9
[2] 李晓明 闫宏飞 王继民。搜 索引 擎 — 原理、技术与系统[M]
[3] 冯是聪.中文web文档自动分类技术研究及其在搜索引擎中的应用[C].北京大学2003, pp. 88
[4] 于天恩.做自己的搜索引擎——搜索引擎精解案例教程[M].2007.10.01
[5] 邹天思,潘凯华,刘中华.PHP网络编程自学手册[M]. 人民邮电出版社,2008.03
[6] Z Yun-tao G Ling W Yong-cheng . An improved TF-IDF approach for text classifiction[N] 2005
[7] 黄菁萱 吴立德.”基于向量空间模型的文档分类系统,” 模式识别与人工智能, vol. 1, 1998.
[8] 刘开瑛.中文文本自动分词和标注. 北京: 商务印书馆, 200
[9] 北京大学天网中英文搜索引擎. http://e.pku.edu.cn.
[10] 冯是聪 张志刚 李晓明.”一种中文web文档自动分类方法的实现及其应用,”工程, 2003
[11] M. Najork and A. Heydon, "High-Performance Web Crawling," Compaq Systems Research Center Sep 2001