论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
3.3 可靠性和可用性需求
搜索引擎应该能接受大量的同时搜索操作,在此时系统需要及时处理,并不能出现死机等现象;由于系统绝大部分依赖于数据库,所以数据库也应该有非常好的稳定性,当数据库出现问题时也应该能及时地恢复过来。个人使用该系统,应完全能承受。
4 面向主题的搜索引擎原理
4.1 搜索引擎的主要指标及分析
搜索引擎的主要指标有响应时间、召回率、准确率、相关度等。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的,当然这些都需要搜索引擎技术指标来保障。
召回率:一次搜索结果中符合用户要求的数目与用户查询相关信息的总数之比。
准确率:一次搜索结果中符合用户要求的数目与该次搜索结果总数之比。
相关度:用户查询与搜索结果之间相似度的一种度量 。
精确度:对搜索结果的排序分级能力和对垃圾web文档的抗干扰能力。
4.2文档表示与特征匹配
文档表示是指以一定的规则和描述来表示文档或文档类,使得一个web文档变得容易分析。文档表示模型有多种,常用的有:布尔型、向量空间型、概率型以及混合型等。向量空间模型是近年来应用较多且效果较好的一种模型,本系统就采用了VSM进行文档的表示与特征的匹配。
(转载自http://zw.NSEaC.com科教作文网)
在VSM中,将每一文档都映射为由一组规范化正交词条矢量所组成的向量空间中的一个点,对于所有的文档或未知文档,都可用此空间中的词条向量:(T1, W1, T2, W2 …, Tn, Wn)来表示(其中Ti为特征项词条,Wi为特征词条权值),从而将文档信息的表示与匹配问题转化为向量空间中向量的表示和匹配问题来处理。在web文档自动分类中,假设用户目标为U,未知文档为V,两者的相似程度可用向量之间的夹角来度量,夹角越小说明相似度越高,相似度计算采用公式4.1。
4.3 特征提取
文档表示中词条Ti及其权值Wi的选取称为特征提取。特征提取是文档类共性与规则的归纳过程,是分类系统的核心,特征提取算法的优劣直接影响到文档分类的效果。
词、词组和短语是组成文档的基本元素,并且在文档中的出现频率有一定的规律性,适合所有文档的特征项。不同的词条在文档中的作用是不同的,常用词(例如“的”、“和”等虚词)在所有文档中都有很高的出现频数,而稀有词则在全部训练文档中出现的次数都很少,这两类的词频特性很难确定,不适合作为特征项,应予以滤除。还有一些词在文档中出现的频率都基本相同,区分性差,不能作为特征项也应滤除。同简单的词汇相比,词组和短语的表达能力强,更能体现文档内容,因此应尽量多的采用词组和短语作为特征项,提高特征项的表达能力。
权重评价需要在大量训练文本的基础上,根据各特征项对文档内容的贡献,经过多次统计学习完成。自然文档中,各词条在不同内容的文档中所呈现出来的频率分布是不同的,因此我们可根据词条的频率特性进行权重评价。一个有效的特征项集,必须具备以下两个特征:
完全性:特征项能够体现目标内容。
区分性:根据特征项集,能将目标同其他文档区分。
根据以上两个特征可得,词条的权重与它出现在这个web文档中的次数成正比,与出现此词条的web文档数量成反比。因此我们可构造词条权值评价公式4.2。
其中tfik表示词条Tk在文档Di中的出现频数,N表示全部样本文档总数,nk表示词条Tk出现的文档数。在web文档自动分类是,是将一个文档类的所有训练文档合并为一个类文档进行文档类的特征提取和权重评价的。实用中,为降低个别高频率项对其它中低项的抑制作用,计算权值时还应对词频进行均频处理。对式(2)进行均频,规范化处理后可得公式4.3。
(4.3)
此外,在实际应用中组成特征向量的特征项的个数也不宜过多,可以只保留权值较高的项,否则会大大降低系统的处理速度。图4.1为“Java技术”类和“网络安全”类的前100个特征项(按权值从大到小排序)的模值(权值的平方和)分布图,其中“Java技术”类属于特征项较为突出的文档类,仅前10项的模值就达到整个向量模值的80℅以上,“网络安全”类属于特征较平均的文档类,但前30项的模值也占到了83.7℅。从图4.1中可看出,第60以后的项对整个向量的影响就很小了,他们所具有的模值和只占到总模值的4℅-7℅左右,因此在对实时性要求较高的情况下,对于较粗的分类,向量长度为30-60即可达到较好的效果。
4.4 阀值确定
不同文档类所对应的特征向量和相关