几种信息检索模型比较(2)

2015-12-24 01:12

导读：在公式(2)中，文档Di可以用n维的向量表示，其中每个分量表示某一Term在整篇文档中的权重。Q = (q1，q2，，qn)中ql表示Terml在Q中的权重。向量空间模型的优

在公式(2)中，文档Di可以用n维的向量表示，其中每个分量表示某一Term在整篇文档中的权重。Q = (q1，q2，…，qn)中ql表示Terml在Q中的权重。

向量空间模型的优点在于：1.检索词加权改进了检索效果。2.部分匹配策略允许检索出与查询条件相近的文献。3.可以根据相似度对文献进行排序。

它的缺点是，在这种模型中的基本假设，关键词Term向量之间被假设为相互无关的，而实际是有时它们之间大多是依赖关系，如在自然语言中，词或短语之间存在着十分密切的联系。所以这一假设对计算结果的可靠性造成一定的影响。另外，在查询中，也不能像布尔模型一样使用关键词之间的逻辑运算关系。
（三）概率模型
概率模型主要是基于概率排序原则：即如果文档按照与查询的概率相关性的大小排序，那么排在最前面的是最有可能被获取的文档。它主要针对信息检索中相关性判断的不确定性以及查询信息表示的模糊性。

在前面的向量模型中，我们假定关键词Term向量是正交的，不考虑Term向量之间的依赖关系。而在概率模型中，可以通过概率计算表达关键词Term之间，以及关键词Term和文档之间的依赖关系，预测文档与用户查询的相关概率，并可以对获取的结果按照相关度概率的大小进行排序(简称PRP)。

概率模型有两个主要的参数：一个文档和用户查询的相关概率Pr(rel)及不相关概率Pr(nonrel)，并且Pr(rel)=1-Pr(nonrel)。即

Pr[term t in document|document is relevant]=Rt/R (3)

Pr[term t in document | document is irrelevant]= (ft-Rt)/(N- Rt) (4)

其中：R表示与用户查询相关的文档数；Rt表示在相关R中出现关键词Term t的文档数；N表示文档数；ft表示在N个文档中出现关键词Term t的文档数。由式(3)和(4)，可以

得到：

Pr[term t is not in document| document is relevant]= (R- Rt)/R (5)

Pr[term t is not in document | document is irrelevant]=(N-ft-(R- Rt))/(N- Rt) (6)

根据上面所给的“条件概率”，可以计算出关键词Term t的权重：

（7）

在公式(7)中，如果wt>0，表明词Term t出现的文档与用户查询相关；如果wt<0，出现Term t的文档与用户查询无关。

概率模型的主要缺点是对文本集的依赖性过强，而且条件概率值很难估计。概率模型的一个特例是贝叶斯网络，该网络以概率的方式定义了关键词的权重随着与其相关的关键词的权重的改变而改变方式。由于该模型适用于超文本信息系统，因而该模型的应用越来越广泛。但是该模型的缺点是，计算复杂度很大，因而该模型不适合很大的网络。

三、结束语

目前，大多数信息检索模型都依赖于布尔模型，而在实验环境中用的最多并居于主导地位的是传统的向量空间模型。信息检索模型还有许多其他变种，如基于布尔模型的变种有：模糊集合模型、扩展布尔模型；基于矢量空间模型的变种有：通用矢量空间模型、潜在语义索引模型、神经网络模型；基于概率模型的变种有：推理网模型、可信网模型。而总体上来看，这些模型及其变种都是“语法”层次的信息检索模型，没有具有“语义”特征的规范的词汇集。今后，进一步研究基于“概念语义空间”的文本信息组织与检索，建立基于本体的信息检索模型，则能有效地代表文档和用户信息需求，使信息检索更加精确、有效。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和最大限度地满足用户个性化的要求。

参考文献：

[1]Ricardo Baeza-Yates,Berthier Riberiro-neto等著.王知津等译.现代信息检索[M].北京:机械工业出版社,2005

[2]吴丽华,罗云锋,张宏斌.信息检索模型及相关性算法的研究[J].情报杂志,2006(12)25－27