个性化电子商务系统中的自适应过滤算法探究(2)
2015-01-18 01:45
导读:此公式中,如是第i个文档中第k个词语的条件频率,dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度,avdl是从练习集得到的均匀文档长度
此公式中,如是第i个文档中第k个词语的条件频率,dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度,avdl是从练习集得到的均匀文档长度。根据练习文档的相似性设置每一个初始阈值以达到最高过滤性能。
(二)自适应性算法的结构
自适应过滤是自适应过滤算法的一个非常重要的阶段。我们从练习阶段得到了初始轮廓和阈值。当过滤输进文档时,主题轮廓和阈值则依据各种不同信息,如:用户反馈、输进文档的向量等进行自适应更新。
图2显示了适应性过滤的结构。当一个文档到达时,其与主题的相似性即被计算出。假如该相似性高于当前阈值,则这个文档被找回,用户的相关性判定也由此得出。假如该文档真正与主题相关,则其被以为是正实例,反之则是负实例。正实例和负实例的向量根据公式(4)被用于主题轮廓的修改。
p'
j=p
i αp
j(pos) βp
j(neg) (4)
p'
j是修改后的主题轮廓,p
j修改前的主题轮廓,p
j(cos)是更新阶段得到的正实例的向量,p
j(neg)是更新阶段得到的负实例的向量;α和β分别是正向量和负向量的权重。
(三)阈值优化算法
笔者提出一个新的阈值优化算法。定义该算法使用下列符号:
t:文档编号,可以看作是时问,由于文档是按照时间顺序处理的;
n(f):被处理的文档的数目;
n
R(f):找回的相关文档;
n
N(f):找回的不相关文档;
T(t):在t时刻的阈值;
S(t
k,t
k 1t):在(t
k,t
k 1)时间段中被拒尽的文档的均匀相似性;
P(t
k t
k 1):在(t
k,t
k 1)时间段中过滤的精确度,并且p(t
k,t
k 1)=n
R(t
k 1-n
R(t
k/n(t
k ))-n(t
k) (5)
本文来自中国科教评价网 假如我们凭直觉处理,精确度太低就应该进步阈值,很少文档被找回则降低阈值。我们使用S(t
k,t
k 1)和P(t
k,t
k 1)来决定是进步阈值抑或降低阈值。
调整阈值的算法如下所示:
IF p(t
k,t
k 1)≤EP(tt
k 1) THEN
T(t
k 1)=T(t
k) α(t
k 1)(1-T(t
k))
ELSEIF S(tt
k,t
k 1)<T(t
k)r THEN
T(t
k 1)=T(t
k)Dt
1 S(t
k,t
k 1)Dt
2 ELSE
T(t
k 1)=T(t
k)Dt
1 S(t
k,t
k 1)Dt
2 α(t
k 1)是阈值进步系数,β(t
k 1)是阈值降低系数,它们也可以被看作是关于n
R(t)的函数。在试验中,我们采用n
R(t)的线性函数,该函数如公式(6)、公式(7)所示:
α
o是初始进步系数,β
是初始降低系数,参数u代表应该用于调整阈值、修改轮廓的正文档的最大数目。我们设置α
o=0.02,u=0.1,(应该是β
o吧)μ=300。从以上等式可以看出,随着时间推移,n
R(t
k)将逐渐增大,α(t
k)和β(t
k)将逐渐减小。这也反映出过滤将越来越好,调整步阶将越来越小这一趋势。
参数r表示:假如s(t
k 1,t
k)低于T(t
k 1)r,阈值应该由系数D1和D2来降低。在试验中,我们设置r=0.1,=0.8,=0.2。