计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

个性化电子商务系统中的自适应过滤算法探究(2)

2015-01-18 01:45
导读:此公式中,如是第i个文档中第k个词语的条件频率,dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度,avdl是从练习集得到的均匀文档长度

  此公式中,如是第i个文档中第k个词语的条件频率,dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度,avdl是从练习集得到的均匀文档长度。根据练习文档的相似性设置每一个初始阈值以达到最高过滤性能。
  
  (二)自适应性算法的结构
  自适应过滤是自适应过滤算法的一个非常重要的阶段。我们从练习阶段得到了初始轮廓和阈值。当过滤输进文档时,主题轮廓和阈值则依据各种不同信息,如:用户反馈、输进文档的向量等进行自适应更新。
  
  图2显示了适应性过滤的结构。当一个文档到达时,其与主题的相似性即被计算出。假如该相似性高于当前阈值,则这个文档被找回,用户的相关性判定也由此得出。假如该文档真正与主题相关,则其被以为是正实例,反之则是负实例。正实例和负实例的向量根据公式(4)被用于主题轮廓的修改。
  p'j=pi αpj(pos) βpj(neg)  (4)
  p'j是修改后的主题轮廓,pj修改前的主题轮廓,pj(cos)是更新阶段得到的正实例的向量,pj(neg)是更新阶段得到的负实例的向量;α和β分别是正向量和负向量的权重。
  
  (三)阈值优化算法
  笔者提出一个新的阈值优化算法。定义该算法使用下列符号:
  t:文档编号,可以看作是时问,由于文档是按照时间顺序处理的;
  n(f):被处理的文档的数目;
  nR(f):找回的相关文档;
  nN(f):找回的不相关文档;
  T(t):在t时刻的阈值;
  S(tk,tk 1t):在(tk,tk 1)时间段中被拒尽的文档的均匀相似性;
  P(tk tk 1):在(tk,tk 1)时间段中过滤的精确度,并且p(tk,tk 1)=nR(tk 1-nR(tk/n(tk ))-n(tk)  (5) 本文来自中国科教评价网
 假如我们凭直觉处理,精确度太低就应该进步阈值,很少文档被找回则降低阈值。我们使用S(tk,tk 1)和P(tk,tk 1)来决定是进步阈值抑或降低阈值。
  调整阈值的算法如下所示:
  IF p(tk,tk 1)≤EP(ttk 1) THEN
  T(tk 1)=T(tk) α(tk 1)(1-T(tk))
  ELSEIF S(ttk,tk 1)<T(tk)r THEN
  T(tk 1)=T(tk)Dt1 S(tk,tk 1)Dt2
  ELSE
  T(tk 1)=T(tk)Dt1 S(tk,tk 1)Dt2
  α(tk 1)是阈值进步系数,β(tk 1)是阈值降低系数,它们也可以被看作是关于nR(t)的函数。在试验中,我们采用nR(t)的线性函数,该函数如公式(6)、公式(7)所示:
  
  αo是初始进步系数,β是初始降低系数,参数u代表应该用于调整阈值、修改轮廓的正文档的最大数目。我们设置αo=0.02,u=0.1,(应该是βo吧)μ=300。从以上等式可以看出,随着时间推移,nR(tk)将逐渐增大,α(tk)和β(tk)将逐渐减小。这也反映出过滤将越来越好,调整步阶将越来越小这一趋势。
  参数r表示:假如s(tk 1,tk)低于T(tk 1)r,阈值应该由系数D1和D2来降低。在试验中,我们设置r=0.1,=0.8,=0.2。
上一篇:制约企业发展电子商务的因素分析 下一篇:没有了