计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

个性化电子商务系统中的自适应过滤算法探究(

2014-11-19 01:11
导读:计算机应用论文论文,个性化电子商务系统中的自适应过滤算法探究(在线阅读,教你怎么写,格式什么样,科教论文网提供各种参考范例: [摘要]电子商务的飞速发展在方便顾客的同时也带来了一个问题
[摘要]电子商务的飞速发展在方便顾客的同时也带来了一个问题:产品过多致使顾客不能有效选择其所需产品。为满足顾客的个性化电子商务需求,文章提出一个新的基于向量空间模型的自适应过滤算法。该算法首先采用特征向量和伪反馈并借助训练算法来选取初始过滤轮廓和闽值,然后运用用户反馈通过过滤算法对轮廓和阈值进行修正。该算法具备两个优点:一是能够进行自我学习来提高精确度;二是过滤过程无需大量的初始文本。将其用于电子商务并进行测试,测试结果证明它是有效的。
  [关键词]个性化电子商务;自适应过滤算法;闽值优化算法;精确度;特征选择
  
  
  电子商务伴随着互联网飞速发展,同时也为企业和顾客带来了一个新局面:企业发现竞争日益激烈,生存日益艰难;顾客发现产品日益增多,但信息处理负担日益加重,选择自己所需的产品日益困难。因此,亟需新的市场战略,如一对一的销售、客户关系管理等。学术界和实践者已强调了这一紧迫性。而个性化推荐,即为每个客户推荐一个产品清单供其选择,就是实施这些新战略的方案之一。
  目前已经有许多推荐技术,其中协同过滤技术是当前最为成功和广泛使用的个性化推荐技术。它被广泛应用于网页、电影、文章和产品的推荐,作用原理是先识别出具有相似产品需求的顾客群,然后为这一顾客群推荐产品。然而,尽管这些推荐技术业已成功,但仍暴露出一些广为人知的可能导致不良推荐的局限性,如算法的可扩展性、评价数据的稀疏性和初始资源推荐问题。
  鉴于此,笔者提出一个新的基于向量空间模型的自适应过滤算法。该算法改进了传统算法,并将自适应反馈研究机制引入智能控制中,因此具备两个优点:一是能够进行自我学习来提高精确度;二是过滤过程无需大量的初始文本。 (转载自http://zw.nseac.coM科教作文网)
  
  一、自适应过滤算法结构
  
  基于向量空间模型的自适应过滤算法分为两步:训练阶段和自适应过滤阶段。
  训练阶段的任务是获取初始过滤轮廓并设置初始阈值。
  自适应过滤阶段的主要任务是对轮廓和阈值进行适应性修改。因主题和文档均由向量空间模型展示,所以每个主题和文档都转化为特征向量。
  
  (一)训练阶段的结构
  
  图1显示的是训练阶段的结构。首先从正文档和伪正文档中提取出特征向量。伪正文档即训练集里的那些具有与正文档非常相似的主题却未能标识成正文档的文档。它们可以由多种方式获得,可以通过伪反馈获得,或者通过种类分级结构获得:一个主题的伪正文档之高级种类与训练集提供的高级种类相同。
  为得到特征向量,首先剔除禁用词,接着对剩余的词进行形态分析,然后根据公式(1)计算词语与主题之间的对数交互信息:
  logMI(wi,Tj)=log(p(wi/Tj/p(wi))   (1)
  上述公式中,wi是第i个词语,Tj是第j个主题。对数交互信息越高,wi和Tj相关性越高。p(wi/Tj)和p(wi)由最大可能性方法估计出。
  对于每个主题,选取那些对数交互信息高于3.0而且在有关文档中出现不止一次的词语。对数交互信息不仅被用作选择标准,而且被用作特征词的权重。 得到正文档和伪正文档的特征向量之后,将其合并到初始轮廓中。初始轮廓是正文档和伪正文档的特征向量之加权和。然后根据训练集里每个文档的相似性为每个主题设置初始阈值。轮廓与训练文档之间的相似性由如下余弦公式(2)计算出:
  pj是第j个主题的轮廓向量,di是第i个文档的向量,dik是di中第k个词语的权重,由下列公式(3)计算得出: (转载自http://zw.NSEAC.com科教作文网)
  
  dik=1 log(tfikavdlIdl)  (3)
  此公式中,如是第i个文档中第k个词语的条件频率,dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度,avdl是从训练集得到的平均文档长度。根据训练文档的相似性设置每一个初始阈值以达到最高过滤性能。
上一篇:制约企业发展电子商务的因素分析(1) 下一篇:没有了