个性化推荐服务中用户兴趣模型研究(1)
2015-06-15 01:06
导读:计算机应用论文论文,个性化推荐服务中用户兴趣模型研究(1)在线阅读,教你怎么写,格式什么样,科教论文网提供各种参考范例:
摘 要 本文提出了一种利用用户浏览页面集的内容信息和浏览行
摘 要 本文提出了一种利用用户浏览页面集的内容信息和浏览行为信息,隐式地创建用户兴趣描述文件的方法。通过对用户浏览的web页面进行兴趣度分析,并与对用户浏览网页时的浏览行为分析相合,得到了用特征矩阵表示的用户兴趣模型。并采用层次聚类算法和 k-means 聚类算法相结合的综合聚类算法进行聚类,得到用兴趣分类树表示的用户兴趣模型。由于采用的是隐式创建用户描述文件的方法,减少了因用户参于而带来的系统噪声,保证了所创建的用户兴趣模型的准确性。 关键词 用户兴趣模型;浏览内容;浏览行为;兴趣分类树 人们正在寻求一种将用户感兴趣的信息主动推荐给用户,对不同的用户提供不同的服务策略和服务内容的服务模式,即个性化服务的信息方式 。 用户兴趣模型是个性化服务系统的关键部分,用户兴趣描述的准确与否直接决定着个性化推荐服务的质量好坏。本文提出了一种利用用户浏览页面集的内容信息和浏览行为信息,隐式地创建用户兴趣描述文件的方法。该方法以用户浏览Web页面的内容信息和行为信息作为数据源,采用Web挖掘方法分析得到较准确的用户兴趣描述,减少了由于用户参与而带来的系统噪声,保证了所创建的用户兴趣模型的准确性。1 基于web浏览内容和行为分析相结合的用户兴趣模型 整个用户兴趣模型的创建过程包括Web浏览内容分析和Web浏览行为分析两部分,流程图如图1所示。

图1 用户兴趣模型创建流程图 Web浏览内容分析,就是采用Web聚类分析方法对用户已浏览的Web页面集进行内容聚类,得到用户感兴趣的页面集;Web浏览行为分析是对用户浏览页面时的行为信息进行分析,得到用户对单一页面的兴趣浓度。将二者相结合,就得到了用户感兴趣的主题类别及对每类主题的兴趣度,即用兴趣分类树表示的用户兴趣模型2 基于web浏览内容的用户兴趣分析 本文中用户兴趣模型描述所基于的web浏览内容是指用户浏览页面的内容信息,它被用于基于内容的聚类分析。这些页面的内容信息主要来源于 web 服务器端,首先根据用户的浏览日志记录,得到单一用户的浏览历史页面 URL,然后从数据库服务器中取出这些 URL 对应的 web 页面,作为对浏览内容兴趣描述的数据源。2.1 对浏览网页信息的数据预处理 与数据库中的结构化数据相比,web文档具有有限的结构,即使具有一些结构,也是着重于格式而非文档内容。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。Web 文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理,抽取代表其特征的元数据,作为文档的中间表示形式。 近年来应用较多且效果较好的特征表示法是向量空间模型(Vector Space ModelVSM) 法。在VSM 中,将文本文档看成由一组词条

构成,对于每一词条

,根据其在文章中的重要程度赋予一定的权重

。因此,所有用于挖掘的页面文档都可以用词条特征矢量

表示。要将文本表示为向量空间中的一个向量,就先要将文本分词,由这些特征词作为向量的维数来表示文本,最初的向量表示完全是0、l形式,即,如果文本中出现了该词,那么文本向量的该维为l,否则为0。这类方法无法体现这个词在文本中的作用程度,所以0、l逐渐被更精确的词频代替,词频分为绝对词频和相对词频。绝对词频,即使用词在文本中的出现频率表示文本;相对词频为规一化的词频,其计算方法主要运用TF-IDF公式,目前存在多种TF-IDF公式,我们可采用一种比较普遍的TF-lDF 公式:

我们把用于挖掘的页面文档作为一个文档集合。这样对于文档集合 D =