一种文本分类数据挖掘的技术(1)(2)
2014-10-11 01:31
导读:2.2 特征表示与特征提取 特征表示是指以一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本的
2.2 特征表示与特征提取 特征表示是指以一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本的处理,这是一个非结构化向结构化转化的处理步骤。特征表示的构造过程就是挖掘模型的构造过程,特征表示模型有多种,常用的有布尔逻辑型、概率型、向量空间型等。我们采用了应用较多的向量空间模型(Vector Space Model ,VSM )。在VSM中,我们将文本文档视为由一组词条(

)构成,每一词条都赋以一定的权值 ,从而每一篇文档被映射为由一组词条矢量形成的向量空间中的一个向量。文本的匹配问题便可转化为向量空间中的向量匹配问题处理。共2页: 1 [2] 下一页 论文出处(作者):
多源数据窗口的数据修改
基于“三个模型”思想的信息系统建模