摘要：软件组织内部智慧资产的有效组织和管理(3)

2013-06-07 01:23

导读：3知识分类算法3．1预处理计算机能够自动分类的前提是待分类文本已经被表示成可被计算的数据。向量空间模型(VSM)是使用较多且效果较好的表示方法之

　　3知识分类算法3．1预处理计算机能够自动分类的前提是待分类文本已经被表示成可被计算的数据。向量空间模型(VSM)是使用较多且效果较好的表示方法之--[51，在该模型中，一个文本d被看作是由一组正交向量组成的向量空间：
　　y(田={(^，Ⅵ)，．．．，(，％)}，其中(巧，M)表示一个特征^的二元组，w表示此特征在文本d中的权重。特征tl可以是字、词或者其组合，但目前普遍认为词作为特征项要优于字和词组。由于一个特征向量对应着高维空间中的一个点，因而上式又可以简化为：y(d)={wj，．．．，％)对于知识制品的表示，我们也采用VSM方法，但在其被表示成空间向量之前，还要进行一些预处理，如去掉一些低频词、去掉停llZii-](Stop word)、去掉一些标记信息(如网页标签)等。由于中文文本的特殊性，还要进行分词，我们采用北航软件所开发的中文分词系统BUAASEISEGt61，它在稳定性和新词识别能力上具有一定的优势。
　　特征的权重Ⅵ计算方法主要运用TF*IDF公式，目前存在多种TF*IDF公式，本文采用了一种比较普遍的TF*DF[71算法(2)：即力=砖蒜器。
　　3．2基于互信息的特征选择经过预处理后的知识制品，其特征向量的维数依然很高(动辄数十万)，需要在尽量不损失分类信息的情况下生成一个新的低维向量，这个过程称作降维。常用的降维方法有特征选择和特征抽取，由于特征选择的计算复杂性较低，因而被大量的采用。
　　常用的特征选择方法有：文档频率(DocumentFrequency)、互信息(Mutual Information)、Chi平方(f)，信息增益(1G：Information Gain)等。Yang等人对各种特征选择算法进行了广泛的研究，结果发现f和信息增益方法相较于其他方法，其特择效果最优用。在本文的研究中，我们采用信息增益方法来进行降维，它实际上反映的是特征在文本中出现与否能为确定当前文档所属类别做出的贡献值。其算法(3)具体描述如下：（科教范文网http://fw.nseac.com）
　　输入：文本的特征向量r(d)；分类体系c：
　　输出：降维后的特征向量r(d)；步骤：
　　1)按如下公式计算每个特征向量的信息增益值：
　　G(f)=一Σ：，P(c。)Ioge(cJ)+P(f)Σ：．￡(c，It)logP,(c,I，)+只(了)Σ：．P[T)logP,(c,li) (3)其中：只Q)表示一篇文本属于类别cj概率；eat)标识特征项t在一篇文本中出现的概率；e∽标识特征项t不在一篇文本中出现的概率；P(c。If)表示特征项t在属于类别白的文本中出现的概率；只(q I丁)表示特征项t在属于类别岛的文本中出现的概率。
　　2)将文本特征按照式(3)计算出的信息增益值由大到小排列，取其前K个特征向量构成最终的特征空间，这样就达到了降维的目的，其维数为K。
　　3．3基于k-NN的分类算法基于机器学习的分类算法目前已有数十种，而以Rocchio、KNN和SVM性能最为突出I习。Yang等人对这些算法进行了全面的比较，结果表明KNN和SVM算法无论是分类性能还是算法的健牡性、可扩展性都较其他算法有显着的优j判51。我们采用KNN算法来构建软件工程领域知识的分类器。
　　rA7N(K Nearest Neighbor)算法的基本思路是：在给定新的文本后，考虑在训练集中与该新文本距离最近(最相似)的K篇文本，根据这K篇文本所属的类别判定新文本所属的类别，具体的算法(4)描述如下：
　　输入：训练集出分类体系C；待分类的文本集d；输出：待分类文本的类别；步骤：
　　1)对待分类的文本进行预处理，并使用式(2)计算其权重，得到待分类文本的向量表示V(d7)；2)在训练文本集中选出与新文本最相似的K个文本，计算公式为：
　　Sim(d．，d』)=Σ既x％其中，K值的确定目前没有很好的方法，一般采用先定一个初始值，然后根据实验测试的结果调整K值，一般初始值定为几百到几千之问。3)在新文本的K个邻居中，依次计算每类的权重，计算公式如下：（转载自http://zw.nseac.coM科教作文网）
　　p(j，G)2艺Sim(i，4)y(4，c：) (5)af扣州其中，i为新文本的特征向量，Sire(,2，i)为相似度计算公式，与(4)式相同。而y窿，￡)为类别属性函数，即。如果鼋属于类G，那么函数值为l，否则为0。

上一篇：摘要：简述了我国建筑工程造价的发展过程，下一篇：没有了