一种新的聚类判别分析框架及其实证研究(1)(2)
2014-07-08 01:31
导读:从距离判别法可以看到判别规则是一个线性函数。由于线性判别函数使用简便,希望能在更一般的情况下建立一种线性判别函数。Fisher判别法由Fisher在19
从距离判别法可以看到判别规则是一个线性函数。由于线性判别函数使用简便,希望能在更一般的情况下建立一种线性判别函数。Fisher判别法由Fisher在1936年提出,是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。该判别方法对总体的分布不作任何要求。
从两个总体中抽取具有玴个指标的样本观测数据,借助于方差分析的思想构造一个线性判别函数:
距离判别法是基于距离计算的,用构造线性判别函数方法进行样本判别的Fisher判别法也存在着类似基于距离计算的聚类分析方法当中的不足:
a)将总体和样本的多个指标赋予了同等的判别能力,而这与现实是不相符合的,即不同的指标在判别样本的归属时具有不同的判别能力。
b)没有对用于建立判别分析模型的总体指标进行筛选。这在两总体的某指标没有显著差异时进行判别分析的意义不大,误判的概率很大[3,4]。
c)距离的计算不可避免地会带来量纲上的问题[5]。
d)距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。Bayes判别法正是为了解决这两个问题提出的判别分析方法,其判别效果更加理想,应用也更广泛。本文将在实证研究部分用Bayes 判别方法对涉及的问题进行分析,作为与新算法计算效果的一个对比。
在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。用于建立判别准则的指标的选择是判别分析中的一个重要问题。如果在某个判别问题中,将最重要的指标忽略了,相应的判别函数的效果一定不好;另一方面,如果引入了一些判别能力不强的指标,不仅会增加计算量,还会严重地影响判别的效果。但是在许多问题中,事先并不知道哪些是主要指标。因此筛选变量的问题就非常重要,从而产生了逐步判别法。逐步判别法与逐步回归法的基本思想类似,都是采用有进有出的算法,即逐步引入变量,每引入一个重要的变量进入判别式,同时也考虑较早引入判别式的某些变量。如果其判别能力随新引入的变量而变为不显著了(如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,而剩下的变量也没有重要的变量可以引入的判别式时,逐步筛选结束。这个筛选过程实质就是作假设检验。通过检验找出显著性变量,剔除不显著的变量,得到用于建立判别式的变量组合后,可用各种方法建立判别函数和判别准则。
(转载自http://zw.nseac.coM科教作文网)
实际上,以上提到的不论是距离判别法、Fisher判别法,还是Bayes判别法、逐步判别法,其出发点都是把给定的分组作为构造判别函数的依据和出发点,其最终结果都是构造一个线性判别函数。它们仅仅是判别函数构造思想上的差异。距离判别法基于距离判别思想;Fisher 判别法基于方差分析思想,判别式的形式为距离判别式的一般形式;Bayes判别法基于条件概率思想;逐步判别法基于假设检验思想确定用于判别的指标,但其判别式的确定仍由其他判别分析方法确定。
以上各种判别分析方法中,仅有逐步判别法的基本思想中考虑到了不同指标具有不同的判定能力,但是其思想的具体体现仅在于确定用于构建判别式的指标,并没有给出各个指标具体的判别能力大小的差异。实际上不仅不同指标的判别能力存在差异,而且在筛选掉部分指标的同时也会丢失该部分指标所包含的判别信息。
对于一组给定的样本,对其进行聚类分析时,可以应用不同的聚类方法对不同的指标组合进行聚类分析,同时也将得到多组不同的聚类结果。对于某些指标组合下的聚类结果,结合实际可能会得到比较符合实际意义的解释,对此类聚类结果可以为其构造特定的判别模型,用于新样本类别的判别。因此,聚类分析的实质是对不同的指标组合下的样本分类组合的可能性进行搜索,找出符合特定聚类定义的组合。其作用是寻找满足特定需求的,或者说可以给出较好解释的聚类结果。判别分析的实质是根据历史信息或者聚类的结果建立判别标准,用于对参加聚类的样本和新的样本的判别。聚类分析和判别分析之间存在着紧密的联系。聚类分析的结果作为进行判别分析的基础;而判别分析不仅可以用于对新样本进行判别,而且另一个重要的作用在于校验聚类分析结果的正确性,即回判。