计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

一种新的聚类判别分析框架及其实证研究(1)(3)

2014-07-08 01:31
导读:基于以上的分析结论,传统的对数据的聚类判别分析流程一般是先有聚类分析,然后在其之上的判别分析。本文将借鉴经典聚类分析和判别分析中的部分思

  基于以上的分析结论,传统的对数据的聚类判别分析流程一般是先有聚类分析,然后在其之上的判别分析。本文将借鉴经典聚类分析和判别分析中的部分思想,从聚类分析和判别分析的实质出发,逐步构建出一类有异于传统分析思路的样本聚类判别分析算法,并尝试在新算法中解决经典聚类判别分析方法中存在的部分问题。
  
  1动态聚类判别分析算法的设计和实现
  
  1.1新的聚类判别分析框架
  对于一组给定的需要进行聚类分析和判别分析的样本集合,新的聚类判别分析框架基于以下基本事实:
  a)对于给定的样本序列,有有限种分组方案。
  b)用传统聚类分析方法得出的结果并不总能遍历以上所有的分组可能。不仅因为其中部分分组在任何指标组合下都不合理,还因为传统聚类分析方法得出的结果本身就有限。在指定指标组合、指定样本排列顺序的情况下一种聚类方法仅能给出一个聚类结果。
  c)对于用聚类方法得不出的分组方案,存在部分用判别分析进行判别回判率为百分之百的分组方案。
  d)对于既定的分组,不同指标在区分该分组的能力上存在差异。不同组的某些指标差异明显,有些并没有明显差异。
  新的聚类判别分析框架的设计基于以下基本假设:对于任意一种分组方案,如果判别分析的回判正确率足够高,那分组就是合理的和可以接受的。因此,新的聚类判别分析框架设计的基本思想是聚类分析建立在判别分析的基础之上。据此设计的新算法中并不包括具体的聚类分析算法,仅仅包括判别分析算法。
  本文中应用的判别分析算法基于文献[6]提出的基于样本指标值频度计算的判别分析算法。该两总体判别分析算法的思想与逐步判别法的思想有一定的相似之处。不同之处在于其核心思想不是筛选变量,而是筛选指标值,是逐步筛选出具有显著判别能力的指标值;不是根据用具有显著判别能力的变量建立判别式,而是用筛选出的具有显著判别能力的指标值建立判别模型;其判别模型不是线性判别式,而是一个复杂的判定模型系统;得出的结果不是某样本的判定结果,而是某样本属于某总体的概率。该算法筛选指标值的基本思想为:对于同一指标而言,假设两组中所有样本的该指标值为一维空间上的点。如果两组内距离最近的两点距离小于或者等于这两点中任意一点到该点所在组的其他任意一点的距离,则这两点根本就不具有判别能力,应该剔除。为提高该算法的计算速度,进行了如下两点优化,在程序实际运行中取得了良好效果:
(转载自http://www.NSEAC.com中国科教评价网)

  a)对某指标进行计算时应用冒泡算法对所有指标值进行排序。该数据预处理大大提高了指标值的筛选速度。
  b)因为对样本的判别问题是通过计算该样本的各个指标值上的判别概率得到的,从对数据库表的访问效率出发,进行判别分析时不是依次对每一个样本进行判别,而是按照指标的顺序依次计算所有样本的某指标值在该指标下的判别概率,并且若某指标的权重为零时不需要计算任何样本在该指标下的判别概率,最后对每一个样本进行判别。
  本文依据以上提出的聚类判别分析框架,以改进的两总体判别分析算法为基础,提出了一种动态的聚类判别分析算法的设计,并在实现算法的基础上进行了相应的实证研究。
  1.2两总体动态聚类分析算法的设计和实现
  两总体动态聚类分析算法的设计基于两总体判别分析算法。其基本思想在于从某初始判别状态出发,不断修正判别分析中错判的样本分组,直到所有样本已经判别,并且回判率为100%或出现错判循环为止。
  根据样本初始判别状态的情况,这里把动态聚类分为有指导的动态聚类过程和无指导的动态聚类过程。有指导的动态聚类过程是指在进行聚类分析之前根据实际经验对所有或者部分样本进行组别的指派,这有助于加快动态聚类的过程,并产生期望的聚类结果;无指导的动态聚类过程是指在进行聚类分析之前不进行任何初始判别状态的设置。其中有指导的动态聚类与无指导的动态聚类的区别在于,无指导的动态聚类可能导致聚类过程中判别次数的增加,这在进行大样本聚类时,时间开销将成倍增加;另一个可能产生的结果是无指导的聚类过程会产生与预期不同的分类结果,即聚类的可能结果更多,可用于试探性分析。一般有指导的聚类分析过程可以很快得出与预期相符合的聚类结果。共2页: 1 [2] 下一页 论文出处(作者):
上一篇:电子商务 下一篇:没有了