计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

基于相对熵的决策表连续属性离散化算法(1)

2015-04-16 01:00
导读:计算机应用论文论文,基于相对熵的决策表连续属性离散化算法(1)在线阅读,教你怎么写,格式什么样,科教论文网提供各种参考范例:摘要 该文提出了一种新的决策表连续属性离散化算法.首先使用相对熵来度量条
摘要 该文提出了一种新的决策表连续属性离散化算法.首先使用相对熵来度量条件属性的重要性,并据此对条件属性按照属性重要性从小到大排序,然后按排序后的顺序,考察每个条件属性的所有断点,将冗余的断点去掉,从而将条件属性离散化. 该算法易于理解,计算简单, 算法的时间复杂性为O(3kn2)。关键词 相对熵;互信息;连续属性;离散化;决策表1 引言 波兰科学家Pawlak提出的粗糙集(Rough set)理论[1,2]是一种新型的处理模糊和不确定知识的数学工具,目前已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了较为成功的应用。 在运用粗糙集理论处理决策表时,要求决策表中的值用离散数据表示.如果某些条件属性或决策属性的值域为连续值(如浮点数),则在处理前必须进行离散化处理,而且即使对于离散数据,有时也需要通过将离散值进行合并(抽象)得到更高抽象层次的离散值[2]。该文形式化地描述了决策表的离散化问题,利用相对熵定义了属性的重要性度量,提出了基于相对熵的决策表离散化算法,并分析了该算法的时间复杂度,最后用例子说明该算法的离散化过程。2 基本概念 应用粗糙集理论实现知识获取和数据分析通常是对决策表进行处理,为此首先给出决策表的定义. 定义1. 一个决策表是一个由四元组T=(U,R,V,f)构成的知识表达系统,其中U是对象的集合,也称为论域.R=C∪D是属性的集合,子集C和D分别被称为条件属性集和决策属性集. V = 是属性的取值范围构成的集合,其中Vr是属性r的值域.f:U×R→V是信息函数,它指定U中每一个对象各个属性的取值.D≠Φ. 在本文讨论中假设决策属性值为离散值,连续属性变量仅出现在条件属性中,不失一般性,以下仅考虑单个决策属性的决策表。2.1离散化问题的描述 设T=(U,R,V,f)是一个决策表,其中={x1,x2,…,xn}为论域,R=C∪{d}, C ={C1 , C2,…,Ck} 为条件属性集合|C|=k,{d}为决策属性,设决策种类的个数为r(d)。属性a的值域Va =[l a,ra]上的一个断点可记为(a,c) ,其中aR,c为实数值。在Va=[la ,ra]上的任意一个断点集合:Da ={(a,c1a),(a,c2a),…,(a ,ckaa)}定义了Va上的一个分类Pa Pa ={[c0a,c1a)[c1a,c2a)[ckaa,cka 1a]}la = c0a