计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

一种基于互信息的规则约简方法(1)

2014-12-10 01:46
导读:计算机应用论文论文,一种基于互信息的规则约简方法(1)在线阅读,教你怎么写,格式什么样,科教论文网提供各种参考范例:摘 要 粗糙集理论的主要应用是属性约简和规则提取,但由于应用粗糙集理论提
摘 要 粗糙集理论的主要应用是属性约简和规则提取,但由于应用粗糙集理论提取出的规则未必都是最佳规则,因此,本文提出一种基于互信息的规则约简方法。对确定性规则进行优化,挖掘出最简规则集,最后通过实例分析验证了该方法可行性和有效性。 关键词 粗糙集;信息熵;互信息1 引言 粗糙集理论[1]是由波兰学者Z. Pawlak于1982年提出的,是一种新的处理模糊和不确定性知识的数学工具。其核心思想是在保持分类能力不变的前提下,通过对知识的化简,导出问题的决策或分类规则。信息论由Shannon于1948年提出,信息熵是信息论的核心内容,信息熵[2]是事件不肯定性程度的度量,它能够从确切的数值量度出发去描述知识。由于应用粗糙集理论的上、下近似概念提取出的规则未必都是最佳规则,即规则中的属性值未必都是必要的,所以,可以通过应用信息熵知识给出决策表中约简属性的重要性度量,必然能删除不必要的属性及属性值,合并相同规则,得到最简规则集。 本文综合应用了粗糙集理论和信息熵理论的优点,首先,应用粗糙集方法,求出属性约简、提取出确定性规则和可能性规则,然后,从文献[3]定义的信息熵出发,对决策表中属性的重要性进行了有效地度量,即通过计算约简中的每个属性的互信息,有效地简化得到的规则知识。因此,本文有机结合了粗糙集与信息熵的优点,提出一种基于信息熵理论的规则约简方法。该方法可以挖掘出满足给定精确度的一组条件属性最少、规则数最少的最简决策规则集,使得挖掘出来的规则更简单、实用。2 基本概念[3,4] 定义1 设K=(U,A,V,f)是一个信息系统,其中U是一个有限的非空集合,称为论域。 A=C∪D是属性的非空有限集合,C为条件属性,D为决策属性,C∩D=Φ,Va是属性a∈A的值域,f:U×A→V是一个信息函数,它为每个对象赋予一个信息值。通常一个信息系统对应一个信息表,其中行对应论域中的对象,列对应论域中的属性。表内容就是对象的属性值。 定义2 设U为一个有限的非空论域,R为U上的等价关系。等价关系R 把集合U划分为多个互不相交的子集,每一个子集称为一个等价类,用[x]R表示,[x]R ={y∈U│xRy},其中x∈U,x、y称为关于R 的等价关系,论域U上的所有等价类的集合用U/ R来表示。 定义3 对于任意的XU,X的R下近似集和R上近似集定义为: R(X)=∪{Y∈U/R│YX }, (X)= ∪{Y∈U/R│Y∩X≠} bnR(X)= (X)- R(X) 称为边界;集合的不确定性是由于边界域的存在,集合的边界域越大,精确性越低,粗糙度越大。 定义4 令R为一族等价关系,r∈R,如果 ind(R)=ind (R-{r}),则称r为R中不必要的;否则r为R中必要的[2]。P中所有必要关系组成的集合称为P的核,记为core( P) 。核与约简有如下关系: core ( P) = ∩ red ( P),其中red ( P) 表示P 的所有约简。 定义5 信息熵:知识X 的信息熵定义为: 定义6 条件熵:知识属性集合Y (U| IND (Y) ={Y1Y2,…,Ym}) 相对于知识(属性集合) U/ind(X)={ X1X2,…,Xn}的条件熵:H(Y | X) 定义为: 定义7 互信息:设T =
    上一篇:论新型网络营销方式:交叉网络营销(1) 下一篇:没有了