谈数据挖掘在中医学术流派研究中的应用(2)
2015-03-16 01:36
导读:1.2.4 中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定
1.2.4 中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定程度上可将它们以可理解的规则或模式表达出来,从而大大丰富专家系统的知识库。
1.2.5 中医药文献研究数据挖掘技术应用于文献研究可以提高文献研究的水平,提高文献利用的效率,进而能提高中医药科研工作的效率。
2 数据挖掘在中医学术流派研究中的应用
以“中医皮肤科赵炳南学术流派及其传承研究”中的银屑病数据挖掘为例,简要说明挖掘的步骤和挖掘的工具及算法。
2.1 实施数据挖掘的步骤
根据全球首个数据挖掘行业通用的模型标准(CRISP-DM),银屑病数据挖掘过程可分成6个阶段。
2.1.1 理解问题明确和细化研究目标。
2.1.2 理解数据熟悉所采集的有关银屑病数据的类型和存在形式,在此基础上初步进行数据质量鉴定,并建立数据库。
2.1.3 准备数据有关银屑病的数据中存在着大量不完整的、冗余的和不一致的数据。在进行数据挖掘时,首先要对其进行处理。处理过程包括数据抽取、清洗、转换和加载。
2.1.4 建立模型针对研究目标,利用已知的数据和知识建立分析模型,并将该模型有效地应用到未知的数据或相似情况中测试并修正模型,如此反复进行以得到最优模型。
2.1.5 方案评估在模型最后付诸实施以前,彻底地对模型进行评估,再回顾构造该模型的步骤,以确定该模型真正能够达到预定的挖掘目标。
2.1.6 方案实施基于以上5方面的工作,采用相应的数据挖掘工具和算法进行多次反复、多次调整、不断修订完善的数据挖掘。
2.2 数据挖掘的工具和算法
2.2.1 银屑病中医辨证规范研究在银屑病数据库中,存在着许多不确定、不完整、不精确的辨证相关信息,首先利用粗糙集对其进行约简,剔除模糊和歧义信息,保留与挖掘有关的重要症状属性。在此基础上使用关联规则方法挖掘证的分布,证的构成比,从而得到静态关联度。采用FP-growth或加权的Apriori算法找出频繁项目集,确定关联规则。在关联分析的基础上进行相似聚类,通过给定阈值,发现症状的构成以及症状的贡献率,得到症状所属证的聚类。通过遗传算法搜索和K-means局部优化相结合,按照最近基因匹配的交叉算子,在交叉过程中不断产生新个体,保证群体的多样性,减少了K-means算法的早熟现象,解决全局最优的问题。K-means局部聚类可以发现特异症状,利用孤立点算法对其进行特殊处理。所有症状聚类后,会得到N个聚类。因为数据挖掘的结果不带有主观因素,所以这些聚类需要中医皮科专家根据临床实际重新命名。在证候分类的基础上,利用时间序列模式挖掘方法,分析病程中各证基本演变趋势。
(科教范文网 fw.nseac.com编辑发布)
2.2.2 银屑病中西医病、证、症及客观检查指标的相关性研究在银屑病数据库中,进行西