计算机应用 | 古代文学 | 市场营销 | 生命科学 | 交通物流 | 财务管理 | 历史学 | 毕业 | 哲学 | 政治 | 财税 | 经济 | 金融 | 审计 | 法学 | 护理学 | 国际经济与贸易
计算机软件 | 新闻传播 | 电子商务 | 土木工程 | 临床医学 | 旅游管理 | 建筑学 | 文学 | 化学 | 数学 | 物理 | 地理 | 理工 | 生命 | 文化 | 企业管理 | 电子信息工程
计算机网络 | 语言文学 | 信息安全 | 工程力学 | 工商管理 | 经济管理 | 计算机 | 机电 | 材料 | 医学 | 药学 | 会计 | 硕士 | 法律 | MBA
现当代文学 | 英美文学 | 通讯工程 | 网络工程 | 行政管理 | 公共管理 | 自动化 | 艺术 | 音乐 | 舞蹈 | 美术 | 本科 | 教育 | 英语 |

一种改进的关联规则挖掘方法(1)(2)

2013-08-19 01:12
导读:(tidData)图1 存储结构 图1中nextL是一指针,用来链接簇中下一链表;pattern用来存储频繁i—项目集某一项目;newed用来标示项目集pattern域是否生成了新的频繁
(tidData)图1 存储结构 图1中nextL是一指针,用来链接簇中下一链表;pattern用来存储频繁i—项目集某一项目;newed用来标示项目集pattern域是否生成了新的频繁项目集,同时也作为最大频繁项目集判断条件,初始值为false,若由pattern域产生了新的频繁项目集,其值变为true,当新的频繁K 1项目集的链表族生成后,若某频繁k项目集对应newed域值仍然为false,则该频繁-k项目集链表对应的pattern域值为一最大频繁项目集;count是该项目集的支持计数;nextP用来链接表节点。对于tidDada,tid是支持项目集pattern的事务标识,保持字典递增有序,nextP用来链接下一个支持项目集pattern节点。 例:有如表1所示事务数据库,最小支持计数为3。 定义:最大频繁项目集——如果某一频繁项目集的所有超集都是非频繁项目集,则该频繁项目集称为最大频繁项目集。 根据定义知:当一个频繁i项目集不能据此生成频繁i+1项目集,该频繁项目集是一最大频繁项目集。 则其频繁1—项目集的链表簇构造如图2所示。图2 频繁1-项目集链表簇构造
性质:频繁项目集的所有子集都是频繁的。 ALT算法的原理在于先求取所有的最大频繁项目集,然后依次求取每一个最大频繁项目集的子集,从而得到频繁项目集。 ALT算法求最大频繁项目集如下: 输入:事务数据库(T),最小支持度(根据最小支持度和项目集的个数,可以得到最小支持计数); 输出:最大频繁项目集(Answer)。 ①计算最小支持计数,最小支持计数(Minsup)=最小支持度×事务数; ②生成频繁1—项目集L,及其对应的链表族; ③依次处理频繁K—项目集对应的链表,据此得到最大频繁项目集。 (1)初始化pvh,pvn为链表族表头结点扫描指针,pvh指向链表族第一条单链表,pvn指向pvh所指链表的下一条链表。 (2)while(pvn→next≠null)/*链表族中还有待处理链表时*/共2页: 1 [2] 下一页 论文出处(作者): (科教范文网 fw.nseac.com编辑发布)
关联规则的增量更新算法研究
一种快速数字AGC结构的分析与设计
上一篇:WinCE.Net平台下电力巡检仪数据同步研究与实现( 下一篇:没有了