关联规则挖掘技术在人寿保险行业中的应用(1)(2)
2015-11-16 01:47
导读:在交易数据集 D 中具有置信度 c 。这是条件概率P 。即Support P( )=P ( ) ,Confidence P ( )=p( )。 满足最小支持度阈值和最小置信度阈值的关联规则就
在交易数据集
D中具有置信度
c。这是条件概率P

。即Support P(

)=P (

) ,Confidence P (

)=p(

)。 满足最小支持度阈值和最小置信度阈值的关联规则就称为强规则。这两个阈值均在0%到100%之间。挖掘关联规则主要包含以下二个步骤[2]: (1)发现所有的频繁项集,根据定义,这些项集的支持度至少应等于(预先设置的)最小支持度阈值; (2)根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小支持度阈值和最小置信度阈值。3 关联规则挖掘技术在人寿保险行业中的应用 人寿保险行业在日常的经营过程中,经常会遇到这样一些问题:如何能更好的理解客户,挽留有价值的投保人,对不同行业的人、不同年龄段的人、处于不同社会阶层的人的保险金额度该如何确定。这些问题都是影响公司经济运营的重要因素。为了更好的掌握投保人的特点及合理的制定保险金额度,可以利用关联规则挖掘来发现投保人与索赔的关系,分析具有什么特征的投保人曾经向保险公司索赔过。3.1 关联规则挖掘的基础数据 为了研究投保人与索赔的关系,我们从某城市一家人寿保险公司的历史保单数据库中提取出相关数据,把其整合到关系表中进行关联规则挖掘。下面的表1为整合之后的信息。3.2 基于概化的数据预处理 为了更好的进行关联规则挖掘,要对表1中的基础信息进行基于概化的数据预处理,具体的概化处理方法为: ① 用符号A描述年龄,把年龄进行分段概化为:A1(