基于组合分类器的信用卡欺诈识别研究(1)(2)
2015-02-06 01:26
导读:所谓组合分类器是指几个分类器通过某种策略组合在一起对某个事例进行分类。组合的策略可以是模型组合,可以是不同的算法组合,也可以通过对样本取
所谓组合分类器是指几个分类器通过某种策略组合在一起对某个事例进行分类。组合的策略可以是模型组合,可以是不同的算法组合,也可以通过对样本取样,变化事例空间,构造不同的分类器,然后按照一定的加权方法对分类器进行组合,得到最后的分类器。组合分类器的应用,克服了单一分类器的诸多缺点,如对样本的敏感性,难以提高分类精度等等,在字符识别[9]、文本分类[10]、面部表情识别[11]等领域已经获得了较好的应用效果。
AdaBoost[12]是Boosting算法的一种,其主要思想是给每一个训练样本分配一个权重,表明它被某弱分类器选入训练集的概率,初始时权重设为1/m,m为样本个数。用一个弱分类算法在训练集上进行训练,训练后对样本权重进行调整,训练失败的样本权重增大,训练成功的样本权重减少,使分类算法能在下一轮训练中集中力量对训练失败的样本进行学习。然后,在权重更新后的训练集上继续训练,不断调整样本权重,循环往复,从而得到一系列的弱分类器。这些弱分类器就构成组合分类器,组合分类器最终预测结果的产生采用了有权重的投票方式,而权重就是各个弱分类器的准确率。这种方法不要求单个分类器有高的识别率,但经过多分类器融合的组合分类器则具有了高的识别率。
AdaBoost算法过程如下:
在多数情况下,只要每个分类器都是弱分类器,即分类准确率超过50%,比随机猜想好,那么组合分类器的训练误差就能随着T的增大而变得任意小,同时,在T很大的情况下也很少会发生过拟合(Overfitting)现象。
4基于AdaBoost的信用卡欺诈识别模型
4.1建模思路
信用卡欺诈者的消费行为习惯通常与真实持卡人会具有较大的不同,而持卡人的账户数据和交易数据在很大程度上能反映和刻画消费习惯和模式,因此可以将账户资料和交易资料作为输入变量来建模。
(科教论文网 Lw.nsEAc.com编辑整理)
由于欺诈交易只是少数,因此样本集中存在着两类样本的不对称分布(SkewedDistribution)问题。首先要对样本进行处理,并进行必要的数据预处理过程,然后再进行模型的训练。
AdaBoost是通过弱分类器在样本集上的多次训练来得到组合分类器的,这里选择C4.5决策树算法作为其中的弱分类算法。为了比较AdaBoost算法与单分类器的分类效能,本文分别利用C4.5算法和C4.5 AdaBoost来建模,得到一个基于C4.5算法的单分类器和一个基于AdaBoost的组合分类器。
4.2实证过程
本文以国外某商业银行的信用卡真实交易数据为研究对象,从数据库中抽取679位信用卡持有人的21,858条交易记录构成样本集。其中非欺诈交易19948笔,欺诈交易1910笔,分别将其Fraud属性标记为0和1。仅根据交易的相关信息是很难准确判断是否为欺诈交易的,因为消费习惯和模式与持卡人的特征属性有较大的关联关系。因此本文将描述持卡人特征的一些属性也参与建模,这样每个样本就有了62个属性。再根据业务经验,去掉与欺诈无关或相关性极小的属性,最终确定35个相关属性作为模型输入。
从样本数量分布上看,两类样本存在着严重的不对称分布问题,如果直接在这样一个样本集上进行模型训练,会使模型偏向非欺诈交易,识别欺诈交易的能力变差。为此,这里采用减少多数样本(Under-sampling)的方法,即从非欺诈交易样本中随机选取与欺诈交易数量大致相当的部分样本,来与欺诈交易样本组成一个两类样本数量相当的样本集。同时,将这一样本集按照7:3的比例分成训练集和测试集,分别用作模型的训练和测试。
共2页: 1 [2] 下一页 论文出处(作者):
基于MultiGen的三维大面积地形场景可视化研究
证书撤销方法研究