数据挖掘技术在信用卡业务中的应用及实例分析

关键词：数据挖掘技术应用实例、数据挖掘应用实例、数据挖掘的应用实例

信用卡业务具有透支笔数巨大、单笔金额小的特点，这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展，实现全面的绩效管理。我国自1985年发行第一张信用卡以来，信用卡业务得到了长足的发展，积累了巨量的数据，数据挖掘在信用卡业务中的重要性日益显现。

一、数据挖掘技术在信用卡业务中的应用

数据挖掘技术在信用卡业务中的应用主要有分析型客户关系管理、风险管理和运营管理。

1.分析型CRM

分析型CRM应用包括市场细分、客户获取、交叉销售和客户流失。信用卡分析人员搜集和处理大量数据，对这些数据进行分析，发现其数据模式及特征，分析某个客户群体的特性、消费习惯、消费倾向和消费需求，进而推断出相应消费群体下一步的消费行为，然后以此为基础，对所识别出来的消费群体进行特定产品的主动营销。这与传统的不区分消费者对象特征的大规模营销手段相比，大大节省了营销成本，提高了营销效果，从而能为银行带来更多的利润。对客户采用何种营销方式是根据响应模型预测得出的客户购买概率做出的，对响应概率高的客户采用更为主动、人性化的营销方式，如电话营销、上门营销；对响应概率较低的客户可选用成本较低的电子邮件和信件营销方式。除获取新客户外，维护已有优质客户的忠诚度也很重要，因为留住一个原有客户的成本要远远低于开发一个新客户的成本。在客户关系管理中，通过数据挖掘技术，找到流失客户的特征，并发现其流失规律，就可以在那些具有相似特征的持卡人还未流失之前，对其进行有针对性的弥补，使得优质客户能为银行持续创造价值。

2.风险管理

数据挖掘在信用卡业务中的另一个重要应用就是风险管理。在风险管理中运用数据挖掘技术可建立各类信用评分模型。模型类型主要有三种：申请信用卡评分卡、行为信用评分卡和催收信用评分卡，分别为信用卡业务提供事前、事中、和事后的信用风险控制。

申请评分模型专门用于对新申请客户的信用评估，它应用于信用卡征信审核阶段，通过申请人填写的有关个人信息，即可有效、快速地辨别和划分客户质量，决定是否审批通过并对审批通过的申请人核定初始信用额度，帮助发卡行从源头上控制风险。申请评分模型不依赖于人们的主观判断或经验，有利于发卡行推行统一规范的授信政策。行为评分模型是针对已有持卡人，通过对持卡客户的行为进行监控和预测，从而评估持卡客户的信用风险，并根据模型结果，智能化地决定是否调整客户信用额度，在授权时决定是否授权通过，到期换卡时是否进行续卡操作，对可能出现的使其提前进行预警。催收评分模型是申请评分模型和行为评分模型的补充，是在持卡人产生了逾期或坏账的情况下建立的。催收评分卡被用于预测和评估对某一笔坏账所采取措施的有效性，诸如客户对警告信件反应的可能性。这样，发卡行就可以根据模型的预测，对不同程度的逾期客户采取相应措施进行处理。以上三种评分模型在建立时，所利用的数据主要是人口统计学数据和行为数据。人口统计学数据包括年龄、性别、婚姻状况、教育背景、家庭成员特点、住房情况、职业、职称、收入状况等。行为数据包括持卡人在过去使用信用卡的表现信息，如使用频率、金额、还款情况等。由此可见，数据挖掘技术的使用，可以使银行有效地建立起事前、事中到事后的信用风险控制体系。

3.运营管理

虽然数据挖掘在信用卡运营管理领域的应用不是最重要的，但它已为国外多家发卡公司在提高生产效率、优化流程、预测资金和服务需求、提供服务次序等问题的分析上取得了较大成绩。

二、常用的数据挖掘方法

上述数据挖掘技术在信用卡领域的应用中，有很多工具可用于开发预测和描述模型。有些用统计方法，如线性回归和逻辑回归；有些有非统计或混合方法，如神经网络、遗传算法、决策树及回归树。这里仅讨论几种常见的典型方法。

1.线性回归

简单线性回归分析是量化两个连续变量之间关系的一种统计技术。这两个变量分别是因变量(预测变量)。使用这一方法，可以发现一条穿过数据的线，线上的点使对应数据点的方差最小。为市场营销、风险和客户关系管理建立模型时，通常有多个自变量，用多个独立自变量来预测一个连续变量称为多元线性回归，用线性回归方法建立的模型通常具有鲁棒性。

2.逻辑回归

逻辑回归是使用最广泛的建模技术，与线性回归很相似。两者的主要区别在于逻辑回归的因变量(想预测变量)不是连续的，而是离散的或者类型变量。如申请评分模型可运用逻辑回归方法，选取关键变量确定回归系数。以申请者的关键变量x1,x2,…xm为自变量，以y=[1 申请者是坏客户；0 申请者是好客户，为因变量，则对于二分类因变量，一般假设客户变坏的概率为 p(y=1)=eβ0+β1×1+…+βmxm/1+eβ0+β1×1+…+βmxm式中，β0，β1…，βm是常数，即1n(p/1-p)=β0+β1×1+…+βmxm

3.神经网络

神经网络处理和回归处理大不相同，它不依照任何概率分布，而是模仿人脑功能，可以认为它是从每一次经验中提取并学习信息。神经网络系统由一系列类似于人脑神经元一样的节点组成，这些节点通过网络彼此互连。如果有数据输入，它们便可以进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个节点组成，完成大部分网络工作。输出层输出数据分析的执行结果。

4.遗传算法

与神经元网络类似，遗传算法也不遵循任何概率分布，是源自“适者生存”的进化过程。它首先将问题的可能解按某种形式进行编码，编码后的解称为染色体。随机选取n个染色体作为初始种群，再根据预定的评价函数对每个染色体计算适应值，性能较好的染色体有较高的适应值。选择适应值较高的染色体进行复制，并通过遗传算子产生一群新的更适应环境的染色体，形成新的种群，直至最后收敛到一个最适应环境的个体，得到问题的最优化解。

5.决策树

决策树的目标是逐步将数据分类到不同的组或分支中，在因变量的值上建立最强划分。由于分类规则比较直观，所以易于理解。图1为客户响应的决策树，从中很容易识别出响应率最高的组。

三、实例分析

以下以逻辑回归方法建立信用卡申请评分模型为例，说明数据挖掘技术在信用卡业务中的应用。申请评分模型设计可分为7个基本步骤。

1.定义好客户和坏客户的标准

好客户和坏客户的标准根据适合管理的需要定义。按照国外的经验，建立一个预测客户好坏的风险模型所需的好、坏样本至少各要有1000个左右。为了规避风险，同时考虑到信用卡市场初期，银行的效益来源主要是销售商的佣金、信用卡利息、手续费收入和资金的运作利差。因此，一般银行把降低客户的逾期率作为一个主要的管理目标。比如，将坏客户定义为出现过逾期60天以上的客户；将坏客户定义为出现过逾期60天以上的客户；将好客户定义为没有30天以上逾期且当前没有逾期的客户。

一般来讲，在同一样本空间内，好客户的数量要远远大于坏客户的数量。为了保证模型具有较高的识别坏客户的能力，取好、坏客户样本数比率为1：1。

2.确定样本空间

样本空间的确定要考虑样本是否具有代表性。一个客户是好客户，表明持卡人在一段观察期内用卡表现良好；而一个客户只要出现过“坏”的记录，就把他认定为坏客户。所以，一般好客户的观察期要比坏客户长一些、好、坏客户可以选择在不同的时间段，即不同的样本空间内。比如，好客户的样本空间为2003年11月-2003年12月的申请人，坏客户的样本空间为2003年11月-2004年5月的申请人，这样既能保证好客户的表现期较长，又能保证有足够数量的坏客户样本。当然，抽样的好、坏客户都应具有代表性。

3.数据来源

在美国，有统一的信用局对个人信用进行评分，通常被称为“FICO评分”。美国的银行、信用卡公司和金融机构在对客户进行信用风险分析时，可以利用信用局对个人的数据报告。在我国，由于征信系统还不完善，建模数据主要来自申请表。随着我国全国性征信系统的逐步完善，未来建模的一部分数据可以从征信机构收集到。

4.数据整理大量取样的数据要真正最后进入模型，必须经过数据整理。在数据处理时应注意检查数据的逻辑性、区分“数据缺失”和“0”、根据逻辑推断某些值、寻找反常数据、评估是否真实。可以通过求最小值、最大值和平均值的方法，初步验证抽样数据是否随机、是否具有代表性。

5.变量选择

变量选择要同时具有数学统计的正确性和信用卡实际业务的解释力。Logistic回归方法是尽可能准确找到能够预测因变量的自变量，并给予各自变量一定权重。若自变量数量太少，拟合的效果不好，不能很好地预测因变量的情况；若自变量太多，会形成过分拟合，预测因变量的效果同样不好。所以应减少一些自变量，如用虚拟变量表示不能量化的变量、用单变量和决策树分析筛选变量。与因变量相关性差不多的自变量可以归为一类，如地区对客户变坏概率的影响，假设广东和福建两省对坏客户的相关性分别为-0.381和-0.380，可将这两个地区归为一类，另外，可以根据申请表上的信息构造一些自变量，比如结合申请表上“婚姻状况”和“抚养子女”，根据经验和常识结合这两个字段，构造新变量“已婚有子女”，进入模型分析这个变量是不真正具有统计预测性。

6.模型建立

借助SAS9软件，用逐步回归法对变量进行筛选。这里设计了一种算法，分为6个步骤。

步骤1：求得多变量相关矩阵(若是虚拟变量，则＞0.5属于比较相关；若是一般变量，则＞0.7-0.8属于比较相关)。

步骤2：旋转主成分分析(一般变量要求＞0.8属于比较相关；虚拟变量要求＞0.6-0.7属于比较相关)。

步骤3：在第一主成分和第二主成分分别找出15个变量，共30个变量。

步骤4：计算所有30个变量对好/坏的相关性，找出相关性大的变量加入步骤3得出的变量。

步骤5：计算VIF。若VIF数值比较大，查看步骤1中的相关矩阵，并分别分析这两个变量对模型的作用，剔除相关性较小的一个。

步骤6：循环步骤4和步骤5，直到找到所有变量，且达到多变量相关矩阵相关性很而单个变量对模型贡献作用大。

7.模型验证

在收集数据时，把所有整理好的数据分为用于建立模型的建模样本和用于模型验证的对照样本。对照样本用于对模型总体预测性、稳定性进行验证。申请评分模型的模型检验指标包括K-S值、ROC、AR等指标。虽然受到数据不干净等客观因素的影响，本例申请评分模型的K-S值已经超过0.4，达到了可以使用的水平。

四、数据挖掘在国内信用卡市场的发展前景

在国外，信用卡业务信息化程度较高，数据库中保留了大量的数量资源，运用数据技术建立的各类模型在信用卡业务中的实施非常成功。目前国内信用卡发卡银行首先利用数据挖掘建立申请评分模型，作为在信用卡业务中应用的第一步，不少发卡银行已经用自己的历史数据建立了客户化的申请评分模型。总体而言，数据挖掘在我国信用卡业务中的应用处于数据质量问题，难于构建业务模型。

随着国内各家发卡银行已经建立或着手建立数据仓库，将不同操作源的数据存放到一个集中的环境中，并且进行适当的清洗和转换。这为数据挖掘提供了一个很好的操作平台，将给数据挖掘带来各种便利和功能。人民银行的个人征信系统也已上线，在全国范围内形成了个人信用数据的集中。在内部环境和外部环境不断改善的基础上，数据挖掘技术在信用卡业务中将具有越来越广阔的应用前景。

转载请注明：数据分析 » 数据挖掘技术在信用卡业务中的应用及实例分析