基于监督学习的优质客户流失预测方法、装置及存储介质与流程

文档序号:23818162发布日期:2021-02-03 14:12阅读:98来源:国知局
基于监督学习的优质客户流失预测方法、装置及存储介质与流程

[0001]
本发明涉及商业银行客户流失预测技术领域,尤其涉及一种基于监督学习的优质客户流失预测方法、装置及存储介质。


背景技术:

[0002]
当前市场竞争日益激烈,银行间的产品或服务差异越来越小,越来越多的银行将“以产品为中心”转向“以客户为中心”,纷纷采用客户关系管理(crm)等信息化系统来提高系统服务水平,客户流失是crm关注的焦点,是银行业关注的核心问题之一。
[0003]
相关研究发现,赢得一个新客户所花费的成本是保留住一个老客户的5至6倍。因此,保留住老客户,提前预测出潜在的流失客户,防止因客户流失而引发的经营危机,对于提高企业的竞争力具有战略意义。研究表明,在中国,10%的优质个人客户贡献了至少90%的利润,因而相对于全量的客户而言,维护和保持此类客户、防止此类客户流失的工作更具研究意义和价值。
[0004]
目前的客户流失预测研究中分为主要三个步骤进行,分别为:1定义流失,2选择特征,3建立流失预测模型。在通常的研究中,流失往往是针对单独产品定义的,如存款、理财或者信用卡等等,流失的定义一般为现有的客户中止继续购买银行的商品或服务,转而购买其竞争对手的商品或服务,实际表现为销卡、销户。在选择特征时,通常认为处于流失风险中的客户与客户持有的产品数量、客户年龄和性别之间具有相关关系;拥有不同产品的客户其流失风险有所不同;上笔交易的间隔时间反映了客户的活跃程度,从而也与流失行为有关;另外,客户得到的折扣、所使用的渠道方式、服务的时间长度以及客户抱怨等也都是有助于预测流失的变量。在建立模型时,通常选择基于机器学习的方法,如svm、决策树、boosting等,以及基于统计分析的方法,如cox比例风险模型、逻辑回归、判别分析等。
[0005]
上述的每一步骤都决定了,流失预测模型在实际应用中的效果:利用销卡、销户动作来定义流失往往不具备说服力,如有的客户与银行脱离了联系,但是未必会有销户动作,因此在这种定义之下,往往缩减了目标群体的范围;选择单一产品进行流失判断往往是不准确的,如客户虽然减少或取消了定期存款,但是却购买了相应或更多金额的投资产品,这时用单一产品的销户来判断流失,会导致流失的定义与实际不符;同时,使用不符合模型基本假设的特征作为输入,将会得到错误的结论,如cox比例风险模型要求使用的变量均与时间无关等;最后,模型的学习能力也决定了最终的预测效果。


技术实现要素:

[0006]
鉴于上述现有技术的不足,本发明的目的是提供一种基于监督学习的优质客户流失预测方法、装置及存储介质,以提升优质客户流失预测的准确率。
[0007]
第一方面,提供了一种基于监督学习的优质客户流失预测方法,包括:
[0008]
获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
[0009]
将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用xgboost算法在构建的优质客户流失预测数据集上训练得到。
[0010]
进一步地,所述优质客户流失预测样本数据集通过如下方法构建:
[0011]
获取客户在银行的资产情况并与预设阈值比较,筛选出多个优质客户;
[0012]
选定观测期,判断出多个优质客户的流失标签和观测时间;对于观测期内流失的优质客户,观测时间为该优质客户的最终流失时间,对于观测期内未流失的优质客户,观测时间为观测期的截止时间;
[0013]
针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集;
[0014]
所述获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据,包括:
[0015]
筛选出时间t下待流失预测的优质客户;
[0016]
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取时间t前预设时间段内的流失特征数据。
[0017]
进一步地,所述选定观测期,判断出多个优质客户的流失标签和观测时间,包括:
[0018]
选定一个观测期[t0,t
n
];
[0019]
基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间;
[0020]
验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;
[0021]
将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,对于观测期内未流失的优质客户,将观测期的截止时间t
n
作为其对应的观测时间。
[0022]
进一步地,所述基于每个优质客户的定期、活期及理财这三类产品的情况判断流失标签和流失时间,包括:
[0023]
获取每个优质客户的定期、活期及理财这三类产品的情况并依据下表确定其流失标签和流失时间;
[0024]
活期定期理财流失标签流失日期*111(fx_dt,inv_dt)*^111inv_dt*1^11fx_dt1-1-11sv_dt0-1-1-1 *^100 *0-10
ꢀ-
1-1-1null [0025]
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;
流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,null表示不存在此类优质客户,流失标签为-1时表示此时需另外对此类优质客户做一个流失判断,具体为观测期内连续日期{t1,t2,

,t
m
}的活期余额都小于相应[t0,t
i
],i∈{1,2,

,m}区间的日均活期余额即则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。
[0026]
进一步地,所述验证每个优质客户的流失标签的准确性,包括:
[0027]
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;
[0028]
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。
[0029]
进一步地,所述基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,包括:
[0030]
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
[0031]
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
[0032]
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
[0033]
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
[0034]
对每个优质客户的流失特征数据中的金额类特征进行对数化处理。
[0035]
进一步地,使用xgboost算法在构建的优质客户流失预测数据集上训练得到优质客户流失预测模型,具体包括:
[0036]
根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重;
[0037]
选择xgboost算法构建预测模型;
[0038]
设y为优质客户流失预测样本数据集的流失标签,x为优质客户流失预测样本数据集的特征矩阵,θ为xgboost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(
·
)为基于xgboost算法构建预测模型,)为基于xgboost算法构建预测模型,表示xgb(
·
)在超参数下样本数据对应的预测标签函数表示流失标签y与预测标签的匹配度,表示目标函数最大时对应的参数θ;
[0039]
将优质客户流失预测样本数据集划分为训练集和测试集,使用最优参数根据early stop策略,在模型的训练中确定最优迭代次数m,得到优质客户流失预测模型。
[0040]
进一步地,所述根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重,包括:
[0041]
每个样本的权重通过如下公式确定:
[0042][0043]
其中,a=(a1,a2,

,a
n
)表示优质客户流失预测样本数据集中样本的资产,a
i
表示第i个样本的资产,y
i
表示第i个样本的流失标签,α>0。
[0044]
第二方面,提供了一种基于监督学习的优质客户流失预测装置,包括:
[0045]
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
[0046]
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用xgboost算法在构建的优质客户流失预测数据集上训练得到。
[0047]
第三方面,提供了一种计算机可读存储介质,其包括存储的计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于监督学习的优质客户流失预测方法。
[0048]
有益效果
[0049]
本发明提出了一种基于监督学习的优质客户流失预测方法、装置及存储介质,具有如下优点:
[0050]
1)本发明选定优质客户群体作为研究对象。相比于将所有客户定为目标群体,选择优质客户的客户研究,不但减轻了训练数据的类别不均衡情况,提升模型的训练速度和准确性,而且能够把握住银行的“核心”客户,使得模型更具实用意义。
[0051]
2)本发明从多个产品的角度出发。相比于研究单个产品下客户的流失情况,同时考虑多个产品,不但减少了需要达到相同预测效果的建模成本,达到了事半功倍的效果,而且可以减少单一产品视角下,产生的“假性流失”,即客户资产在不同产品间流转。
[0052]
3)本发明具有弹性的流失判断方式。相较于使用销户来硬性地判断客户的流失,通过结合弹性的指标来识别客户是否销户更具现实意义。以及通过将客户在多种产品上的流失状态组合,得到最终的流失标签,增强了流失标签的准确性。
[0053]
4)本发明采用灵活的特征提取区间,以及时间可控的流失预警方式。由于每个样本的观测时间都是各自对应的,因此允许训练样本的特征提取是在独立的时间范围完成,而不会因为统一的时间范围而丢失特征信息。此外,通过将流失样本的观测时间适当提前,可灵活地控制流失的预警时间。
[0054]
5)本发明使用了xgboost算法,该算法对缺失值不敏感,无需对缺失值进行插值处理;而且xgboost算法通过显示的正则化方法约束模型的复杂度,能有效地避免过拟合;且具有学习能力强、训练速度快、收敛速度快的特点。
*^10206 *0-1403
ꢀ-
1-1-1nullnull1 [0069]
其中,活期、定期和理财三类产品在观测期内均有销户、保持开户和未建立账户三种状态标记,且分别对应记为1、0和-1,“*”表示三种状态标记中的任意类别,“^”表示“非”;流失标签为1时表示该优质客户在观测期内流失,流失标签为0时表示该优质客户在观测期内未流失,null表示不存在此类优质客户。流失类别依据三种账户的标识来判断,奇数表示流失,偶数表示未流失,-1表示此类优质客户只有活期账户且未销户,可跟据实际情况将其流失标签置为0或单独针对此类客户做一个流失判断,如观测期内连续日期{t1,t2,

,t
m
}的活期余额都小于相应[t0,t
i
],i∈{1,2,

,m}区间的日均活期余额即则此优质客户的流失标签为1,其相应的流失时间为t1,否则此优质客户的流失标签为0;流失类别是一个中间结果,有助于了解各流失类别的样本数量,指导后续的误差分析。组合数量表示满足相应规则的标识排列组合数,如流失类别1的组合数量为3,包含3种标识的组合,分别为(0,1,1)、(1,1,1)、(-1,1,1),组合数量共计33个。sv_dt表示观测期内活期产品最新的销户时间,fx_dt表示观测期内定期产品最新的销户时间,inv_dt表示观测期内理财产品最新的销户时间。观测期内未流失的客户,不存在流失时间。
[0070]
a1.2.3:验证每个优质客户的流失标签的准确性,确保其流失标签与实际场景中流失的一致性;包括:
[0071]
当优质客户的三类产品中的某一类产品在观测期内的状态标记为1时,观测在观测期之后的预设时间段内是否重新开户,最终确定其对应的状态标记及流失标签;此验证对流失时间临近观测期截止时间的样本特别重要,能增加流失标签的准确性;
[0072]
对于优质客户的定期产品销户而理财产品未销户,或理财产品销户而定期产品未销户时,进行流转验证,即验证该优质客户定期产品销户时是否购买了理财产品或理财产品销户时是否购买了定期产品,进而最终确定流失标签;对于优质客户的定期产品和理财产品均销户时,将其分解为两个样本,两个样本分别对应定期产品流失和理财产品流失,并具有相应产品销户时的流失时间,然后将其按上述流转验证的方式进行流转验证。通过流转验证,可以有效的避免“假性流失”的样本。
[0073]
a1.2.4:将每个流失的优质客户的流失时间向前调整预设时长后作为最终流失时间,以达到事前预警的效果;对于观测期内流失的优质客户,将最终流失时间作为其对应的观测时间,如观测到实际流失时间为t
i
,则需将流失时间t
i
适当提前,即用作为最终的流失时间,旨在优质客户流失前给出流失预测结果,即训练出的优质客户流失预测模型预测的是待流失预测优质客户在t+t时间流失的概率,t为当前时刻,进而达到流失预警的效果;对于观测期内未流失的优质客户,将观测期的截止时间t
n
作为其对应的观测时间。
[0074]
a1.3:针对多个优质客户,基于各自对应的观测时间,分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取流失特征数据,得到优质客户流失预测样本数据集,优质客户流失预测样本数据集中每个样本包含其对应的流失特征数据和流失标签;其中,提取流失特征数据具体包括:
[0075]
对于自然属性,提取的流失特征数据包括优质客户的性别、年龄、户龄;
[0076]
对于持有产品状态信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内定期产品和理财产品的新增、到期和持有数据;
[0077]
对于行内资产信息,提取的流失特征数据包括优质客户对应的观测时间前预设时段内活期产品和定期产品的日均余额;
[0078]
对于交易行为,提取的流失特征数据包括优质客户对应的观测时间前预设时段内收入和支出数据;
[0079]
上述提取流失特征数据方案具体可参见下表:
[0080][0081]
上表中,根据流失标签的不同,观测时间为最终流失时间或观测期截止时间t
n
。而且,除了自然属性类的特征之外,其他特征的计算与步骤a1.2得到的观测时间紧密相关,特征的计算往往是根据该时间,进行某种时间维度上的统计,同时,该时间因样本的不同可能会有所差异,因此每个样本是在“自己”的某种时间维度上完成的特征计算,这是模型能准确预测流失客户的核心所在。其中某种时间维度指的是其提取流失特征的时间长度,如近12个月、近6个月、近1个月、7天等。
[0082]
完成流失特征提取后,对每个优质客户的流失特征数据中的金额类特征进行对数化处理。如样本n
i
的金额类特征为(f1,f2,

,f
n
),按转换公式得到金额类新的特征为缩减特征的量纲,在使用“树”类算法时,有助于最优分割点的搜索,以提升准确率。
[0083]
a1.4:划分优质客户流失预测样本数据集为比例适当的训练集d
train
和测试集d
test
,分别用于模型的训练和评估。优质客户流失预测样本数据集d=d
train
∪d
test
,根据数据的实际情况,通常划分满足训练集样本量n
train
与测试集的样本量n
test
之比为
[0084]
a2:利用构建的优质客户流失预测样本数据集对基于xgboost算法构建的预测模型进行训练得到优质客户流失预测模型,具体包括:
[0085]
a2.1:根据优质客户流失预测样本数据集中每个样本的流失标签及行内持有资产的情况赋予相应的权重,有助于缓解类别不均衡带来的影响,还能让模型更“关注”高资产客户的流失情况,提升模型的准确率和预测价值;具体包括:
[0086]
每个样本的权重通过如下公式确定:
[0087][0088]
其中,a=(a1,a2,

,a
n
)表示优质客户流失预测样本数据集中样本的资产,a
i
表示第i个样本的资产,y
i
表示第i个样本的流失标签,α>0,α∈{1,2,

},α根据模型的评估指标适当调整。
[0089]
a2.2:选择xgboost算法构建预测模型;
[0090]
a2.3:设y为优质客户流失预测样本数据集的流失标签,x为优质客户流失预测样本数据集的特征矩阵,θ为xgboost算法的超参数,结合网格搜索的方法,使用优质客户流失预测样本数据集进行k折交叉验证,得到预测模型的实验最优超参数其中,w为优质客户流失预测样本数据集中样本对应的权重,xgb(
·
)为基于xgboost算法构建预测模型,)为基于xgboost算法构建预测模型,表示xgb(
·
)在超参数θ下样本数据对应的预测标签函数表示流失标签y与预测标签的匹配度,考虑到样本权重w,即即为位于计算,即其中w
i
表示第i个样本的权重,y
i
表示第i个样本的流失标签,表示第i个样本的预测标签,表示目标函数最大时对应的参数θ;
[0091]
a2.4:使用最优参数结合训练集和测试集,根据early stop(早停法)策略,在模型的训练中确定最优迭代次数m,得到优质客户流失预测模型。
[0092]
得到训练好的优质客户流失预测模型后,即可基于监督学习的优质客户流失预测,如图4所示,具体包括:
[0093]
s01:获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
[0094]
s02:将待流失预测的优质客户的流失特征数据输入预先训练好的优质客户流失预测模型中,输出优质客户流失预测结果。
[0095]
更具体的,包括:
[0096]
筛选出时间t下待流失预测的优质客户;时间t可为当前时间,待流失预测的优质客户的筛选方法可参见步骤a1.1的方法;
[0097]
分别从其自然属性、持有产品状态信息、行内资产信息以及交易行为提取当前时间t前预设时间段内的流失特征数据;流失特征数据提取方法可参见步骤a1.3,区别在于此时的观测时间为当前时间t;此处预设时间段可根据需要设定为3个月、6个月或12个月等。
[0098]
把提取的流失特征数据,输入到训练好的优质客户流失预测模型中,通过计算便能得到该待流失预测优质客户在t+t时间流失的概率。
[0099]
本发明实施例还提供了一种基于监督学习的优质客户流失预测装置,包括:
[0100]
特征提取模块:用于获取待流失预测的优质客户,并提取待流失预测的优质客户预设时间段内的流失特征数据;
[0101]
流失预测模块:用于将待流失预测的优质客户的流失特征数据输入预先训练好的
优质客户流失预测模型中,输出优质客户流失预测结果;其中,所述优质客户流失预测模型,是使用xgboost算法在构建的优质客户流失预测数据集上训练得到。
[0102]
本实施例中具体实现方案参见前述实施例提供的一种基于监督学习的优质客户流失预测方法,在此不再赘述。
[0103]
本发明实施例还提供了一种计算机可读存储介质,其包括存储的计算机程序,所述计算机程序适于被处理器加载并执行如上所述的基于监督学习的优质客户流失预测方法。
[0104]
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0105]
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0106]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0107]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0108]
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0109]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0110]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1