客户挖掘模型生成方法、装置和终端设备与流程

文档序号:32757409发布日期:2022-12-31 04:51阅读:33来源:国知局
客户挖掘模型生成方法、装置和终端设备与流程

1.本发明涉及人工智能领域,具体而言,涉及一种客户挖掘模型生成方法、装置和终端设备。


背景技术:

2.目前,银行通常是通过获取连续多个月转账给多个不同账户的客户账户,并且剔除其中存在的风险账户,然后根据经验对剔除处理后剩余的客户进行一步的筛选,以确定最终的意向客户名单以及潜在可挖掘客户,并根据确定的意向名单客户和可挖掘客户进一步分析其共同特征参数,从而更加精准迭代数据标签。
3.现有的方案主要使用经验数据作为判断依据,缺乏具体的数据支撑,没有数据分析过程,不能提供相应的数据依据,并且通过现有方法无法考虑到个体维度,仅通过经验和硬性规则去判断是否有代发潜力,将存在很多误判的情况,从而将导致人力物力浪费在没有潜力的用户身上。并且现有的方法通过整体规则仅考虑了转账次数,未综合考量客户所有特征参数(存款信息、贷款信息、活跃信息等),导致对客户的判断存在较大偏差,也会存在做无用功得情况。


技术实现要素:

4.本发明的目的在于提供一种客户挖掘模型生成方法、客户挖掘模型训练装置、终端设备和可读存储介质。
5.第一方面,本发明提供一种客户挖掘模型生成方法,所述方法包括:
6.获取银行存量客户的相关数据;
7.基于所述相关数据通过皮尔逊相关系数确定第一特征参数;
8.基于所述第一特征参数通过gbdt模型构建相应的第二特征参数;
9.基于所述第一特征参数和所述第二特征参数对逻辑回归模型进行模型训练,得到代发拓客模型。
10.在可选的实施方式中,所述相关数据包括代发属性和基础特征,所述基于所述相关数据通过皮尔逊相关系数确定第一特征参数,包括:
11.根据所述代发属性和所述基础特征中任一项特征,利用所述皮尔逊相关系数的公式中,计算得到相应特征的特征贡献度;
12.根据所述特征贡献度对所述相关数据进行过滤,得到第一特征参数。
13.在可选的实施方式中,所述根据所述特征贡献度对所述相关数据进行过滤,得到第一特征参数,包括:
14.按照所述特征贡献度的降序顺序对所述基础特征中相应特征进行排序;
15.选取前预设个数的特征为第一特征参数。
16.在可选的实施方式中,所述基础特征包括客户管理人、涉及收款人、网银转账笔数、转账金额汇总、客户性别、婚姻状况、年龄、30天活跃标识、客户归属机构、客户归属机构
名和风险等级中任意一项或多项特征。
17.在可选的实施方式中,所述基于所述第一特征参数通过gbdt模型构建相应的第二特征参数,包括:
18.将所述第一特征参数作为训练数据训练gbdt模型以构建具有n棵树的gbdt模型,其中,n为正整数;
19.根据所述gbdt模型中的所述n棵树对所述训练数据进行特征参数组合以生成所述第二特征参数。
20.在可选的实施方式中,所述逻辑回归模型的训练损失函数采用l1正则化损失函数。
21.在可选的实施方式中,在对逻辑回归模型进行模型训练的过程中,采用交叉验证结合网格搜索的方式训练所述逻辑回归模型。
22.第二方面,本发明提供一种客户挖掘模型训练装置,所述装置包括:
23.获取模块,用于获取银行存量客户的相关数据;
24.参数确定模块,用于基于所述相关数据通过皮尔逊相关系数确定第一特征参数;
25.参数构建模块,用于基于所述第一特征参数通过gbdt模型构建相应的第二特征参数;
26.模型确定模块,用于基于所述第一特征参数和所述第二特征参数对逻辑回归模型进行模型训练,得到代发拓客模型。
27.第三方面,本发明提供一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行所述的客户挖掘模型生成方法。
28.第四方面,本发明提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行所述的客户挖掘模型生成方法。
29.本发明实施例的有益效果是:
30.本技术实施例提供一种客户挖掘模型生成方法,该客户挖掘模型生成方法通过获取银行存量客户的相关数据,基于相关数据通过皮尔逊相关系数确定第一特征参数,基于第一特征参数通过gbdt模型构建相应的第二特征参数,基于第一特征参数和第二特征参数对逻辑回归模型进行模型训练,得到代发拓客模型。本技术一方面可以持续提高模型得精准度、提高识别率、准确率、召回率以及实际落地转化率,另一方面也节省了整体的人力成本,实现了降本增效的作用。
31.为使本技术的上述目的、特征参数和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
32.为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
33.图1示出了本技术实施例提出的一种客户挖掘模型生成方法的第一流程示意图;
34.图2示出了本技术实施例提出的一种客户挖掘模型生成方法中相关数据的示意图;
35.图3示出了本技术实施例提出的一种客户挖掘模型生成方法中确定第一特征参数的第一流程示意图;
36.图4示出了本技术实施例提出的一种客户挖掘模型生成方法中确定第一特征参数的第二流程示意图;
37.图5示出了本技术实施例提出的一种客户挖掘模型生成方法中第一特征参数的示意图;
38.图6示出了本技术实施例提供的一种客户挖掘模型训练装置的结构示意图。
39.主要元件符号说明:
40.10-客户挖掘模型训练装置;11-获取模块;12-参数确定模块;13-参数构建模块;14-模型确定模块。
具体实施方式
41.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
42.通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征参数、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征参数、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征参数、数字、步骤、操作、元件、组件或前述项的组合的可能性。
44.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
45.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
46.目前,银行在拓展新客户时,通常采用个人一对多转账促代发商机、以及根据交易特征参数挖掘商户收单商机,这都需借助总行数据团队进行赋能迭代,其主要目的是通过技术手段,获取到相应的商机,再通过分行进行转化,使相应账户的客户成为我行代发客户。
47.通过对银行现有客户的转账记录进行分析,从而对代发特征参数进行跟进,也可以根据银行现有商户的一些特征参数进行挖掘,如根据客户在我行预留职业信息是否为“个体工商户”,客户每月转账给多个不同个人,部分备注为货款,快捷支付交易笔数是否在预设值以上,从而判断客户是否为疑似商户商机,当判断客户为商机客户时,将此部分客户创建相应的名单供业务团队跟进,以拓展收单业务。但是现有的拓客方法不能对客户的所
有特征参数进行综合考量且缺乏数据支撑,可能存在误判的情况,从而导致判断结果可能存在较大的偏差。
48.本技术针对现有方案的不足进行了相应的改进,首先对获取的所有客户账户进行关联规则分析,并确定所有可能影响代发转化得客户特征参数,而后使用机器学习模型建立对应得分行代发客户转化模型,从而提高整体准确率。
49.实施例1
50.请参考图1,本技术实施例提出一种客户挖掘模型生成方法,可用于金融科技或其他相关领域,示范性地,该客户挖掘模型生成方法包括步骤s100~s400。
51.步骤s100:获取银行存量客户的相关数据。
52.可以理解的是,在银行挖掘潜在客户时,将获取汇总银行存量客户的信息的数据库中的全部特征参数信息,即存量客户的相关数据。如图2所示,该相关数据包括但不限于客户管理人,涉及收款人,网银转账笔数,转账金额汇总,客户性别,婚姻状况,职业描述,年龄,财富分层,30天活跃标识,客户aum(asset under management,资产管理规模)余额,口袋客户标识,客户归属机构,客户归属机构名,风险等级,风险划分依据,代发属性等信息。其中,代发属性用于表示客户是否为代发客户,通过数值1或0进行表示,当该客户为代发客户时,用数值1进行标识,当客户不为代发客户时,用0进行标识。客户aum余额标识客户在该银行管理的个人资产规模,包括放在银行的第三方存款;口袋客户标识表示该客户是否存在口袋app客户标识;客户归属机构表示客户资料登记保存的部门对应的编号。
53.步骤s200:基于相关数据通过皮尔逊相关系数确定第一特征参数。
54.可以理解的是,在获取银行存量客户的相关数据后,将通过皮尔逊相关系数的公式确定相关数据中的第一特征参数,该第一特征参数为对银行拓展代发客户影响力较大的一些特征数据。
55.在一种实施方式中,如图3所示,步骤s200包括子步骤s210~s220。
56.子步骤s210:根据代发属性和基础特征中任一项特征,利用皮尔逊相关系数的公式中,计算得到相应特征的特征贡献度。
57.在本技术中,相关数据包括代发属性和基础特征,基础特征为客户管理人、涉及收款人、网银转账笔数、转账金额汇总、客户性别、婚姻状况、职业描述、年龄、财富分层、30天活跃标识、客户aum余额、口袋客户标识、客户归属机构、客户归属机构名、风险等级以及风险划分依据中任意一项或多项特征。在确定相关数据中处代发属性外各个特征对应的特征贡献度时,代发属性为因变量y,基础特征为自变量x,即相关数据中除代发属性以外的多个数据中的任意一个特征为x,通过皮尔逊相关系数的公式确定基础特征中的每个数据对应的特征贡献度。其中,协方差公式为:cov(x,y)=e(xy)-e(x)e(y),协方差表示得是两个变量总体误差的期望,概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小,离散型随机变量的概率分布用概率质量函数来描述,连续性随机变量用概率密度函数来描述其概率分布。
58.皮尔逊相关系数可以表示为公式:
59.60.s
x
,sy分别表示两个的数据的标准差,cov(x,y)表示x,y这两个数据两者之间的协方差。皮尔逊相关系数(pearson correlation coefficient),又称皮尔逊积矩相关系数(pearson product-moment correlation coefficient,简称ppmcc或pccs),是用于度量两个变量x和y之间的相关(线性相关),其值介于-1与1之间。
61.子步骤s220:根据特征贡献度对相关数据进行过滤,得到第一特征参数。
62.在计算得到相关数据中除代发属性外的多个数据,即基础特征中任一项特征相应的特征贡献度后,将根据得到的多个特征贡献度对基础特征中每项特征进行过滤,从而得到过滤后的至少一个特征,该至少一个特征为第一特征参数。
63.在一种实施方式中,如图4所示,子步骤s220包括子步骤s221~s222。
64.子步骤s221:按照特征贡献度的降序顺序对基础特征中相应特征进行排序。
65.基础特征中每一项特征均对应一个特征贡献度,按照降序顺序对每个特征贡献度相应特征进行排序,换言之,在基础特征中特征贡献度最大的特征将排在第一位,并按照特征贡献度依次减小的顺序对基础特征中的每个特征进行排序。
66.子步骤s222:选取前预设个数的特征为第一特征参数。
67.在对基础特征中的每个特征进行排序后,将选取排序后的基础特征中前预设个数的特征,并将该预设个数的特征作为第一特征参数。其中,预设个数可以根据实际情况进行设置。示范性地,当预设个数为前10个特征数据时,计算得到的排序前10的特征可以包括风险等级、涉及收款人、网银转账笔数、转账金额汇总、性别、婚姻状况、职业描述、年龄、财富分层、30天活跃标识、客户归属机构、客户aum余额以及口袋客户标识,其中第一特征参数中的每个特征贡献度对应的特征排序如图5所示。
68.本技术获取到了所有入模特征参数得相关系数,选取了模型贡献度较大得特征参数,作为代发拓客得特征参数,不仅从多个特征参数进行综合考量,对潜在的代发客户的判定依据更加全面和准确,还对客户的解释性也更强。
69.步骤s300:基于第一特征参数通过gbdt模型构建相应的第二特征参数。
70.可以理解的是,在确定第一特征参数后,通过gbdt(gradient boosting decision tree,梯度提升决策树)和lr(logistic regression,逻辑回归)模型对第一特征参数进行处理,换言之,将利用gbdt模型构建组合特征参数,再将构建的组合特征参数进行one-hot编码,并将得到的第二特征参数输入lr模型。本技术中将把第一特征参数作为训练数据训练gbdt模型,利用模型建立的n棵树对上述训练数据,即根据第一特征参数进行特征参数组合以构建新的特征参数,直至每个基础特征均分配至每棵树的叶子节点;针对gbdt模型中的每棵树,将从每棵树的根节点至叶子节点所经过的路径上所对应的训练原始特征进行组合,以生成第二特征参数,其中,n为正整数。例如,将风险等级、涉及收款人、网银转账笔数、转账金额汇总、性别、婚姻状况、职业描述、年龄、财富分层、30天活跃标识以及客户归属机构等数据作为训练数据输入gbdt模型中,并构建新的特征参数向量。构造的新特征参数向量是取值0/1的,向量的每个元素对应于gbdt模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上,那么在新特征参数向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0,新特征参数向量的长度等于gbdt模型里所有树包含的叶子结点数之和。最后将新特征参数,扔到lr模型进行训练。例如,当存在有两棵树时,左树有三个叶子节点,右树有两个叶子节点,最终的特征参数即为五维的向
量。对于输入x,假设他落在左树第一个节点,编码[1,0,0],落在右树第二个节点则编码[0,1],所以整体的编码为[1,0,0,0,1],将把这类编码作为特征参数,输入到线性分类模型(lr or fm)中进行分类。
[0071]
在用gbdt模型构造训练数据时,由于每一弱分类器有且只有一个叶子节点输出预测结果,所以在一个具有n个弱分类器、共计m个叶子节点的gbdt模型中,每一条训练数据都会被转换为1*m维稀疏向量,且有n个元素为1,其余m-n个元素全为0,其中,m和n均为正整数。
[0072]
子步骤s400:基于第一特征参数和第二特征参数对逻辑回归模型进行模型训练,得到代发拓客模型。
[0073]
可以理解的是,将构建得到的第二特征参数与第一特征参数一并输入到逻辑回归(logistic regression)模型中进行最终分类器的训练,得到相应的模型二分类结果。其中,lr(逻辑回归)是一个二分类的模型,逻辑回归假设数据服从伯努利原理分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。本技术中将获取每个用户成为代发客户的概率,判断概率是否大于预设概率,该逻辑回归模型二分类结果包括客户为银行潜在代发客户和该客户不为银行潜在代发客户,当概率大于预设概率时,该客户为银行的潜在客户,换言之,将概率大于预设概率的客户群作为银行最终可以运营转化的客户群,概率小于等于预设概率的客户不为潜在客户群,再本技术中将概率大于预设概率的客户标签为1,将概率小于等于预设概率的客户标签为0,从而得到相应的代发拓客模型,其中,预设概率可以为95%。
[0074]
本技术中由于将把gbdt叶子节点生成的1*m维稀疏向量输入到逻辑回归模型中,因为弱分类器个数,叶子节点个数的影响,可能会导致新的训练数据特征参数维度过大以及可能存在数据稀疏性的问题。因此,在逻辑回归这一层中,可使用正则化来减少过拟合得风险,可在逻辑回归模型中预设有l1正则化项的损失函数。本技术中通过使用l1正则化,降低了特征参数的稀疏性,并且通过使用机器学习模型提高了模型的整体准确率,降低了误差率。
[0075]
gbdt+lr分类模型通过gbdt模型分裂筛选特征参数,将在叶节点分裂后的特征参数传递给lr模型,通过lr模型训练获得分类结果。gbdt+lr模型继承了gbdt模型提取特征参数、获得分裂后的离散特征参数的能力和lr模型对离散分布特征参数的优良分类能力。
[0076]
在对逻辑回归模型进行模型训练的过程中,将采用交叉验证结合网格搜索的方式训练逻辑回归模型。可以理解的是,本技术中将遍历给定的候选特征参数,通过网格搜索算法从候选参数集合中,选出一系列参数并把他们组合起来,得到候选参数列表。然后遍历参数列表,把参数列表中的每一组候选参数组合做交叉验证,通过交叉验证选择效果最好的参数组合,换言之,将通过逻辑回归模型计算得到每组候选参数组合的得分,并从候选参数列表中,选择得分最高的参数组合作为最佳参数,并基于最佳参数确定相应的代发拓客模型,以完成最终模型的构建。
[0077]
本技术不仅通过使用机器学习模型输出了银行的代发拓客模型,综合考虑了单个模型判定失真得问题,整体召回率达到90%左右,不仅可以筛选出满足条件的代发客户群体,还实现了精准识别所有零售转代发得客户。
[0078]
在本技术实施例中,通过数据的不断积累,一方面可以持续提高模型得精准度、提
高识别率、准确率、召回率以及实际落地转化率,另一方面也节省了整体的人力成本,实现了降本增效的作用。本技术不仅实现了精准识别代发客群的整体数字化转型工作,还实现了识别客户有依据,代发客户有解释。
[0079]
基于上述实施例的客户挖掘模型生成方法,图6示出了本技术实施例提供的一种客户挖掘模型训练装置10的结构示意图。该客户挖掘模型训练装置10包括:
[0080]
获取模块11,用于获取银行存量客户的相关数据;
[0081]
参数确定模块12,用于基于所述相关数据通过皮尔逊相关系数确定第一特征参数;
[0082]
参数构建模块13,用于基于所述第一特征参数通过gbdt模型构建相应的第二特征参数;
[0083]
模型确定模块14,用于基于所述第一特征参数和所述第二特征参数对逻辑回归模型进行模型训练,得到代发拓客模型。
[0084]
本实施例的客户挖掘模型训练装置10用于执行上述实施例的客户挖掘模型生成方法,上述实施例所涉及的实施方案以及有益效果在本实施例中同样适用,在此不再赘述。
[0085]
本技术实施例还提供一种终端设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序在处理器上运行时执行上述的客户挖掘模型生成方法。
[0086]
本技术实施例还提供一种计算机可读存储介质,其存储有计算机程序,计算机程序在处理器上执行时,实施上述的客户挖掘模型生成方法。
[0087]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0088]
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
[0089]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0090]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何
熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1