风控客户的分群方法、装置、终端设备以及存储介质与流程

文档序号:31707647发布日期:2022-10-01 12:32阅读:141来源:国知局
风控客户的分群方法、装置、终端设备以及存储介质与流程

1.本发明涉及金融科技(fintech)技术领域,尤其涉及一种风控客户的分群方法、装置、终端设备以及计算机存储介质。


背景技术:

2.随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技转变,但由于金融行业的安全性、实时性以及稳定性等要求的提高,也对技术提出了更高的要求。
3.目前,在金融行业对客户做风控处理的过程中,由于辛普森悖论的存在,通常需要在客群构成较为复杂时对客户进行分群,从而分情况建立对应的子模型,如此有利于提供整体的风控预测能力。
4.现如今针对客户进行分群的主流方式可以分为两大类别,其一是经验分群,其二是技术分群。然而,经验分群较依赖于专家经验的正确性,如果用不适当的特征进行客户分群反而会降低最终风控效果,且,经验分群也不具有普适性,需要针对不同数据情况、不同业务场景有针对地选择合适的分群维度。此外,技术分群尽管已经在一定程度上实现自动化,但技术分群对于聚类的数量较为敏感,要求必须设定合适聚类的数量才能得到好的分群质量,同时,由于技术分群相较于经验分群主要受数据驱动,所以通过技术分群的客群仍需要结合实际业务分析才能保证分群解释性。


技术实现要素:

5.本发明的主要目的在于提供一种风控客户的分群方法、装置、终端设备以及计算机存储介质,旨在规避现有风控业务场景中对客户进行分群处理对专家经验的依赖,提高分控客户分群的质量和普适性,从而提高各风控业务场景下对客户的风控效果。
6.为实现上述目的,本发明提供一种风控客户的分群方法,所述风控客户的分群方法包括:
7.将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值;
8.根据所述第一标签预测值确定所述特征样本数据是否属于难样本;
9.若否,则将所述风控客户划分至易样本客群;
10.若是,则将所述风控客户划分至难样本客群,并调用预设第二预测模型对所述风控客户进行二次分群处理。
11.可选地,所述难样本客群包括多个不同样本难度客群;
12.所述调用预设第二预测模型对所述风控客户进行二次分群处理的步骤,包括:
13.将所述特征样本数据输入所述预设第二预测模型得到所述特征样本数据的第二标签预测值;
14.根据所述第二标签预测值确定所述特征样本数据的样本难度;
15.按照所述样本难度将所述风控客户划分至多个所述不同样本难度客群中的目标客群。
16.可选地,在所述将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值的步骤之前,所述方法还包括:
17.采集客户特征数据以构建整体训练样本;
18.基于所述整体训练样本进行第一初始模型训练,得到基于客户特征数据计算第一标签预测值的预设第一预测模型。
19.可选地,所述方法还包括:
20.根据所述第一标签预测值和所述整体训练样本进行第二初始模型训练,得到基于所述客户特征数据计算第二标签预测值的预设第二预测模型,其中,进行所述第二初始模型训练采用的算法与进行所述第一初始模型训练采用的算法不同。
21.可选地,所述根据所述第一标签预测值和所述整体训练样本进行第二初始模型训练的步骤,包括:
22.确定难易样本切分点;
23.根据所述第一标签预测值和所述难易样本切分点,将所述整体训练样本切分为难样本和易样本;
24.基于所述难样本进行第二初始模型训练。
25.可选地,所述难易样本切分点包括:第一切分点和第二切分点,所述第一切分点的取值大于0且小于所述第二切分点的取值,所述第二切分点的取值小于1。
26.可选地,所述根据所述第一标签预测值和所述难易样本切分点,将所述整体训练样本切分为难样本和易样本的步骤,包括:
27.从所述整体训练样本中确定所述第一标签预测值大于0且小于所述第一切分点的取值的第一目标样本,和,确定所述第一标签预测值大于所述第二切分点的取值且小于1的第二目标样本;
28.将所述第一目标样本和所述第二目标样本切分为易样本;
29.从所述整体训练样本中确定所述第一标签预测值大于所述第一切分点的取值,且小于大于所述第二切分点的取值的第三目标样本;
30.将所述第三目标样本切分为难样本。
31.此外,为实现上述目的,本发明还提供一种风控客户的分群装置,本发明风控客户的分群装置包括:
32.模型预测模块,用于将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值;
33.样本难度确定模块,用于根据所述第一标签预测值确定所述特征样本数据是否属于难样本;
34.第一分群模块,用于若所述样本难度确定模块确定为否,则将所述风控客户划分至易样本客群;
35.第二分群模块,用于若所述样本难度确定模块确定为是,则将所述风控客户划分至难样本客群,并调用预设第二预测模型对所述风控客户进行二次分群处理。
36.其中,本发明风控客户的分群装置的各功能模块在运行时实现如上所述的风控客
户的分群方法的步骤。
37.此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的风控客户的分群程序,所述风控客户的分群程序被所述处理器执行时实现如上所述的风控客户的分群方法的步骤。
38.此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有风控客户的分群程序,所述风控客户的分群程序被处理器执行时实现如上所述的风控客户的分群方法的步骤。
39.此外,为实现上述目的,本发明还提供计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的风控客户的分群方法的步骤。
40.本发明提供的一种风控客户的分群方法、装置、终端设备、计算机存储介质以及计算机程序产品,通过将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值;根据所述第一标签预测值确定所述特征样本数据是否属于难样本;若否,则将所述风控客户划分至易样本客群;若是,则将所述风控客户划分至难样本客群,并调用预设第二预测模型对所述风控客户进行二次分群处理。
41.本发明在金融领域各风控业务场景中针对风控客户进行分群处理时,通过将风控客户的特征样本数据输入到预设第一预测模型来计算得到该特征样本数据对应的第一标签预测值,之后,基于该第一标签预测值进行样本难度分析以确定该特征样本数据是否属于难样本,从而,在确定到该特征样本数据不属于难样本时,直接将该风控客户划分至易样本客群,否则,在确定到该特征样本数据属于难样本时,则立即将该风控客户划分至难样本客群并同时调用预设第二预测模型来对该风控客户进行二次分群处理。
42.本发明相比于传统基于专家经验进行客户分群的方式或者采用技术分群的方式,通过样本难度这一维度来将风控客户分为难样本客群或者易样本客群,之后,针对被分为难样本客群的特征样本数据还进一步进行模型训练后做进一步分群处理,如此,本发明不仅能够避免风控业务场景中对客户进行分群处理时对于专家经验的依赖,还提高了对风控客户进行分群处理的整体区分力以令客户分群指令得到了保证。并且,本发明提出的针对风控客户进行分群处理的方式可以推广到风控领域的各业务场景中,有效地提高了对客户分群的普适性。
43.此外,本发明通过针对风控客户进行难易样本分群,使得两个客群上各特征维度的权重分布也能更好契合对应客群,从而避免了基于客群特征进行整体风控模型训练时,强特征权重过大而导致弱特征无法起效的问题,提高了风控模型的鲁棒性,进而有效地提高了风控业务场景中针对客户的风控效果。
附图说明
44.图1为本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图;
45.图2为本发明风控客户的分群方法第一实施例的流程示意图;
46.图3为本发明风控客户的分群方法一实施例所涉及的应用流程示意图;
47.图4为本发明风控客户的分群方法一实施例所涉及的应用场景示意图;
48.图5为本发明风控客户的分群装置一实施例的功能模块示意图。
49.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
50.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
51.参照图1,图1为本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图。
52.本发明实施例终端设备可以是应用于金融领域针对客户风控管理的业务应用设备,具体地,该终端设备可以是智能手机、pc(personal computer,个人计算机)、平板电脑、便携计算机等等。
53.如图1所示,该终端设备可以包括:处理器1001,例如cpu,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
54.本领域技术人员可以理解,图1中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
55.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及风控客户的分群程序。
56.在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的风控客户的分群程序,并执行如下操作步骤:
57.将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值;
58.根据所述第一标签预测值确定所述特征样本数据是否属于难样本;
59.若否,则将所述风控客户划分至易样本客群;
60.若是,则将所述风控客户划分至难样本客群,并调用预设第二预测模型对所述风控客户进行二次分群处理。
61.进一步地,所述难样本客群包括多个不同样本难度客群;处理器1001还可以用于调用存储器1005中存储的风控客户的分群程序,并执行如下操作步骤:
62.将所述特征样本数据输入所述预设第二预测模型得到所述特征样本数据的第二标签预测值;
63.根据所述第二标签预测值确定所述特征样本数据的样本难度;
64.按照所述样本难度将所述风控客户划分至多个所述不同样本难度客群中的目标客群。
65.进一步地,处理器1001还可以用于调用存储器1005中存储的风控客户的分群程序,并在执行将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值的步骤之前,还执行如下操作步骤:
66.采集客户特征数据以构建整体训练样本;
67.基于所述整体训练样本进行第一初始模型训练,得到基于客户特征数据计算第一标签预测值的预设第一预测模型。
68.进一步地,处理器1001还可以用于调用存储器1005中存储的风控客户的分群程序,并执行如下操作步骤:
69.根据所述第一标签预测值和所述整体训练样本进行第二初始模型训练,得到基于所述客户特征数据计算第二标签预测值的预设第二预测模型,其中,进行所述第二初始模型训练采用的算法与进行所述第一初始模型训练采用的算法不同。
70.进一步地,处理器1001还可以用于调用存储器1005中存储的风控客户的分群程序,并执行如下操作步骤:
71.确定难易样本切分点;
72.根据所述第一标签预测值和所述难易样本切分点,将所述整体训练样本切分为难样本和易样本;
73.基于所述难样本进行第二初始模型训练。
74.进一步地,所述难易样本切分点包括:第一切分点和第二切分点,所述第一切分点的取值大于0且小于所述第二切分点的取值,所述第二切分点的取值小于1。
75.进一步地,处理器1001还可以用于调用存储器1005中存储的风控客户的分群程序,并执行如下操作步骤:
76.从所述整体训练样本中确定所述第一标签预测值大于0且小于所述第一切分点的取值的第一目标样本,和,确定所述第一标签预测值大于所述第二切分点的取值且小于1的第二目标样本;
77.将所述第一目标样本和所述第二目标样本切分为易样本;
78.从所述整体训练样本中确定所述第一标签预测值大于所述第一切分点的取值,且小于大于所述第二切分点的取值的第三目标样本;
79.将所述第三目标样本切分为难样本。
80.基于上述硬件结构,提出本发明风控客户的分群方法的各实施例。
81.需要说明的是,目前,在金融行业对客户做风控处理的过程中,由于辛普森悖论的存在,通常需要在客群构成较为复杂时对客户进行分群,从而分情况建立对应的子模型,如此有利于提供整体的风控预测能力。
82.现如今针对客户进行分群的主流方式可以分为两大类别,其一是经验分群,其二是技术分群。然而,经验分群较依赖于专家经验的正确性,如果用不适当的特征进行客户分群反而会降低最终风控效果,且,经验分群也不具有普适性,需要针对不同数据情况、不同业务场景有针对地选择合适的分群维度。此外,技术分群尽管已经在一定程度上实现自动化,但技术分群对于聚类的数量较为敏感,要求必须设定合适聚类的数量才能得到好的分群质量,同时,由于技术分群相较于经验分群主要受数据驱动,所以通过技术分群的客群仍需要结合实际业务分析才能保证分群解释性。
83.针对上述现象,本发明提供一种风控客户的分群方法,在金融领域各风控业务场景中针对风控客户进行分群处理时,通过将风控客户的特征样本数据输入到预设第一预测模型来计算得到该特征样本数据对应的第一标签预测值,之后,基于该第一标签预测值进
行样本难度分析以确定该特征样本数据是否属于难样本,从而,在确定到该特征样本数据不属于难样本时,直接将该风控客户划分至易样本客群,否则,在确定到该特征样本数据属于难样本时,则立即将该风控客户划分至难样本客群并同时调用预设第二预测模型来对该风控客户进行二次分群处理。
84.本发明相比于传统基于专家经验进行客户分群的方式或者采用技术分群的方式,通过样本难度这一维度来将风控客户分为难样本客群或者易样本客群,之后,针对被分为难样本客群的特征样本数据还进一步进行模型训练后做进一步分群处理,如此,本发明不仅能够避免风控业务场景中对客户进行分群处理时对于专家经验的依赖,还提高了对风控客户进行分群处理的整体区分力以令客户分群指令得到了保证。并且,本发明提出的针对风控客户进行分群处理的方式可以推广到风控领域的各业务场景中,有效地提高了对客户分群的普适性。
85.此外,本发明通过针对风控客户进行难易样本分群,使得两个客群上各特征维度的权重分布也能更好契合对应客群,从而避免了基于客群特征进行整体风控模型训练时,强特征权重过大而导致弱特征无法起效的问题,提高了风控模型的鲁棒性,进而有效地提高了风控业务场景中针对客户的风控效果。
86.请参照图2,图2为本发明风控客户的分群方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,本发明风控客户的分群方法当然也可以以不同于此处的顺序执行所示出或描述的步骤。
87.在本实施例中,本发明风控客户的分群方法应用于上述的终端设备。本发明风控客户的分群方法包括:
88.步骤s10,将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值;
89.在本实施例中,终端设备在金融领域任意的风控业务场景中,将风控客户的特征样本数据,输入到预先已经训练构建好的第一预测模型当中,从而由该第一预测模型基于该特征样本数据进行模型计算以得到该特征样本数据所对应的第一标签预测值。
90.需要说明的是,在本实施例中,风控客户为风控业务场景中需要进行风控管理的客户,通常终端设备可直接基于解析风控业务命令来确定该风控客户。此外,风控客户的特征样本数据包括但不限于:用户的学历、年龄、账户开立时长、借贷产品类型(如消费贷、经营贷和车贷)等。终端设备具体可以通过与外部数据平台之间的数据接口来爬取得到风控客户的各项特征样本数据。
91.进一步地,在一种可行的实施例中,在上述步骤s10之前,本发明风控客户的分群方法还可以包括:
92.采集客户特征数据以构建整体训练样本;
93.基于所述整体训练样本进行第一初始模型训练,得到基于客户特征数据计算第一标签预测值的预设第一预测模型。
94.在本实施例中,本发明风控客户的分群方法预先就可以通过终端设备按照上述爬取风控客户各项特征样本数据相同的方式,通过同样的数据接口来进行客户特征数据采集的操作,从而爬取得到多个客户各自的学历、年龄、账户开立时长以及借贷产品类型等特征样本数据,从而基于该各个客户和各客户各自的特征样本数据构建形成一个整体训练样
本。
95.之后,终端设备即可基于该整体训练样本,采用gbdt(gradient boosting decision tree,梯度提升决策树)算法来进行第一初始模型训练,从而得到上述基于客户的特征样本数据即可计算得到第一标签预测值的预设第一预测模型。
96.示例性地,如图3所示的应用流程,在本实施例中,假定本发明风控客户的分群方法预先通过终端设备采集客户特征数据以构建得到的整体训练样本为[s1,s2,s3,...sn-1,sn],其中sn表示第n个样本,一个样本对应一个客户和该客户的各特征样本数据。如此,终端设备基于该整体训练样本并使用gbdt算法即可训练一个初始模型f1——预设第一预测模型。
[0097]
进一步地,在本实施例中,发明风控客户的分群方法还可以包括:
[0098]
根据所述第一标签预测值和所述整体训练样本进行第二初始模型训练,得到基于所述客户特征数据计算第二标签预测值的预设第二预测模型,其中,进行所述第二初始模型训练采用的算法与进行所述第一初始模型训练采用的算法不同。
[0099]
在本实施例中,终端设备在基于构建整体训练样本,并采用gbdt算法进行第一初始模型训练,以得到上述的预设第一预测模型之后,终端设备还进一步基于采用该预设第一预测模型针对整体训练样本进行计算得到的第一标签预测值,对该整体训练样本进行难易样本划分,之后使用该整体训练样本中的难样本来进行第二初始模型训练,从而得到能够基于客户的特征数据计算出第二标签预测值的预设第二预测模型。
[0100]
需要说明的是,在本实施例中,终端设备在采用整体训练样本中的难样本进行第二初始模型训练是采用的算法,与终端设备基于整体训练样本进行第一初始模型训练时采用的gbdt算法,是不相同的。
[0101]
进一步地,在本实施例中,上述“根据所述第一标签预测值和所述整体训练样本进行第二初始模型训练”的步骤,具体可以包括:
[0102]
确定难易样本切分点;
[0103]
根据所述第一标签预测值和所述难易样本切分点,将所述整体训练样本切分为难样本和易样本;
[0104]
基于所述难样本进行第二初始模型训练。
[0105]
在本实施例中,终端设备在基于构建整体训练样本,并采用gbdt算法进行第一初始模型训练,以得到上述的预设第一预测模型之后,进一步根据该预设第一预测模型来计算得到该整体训练样本的各个第一标签预测值,从而,基于该各个第一标签预测值确定合适的难易样本切分点。
[0106]
如此,终端设备即按照该难易样本切分点,将该各个第一标签预测值对应的训练样本切分为难样本或者易样本,如此,直至整体训练样本切分为难样本和易样本两个部分,最后,终端设备即采用该整体训练样本中全部难样本来进行第二初始模型训练。
[0107]
需要说明的是,在本实施例中,终端设备具体可以采用寻优搜索的方式来确定难易样本切分点。并且,该难易样本切分点包括:第一切分点和第二切分点,其中,该第一切分点的取值大于0且小于第二切分点的取值,而第二切分点的取值小于1,即,第一切分点的取值a<第二切分点的取值b,且,0<a<b小于1。
[0108]
进一步地,在本实施例中,上述“根据所述第一标签预测值和所述难易样本切分
点,将所述整体训练样本切分为难样本和易样本”的步骤,具体可以包括:
[0109]
从所述整体训练样本中确定所述第一标签预测值大于0且小于所述第一切分点的取值的第一目标样本,和,确定所述第一标签预测值大于所述第二切分点的取值且小于1的第二目标样本;
[0110]
将所述第一目标样本和所述第二目标样本切分为易样本;
[0111]
从所述整体训练样本中确定所述第一标签预测值大于所述第一切分点的取值,且小于大于所述第二切分点的取值的第三目标样本;
[0112]
将所述第三目标样本切分为难样本。
[0113]
在本实施例中,终端设备在确定出难易样本切分点之后,即可按照各个第一标签预测值,分别与该难易样本切分点中第一切分点的取值和第二切分点的取值之间的大小,来将整体训练样本中该第一标签预测值对应的训练样本切分为易样本或者难样本。
[0114]
即:终端设备首先从整体训练样本中确定出第一标签预测值大于0且小于第一切分点的取值a的全部第一目标样本,和,从该整体训练样本中确定出第一标签预测值大于第二切分点的取值b且小于1的全部第二目标样本;然后,终端设备即将全部的第一目标样本和全部的第二目标样本均切分为易样本。
[0115]
此外,终端设备还从整体训练样本中确定出第一标签预测值大于第一切分点的取值a,且小于第二切分点的取值b的全部第三目标样本,并将该全部的第三目标样本切分为难样本。
[0116]
示例性地,如图3所示的应用流程,在本实施例中,本发明风控客户的分群方法通过终端设备根据采用gbdt算法训练得到的初始模型f1计算得到对整体训练样本中各训练样本[s1,s2,s3,...sn-1,sn]各自的第一标签预测值[p1,p2,p3,...,pn-1,pn],其中pn=f1(s1),表示第n个样本输入初始模型f1对应输出的第一标签预测值。
[0117]
之后,终端设备即基于各个第一标签预测值来找到合适的难易样本切分点:第一切分点a和第一切分点b,以将整体训练样本切分成难样本和易样本。
[0118]
需要说明的是,在本实施例中,如图4所示,风控领域中标签预测值pn的取值范围为0到1的小数,若pn越接近1,则表示风控模型有较大置信度将样本标签预测为正,反之,若pn越接近0则表示风控模型有较大置信度将样本标签预测为负,如此,两端样本(即标签预测值小于a或者大于b部分的样本)可以被切分为易样本,而中间样本(标签预测值处于a、b之间的样本)可以切分为难样本。
[0119]
此外,终端设备在可以通过寻优搜索的方式确定第一切分点a和第二切分点b时,假定终端设备使用网格搜索法来进行寻优搜索,则终端设备以0.01为最小步长并设定难度阈值为t(终端设备具体可以结合实际风控业务场景来设置合适的阈值t以确保切出的难样本的数量可以支持下一步的训练),则第一切分点a的搜索空间即为[0,0.01,0.02,...1],且具体取值从小到大,而b的搜索空间则为[1,0.99,0.98,...0],且具体取值从大到小。同时,终端设备优化目标min(|k1-k2-t|),其中,k1为切出的易样本的kskolmogorov-smirnov,评价指标)值,k2为对应的难样本的ks值。如此,在设定的难度阈值t越大时,从整体训练样本中切出的难样本的数量将较少,难易样本之间ks值的差异也会越大;反之设定的难度阈值t越小,则从整体训练样本中切出的难样本的数量将较多,而难易样本之间ks值的差异就会越小。
[0120]
如此,终端设备即可进一步根据寻优搜索得到的第一切分点a和第二切分点b来将整体训练样本分为难样本和易样本两部分,即,终端设备将对应上述初始模型f1计算的第一预测值大于等于a且小于等于b的训练样本[sh1,sh2,sh3,

,shi],均切分为难样本,而将对应初始模型f1所计算的第一预测值小于a或者大于b的训练样本[se1,se2,se3,

,sej],均切分为易样本,这其中,i表示第i个难样本,j表示第j个易样本。
[0121]
在此之后,终端设备即进一步基于从整体训练样本中切出的难样本[sh1,sh2,sh3,

,shi],使用不同于gbdt算法的其它算法,如多层感知机mlp(multi-layer perception,也称作多层感知器)来进行第二初始模型训练得到一个初始模型f2——预设第二预测模型,如此,能够提高风控处理对于难样本的区分能力。
[0122]
最后,终端设备可进一步选择对训练得到的预设第一预测模型和预设第二预测模型进行模型融合,如此,对于一个新的风控客户的特征样本数据,终端设备将该数据作为测试样本snew,并针对该测试样本snew采用如下所示的计算过程:计算初始模型预测值pf1=f1(snew)和难样本优化模型预测值pf2=f2(snew),如果pf1小于a或者大于b则输出pf1,否则输出pf2。
[0123]
需要说明的是,在本实施例中,终端设备用于训练上述预设第二预测模型的mlp算法,还可以替换为其他机器学习算法,如逻辑回归lr、支持向量机svm等,本发明风控客户的分群方法并不针对该机器学习算法的具体种类进行限定,只要用于训练上述预设第二预测模型的mlp算法,与上述用于训练预设第一预测模型的gbdt算法不相同即可。
[0124]
此外,终端设备在采用寻优搜索的方式确定上述难易样本切分点时,除了可以具体采用网格搜索法之外,终端设备还可以采用诸如遗传算法、模拟退火等其它寻优搜索方法。
[0125]
步骤s20,根据所述第一标签预测值确定所述特征样本数据是否属于难样本;
[0126]
在本实施例中,终端设备通过上述的第一预测模型基于风控客户的特征样本数据进行模型计算,从而得到该特征样本数据对应的第一标签预测值之后,进一步基于该第一标签预测值的大小来确定该特征样本数据是否属于难样本。
[0127]
示例性地,终端设备具体可以通过将风控客户的特征样本数据对应的第一标签预测值,与预先进行模型训练中确定的难以样本切分点的取值:第一切分点的取值a和第二切分点的取值b,分别进行大小比较,以在比较到该第一标签预测值小于第一切分点a(或者大于第二切分点b)时,确定该第一标签预测值对应的风控客户的特征样本数据不属于难样本,而是属于易样本;反之,在比较到该第一标签预测值大于第一切分点a但小于该第二切分点b时,即确定该第一标签预测值对应的风控客户的特征样本数据属于难样本。
[0128]
步骤s30,若否,则将所述风控客户划分至易样本客群;
[0129]
步骤s40,若是,则将所述风控客户划分至难样本客群,并调用预设第二预测模型对所述风控客户进行二次分群处理。
[0130]
在本实施例中,终端设备在确定风控客户的特征样本数据不属于难样本时,即可直接将该风控客户划分至易样本客群当中。而终端设备在确定该特征样本数据是属于难样本时,终端设备即将该风控客户划分至难样本客群,之后,进一步调用预先已经训练好的上述预设第二预测模型来计算该风控客户的第二标签预测值,并基于该第二标签预测值对该风控客户进行二次分群处理,以将该风控客户进一步划分至更准确的客群当中。
[0131]
进一步地,在一种可行的实施例中,上述的难样本客群包括多个不同样本难度客群。基于此,上述步骤s40中“调用预设第二预测模型对所述风控客户进行二次分群处理”,具体可以包括:
[0132]
将所述特征样本数据输入所述预设第二预测模型得到所述特征样本数据的第二标签预测值;
[0133]
根据所述第二标签预测值确定所述特征样本数据的样本难度;
[0134]
按照所述样本难度将所述风控客户划分至多个所述不同样本难度客群中的目标客群。
[0135]
在本实施例中,终端设备在将风控客户划分至难样本客群之后,若该难样客群仍然包括多个不同样本难度客群,终端设备即需要进一步对该风控客户进行二次分群处理,即,终端设备通过调用通过上述过程进行训练得到的预设第二预测模型,然后将该风控客户属于难样本的特征样本数据输入到该第二预测模型当中,由该第二预测模型基于该特征样本数据进行计算并输出第二标签预测值。
[0136]
之后,终端设备即可以将该第二标签预测值作为新的第一标签预测值,以基于上述步骤s20至步骤s40所述过程相同的逻辑,进一步基于该第二标签预测值的大小来确定该特征样本数据的样本难度,即,确定该特征样本数据是否属于上述难样本中不同样本难度的哪一个难样本,重复执行一次样本难度确定的过程,即可确定该特征样本数据是属于多个样本难度中更高样本难度对应那一部分难样本。如此,在最终确定该特征样本数据的样本难度之后,终端设备即可将该特征样本数据对应的风控客户划分至该样本难度在多个不同样本难度客群当中对应的目标客群。
[0137]
本发明实施例提供的一种风控客户的分群方法,通过终端设备在金融领域任意的风控业务场景中,将风控客户的特征样本数据,输入到预先已经训练构建好的第一预测模型当中,从而由该第一预测模型基于该特征样本数据进行模型计算以得到该特征样本数据所对应的第一标签预测值。之后,终端设备进一步基于该第一标签预测值的大小来确定该特征样本数据是否属于难样本。从而,终端设备在确定风控客户的特征样本数据不属于难样本时,即可直接将该风控客户划分至易样本客群当中。而终端设备在确定该特征样本数据是属于难样本时,终端设备即将该风控客户划分至难样本客群,之后,进一步调用预先已经训练好的上述预设第二预测模型来计算该风控客户的第二标签预测值,并基于该第二标签预测值对该风控客户进行二次分群处理,以将该风控客户进一步划分至更准确的客群当中。
[0138]
本发明相比于传统基于专家经验进行客户分群的方式或者采用技术分群的方式,通过样本难度这一维度来将风控客户分为难样本客群或者易样本客群,之后,针对被分为难样本客群的特征样本数据还进一步进行模型训练后做进一步分群处理,如此,本发明不仅能够避免风控业务场景中对客户进行分群处理时对于专家经验的依赖,还提高了对风控客户进行分群处理的整体区分力以令客户分群指令得到了保证。并且,本发明提出的针对风控客户进行分群处理的方式可以推广到风控领域的各业务场景中,有效地提高了对客户分群的普适性。
[0139]
此外,本发明通过针对风控客户进行难易样本分群,使得两个客群上各特征维度的权重分布也能更好契合对应客群,从而避免了基于客群特征进行整体风控模型训练时,
强特征权重过大而导致弱特征无法起效的问题,提高了风控模型的鲁棒性,进而有效地提高了风控业务场景中针对客户的风控效果。
[0140]
进一步地,本发明还提供一种风控客户的分群装置,请参照图5,图5为本发明风控客户的分群装置一实施例的功能模块示意图。
[0141]
如图5所示,本发明风控客户的分群装置包括:
[0142]
模型预测模块10,用于将风控客户的特征样本数据输入预设第一预测模型得到所述特征样本数据的第一标签预测值;
[0143]
样本难度确定模块20,用于根据所述第一标签预测值确定所述特征样本数据是否属于难样本;
[0144]
第一分群模块30,用于若所述样本难度确定模块确定为否,则将所述风控客户划分至易样本客群;
[0145]
第二分群模块40,用于若所述样本难度确定模块确定为是,则将所述风控客户划分至难样本客群,并调用预设第二预测模型对所述风控客户进行二次分群处理。
[0146]
进一步地,所述难样本客群包括多个不同样本难度客群;
[0147]
第二分群模块40,还用于将所述特征样本数据输入所述预设第二预测模型得到所述特征样本数据的第二标签预测值;根据所述第二标签预测值确定所述特征样本数据的样本难度;以及,按照所述样本难度将所述风控客户划分至多个所述不同样本难度客群中的目标客群。
[0148]
进一步地,本发明风控客户的分群装置还包括:
[0149]
模型构建模块,用于采集客户特征数据以构建整体训练样本;和,基于所述整体训练样本进行第一初始模型训练,得到基于客户特征数据计算第一标签预测值的预设第一预测模型。
[0150]
进一步地,本发明风控客户的分群装置的模型构建模块,还用于根据所述第一标签预测值和所述整体训练样本进行第二初始模型训练,得到基于所述客户特征数据计算第二标签预测值的预设第二预测模型,其中,进行所述第二初始模型训练采用的算法与进行所述第一初始模型训练采用的算法不同。
[0151]
进一步地,模型构建模块,包括:
[0152]
确定单元,用于确定难易样本切分点;
[0153]
样本切分单元,用于根据所述第一标签预测值和所述难易样本切分点,将所述整体训练样本切分为难样本和易样本;
[0154]
模型训练单元,用于基于所述难样本进行第二初始模型训练。
[0155]
进一步地,所述难易样本切分点包括:第一切分点和第二切分点,所述第一切分点的取值大于0且小于所述第二切分点的取值,所述第二切分点的取值小于1。
[0156]
进一步地,样本切分单元,还用于从所述整体训练样本中确定所述第一标签预测值大于0且小于所述第一切分点的取值的第一目标样本,和,确定所述第一标签预测值大于所述第二切分点的取值且小于1的第二目标样本;将所述第一目标样本和所述第二目标样本切分为易样本;从所述整体训练样本中确定所述第一标签预测值大于所述第一切分点的取值,且小于大于所述第二切分点的取值的第三目标样本;以及,将所述第三目标样本切分为难样本。
[0157]
其中,上述风控客户的分群装置中各个模块的功能实现与上述风控客户的分群方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
[0158]
本发明还提供一种计算机存储介质,该计算机存储介质上存储有风控客户的分群程序,所述风控客户的分群程序被处理器执行时实现如以上任一项实施例所述的风控客户的分群方法的步骤。
[0159]
本发明计算机存储介质的具体实施例与上述风控客户的分群方法各实施例基本相同,在此不作赘述。
[0160]
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如以上任一项实施例所述的风控客户的分群方法的步骤。
[0161]
本发明计算机存储介质的具体实施例与上述风控客户的分群方法各实施例基本相同,在此不作赘述。
[0162]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0163]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0164]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0165]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1