一种基于银行数据的外出务工人员识别方法、设备及介质与流程

文档序号：23817667发布日期：2021-02-03 13:55阅读：180来源：国知局

[0001]
本发明涉及银行特定客户群体识别技术领域，特别是指一种基于银行数据的外出务工人员识别方法、设备及介质。

背景技术：

[0002]
随着金融行业相关技术的发展，金融行业正发生着巨变。伴随着消费金融和互联网金融等新兴金融公司的兴起，商业银行面临着严峻的挑战。同时，由于各个商业银行的经营模式逐步完善，使得银行间的业务水平的差异也逐渐减小，各家银行逐步趋于同质化，根据银行自己客户的特点定制相关的营销策略，是在日益激烈的竞争中取得胜利的重要一环。
[0003]
贵州是劳务输出大省，在对外出务工人员的服务上，贵州农信做出了巨大的努力和贡献，为农民工提供金融知识、致富信息和维权帮助，给予农民工群体最大的关怀。而准确、有效地识别出农民工群体，对后续的服务、精准营销有很大的帮助。
[0004]
在外出务工人群的识别中，传统的方法是借助开户登记系统，在客户首次与银行接触的时候，显示为其添加外出标签，而由于人群的流动、以及标签时效的不确定性，导致此类标签的准确率随时间的变化大打折扣；此外通过业务人员的电话问询、回访的方式可以纠正部分标签，但由于投入成本过大，此方法不适合大规模、周期性进行；再者是通过专家规则进行识别，此方法能取得一定的成果，但由于规则往往受限于主观认知，且部分规则难于实现“可计算化”，因此仅能有限的识别目标群体，同时随着时间的发展，后续还需耗费人力更新、维护专家规则，以保持其有效性。
[0005]
上述方法在外出务工人群的识别中效率和准确率都得不到保障。目前利用机器学习的方法，提取客户的特征数据，结合得到准确性保障的样本数据，通过监督学习的算法，自动学习出识别规则，以识别目标群体。但能否准确有效地识别、以及学习到的规则是否具有泛化性，往往取决于如何提取客户的特征、以及能否获取准确的训练样本。同时将银行客户按照资产、偏好与负债等属性进行划分，是大多数银行的管理模式，然而商业银行客户数据通常具有高维复杂性，使得选择特征的困难程度也会随之增长。同时开户时记录的标签的准确性得不到保障，通过人工调查的方式获取大量准确的样本标签，会产生很大的成本，获取的样本量过少又会导致学习出的模型有较大方差、泛化性低下，如何在尽可能少的成本下获取满足学习算法需要的样本充满了挑战。

技术实现要素：

[0006]
本发明的目的是提供一种基于银行数据的外出务工人员识别方法、设备及介质，以尽可能低的成本取得外出务工人员的识别模型，并且拥有较高的准确性和泛化性。
[0007]
为实现上述技术目的，本发明采用如下技术方案：
[0008]
一种基于置信学习的外出务工人员识别方法，包括以下步骤：
[0009]
步骤1，构建监督样本集；
[0010]
获取银行的大量客户数据，从中提取与外出标签关联的客户特征并作为样本的特征向量，以开户登记的外出标签作为样本标签，构建弱监督样本集w
d
；
[0011]
从弱监督样本集中选择部分样本，通过人工验证对应客户是否外出，并以验证的结果作为样本标签，构建强监督样本集s
d
；
[0012]
步骤2，构建分类模型，利用弱监督样本集w
d
和强监督样本集s
d
对分类模型进行训练，得到外出务工识别模型；
[0013]
步骤3，对待识别客户，从其客户数据中提取客户特征，将客户特征输入至外出务工识别模型，输出得到待识别客户是否为外出务工人员。
[0014]
在更优的技术方案中，所述客户特征包括客户基础属性、交易数据、位置相关的交易数据、以及资产负债信息四类特征；所述客户基础属性包括客户的性别、年龄和户龄；所述交易数据包括预设时段内的收入与消费数据、线下存取款数据；所述位置相关的交易数据是指异地的收入与消费数据；所述资产负债信号包括定期存款、活期存款和贷款信息。
[0015]
在更优的技术方案中，客户基础属性类特征中，若客户数据中性别未知、年龄超过相应预设值或者户龄超过相应预设值，则将其客户特征中的对应特征值设置为缺失；交易数据类特征和位置相关的交易数据类特征中，是将真实金额数据进行对数转换后得到的值作为对应特征值。
[0016]
在更优的技术方案中，步骤1在获取银行的大量客户数据时，选择开户时间在预设范围内的客户数据。
[0017]
在更优的技术方案中，利用弱监督样本集w
d
和强监督样本集s
d
对分类模型进行训练的具体步骤为：
[0018]
步骤2.1，将强监督样本集s
d
和弱监督样本集w
d
中的样本，分别赋予权重w
s
和w
w
，且w
s
>w
w
，然后合并为训练集；
[0019]
步骤2.2，选择xgboost算法，使用训练集通过交叉验证和网格搜索确定xgboost算法的超参数构建分类模型xgb0；
[0020]
步骤2.3，在强监督样本集s
d
和弱监督样本集w
d
的多组权重组合中，通过置信学习算法使用分类模型的预测结果和样本标签，识别出弱监督样本集中的噪声样本，然后更新噪声样本的权重，在多次迭代中得到每组权重组合下最优的加权样本集和分类模型；
[0021]
步骤2.4，通过计算所有权重组合下的识别模型的评估指标，确定强监督样本集s
d
和弱监督样本集w
d
最优的权重组合，使用该权重组合的训练集并采用xgboost算法训练分类模型，得到最终的外出务工识别模型。
[0022]
在更优的技术方案中，步骤2.3的具体步骤为：
[0023]
步骤2.3.1：设置多组权重组合w＝{(w
s1
,w
w1
),(w
s2
,w
w2
),
…
}；
[0024]
步骤2.3.2：选定一组权重组合(w
si
,w
wi
)，作为相应样本的初始权重(w
si(0)
,w
wi(0)
)；
[0025]
步骤2.3.3：利用样本加权后的训练集对分类模型xgb0进行训练，得到分类模型
[0026]
步骤2.3.4：利用分类模型的预测结果和原始标签y进行置信学习，计算得到噪声样本集即其中
为弱监督样本集在第i组权重组合第t次权重迭代得到的噪声样本子集，为强监督样本集在第i组权重组合第t次权重迭代得到的噪声样本子集；
[0027]
步骤2.3.5：更新噪声样本子集的权重，即对于噪声样本子集中第j个噪声样本的权重w
ij(t)
，在第t次迭代进行更新为，w
ij(t)
←
w
ij(0)
×
α
t
＝w
ij(t-1)
×
α，t为当前迭代次数，α为权重衰减系数，且0<α<1；
[0028]
步骤2.3.6：对当前的权重组合，反复迭代步骤2.3.3-2.3.5，直到分类模型的评估指标收敛，即评估指标不随权重更新发生变化，即得到当前权重组合下最优的分类模型以及对应的评估指标值，t为评估指标收敛时的迭代次数；
[0029]
步骤2.3.7：选择不同的权重组合进行步骤2.3.3-2.3.6；从所有权重组合中选择评估指标最高的分类模型作为最终的外出务工识别模型。
[0030]
在更优的技术方案中，采用分类准确率作为评估指标。
[0031]
在更优的技术方案中，所述步骤2.3.4中使用的置信学习算法，基于分类噪声过程假设，假定噪声以类别为条件，仅依赖于“潜在正确”的类别，不依赖于数据，通过估计预测标签的概率与潜在正确的样本标签之间的条件概率分布来识别噪声样本标签。
[0032]
本发明还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述的方法技术方案。
[0033]
本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时上述任一所述的方法技术方案。
[0034]
有益效果
[0035]
本发明的有益效果为：
[0036]
1)无需耗费过多的人力资源通过调查、电访的方式获取大量带标签样本，仅需获取少量的验证样本构建强监督样本集，便能与弱监督样本集共同完成模型训练，降低成本；
[0037]
2)结合置信学习和权重更新的方法，可将存在噪声的样本(弱监督样本集)加入训练集，这部分样本虽然存在噪声，但通过本发明的方法，通过降低噪声样本的权重来降低噪声样本对预测模型带来的负面影响，从某种程度上来说相当于对噪声数据进行了净化；而净化后的数据加入训练集增加了样本的多样性，在原来的基础上模型的泛化能力得到了提升；
[0038]
3)本发明使用了梯度提升算法族中的xgboost算法，该算法对缺失值不敏感，因此无需对缺失值进行插值处理；而且通过显示的正则化方法约束模型的复杂度，避免过拟合；同时得益于对目标函数的二阶导数近似以及并行的特征排序、特征分割收益计算的技术，加快了模型的收敛速度，以及模型中子树的构建速度；
[0039]
4)本发明中的提取特征的方法，结合了专家规则，通过这样的方法选择客户特征，在减少特征探索和选择的同时，能够抓住刻画银行客户目标群体的特点的特征指标，将定性指标分解为定量指标的组合，简单有效的建立和训练识别模型；
[0040]
5)对于后续模型的更新迭代，得益于本发明中将噪声数据与准确数据分为弱监督样本集和强监督样本集，并将其组合为具有恰当权重的混合样本集训练的方法训练分类模型，后续的迭代更新只需适当的调整、增加强监督数据集，重新训练模型即可。
附图说明
[0041]
图1是本发明方法的总体流程图；
[0042]
图2是构建训练样本数据方法的流程图；
[0043]
图3是本发明构建分类模型方法的流程图；
[0044]
图4是本发明外出务工人员识别的流程图。
具体实施方式
[0045]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0046]
本实施例提供一种基于银行数据的外出务工人员识别方法，如图1所示，包括以下步骤：
[0047]
步骤1，参考图2所示构建监督样本集；
[0048]
步骤1.1，构建弱监督样本集
[0049]
由于客户开户登记时的外出标签随着时间的变化，人员流动存在的不确定性，会导致实际外出估计的准确率有所降低。但短期时间范围内，这样的扰动相对较少，因此这段时间范围内的数据具有一定的准确性。因此，本实施例首先获取银行在恰当时间范围内的大量客户数据，从中提取与外出标签关联的客户特征并作为样本的特征向量，以开户登记的外出标签作为样本标签，构建弱监督样本集w
d
。从而避免耗费过多的人力资源通过调查、电访的方式获取大量带标签的强监督样本，而且弱监督样本权衡了时间因素的准确性和样本种类的多样性，提高外出务工人员识别模型的泛化能力。
[0050]
其中，客户特征是根据专家规则确定，相比盲目从客户数据的各种属性维度中提取特征，能更容易抓住银行客户目标群体的特点，大大减轻客户特征的提取工作，同时有助于识别准确率的提升，能够很大程度上提高泛化能力，并能有效缩短学习时间。
[0051]
具体的，提取客户特征的具体过程是：结合调研的专家规则，其中涉及地理位置、交易数据、客户属性三个大类的规则，由于部分规则难以实现可计算化与数学表征(如使用外行卡定期给某地区本行卡打款)，同时数据缺失也导致规则的有效性大大降低。因此，本实施例结合专家规则，并补充额外的资产负债信息，最终提取的客户特征包括客户基础属性、交易数据、位置相关的交易数据、以及资产负债信息四类特征；所述客户基础属性包括客户的性别、年龄和户龄；所述交易数据包括预设时段内的收入与消费数据、线下存取款数据；所述位置相关的交易数据是指异地的收入与消费数据；所述资产负债信号包括定期存款、活期存款和贷款信息。客户特征明细如表1所示：
[0052]
表1特征明细
[0053][0054]
本实施例具体提取到62个客户特征，直接或间接的蕴含了专家规则中涉及的判断指标。由于存在数据质量问题，对客户基础属性特征进行数据清理：(1)客户基础属性类特征中，若客户数据中性别未知、年龄超过相应预设值或者户龄超过相应预设值，则将其客户特征中的对应特征值设置为缺失；(2)交易数据类特征和位置相关的交易数据类特征中，由于金额类型的字段数值差异过大，为减轻量纲过大带来的影响，因此将真实金额数据进行对数转换后得到的值作为对应特征值，对数转换公式为：amt为真实金额数据，为对数转换后得到的特征值。
[0055]
步骤1.2，构建强监督样本集
[0056]
从弱监督样本集中选择适当数量的部分样本，通过人工验证对应客户是否外出，并以验证的结果作为样本标签，构建强监督样本集s
d
。强监督样本由于经过人工验证，因此样本标签的准确高。
[0057]
步骤2，构建分类模型，利用弱监督样本集w
d
和强监督样本集s
d
对分类模型进行训练，得到外出务工识别模型；参考图3所示，具体包括：
[0058]
步骤2.1，将强监督样本集s
d
和弱监督样本集w
d
中的样本，分别赋予权重w
s
和w
s
，且w
s
>w
s
，然后合并为训练集；
[0059]
步骤2.2，选择xgboost算法，使用训练集通过交叉验证和网格搜索确定xgboost算法的超参数构建分类模型xgb0；其中超参数为argmin
θ
loss(y,xgb(x；θ))的实验最优解，通常这一步的整体准确率较低，与弱监督数据集的质量有关，但不妨碍确定表现较好的超参数
[0060]
步骤2.3，在强监督样本集s
d
和弱监督样本集w
d
的多组权重组合中，通过置信学习算法使用分类模型的预测结果和样本标签，识别出弱监督样本集中的噪声样本，然后更新噪声样本的权重，在多次迭代中得到每组权重组合下最优的加权样本集和识别模型；其中，加权样本集是指所有附有权重的样本构成的训练集；具体包括以下步骤：
[0061]
步骤2.3.1：设置多组权重组合w＝(w
s1
,w
w1
),(w
s2
,w
w2
),
…
}；
[0062]
步骤2.3.2：选定一组权重组合(w
si
,w
wi
)，作为相应样本的初始权重(w
si(0)
,w
wi(0)
)；
[0063]
步骤2.3.3：利用样本加权后的训练集，采用xgboost算法对分类模型xgb0进行训练，得到分类模型
[0064]
步骤2.3.4：利用分类模型的预测结果和原始标签y进行置信学
习，计算得到噪声样本集即其中其中为弱监督样本集在第i组权重组合第t次权重迭代得到的噪声样本子集，为强监督样本集在第i组权重组合第t次权重迭代得到的噪声样本子集；
[0065]
本步骤2.3.4中使用的置信学习算法，基于分类噪声过程假设，假定噪声样本以类别为条件，仅依赖于“潜在正确”的类别，不依赖于数据，通过估计预测标签的概率与潜在正确的标签之间的条件概率分布来识别噪声样本标签。
[0066]
步骤2.3.5：更新噪声样本子集的权重，即对于噪声样本子集中第j个噪声样本的权重w
ij(t)
，在第t次迭代进行更新为，w
ij(t)
←
w
ij(0)
×
α
t
＝w
ij(t-1)
×
α，t为当前迭代次数，α为权重衰减系数，且0<α<1；
[0067]
步骤2.3.6：对当前的权重组合，反复迭代步骤2.3.3-2.3.5，直到分类模型的评估指标收敛，即评估指标不随权重更新发生变化，即得到当前权重组合下最优的加权样本集和分类模型以及对应的评估指标值，t为评估指标收敛时的迭代次数；本实施例采用准确率作为评估指标；
[0068]
步骤2.3.7：选择不同的权重组合进行步骤2.3.3-2.3.6；
[0069]
步骤2.4，通过计算所有权重组合下的识别模型的评估指标，确定强监督样本集s
d
和弱监督样本集w
d
最优的权重组合，使用该权重组合下最优的加权样本集和评估指标收敛时的迭代次数训练分类模型，得到最终的外出务工识别模型。
[0070]
步骤3，利用训练得到的外出务工识别模型对待识别的客户进行预测，识别外出务工人员：
[0071]
参考图4所示，首先确定待识别的客户名单；然后对待识别客户，从其客户数据中提取外出务工识别模型所需的62个客户特征数据，作为外出务工识别模型的输入数据，输入至外出务工识别模型，输出得到待识别客户是否为外出务工人员。
[0072]
本发明还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例所述的方法。
[0073]
本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述实施例所述的方法
[0074]
以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹卓英;龙军
技术所有人：中南大学
我是此专利的发明人

上一篇：一种新型放射性标记抗癌药的合成标记方法与流程
上一篇：FC交换机调度方法、装置、电子设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。