借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置与流程

文档序号:16790809发布日期:2019-02-01 19:37阅读:184来源:国知局
借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置与流程

本申请涉及信息处理技术领域,尤其是涉及一种借贷欺诈检测模型训练方法及装置。



背景技术:

随着互联网金融的快速发展,伴随而来的是互联网欺诈及信贷风险发生率的上升。据统计数据显示,近年来我过消费金融行业资产不良率呈不断上升趋势,中国互联网欺诈风险已在全球排名前三,网络犯罪每年给全球带来高达4450亿美元的经济损失,日益复杂并向不同行业渗透。

互联网金融风险包含信用风险和操作风险,信用风险即客户在发起借款请求时即无意还款。其中信用风险中欺诈类居高,消费金融的坏账损失超过50%来源于欺诈。

为了规避借贷中的欺诈行为,目前借贷平台处理用户的借贷请求的时候基本上都是采取人工审核的方式,审核用户在进行借贷申请的时候为了证明自己的身份信息往往需要提供一些能够反应个人信息的材料,一般包括:学历证明,收入证明,职业信息,地域信息,历史银行流水信息等。

一般来说,借贷平台只会对其认定的具有还款能力并且消费行为正常的借贷者发放贷款,其中银行流水信息是衡量一个用户还款能力的最重要的维度。每个月拥有固定收入以及符合规律的消费行为记录将能够帮助用户高概率的通过借贷平台的审核。基于此类放贷规则,现在很多黑产中介会通过伪造银行流水的方式帮助借贷用户进行隐瞒自身资质以达到贷款目的,此类借款人往往存在逾期甚至失联等高风险。

在信贷平台对借贷用户进行信用审核的时候基本上都是依靠业务人员的专家经验进行判断,由于银行历史流水信息往往比较繁杂,涉及的信息的体量比较大,单纯由人工审核的话不但效率低下,而且很难综合银行流水数据和用户个人信息得出整体的正确结论。



技术实现要素:

有鉴于此,本申请实施例的目的在于提供一种借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置,能够提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。

第一方面,提供一种借贷欺诈检测模型训练方法,包括:

获取多个样本用户的身份信息、用户银行流水信息,以及与每个用户对应的欺诈标签信息;

针对每个所述样本用户,根据该样本用户的身份信息构建身份特征向量,并使用第一向量变换矩阵对所述身份特征向量进行非线性变换,获得该样本用户的行为模式向量;

根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量;

将所述样本用户的用户行为模式向量与所述流水特征向量进行拼接,生成该样本用户的目标特征向量,其中,所述目标特征向量用于表述所述用户的行为模式以及收入支出情况;

将各个所述样本用户的所述目标特征向量输入至目标神经网络,获取各个所述样本用户的目标特征向量的欺诈检测结果;

根据各个所述样本用户的欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、所述第一向量变换矩阵以及所述第二向量变换矩阵进行训练,得到所述借贷欺诈检测模型。

结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述身份信息包括:多个身份特征下的特征值;

所述根据该样本用户的身份信息构建身份特征向量,包括:

根据该样本用户在多个身份特征下的特征值,生成该样本用户的身份特征向量。

结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述根据该样本用户的身份信息构建身份特征向量,并使用第一向量变换矩阵对所述身份特征向量进行非线性变换,获得该样本用户的行为模式向量,包括:

计算所述身份特征向量以及所述第一向量变换矩阵的乘积,并使用预设的线性变换函数,对所述身份特征向量以及所述第一向量变换矩阵的乘积结果进行非线性运算,获得该样本用户的行为模式向量。

结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量,具体包括:

根据至少一个预设时长、所述第二向量变换矩阵以及该样本用户的银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;

根据所述行为模式向量和所述多个不同时间段的流水数据向量,生成每个时间段的流水数据向量对应的权重;

根据所述每个时间段的流水数据向量,将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。

结合第一方面的第三种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述根据至少一个预设时长、所述第二向量变换矩阵以及该样本用户的银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量,具体包括:

针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;

根据所述第二向量变换矩阵,对该样本用户的原始流水数据向量进行变换处理,生成该时间段的流水数据向量。

结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述根据所述第二向量变换矩阵,对该样本用户的原始流水数据向量进行变换处理,生成该时间段的流水数据向量,具体包括:

对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成变换流水数据向量;

根据第二向量变换矩阵,对所述变换流水数据向量进行流水信息变换,得到该时间段的流水数据向量。

结合第一方面的第五种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的变换流水数据向量。

结合第一方面的第六种可能的实施方式,本申请实施例提供了第一方面的第七种可能的实施方式,其中,所述基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成变换流水数据向量,包括:

按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;

根据各次选择对应的变换数据,构成所述变换流水数据向量;

其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。

结合第一方面的第七种可能的实施方式,本申请实施例提供了第一方面的第八种可能的实施方式,其中,所述根据所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据,生成变换数据,包括:

将所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据进行加权求和,将加权求和的结果作为所述变换数据;

或者,

将所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据的均值作为所述变换数据。

结合第一方面的第五种可能的实施方式,本申请实施例提供了第一方面的第九种可能的实施方式,其中,采用下述方式对所述原始流水数据向量进行消除差距变换:

针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

使用所述变换向量中的首元素,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

结合第一方面的第五种可能的实施方式至第一方面的第九种可能的实施方式,本申请实施例提供了第一方面的第十种可能的实施方式,包括,采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换向量;

并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

使用所述变换向量中的首元素,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

结合第一方面的第五种可能的实施方式,本申请实施例提供了第一方面的第十一种可能的实施方式,其中,所述根据第二向量变换矩阵,对所述变换流水数据向量进行流水信息变换,得到该时间段的流水数据向量,包括:

计算所述变换流水数据向量与所述第二向量变换矩阵的乘积;

将所述所述变换流水数据向量与所述第二向量变换矩阵的乘积的结果作为所述流水数据向量。

结合第一方面,本申请实施例提供了第一方面的第十二种可能的实施方式,其中,所述用户流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;

根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量,包括:

根据所述收入流水信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成所述收入流水特征向量;

根据所述支出流水信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成所述支出流水特征向量;以及,

根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成流水交互特征向量。

结合第一方面的第十二种可能的实施方式,本申请实施例提供了第一方面的第十三种可能的实施方式,其中,所述根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,包括:

根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;

计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。

结合第一方面,本申请实施例提供了第一方面的第十四种可能的实施方式,其中,根据各个所述样本用户的欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、所述第一向量变换矩阵以及所述第二向量变换矩阵进行训练,包括:

将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;

根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型、所述第一向量变换矩阵以及所述第二向量变换矩阵的参数;

将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,

使用调整了参数后的所述目标神经网络模型、所述第一向量变换矩阵以及所述第二向量变换矩阵,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;

直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;

经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。

结合第一方面的第十三种可能的实施方式,本申请实施例提供了第一方面的第十五种可能的实施方式,其中,所述完成对所述目标神经网络模型的本轮训练后,还包括:

检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型;

或者,

使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型;

或者,

依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型。

第二方面,本申请实施例还提供一种借贷欺诈检测方法,包括:

获取待检测用户的身份信息和用户银行流水信息;

基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的身份特征向量以及第一向量变换矩阵,构建待检测用户的行为模式向量;

根据所述待检测用户的行为模式向量、第二变换矩阵以及所述用户银行流水信息,构建待检测用户的流水特征向量;

根据所述待检测用户的行为模型向量和所述待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;

将所述待检测用户的目标特征向量输入通过第一方面任意一项所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果。

第三方面,提供一种借贷欺诈检测模型训练装置,包括:

第一获取模块,用于获取多个样本用户的身份信息、用户银行流水信息,以及与每个用户对应的欺诈标签信息;

第一构建模块,用于针对每个所述样本用户,根据该样本用户的身份信息构建身份特征向量,并使用第一向量变换矩阵对所述身份特征向量进行非线性变换,获得该样本用户的行为模式向量;

第二构建模块,用于根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量;

向量拼接模块,用于将所述样本用户的用户行为模式向量与所述流水特征向量进行拼接,生成该样本用户的目标特征向量,其中,所述目标特征向量用于表述所述用户的行为模式以及收入支出情况;

训练模块,用于将所述样本用户的所述目标特征向量输入至目标神经网络,获取所述样本用户的目标特征向量的欺诈检测结果;并根据所述样本用户的欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、所述第一向量变换矩阵以及所述第二向量变换矩阵进行训练,得到所述借贷欺诈检测模型。

结合第三方面,本申请实施例提供了第三方面的第一种可能的实施方式,其中,所述身份信息包括:多个身份特征下的特征值;

所述第一构建模块,在用于所述根据该样本用户的身份信息构建身份特征向量时,具体用于:

根据该样本用户在多个身份特征下的特征值,生成该样本用户的身份特征向量。

结合第三方面,本申请实施例提供了第三方面的第二种可能的实施方式,其中,所述第一构建模块,在用于所述根据该样本用户的身份信息构建身份特征向量,并使用第一向量变换矩阵对所述身份特征向量进行非线性变换,获得该样本用户的行为模式向量时,具体用于:

计算所述身份特征向量以及所述第一向量变换矩阵的乘积,并使用预设的线性变换函数,对所述身份特征向量以及所述第一向量变换矩阵的乘积结果进行非线性运算,获得该样本用户的行为模式向量。

结合第三方面,本申请实施例提供了第三方面的第三种可能的实施方式,其中,所述第二构建模块,在用于所述根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量时,具体用于:

根据至少一个预设时长、所述第二向量变换矩阵以及该样本用户的银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;

根据所述行为模式向量和所述多个不同时间段的流水数据向量,生成每个时间段的流水数据向量对应的权重;

根据所述每个时间段的流水数据向量,将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。

结合第三方面的第三种可能的实施方式,本申请实施例提供了第三方面的第四种可能的实施方式,其中,所述第二构建模块,在用于所述根据至少一个预设时长、所述第二向量变换矩阵以及该样本用户的银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量时,具体用于:

针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;

根据所述第二向量变换矩阵,对该样本用户的原始流水数据向量进行变换处理,生成该时间段的流水数据向量。

结合第三方面的第四种可能的实施方式,本申请实施例提供了第三方面的第五种可能的实施方式,其中,所述第二构建模块,在用于所述根据所述第二向量变换矩阵,对该样本用户的原始流水数据向量进行变换处理,生成该时间段的流水数据向量时,具体用于:

对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成变换流水数据向量;

根据第二向量变换矩阵,对所述变换流水数据向量进行流水信息变换,得到该时间段的流水数据向量。

结合第三方面的第五种可能的实施方式,本申请实施例提供了第三方面的第六种可能的实施方式,其中,所述第二构建模块,在用于对所述原始流水数据向量进行增强型鲁棒性变换时,具体用于:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的变换流水数据向量。

结合第三方面的第六种可能的实施方式,本申请实施例提供了第三方面的第七种可能的实施方式,其中,所述第二构建模块,在基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成变换流水数据向量时,具体用于:

按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;

根据各次选择对应的变换数据,构成所述变换流水数据向量;

其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。

结合第三方面的第七种可能的实施方式,本申请实施例提供了第三方面的第八种可能的实施方式,其中,所述第二构建模块,在用于根据所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据,生成变换数据时,具体用于:

将所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据进行加权求和,将加权求和的结果作为所述变换数据;

或者,

将所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据的均值作为所述变换数据。

结合第三方面的第五种可能的实施方式,本申请实施例提供了第三方面的第九种可能的实施方式,其中,所述第二构建模块,在用于对所述原始流水数据向量进行消除差距变换时,具体用于:

针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

使用所述变换向量中的首元素,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

结合第三方面的第五种可能的实施方式至第三方面的第九种可能的实施方式,本申请实施例提供了第三方面的第十种可能的实施方式,其中,所述第二构建模块,在用于对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换时,具体用于:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换向量;

并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

使用所述变换向量中的首元素,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

结合第三方面的第五种可能的实施方式,本申请实施例提供了第三方面的第十一种可能的实施方式,其中,所述第二构建模块,在用于根据第二向量变换矩阵,对所述变换流水数据向量进行流水信息变换,得到该时间段的流水数据向量时,具体用于:

计算所述变换流水数据向量与所述第二向量变换矩阵的乘积;

将所述所述变换流水数据向量与所述第二向量变换矩阵的乘积的结果作为所述流水数据向量。

结合第三方面,本申请实施例提供了第三方面的第十二种可能的实施方式,其中,所述用户流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;

所述第二构建模块,在用于根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量时,具体用于:

根据所述收入流水信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成所述收入流水特征向量;

根据所述支出流水信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成所述支出流水特征向量;以及,

根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成流水交互特征向量。

结合第三方面的第十二种可能的实施方式,本申请实施例提供了第三方面的第十三种可能的实施方式,其中,所述第二构建模块,在用于所述根据所述收入流水信息以及所述支出流水信息,生成流水交互信息时,具体用于:

根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;

计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。

结合第三方面,本申请实施例提供了第三方面的第十四种可能的实施方式,其中,所述训练模块,在用于根据各个所述样本用户的欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、所述第一向量变换矩阵以及所述第二向量变换矩阵进行训练时,具体用于:

将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;

根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型、所述第一向量变换矩阵以及所述第二向量变换矩阵的参数;

将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,

使用调整了参数后的所述目标神经网络模型、所述第一向量变换矩阵以及所述第二向量变换矩阵,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;

直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;

经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。

结合第三方面的第十二种可能的实施方式,本申请实施例提供了第三方面的第十五种可能的实施方式,其中,所述训练模块,在用于完成对所述目标神经网络模型的本轮训练后,还包括:

检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型;

或者,

使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型;

或者,

依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型。

第四方面,本申请实施例提供了一种借贷欺诈检测装置,该装置包括:

第二获取模块,用于获取待检测用户的身份信息和用户银行流水信息;

第三构建模块,用于基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的身份特征向量以及第一向量变换矩阵,构建待检测用户的行为模式向量;

第四构建模块,用于根据所述待检测用户的行为模式向量、第二变换矩阵以及所述用户银行流水信息,构建待检测用户的流水特征向量;

拼接模块,用于根据所述待检测用户的行为模型向量和所述待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;

检测模块,用于将所述待检测用户的目标特征向量输入通过第一方面任意一项所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果。

本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,并基于用户的身份信息生确定其行为模式,并将用户个人的行为模式合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的借贷欺诈检测模型训练方法的流程图;

图2示出了本申请实施例所提供的一种根据用户银行流水信息、用户的行为模式向量以及第二向量变换矩阵,构建流水特征向量的方法流程图;

图3示出了本申请实施例所提供的一种生成时长为预设时长的多个不同时间段的流水数据向量的方法流程图;

图4示出了本申请实施例所提供的一种得到变换流水数据向量后,构建流水数据向量的方法流程图;

图5示出了本申请实施例所提供的一种根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、第一向量变换矩阵以及第二向量变换矩阵进行训练的方法流程图;

图6示出了本申请实施例所提供的一种借贷欺诈检测方法流程示意图;

图7示出了本申请实施例所提供的一种借贷欺诈检测模型训练装置700的示意图;

图8示出了本申请实施例所提供的一种借贷欺诈检测装置800的示意图;

图9示出了本申请实施例所提供的一种计算机设备900结构示意图;

图10示出了本申请实施例所提供的一种计算机设备100结构示意图;

图11示出了本申请实施例所提供的使用滑动窗口法对原始流水数据向量进行变换,生成变换向量的示意图;

图12示出了本申请实施例所提供的对变换向量进行消除差距变换,得到变换流水数据向量的示意图;

图13示出了本申请实施例所提供的根据第二向量变换矩阵,对变换流水数据向量进行流水信息变换的示意图;

图14示出了本申请实施例所提供的对流水数据向量进行加权求和,得到流水特征向量的示意图;

图15示出了本申请实施例所提供的构建目标特征向量的流程示意图。

具体实施方式

目前的信贷行业都是通过人工审核发起借贷请求的发起人是否具有较高的可信度,效率低下,且识别的准确率低,且耗费的人力成本较大。基于此,本申请实施例提供一种借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置,能够通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,并基于用户的身份信息生确定其行为模式,并将用户个人的行为模式合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。

下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

为便于对本实施例进行理解,首先对本申请实施例所公开的一种街道欺诈检测模型训练方法进行详细介绍。

实施例一

参见图1所示,为本申请实施例一提供的借贷欺诈检测模型训练方法的流程图,所述方法包括步骤s101~s106,其中:

s101、获取多个样本用户的身份信息、用户银行流水信息,以及与每个用户对应的欺诈标签信息。

在具体实现的时候,样本用户在筛选的时候,是从发起了借贷申请,并且已经向其发放了贷款的用户中进行筛选的。

用户的身份信息是用于表征用户身份的相关信息,其不仅仅是单一的如身份证号码、姓名等身份信息,而是基于一系列的社会属性所构成的用户的身份,例如,该身份信息可以包括:用户学历、职业、所属地域、性别、年龄、家庭关系、在其他平台的信用信息、资产情况等等。

用户银行流水信息可以是样本用户在发起借贷之前的预设时常的时间段内,单一一家银行的流水信息,也可以是用户在多家银行的流水信息。用户银行流水信息包括用户通过银行收入的金额以及通过银行支出的金额。

每个样本用户对应的欺诈标注信息,为样本用户发生借贷行为后,对其是否发生了欺诈行为的结果进行标注的标注信息。

s102、针对每个样本用户,根据该样本用户的身份信息构建身份特征向量。

在具体实现的时候,在获取样本用户的身份信息时,是获取每个样本在多个预设的身份特征下的特征值。例如用户学历、职业、所属地域、性别、年龄、家庭关系、在其他平台的信用信息、资产情况中一种或者多种都可以作为身份特征,然后获取该身份特征下的特征值。

在基于身份信息构建身份特征向量的时候,由于原始身份信息的数据形式是不规范的,例如用户的学历包括:小学、初中、高中、大专、本科、硕士、博士中任意一种,而这种对于学历的描述是无法直接构成身份特征向量中的元素的,因此要将不规范的数据转化为格式一致的方便与计算机处理的形式。对于数值特征,例如年龄,直接使用其对应的数据表示身份特征向量中的元素;对于类别特征,例如用户学历,则使用热独(one-hot)的编码方式,即每一个类别特征对应一个0、1组成的向量,该维特征取不同值的时候,这个向量对应的位置取1,其他部分则全部置0。

在将身份信息规范化,得到样本用户在多个身份特征下的特征值后,根据样本用户在多个身份特征下的特征值,并根据样本用户在多个身份特征下的特征值,生成样本用户的身份特征向量。

该身份特征向量能够表征对应样本用户的身份。

参见图15所示,为本申请实施例提供的构建目标特征向量的方法,包括s103~s105之间的步骤,详细如下所述:

s103、使用第一向量变换矩阵对身份特征向量进行非线性变换,获得该样本用户的行为模式向量。

具体实施时,可以计算身份特征向量以及第一向量变换矩阵的乘积,并使用预设的线性变换函数,对身份特征向量以及第一向量变换矩阵的乘积结果进行非线性运算,获得该样本用户的行为模式向量。

其中,所述第一向量变换矩阵为信贷欺诈检测模型的参数矩阵,对信贷欺诈加测模型的训练过程包含对第一向量变换矩阵的调整过程。

例如,可以参照下述公式进行计算:

vu=tanh(m×xu)(1-1)

其中,vu为行为模式向量的元素,xu为身份特征向量的元素,m为第一向量变换矩阵,tanh为双曲正切函数,也即本申请中的非线性变换函数。

其中,双曲正切函数的计算方法为:

其中,x为参数,结合式(1-1),此时x=m×xu。

s104、根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建样本用户的流水特征向量。

在具体实现的时候,用户了银行流水信息包括:收入流水信息和支出流水信息;其中,收入流水信息为用户的收入金额;支出流水信息为用户的支出金额。为了表征用户的收入和支出情况,本申请实施例构建收入流水特征向量、支出流水特征向量以及流水交互特征向量,通过这三个向量来共同表征用户的收入和支出情况。

具体的,收入流水特征向量是根据收入流水信息、第二向量变换矩阵以及用户的行为模式向量生成的;收入特征向量中的每个元素,是对应用户在某天的收入金额总额利用用户行为模式向量以及第二向量变换矩阵经过变换之后的数值;支出流水特征向量中的每个元素,是对应样本用户在某天的支出金额总额利用用户行为模式向量以及第二向量变换矩阵经过变换之后的数值。

流水交互特征向量是根据收入流水信息、支出流水信息、用户的行为模式向量以及第二向量变换矩阵共同构成的。在生成流水交互特征向量的时候,首先根据收入流水信息生成每天的收入总额,并根据支出流水信息生成每天的支出总额,然后计算每天的收入总额和支出总额的差值,并根据用户的行为模式向量以及第二向量变换矩阵对该差值进行变换,然后生成流水交互特征向量。

另外,流水特征向量能够表征用户的支出收入情况。对于正常的用户而言,由于其工作状态、消费习惯等通常具有一定的稳定性,因此其在较长一段时间内的支出和收入情况通常会维持在一个较为稳定的状态。且由于用户的收入通常是周期性的收入,支出也与周期性的收入具有关联性,因此参见图2所示,本申请实施例提供的一种根据用户银行流水信息、用户的行为模式向量以及第二向量变换矩阵,构建流水特征向量的具体方式,包括如下步骤:

s201、根据至少一个预设时长、第二向量变换矩阵以及该样本用户的银行流水信息,生成时长为预设时长的多个不同时间段的流水数据向量。

s202、根据行为模式向量和多个不同时间段的流水数据向量,生成每个时间段的流水数据向量对应的权重。

s203、根据每个时间段的流水数据向量,将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。

在具体实现的时候,预设时长的数量和每个预设时长的时间长度,可以根据实际的需要进行设定。在针对每个预设时长,为该预设时长生成时长为该预设时长的多个不同时间段的流水数据向量后,根据预设时长、第二向量变换矩阵以及用户行为模式向量构建每个时间段的流水数据向量对应的权重,然后将时长为该预设时长的多个不同时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。

此处,所生成的流水特征向量与预设时长一一对应。且不同的预设时长,对应的时间段的数量可以相同,也可以不同。

具体地,流水数据向量包括至少如下两种生成方式:

方式一:一般情况下,时长为每个预设时长的多个时间段的流水数据向量中的每个元素,是时长为该预设时长的各个时间段内,用户每天的流水数据经过用户行为模式向量和第二向量变换矩阵变换后的数据。

以流水数据为支出流水数据,生成的流水数据向量为支出流水数据向量为例,假设预设时长为7天,则生成的时长为7天的多个时间段的支出流水特征向量中,包括7个元素,每个元素为样本用户支出的金额总额经过用户行为模式向量和第二向量变换矩阵变换过的数值;7个元素就是样本用户在连续的7天内每天支出的用户的总额经过用户行为模式向量和第二向量变换矩阵变换过的数值。

方式二:由于直接将根据用户银行流水信息,构建流水数据向量,数据会存在较大的波动,这个波动会为模型带来一定的不稳定因素,虽会经过用户行为模式矩阵和第二向量变换矩阵变换,但仍不能消除上述不稳定因素。另外,由于不同样本用户的收入不同,支出也有差异,这些差异也往往会带来不同样本数据的差异过大,样本数据的差异过大,可能会造成模型训练的收敛速度过慢等问题。因此为了增强模型的鲁棒性,和/或,为了减小不同样本数据之间的差异,本申请另一实施例还会对根据第二向量变换矩阵对原始数据构成的数据向量进行变换,从而生成流水数据向量进行详细介绍。

参见图3所示,可以采用下述方式生成时长为预设时长的多个不同时间段的流水数据向量:

s301、针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量。

此处,则为时长为n天,数量为m个时间长度生成的原始流水数据向量a1~am分别表示为:

a1=[a11,a12,a13,…,a1n]、a2=[a21,a22,a23,…,a2n]、……、

am=[am1,am2,am3,…,amn]。

其中,每个原始流水数据向量中的每个元素,为对应时间段中每天的用户银行流水信息。如果原始流水数据向量是基于支出流水信息构建的,则原始流水数据向量中的各个元素为对应时间段中每天的支出金额总额;如果原始流水数据向量是基于收入流水信息构建的,则原始流水数据向量中的各个元素为对应时间段中每天的收入金额总额;如果原始流水数据向量是基于流水交互信息构建的,则原始流水数据向量中的各个元素为对应时间段中每天收入总额与支出总额的差值。

s302、根据第二向量变换矩阵,对该样本用户的原始流水数据向量进行变换处理,生成该时间段的流水数据向量。

具体地,可以先对原始数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成该时间段的变换流水数据向量,然后再根据第二向量变换矩阵,对变换流水数据向量进行变换,生成流水数据向量。

(1)针对对原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强型鲁棒性变换的情况,采用下述方式对所述原始流水数据向量进行增强型鲁棒性变换:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的变换流水数据向量。

此处,基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,是按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;

根据各次选择对应的变换数据,构成所述变换流水数据向量;

其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。

在根据该次选择的多个元素,生成该次选择对应的变换数据时,可以采用下述两种方式中任意一种:

将该次选择的多个元素进行加权求和,将加权求和的结果作为该次选择对应的变换数据。其中,每次选择的多个元素的权重可以根据实际的需要进行具体的设定。

将该次选择的多个元素的均值作为该次选择对应的变换数据。此处,可以将该种方法看作是特殊的加权求合,也即选择的多个元素的权重均相同。

例如使用滑动窗口法(图中示例窗口大小为3,步长为1)对原始流水数据向量进行转换,得到的与每个原始流水数据向量对应的变换流水数据向量,将选择的多个元素的均值作为该次选择对应的变换数据,则变换数据构成的变换流水数据向量,时长为n天,数量为m个时间长度生成的原始流水数据向量a1~am分别表示为:

a1=[a11,a12,a13,…,a1n]、a2=[a21,a22,a23,…,a2n]、……、

am=[am1,am2,am3,…,amn]。

将原始流水数据向量a1~am分别进行增强鲁棒性变换后生成的变换流水数据向量b1~bm分别为:

……

需要说明的是,上述变换仅仅为滑动窗口法进行数据变换的一个示例,还可以采用其它的窗口大小和步长对原始流水数据向量进行变换。

(2)针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行消除差距变换的情况,采用下述方式对所述原始流水数据向量进行消除差距变换:

针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

针对所述原始流水数据向量中的首元素,将1作为该首元素的差距消除变换结果;

使用所述原始流水数据向量中的首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

例如,将选择的多个元素的均值作为该次选择对应的变换数据,则变换数据构成的变换流水数据向量,时长为n天,数量为m个时间长度生成的原始流水数据向量a1~am分别表示为:

a1=[a11,a12,a13,…,a1n]、a2=[a21,a22,a23,…,a2n]、……、

am=[am1,am2,am3,…,amn]。

则在对原始流水数据向量a1~am进行消除差距变换后,所生成的变换流水数据向量v1~vm分别为:

……

(3)针对将所述原始流水数据向量进行变换处理包括:对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换的情况,采用下述方式对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换流水数据向量;

并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

针对所述变换向量中的首元素,将1作为该首元素的差距消除变换结果;

使用所述变换向量中的首元素的差值消除变换结果,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

例如,将选择的多个元素的均值作为该次选择对应的变换数据,则变换数据构成的变换流水数据向量,时长为n天,数量为m个时间长度生成的原始流水数据向量a1~am分别表示为:

a1=[a11,a12,a13,…,a1n]、a2=[a21,a22,a23,…,a2n]、……、

am=[am1,am2,am3,…,amn]。

使用滑动窗口法(图中示例窗口大小为3,步长为1)对原始流水数据向量进行转换,变换过程如下述图11所示,得到的与每个原始流水数据向量对应的变换向量b1~bm分别为:

……

然后再对变换向量b1~bm分别进消除差距变换,变换过程如下述图12所述,得到的变换流水数据向量v1~vm分别为:

……

通过上述方法得到变换流水数据向量后,可以通过图4所示的方法构建流水数据向量,包括以下步骤:

s401、计算变换流水数据向量与第二向量变换矩阵的乘积;

s402、将变换流水数据向量与第二向量变换矩阵的乘积的结果作为流水数据向量。

具体利用第二向量变换矩阵对变换流水数据向量进行变换的过程参见图13所示,变换流水数据向量v1~vm分别为:

……

设第二向量变换矩阵为n,则流水数据向量为:

t1=v1*n、t2=v2*n、……、tm=vm*n。

其中,所述第二向量变换矩阵为信贷欺诈检测模型的参数矩阵,对信贷欺诈检测模型的训练过程包含对第二向量变换矩阵的调整过程。

在生成时长为所述预设时长的多个不同时间段的流水数据向量后,就能够根据所述行为模式向量和所述多个不同时间段的流水数据向量,生成每个时间段的流水数据向量对应的权重。

例如,在根据行为模式向量和多个不同时间段的在将时长为该预设时长的各个时间段的流水数据向量进行加权求和的加权系数αk可以采用下述公式生成:

其中,vu表示用户行为模式向量,m表示流水数据向量的个数,k表示第k个流水数据向量。

基于加权系数αk对时长为预设时长的多个不同时间段的流水数据向量t1~tm进行加权求和,得到流水特征向量的过程如图14所示。

具体地,由于行为模式向量本身能够表征用户的行为模式,行为模式向量中的元素的数值越大,则证明该行为在用户行为中的重要程度也就越重要,用户的“注意力”也就越集中在该种行为中。根据行为模式向量和多个不同时间段的流水数据向量,生成每个时间段的流水数据向量对应的权重后,将时长为该预设时长的各个时间段的流水数据向量进行加权求和的结果中,对应行为对所构成的流水特征向量的影响也就越大,当基于这种流水特征向量对模型进行训练时,借贷欺诈检测模型受到用户重要行为的影响也就越大,从而实现了对借贷欺诈检测模型的基于注意力机制的训练。

另外,在本申请另一实施例中,在构建流水特征向量之前,还可以包括:对银行流水数据进行下述处理中至少一项:数据清洗处理、数据增强处理以及特征筛选与标准化处理。

1:数据清洗处理:因为数据在采集和传输的过程中可能出现错误与丢失,故该模型的作用是清除特征分布异常数据和对有缺失值的特征数据进行填充处理。在清除异常数据部分使用的算法是孤立森林(iforest)模型,该模型是由一棵棵随机的决策树组成,每一棵决策树在分裂叶子节点的时候都是从所有特征集合中随机的挑选目标特征并随机的选取目标特征中的阈值进行节点的分类操作。当生成一棵树之后,每一个原始数据样本都会唯一对应树中的一个叶子节点,而往往异常样本所对应的叶子节点的层数更高。在对有缺失值特征数据处理的时候,对于缺失的类别特征,直接填充在样本集中出现次数最多的类别;对于缺失的数值特征,直接填充该维特征在样本集中出现的平均值。

2、数据增强处理:如果经过清洗的数据中的正负样本很不均衡,例如正常用户行为数量远大于欺诈用户的行为数量,不均衡的样本会给模型的训练带来很大的困难。在本阶段采用合成少数类过采样技术(syntheticminorityoversamplingtechnique,smote)数据增强算法对欺诈用户行为数据进行扩充处理,该算法将所有的欺诈用户映射到特征空间中去,则每个欺诈用户都会对应于该空间中的一个点,每次任意两个欺诈用户对应点连线中的一个点作为新生成的欺诈用户数据点,反复进行上述操作则可以生成任意数量的欺诈用户数据点,最后控制生成的欺诈用户数据量和正常用户数据量达到预设比值,例如控制生成的欺诈用户数据量和正常用户数据量之间的比例在1:3到1:4之间。

3、特征筛选与标准化处理:特征筛选的目的是为了进行特征的降维,把重要程度较低的特征去掉将有利于模型训练速度的提升和模型识别准确率的提高,该模块中采用的降维方式是主成分分析(principalcomponentanalysis,pca),即对原始的特征进行线性转换,将原始的高维特征映射到低维的特征,使转换之后的特征之间的相关度更低,更能反映出目标数据的本质信息。特征标准化的目的是把各个维度的特征数值都映射到一个相同的范围,这样做能够消除不同特征之间的量纲影响,能更加有利于模型的训练,该模块采用的方式是(0,1)标准化,即将所有的特征数据都转化成均值为0方差为1的标准数据。

s105、将样本用户的用户行为模式向量与流水特征向量进行拼接,生成该样本用户的目标特征向量。

s106、将各个样本用户的目标特征向量输入至目标神经网络,获取各个样本用户的目标特征向量的欺诈检测结果。

在具体实现的时候,目标神经网络包括特征提取网络以及分类器,特征提取网络用于对目标特征向量进行特征提取,将其中能够表征该用户该次借贷申请的行为是否属于欺诈行为的特征提取出来,然后将提取的特征输入至分类器,得到每个样本用户的欺诈检测结果。

可选地,分类器可以为softmax分类器,softmax分类器的神经元激活函数可以为sigmoid激活函数,如公式所示:

其中,xi表示特征提取网络对目标特征向量进行特征提取的结果。通过上述激活函数公式可以得到一个0到1之间的概率值,通过这个概率值得到欺诈识别结果。例如越接近于1的概率值的欺诈识别结果为欺诈,越接近0的概率值的欺诈识别结果为正常。

s107、根据各个样本用户的欺诈检测结果以及对应的欺诈标注信息,对目标神经网络、第一向量变换矩阵以及第二向量变换矩阵进行训练,得到借贷欺诈检测模型。

在具体实现的时候,参见图5所示,所述根据所述欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、第一向量变换矩阵以及第二向量变换矩阵进行训练,包括:

s501、将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户。

s502、根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失。

s503、根据目标样本用户在本轮的交叉熵损失,调整目标神经网络模型、第一向量变换矩阵以及第二向量变换矩阵的参数。

s504、将该目标样本用户作为完成训练的样本用户。

s505、判断当前轮是否还存在未完成训练的样本用户。

若判断结果为是,则顺序执行步骤s506、s507;若判断结果为否,则执行步骤s508。

s506、将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户。

s507、使用调整了参数后的所述目标神经网络模型、所述第一向量变换矩阵以及所述第二向量变换矩阵,获取该新的目标样本用户的欺诈检测结果,并重新返回s502。

s508、完成对所述目标神经网络模型的本轮训练。

经过对所述目标神经网络模型、所述第一向量变换矩阵、所述第二向量变换矩阵的多轮训练,获取所述借贷欺诈检测模型。

在完成对目标神经网络模型、第一向量变换矩阵、以及第二向量变换矩阵的本轮训练后,本申请实施例通过下述三种方式获取欺诈识别模型:

方式一:检测本轮是否达到预设轮数;如果是,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为借贷欺诈检测模型。

具体实现的时候,在模型训练时,会预先设置一个训练的预设轮数,如果检测到本轮达到预设轮数,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为借贷欺诈检测模型。

方式二:使用测试集对本轮得到的基础识别模型进行验证;若测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对目标神经网络模型的训练,将最后一轮训练得到的目标神经网络模型作为借贷欺诈检测模型。

方式三:依次将本轮各个样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对目标神经网络模型的训练,并将上一轮训练得到的目标神经网络模型作为借贷欺诈检测模型。

此处,训练的过程是将交叉熵不断减小的过程,但过多的训练次数可能会导致交叉熵不减反升,因此可以选取交叉熵最小的本轮训练得到的模型作为借贷欺诈检测模型。

可选地,例如预设的第二百分比阈值可以为10%、5%、8%等百分比。

本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,同时还将用户个人的其他属性信息合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。

实施例二

参见图6所示,本申请实施例二还提供一种借贷欺诈检测方法,该方法包括:

s601、获取待检测用户的身份信息和用户银行流水信息。

s602、基于待检测用户的身份信息,构建待检测用户的身份特征向量

s603、根据待检测用户的身份特征向量以及第一向量变换矩阵,构建待检测用户的行为模式向量。

s604、根据待检测用户的行为模式向量、第二变换矩阵以及用户银行流水信息,构建待检测用户的流水特征向量。

s605、将待检测用户的目标特征向量输入通过上述实施例所提供借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得待检测用户的欺诈检测结果。

s606、根据所述待检测用户的行为模型向量和所述待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量。

此处,s601~s604的过程与上述s101~s104类似,在此不再赘述。

本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,并基于用户的身份信息生确定其行为模式,并将用户个人的行为模式合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。

基于同一发明构思,本申请实施例中还提供了与借贷欺诈检测模型训练方法对应的贷欺诈检测模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述贷欺诈检测模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

实施例三

参照图7所示,为本申请实施例三提供的一种借贷欺诈检测模型训练装置700的示意图,一种借贷欺诈检测模型训练装置,包括:

第一获取模块701,用于获取多个样本用户的身份信息、用户银行流水信息,以及与每个用户对应的欺诈标签信息;

第一构建模块702,用于针对每个所述样本用户,根据该样本用户的身份信息构建身份特征向量,并使用第一向量变换矩阵对所述身份特征向量进行非线性变换,获得该样本用户的行为模式向量;

第二构建模块703,用于根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量;

向量拼接模块704,用于将所述样本用户的用户行为模式向量与所述流水特征向量进行拼接,生成该样本用户的目标特征向量,其中,所述目标特征向量用于表述所述用户的行为模式以及收入支出情况;

训练模块705,用于将所述样本用户的所述目标特征向量输入至目标神经网络,获取所述样本用户的目标特征向量的欺诈检测结果;并根据所述样本用户的欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、所述第一向量变换矩阵以及所述第二向量变换矩阵进行训练,得到所述借贷欺诈检测模型。

可选地,所述身份信息包括:多个身份特征下的特征值;

所述第一构建模块701,在用于所述根据该样本用户的身份信息构建身份特征向量时,具体用于:

根据该样本用户在多个身份特征下的特征值,生成该样本用户的身份特征向量。

可选地,所述第一构建模块702,在用于所述根据该样本用户的身份信息构建身份特征向量,并使用第一向量变换矩阵对所述身份特征向量进行非线性变换,获得该样本用户的行为模式向量时,具体用于:

计算所述身份特征向量以及所述第一向量变换矩阵的乘积,并使用预设的线性变换函数,对所述身份特征向量以及所述第一向量变换矩阵的乘积结果进行非线性运算,获得该样本用户的行为模式向量。

可选地,所述第二构建模块703,在用于所述根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量时,具体用于:

根据至少一个预设时长、所述第二向量变换矩阵以及该样本用户的银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量;

根据所述行为模式向量和所述多个不同时间段的流水数据向量,生成每个时间段的流水数据向量对应的权重;

根据所述每个时间段的流水数据向量,将时长为该预设时长的各个时间段的流水数据向量进行加权求和,得到与该预设时长对应的流水特征向量。

可选地,所述第二构建模块703,在用于所述根据至少一个预设时长、所述第二向量变换矩阵以及该样本用户的银行流水信息,生成时长为所述预设时长的多个不同时间段的流水数据向量时,具体用于:

针对每个预设时长的多个不同时间段中的每个时间段,根据发生时间落入该时间段的用户银行流水信息,生成该时间段的原始流水数据向量;

根据所述第二向量变换矩阵,对该样本用户的原始流水数据向量进行变换处理,生成该时间段的流水数据向量。

可选地,所述第二构建模块703,在用于所述根据所述第二向量变换矩阵,对该样本用户的原始流水数据向量进行变换处理,生成该时间段的流水数据向量时,具体用于:

对所述原始流水数据向量进行增强鲁棒性变换,和/或对所述原始流水数据向量进行消除差距变换,生成变换流水数据向量;

根据第二向量变换矩阵,对所述变换流水数据向量进行流水信息变换,得到该时间段的流水数据向量。

可选地,所述第二构建模块703,在用于对所述原始流水数据向量进行增强型鲁棒性变换时,具体用于:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成该时间段的变换流水数据向量。

可选地,所述第二构建模块703,在基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成变换流水数据向量时,具体用于:

按照预设大小的窗口,多次从所述原始流水数据向量中选择多个元素,并针对每次选择,根据该次选择的多个元素,生成该次选择对应的变换数据;

根据各次选择对应的变换数据,构成所述变换流水数据向量;

其中,首次选择的多个元素包括所述原始流水数据向量中的首位元素;最后一次选择的多个元素包括所述原始流水数据向量中的末位元素;且每相邻的两次选择,前一次选择的第一个元素和后一次选择的第一个元素之间的位置间隔预设步长。

可选地,所述第二构建模块703,在用于根据所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据,生成变换数据时,具体用于:

将所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据进行加权求和,将加权求和的结果作为所述变换数据;

或者,

将所述滑动窗口每次滑动时位于所述滑动窗口内的流水数据的均值作为所述变换数据。

可选地,所述第二构建模块703,在用于对所述原始流水数据向量进行消除差距变换时,具体用于:

针对所述原始流水数据向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

使用所述变换向量中的首元素,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

可选地,所述第二构建模块703,在用于对所述原始流水数据向量进行增强鲁棒性变换以及消除差距变换时,具体用于:

基于滑动窗口法对所述原始流水数据向量进行增强鲁棒性变换,生成所述变换向量;

并针对述变换向量的每个非首元素,计算该非首元素以及与该非首元素相邻的前一个元素的差值的绝对值,并将所述绝对值与该非首元素的比值作为该非首元素的差距消除变换结果;

使用所述变换向量中的首元素,以及各个所述非首元素的差距消除变换结果,构成所述变换流水数据向量。

可选地,所述第二构建模块703,在用于根据第二向量变换矩阵,对所述变换流水数据向量进行流水信息变换,得到该时间段的流水数据向量时,具体用于:

计算所述变换流水数据向量与所述第二向量变换矩阵的乘积;

将所述所述变换流水数据向量与所述第二向量变换矩阵的乘积的结果作为所述流水数据向量。

可选地,所述用户流水信息包括:收入流水信息以及支出流水信息;所述流水特征向量包括:收入流水特征向量、支出流水特征向量以及流水交互特征向量;

所述第二构建模块703,在用于根据该样本用户的用户行为模式向量、第二向量变换矩阵以及所述用户银行流水信息,构建所述样本用户的流水特征向量时,具体用于:

根据所述收入流水信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成所述收入流水特征向量;

根据所述支出流水信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成所述支出流水特征向量;以及,

根据所述收入流水信息以及所述支出流水信息,生成流水交互信息,并根据所述流水交互信息、所述用户行为模式向量以及所述第二向量变换矩阵,生成流水交互特征向量。

可选地,所述第二构建模块703,在用于所述根据所述收入流水信息以及所述支出流水信息,生成流水交互信息时,具体用于:

根据所述收入流水信息,生成每天的收入总额,并根据支出流水信息,生成每天的支出总额;

计算每天收入总额与支出总额的差值;并根据所述差值构成所述流水交互信息。

可选地,所述训练模块705,在用于根据各个所述样本用户的欺诈检测结果以及对应的欺诈标注信息,对所述目标神经网络、所述第一向量变换矩阵以及所述第二向量变换矩阵进行训练时,具体用于:

将本轮还未完成训练的所述样本用户中的任意一个样本用户作为目标样本用户,根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失;

根据所述目标样本用户在本轮的所述交叉熵损失,调整所述目标神经网络模型、所述第一向量变换矩阵以及所述第二向量变换矩阵的参数;

将所述目标样本用户作为完成训练的样本用户,并将当前轮还为完成训练的样本用户中其它任意一个样本用户作为新的目标样本用户,

使用调整了参数后的所述目标神经网络模型、所述第一向量变换矩阵以及所述第二向量变换矩阵,获取该新的目标样本用户的欺诈检测结果,并重新返回根据该目标样本用户的欺诈检测结果以及欺诈标注信息,确定所述目标样本用户在本轮的交叉熵损失的步骤;

直至所有样本用户都完成当前轮的训练,完成对所述目标神经网络模型的本轮训练;

经过对所述目标神经网络模型的多轮训练,获取所述借贷欺诈检测模型。

可选地,所述训练模块705,在用于完成对所述目标神经网络模型的本轮训练后,还包括:

检测本轮是否达到预设轮数;如果是,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型;

或者,

使用测试集对本轮得到的基础识别模型进行验证;若所述测试集中,交叉熵损失不大于预设的交叉熵损失阈值的测试数据的条数,占据所述测试集中测试数据总条数的百分比,大于预设的第一百分比阈值,则停止对所述目标神经网络模型的训练,将最后一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型;

或者,

依次将本轮各个所述样本用户的交叉熵损失,与前一轮对应样本用户的交叉熵损失进行比对;若本轮所述样本用户的交叉熵损失大于前一轮对应样本用户的交叉熵损失的样本用户的数量,占据所有样本用户数量的百分比达到预设的第二百分比阈值,则停止对所述目标神经网络模型的训练,并将上一轮训练得到的所述目标神经网络模型作为所述借贷欺诈检测模型。

本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,并基于用户的身份信息生确定其行为模式,并将用户个人的行为模式合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。

实施例四

参见图8所示,本申请实施例还提供一种借贷欺诈检测装置,该装置包括:

第二获取模块801,用于获取待检测用户的身份信息和用户银行流水信息;

第三构建模块802,用于基于所述待检测用户的身份信息,构建所述待检测用户的身份特征向量;以及根据所述待检测用户的身份特征向量以及第一向量变换矩阵,构建待检测用户的行为模式向量;

第四构建模块803,用于根据所述待检测用户的行为模式向量、第二变换矩阵以及所述用户银行流水信息,构建待检测用户的流水特征向量;

拼接模块804,用于根据所述待检测用户的行为模型向量和所述待检测用户的流水特征向量进行拼接,生成待检测用户的目标特征向量;

检测模块805,用于将所述待检测用户的目标特征向量输入通过第一方面任意一项所述的借贷欺诈检测模型训练方法得到的借贷欺诈检测模型中,获得所述待检测用户的欺诈检测结果。

本申请实施例通过构造神经网络自动化地学习正常用户和异常用户银行流水记录的区别,并基于用户的身份信息生确定其行为模式,并将用户个人的行为模式合理化的表征到模型之中,从而提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本。

实施例五

对应于图1中的借贷欺诈检测模型训练方法,本申请实施例还提供了一种计算机设备900,如图9所示,为本申请实施例提供的计算机设备900结构示意图,包括:

处理器91、存储器92、和总线93;存储器92用于存储执行指令,包括内存921和外部存储器922;这里的内存921也称内存储器,用于暂时存放处理器91中的运算数据,以及与硬盘等外部存储器922交换的数据,处理器91通过内存921与外部存储器922进行数据交换,当所述用户设备90运行时,所述处理器91与所述存储器92之间通过总线93通信,使得所述处理器91在用户态执行本申请实施例提供的借贷欺诈检测模型训练方法。

对应于图1中的借贷欺诈检测模型训练方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器91运行时执行上述借贷欺诈检测模型训练方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述借贷欺诈检测模型训练方法,从而解决单纯由人工审核的话不但效率低下,而且很难综合银行流水数据和用户个人信息得出整体的正确结论的问题,进而达到提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本的效果。

实施例六

对应于图5中的借贷欺诈检测模型训练方法,本申请实施例还提供了一种计算机设备100,如图10所示,为本申请实施例提供的计算机设备100结构示意图,包括:

处理器11、存储器12、和总线13;存储器12用于存储执行指令,包括内存121和外部存储器122;这里的内存121也称内存储器,用于暂时存放处理器11中的运算数据,以及与硬盘等外部存储器122交换的数据,处理器11通过内存121与外部存储器122进行数据交换,当所述用户设备100运行时,所述处理器11与所述存储器12之间通过总线13通信,使得所述处理器11在用户态执行本申请实施例提供的借贷欺诈检测方法。

对应于图5中的借贷欺诈检测方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器11运行时执行上述借贷欺诈检测方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述借贷欺诈检测方法,从而解决单纯由人工审核不但效率低下,而且很难综合银行流水数据和用户个人信息得出整体的正确结论的问题,进而达到提高信贷平台对欺诈用户的识别效率和识别准确率,同时大大的节省了人力成本的效果。

本申请实施例所提供的借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1