面向交易欺诈检测的深度特征提取方法与流程

文档序号:33362719发布日期:2023-03-07 21:25阅读:41来源:国知局
面向交易欺诈检测的深度特征提取方法与流程

1.本发明涉及深度学习中表示学习领域,特别涉及一种面向交易欺诈检测的深度特征提取方法。


背景技术:

2.金融科技正推动电子交易支付的快速发展,与此同时信用卡交易欺诈的现象也日渐增多,这给运营商和金融机构带来的巨大的挑战。在信用卡欺诈交易检测的任务中,我们通常使用基于专家分析的方法或者数据分析方法来设计检测系统。专家分析通过制定规则来找出欺诈交易,该做法主观性强,可解释性差。数据分析方法是指利用机器学习相关算法识别异常交易,如支持向量机、逻辑回归、gbdt等。
3.传统的机器学习模型均基于一个基本假设:各个类别样本数量相差不大。然而在信用卡欺诈交易检测的任务中,我们可以获得的欺诈交易和正常交易的样本数量严重失衡,通常欺诈交易的数量十分稀少,该情况下如果使用传统的机器学习模型进行分类,模型将偏向于将异常样本识别成正常样本,这种结果并不会对模型的总体准确度产生太大影响,但这个模型为无效模型,因为我们建模的目的是想让其将异常样本检测出来。针对这个不平衡的问题,已经有不少学者提出使用表示学习的方法来提取出原始数据中具有区分度的特征并以这些特征分类。我们将异常交易检测看做一个二分类任务,大多数深度特征提取模型均是将异常交易样本统一归结为少数类样本,正常交易样本为多数类样本。这种做法使模型通过不断优化损失函数去迫使深度网络提取出类间有差异的特征,实际上,在我们的异常样本中存在不同子类,这是因为这些样本异常可能是由不同的原因导致,因此我们可能很难找出异常样本的共性特征。另外如果我们忽略了样本的类内特征的差异,可能使我们的特征提取模型提取的特征损失具有代表性的异常信息。


技术实现要素:

4.本发明要解决的技术问题是克服现有技术的缺陷,提供面向交易欺诈检测的深度特征提取方法。
5.本发明提供了如下的技术方案:
6.本发明提供一种面向交易欺诈检测的深度特征提取方法,引入一个深度特征提取模型,该模型可以提取出使类间和类内都有区分性的特征;为了使得深度特征提取模型可以学到保持类间差异性和类内差异性的特征,我们提出了五元组采样和损失函数;
7.特征提取模型采用一个多层感知机,如图1所示,这里仅列举一个4层网络,输入层神经元个数由原始特征决定,输出层神经元个数由我们最终所需提取到的特征数确定,隐藏层的层数和每层神经元的个数需要根据具体情况确定;下面我们介绍五元组采样和损失函数;
8.五元组采样:
9.在采样之前我们先通过在一些先验特征上使用聚类算法来获得各个类别样本的
子类,我们一般考虑使用基于密度的聚类算法,我们认为异常的样本 (少类样本)的异常可能是由多种原因导致的,在空间中距离近的一些异常样本点是由同一种原因导致;聚类之后,我们从样本集里面随机取一个异常样本点si,然后按照以下规则取出一组样本点作为五元组五元组如图2所示;
10.si,的定义如下:
11.si:第i个被采样的少数类样本
12.离si距离最近的多数类样本
13.si的同类同簇的样本中与si距离最远的少数类样本
14.si的同类不同簇的样本中与si距离最近的少数类样本
15.si的同类不同簇的样本中与si距离最远的少数类样本
16.根据我们的以上定义,在原始的特征空间中我们有如下距离关系成立:
[0017][0018]
其中表示的是点si和点sj之间的欧氏距离;
[0019]
在空间中各点距离满足式(1)合乎情理,因此我们考虑将样本点映射到新的特征空间中时,任然需要满足以上关系成立;这种排序使提取的特征具有更加丰富的信息和更强烈的约束;在传统的类级的特征空间中,只要样本属于同一类,我们就认为两个样本相似;但在我们的发明中,只有两个样本是同一个类别并且存在于相同的子类时我们才认为它们是相似的;这迫使在我们的新特征空间中,同类样本距离相近在一起,另外同子类的样本也聚集在一起;
[0020]
裕量损失函数:
[0021]
为了强迫深度特征提取模型在提取出类间和类内中有区分性的特征和类内的相似特征的同时维持以上距离关系存在,我们将裕量损失函数引入到深度特征提取模型中;裕量损失函数定义为
[0022][0023]
s.t.:
[0024][0025][0026][0027]
δi≥0,ρi≥0,μi≥0
[0028]
其中δi,ρi,μi是松弛变量,g1,g2,g3是裕度,w是模型的参数,γ是正则参数;
[0029]
以上损失函数公式可以迫使特征提取模型在五元组采样基础上高效的提取出样
本中有区分性的特征;便于分类器利用新特征分类;理想情况下,在新的特征空间中,子类应该聚集成一个超球体,同类别样本各个子类之间保持一个安全裕度g1,同类别样本各个子类之间最大的距离为g2,不同类别的子类之间最大的裕度是g3;g1、g2、g3在二维空间中如图3所示;
[0030]
整个流程具体如下所示:
[0031]
step 1:在已经学到的特征上通过聚类算法对样本进行聚类,得到各类样本的多个子类;
[0032]
step 2:在原始数据集中采样50%的样本作为子数据集,并按照step 1 中生成的子类产生五元组列表;
[0033]
step 3:从每个类别中采样出相同数量的小批量样本,并且在step 2中五元组列表查找出对应的五元组样本;
[0034]
step 4:用所有五元组数据训练特征提取模型,损失函数采用裕量损失函数;
[0035]
step 5:使用梯度反向传播更新特征提取模型参数;
[0036]
step 6:每5000次迭代在1-2和3-5之间交替一次直至收敛。
[0037]
与现有技术相比,本发明的有益效果如下:
[0038]
本发明在分类之间引入一个深度特征提取模型,考虑将原始的重叠度高的特征映射到另一个特征空间中,在这个空间中各个类别样本不重叠,各子类也不重叠,并且类别间距离大于子类间距离;
[0039]
使用五元组采样和损失函数共同训练一个特征提取模型迫使提取出来的特征既保留了不同类的区别性特征,也尽量保持了各子类的独有特征。
附图说明
[0040]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0041]
图1是本发明的实施例示意图之一;
[0042]
图2是本发明的实施例示意图之二;
[0043]
图3是本发明的实施例示意图之三;
[0044]
图4是本发明的整体流程示意图。
具体实施方式
[0045]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
[0046]
实施例1
[0047]
如图1-4,本发明提供一种面向交易欺诈检测的深度特征提取方法,引入一个深度特征提取模型,该模型可以提取出使类间和类内都有区分性的特征;为了使得深度特征提取模型可以学到保持类间差异性和类内差异性的特征,我们提出了五元组采样和损失函数;
[0048]
特征提取模型采用一个多层感知机,如图1所示,这里仅列举一个4层网络,输入层
神经元个数由原始特征决定,输出层神经元个数由我们最终所需提取到的特征数确定,隐藏层的层数和每层神经元的个数需要根据具体情况确定;下面我们介绍五元组采样和损失函数;
[0049]
五元组采样:
[0050]
在采样之前我们先通过在一些先验特征上使用聚类算法来获得各个类别样本的子类,我们一般考虑使用基于密度的聚类算法,我们认为异常的样本 (少类样本)的异常可能是由多种原因导致的,在空间中距离近的一些异常样本点是由同一种原因导致;聚类之后,我们从样本集里面随机取一个异常样本点si,然后按照以下规则取出一组样本点作为五元组五元组如图2所示;
[0051]
si,的定义如下:
[0052]
si:第i个被采样的少数类样本
[0053]
离si距离最近的多数类样本
[0054]
si的同类同簇的样本中与si距离最远的少数类样本
[0055]
si的同类不同簇的样本中与si距离最近的少数类样本
[0056]
si的同类不同簇的样本中与si距离最远的少数类样本
[0057]
根据我们的以上定义,在原始的特征空间中我们有如下距离关系成立:
[0058][0059]
其中表示的是点si和点sj之间的欧氏距离;
[0060]
在空间中各点距离满足式(1)合乎情理,因此我们考虑将样本点映射到新的特征空间中时,任然需要满足以上关系成立;这种排序使提取的特征具有更加丰富的信息和更强烈的约束;在传统的类级的特征空间中,只要样本属于同一类,我们就认为两个样本相似;但在我们的发明中,只有两个样本是同一个类别并且存在于相同的子类时我们才认为它们是相似的;这迫使在我们的新特征空间中,同类样本距离相近在一起,另外同子类的样本也聚集在一起;
[0061]
裕量损失函数:
[0062]
为了强迫深度特征提取模型在提取出类间和类内中有区分性的特征和类内的相似特征的同时维持以上距离关系存在,我们将裕量损失函数引入到深度特征提取模型中;裕量损失函数定义为
[0063][0064]
s.t.:
[0065][0066]
[0067][0068]
δi≥0,ρi≥0,μi≥0
[0069]
其中δi,ρi,μi是松弛变量,g1,g2,g3是裕度,w是模型的参数,γ是正则参数;
[0070]
以上损失函数公式可以迫使特征提取模型在五元组采样基础上高效的提取出样本中有区分性的特征;便于分类器利用新特征分类;理想情况下,在新的特征空间中,子类应该聚集成一个超球体,同类别样本各个子类之间保持一个安全裕度g1,同类别样本各个子类之间最大的距离为g2,不同类别的子类之间最大的裕度是g3;g1、g2、g3在二维空间中如图3所示;
[0071]
如图4,整个流程具体如下所示:
[0072]
step 1:在已经学到的特征上通过聚类算法对样本进行聚类,得到各类样本的多个子类;
[0073]
step 2:在原始数据集中采样50%的样本作为子数据集,并按照step 1 中生成的子类产生五元组列表;
[0074]
step 3:从每个类别中采样出相同数量的小批量样本,并且在step 2中五元组列表查找出对应的五元组样本;
[0075]
step 4:用所有五元组数据训练特征提取模型,损失函数采用裕量损失函数;
[0076]
step 5:使用梯度反向传播更新特征提取模型参数;
[0077]
step 6:每5000次迭代在1-2和3-5之间交替一次直至收敛。
[0078]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1