基于深度学习的欺诈交易识别方法、系统及存储介质与流程

文档序号：15616902发布日期：2018-10-09 21:36阅读：338来源：国知局

本发明涉及金融风险控制领域，尤其涉及一种基于深度学习的欺诈交易识别方法、系统及存储介质。

背景技术：

金融领域对交易风险控制的要求较高。在利用深度学习进行欺诈交易的识别中，目前一般采用监督学习算法训练检测模型，而用于训练检测模型的特征是基于有标签的历史交易数据而构造的，因此采用监督学习算法训练的检测模型，可以有效识别历史欺诈类型，而对缺乏欺诈样本的未知欺诈类型(比如未曾出现过或变种的欺诈交易)一般无能为力，这种后验性导致交易风险识别具有滞后性，准确性较低。

另一方面，现有采用无监督学习算法来训练检测模型的方法，是利用k-means算法或基于密度的聚类算法直接对数据进行聚类而将数据划分成若干个群组(没有经过降维)，这种聚类算法极易受数据噪声点的影响，且其本质是基于相似度的度量学习(metriclearning)，需预先根据经验人工定义样本之间的距离，对于高维特征的数据人工难以确定合适的相似度度量方法；而目前最常用的特征降维方法是主成分分析(pca)，然而，pca适应于线性且服从高斯分布的数据，实际应用中的数据基本是非线性的，故在实际应用中pca并不能达到预期的降维效果甚至失效。因而，现有方式中，对于实际应用中的非线性高维特征数据，不管是直接进行聚类，或是通过pca进行降维，最终都不能精确描述群组信息，从而影响欺诈交易识别的合理性。

这就给欺诈交易的识别带来了挑战，说明现有识别欺诈交易的方法，无法应对复杂的实际情况。

技术实现要素：

本发明的主要目的在于提供一种基于深度学习的欺诈交易识别方法，旨在解决现有欺诈交易识别方法不够准确与合理的技术问题。

为实现上述目的，本发明提供一种基于深度学习的欺诈交易识别方法，所述方法包括：

获取训练样本，所述训练样本为用于建立欺诈交易检测模型的交易数据；

构建堆叠的受限玻尔兹曼机rbm神经网络结构并进行训练，并通过训练完成的rbm神经网络结构对所述训练样本进行降维和聚类，以将训练样本划分为若干个群组；

计算所有群组的质心，并分别计算各个群组与所述质心的汉明距离；

根据所述计算的各个汉明距离确定各个群组的欺诈概率，以建立欺诈交易检测模型；

获取待检测交易数据，并根据所述欺诈交易检测模型，分析待检测交易数据，以得出待检测交易数据的欺诈概率，从而识别出欺诈交易。

可选地，所述构建堆叠的rbm神经网络结构并进行训练的步骤包括：

设置所述堆叠的rbm神经网络结构的层数和每一层rbm神经网络的输出节点数；

逐一训练所述每一层rbm神经网络，以确定各层rbm神经网络的参数；

将训练完成的各层rbm神经网络进行堆叠。

可选地，所述逐一训练所述每一层rbm神经网络，以确定各层rbm神经网络的参数的步骤包括：

确定所述训练样本的特征，并根据所述特征构建高维特征向量，由所述高维特征向量构成高维特征空间；

基于所述高维特征空间，逐一训练所述每一层rbm神经网络，以确定各层rbm神经网络的参数。

可选地，所述基于所述高维特征空间，逐一训练所述每一层rbm神经网络，以确定各层rbm神经网络的参数的步骤包括：

利用正态分布随机产生第一层rbm神经网络的参数初始值；

利用所述高维特征空间的维度作为第一层rbm神经网络的输入节点数训练第一层rbm神经网络，训练时通过调整所述第一层rbm神经网络的参数初始值，得到第一层rbm神经网络的参数；

在得到第n-1层rbm神经网络的参数后，利用正态分布随机产生第n层rbm神经网络的参数初始值；

利用第n-1层rbm神经网络的输出节点数作为第n层rbm神经网络的输入节点数训练第n层神经网络，训练时通过调整所述第n层rbm神经网络的参数初始值，得到第n层rbm神经网络的参数，以得到各层rbm神经网络的参数，其中，n≥2。

可选地，所述每一层rbm神经网络包括可见层和隐藏层，所述每一层rbm神经网络的参数包括所述可见层和隐藏层之间的权重矩阵、可见层中可见节点的偏移量和隐藏层中隐藏节点的偏移量。

可选地，所述通过训练完成的rbm神经网络结构对所述训练样本进行降维和聚类，以将训练样本划分为若干个群组的步骤包括：

通过所述训练完成的rbm神经网络结构，将所述训练样本映射为二元状态向量；

将具有相同二元状态向量的训练样本归为同一群组，以将所述训练样本划分为若干个群组。

可选地，所述根据所述计算的各个汉明距离确定各个群组的欺诈概率的步骤包括：

将所述计算的各个汉明距离与预设汉明距离阈值进行比对；

将汉明距离大于预设汉明距离阈值的群组，设置为高欺诈概率。

可选地，所述根据所述欺诈交易检测模型，分析待检测交易数据，以得出待检测交易数据的欺诈概率，从而识别出欺诈交易的步骤包括：

将所述待检测交易数据，代入所述欺诈交易检测模型中，得到待检测交易数据基于群组的欺诈概率；

加重审核高欺诈概率对应群组中的待检测交易数据，以识别出欺诈交易。

此外，为实现上述目的，本发明还提供一种基于深度学习的欺诈交易识别系统，所述基于深度学习的欺诈交易识别系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的欺诈交易识别程序，所述基于深度学习的欺诈交易识别程序被所述处理器执行时实现如下步骤：

获取训练样本，所述训练样本为用于建立欺诈交易检测模型的交易数据；

计算所有群组的质心，并分别计算各个群组与所述质心的汉明距离；

根据所述计算的各个汉明距离确定各个群组的欺诈概率，以建立欺诈交易检测模型；

获取待检测交易数据，并根据所述欺诈交易检测模型，分析待检测交易数据，以得出待检测交易数据的欺诈概率，从而识别出欺诈交易。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有基于深度学习的欺诈交易识别程序，所述基于深度学习的欺诈交易识别程序被处理器执行时实现如下步骤：

获取训练样本，所述训练样本为用于建立欺诈交易检测模型的交易数据；

计算所有群组的质心，并分别计算各个群组与所述质心的汉明距离；

根据所述计算的各个汉明距离确定各个群组的欺诈概率，以建立欺诈交易检测模型；

获取待检测交易数据，并根据所述欺诈交易检测模型，分析待检测交易数据，以得出待检测交易数据的欺诈概率，从而识别出欺诈交易。

本发明构建堆叠的rbm神经网络结构并进行训练，通过训练完成的rbm神经网络结构将无监督的高维数据样本进行降维和聚类，将样本划分为具有鲜明特性的各个群组，然后计算样本所有群组的质心，分别计算各个样本群组与所述质心的汉明距离，从而利用汉明距离衡量群组之间的距离，进而基于汉明距离确定各个样本群组的欺诈概率，由此建立欺诈交易检测模型，用于分析待检测交易数据，实现了基于欺诈交易检测模型确定待检测交易数据对应的欺诈概率，为有效识别历史欺诈类型和未知欺诈类型的欺诈交易提供了精确的分析依据，提高了欺诈交易识别的准确性和合理性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明基于深度学习的欺诈交易识别方法第一实施例的流程示意图；

图3为本发明基于深度学习的欺诈交易识别方法第一实施例的细化流程示意图；

图4为本发明涉及的3层rbm神经网络结构示意图；

图5为本发明基于深度学习的欺诈交易识别方法第二实施例的流程示意图；

图6为本发明涉及的每一层rbm神经网络的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取训练样本，所述训练样本为用于建立欺诈交易检测模型的交易数据；构建堆叠的受限玻尔兹曼机rbm神经网络结构并进行训练，并通过训练完成的rbm神经网络结构对所述训练样本进行降维和聚类，以将训练样本划分为若干个群组；计算所有群组的质心，并分别计算各个群组与所述质心的汉明距离；根据所述计算的各个汉明距离确定各个群组的欺诈概率，以建立欺诈交易检测模型；获取待检测交易数据，并根据所述欺诈交易检测模型，分析待检测交易数据，以得出待检测交易数据的欺诈概率，从而识别出欺诈交易。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端承载有基于深度学习的欺诈交易识别系统。

如图1所示，该终端可以包括：处理器1001，例如cpu，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于深度学习的欺诈交易识别程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于深度学习的欺诈交易识别程序，并执行以下操作：

获取训练样本，所述训练样本为用于建立欺诈交易检测模型的交易数据；

计算所有群组的质心，并分别计算各个群组与所述质心的汉明距离；

根据所述计算的各个汉明距离确定各个群组的欺诈概率，以建立欺诈交易检测模型；

获取待检测交易数据，并根据所述欺诈交易检测模型，分析待检测交易数据，以得出待检测交易数据的欺诈概率，从而识别出欺诈交易。