经优化平均查准率通过机器学习检测银行交易组中的异常的制作方法

文档序号:19667362发布日期:2020-01-10 21:53阅读:284来源:国知局
经优化平均查准率通过机器学习检测银行交易组中的异常的制作方法

本发明涉及一种用于通过机器学习来检测一组银行交易中的异常的机制。其特别适用于欺诈性检测。



背景技术:

与支付交易有关的欺诈,主要包括银行交易中的欺诈,是一种严重且不断增长的现象,这具体是由于经由电信网络进行的在线交易的普及引起的。除了欺诈之外,还可能发生其他类型的异常(错误等)。

出于该原因,已经部署了各种机制用于检测异常,特别是由银行公司部署。

这些机制可以在支付服务器授权交易之前或之后实施。在第一种情况下,参考实时欺诈检测或异常检测。在第二种情况下,这包括近实时检测。

第一种情况的优点是能够在欺诈交易发生之前将其阻止,但是它在处理时间方面受到严重限制,因为该机制会延迟支付交易的完成,并因此对用户体验具有负面影响。第二种情况使得可以具有更多的时间,并因此能够实现更全面和更严格的处理操作。

已经提出了在该第二种情况下允许异常检测的解决方案。对于大部分情况,这些解决方案是基于各种分类机制的。

然而,由于一组支付交易中的异常检测的特定特征,大多数常规分类技术不能被直接应用。具体地,数据中非常大的不平衡趋于导致模型仅预测非欺诈性交易。

首先,欺诈的后果极为严重且高度敏感。因此,尽管尽可能多地检测欺诈情况是重要的,但在证明可疑交易合法时,取消可疑交易也是非常不利的。这种情况的严重性和复杂性不允许进行自动处理,而现有的解决方案是向人类操作员提交一定数量的有争议的交易,而最后负责将有争议的交易最终分类为异常的还是合法的是该人类操作员。

此外,由于与支付和银行数据有关的信息的机密和敏感的性质,因此很少有关于为检测欺诈而实施的工具的信息能够被公开。因此,很难比较现有技术的解决方案。



技术实现要素:

本发明的目的是提供一种至少部分地减轻上述缺点的解决方案。更具体地,本发明旨在提供用于确定一组表现出异常(欺诈或其他现象)的具有特定风险的交易的方法,并且该交易能够被提交给人类操作员。

为此,本发明提出了一种用于检测一组支付交易中的异常的方法,包括:

-建立由一组模型形成的元模型,每个模型都在训练组上进行优化以便确定每个交易为异常的风险,所述元模型是使用“梯度提升”技术建立的,以便优化表示所述元模型的平均查准率的可导函数;

-将所述组提交给所述元模型,以便确定所述组的每个交易的风险,以及

-确定与大于确定的阈值的风险相对应的交易的子组,以便在所述子组中提供预定数量的交易。

根据优选实施方式,本发明包括以下特征中的一个或多个,这些特征可以单独使用或者彼此部分组合或彼此完全组合地使用:

-将所述子组提交给一个或多个人类专家,并且基于所述一个或多个人类专家能够处理的交易数量来确定所述阈值;

-在建立元模型之前,对所述一组交易进行二次采样步骤(e2),用以改善异常交易与合法交易之间的平衡;

-所述二次采样步骤包括优化f2分数;

-优化所述f2分数包括使表示所述f2分数的可导函数最小化;

-将所述平均查准率应用于交易级别,交易按风险等级排序。

-平均查准率ap由以下等式表示:

其中,

并且其中:

f(xi)是确定的交易xi为欺诈性交易的风险;

-如果所述交易是异常的,则yi等于1;否则等于0;

-i()是指标函数;如果条件为真,则等于1,否则等于0。

-n是学习组的交易数量;

-以及ri是根据所有交易的分类的交易xi的级别,由f模型预测

-使用等式表示所述函数,其中:

并且其中α是平滑参数。

本发明的另一主题是一种计算机程序,该计算机程序包含指令,当这些指令由计算机系统的处理器执行时,致使实现如上所述的方法。

本发明的另一主题是一种用于检测异常的设备,该用于检测异常的设备具有用于实现上述方法的装置。

通过阅读以下以示例的方式以及参考附图所给出的本发明的一个优选实施方式的描述,本发明的其他特征和优点将变得显而易见。

附图说明

图1示意性地示出了根据本发明的一个实施方式的方法的顺序的示例。

具体实施方式

如引言中所述,本发明涉及在一组交易中确定表现出高风险并且必须提交给一个(或多个)人类操作员的交易的子组。

该子组的基数可以是预定的,因此它可以对应于人类操作员在给定时间(例如一天)内能够处理的交易数量。

因此,本发明所解决的问题在于迅速找到表现出异常的最高风险的k个交易,k是人类操作员能够处理的交易数量。

首先,可以实施预处理交易的步骤。该步骤在图1中标记为e1。

该预处理包括准备与交易相对应的数据,以便允许在后续步骤中对这些交易进行正确地处理。这些数据既包括交易中预先包含的数据,也包括交易外部的数据。

更具体地,该预处理可以包括至少两个操作:

第一操作包括格式化所提交的交易中存在的数据,该数据随后被提交给“机器学习”算法,以便允许通过“机器学习”算法对数据进行处理。例如,交易的日期可以转换为多个数据或特征:日、月、年、小时、分钟等。

第二操作包括将新特征与交易相关联。这些新特征可以基于交易各方的历史来创建,具体是用于交易的支付卡的持有者的平均消费金额、先前访问的商店等。

这些特征旨在与所述问题相关,即检测异常,且具体是欺诈性问题。因此,在没有以其他方式表征异常本身的情况下,远高于先前交易平均值的金额可能是风险因素。

然后,每个因此由一组特征形成的交易,被发送到二次采样步骤e2。

在根据本发明的整个过程中可以省略该步骤e2,但是其可以改善整个过程的性能和处理时间。

该步骤具体的可以改善学习组,后续步骤中的统计模型将在该学习组上训练。具体地,如上所述,异常交易的数量固然过高,但仍占总交易量的非常低的比例(例如,约为0.2%)。其结果是交易的量高度失衡,这种失衡导致大多数学习机制出现严重问题。本发明的目的之一是考虑这种特定特征并提出一种纠正该特征的解决方案。

该步骤e2涉及消除一定数量的能够被认为不是异常的(换言之,是“合法的”)交易,以便首先减少进入学习组的交易数量,然后其次改善异常交易与合法交易之间的分布。

例如,e.ramentol,y.caballero和f.herrera在文章“smote-rsb*:ahybridpreprocessingapproachbasedonoversamplingandundersamplingforhighimbalanceddata-setsusingsmoteandroughsettheory”中描述了这种二次采样技术,见于knowledgeandinformationsystems,33(2),2012,第245-265页。该文章还介绍了一种附加或替代的技术,该技术包括对数据组进行过密采样,换言之创建少数类别的“合成”数据。

甚至更精确地,步骤e2是二进制分类步骤,包括将所提交的学习组的每个交易分配为“异常交易”类别或“合法交易”类别。它可以旨在针对该二次采样步骤结合所测量的查全率和查准率来优化f2分数。

给定类别的查全率定义为正确分类的交易数量与该类别中有效的交易数量之间的比率。

查准率定义为正确分类的交易数量与交易总数量之间的比率。

考虑到“真阳性”tp、“假阳性”fp和“假阴性”fn的常用分类标准,查全率和查准率可以表示为:

可以将“真阳性”tp、“假阳性”fp和“假阴性”fn表示为由针对该二元分类步骤建立的具有两个类别“+1”和“0”的f模型所提供的分数的函数。

被认为是交易xi属于阳性类别“1”的概率。在n个交易的学习组中,可以将“真”类别yi与每个交易xi相关联。该学习组可以写成

然后可以写为:

查准率和查全率这两个标准通常不足以测量分类机制的性能。具体地,可以实现非常高的查全率(换言之最多等于1),而导致非常低的查准率的后果,反之亦然。

存在许多常规的分数,其结合查全率和查准率,以便捕捉被认为是相关的并且代表该机制的能力的性能,用以提供可接受的结果。

这样的分数可以是例如f分数,其定义为:

根据本发明的一个实施方式,f2分数是优选的,因为它着重于查全率而不是查准率。

换言之:

通过强调查全率,二次采样步骤可以消除大量的“合法”交易,同时仍为下一步骤e3保留最大数量的异常交易。

根据一个实施方式,优化f2分数包括使表示所述f2分数的可导函数最小化。

为此,可以为每个总和tp、fp、fn定义近似值,其中,将指标函数替换为具有s型函数的近似值。

上面进一步给出的定义然后变为:

可以使用这些定义来构建f2分数的近似值,

该近似值可以用作常规优化过程中的目标函数。该优化过程可以是梯度下降的,并且以与步骤e3相同的方式使用例如“梯度提升”技术。这些优化方法将在以下段落中参考步骤e3进行详细描述。

该步骤e3包括建立由一组模型形成的元模型,每个模型在训练组上进行优化,使用“梯度提升”技术,以便优化表示所述元模型的平均查准率的可导函数。

一般而言,这涉及建立元模型,作为概括,使得可以确定对应于高于所确定的阈值的风险的交易的子组,以便在所述子组中提供预定的交易数量。

具体地,如上所述,被认为是“有风险”的交易被提交给专家用户,以便他们决定交易是否是异常的。由此,可用的人力资源提供了该预定的数量。因此,问题在于提供k个最高风险的交易,k是专家用户能够处理的交易数量。

为了解决该技术问题,发明人认为用于泛化模型查准率的常规标准不是最佳的。他们认为平均查准率的标准是鉴别技术问题的特定性质的最佳方法。

在本发明中实施集体学习的背景下,优化平均查准率使得可以促进对关于表现出最高风险的交易而产生良好查准率的模型的学习。

在本发明的背景下使用的方法是集体学习方法,换言之是基于由一组“单独的”模型形成的全局模型或元模型。每个单独的模型或“基础”模型都是基于学习组构建和优化的。

这些集体方法已经在现有技术中的机器学习领域的许多出版物中提出。

一般而言,它们基于在偏差和方差之间寻求良好折衷时为任何模型建立的极限。研究表明,通过考虑一组模型而不是一个模型,可以改善元模型的偏差和方差。

在预测阶段,每个模型都进行预测,并且由元模型进行的最终预测是各个预测的组合。有多种可能的组合:多数票决、加权多数票决、具有阈值的票决、一致同意等。

在本发明的背景下,可以利用加权多数票决来执行组合。

在机器学习中,每个模型都自主地且迭代地进行学习,并且根据待实现的结果来被评估,在本发明的背景下,该待实现的结果是对表示模型的平均查准率的函数的优化。

根据本发明的一个实施方式,所使用的集体技术是“提升”技术,或激励技术,并且更具体地是“梯度提升”(梯度激励)技术,因为该技术涉及功能优化。

r.schapire在1990年5月的machinelearning的第197-227页的文章“thestrengthofweeklearnability”中提出了提升技术,并且形成了众多文献的基础。

基本概念是考虑已被模型错误地学习的交易,并专注于这些交易,以便在学习方法的后续迭代中,将改善模型的学习优先于其他交易。

例如,y.freund和r.schapire在1996年的internationalconferenceonmachinelearning的第148-156页的文章“experimentswithanewboostingalgorithm”中提供的adaboost算法中描述了该原理的一种实施方式。

通常,该原理在于为学习组的示例分配权重,并且在每次迭代中,通过增加错误分类的示例的权重并减少正确分类的示例的权重来改变这些示例的权重。

同样,使用“提升”技术以通过梯度下降实现优化是众所周知的,且例如在j.h.friedman在2001年的annalsofstatistics的第1189-1232页的文章“greedyfunctionapproximation:agradientboostingmachine”中进行了描述。

本发明不涉及新的提升或梯度提升算法,而是涉及它们所使用的方式。从实践的角度来看,本发明的一个实施方式可以是一种通过软件实现的方法,该方法使用诸如自主功能模块之类的算法,该算法可以例如由库提供。

通过梯度提升算法所寻求解决的问题是改善k个“最佳”异常交易的组,其中k是专家用户能够处理的交易数量。因此,基于级别(或分类)的目标函数特别合适。

交易xi的级别ri可以由以下表达式定义

每个交易xi属于与异常交易相对应的类别“+1”,或者属于与“合法”交易相对应的类别“0”。f是一种模型,其输出为风险,换言之为属于类别“+1”的交易的概率。i()代表指标函数。最后,n是学习组s中的交易数量。该学习组可以写为其中交易xi与类别yi相关联。

因此,以上表达式定义了风险大于或等于交易xi的交易数量。

然后可以由以下表达式定义该级别ri的查准率pi

然后可以通过下式获得平均查准率ap:

其中,

换句话说,因此要考虑应用于交易级别的平均查准率,这些由风险f(xi)进行排序。

因此可以将该平均查准率ap写为

“梯度提升”技术的使用要求目标函数能够微分,以允许梯度下降。

因此,本发明的一个概念在于使用表达该平均查准率的可导函数来近似该平均查准率的表达式。将通过“梯度提升”算法优化的是该可导函数。

为此,指标函数i()的可导近似值被确定为:

或者:

i(f(xi)≤f(xj))≈σ(f(xj)-f(xi)),

其中,并且其中,α是平滑参数。该参数增加得越多,近似值就越接近实际平均查准率ap。

使用指标函数的该近似值,可以将待优化的函数写为如下形式:

其中,

最终可以写为:

然后可以使用“梯度提升”技术通过梯度下降来引入函数作为待最小化的函数。

本发明可以通过使用本身已知的“梯度提升”算法来实现,但是通过引入待最小化的特定函数来进行修改,该特定函数是表示元模型的平均查准率的可导函数。

因此,在学习阶段结束时,对元模型进行训练,以使平均查准率最小化。然后在步骤e4中,可以预先使用它来为交易分配风险。

为此,所有交易都被提交给该元模型。每个交易都被分配一个风险,但是最重要的是,可以确定一个与大于确定的阈值的风险相对应的交易子组,以便在该子组中提供与专家能够处理的数量相对应的预定数量k的交易。

在学习阶段期间可能已经对该预定阈值进行了学习。对预定阈值的学习可以是经验上的并且是恒定的。还可以基于诸如日期之类的某些参数对其进行更改,因为某些日历事件容易影响异常和欺诈的级别(假日、周末等)。针对这些存在更多欺诈的事件,将提高阈值,以实现恒定数量的“有风险”交易(假设人力资源保持恒定)。

当然,本发明不限于所描述和所示出的示例和实施方式,而本领域技术人员可获得的多种变型是开放的。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1