一种基于过采样改进svdd的银行客户交易行为异常识别方法与流程

文档序号:21368496发布日期:2020-07-04 04:44阅读:486来源:国知局
一种基于过采样改进svdd的银行客户交易行为异常识别方法与流程

本发明涉及银行风控数据处理技术领域,具体涉及银行风控中关于客户交易行为异常识别的数据分析方法改进方面。



背景技术:

风控是银行业最重要的环节之一,对客户交易行为的异常识别可以有效提高银行的风控能力和水平。

一般客户异常行为识别方法通常是构建有监督的分类模型来进行分析,有异常的是一类,没有异常的是另一类。这种方法有一个明显的缺陷:对于一个客户的交易行为,例如银行客户的信用卡被盗刷,那可以确定这时的交易行为是异常的,但没有异常的交易行为只能视作暂时没有出现异常,以后也可能会出现异常。所以有监督的模型在这种情况下并不适用,因为没有异常的这一类数据并不完全准确。这种情况下,我们可以使用半监督模型svdd来识别异常交易行为。

半监督模型svdd需要在有标签这类数据量较大的情况下才能更精确。在银行的客户交易行为异常识别中,有标签的数据指确定有风险的数据,例如信用卡被盗刷的交易,这类数据占比往往很少。



技术实现要素:

本发明的目的是改善银行客户交易行为中现有异常识别算法的不足,提供一种基于过采样改进svdd的银行客户交易行为异常识别方法,这是一种有效的半监督算法。先对有异常行为的这类数据使用smote过采样算法进行扩充,通过分析客户交易行为数据中的规律,判断不知是否异常的交易行为的异常性,从而识别出异常的银行客户交易行为。最后将识别出来的异常交易行为报告到验证模块做进一步的安全验证来达到更好防范银行交易风险的目的。

为解决本发明所提出的技术问题,采用的技术方案为:一种基于过采样改进svdd的银行客户交易行为异常识别方法,其特征在于:包括以下步骤:

s1,给定银行客户交易行为的原始数据,对原始数据进行一致性检查,清除无效数据和重复数据,填补缺失值,并将类别变量转化为数值型变量,根据原始数据中记录的结果,将原始数据分为有异常行为和暂时没有出现异常行为两类;将暂时没有出现异常行为这类视作不知是否有异常;

s2,设置一个数值p,使用smote过采样算法将数据中有异常行为的数据扩充p倍;

s3,对扩充p倍后的有异常行为的数据建立svdd模型,计算svdd模型的球心a和半径r;

s4,计算不知是否异常行为的数据到svdd模型球心a的距离,将该距离小于svdd模型半径r的交易行为判断为异常行为,否则判断为无异常行为。

作为对本发明进一步限定的技术方案包括有:

所述步骤s2包括:

设有异常行为的数据集为q,共有q个样本;

计算有异常行为的数据集q中的每一个样本xi(i=1,2,...q)的m近邻点,从这m个近邻点中随机选取一个样本点xit再生成一个0至1的随机数λj,基于xi生成的第j个新样本点

对每一个xi进行p次这样的运算,得到基于smote过采样算法扩充p倍后的有异常行为数据集。

所述步骤s3包括:

用(x,y)表示有异常行为的数据集,x表示特征,y表示有异常。对有异常行为的数据集(x,y)构建一个超球体,该超球体可以描述为使得(xi-a)t(xi-a)≤r2+ξi,其中c是惩罚参数,ξi是松弛变量。

将超球体的描述转化为如下形式:l=∑αik(xi,xj)-∑αiαjk(xi,xj),其中k是核函数,αi是拉格朗日乘子,使用凸优化计算出αi;

计算超球体的半径r2=k(xi,xi)-2∑αik(xi,xj)+∑∑αiαjk(xi,xj)和球心a=∑αixi;

计算不知是否有异常行为的数据到球心a的距离,将该距离小于超球体半径r的行为判断为异常,将识别出来的异常行为报告到验证模块做进一步的安全验证。

本发明的有益效果为:本发明使用的过采样改进svdd是一种有效的数据类别不均衡时的半监督方法。从数据的可获取性看,通常只能确定银行的客户交易行为有异常,而难以保证该交易行为没有异常,svdd是一种高效的半监督方法,该方法只需要知道有异常的数据,对这部分数据建模,再将建立的模型用于分析不知道是否异常的交易行为即可,这非常符合银行客户交易行为数据的实际情况,得到精确的结果。从数据类别均衡性看,svdd需要在有标签这类数据量较大的情况下才能更精确,为保证其精度,在建模前先使用smote过采样算法对异常行为数据进行扩充,再使用扩充后的样本量更大的数据来建模可以得到更精确的结果。

附图说明

图1为本发明的一种基于过采样改进svdd的银行客户交易行为异常识别方法的流程图。

具体实施方式

为了使本发明能更加易于理解,下面结合附图对其具体的实施方式进行详细说明:

参照图1中所示,本发明一种基于过采样改进svdd的银行客户交易行为异常识别方法:

s1,给定银行客户交易行为的原始数据,对原始数据进行一致性检查,清除无效数据和重复数据,填补缺失值,并将类别变量转化为数值型变量,根据原始数据中记录的结果,将原始数据分为有异常行为和暂时没有出现异常行为两类。将暂时没有出现异常行为这类视作不知是否有异常;

s2,设置一个数值p,使用smote过采样算法将数据中有异常行为的数据扩充p倍;

s3,对扩充p倍后的有异常行为的数据建立svdd模型,计算svdd模型的球心a和半径r;

s4,计算不知是否异常行为的数据到svdd模型球心a的距离,将该距离小于svdd模型半径r的交易行为判断为异常行为,否则判断为无异常行为。

作为对本发明进一步限定的技术方案包括有:

所述步骤s2包括:

设有异常行为的数据集为q,共有q个样本;

计算有异常行为的数据集q中的每一个样本xi(i=1,2,...q)的m近邻点,从这m个近邻点中随机选取一个样本点xit再生成一个0至1的随机数λj,基于xi生成的第j个新样本点

对每一个xi进行p次这样的运算,得到基于smote过采样扩充p倍后的有异常行为数据集。

所述步骤s3包括:

用(x,y)表示有异常行为的数据集,x表示特征,y表示有异常。对有异常行为的数据集(x,y)构建一个超球体,该超球体可以描述为使得(xi-a)t(xi-a)≤r2+ξi,其中c是惩罚参数,ξi是松弛变量。

将超球体的描述转化为如下形式:l=∑αik(xi,xj)-∑αiαjk(xi,xj),其中k是核函数,αi是拉格朗日乘子,使用凸优化计算出αi;

计算超球体的半径r2=k(xi,xi)-2∑αik(xi,xj)+∑∑αiαjk(xi,xj)和球心a=∑αixi;

计算不知是否有异常行为的数据到球心a的距离,将该距离小于超球体半径r的行为判断为异常,将识别出来的异常行为报告到验证模块做进一步的安全验证。

本发明使用smote过采样算法将有异常的这类数据进行扩充,再对扩充后的有异常的这类数据使用svdd进行异常识别。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1