一种利用逻辑回归算法的异常交易识别方法和系统与流程

文档序号:30160598发布日期:2022-05-26 08:41阅读:105来源:国知局
一种利用逻辑回归算法的异常交易识别方法和系统与流程

1.本发明涉及异常交易识别技术领域,尤其是涉及一种利用逻辑回归算法的异常交易识别方法和系统。


背景技术:

2.目前,各大银行与金融机构判定客户存在洗钱风险,向人民银行进行上报可疑客户的技术手段都是先定立一系列监测指标,若客户的交易触发一定监测条件,则由系统自动生成可疑案例,再由富有经验的甄别人员将可疑案例所涉及的客户过去几个月的交易取出,人工一一鉴别上报。
3.从生成的案例里找出需要上报的案例,这个过程依靠的完全是甄别人员的经验。但是这样一来,会出现三个问题:
4.一是经验丰富的甄别人员有限,经验不足的甄别人员漏报或是误报的相较更高;
5.二是随着人口的增加,客户人数不断增大,可疑案例的数量也随之增大,使得甄别人员的工作强度很大,但被报送案例占比很小,无效案例占比高,浪费了人力成本;
6.三是由于自动生成案例是依靠规则化引擎,但是制定的规则不够灵活,可能会出现一些可疑用户未被生成案例的情况。


技术实现要素:

7.本发明的目的就是为了克服上述现有技术存在依靠的完全是甄别人员的经验的缺陷而提供一种利用逻辑回归算法的异常交易识别方法和系统。
8.本发明的目的可以通过以下技术方案来实现:
9.一种利用逻辑回归算法的异常交易识别方法,包括:获取客户交易数据,将该客户交易数据载入预先建立并训练好的机器学习模型中,获取异常交易得分结果;
10.所述机器学习模型的建立和训练过程具体包括以下步骤:
11.获取用于训练的客户交易数据,该用于训练的客户交易数据设有洗钱识别结果标签,从所述用于训练的客户交易数据中提取洗钱操作的可疑特征;
12.对可疑特征对应的数据进行数据清洗,补充缺失值,以及数据标准化处理,最后对可疑特征进行数据降维;
13.将用于训练的客户交易数据划分为训练样本和测试样本;
14.采用逻辑回归算法解析所述训练样本,生成机器学习模型;采用测试样本测试该机器学习模型,得到预测准确率,根据该预测准确率采用训练样本对机器学习模型进行迭代优化,得到训练后的机器学习模型。
15.进一步地,所述训练样本包括被报送的客户交易数据和未被报送的客户交易数据,通过对所述被报送的客户交易数据进行重采样,并加上随机扰动,生成用于训练的训练样本。
16.被报送的客户交易数据是指:被报送给人民银行作为参考的、存在洗钱风险的可
疑交易。目的是提醒人民银行这些客户存在较大的洗钱风险,需要被重点监测。
17.进一步地,所述数据标准化处理具体为:
18.对可疑特征中的离散型特征对应的数据,采用one-hot重新编码;
19.对可疑特征中的连续型特征对应的数据,用z-score标准化方法将数据按比例缩放,去除量纲。
20.进一步地,对可疑特征进行数据降维具体为,利用主成分分析法将可疑特征进行降维,得到综合特征。
21.进一步地,所述方法还包括:将获取的所述异常交易得分结果与预设的异常交易可疑阈值对比,若超过该异常交易可疑阈值,则划分为高可疑交易数据集,否则划分为低可疑交易数据集。
22.本发明还提供一种利用逻辑回归算法的异常交易识别系统,包括:
23.异常交易识别模块,被配置为:获取客户交易数据,将该客户交易数据载入预先建立并训练好的机器学习模型中,获取异常交易得分结果;
24.模型训练模块,被配置为:获取用于训练的客户交易数据,该用于训练的客户交易数据设有洗钱识别结果标签,从所述用于训练的客户交易数据中提取洗钱操作的可疑特征;
25.对可疑特征对应的数据进行数据清洗,补充缺失值,以及数据标准化处理,最后对可疑特征进行数据降维;
26.将用于训练的客户交易数据划分为训练样本和测试样本;
27.采用逻辑回归算法解析所述训练样本,生成机器学习模型;采用测试样本测试该机器学习模型,得到预测准确率,根据该预测准确率采用训练样本对机器学习模型进行迭代优化,得到训练后的机器学习模型。
28.进一步地,所述训练样本包括被报送的客户交易数据和未被报送的客户交易数据,通过对所述被报送的客户交易数据进行重采样,并加上随机扰动,生成用于训练的训练样本。
29.进一步地,所述数据标准化处理具体为:
30.对可疑特征中的离散型特征对应的数据,采用one-hot重新编码;
31.对可疑特征中的连续型特征对应的数据,用z-score标准化方法将数据按比例缩放,去除量纲。
32.进一步地,对可疑特征进行数据降维具体为,利用主成分分析法将可疑特征进行降维,得到综合特征。
33.进一步地,所述系统还包括:
34.数据分类模块,被配置为:将获取的所述异常交易得分结果与预设的异常交易可疑阈值对比,若超过该异常交易可疑阈值,则划分为高可疑交易数据集,否则划分为低可疑交易数据集。
35.与现有技术相比,本发明具有以下优点:
36.(1)本发明提供了一套全新的评估客户可疑度的方案,将反洗钱与机器学习中的逻辑回归算法结合起来,只要有客户的交易信息和身份信息,就能够给出客户的可疑度得分,给甄别人员提供直观的参考依据。
37.(2)采用本发明的方案可以根据可疑度得分对客户案例进行分级,不同等级的客户案例交由不同的甄别人员处理,从而提高甄别效率,节约人力成本。可以构建一套智能化引擎来自动生成案例,显著降低无效案例的数量,并且减少遗漏案例的情况出现。
附图说明
38.图1为本发明实施例中提供的一种利用逻辑回归算法的异常交易识别方法的流程示意图。
具体实施方式
39.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
40.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
41.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
42.本发明实施例中技术名词的解释如下:
43.逻辑回归算法:是一个机器学习分类算法,通过拟合一个逻辑函数来预测一件事情发生的概率,结果在0~1之间。具体为面对一个回归或是分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试预测离散型数据特征所对应的值。
44.one-hot独热编码:也称一位有效编码,其方法是使用n位寄存器来对n个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。通过这个方法,可以将离散型的类别变量转换为机器学习算法易于利用的形式。
45.z-score标准化方法:使用均值与方差,对服从正态分布的数据进行处理,得到符合标准正态分布的数据。即通过(x-μ)/σ将两组或多组数据转化为无单位的z-score分值,将不同量级的数据统一转化为同一个量级,用计算出的z-score值衡量,使得数据标准统一化,提高了数据可比性。
46.主成分分析法:也称主分量分析,是一种利用降维思想简化数据集的技术,能够把多指标转化为少数几个综合指标。它是一个线性变换,把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推,最后选取总贡献度大于一定阈值的几个主成分,作为新的特征维度。主成分分析法能够在减少数据特征维度的同时,保留对方差贡献度最大的特征信息。
47.重采样方法:是一种统计推断的非参数方法,它从原始数据样本中反复抽取样本,加入随机扰动生成新的样本,达到增加样本数量的目的。
48.过拟合:由于学习过度和样本特征不均衡,模型在训练集上表现很好,但在测试集上表现很差。
49.实施例1
50.如图1所示,本实施例提供一种利用逻辑回归算法的异常交易识别方法,包括:获取客户交易数据,将该客户交易数据载入预先建立并训练好的机器学习模型中,获取异常交易得分结果;
51.机器学习模型的建立和训练过程具体包括以下步骤:
52.1)数据获取过程:获取用于训练的客户交易数据,该用于训练的客户交易数据设有洗钱识别结果标签;
53.2)可疑特征的精简与加工过程:从用于训练的客户交易数据中提取洗钱操作的可疑特征;
54.3)训练样本和测试样本的构建过程:对可疑特征对应的数据进行数据清洗,补充缺失值,以及数据标准化处理,最后对可疑特征进行数据降维;
55.将用于训练的客户交易数据划分为训练样本和测试样本;
56.4)利用逻辑回归算法构建模型过程:采用逻辑回归算法解析训练样本,生成机器学习模型;
57.5)模型调优过程:采用测试样本测试该机器学习模型,得到预测准确率,根据该预测准确率采用训练样本对机器学习模型进行迭代优化,得到训练后的机器学习模型。
58.优选的,方法还包括:将获取的异常交易得分结果与预设的异常交易可疑阈值对比,若超过该异常交易可疑阈值,则划分为高可疑交易数据集,否则划分为低可疑交易数据集。
59.高可疑交易数据集和低可疑交易数据集可交由不同的甄别人员处理,如高可疑交易数据集就可以直接安排经验丰富的甄别人员进行判定,低可疑交易数据集可以安排经验不足的甄别人员进行判定,从而提高了甄别效率,节约了人力成本。
60.下面对各过程进行具体描述。
61.1、可疑特征的精简与加工过程
62.机器学习的核心是“使用算法解析数据,从中学习,然后对新数据做出决定或预测”,那么精准地提取可疑客户的特征就非常重要,这也是本发明中最重要的部分。若选取的特征过少,机器学习得到的模型可能达不到很好的预测效果,但如果选取的无关特征过多,也会对结果产生不利的影响。如何选取到最优的特征组合,需要技术人员进行多次排列组合的试验,也需要专家筛选。
63.即,本实施例中采用专家筛选法,先将甄别人员的甄别依据提取细化为上百个可疑特征。再通过技术人员进行多次排列组合的试验,进一步精简特征,实现模型的调优。
64.2、训练样本和测试样本的构建过程
65.数据标准化处理具体为:
66.对可疑特征中的离散型特征对应的数据,采用one-hot重新编码;
67.对可疑特征中的连续型特征对应的数据,用z-score标准化方法将数据按比例缩放,去除量纲。
68.对可疑特征进行数据降维具体为,利用主成分分析法将可疑特征进行降维,得到综合特征。
69.训练样本包括被报送的客户交易数据和未被报送的客户交易数据,通过对被报送
的客户交易数据进行重采样,并加上随机扰动,生成用于训练的训练样本。
70.被报送的客户交易数据是指:被报送给人民银行作为参考的、存在洗钱风险的可疑交易。目的是提醒人民银行这些客户存在较大的洗钱风险,需要被重点监测。
71.具体地,本实施例中,根据选取的特征,对客户的交易信息、客账户信息等相关信息进行加工,得到客户这些特征对应的值,再对这些特征进行清洗,补充缺失值。对于离散型特征,用one-hot重新编码;对于连续型特征,用z-score标准化方法将数据按比例缩放,去除量纲的影响。再利用主成分分析法将特征进行降维,把几百个特征转化为数十个综合特征。最终的训练样本包括这数个综合特征和对应标签(是否被报送,被报送为1,不被报送为0),测试样本包括数个综合特征。
72.此时训练样本中的被报送的案例所对应的客户和未被报送的客户在数量上极度不均衡,需要技术人员对被报送客户的数据进行重采样,采用最邻近重采样法,在每个训练样本的最邻近样本基础上加上随机扰动,生成新的训练样本,使被报送类训练样本总数与未被报送类训练样本总数达到数量上的均衡,避免过拟合。
73.3、利用逻辑回归算法构建模型过程
74.具体地,本实施例中,用逻辑回归算法解析训练样本,生成模型,这个模型就是机器学习学习到的什么样的特征值会导致被报送这一结果的规律。再将测试样本代入模型,即可得到每行记录所对应的可疑度得分,这个得分在0~1之间,数字越大,可疑度越高。
75.4、模型调优过程
76.将测试集的预测结果与实际结果相比较,得到预测准确率,再进一步迭代优化预测模型,精简可疑特征、调整参数大小,直到准确率调至最优。模型调优需要进行大量的试验才能找到最适合的参数值和特征。
77.5、方案效果
78.本实施例预测出客户的洗钱可疑度,越接近0表示越不可疑,越接近1表示越可疑。那么:
79.第一,在知道自动生成的可疑案例中的客户可疑度得分的条件下,可以对客户案例进行分级,不同等级的客户案例可以交由不同的甄别人员处理。比如,可疑度高的客户案例就可以直接安排经验丰富的甄别人员进行判定,可疑度很低的客户案例可以安排经验不足的甄别人员进行判定,从而提高了甄别效率,节约了人力成本。
80.第二,通过人工智能打分结果,可以构建一套智能化引擎来自动生成案例,通过控制阈值来灵活控制生成案例的数量,显著降低无效案例的数量。
81.第三,人工智能对客户可疑度的评估是全方位考量的,相较规则化引擎的固定标准,更为灵活多变,可以减少遗漏案例的情况出现。
82.本实施例还提供一种利用逻辑回归算法的异常交易识别系统,包括:
83.异常交易识别模块,被配置为:获取客户交易数据,将该客户交易数据载入预先建立并训练好的机器学习模型中,获取异常交易得分结果;
84.模型训练模块,被配置为:获取用于训练的客户交易数据,该用于训练的客户交易数据设有洗钱识别结果标签,从用于训练的客户交易数据中提取洗钱操作的可疑特征;
85.对可疑特征对应的数据进行数据清洗,补充缺失值,以及数据标准化处理,最后对可疑特征进行数据降维;
86.将用于训练的客户交易数据划分为训练样本和测试样本;
87.采用逻辑回归算法解析训练样本,生成机器学习模型;采用测试样本测试该机器学习模型,得到预测准确率,根据该预测准确率采用训练样本对机器学习模型进行迭代优化,得到训练后的机器学习模型。
88.具体地,训练样本包括被报送的客户交易数据和未被报送的客户交易数据,通过对被报送的客户交易数据进行重采样,并加上随机扰动,生成用于训练的训练样本。
89.数据标准化处理具体为:
90.对可疑特征中的离散型特征对应的数据,采用one-hot重新编码;
91.对可疑特征中的连续型特征对应的数据,用z-score标准化方法将数据按比例缩放,去除量纲。
92.对可疑特征进行数据降维具体为,利用主成分分析法将可疑特征进行降维,得到综合特征。
93.优选地,系统还包括:
94.数据分类模块,被配置为:将获取的异常交易得分结果与预设的异常交易可疑阈值对比,若超过该异常交易可疑阈值,则划分为高可疑交易数据集,否则划分为低可疑交易数据集。
95.高可疑交易数据集和低可疑交易数据集可交由不同的甄别人员处理,如高可疑交易数据集就可以直接安排经验丰富的甄别人员进行判定,低可疑交易数据集可以安排经验不足的甄别人员进行判定,从而提高了甄别效率,节约了人力成本。
96.以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1