基于随机森林模型的金融交易检测方法和设备的制造方法

文档序号:9524721阅读:656来源:国知局
基于随机森林模型的金融交易检测方法和设备的制造方法
【技术领域】
[0001] 本发明涉及金融交易欺诈检测领域,特别涉及一种基于随机森林模型的金融交易 检测方法和设备。
【背景技术】
[0002] 在传统的银行卡欺诈交易侦测方法中,决策树模型具有计算量相对较小、生成的 分类规则可理解等优点,在一定程度上可W满足欺诈侦测工作的需求。但是,单个决策树模 型容易过拟合,分类规则容易变得异常复杂,分类结果不稳定。同时,对于不平衡数据的训 练,决策树模型的分类结果明显偏向于多数类,容易造成分类结果的不准确。

【发明内容】

[0003] 为解决上述问题,根据本发明的一个方面,提供了一种基于随机森林模型的金融 交易检测方法。该方法包括:(a)获得历史交易表和欺诈交易表;化)利用所述历史交易表 和所述欺诈交易表来构造样本数据集合,所述样本数据集合包括样本特征变量;(C)从所 述样本数据集合中随机有放回地抽取多份样本;(d)为所述多份样本中的每一份样本随机 选择相同数量的特征变量,W便生成与该份样本对应的决策树模型,进而生成随机森林模 型;(e)对所述随机森林模型中的多个决策树模型的每一个进行训练并进行评估,W便获 得每个决策树模型的准确率;(f)基于所述准确率来确定每个决策树模型的投票权重dl; W及(g)利用所述随机森林模型中的多个决策树模型对所输入的金融交易数据的响应输 出W及所述投票权重di,根据如下公式来获得投票结果RF并判定所述金融交易是否存 在欺诈:
[0004]
[0005] 其中,1为决策树模型的数量。
[0006] 通过有放回的随机抽样生成训练样本,每一个样本随机选择相同数量特征变量参 与训练,生成一个决策树模型,最后通过多个决策树模型投票来决定交易的分类。送种检测 方法和设备克服了单个决策树模型分类规则复杂、模型易过拟合、分类准确性不稳定的缺 点,同时该检测方法和设备对于银行卡交易数据的不平衡性,也具有较好的适应能力。
[0007] 上述方法还可包括;化)在判定所述金融交易存在欺诈时,将所述交易加入欺诈 侦测结果集中;(i)对所述欺诈侦测结果集中的交易进行确认,并将确认为欺诈的交易加 入所述欺诈交易表中;W及(j)重新执行步骤(a)和化)。
[0008] 在上述方法中,步骤(e)进一步包括;(el)计算训练样本中所有变量在所有取值 上划分的基尼系数;(e2)取基尼系数最小的划分为第一最佳分裂点;W及(e3)基于所述 第一最佳分裂点将所述训练样本进行划分,并对划分后的训练样本分别重复执行(el)和 (e2)W便确定第二最佳分裂点。
[0009] 在上述方法中,所述样本特征变量包括原始变量、上下文变量和统计变量。
[0010] 在上述方法中,所述原始变量包括但不限于,从所述欺诈交易表和所述历史交易 表中直接获取的交易金额和交易时间。
[0011] 在上述方法中,所述上下文变量包括但不限于,交易是否在同一地区和交易是否 在同一商户。
[0012] 在上述方法中,所述统计变量包括但不限于,某卡号或该卡号交易商户在一段时 间内的统计信息。
[0013] 在上述方法中,所选择的特征变量的数量为η,并且η与特征变量的总数N的关系 如下:
[0014]
[0015] 在上述方法中,当某决策树模型的准确率低于一阔值时,从所述随机森林模型中 舍弃该决策树模型。通过对单个决策树的评估,淘汰分类精度过低的决策树,同时给各个决 策树模型赋予不同的投票权重,从而来提高随机森林模型的准确度。
[0016] 根据本发明的另一个方面,提供了一种基于随机森林模型的金融交易检测设备, 包括:用于获得历史交易表和欺诈交易表的装置;用于利用所述历史交易表和所述欺诈交 易表来构造样本数据集合的装置,所述样本数据集合包括样本特征变量;用于从所述样本 数据集合中随机有放回地抽取多份样本的装置;用于为所述多份样本中的每一份样本随机 选择相同数量的特征变量,W便生成与该份样本对应的决策树模型,进而生成随机森林模 型的装置;用于对所述随机森林模型中的多个决策树模型的每一个进行训练并进行评估, W便获得每个决策树模型的准确率的装置;用于基于所述准确率来确定每个决策树模型的 投票权重(11的装置;W及用于利用所述随机森林模型中的多个决策树模型对所输入的金融 交易数据的响应输出W及所述投票权重di,根据如下公式来获得投票结果RF并判定所 述金融交易是否存在欺诈的装置:
[0017]
[0018] 其中,1为决策树模型的数量。
[0019] 上述设备还可包括;用于在判定所述金融交易存在欺诈时,将所述交易加入欺诈 侦测结果集中的装置;用于对所述欺诈侦测结果集中的交易进行确认,并将确认为欺诈的 交易加入所述欺诈交易表中的装置。
[0020] 在上述设备中,用于对所述随机森林模型中的多个决策树模型的每一个进行训练 并进行评估,W便获得每个决策树模型的准确率的装置配置成执行如下步骤:(el)计算训 练样本中所有变量在所有取值上划分的基尼系数;(e2)取基尼系数最小的划分为第一最 佳分裂点;W及(e3)基于所述第一最佳分裂点将所述训练样本进行划分,并对划分后的训 练样本分别重复执行(el)和(e2)W便确定第二最佳分裂点。
[0021] 在上述设备中,所述样本特征变量包括原始变量、上下文变量和统计变量。
[0022] 在上述设备中,所述原始变量包括但不限于,从所述欺诈交易表和所述历史交易 表中直接获取的交易金额和交易时间。
[0023] 在上述设备中,所述上下文变量包括但不限于,交易是否在同一地区和交易是否 在同一商户。
[0024]在上述设备中,所述统计变量包括但不限于,某卡号或该卡号交易商户在一段时 间内的统计信息。
[0025]在上述设备中,所选择的特征变量的数量为η,并且η与特征变量的总数N的关系 如下:
[0026]
[0027]上述设备还可包括;用于在某决策树模型的准确率低于一阔值时,从所述随机森 林模型中舍弃该决策树模型的装置。
【附图说明】
[0028]在参照附图阅读了本发明的【具体实施方式】W后,本领域技术人员将会更清楚地了 解本发明的各个方面。本领域技术人员应当理解的是:送些附图仅仅用于配合具体实施方 式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。
[0029] 图1和图2是根据本申请的实施例,基于随机森林模型的金融交易检测方法的流 程示意图。
【具体实施方式】
[0030]下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了 解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本 发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可W提出可相互 替换的其它实现方式。因此,W下【具体实施方式】W及附图仅是对本发明的技术方案的示例 性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
[0031]总体而言,本申请提供了一种基于随机森林的金融交易检测方法和设备。通过有 放回的随机抽样生成训练样本,每一个样本随机选择相同数量特征变量参与训练,生成一 个决策树模型,最后通过多个决策树模型投票来决定交易的分类。
[0032]本申请的基于随机森林的交易检测方法流程设计如图1所示。该交易检测方法包 括数据抽样、提取特征、数据预处理、生成样本数据、训练模型生成随机森林W及生产交易 等步骤。W下针对每一步骤进行具体说明:
[003引 1)数据抽样
[0034]提取欺诈交易表中所有欺诈数据,从历史交易表中按卡号提取交易数据,交易记 录分别标记为化aud,normal。由于历史交易表中包含欺诈交易数据,需要在历史交易表中 抽取的交易中将包含在欺诈交易表中的卡号进行剔除。由于欺诈交易在生产交易中只占很 少一部分,在构造样本数据时,欺诈交易与正常交易比例可取经验值200 (需要参考生产实 际比例)。
[00对。提取特征
[0036]样本特征变量分为原始变量、上下文变量、统计变量。原始变量是从欺诈交易表及 历史交易表中直接获取,不需要进行计算,如交易金额、交易时间等。上下文变量需要从同 一卡号上笔交易中获取,需要进行一定的计算或判断,如交易是否在同一地区、交易是否在 同一商户等。统计变量是该卡号或该卡号交易商户在一段时间内的统计信息,如30日内同 卡号每笔平均交易金额,卡片平均每天交易笔数等。
[0037] 3)数据预处理
[0038]a.计算抽样样本的特征变量;
[0039] b.变量离散化,对于样本数据中的连续型变量进行离散化处理,例如交易金额等 变量;
[0040]C.对样本数据进行随机排序。
[0041] 4)生成样本数据并进而生成随机森林模型
[0042] 随机森林模型的生成流程图如图2所示,模型的训练步骤如下:
[0043]a.样本随机抽样
[0044] 假设数据预处理后的样本为S,随机有放回地抽样k次,每次抽样数量为样本S的 Η分之二,抽样样本集合为{si,. . .,SjJ。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1