商户风险估算方法及系统的制作方法

文档序号:9826570阅读:294来源:国知局
商户风险估算方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据处理,更为具体地,涉及基于商户的历史交易数据估算商户风险。
【背景技术】
[0002] 在传统的商户风险评分方法中,通常采用评分卡、决策树等方法进行商户风险评 分,这些方法在一定程度上可满足商户风险评分工作的需求。但是这些方法存在以下缺 占 .
[0003] 通过规则方法进行商户风险评分,通常要求技术人员对业务具有很专业的认识, 而人们无法总结所有的欺诈规则,因此传统的商户风险评分只能依据已知的欺诈规则对商 户进行评分,无法利用未知的规则及规律,具有一定的局限性。
[0004] 商户的交易行为在不断变化,可能在过去一段时间商户具有欺诈行为,但经过规 范教育之后,不再有欺诈行为;同样,也存着"正常"商户发生过欺诈行为,但没有检测到的 情况,因此未能对其进行处理。

【发明内容】

[0005] 有鉴于此,本发明提供商户风险估算方法,该方法包括:
[0006] a.建立用于对商户进行风险评估的多个模型,每个模型对应设定时期内的一种欺 诈行为;
[0007] b.将待评估商户在该设定时期的交易数据输入到各模型中,以获得各模型的估算 结果;
[0008] c.对各模型的估算结果做加权平均,以获得该待评估商户的风险估算结果。
[0009] 根据本发明所述的商户风险估算方法,其中,所述步骤a包括:
[0010] 为每一种欺诈行为按照al到al3的步骤建立相对应的模型:
[0011] al.从所述设定时间内的历史交易数据中提取样本数据,所述样本数据包括发生 过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据;
[0012] a2.从所述样本数据中提取多个风险指标变量;
[0013] a3.根据如下的公式计算多个风险指标变量中各两个变量之间的相关性,其中, r为相关性系数,X与y分别代表各两个变量中的一个,^表示变量X的观测值,y i表示 变量y的观测值,;t.表示从七到X n的平均值,j表示从yji」y n的平均值,1彡i彡η且一 1 ^ r ^ 1 :
[0015] a4.根据所计算的r值筛选出第一数目个风险指标变量;
[0016] a5.设定用于区分正常商户与高风险商户的条件;
[0017] a6.根据所设定的条件从al中已提取的样本数据中再次提取样本数据,包括发生 过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据;
[0018] a7.对a6中提取的样本数据进行标记,标记为正常商户或高风险商户;
[0019] a8.按照1:1的比例从所标记的正常商户与高风险商户中提取样本,通过C4. 5决 策树模型进行学习训练以获得训练好的模型;
[0020] a9.将在步骤al中提取的样本数据输入到所获得的训练好的C4. 5决策树模型中, 从而计算出新的风险指标变量,换言之,新的风险指标变量是样本数据输入C4. 5决策树所 获得的计算结果;
[0021] alO.对步骤a9中计算出的风险指标变量进行归一化处理;
[0022] all.通过逻辑回归训练模型对在步骤a6中再次提取的样本数据中的一部分进行 训练,获得逻辑回归方程
[0024] 其中,m =第一数目+1,p为高风险商户的概率,β。,h,...,I为回归系数, Xi, x2,. . .,xm为风险指标变量;
[0025] al2.以在步骤a6中再次提取的样本数据中未在步骤all中进行训练的剩余部分, 对所述逻辑回归模型进行测试,测试结果中P>〇. 6的商户为高风险商户,反之为正常商户;
[0026] al3.将al2中的计算结果与商户的实际情况进行比较,在确认al2中所计算的高 风险商户的确为高风险商户的情况下,确定该逻辑回归模型可用。
[0027] 根据本发明所述的商户风险估算方法,其中,所述方法还包括按照设定的时间间 隔更新步骤a中建立的多个模型中的每一个,并基于更新的模型执行步骤b与步骤c。
[0028] 根据本发明所述的商户风险估算方法,其中,按照设定的时间间隔更新步骤a中 建立的多个模型中的每一个是基于按照设定的时间间隔对所述设定时期进行更新以更新 该设定时期内的历史数据来进行的。
[0029] 本发明还提供一种商户风险估算系统,其中,所属系统包括:模型建立模块,用于 建立对商户进行风险评估的多个模型,每个模型对应设定时期内的一种欺诈行为;输入模 块,用于将待评估商户在该设定时期的交易数据输入到各模型中,以获得各模型的估算结 果;加权计算模块,用于对各模型的估算结果做加权平均,以获得该待评估商户的风险估算 结果。
[0030] 根据本发明提供的商户风险估算系统,其中,所述模型建立模块为每一种欺诈行 为建立相对应的模型,所述模型建立模块包括:第一单元,其用于从所述设定时间内的历史 交易数据中提取样本数据,所述样本数据包括发生过欺诈行为的商户的所有数据以及没有 发生过欺诈行为的商户的所有数据;
[0031] 第二单元,其用于从所述样本数据中提取多个风险指标变量;
[0032] 第三单元,其用于根据如下的公式计算多个风险指标变量中各两个变量之间的相 关性,其中,r为相关性系数,X与y分别代表各两个变量中的一个,1 1表示变量X的观测值, yi表示变量y的观测值,$表示从xjij X n的平均值,表示从ygij y n的平均值,1彡i彡η 且一1彡r彡1 :
[0034] 第四单元,其用于根据所计算的r的值筛选出第一数目个风险指标变量;
[0035] 第五单元,其用于设定用于区分正常商户与高风险商户的条件;
[0036] 第六单元,其用于根据所设定的条件从第一单元中已提取的样本数据中再次提取 样本数据,包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有 数据;
[0037] 第七单元,其用于对第六单元中提取的样本数据进行标记,标记为正常商户或高 风险商户;
[0038] 第八单元,其用于按照1:1的比例从所标记的正常商户与高风险商户中提取样 本,通过C4. 5决策树模型进行学习训练以获得训练好的模型;
[0039] 第九单元,其用于将在第一单元中所提取的样本数据输入到所获得的训练好的 C4. 5决策树模型中,从而计算出新的风险指标变量;换言之,新的风险指标变量是样本数 据输入C4. 5决策树模型所获得的计算结果;
[0040] 第十单元,其用于对第九单元中计算出的风险指标变量进行归一化处理;
[0041] 第十一单元,其用于通过逻辑回归训练模型对所述第六单元再次提取的样本数据 中一部分进行训练,获得逻辑回归方程
[0043] 其中,m =第一数目+1,p为高风险商户的概率,β。,h,...,I为回归系数, Xi, x2,. . .,xm为风险指标变量;
[0044] 第十二单元,其用于以在第六单元中再次提取的样本数据中未被第十一单元来进 行训练的剩余数据,对所述逻辑回归模型进行测试,测试结果中P>〇. 6的商户为高风险商 户,反之为正常商户;
[0045] 第十三单元,其用于将在第十二单元中的计算结果与商户的实际情况进行比较, 在确认第十二单元中所计算的高风险商户的确为高风险账户的情况下,确定该逻辑回归模 型可用;
[0046] 根据本发明所述的商户风险估算系统,其还包括更新模块,其用于按照设定间隔 更新第一模块所建立的多个模型中的每一个。
[0047] 根据本发明所述的商户风险估算系统,其中,所述更新模块按照设定间隔更新步 骤a中建立的多个模型中的每一个是基于按照设定间隔对所述设定时期进行更新以更新 该设定时期内的历史数据来进行的。
【附图说明】
[0048] 图1是根据本发明示例的商户风险评估算法的流程图。
[0049] 图2是图1中所示的步骤10的流程图。
[0050] 图3是根据本发明示例的商户风险估算系统的结构示意图。
[0051 ] 图4是模型建立模块20的结构示意图。
【具体实施方式】
[0052] 现在参照附图描述本发明的示意性示例,相同的附图标号表示相同的元件。下文 描述的各实施例有助于本领域技术人员透彻理解本发明,且意在示例而非限制。除非另有 限定,文中使用的术语(包括科学、技术和行业术语)具有与本发明所属领域的技术人员普 遍理解的含义相同的含义。
[0053] 图1是根据本发明示例的商户风险评估算法的流程图。根据图1所示的方法,在 步骤10,建立用于对商户进行风险评估的多个模型,每个模型对应设定时期内的一种欺诈 行为。对商户进行风险评估在本申请中指的是根据本申请所述的商户风险评估算法来评定 商户进行欺诈行为的可能性。在此欺诈行为示例但非限制地包括套现、伪卡、伪卡集中使用 点等。根据本发明的示例,从已经历的一段时期内的历史数据,比如2013年的数据中选取 商户样本,然后针对每种欺诈行为建立模型。
[0054] 在步骤12,将待
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1