风控方法及风控装置与流程

文档序号:19157724发布日期:2019-11-16 01:01阅读:411来源:国知局
风控方法及风控装置与流程

本说明书涉及计算机领域。



背景技术:

近年来,随着互联网技术的发展,越来越多的国家和地区开始使用线上支付业务。因此,需要为每个国家和地区提供交易风控服务。但是,由于一些国家和地区的线上支付业务上线不久,案件和样本数据量较少,无法有效地获得适用于该国家和地区的交易风控模型。另一方面,通常情况下,不同国家和地区的交易样本数据不允许直接传输。因此,目前无法快速有效地为线上支付业务新上线,且案件量较少的国家和地区提供相应的有效的交易风控服务。



技术实现要素:

本说明书提供了一种风控方法和风控装置,能够快速有效地为线上交易上线时间较短、案件量较少的国家和地区提供交易风控服务。

本申请公开了一种风控方法,包括:

分别获取源和目标地区的样本数据;

基于所述源地区的样本数据训练源地区交易模型;

根据所述源地区交易模型的结构和参数,生成目标地区交易模型,并根据所述目标地区的样本数据将所述目标地区交易模型包含的每个决策树的每个叶子节点扩张为子决策树,对于所述每一个决策树的每一个内部节点,如果该内部节点作为根节点的第一经验误差大于作为叶子节点的第二经验误差,则对该内部节点进行剪枝,以调整所述目标地区交易模型;

根据所述调整后的目标地区交易模型,对所述目标地区的交易进行风险控制。

在一个优选例中,所述根据所述目标地区的样本数据将所述目标地区交易模型包含的每个决策树的每个叶子节点扩张为子决策树,对于所述每一个决策树的每一个内部节点,如果该内部节点作为根节点的第一经验误差大于作为叶子节点的第二经验误差,则对该内部节点进行剪枝,以调整所述目标地区交易模型,包括:

确定所述目标地区交易模型包含的每个决策树的每个叶子节点所对应的所述目标地区的样本数据集合;

对所述每个决策树的每个叶子节点,基于所述每个叶子节点所对应的所述目标地区的样本数据集合,训练一个子决策树,将该叶子节点扩张为该子决策树;

对于所述目标地区交易模型中每一个决策树的每一个内部节点和该内部节点对应的所述目标地区的样本数据集合,计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差,如果所述第一经验误差大于第二经验误差,则将该内部节点剪枝为叶子节点。

在一个优选例中,所述交易为线上支付业务。

在一个优选例中,所述源地区交易模型和所述目标地区交易模型是随机森林模型。

在一个优选例中,所述根据所述源地区交易模型的结构和参数生成目标地区交易模型,包括:将所述源地区的随机森林模型的结构和参数复制到所目标地区的随机森林模型。

在一个优选例中,所述对于所述目标地区交易模型中每一个决策树的每一个内部节点和该内部节点对应的所述目标地区的样本数据集合,计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差,是按照自底至上的顺序计算。

在一个优选例中,所述计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差的步骤中,所述第一经验误差和第二经验误差使用logloss或者交叉熵表示。

本申请还公开了一种风控装置包括:

获取模块,用于分别获取源地区和目标地区的样本数据;

训练模块,用于基于所述源地区的样本数据训练源地区交易模型;

调整模块,用于根据所述源地区交易模型的结构和参数,生成目标地区交易模型,并根据所述目标地区的样本数据将所述目标地区交易模型包含的每个决策树的每个叶子节点扩张为子决策树,对于所述每一个决策树的每一个内部节点,如果该内部节点作为根节点的第一经验误差大于作为叶子节点的第二经验误差,则对该内部节点进行剪枝,以调整所述目标地区交易模型;

风控模块,用于根据所述调整后的目标地区交易模型,对所述目标地区的交易进行风险控制。

在一个优选例中,所述调整模块包含以下子模块:

样本数据集和子模块:用于确定所述目标地区交易模型包含的每个决策树的每个叶子节点所对应的所述目标地区的样本数据集合;

子决策树子模块:用于对所述每个决策树的每个叶子节点,基于所述每个叶子节点所对应的所述目标地区的样本数据集合,训练一个子决策树,将该叶子节点扩张为该子决策树;

计算子模块,用于对于所述目标地区交易模型中每一个决策树的每一个内部节点和该内部节点对应的所述目标地区的样本数据集合,计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差,如果所述第一经验误差大于第二经验误差,则将该内部节点剪枝为叶子节点。

在一个优选例中,所述交易为线上支付业务。

在一个优选例中,所述源地区交易模型和所述目标地区交易模型是随机森林模型。

在一个优选例中,所述调整模块还用于将所述源地区的随机森林模型的结构和参数复制到所目标地区的随机森林模型。

在一个优选例中,所述计算子模块对于所述目标地区交易模型中每一个决策树的每一个内部节点和该内部节点对应的所述目标地区的样本数据集合,计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差,是按照自底至上的顺序计算。

在一个优选例中,所述第一经验误差和第二经验误差使用logloss或者交叉熵表示。

本申请还公开了一种风控设备包括:

存储器,用于存储计算机可执行指令;以及,

处理器,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。

本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。

本说明书实施方式中,能够利用线上支付业务上线时间较长、案件量较多的国家和地区的数据资源,在交易样本数据不允许直接传输的情况下,快速有效地为线上支付业务上线时间较短、案件量较少的国家和地区提供交易风控服务。

进一步的,本说明书的实施例的风控方法相比较于直接使用源地区的风控模型的方案,能够更好地适应目标地区的数据分布;相比较于使用目标地区的样本数据构建风控模型的方案,由于利用了源地区的样本数据和经验知识,风控效果更好;相比较于样本迁移的方法,不需要源地区和目标地区之间进行样本数据的传递,能有效应对数据隔离的场景。

本说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本说明书上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征a+b+c,在另一个例子中公开了特征a+b+d+e,而特征c和d是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征e技术上可以与特征c相组合,则,a+b+c+d的方案因技术不可行而应当不被视为已经记载,而a+b+c+e的方案应当视为已经被记载。

附图说明

图1是根据本说明书第一实施方式的风控方法的流程示意图;

图2是根据本说明书第一实施方式的风控方法的细节流程示意图;

图3是根据本说明书第二实施方式的风控装置的结构示意图。

具体实施方式

在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。

下面将结合附图对本说明书的实施方式作进一步地详细描述。

首先,描述本申请的一个实施例的具体应用场景。

在该场景中,对某种交易,例如,对于一种线上支付业务,需在目标地区进行风险控制。其中,由于该目标地区刚刚开始上线此业务,因此案件量和样本数据均很少。而在源地区,由于此业务已上线较长时间,具有充足的案件量和样本数据,并能够据此获得有效的风控服务。在本实施例中,源地区可以在比如,中国,目标地区可以在比如,印度尼西亚。

如图1所示,本实施例的风控方法,包括以下步骤:

步骤110:分别获取源地区和目标地区的样本数据;

步骤120:基于所述源地区的样本数据训练源地区交易模型;

步骤130:根据所述源地区交易模型的结构和参数,生成目标地区交易模型,并根据所述目标地区的样本数据将所述目标地区交易模型包含的每个决策树的每个叶子节点扩张为子决策树,对于所述每一个决策树的每一个内部节点,如果该内部节点作为根节点的第一经验误差大于作为叶子节点的第二经验误差,则对该内部节点进行剪枝,以调整所述目标地区交易模型;

步骤140:根据经调整的所述目标地区交易模型对所述目标地区的交易进行风险控制。

下面对每一个步骤进行详细的解释说明。

针对步骤110:

具体的,首先获取源地区和目标地区的线上支付业务的样本数据,也就是历史交易数据,例如,涉及用户登录、交易、注册,以及校验结果等的数据,并对每个历史交易数据打上案件标签,其中,将用户报案的案件标记为黑(即,positive),将未报案的案件标记为非黑(即,negative)。

例如,将中国作为源地区,将印度尼西亚作为目标地区,分别获取线上支付业务在中国和印度尼西亚的历史交易数据,对于每一个历史交易,如果有用户报案,例如,用户在卡被黑产盗用并发生非本人交易的情况下报案,则将该历史交易标记为黑(即,positive),如果该没有用户报案,则将该历史交易标记为非黑(即,negative)。

进一步的,基于源地区及目标地区的案件特征,设计特征变量,并基于iv值筛选等方式筛选出合适的特征变量。特征变量是指基于上述样本数据进行加工后得到的数据,例如,用户维度上一天中累计的登录次数。

上述iv值是一种反映特征变量在模型中的重要程度的特征。例如,用户可以设定好一个阈值,所述阈值可以是一个经验值。当特征变量的iv值大于该阈值时,说明该特征变量比较重要,则确定该特征变量为有效的特征变量;反正,当特征变量的iv值不大于该阈值时,说明该特征变量不那么重要,因此,不将其确定为有效的特征变量。

针对步骤120:

在本实施例中,源地区交易模型是随机森林模型。

随机森林模型是一个包含多个决策树的分类器,其中,决策树是一种基本的分类器,一般是将特征分为两类。构建好的决策树呈树形结构,可以认为是if-then规则的集合。

在本实施例中,根据中国的线上支付业务的样本数据,训练源地区交易模型。

针对步骤130:

目标地区交易模型也是随机森林模型。

源地区交易模型的参数,是指随机森林模型中的每棵决策树的结构和决策树的每个节点的分类值。

所述根据所述源地区交易模型的结构和参数生成目标地区交易模型,包括:将所述源地区的随机森林模型的结构和参数复制到所目标地区的随机森林模型。

通过将源地区的随机森林模型的结构和参数复制到目标地区的随机森林模型,则可以仅仅使用源地区的交易的抽象数据,也就是仅仅使用源地区随机森林模型的结构和参数数据,而不需要使用源地区的具体的样本数据。

如图2所示,根据所述目标地区的样本数据调整所述目标地区交易模型的步骤,可以通过以下具体的方式实现:

步骤1302:在目标地区的样本数据中,确定所述目标地区交易模型包含的每个决策树的每个叶子节点所对应的所述目标地区的样本数据集合。

具体的,当每个样本数据使用随机森林模型进行决策时,都会最终落到随机森林模型的决策树的一个叶子节点。把目标地区的所有样本数据分别使用源地区交易模型中的决策树进行决策,然后统计落到决策树的每个叶子节点上的数据集合,则该数据集合就是上述每个叶子节点所对应的目标地区的样本数据集合。

步骤1304:对所述每个决策树的每个叶子节点,基于所述每个叶子节点所对应的所述目标地区的样本数据集合,训练一个子决策树,将该叶子节点扩张为该子决策树。

目标地区交易模型是由源地区交易模型复制而来的,通过本步骤,实质上是将目标地区的样本数据融合到源地区交易模型。

具体的,本步骤可以通过循环的方式,对目标地区交易模型包含的每个决策树的所有的叶子节点,基于它对应的目标地区的样本数据集和,训练一个子决策树,由此,将每个叶子节点扩张为一个子决策树。

步骤1306:对于所述目标地区交易模型中包含的每一个决策树的每一个内部节点和该内部节点对应的所述目标地区的样本数据集合,计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差。

内部节点是指经过上述扩张步骤之后的决策树的所有的内部节点,内部节点包括决策树的所有非叶子节点和根节点。内部节点的作为根节点的经验误差,也称为subtreeerror,内部节点的作为叶子节点的经验误差,也称为leaferror。

决策树的决策顺序是从底至上的,因此,按照从底至上的顺序,对目标地区交易模型中包含的每一个决策树的每一个内部节点,计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差。

在计算该内部节点的作为根节点的第一经验误差的步骤中,经验误差可以使用logloss或者交叉熵表示。例如,对于二分类问题,第一经验误差使用logloss表示。内部节点作为根节点的第一经验误差的具体计算方式,以及内部节点作为叶子节点的第二经验误差的具体计算方式,均是本领域的公知常识,所以本文中不做赘述。

步骤1308:比较所述第一经验误差和第二经验误差,如果第一经验误差大于第二经验误差,则将该内部节点剪枝为叶子节点。

在内部节点作为根节点的第一经验误差大于内部节点作为叶子节点的第二经验误差的情况下将内部节点剪枝为叶子节点,是为了避免模型在目标域数据集上过拟合。

对于目标地区交易模型包含的每个决策树,执行步骤1302-1308,以对每个决策树都进行调整。由此,所有调整后的决策树组合得到经调整的目标地区交易模型。

针对步骤140:

举例来说,可将上述经调整的目标区域交易模型部署上线,对目标地区的当前交易进行打分,确定该当前交易的模型分值,并与阈值进行比较,判断该当前交易的模型分值是否低于阈值,如果低于阈值,则使本次交易通过,如果高于阈值,则进一步对用户进行校验,判断是否为本人交易,如果判断为本人交易,则校验通过,使本次交易通过,否则,校验未通过,使本次交易失败。

本说明书的第二实施方式涉及一种风控装置,其结构如图3所示,该风控装置包括:获取模块,训练模块,调整模块和风控模块。

获取模块,用于分别获取源地区和目标地区的样本数据。

训练模块,用于基于所述源地区的样本数据训练源地区交易模型。

调整模块,用于根据所述源地区交易模型的结构和参数,生成目标地区交易模型,并根据所述目标地区的样本数据调整所述目标地区交易模型。可选的,在一个实施例中,所述调整模块包含以下子模块:样本数据集和子模块:用于确定所述目标地区交易模型包含的每个决策树的每个叶子节点所对应的所述目标地区的样本数据集合;子决策树子模块:用于对所述每个决策树的每个叶子节点,基于所述每个叶子节点所对应的所述目标地区的样本数据集合,训练一个子决策树,将该叶子节点扩张为该子决策树;计算子模块,用于对于所述目标地区交易模型中每一个决策树的每一个内部节点和该内部节点对应的所述目标地区的样本数据集合,按照自底至上的顺序计算该内部节点的作为根节点的第一经验误差和作为叶子节点的第二经验误差,如果第一经验误差大于第二经验误差,则将该内部节点剪枝为叶子节点。可选的,在一个实施例中,所述交易为线上支付业务。

可选的,在一个实施例中,所述源地区交易模型和所述目标地区交易模型是随机森林模型。

可选的,在一个实施例中,所述第一经验误差和第二经验误差使用logloss或者交叉熵表示。

风控模块,用于根据所述调整后的目标地区交易模型,对所述目标地区的交易进行风险控制。

第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。

本说明书实施例中所述支付涉及的技术载体,例如可以包括近场通信(nearfieldcommunication,nfc)、wifi、3g/4g/5g、pos机刷卡技术、二维码扫码技术、条形码扫码技术、蓝牙、红外、短消息(shortmessageservice,sms)、多媒体消息(multimediamessageservice,mms)等。

需要说明的是,本领域技术人员应当理解,上述风控装置的实施方式中所示的各模块的实现功能可参照前述风控方法的相关描述而理解。上述风控装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本说明书实施例上述风控装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本说明书各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,readonlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本说明书实施例不限制于任何特定的硬件和软件结合。

相应地,本说明书实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本说明书的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

此外,本说明书实施方式还提供一种风控设备,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(centralprocessingunit,简称“cpu”),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,简称“dsp”)、专用集成电路(applicationspecificintegratedcircuit,简称“asic”)等。前述的存储器可以是只读存储器(read-onlymemory,简称“rom”)、随机存取存储器(randomaccessmemory,简称“ram”)、快闪存储器(flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本说明书提及的所有文献都被认为是整体性地包括在本说明书的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1