一种基于不平衡数据的风控模型处理方法、装置及设备与流程

文档序号：16212188发布日期：2018-12-08 07:53阅读：277来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及计算机技术领域，尤其涉及一种基于不平衡数据的风控模型处理方法、装置及设备。

背景技术

目前，在风控场景中，数据不平衡是一个较为常见的现象，通常是指黑白样本的数量相差较大(如：黑白样本的比例可能只有千分之一左右)。这种情况会影响机器学习算法的表现，并会进一步影响风险识别模型的识别准确率。

现有技术中，为了降低不平衡数据的影响，通常采用随机抽样的方法，来减少白样本与黑样本之间在数量上的差异，并以此构建并部署多个风险识别模型。

基于现有技术，我们需要一种更为有效的风控模型处理方式。

技术实现要素：

本说明书实施例提供一种基于不平衡数据的风控模型处理方法、装置及设备，用以提供一种更加有效的风控模型的处理方式。

本说明书实施例提供的一种基于不平衡数据的风控模型处理方法，包括：

获取包含不平衡样本的待处理样本数据；

针对所述待处理样本数据进行划分，得到多个待处理样本数据集；

根据划分得到的所述多个待处理样本数据集构建评分模型，并对所述待处理样本进行评分；其中，对所述待处理样本的评分用于表征不平衡的待处理样本之间的相关性；

根据所述评分对待处理样本进行抽样，并基于抽样结果构建风控模型并部署。

本说明书实施例还提供的一种基于不平衡数据的风控模型处理装置，包括：

获取模块，获取包含不平衡样本的待处理样本数据；

划分模块，针对所述待处理样本数据进行划分，得到多个待处理样本数据集；

评分模块，根据划分得到的所述多个待处理样本数据集构建评分模型，并对所述待处理样本进行评分；其中，对所述待处理样本的评分用于表征不平衡的待处理样本之间的相关性；

构建部署模块，根据所述评分对待处理样本进行抽样，并基于抽样结果构建风控模型并部署。

本说明书实施例还提供的一种基于不平衡数据的风控模型处理设备，包括：

存储器，存储基于不平衡数据的风控模型处理程序；

处理器，调用存储器中存储的基于不平衡数据的风控模型处理程序，并执行：

获取包含不平衡样本的待处理样本数据；

针对所述待处理样本数据进行划分，得到多个待处理样本数据集；

根据所述评分对待处理样本进行抽样，并基于抽样结果构建风控模型并部署。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

对于出现数据不平衡问题的待处理样本数据而言，可以针对其中数量较多的样本数据进行划分，得到多个数据集，在此基础上，可使用每个数据集与未划分的样本数据构建相应数量的评分模型，并进一步分别使用评分模型对进行划分的待处理样本数据进行评分。该评分能够反映出进行划分的待处理样本数据与未进行划分的待处理样本数据之间的相关性。从而可以基于评分来进行样本抽样，当然，抽样是针对被划分的这部分样本数据。最终可以根据抽样出的样本数据和未被划分的样本数据构建风控模型，并部署。

采用本说明书实施例中的上述方法，基于评分的方式，可以较为有效地从数量较多的样本数据中选取出与数量较少的样本数据相关性较高的样本数据，由此选取出的样本数据能够优化风险模型，并消除样本数据之间存在的数据不平衡问题。而且，在此过程中，多个评分模型并不会进行部署，最终仅有风险模型进行部署，从而能够减少对模型的部署成本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的基于不平衡数据的风控模型处理方法所基于的架构示意图；

图2为本说明书实施例提供的基于不平衡数据的风控模型处理过程；

图3为本说明书实施例提供的在黑白样本不平衡的场景下的执行过程；

图4为本说明书实施例提供的基于不平衡数据的风控模型处理装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，数据不平衡问题是针对数据进行分类过程中所产生的，也即，经过分类后不同数据集中所包含的样本数量相差较大。本说明书实施例中所述的方法，除了适用于风控场景中的黑白样本量的不平衡，也可适用于其他二分类场景中的数据不平衡问题。在后续的描述说明中，将着重以风控场景中的黑白样本不平衡问题进行阐述。

一般性地，在本说明书的一个或多个实施例中，训练样本可以从已经发生的历史业务事件中或已有的业务主体中确定，具体来说，黑样本可以认为是具有较高风险的业务事件或业务主体，而白样本则可认为是正常的业务事件或业务主体，例如：欺诈交易可认为是黑样本，正常的交易可认为是白样本；又例如：风险账号可认为是黑样本，正常账号可认为是白样本。

其中，所述的历史业务事件，可认为是历史上已经执行、并产生了相应结果的业务操作，如：支付、下单、转账、抽奖、投票等等，这里所提及的业务结果，可以包括：成功、失败、限权等，那么，便可根据业务事件所对应的业务结果，来决定业务事件为白样本或黑样本。

所述的业务主体，可认为是发出业务操作的主体，在本说明书实施例中，业务主体可以包括但不限于：用户的账户、用户自身、终端、服务器等。进一步地，这里的用户包括但不限于：个人用户、企业用户、商户、业务提供方等。

当然，在实际应用中，对于黑样本和白样本而言，具体可以根据实际应用的需要进行定义，这里并不应理解为对本申请的限定。

本说明书实施例中所述的基于数据不平衡的风控模型处理方法可采用如图1所示的架构。

在图1中，处理设备能够获得样本数据(样本数据中包括：已发生的业务事件或已有的业务主体的标识)，在这些样本数据中，可预先通过相应的识别模型或人为标记的方式，确定出其中的黑样本和白样本。由此，处理设备可以基于黑、白样本执行模型的建立和部署。

一般来说，处理设备可认为是提供业务服务的业务设备，诸如：能够提供交易服务的交易服务器、能够提供下单功能的服务器、具有抽奖算法的服务器等等。当然，在实际应用中，处理设备不应仅限于服务器，还可能是手机、平板电脑、计算机等设备。

在处理设备是服务器的场景下，具体可采用诸如集群式服务器、分布式服务器或单一服务器的架构，至于采用何种架构，具体将根据实际应用的需要设置，这里并不作具体限定。

另外，除了图1中所示出的处理设备，能够执行本说明书实施例中所述的基于数据不平衡的风控模型处理方法的执行主体，还可能是应用程序/服务等非硬件主体。同样的，具体将根据实际应用的需要进行确定，这里并不应构成对本申请的限定。

应注意的是，预先确定出的黑白样本通常是不平衡的，白样本往往占大多数。故需要执行本说明书实施例中的方法。

以下将详细描述本说明书实施例中的技术方案。

在本说明书实施例中提供一种基于不平衡数据的风控模型处理方法，如图2所示，具体可包括如下步骤：

s201：获取包含不平衡样本的待处理样本数据。

基于前述的描述的内容可知，待处理样本数据可以来源于相应的业务设备，如：业务数据库、服务器或参与业务的终端等，也可以来源于实时发生的业务，通常将取决于具体的业务，这里对待处理样本数据的获取过程不进行过多的赘述。

可以理解的是，获取到的待处理样本数据是已被确定的黑样本数据和白样本数据，而黑、白样本数据存在着不平衡问题，所以为了尽可能地减弱或消除黑、白样本数据之间的不平衡，将执行后续步骤。

步骤s203：针对所述待处理样本数据进行划分，得到多个待处理样本数据集。

在本说明书实施例中，对待处理样本数据的划分，通常是针对数量较多的样本数据进行划分，而对于本身数量较少的样本数据，通常不进行划分。进行划分后，便可得到相应数量的待处理样本数据集。

这里需要说明的是，在实际应用中，可以根据实际应用的需要，设置相应的划分数量，这里并不作具体限定。

步骤s205：根据划分得到的所述多个待处理样本数据集构建评分模型，并对所述待处理样本进行评分。

其中，所述评分用于表征不平衡数据之间的相关性。

如前所述，在本说明书实施例中，待处理样本数据通常包含两类样本数据(如：黑、白样本)，在这些样本数据中，特别是数量较大的那一类样本数据中，与数据量较小的一类样本数据之间的相关性是不同的。

举例说明，在以历史交易作为待处理样本数据的场景下，历史交易中的风险交易可以看作是黑样本，而其他未被判定为风险的交易则可以看作是白样本。白样本中可能有部分交易实际上是风险交易，只是因为未被识别出，从而被归为白样本。但这部分未被识别出的风险交易与黑样本之间是具有一定共性的(也即，具有相关性)。因此，为了量化其间的相关性，就可以构建相应的评分模型。

这里需注意的是，在本说明书实施例中，上述的评分模型并不会进行部署发布，而仅是针对待处理样本数据进行评分处理。

步骤s207：根据所述评分对待处理样本进行抽样，并基于抽样结果构建风控模型并部署。

针对每个待处理样本数据进行评分后，便可以基于各待处理样本数据的分值进行抽样，以便构建出相应的风控模型。

结合前述，最终部署发布的模型仅有一个，也即，本步骤s207中所述的风控模型。

通过上述步骤，对于出现数据不平衡问题的待处理样本数据而言，可以针对其中数量较多的样本数据进行划分，得到多个数据集，在此基础上，可使用每个数据集与未划分的样本数据构建相应数量的评分模型，并进一步分别使用评分模型对进行划分的待处理样本数据进行评分。该评分能够反映出进行划分的待处理样本数据与未进行划分的待处理样本数据之间的相关性。从而可以基于评分来进行样本抽样，当然，抽样是针对被划分的这部分样本数据。最终可以根据抽样出的样本数据和未被划分的样本数据构建风控模型，并部署。

对于上述内容而言，现以实际应用场景下的黑、白样本为例进行说明。

在实际应用中，白样本的数量通常远大于黑样本的数量。那么，在本说明书实施例中，便可以针对白样本进行划分。也即，针对所述待处理样本数据进行划分，得到多个待处理样本数据集，该过程可以为：按照设定的划分数量对所述白样本进行划分，得到设定数量的多个白样本集。

其中，每个白样本集中所包含的白样本的数量可以相同，也可以不同。这里并不作具体限定。

在得到了多个白样本集之后，便可以使用每一个白样本集与全量的黑样本构建评分模型。可以理解地，得到的评分模型的数量与白样本集的数量是一致的。

此后，便可使用评分模型对样本数据进行评分，在本说明书实施例中，将使用每一个评分模型分别对各个白样本数据进行评分，也即，如果有m个评分模型，那么，在评分后，每一个白样本数据均m个评分分值。所以，对所述待处理样本进行评分的过程可以为：分别使用构建得到的多个评分模型针对每一白样本数据进行评分，针对每一所述白样本数据，统计多个评分模型的评分分值，得到汇总分值。

进一步地，可以针对每一个白样本数据的m个评分进行汇总。当然，汇总的方式有多种，例如：求和、加权等，作为一种可行的实施方式，采用求和的方式。需要说明的是，该汇总分值的大小反映了白样本靠近黑样本的程度，即，分值越大，该白样本越靠近黑样本区域，也就越难以训练。

接下来，便可以基于各个白样本数据的汇总分值，对白样本进行抽样。具体来说，在本说明书实施例中，可以采用加权抽样的方式，即，根据所述评分对待处理样本进行抽样的过程可以为：基于所述汇总分值，确定每一所述白样本数据的权重，针对白样本数据进行加权抽样，得到抽样后的白样本数据。

其中，在实际应用中，可以将白样本数据的汇总分值直接作为该白样本数据的权重，而权重越大越容易被抽中。

经过以上的过程，抽样得到的白样本数据的数量与黑样本数据的数量基本一致，从而消除了黑、白样本之间的数据不平衡。

最终便可以基于抽样得到的白样本数据和黑样本数据构建风险模型，并进行部署。

如图3所示，上述场景的实际执行过程具体可包括以下步骤：

步骤s301：针对白样本数据进行划分，得到m组白样本集。

步骤s303：基于每一组白样本集合全量黑样本数据构建m个评分模型。

步骤s305：使用m个评分模型对每个白样本数据评分，并汇总每个白样本数据的分值。

步骤s307：基于汇总分值对白样本数据进行加权抽样。

步骤s309：使用抽样后的白样本数据和黑样本数据构建风险模型。

以上为本说明书实施例提供的数据处理方法，基于同样的思路，本说明书实施例还提供一种基于不平衡数据的风控模型处理装置，如图4所示，所述装置包括：

获取模块401，获取包含不平衡样本的待处理样本数据；

划分模块402，针对所述待处理样本数据进行划分，得到多个待处理样本数据集；

评分模块403，根据划分得到的所述多个待处理样本数据集构建评分模型，并对所述待处理样本进行评分；其中，对所述待处理样本的评分用于表征不平衡的待处理样本之间的相关性；

构建部署模块404，根据所述评分对待处理样本进行抽样，并基于抽样结果构建风控模型并部署。

进一步地，所述获取模块401，获取待处理且已预先确定的黑样本数据及白样本数据。

所述划分模块402，按照设定的划分数量对所述白样本数据进行划分，得到设定数量的多个白样本集。

所述评分模块403，针对任一划分得到的白样本集，根据所述白样本集与全量的黑样本数据构建评分模型；

其中，构建的评分模型的数量与划分得到的白样本集的数量一致。

所述评分模块402，分别使用构建得到的多个评分模型针对每一白样本数据进行评分，针对每一所述白样本数据，统计多个评分模型的评分分值，得到汇总分值。

所述构建部署模块403，基于所述汇总分值，确定每一所述白样本数据的权重，针对白样本数据进行加权抽样，得到抽样后的白样本数据。

所述构建部署模块403，基于抽样后的白样本数据以及所述黑样本数据构建风控模型，并部署

基于如图4所示的装置，本说明书实施例还提供一种基于不平衡数据的风控模型处理设备(具体可以如：服务器、计算机等)，包括：

存储器，存储基于不平衡数据的风控模型处理程序；

处理器，调用存储器中存储的基于不平衡数据的风控模型处理程序，并执行：

获取包含不平衡样本的待处理样本数据；

针对所述待处理样本数据进行划分，得到多个待处理样本数据集；

根据所述评分对待处理样本进行抽样，并基于抽样结果构建风控模型并部署。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和介质类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，这里就不再一一赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤或模块可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardwaredescriptionlanguage，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等，目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信编号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利范围之中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖凯
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种纺织面料的低成本染整工艺的制作方法
上一篇：不锈钢管矫直机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。