一种风控变量识别方法、装置、电子设备及存储介质与流程

文档序号：18453583发布日期：2019-08-17 01:26阅读：181来源：国知局

本公开涉及风控变量识别领域，具体涉及一种基于知识图谱的风控变量识别方法、装置、电子设备及存储介质。

背景技术：

利用知识图谱进行金融反欺诈是新型的金融大数据应用方向，知识图谱的优势在于能够建立以人为中心的关系型数据。知识图谱中包含节点，边以及相关的属性。通过利用知识图谱，可以得到不同的金融反欺诈应用，例如通过标签传播算法来识别潜在的欺诈人，通过社群发现来识别欺诈团伙等方法已经在具体的操作中得到了广泛的应用。除此之外，知识图谱还具有便于增加数据的优势，在金融大数据领域，数据多为不同来源的异构数据，并保持持续的更新。例如，一个初级的金融知识图谱可能仅包含一些贷款申请人或企业的基本信息，而其他数据源的数据，例如个人健康数据、企业专利数据等则可能在后续不断的增加到知识图谱之中。

在一种应用场景里，金融知识图谱可以作为一种金融技术，输出给其他的金融机构。一种常规的输入为向贷款机构提供申请人欺诈风险评估、欺诈团伙识别。然而，传统的贷款机构往往仍然使用人工信用审核的方法来完成贷款的审批。其中风控变量是人工审核需要参考的重要变量。在传统上，风控变量一般包括申请人薪资、任职单位、固定资产等少数传统风控变量。

然而，尽管金融大数据系统已经存储了大量的数据，但是信审人员要么依赖于知识图谱自动计算得到的结果，要么仍然只能依赖于传统的少数风控变量来审核贷款申请。因此，需要识别出新的风控变量来帮助信审人员来评估贷款申请人的金融风险。而当前的知识图谱可以自动确定欺诈概率，但却不能确定申请人的某个属性是否可以用来判断贷款申请人的金融风险。

技术实现要素：

针对现有技术中的上述技术问题，本公开实施例提出了一种风控变量识别方法、装置、电子设备及计算机可读存储介质，以解决当前信审人员用于评估贷款申请人风险的风控变量较少的问题。

本公开实施例的第一方面提供了一种风控变量识别方法，包括：

获取贷款申请人的多源异构数据和欺诈人员信息；

基于所述申请人的多源异构数据，生成知识图谱，所述知识图谱包括多种申请人以及多种边，以及每个申请人的多个属性；

基于所述欺诈人员信息和所述多种边，更新所述知识图谱中的所有申请人的一个或多个属性；

从所述一个或多个属性中，确定一个或多个风控变量。

在一些实施例中，所述基于所述欺诈人员信息和所述多种边，更新所述知识图谱中的所有申请人的一个或多个属性，包括：

基于所述欺诈人员信息，更新所述知识图谱中的所述欺诈人员的一个或多个属性；

基于所述更新的欺诈人员的一个或多个属性和多种边，采用标签传播算法更新知识图谱中其他申请人的所述一个或多个属性。

在一些实施例中，所述从所述一个或多个属性中，确定一个或多个风控变量，包括：

针对所述一个或多个属性中的一个属性，确定预测模型，所述模型为机器学习模型；

基于所述预测模型，确定该属性的预测准确率；

当该属性的预测准确率高于或不低于预设阈值时，将该属性确定为风控变量。

在一些实施例中，所述预设阈值基于一个或多个传统风控变量确定，所述基于一个或多个传统风控变量确定预设阈值，包括：

基于所述预测模型，确定一个或多个传统风控变量的一个或多个预测准确率；

基于所述一个或多个传统风控变量的一个或多个预测准确率，确定预设阈值。

本公开实施例的第二方面提供了一种风控变量识别装置，包括：

获取模块，用于获取贷款申请人的多源异构数据和欺诈人员信息；

知识图谱生成模块，用于基于所述申请人的多源异构数据，生成知识图谱，所述知识图谱包括多种申请人以及多种边，以及每个申请人的多个属性；

更新模块，用于基于所述欺诈人员信息和所述多种边，更新所述知识图谱中的所有申请人的一个或多个属性；

风控变量确定模块，用于从所述一个或多个属性中，确定一个或多个风控变量。

在一些实施例中，所述更新模块包括：

第一更新子模块，用于基于所述欺诈人员信息，更新所述知识图谱中的所述欺诈人员的一个或多个属性；

第二更新子模块，用于基于所述更新的欺诈人员的一个或多个属性和多种边，采用标签传播算法更新知识图谱中其他申请人的所述一个或多个属性。

在一些实施例中，所述风控变量确定模块包括：

预测模型确定子模块，用于针对所述一个或多个属性中的一个属性，确定预测模型，所述模型为机器学习模型；

预测准确率确定子模块，用于基于所述预测模型，确定该属性的预测准确率；

风控变量确定子模块，用于当该属性的预测准确率高于或不低于预设阈值时，将该属性确定为风控变量。

在一些实施例中，风控变量确定子模块包括：

传统风控变量预测准确率确定单元，用于基于所述预测模型，确定一个或多个传统风控变量的一个或多个预测准确率；

预设阈值确定单元，用于基于所述一个或多个传统风控变量的一个或多个预测准确率，确定预设阈值。

本公开实施例的第三方面提供了一种电子设备，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，可用来实现如前述各实施例所述的方法。

本公开实施例，通过将欺诈人员信息更新到知识图谱中，并基于知识图谱中的属性对应的预设模型确定该属性是否可作为风控变量，从而确定为可用的风控变量。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中：

图1是根据本公开的一些实施例所示的知识图谱及风控变量示意图；

图2是根据本公开的一些实施例所示的一种风控变量识别方法示意图；

图3是根据本公开的一些实施例所示的一种知识图谱更新方法示意图；

图4是根据本公开的一些实施例所示的一种风控变量确定方法示意图；

图5是根据本公开的一些实施例所示的一种预设阈值确定方法示意图；

图6是根据本公开的一些实施例所示的一种风控变量识别装置的结构框图；以及

图7是根据本公开的一些实施例所示的电子设备示意图。

具体实施方式

在下面的详细描述中，通过示例阐述了本公开的许多具体细节，以便提供对相关披露的透彻理解。然而，对于本领域的普通技术人员来讲，本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是，本公开中使用“系统”、“装置”、“单元”和/或“模块”术语，是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而，如果其他表达式可以实现相同的目的，这些术语可以被其他表达式替换。

应当理解的是，当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时，其可以直接在另一设备、单元或模块上，连接或耦合到或与其他设备、单元或模块通信，或者可以存在中间设备、单元或模块，除非上下文明确提示例外情形。例如，本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例，而非限制本公开范围。如本公开说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件，而该类表述并不构成一个排它性的罗列，其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是，前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

如图1所示，为一个知识图谱示意图及风控变量举例。如图1所示，一个知识图谱中包括多个节点，每个节点包括三个属性：属性1、属性2和属性3。对于一个贷款申请人来说，信审人员通常基于传统的风控变量来人工进行评审。所述传统的风控变量包括单位、月薪、固定资产等。潜在可使用的风控变量为所述企业的专利数量、所属企业是否上市。通过本公开所述的风控变量识别方法、装置、电子设备及计算机存储介质可以确定所述潜在可使用的风控变量是否可以作为风控变量供信审人员使用以进行评审所述申请人。

图2是根据本公开的一些实施例所示的一种风控变量识别方法示意图。在一些实施例中，所述光谱还原方法可由图6中的风控变量识别装置执行。

在202中，获取贷款申请人的多源异构数据和欺诈人员信息。在一些实施例中，所述贷款申请人的多源异构数据包括贷款申请人在申请时所需要填的各种信息。所述欺诈人员是所述贷款申请人的子集。例如，所述贷款申请人包括a、b、c、d四个人，所述欺诈人员包括a和b两个人，或者，所述欺诈人员也包括a、b、c、d四个人。所述欺诈人员信息包括所述欺诈人员涉及的欺诈行为的各种信息。

应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。例如，所述贷款申请人的个数和欺诈人员的个数仅为示例，实际应用中可以是任意人数。

在204中，基于所述申请人的多源异构数据，生成知识图谱。所述知识图谱包括多种申请人以及多种边，以及每个申请人的多个属性。

知识图谱是一种基于图的数据结构，由节点和边组成。知识图谱是实体间关系的最有效表示方式。通俗地讲，知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。实体(也称节点)：在知识图谱里，每个节点表示现实世界中存在的“实体”。实体属性:在知识图谱里，每个节点表示的“实体”的属性，本公开中称申请人的属性。每条边为实体与实体之间的“关系”。

在206中，基于所述欺诈人员信息和所述多种边，更新所述知识图谱中的所有申请人的一个或多个属性。在一些实施例中，所述更新过程可以是包括更新和新增两类。例如，如图3中所示的操作。图3是根据本公开的一些实施例所示的一种知识图谱更新方法示意图。

在302中，基于所述欺诈人员信息，更新所述知识图谱中的所述欺诈人员的一个或多个属性。在一些实施例中，当所述贷款申请人中包含欺诈人员时，将所述欺诈人员的欺诈信息更新到所述贷款申请人的一个或多个属性中。例如，例如，某贷款申请人的失信属性的参数为0，但其作为欺诈人员的失信属性的参数为3，则将所述贷款申请人的失信属性的参数更换为3。又例如，某欺诈人员的欺诈属性中包括“是否曾被拘留”属性，而其作为贷款申请人的一个或多个属性中不包括该属性，则将“是否曾被拘留”属性新增到贷款申请人的属性中。

在304中，基于所述更新的欺诈人员的一个或多个属性和多种边，采用标签传播算法更新知识图谱中其他申请人的所述一个或多个属性。同样地，知识图谱中其他申请人的属性更新也包括重复属性的更新和非重复属性的更新。例如，基于贷款申请人中已更新的失信属性参数和多种边，采用标签传播算法计算出其他申请人的失信属性参数。又例如，基于贷款申请人中新增属性(“是否曾被拘留”等属性)的参数，采用标签传播算法计算出其他申请人的新增属性的参数。

综上，图3完成了步骤204中的更新过程。

在206中，从所述一个或多个属性中，确定一个或多个风控变量。在一些实施例中，所述风控变量的确定过程为基于预测模型实现。如图4所示，为根据本公开的一些实施例所示的一种风控变量确定方法示意图。

在402中，针对所述一个或多个属性中的一个属性，确定预测模型，所述模型为机器学习模型。在一些实施例中，所述预测模型的确定过程可以是基于模型训练获得。

在404中，基于所述预测模型，确定该属性的预测准确率。具体地，将所述一个或多个属性中的某个属性输入到所述预测模型中，确定对应该属性的预测准确率。

在406中，当该属性的预测准确率高于或不低于预设阈值时，将该属性确定为风控变量。在一些实施例中，所述预设阈值可以是人为设定的。例如，0.6,0.8等。特别地，所述预设阈值也可以是通过常规风控变量确定的。如图5所示，为根据本公开的一些实施例所示的一种预设阈值确定方法示意图。

在502中，基于所述预测模型，确定一个或多个传统风控变量的一个或多个预测准确率。例如，传统的风控变量包括逾期还款次数、逾期还款金额等。基于所述预测模型，确定所述逾期还款次数的预测准确率为0.5，逾期还款金额的准确率为0.65。

在504中，基于所述一个或多个传统风控变量的一个或多个预测准确率，确定预设阈值。在一些实施例中，所述基于所述一个或多个传统风控变量的一个或多个预测准确率，确定预设阈值的方式可以是任意的。例如，将所述预设阈值设置为所述一个或多个传统风控变量的一个或多个预测准确率中的最小值、最大值、平均值等。

图6是根据本公开的一些实施例所示的一种风控变量识别装置的结构框图。如图6所示，所述种风控变量识别装置包括获取模块610、知识图谱生成模块620、更新模块630和风控变量确定模块640。

所述获取模块610用于获取贷款申请人的多源异构数据和欺诈人员信息。所述知识图谱生成模块620用于基于所述申请人的多源异构数据，生成知识图谱。

所述更新模块630用于基于所述欺诈人员信息和所述多种边，更新所述知识图谱中的所有申请人的一个或多个属性。所述更新过程如图3中所述。

在一些实施例中，对应图3中的更新过程，所述更新模块630可以包括第一更新子模块和第二更新子模块。所述第一更新子模块用于基于所述欺诈人员信息，更新所述知识图谱中的所述欺诈人员的一个或多个属性。所述第二更新子模块用于基于所述更新的欺诈人员的一个或多个属性和多种边，采用标签传播算法更新知识图谱中其他申请人的所述一个或多个属性。

所述风控变量确定模块640用于从所述一个或多个属性中，确定一个或多个风控变量。所述风控变量确定过程如图4中所述。

在一些实施例中，对应图3中的更新过程，所述风控变量确定模块640可以包括预测模型确定子模块、预测准确率确定子模块和风控变量确定子模块。所述预测模型确定子模块用于针对所述一个或多个属性中的一个属性，确定预测模型，所述模型为机器学习模型。所述预测准确率确定子模块用于基于所述预测模型，确定该属性的预测准确率。所述风控变量确定子模块用于当该属性的预测准确率高于或不低于预设阈值时，将该属性确定为风控变量。

进一步地，所述风控变量确定子模块还包括传统风控变量预测准确率确定单元和预设阈值确定单元。所述传统风控变量预测准确率确定单元用于基于所述预测模型，确定一个或多个传统风控变量的一个或多个预测准确率。所述预设阈值确定单元用于基于所述一个或多个传统风控变量的一个或多个预测准确率，确定预设阈值。

图7是适于用来实现根据本公开实施方式的电子设备的结构示意图。

如图7所示，电子设备700包括中央处理单元(cpu)701，其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行上述图2-图5所示的实施方式中的各种处理。在ram703中，还存储有电子设备700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

以下部件连接至i/o接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施方式，上文参考图2-图5描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行图2-图5的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

综上所述，本公开提出了一种风控变量识别方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过将欺诈人员信息更新到知识图谱中，并基于知识图谱中的属性对应的预设模型确定该属性是否可作为风控变量，从而确定为可用的风控变量。

应当理解的是，本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理，而不构成对本公开的限制。因此，在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。此外，本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：和会荣;刘臣;姜瑾
技术所有人：深圳众赢维融科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。