一种决策流组件生成方法、装置、电子设备及存储介质与流程

文档序号:19418830发布日期:2019-12-14 01:12阅读:177来源:国知局
一种决策流组件生成方法、装置、电子设备及存储介质与流程

本公开涉及知识图谱领域,具体涉及一种基于知识图谱数据的决策流组件自动生成方法、装置、电子设备及存储介质。



背景技术:

随着大数据和人工智能,尤其是认知智能技术的发展,金融科技正在越来越多的应用新的技术来为社会提供服务。传统的金融服务的核心业务,例如反欺诈识别、风控、贷前贷后管理均是基于人工数据处理的方式来完成,这在业务规模较小,服务区域较为固定的情况下能够较好的通过人工的方式应对。然而,随着金融服务业的互联网化,金融服务的大量业务从线下转移到线上。这使得基于互联网数据采集和数据智能处理的方法越来越多的取代了部分人工的工作。然而,即使借助于更多的自动数据分析工具,金融服务的流程中仍然需要人工信审的参与。信审人员的主要工作是通过决策引擎制定不同的决策流/规则流(一个决策流中包括一个或多个决策流组件),制定的规则流用于自动处理贷款申请的评估。一般而言,决策引擎是专业信审人员通过数据分析人工输入到一个自动化的决策引擎之中的。然而,这种方式在实际工作中的效率受限于人工分析的效率,越来越不能适应更快速变动的市场行情和海量的金融数据。



技术实现要素:

针对现有技术中的上述技术问题,本公开实施例提出了一种决策流组件生成方法、装置、电子设备及计算机可读存储介质,以解决当前信审人员需要人工操作的低效率问题。

本公开实施例的第一方面提供了一种决策流组件生成的方法,包括:基于历史图数据中的关系数据,确定多个评估变量;根据所述多个评估变量的至少一种组合方式确定至少一个待训练模型;使用所述历史图数据中的第一部分信审结果对所述至少一个待训练模型进行机器学习的训练;使用所述历史图数据中的第二部分信审结果对训练后的模型进行测试,选取测试性能较优的一个或多个模型作为确定的决策流组件;其中,对于同一个模型,使用的所述第二部分信审结果不同于所述第一部分信审结果。

在一些实施例中,通过查询图数据库获取所述历史图数据;其中,所述历史图数据包括所述关系数据和对历史进项的信审结果;所述第一部分信审结果和所述第二部分信审结果从全部信审结果中随机选取。

在一些实施例中,所述基于历史图数据中的关系数据确定多个评估变量包括:根据用于进行反欺诈识别或信审决策的机器学习模型的需求从所述关系数据中选取所述多个评估变量。

在一些实施例中,所述根据所述多个评估变量的至少一种组合方式确定至少一个待训练模型包括:从所述多个评估变量中随机挑选任意个评估变量形成一种组合方式;基于所述组合方式中的评估变量确定与之对应的待训练模型。

在一些实施例中,所述使用所述历史图数据中的第二部分信审结果对训练后的模型进行测试包括:使用所述第二部分信审结果相关的历史进项输入所述训练后的模型进行测试;对比测试结果与所述第二部分信审结果的一致性确定所述训练后的模型的测试性能;将所述训练后的模型按所述测试性能排序或使用预设阈值筛选,确定所述测试性能较优的一个或多个模型。

本公开实施例的第二方面提供了一种决策流组件生成装置,包括:评估变量确定模块,用于基于历史图数据中的关系数据,确定多个评估变量;待训练模型确定模块,用于根据所述多个评估变量的至少一种组合方式,确定至少一个待训练模型;训练模块,用于使用所述历史图数据中的第一部分信审结果对所述至少一个待训练模型进行机器学习的训练;决策流组件确定模块,用于使用所述历史图数据中的第二部分信审结果对训练后的模型进行测试,选取测试性能较优的一个或多个模型为确定的决策流组件;其中,对于同一个模型,使用的所述第二部分信审结果不同于所述第一部分信审结果。

在一些实施例中,所述装置还包括:查询模块,用于通过查询图数据库获取所述历史图数据;其中,所述历史图数据包括所述关系数据和对历史进项的信审结果;数据选取模块,用于从全部信审结果中随机选取所述第一部分信审结果和所述第二部分信审结果。

在一些实施例中,所述评估变量确定模块包括:模型变量选取模块,用于根据用于进行反欺诈识别或信审决策的机器学习模型的需求从所述关系数据中选取所述多个评估变量。

在一些实施例中,所述待训练模型确定模块包括:随机组合模块,用于从所述多个评估变量中随机挑选任意个评估变量形成一种组合方式;模型生成模块,用于基于所述组合方式中的评估变量确定与之对应的待训练模型。

在一些实施例中,所述决策流组件确定模块包括:模型测试模块,用于使用所述第二部分信审结果相关的历史进项输入所述训练后的模型进行测试;性能确定模块,用于对比测试结果与所述第二部分信审结果的一致性确定所述训练后的模型的测试性能;模型筛选模块,用于将所述训练后的模型按所述测试性能排序或使用预设阈值筛选,确定所述测试性能较优的一个或多个模型。

本公开实施例的第三方面提供了一种电子设备,包括:

存储器以及一个或多个处理器;

其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。

本公开实施例,通过自动的通过对知识图谱中的数据进行分析,生成可以用于决策引擎使用的决策逻辑。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:

图1是根据本公开的一些实施例所示的知识图谱中的关系数据示意图;

图2是根据本公开所涉及的基于金融知识图谱和人工智能的系统示意图;

图3是一种现有信审人员配置的决策流示意图;

图4是根据本公开的一些实施例所示的一种向信审人员提供决策流组件的示意图;

图5是根据本公开的一些实施例所示的一种决策流生成方法示意图;

图6是根据本公开的一些实施例所示的一种决策流生成装置示意图;以及

图7是根据本公开的一些实施例所示的电子设备示意图。

具体实施方式

在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。

应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

在一些实施例中,图数据库中存储有关系数据,依靠这些关系数据可以构建对应的知识图谱。图数据库通常按现实世界中的实体与关系来存储数据,其中不同的实体对应不同的节点,不同的实体间通过关系来完成连接,例如图1所示的不同节点之间的连线,节点与关系还进一步包括不同的属性,用于定义实体的类型和关系的类型。图1所示为一个关系数据示例,在本公开所涉及的金融大数据系统中,图数据库中存储的为与金融相关的个人数据。如图1所示,“张明”和“李强”为两个个人实体,每个实体通过例如“工作于”或“拥有电话”等关系与其他的“手机号”或“公司”等实体相连。

如图2所示,为本公开一个实施例所涉及的基于金融知识图谱和人工智能的系统示意图。在图2中,用户通过互联网前端,例如sdk、h5页面、互联网app程序提交一个金融进项申请,比如图1中李强的进项z。典型的所述金融进项可以是用户的贷款申请,用户请求的该金融进项将通过有线或无线通信网络接入任务匹配服务器;在任务分配服务器,一个金融进项会被自动匹配到不同的金融服务供应商。进一步,对于进入金融服务系统中的进项数据,将会被首先经过数据预处理、并存入图数据库中。在一些实施例中,所述图数据库可以是使用neo4j的图数据库存储大量关于金融业务的知识图谱数据库。

进一步,该金融进项会生成一个风控分析任务。该任务通过图查询的方式从图数据库中得到关系数据。将这些关系数据输入至变量计算模块,得到关系数据对应的评估变量。进一步,评估变量输入至一个反欺诈评估模型,完成反欺诈识别。其中反欺诈评估模型可以基于机器学习的评估模型,例如该模型可以是基于决策树的gdbt模型或基于神经网络的深度模型。进一步,反欺诈识别的结果和评估变量被输入至决策流,该决策流输出信审结果。所述信审结果可以是批准用户的贷款请求、拒绝用户的贷款请求、推荐用户其他贷款请求等任意的结果。所述信审结果得到后存储至图数据库中。

所述决策流由一个或多个决策流组件组成。通常由信审人员人工设置。设置完成后,所述决策流自动实施,以对金融进项进行分析。如图3所示,评估变量和反欺诈识别的结果输入至决策流,产生信审结果。所述决策流由信审人员事先编辑好。所述评估变量为基于关系数据确定。所述评估变量为可用于进行反欺诈识别或信审决策的变量。

然而由于关系数据越来越多且复杂,信审人员人工设置的决策流过于简单,不适用于复杂情况,且人工设置的决策流的误判率会随着关系数据的复杂度(评估变量的数量的增加)而变高。

因此,需要为信审人员提供更多的可选择的决策流组件,以生成更可靠的决策流。本公开提出了一种决策流组件自动生成方法,该方法能够向信审人员提供决策流组件。如图4所示,分析引擎通过分析图数据库中的关系数据和信审结果,确定一个或多个决策流组件,所述确定的一个或多个决策流组件可供信审人员选择并配置成决策流。待系统有一个新的进项时,该进项对应的评估变量和反欺诈识别结果输入至信审人员配置的决策流中,以输出信审结果。

图5是根据本公开的一些实施例所示的决策流组件生成方法。具体地,该方法由上述分析引擎执行。

在s502中,基于历史图数据中的关系数据,确定多个评估变量。

其中,在本公开的实施例中,通过查询图数据库获取历史图数据;历史图数据包括关系数据和对历史进项的信审结果。如图2中所述,评估变量获得信审结果后,存入图数据库。在一些实施例中,所述图数据的获取方式是查询,例如使用neo4j的cypher语言查询图数据库,获取图数据。在一些实施例中,可以按时间周期获得图数据,例如分析过去6个月的互联网app贷款数据;也可以按业务流类别获得图数据,例如分析某个城市的易分期业务的数据。

优选地,所述评估变量为用于进行反欺诈识别或信审决策的变量。例如,所述评估变量可以是朋友个数、逾期次数等从关系数据中二次处理得到的数据。这是因为,关系数据只能表征实体1与实体2存在“边”(例如,如图2中所示,张明是李强的推荐人、张明与电话存在“边”,张明与公司a存在“边”)等数据,但这类数据中并不能直接用于反欺诈评估或决策,因此,需要对关系数据进行处理,获得评估变量。例如,获得个人实体的属性信息(身高、年龄、电话、工作公司等),又例如,统计实体的进项次数。还例如,统计实体的任职公司数。在一些实施例中,所述评估变量由变量计算引擎确定。所述变量计算引擎中存储有大量的变量提取模块,一个典型的变量计算引擎可以从关系数据中生成数百甚至上千的评估变量。对于本公开的优选实施例,变量计算引擎可以根据用于进行反欺诈识别或信审决策的机器学习模型的需求从所述关系数据中选取所述多个评估变量。

在s504中,根据所述多个评估变量的至少一种组合方式确定至少一个待训练模型。可选地,从所述多个评估变量中随机挑选任意个评估变量形成一种组合方式;基于所述组合方式中的评估变量确定与之对应的待训练模型。

其中,多个评估变量中的任意一个或多个评估变量可以作为一个组合方式,根据每种组合方式对应生成一个待训练模型。亦即组合方式与待训练模型一一对应;每种组合方式中的变量则是随机选取,数量不定且可以重复选取,但原则上每种组合方式中变量应不完全相同。例如,身高可以作为一个组合方式,年龄可以作为一个组合方式,身高+年龄可以作为一个组合方式。在训练时,针对不同的输入,需要不同的模型,因此,基于所述多个组合方式,确定对应的多个待训练模型。所述多个待训练模型与所述多个组合方式一一对应。在一些实施例中,每个组合方式对应一个信审结果。例如,身高大于175cm的申请人批准、性别为女的申请人批准,则两个组合方式的信审结果为“批准”,也可将两个评估变量作为一个组合方式,例如,身高大于175cm且性别为女的申请人,批准其金融进项申请(例如,贷款),其信审结果也为“批准”。值得说明的是,以上描述仅作为示例,实际上决策流不会单纯基于身高和性别进行金融决策。

在s506中,使用所述历史图数据中的第一部分信审结果对所述至少一个待训练模型进行机器学习的训练。所述训练过程包括:将所述任意多个组合方式中的每一个组合方式和对应的信审结果输入至与其对应的待训练模型,确定训练后的模型。

在一些实施例中,所述训练的过程可以是确定逻辑和/或参数的过程。例如,确定所述身高作为一个组合方式时,对应的逻辑和/或参数。确训练后的模型可以是,身高不小于174cm,批准该金融进项;或者身高不小于182cm,批准该金融进项。值得说明的是,以上仅为示例,实际操作中,不会基于身高对用户的金融进项进行判定。

在s508中,使用所述历史图数据中的第二部分信审结果对训练后的模型进行测试,选取性能较优的一个或多个模型作为确定的决策流组件。其中,为避免训练与后续的测试过程相互干扰,训练过程中只使用部分信审结果,测试过程则使用另一部分信审结果。对于同一个模型来说,训练数据和测试数据可以是分别从历史图数据中随机选取的子集,但原则上训练数据和测试数据应无重叠;对于不同的模型则无需考虑数据的相关性,可以相同也可以不同。进一步地,为保证模型能得到充分的训练,对于同一个模型,优选地,训练数据的规模远大于测试数据的规模。

具体地,所述决策流组件确定过程包括:使用所述第二部分信审结果相关的历史进项输入所述训练后的模型进行测试;对比测试结果与所述第二部分信审结果的一致性确定所述训练后的模型的测试性能;将所述训练后的模型按所述测试性能排序或使用预设阈值筛选,确定所述测试性能较优的一个或多个模型。优选地,性能较优指排序靠前的若干个模型,或是指性能值优于预设阈值的一个或多个模型。在一些实施例中,所述优于可以是指大于,也可以指不小于。

在一些实施例中,所述训练后的模型的性能值可以是其决策正确率。例如,将测试数据中的评估变量输入到一个训练后的模型,将其输出的信审结果与测试数据中对应的信审结果比对,一致则认为该模型的判断正确。测试数据中包括很多组数据,每一组数据均包括评估变量和信审结果。对所述多组分别进行正确率判断,确定该模型的性能值(正确率)。进一步地,分别对所述多个训练后的模型进行测试,确定所述多个训练后的模型中每个模型的性能值。

在一些实施例中,所述模型为回归模型。特别地,所述回归模型为线型回归模型或逻辑回归模型。

在一些实施例中,所述得到的决策流组件可以是:在新拓展的a城市业务中,当前申请人在过去半年内贷款逾期支付超过3次的应拒绝。在一些实施例中,所述得到的决策流组件可以是:当前申请人的联系人中存在至少一个欺诈人时,当前进项应该被拒绝。在一些实施例中,所述得到的决策流组件可以是:当前进项申请人学历为硕士以上时,信贷额度为5-10万元。

进一步地,上述三个决策流组件可以作为单独的决策流;也可以作为决策流的组件,组合为一个决策流。更进一步地,所述决策流确定后,可以用于判定信审结果。综上,本公开提供了更丰富的决策流组件供信审人员配置决策流。

图6是根据本公开的一些实施例所示的一种决策流组件生成装置的结构框图。如图6所示,所述决策流组件生成装置包括评估变量确定模块610、待训练模型确定模块620、训练模块630和决策流组件确定模块640。在一些实施例中,所述决策流生成装置等同于前述分析引擎。所述决策流生成装置中的模块用于执行图5中所述的方法。

其中,评估变量确定模块610用于基于历史图数据中的关系数据,确定多个评估变量;待训练模型确定模块620用于根据所述多个评估变量的至少一种组合方式,确定至少一个待训练模型;训练模块630用于使用所述历史图数据中的第一部分信审结果对所述至少一个待训练模型进行机器学习的训练;决策流组件确定模块640用于使用所述历史图数据中的第二部分信审结果对训练后的模型进行测试,选取测试性能较优的一个或多个模型为确定的决策流组件;其中,对于同一个模型,使用的所述第二部分信审结果不同于所述第一部分信审结果。在一些实施例中,所述决策流组件的确定过程如图5中所述,在此不再赘述。

图7是适于用来实现根据本公开实施方式的电子设备的结构示意图。

如图7所示,电子设备700包括中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行上述图2-图5所示的实施方式中的各种处理。在ram703中,还存储有电子设备700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

以下部件连接至i/o接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地,根据本公开的实施方式,上文参考图5描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图5的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。

附图中的流程图和框图,图示了按照本公开各种实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

综上所述,本公开提出了一种决策流组件生成方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过分析知识图谱中的历史图数据(关系数据和信审结果),确定一个或多个性能值高于预设阈值的决策流组件。

应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1