一种风险规则提取方法及风险规则提取系统与流程

文档序号:32434689发布日期:2022-12-06 17:32阅读:34来源:国知局
一种风险规则提取方法及风险规则提取系统与流程

1.本发明涉及风险识别技术领域,具体而言,涉及一种风险规则提取方法及风险规则提取系统。


背景技术:

2.风险检测(如贷款风险、网络数据泄露风险等)是风险管控和风险预防的基础,因此,需要准确的确定风险规则,以进行风险识别,在传统技术中,一般是工作人员基于相应的经验确定出风险规则。如此,存在耗时耗力的问题。基于此,在现有技术中,一般是基于大数据进行解析,得到其中的风险规则,但是,存在提取到的风险规则的可靠度不佳的问题。


技术实现要素:

3.有鉴于此,本发明的目的在于提供一种风险规则提取方法及风险规则提取系统,以改善现有技术中提取到的风险规则的可靠度不佳的问题。
4.为实现上述目的,本发明实施例采用如下技术方案:
5.一种风险规则提取方法,应用于风险管控服务器,所述风险规则提取方法包括:
6.从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条风险样本数据,其中,所述多条风险样本数据中的每一条风险样本数据包括第一数量个初始变量,每一个所述初始变量具有对应的变量具体值;
7.基于所述风险样本数据表征的风险系数和所述初始变量之间的变量关联度,对所述多条风险样本数据进行解析处理,以在所述多条风险样本数据包括的所述第一数量个初始变量中确定出对应的第二数量个目标变量,其中,所述第二数量个目标变量对应的风险样本数据表征的风险系数大于或等于预先配置的第一风险系数阈值,且所述第二数量个目标变量之间的变量关联度大于或等于预先配置的第一关联度阈值;
8.基于所述第二数量个目标变量,确定出所述多条风险样本数据对应的目标风险规则,其中,所述目标风险规则用于对目标风险数据进行识别以确定该目标风险数据是否属于所述第二数量个目标变量对应的风险事件。
9.在一些优选的实施例中,在上述风险规则提取方法中,所述从通信连接的至少一个目标数据库中中的每一个目标数据库,获取多条风险样本数据的步骤,包括:
10.从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条原始风险样本数据,其中,所述多条原始风险样本数据中的每一条原始风险样本数据包括至少一个初始变量;
11.基于所述多条原始风险样本数据中的每一条原始风险样本数据包括的初始变量,对所述多条原始风险样本数据进行筛选,得到包括第一数量个初始变量的多条风险样本数据。
12.在一些优选的实施例中,在上述风险规则提取方法中,所述基于所述风险样本数据表征的风险系数和所述初始变量之间的变量关联度,对所述多条风险样本数据进行解析
处理,以在所述多条风险样本数据包括的所述第一数量个初始变量中确定出对应的第二数量个目标变量的步骤,包括:
13.针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量;
14.在所述多条风险样本数据中,基于预先配置的自动编码算法确定出风险系数大于或等于所述第一风险系数阈值的每一条目标风险样本数据,其中,每一条目标风险样本数据包括所述候选变量对应的变量具体值;
15.基于预先配置的关联规则算法对每一条所述目标风险样本数据进行解析处理,以确定出对应的变量关联度大于或等于所述第一关联度阈值的每一个候选变量,得到第二数量个目标变量。
16.在一些优选的实施例中,在上述风险规则提取方法中,所述针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量的步骤,包括:
17.针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量在所述多条风险样本数据包括的每一条风险样本数据中对应的变量具体值,构建得到该初始变量对应的变量具体值集合,其中,每一个所述变量具体值集合包括的变量具体值的数量与所述多条风险样本数据的数量;
18.针对所述第一数量个初始变量中的每一个初始变量,对该初始变量对应的所述变量具体值集合包括的变量具体值进行均值计算,得到该初始变量对应的变量值均值,并基于该变量值均值对该变量具体值集合包括的变量具体值进行离散度计算,得到该初始变量对应的变量值分布离散度;
19.针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量对应的变量值分布离散度,确定出该初始变量的变量重要性表征值,其中,所述变量重要性表征值与所述变量值分布离散度之间具有负相关关系;
20.针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量对应的变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,并在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量,或者,在该变量重要性表征值小于所述第一变量重要性表征阈值时,将该初始变量确定为非候选变量。
21.在一些优选的实施例中,在上述风险规则提取方法中,所述针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量的步骤,包括:
22.针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量在所述多条
风险样本数据包括的每一条风险样本数据中的对应的变量具体值,构建得到该初始变量对应的变量具体值集合,其中,每一个所述变量具体值集合包括的变量具体值的数量与所述多条风险样本数据的数量;
23.针对所述第一数量个初始变量中的每一个初始变量,对该初始变量对应的所述变量具体值集合包括的变量具体值进行均值计算,得到该初始变量对应的变量值均值,并基于该变量值均值对该变量具体值集合包括的变量具体值进行离散度计算,得到该初始变量对应的变量值分布离散度;
24.针对所述第一数量个初始变量中的每一个初始变量,对该初始变量对应的所述变量具体值集合包括的变量具体值进行聚类处理,得到该初始变量对应的至少一个聚类集合,并统计所述至少一个聚类集合的数量,得到对应的集合统计数量,以及,计算所述至少一个聚类集合中每一个聚类集合包括的集合元素的数量的数量离散度,其中,所述至少一个聚类集合中的每一个聚类集合包括至少一个变量具体值;
25.针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量对应的变量值分布离散度、集合统计数量和数量离散度,确定出该初始变量的变量重要性表征值,其中,所述变量重要性表征值与所述变量值分布离散度之间具有负相关关系,所述变量重要性表征值与所述集合统计数量之间具有负相关关系,所述变量重要性表征值与所述数量离散度之间具有负相关关系;
26.针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量对应的变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,并在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量,或者,在该变量重要性表征值小于所述第一变量重要性表征阈值时,将该初始变量确定为非候选变量。
27.在一些优选的实施例中,在上述风险规则提取方法中,所述在所述多条风险样本数据中,基于预先配置的自动编码算法确定出风险系数大于或等于所述第一风险系数阈值的每一条目标风险样本数据的步骤,包括:
28.针对所述多条风险样本数据中的每一条风险样本数据,对该风险样本数据进行编码,得到该风险样本数据对应的第一编码向量,其中,所述第一编码向量包括的多个分量的数量小于或等于所述第一数量;
29.针对所述多条风险样本数据中的每一条风险样本数据,对该风险样本数据对应的第一编码向量进行解码,得到该风险样本数据对应的重构风险样本数据,并计算该风险样本数据与该重构风险样本数据之间的数据误差,得到该风险样本数据对应的数据重构误差分数,其中,所述数据重构误差分数用于表征所述风险样本数据的风险系数,所述风险系数与所述数据重构误差分数之间的具有正相关关系;
30.针对所述多条风险样本数据中的每一条风险样本数据,确定该风险样本数据对应的数据重构误差分数与预先配置的第一风险系数阈值之间的相对大小关系,并在该风险样本数据对应的数据重构误差分数大于或等于所述第一风险系数阈值时,筛除该风险样本数据中所述候选变量以外的其它初始变量对应的变量具体值,得到该风险样本数据对应的目标风险样本数据,或者,在该风险样本数据对应的数据重构误差分数小于所述第一风险系数阈值时,将该风险样本数据不作为目标风险样本数据。
31.在一些优选的实施例中,在上述风险规则提取方法中,所述基于预先配置的关联规则算法对每一条所述目标风险样本数据进行解析处理,以确定出对应的变量关联度大于或等于所述第一关联度阈值的每一个候选变量,得到第二数量个目标变量的步骤,包括:
32.基于每一条所述目标风险样本数据构建得到所述目标风险样本数据对应的第一数据矩阵,其中,所述第一数据矩阵的行数目基于所述目标风险样本数据的数量确定,所述第一数据矩阵的列数目基于所述候选变量的数量确定,且在所述第一数据矩阵中,第i行第j列的矩阵元素属于第一数值或第二数值,所述第一数值表征第i条目标风险样本数据中第j个候选变量对应的变量具体值异常,所述第二数值表征所述第i条目标风险样本数据中第j个候选变量对应的变量具体值正常;
33.基于预先配置的关联规则算法对所述第一数据矩阵进行解析处理,得到变量关联度大于或等于所述第一关联度阈值的第二数量个目标变量。
34.本发明实施例还提供一种风险规则提取系统,应用于风险管控服务器,所述风险规则提取系统包括:
35.风险样本数据获取模块,用于从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条风险样本数据,其中,所述多条风险样本数据中的每一条风险样本数据包括第一数量个初始变量,每一个所述初始变量具有对应的变量具体值;
36.风险样本数据解析模块,用于基于所述风险样本数据表征的风险系数和所述初始变量之间的变量关联度,对所述多条风险样本数据进行解析处理,以在所述多条风险样本数据包括的所述第一数量个初始变量中确定出对应的第二数量个目标变量,其中,所述第二数量个目标变量对应的风险样本数据表征的风险系数大于或等于预先配置的第一风险系数阈值,且所述第二数量个目标变量之间的变量关联度大于或等于预先配置的第一关联度阈值;
37.目标风险规则确定模块,用于基于所述第二数量个目标变量,确定出所述多条风险样本数据对应的目标风险规则,其中,所述目标风险规则用于对目标风险数据进行识别以确定该目标风险数据是否属于所述第二数量个目标变量对应的风险事件。
38.在一些优选的实施例中,在上述风险规则提取系统中,所述风险样本数据获取模块具体用于:
39.从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条原始风险样本数据,其中,所述多条原始风险样本数据中的每一条原始风险样本数据包括至少一个初始变量;
40.基于所述多条原始风险样本数据中的每一条原始风险样本数据包括的初始变量,对所述多条原始风险样本数据进行筛选,得到包括第一数量个初始变量的多条风险样本数据。
41.在一些优选的实施例中,在上述风险规则提取系统中,所述风险样本数据解析模块具体用于:
42.针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量;
43.在所述多条风险样本数据中,基于预先配置的自动编码算法确定出风险系数大于或等于所述第一风险系数阈值的每一条目标风险样本数据,其中,每一条目标风险样本数据包括所述候选变量对应的变量具体值;
44.基于预先配置的关联规则算法对每一条所述目标风险样本数据进行解析处理,以确定出对应的变量关联度大于或等于所述第一关联度阈值的每一个候选变量,得到第二数量个目标变量。
45.本发明实施例提供的一种风险规则提取方法及风险规则提取系统,可以先获取多条风险样本数据,然后,可以基于风险样本数据表征的风险系数和初始变量之间的变量关联度,对多条风险样本数据进行解析处理,以在多条风险样本数据包括的第一数量个初始变量中确定出对应的第二数量个目标变量,使得可以基于第二数量个目标变量,确定出多条风险样本数据对应的目标风险规则,如此,由于从初始变量中筛选出目标变量的机制,且在进行筛选时结合了风险样本数据表征的风险系数和初始变量之间的变量关联度,可以在较大程度上保障筛选出的目标变量的可靠性,从而改善现有技术中提取到的风险规则的可靠度不佳的问题。
46.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
47.图1为本发明实施例提供的风险管控服务器的结构框图。
48.图2为本发明实施例提供的风险规则提取方法的流程示意图。
49.图3为本发明实施例提供的风险规则提取系统包括的模块的示意图。
具体实施方式
50.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
51.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
52.如图1所示,本发明实施例提供了一种风险管控服务器。其中,所述风险管控服务器可以包括存储器和处理器。
53.详细地,所述存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件(firmware)的形式,存在的软件功能模块(计算机程序)。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序,从而实现本发明实施例(如后文所述)提供的风险规则提取方法。
54.举例来说,在一些可以实现的实施方式中,所述存储器可以是,但不限于,随机存
取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
55.举例来说,在一些可以实现的实施方式中,所述处理器可以是一种通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)、片上系统(system on chip,soc)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
56.并且,图1所示的结构仅为示意,所述风险管控服务器还可包括比图1中所示更多或者更少的组件,或具有与图1所示不同的配置,例如,可以包括用于与其它设备进行信息交互的通信单元。
57.结合图2,本发明实施例还提供一种风险规则提取方法,可应用于上述风险管控服务器。其中,所述风险规则提取方法有关的流程所定义的方法步骤,可以由所述风险管控服务器实现。
58.下面将对图2所示的具体流程,进行详细阐述。
59.步骤s110,从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条风险样本数据。
60.在本发明实施例中,所述风险管控服务器可以从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条风险样本数据。其中,所述多条风险样本数据中的每一条风险样本数据包括第一数量个初始变量,每一个所述初始变量具有对应的变量具体值。
61.步骤s120,基于所述风险样本数据表征的风险系数和所述初始变量之间的变量关联度,对所述多条风险样本数据进行解析处理,以在所述多条风险样本数据包括的所述第一数量个初始变量中确定出对应的第二数量个目标变量。
62.在本发明实施例中,所述风险管控服务器可以基于所述风险样本数据表征的风险系数和所述初始变量之间的变量关联度,对所述多条风险样本数据进行解析处理,以在所述多条风险样本数据包括的所述第一数量个初始变量中确定出对应的第二数量个目标变量。其中,所述第二数量个目标变量对应的风险样本数据表征的风险系数大于或等于预先配置的第一风险系数阈值,且所述第二数量个目标变量之间的变量关联度大于或等于预先配置的第一关联度阈值。
63.步骤s130,基于所述第二数量个目标变量,确定出所述多条风险样本数据对应的目标风险规则。
64.在本发明实施例中,所述风险管控服务器可以基于所述第二数量个目标变量,确定出所述多条风险样本数据对应的目标风险规则。其中,所述目标风险规则用于对目标风险数据进行识别以确定该目标风险数据是否属于所述第二数量个目标变量对应的风险事件。
65.基于上述的风险规则提取方法包括的各步骤,可以先获取多条风险样本数据,然后,可以基于风险样本数据表征的风险系数和初始变量之间的变量关联度,对多条风险样本数据进行解析处理,以在多条风险样本数据包括的第一数量个初始变量中确定出对应的
第二数量个目标变量,使得可以基于第二数量个目标变量,确定出多条风险样本数据对应的目标风险规则,如此,由于从初始变量中筛选出目标变量的机制,且在进行筛选时结合了风险样本数据表征的风险系数和初始变量之间的变量关联度,可以在较大程度上保障筛选出的目标变量的可靠性,从而改善现有技术中提取到的风险规则的可靠度不佳的问题。
66.举例来说,在一些可以实现的实施方式中,上述实施方式中的步骤s110进一步可以包括以下各步骤:
67.首先,从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条原始风险样本数据,其中,所述多条原始风险样本数据中的每一条原始风险样本数据包括至少一个初始变量(如时间、金额等);
68.其次,基于所述多条原始风险样本数据中的每一条原始风险样本数据包括的初始变量,对所述多条原始风险样本数据进行筛选,得到包括第一数量个初始变量的多条风险样本数据。
69.举例来说,在一些可以实现的实施方式中,上述实施方式中的所述基于所述多条原始风险样本数据中的每一条原始风险样本数据包括的初始变量,对所述多条原始风险样本数据进行筛选,得到包括第一数量个初始变量的多条风险样本数据的步骤,进一步可以包括以下各步骤:
70.首先,针对所述多条原始风险样本数据中的每一条原始风险样本数据,统计该原始风险样本数据包括的初始变量的数量,得到该原始风险样本数据对应的初始变量统计数量,并确定该初始变量统计数量与预先配置的第一数量之间的相对大小关系,以及,在该初始变量统计数量大于或等于所述第一数量时,将该原始风险样本数据确定为待确定风险样本数据,或者,在该初始变量统计数量小于所述第一数量时,将该原始风险样本数据予以丢弃(即不确定为待确定风险样本数据);
71.其次,对每一条所述待确定风险样本数据包括的初始变量进行统计,得到对应的初始变量集合,并基于所述第一数量确定该初始变量集合的子集合,得到对应的多个初始变量子集合,其中,所述多个初始变量子集合中的每一个初始变量子集合包括的初始变量的数量为所述第一数量,且所述多个初始变量子集合中的每两个所述初始变量子集合之间至少存在一个不同的初始变量;
72.然后,针对所述多个初始变量子集合中的每一个初始变量子集合,确定具有该初始变量子集合包括的每一个初始变量的待确定风险样本数据的数量,得到该初始变量子集合对应的第一统计数量,并基于该第一统计数量确定出该初始变量子集合对应的第一优先级系数,其中,所述第一优先级系数与所述第一统计数量之间具有正相关关系;
73.之后,针对所述多个初始变量子集合中的每一个初始变量子集合,分别基于初始变量在所述待确定风险样本数据中对应的变量具体值,确定该初始变量子集合包括的每一个初始变量的重要性,得到每一个初始变量对应的初始变量重要性表征值,并计算该初始变量子集合包括的每一个初始变量对应的初始变量重要性表征值的平均值和离散值,得到该初始变量子集合对应的重要性均值和重要性离散度(如后相关描述),以及,基于该重要性均值和该重要性离散度确定该初始变量子集合对应的第二优先级系数,其中,所述第二优先级系数与所述重要性均值之间具有正相关关系,所述第二优先级系数与所述重要性离散度之间具有负相关关系;
74.最后,针对所述多个初始变量子集合中的每一个初始变量子集合,对该初始变量子集合对应的所述第一优先级系数和所述第二优先级系数进行融合,得到该初始变量子集合对应的优先级融合系数,并基于所述多个初始变量子集合中的每一个初始变量子集合对应的优先级融合系数,在所述多个初始变量子集合中确定出目标初始变量子集合(对应的优先级融合系数可以具有最大值),以及,将具有该目标初始变量子集合包括的每一个初始变量的待确定风险样本数据,确定为风险样本数据。
75.举例来说,在一些可以实现的实施方式中,上述实施方式中的步骤s120进一步可以包括以下各步骤:
76.首先,针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量;
77.其次,在所述多条风险样本数据中,基于预先配置的自动编码算法确定出风险系数大于或等于所述第一风险系数阈值的每一条目标风险样本数据,其中,每一条目标风险样本数据包括所述候选变量对应的变量具体值;
78.然后,基于预先配置的关联规则算法对每一条所述目标风险样本数据进行解析处理,以确定出对应的变量关联度大于或等于所述第一关联度阈值的每一个候选变量,得到第二数量个目标变量。
79.举例来说,在一些可以实现的实施方式中,上述实施方式中的所述针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量的步骤,进一步可以包括以下各步骤:
80.首先,针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量在所述多条风险样本数据包括的每一条风险样本数据中对应的变量具体值,构建得到该初始变量对应的变量具体值集合,其中,每一个所述变量具体值集合包括的变量具体值的数量与所述多条风险样本数据的数量;
81.其次,针对所述第一数量个初始变量中的每一个初始变量,对该初始变量对应的所述变量具体值集合包括的变量具体值进行均值计算,得到该初始变量对应的变量值均值,并基于该变量值均值对该变量具体值集合包括的变量具体值进行离散度计算,得到该初始变量对应的变量值分布离散度;
82.然后,针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量对应的变量值分布离散度,确定出该初始变量的变量重要性表征值,其中,所述变量重要性表征值与所述变量值分布离散度之间具有负相关关系;
83.最后,针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量对应的变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,并在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量,或者,在该变量重要性表征值小于所述第一变量重要性表征阈值时,将该初始变量确定为非候选变量。
84.举例来说,在一些可以实现的实施方式中,上述实施方式中的所述针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量的步骤,进一步可以包括以下各步骤:
85.首先,针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量在所述多条风险样本数据包括的每一条风险样本数据中的对应的变量具体值,构建得到该初始变量对应的变量具体值集合,其中,每一个所述变量具体值集合包括的变量具体值的数量与所述多条风险样本数据的数量;
86.其次,针对所述第一数量个初始变量中的每一个初始变量,对该初始变量对应的所述变量具体值集合包括的变量具体值进行均值计算,得到该初始变量对应的变量值均值,并基于该变量值均值对该变量具体值集合包括的变量具体值进行离散度计算,得到该初始变量对应的变量值分布离散度;
87.然后,针对所述第一数量个初始变量中的每一个初始变量,对该初始变量对应的所述变量具体值集合包括的变量具体值进行聚类处理,得到该初始变量对应的至少一个聚类集合,并统计所述至少一个聚类集合的数量,得到对应的集合统计数量,以及,计算所述至少一个聚类集合中每一个聚类集合包括的集合元素的数量的数量离散度,其中,所述至少一个聚类集合中的每一个聚类集合包括至少一个变量具体值;
88.之后,针对所述第一数量个初始变量中的每一个初始变量,基于该初始变量对应的变量值分布离散度、集合统计数量和数量离散度,确定出该初始变量的变量重要性表征值,其中,所述变量重要性表征值与所述变量值分布离散度之间具有负相关关系,所述变量重要性表征值与所述集合统计数量之间具有负相关关系,所述变量重要性表征值与所述数量离散度之间具有负相关关系;
89.最后,针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量对应的变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,并在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量,或者,在该变量重要性表征值小于所述第一变量重要性表征阈值时,将该初始变量确定为非候选变量。
90.举例来说,在一些可以实现的实施方式中,上述实施方式中的所述在所述多条风险样本数据中,基于预先配置的自动编码算法确定出风险系数大于或等于所述第一风险系数阈值的每一条目标风险样本数据的步骤,进一步可以包括以下各步骤:
91.首先,针对所述多条风险样本数据中的每一条风险样本数据,对该风险样本数据进行编码,得到该风险样本数据对应的第一编码向量,其中,所述第一编码向量包括的多个分量的数量小于或等于所述第一数量;
92.其次,针对所述多条风险样本数据中的每一条风险样本数据,对该风险样本数据对应的第一编码向量进行解码(其中,编码和解码可以基于预先训练得到的神经网络模型实现,如ae模型等),得到该风险样本数据对应的重构风险样本数据,并计算该风险样本数据与该重构风险样本数据之间的数据误差,得到该风险样本数据对应的数据重构误差分数,其中,所述数据重构误差分数用于表征所述风险样本数据的风险系数,所述风险系数与
所述数据重构误差分数之间的具有正相关关系;
93.然后,针对所述多条风险样本数据中的每一条风险样本数据,确定该风险样本数据对应的数据重构误差分数与预先配置的第一风险系数阈值之间的相对大小关系,并在该风险样本数据对应的数据重构误差分数大于或等于所述第一风险系数阈值时,筛除该风险样本数据中所述候选变量以外的其它初始变量对应的变量具体值,得到该风险样本数据对应的目标风险样本数据,或者,在该风险样本数据对应的数据重构误差分数小于所述第一风险系数阈值时,将该风险样本数据不作为目标风险样本数据。
94.举例来说,在一些可以实现的实施方式中,上述实施方式中的所述基于预先配置的关联规则算法对每一条所述目标风险样本数据进行解析处理,以确定出对应的变量关联度大于或等于所述第一关联度阈值的每一个候选变量,得到第二数量个目标变量的步骤,进一步可以包括以下各步骤:
95.首先,基于每一条所述目标风险样本数据构建得到所述目标风险样本数据对应的第一数据矩阵,其中,所述第一数据矩阵的行数目基于所述目标风险样本数据的数量确定,所述第一数据矩阵的列数目基于所述候选变量的数量确定,且在所述第一数据矩阵中,第i行第j列的矩阵元素属于第一数值或第二数值,所述第一数值表征第i条目标风险样本数据中第j个候选变量对应的变量具体值异常,所述第二数值表征所述第i条目标风险样本数据中第j个候选变量对应的变量具体值正常;
96.其次,基于预先配置的关联规则算法对所述第一数据矩阵进行解析处理(具体的解析处理可以参照相关的现有技术,在此不做具体限定),得到变量关联度大于或等于所述第一关联度阈值的第二数量个目标变量。
97.结合图3,本发明实施例还提供一种风险规则提取系统,可应用于上述风险管控服务器。其中,所述风险规则提取系统可以包括:
98.风险样本数据获取模块,用于从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条风险样本数据,其中,所述多条风险样本数据中的每一条风险样本数据包括第一数量个初始变量,每一个所述初始变量具有对应的变量具体值;
99.风险样本数据解析模块,用于基于所述风险样本数据表征的风险系数和所述初始变量之间的变量关联度,对所述多条风险样本数据进行解析处理,以在所述多条风险样本数据包括的所述第一数量个初始变量中确定出对应的第二数量个目标变量,其中,所述第二数量个目标变量对应的风险样本数据表征的风险系数大于或等于预先配置的第一风险系数阈值,且所述第二数量个目标变量之间的变量关联度大于或等于预先配置的第一关联度阈值;
100.目标风险规则确定模块,用于基于所述第二数量个目标变量,确定出所述多条风险样本数据对应的目标风险规则,其中,所述目标风险规则用于对目标风险数据进行识别以确定该目标风险数据是否属于所述第二数量个目标变量对应的风险事件。
101.举例来说,在一些可以实现的实施方式中,所述风险样本数据获取模块具体用于:
102.从通信连接的至少一个目标数据库中的每一个目标数据库,获取多条原始风险样本数据,其中,所述多条原始风险样本数据中的每一条原始风险样本数据包括至少一个初始变量;
103.基于所述多条原始风险样本数据中的每一条原始风险样本数据包括的初始变量,
对所述多条原始风险样本数据进行筛选,得到包括第一数量个初始变量的多条风险样本数据。
104.举例来说,在一些可以实现的实施方式中,所述风险样本数据解析模块具体用于:
105.针对所述第一数量个初始变量中的每一个初始变量,确定该初始变量的变量重要性表征值,并确定该变量重要性表征值与预先配置的第一变量重要性表征阈值之间的相对大小关系,以及,在该变量重要性表征值大于或等于所述第一变量重要性表征阈值时,将该初始变量确定为候选变量;
106.在所述多条风险样本数据中,基于预先配置的自动编码算法确定出风险系数大于或等于所述第一风险系数阈值的每一条目标风险样本数据,其中,每一条目标风险样本数据包括所述候选变量对应的变量具体值;
107.基于预先配置的关联规则算法对每一条所述目标风险样本数据进行解析处理,以确定出对应的变量关联度大于或等于所述第一关联度阈值的每一个候选变量,得到第二数量个目标变量。
108.综上所述,本发明提供的一种风险规则提取方法及风险规则提取系统,可以先获取多条风险样本数据,然后,可以基于风险样本数据表征的风险系数和初始变量之间的变量关联度,对多条风险样本数据进行解析处理,以在多条风险样本数据包括的第一数量个初始变量中确定出对应的第二数量个目标变量,使得可以基于第二数量个目标变量,确定出多条风险样本数据对应的目标风险规则,如此,由于从初始变量中筛选出目标变量的机制,且在进行筛选时结合了风险样本数据表征的风险系数和初始变量之间的变量关联度,可以在较大程度上保障筛选出的目标变量的可靠性,从而改善现有技术中提取到的风险规则的可靠度不佳的问题。
109.在本技术实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1