业务数据风险分类门限确定方法、装置、设备及存储介质与流程

文档序号:25373789发布日期:2021-06-08 16:55阅读:128来源:国知局
业务数据风险分类门限确定方法、装置、设备及存储介质与流程

1.本说明书涉及数据处理技术领域,尤其是涉及一种业务数据风险分类门限确定方法、装置、设备及存储介质。


背景技术:

2.在很多业务领域都涉及风险分类识别。例如,工业领域的安全生产风险分类识别;金融领域的信用贷款风险的分类识别;互联网领域的网络和信息安全风险分类识别;医疗、保险领域的健康风险分类识别等。
3.在进行业务风险分类识别之前,需要确定业务数据风险分类门限。现有技术中,业务数据风险分类门限一般是人工根据经验设定。然而,在很多情况下,人工设定的业务数据风险分类门限不一定准确,当以不准确的业务数据风险分类门限为参考,对业务数据进行风险分类识别时,则难以获得业务数据的真实风险。不仅如此,针对每一应用场景,都需要人工单独设置对应的风险分类门限,设定业务数据风险分类门限的效率较低。


技术实现要素:

4.本说明书实施例的目的在于提供一种业务数据风险分类门限确定方法、装置、设备及存储介质,以提高设定业务数据风险分类门限的准确性和效率。
5.为达到上述目的,一方面,本说明书实施例提供了一种业务数据风险分类门限确定方法,包括:
6.获取历史业务数据的风险概率预测值及危险事件真实发生概率;
7.将所述风险概率预测值按照大小划分成多个区间分组;
8.对所述多个区间分组进行单调性处理,以获得符合单调性的多个区间分组;
9.根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,并根据分类结果确定风险分类门限,以用于业务风险预测。
10.本说明书的实施例中,在所述获得符合单调性的多个区间分组之后,还包括:
11.对所述符合单调性的多个区间分组进行假设检验处理,以获得通过假设检验的多个区间分组;
12.对应的,所述根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,包括:
13.根据所述危险事件真实发生概率对所述通过假设检验的多个区间分组进行分类。
14.本说明书的实施例中,所述将所述风险概率预测值按照大小划分成多个区间分组,包括:
15.将所述风险概率预测值按照大小划分成m个区间分组;m为大于1的正整数;
16.确定所述危险事件真实发生概率在所述m个区间分组中的归属区间分组;
17.根据所述危险事件真实发生概率将所述归属区间分组进一步划分成n个区间分组;n为大于1的正整数;
18.将所述n个区间分组与所述m个区间分组的重叠部分进行进一步划分,并与未重叠部分共同作为多个区间分组。
19.本说明书的实施例中,所述对所述多个区间分组进行单调性处理,包括:
20.确定每个区间分组的组内危险事件真实发生概率;
21.判断每相邻两个区间分组的组内危险事件真实发生概率之间是否符合单调递增性;
22.当有相邻两个区间分组的组内危险事件真实发生概率之间不符合单调递增性时,进行区间合并处理并重新进行单调性处理,直至每相邻两个区间分组的组内危险事件真实发生概率之间均符合单调递增性为止。
23.本说明书的实施例中,所述进行区间合并处理,包括:
24.确定每个区间分组的滑窗内危险事件真实发生概率;
25.对于每个区间分组,确定其滑窗内危险事件真实发生概率与所述危险事件真实发生概率的大小关系;
26.根据所述大小关系,对应确定每个区间分组的滑窗风险类别;
27.对于每个不符合单调性的区间分组,当其滑窗风险类别与其后一个区间分组的滑窗风险类别相同时,将该区间分组与其后一个区间分组合并;
28.对于每个不符合单调性的区间分组,当其滑窗风险类别与其后一个区间分组的滑窗风险类别不相同时,将该区间分组之后的两个区间分组合并。
29.本说明书的实施例中,所述对所述符合单调性的多个区间分组进行假设检验处理,包括:
30.对所述符合单调性的多个区间分组进行假设检验处理;
31.当有区间分组未通过假设检验时,将该区间分组与其后一个区间分组合,并在合并后重新进行假设检验处理,直至每个区间分组均通过假设检验为止。
32.本说明书的实施例中,所述根据所述危险事件真实发生概率对所述通过假设检验的多个区间分组进行分类,包括:
33.确定每个通过假设检验的区间分组的组内危险事件真实发生概率;
34.对于每个通过假设检验的区间分组,确定其组内危险事件真实发生概率与所述危险事件真实发生概率的大小关系;
35.根据所述大小关系对应确定每个通过假设检验的区间分组的风险类别。
36.本说明书的实施例中,所述根据分类结果确定风险分类门限,包括:
37.将风险类别相同的所有区间分组合并为一个区间分组,获得风险分类门限。
38.另一方面,本说明书实施例还提供了一种业务数据风险分类门限确定装置,包括:
39.输入数据获取模块,用于获取历史业务数据的风险概率预测值及危险事件真实发生概率;
40.区间分组划分模块,用于将所述风险概率预测值按照大小划分成多个区间分组;
41.单调性处理模块,用于对所述多个区间分组进行单调性处理,以获得符合单调性的多个区间分组;
42.分类门限确定模块,用于根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,并根据分类结果确定风险分类门限,以用于业务风险预测。
43.本说明书的实施例中,所述装置还包括:
44.假设检验模块,用于对所述符合单调性的多个区间分组进行假设检验处理,以获得通过假设检验的多个区间分组;
45.对应的,所述分类门限确定模块根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,包括:
46.所述分类门限确定模块根据所述危险事件真实发生概率对所述通过假设检验的多个区间分组进行分类。
47.另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
48.由以上本说明书实施例提供的技术方案可见,本说明书实施例可以根据历史业务数据自动计算出风险分类门限,与人工设定风险分类门限相比,这种方式大幅提高了设定业务数据风险分类门限的效率。不仅如此,本说明书实施例通过对多个初始区间分组进行单调性处理,可以使其符合单调性要求;然后根据危险事件真实发生概率对符合单调性的区间分组进行分类,并根据分类结果确定风险分类门限,以用于业务风险预测,从而使得本说明书实施例所确定出的业务数据风险分类门限更加准确,进而有利于提高后续业务风险识别的准确性。
附图说明
49.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
50.图1示出了本说明书一实施例中业务数据风险分类门限确定方法的应用场景示意图;
51.图2示出了本说明书一些实施例中业务数据风险分类门限确定方法的流程图;
52.图3示出了本说明书一实施例中区间分组的流程图;
53.图4示出了本说明书一实施例中单调性处理的流程图;
54.图5示出了本说明书一实施例中单调性处理中的区间合并处理的流程图;
55.图6示出了本说明书一实施例中区间分类的流程图;
56.图7示出了本说明书一实施例中业务数据风险分类门限确定过程示意图;
57.图8示出了本说明书一实施例中患病概率风险分类门限确定示意图(分组调整前);
58.图9示出了本说明书一实施例中患病概率风险分类门限确定示意图(分组调整后);
59.图10示出了本说明书一些实施例中业务数据风险分类门限确定装置的结构框图;
60.图11示出了本说明书一些实施例中计算机设备的结构框图。
61.【附图标记说明】
62.10、业务数据风险分类门限确定装置;
63.20、数据库;
64.30、业务数据风险识别装置;
65.40、业务系统;
66.101、输入数据获取模块;
67.102、区间分组划分模块;
68.103、单调性处理模块;
69.104、分类门限确定模块;
70.1102、计算机设备;
71.1104、处理器;
72.1106、存储器;
73.1108、驱动机构;
74.1110、输入/输出模块;
75.1112、输入设备;
76.1114、输出设备;
77.1116、呈现设备;
78.1118、图形用户接口;
79.1120、网络接口;
80.1122、通信链路;
81.1124、通信总线。
具体实施方式
82.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
83.本说明书涉及业务数据风险分类门限确定技术,可以应用于任何需要进行业务风险识别的业务场景中。例如,可以包括但不限于:工业领域的安全生产风险分类识别场景;金融领域的信用贷款风险的分类识别场景;互联网领域的网络和信息安全风险分类识别场景;保险领域的健康风险分类识别场景;医疗领域的健康风险分类识别场景;自动驾驶领域的驾驶风险的分类识别场景等。
84.鉴于人工设定的业务数据风险分类门限的准确性低的问题,本说明书实施例中提供了可以自动确定业务数据风险分类门的方法。参考图1所示,本说明书实施例的业务数据风险分类门限确定方法可以用于业务数据风险分类门限确定装置10上。业务数据风险分类门限确定装置10可以从数据库20获取历史业务数据;据此自动计算出所述历史业务数据的风险分类门限;并将所述风险分类门限提供给业务数据风险识别装置30,以便于所述业务数据风险识别装置30可以据此风险分类门限对业务系统40提供的业务数据进行风险识别。在实施时,业务数据风险分类门限确定装置10和业务数据风险识别装置30,可以配置于不同的计算机设备上,也可以配置于同一个计算机设备上,具体可根据实际需要选择。
85.参考图2所示,在本说明书一些实施例中,所述业务数据风险分类门限确定方法可
以包括以下步骤:
86.s201、获取历史业务数据的风险概率预测值及危险事件真实发生概率。
87.s202、将所述风险概率预测值按照大小划分成多个区间分组。
88.s203、对所述多个区间分组进行单调性处理,以获得符合单调性的多个区间分组。
89.s204、根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,并根据分类结果确定风险分类门限,以用于业务风险预测。
90.本说明书实施例可以根据历史业务数据自动计算出风险分类门限,与人工设定风险分类门限相比,这种方式大幅提高了设定业务数据风险分类门限的效率。不仅如此,本说明书实施例通过对多个初始区间分组进行单调性处理,可以使其符合单调性要求;然后根据危险事件真实发生概率对符合单调性的区间分组进行分类,并根据分类结果确定风险分类门限,以用于业务风险预测,从而使得本说明书实施例所确定出的业务数据风险分类门限更加准确,进而有利于提高后续业务风险识别的准确性。
91.在本说明书的实施例中,确定风险分类门限即为划分风险分类的区间,具体而言,是确定风险分类的区间数及各区间的区间端点值。例如,在一示例性实施例中,风险概率的取值范围为[0,1],基于业务数据风险分类门限确定方法,若可以将[0,1]划分为[0,0.2)、[0.2,0.5)、[0.5,0.8)、[0.8,1]共五个风险分类区间,则这五个风险分类区间即为所要确定的风险分类门限。
[0092]
在本说明书一些实施例中,历史业务数据的危险事件真实发生概率是指:历史业务数据中,实际上已经发生危险事件的样本数量与历史业务数据中的样本总量的比值。例如,最近三年的历史业务数据的样本总数为1000000,其中,实际上已发生危险事件的样本数为1000,则该历史业务数据中的危险事件真实发生概率为:
[0093]
在本说明书一些实施例中,历史业务数据中每个样本的风险概率预测值可以根据任何合适的风险预测模型计算得到,具体可以根据实际应用场景选择风险预测模型,本说明书对此不作具体限定。例如,对于自动驾驶风险,可以使用合适的自动驾驶风险预测模型进行预测;对于油气管路泄露风险,可以使用合适的油气管路泄露风险预测模型进行预测;对于金融机构信贷风险,可以使用合适的信贷风险预测模型进行预测;对于患病风险,可以使用合适的患病风险预测模型进行预测。
[0094]
将上一步得到的风险概率预测值先按照大小划分成多个区间分组,可以方便后续在此基础上获得合适的风险分类门限。但是,在同一应用场景下,对于同样的历史业务数据样本,当采用不同的风险预测模型进行预测时,其输出的风险概率预测值可能会有所差异,但基本是围绕在危险事件真实发生概率附近。具体而言,上述的差异主要可以分为以下两种:一种是判断单个样本的风险概率预测值,只针对个体样本而言;一种是该个体样本所处的群体样本范围内的危险事件真实发生概率(即组内危险事件真实发生概率),这个值更接近危险事件真实发生概率。因此,简单的将风险概率的取值范围[0,1]等分为多个区间分组不足以符合这两种情况,所以还需要添加针对危险事件真实发生概率的若干个区间分组。
[0095]
因此,在本说明书一些实施例中,参考图3所示,所述将所述风险概率预测值按照大小划分成多个区间分组,可以包括如下步骤:
[0096]
s301、将所述风险概率预测值按照大小划分成m个区间分组;m为大于1的正整数。
[0097]
其中,m的大小可以根据实际需要设定。例如,在一示例性实施例中,风险概率的取值范围为[0,1],假设以0.05为步长将[0,1]等划分成20份(这里的m=20),则得到20个等分的区间分组。在此基础上,根据各个风险概率预测值的大小,可以确定其在20个等分的区间分组中的归属区间分组。例如,某一风险概率预测值为0.008,其落入20个等分的区间分组中的第四个区间分组(0.0005,0.1]范围内,因此,第四个区间分组(0.0005,0.1]即为风险概率预测值0.008的归属区间分组。
[0098]
s302、确定所述危险事件真实发生概率在所述m个区间分组中的归属区间分组。
[0099]
还以上述20个等分的区间分组中的第四个区间分组(0.0005,0.1]为例,由于史业务数据中的危险事件真实发生概率0.001落入第四个区间分组(0.0005,0.1]范围内,因此,第四个区间分组(0.0005,0.1]即为风险概率预测值0.001的归属区间分组。
[0100]
s303、根据所述危险事件真实发生概率将所述归属区间分组进一步划分成n个区间分组;n为大于1的正整数。
[0101]
其中,n的大小可以根据实际需要设定,一般情况下,1<n<m。例如,对于所述危险事件真实发生概率0.001的归属区间分组(0.0005,0.1],可以将其拆分为(0.0005,0.001]、(0.001,0.01]、(0.01,0.1]三个区间分组。
[0102]
s304、将所述n个区间分组与所述m个区间分组的重叠部分进行进一步划分,并与未重叠部分共同作为多个区间分组。
[0103]
例如,以上述20个等分的区间分组为例,可以将上述20个等分的区间分组中除第四个区间分组(0.0005,0.1]之外的其他19个区间分组,以及基于第四个区间分组(0.0005,0.1]拆分出的三个区间分组,共同作为多个区间分组。
[0104]
区间分组中的每个值代表的是个体样本的风险概率预测值,区间分组的组内危险事件真实发生概率较大时,这个区间分组内每个体样本的风险概率预测值对应的就越高。但有时,在区间分组的临界点附近会存在波动,从而导致区间分组的组内危险事件真实发生概率不是单调递增的。所以,需要判断波动部分应该归属于哪个区间分组,以使得所有区间分组的组内危险事件真实发生概率都是随着区间分组递增的。
[0105]
由此,参考图4所示,在本说明书一些实施例中,所述对所述多个区间分组进行单调性处理可以包括以下步骤:
[0106]
s401、确定每个区间分组的组内危险事件真实发生概率。
[0107]
s402、判断每相邻两个区间分组的组内危险事件真实发生概率之间是否符合单调递增性。
[0108]
判断每相邻两个区间分组的组内危险事件真实发生概率之间是否符合单调递增性,即判断一个区间分组的组内危险事件真实发生概率是否大于其前一个区间分组的组内危险事件真实发生概率。
[0109]
例如,在图7所示的实施例中,存在0~15共十六个区间分组。从第0号区间分组开始,判断第0号区间分组的组内危险事件真实发生概率与第1号区间分组的组内危险事件真实发生概率之间,是否符合单调递增性,即判断第1号区间分组的组内危险事件真实发生概率是否大于第0号区间分组的组内危险事件真实发生概率。如果第1号区间分组的组内危险事件真实发生概率大于第0号区间分组的组内危险事件真实发生概率,则认为第0号区间分组和第1号区间分组的组内危险事件真实发生概率之间符合单调递增性;否则,认为第0号
区间分组和第1号区间分组的组内危险事件真实发生概率之间不符合单调递增性。如图7中的第一行区间分组所示,通过判断确认:第0号区间分组和第1号区间分组的组内危险事件真实发生概率之间不符合单调递增性,第12号区间分组和第13号区间分组的组内危险事件真实发生概率之间不符合单调递增性,其余相邻两个区间分组的组内危险事件真实发生概率之间均符合单调递增性。
[0110]
s403、当有相邻两个区间分组的组内危险事件真实发生概率之间不符合单调递增性时,进行区间合并处理并重新进行单调性处理,直至每相邻两个区间分组的组内危险事件真实发生概率之间均符合单调递增性为止。
[0111]
结合图5所示,在本说明书一些实施例中,步骤s403中的进行区间合并处理,可以进一步包括以下步骤:
[0112]
s501、确定每个区间分组的滑窗内危险事件真实发生概率。
[0113]
在本说明书的实施例中,滑窗内危险事件真实发生概率用于后续判断区间分组的合并范围。由于滑窗内危险事件真实发生概率能够克服单个区间分组内可能由于局部样本分布异常导致的风险概率异常的问题;因此,将滑窗内危险事件真实发生概率用于分组合并,可使得本说明书实施例所确定出的业务数据风险分类门限更加准确;进而有利于进一步提高后续业务风险识别的准确性。
[0114]
滑窗内危险事件真实发生概率的滑窗大小可以根据实际需要进行选择,例如,在本说明书一实施例中,滑窗大小可以为三个区间分组。在此其情况下,对于当前的第i个区间分组,其滑窗内危险事件真实发生概率可以根据公式计算得到。其中,ave为第i个区间分组的滑窗内危险事件真实发生概率,sum(i

1)、sum(i)、sum(i+1)分别为第i

1个、第i个、第i+1个区间分组中风险个体(即已发生危险事件的个体)数,count(i

1)、count(i)、count(i+1)分别为第i

1个、第i个、第i+1个区间分组中的组内样本数。在本说明书一实施例中,对于多个区间分组中排在首位的区间分组,可以默认其前一个区间分组的组内样本数及风险个体数均为零。在本说明书另一实施例中,对于多个区间分组中排在末位的区间分组,由于其后没有区间分组可合并,因此也可以无需计算其滑窗内危险事件真实发生概率。
[0115]
本领域技术人员可以理解,上述计算滑窗内危险事件真实发生概率的方法仅是示例性举例说明。在本说明书其他的实施例中,根据实际需要也可以采用加权滑动平均、sg(savitsky

golay)滤波、阿尔法(α)均值滤波等数据平滑算法实现,本说明书对此不作限定。
[0116]
s502、对于每个区间分组,确定其滑窗内危险事件真实发生概率与所述危险事件真实发生概率的大小关系。
[0117]
在本说明书的实施例中,可以根据历史业务数据的危险事件真实发生概率预先设定滑窗风险类别的区间范围。例如,可以根据危险事件真实发生概率预先设定滑窗风险类别的区间范围可以如下表1所示。在表1中,ave
i
为第i个区间分组的滑窗内危险事件真实发生概率,p为危险事件真实发生概率。
[0118]
表1
[0119][0120]
对于第i个区间分组,当计算出其滑窗内危险事件真实发生概率ave
i
,通过查询表1可以确定其与所述危险事件真实发生概率的大小关系。
[0121]
s503、根据所述大小关系,对应确定每个区间分组的滑窗风险类别。
[0122]
结合上表1可以看出,由于每个滑窗风险类别都有唯一对应的区间范围;当确定一个区间分组的滑窗内危险事件真实发生概率后,通过其所在表1中所归属的区间范围,可以确定其所属的滑窗风险类别。例如,假设p=0.0001,某个区间分组的滑窗内危险事件真实发生概率为0.001,通过查询表1可以确认该区间分组的滑窗风险类别为3类风险。
[0123]
s504、对于每个不符合单调性的区间分组,当其滑窗风险类别与其后一个区间分组的滑窗风险类别相同时,将该区间分组与其后一个区间分组合并;否则,将该区间分组之后的两个区间分组合并。
[0124]
例如,对于不符合单调性的第i个区间分组,若其滑窗风险类别为1类,且第i+1个区间分组的其滑窗风险类别也为1类,则可以将第i个区间分组和第i+1个区间分组合并。对于不符合单调性的第i个区间分组,若其滑窗风险类别为1类,且第i+1个区间分组的其滑窗风险类别为2类,则可以将第i+1个区间分组和第i+2个区间分组合。
[0125]
例如,在图7所示的实施例中,由于第0号区间分组和第1号区间分组的组内危险事件真实发生概率之间不符合单调递增性,且均属于相同的滑窗风险类别(这里以假设属于相同的滑窗风险类别为例),可以将第0号区间分组和第1号区间合并为一个区间分组。同样,由于第12号区间分组和第13号区间分组的组内危险事件真实发生概率之间不符合单调递增性,且均属于相同的滑窗风险类别(这里以假设属于相同的滑窗风险类别为例),也可以将第12号区间分组和第13号区间分组合并为一个区间分组。在此基础上,适应性调整各个区间分组的序号,从而可以得到如图7中第二行所示的区间分组,然后对图7中第二行所示的区间分组进行单调性判断。
[0126]
对于图7中第二行所示的区间分组,通过判断确认:第1号区间分组和第2号区间分组的组内危险事件真实发生概率之间不符合单调递增性,第11号区间分组和第12号区间分组的组内危险事件真实发生概率之间不符合单调递增性,其余相邻两个区间分组的组内危险事件真实发生概率之间均符合单调递增性。因此,可以第1号区间分组和第2号区间分组合并为一个区间分组(这里以假设属于相同的滑窗风险类别为例),将第11号区间分组和第12号区间分组合并为一个区间分组(这里以假设属于相同的滑窗风险类别为例),并在此基础上适应性调整各个区间分组的序号,从而可以得到如图7中第三行所示的区间分组,然后对图7中第三行所示的区间分组进行单调性判断。
[0127]
对于图7中第三行所示的区间分组,通过判断确认:第10号区间分组和第11号区间
分组的组内危险事件真实发生概率之间不符合单调递增性,其余相邻两个区间分组的组内危险事件真实发生概率之间均符合单调递增性。因此,可以第10号区间分组和第11号区间分组合并为一个区间分组(这里以假设属于相同的滑窗风险类别为例),并在此基础上适应性调整各个区间分组的序号,从而可以得到如图7中第四行所示的区间分组,然后对图7中第四行所示的区间分组进行单调性判断。
[0128]
对于图7中第四行所示的区间分组,通过判断确认:图7中第四行中所有相邻的两个区间分组的组内危险事件真实发生概率之间符合单调递增性,至此完成对所述多个区间分组的单调性处理。相应的,图7中第四行所示的十个区间分组,即为单调性处理后得到的多个区间分组。
[0129]
通过单调性处理后得到的各个区间分组保证了风险概率的单调递增,但无法确保每个区间分组是可信(即与事实相符)的。因此,在本说明书一些实施例中,在步骤s203之后,还可以对所述符合单调性的多个区间分组进行假设检验处理,以获得通过假设检验的多个区间分组。在此情况下,所述根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,则可以包括:根据所述危险事件真实发生概率对所述通过假设检验的多个区间分组进行分类。
[0130]
在本说明书一些实施例中,可以采用任何合适的假设检验处理方法对所述符合单调性的多个区间分组进行假设检验处理,本说明书对此不作限定,具体可以根据需要选择。例如,在本说明书一实施例中,可以基于假设检验对所述符合单调性的多个区间分组进行假设检验处理。其中,假设检验的理论依据是概率论中的小概率原理,该原理认为小概率事件在一次观察中是不应该出现的。换而言之,如果在一次观察中即出现了小概率事件,就应当作出这样的判断:这种小概率事件本身就不是一个小概率事件,而是一个大概率事件。
[0131]
例如,在一示例性实施例中,可以基于t检验、z检验、卡方检验或f检验等假设检验方法,对每个符合单调性的区间分组进行假设检验处理。当所述符合单调性的多个区间分组均通过所述假设检验判断时,可以执行步骤s205。但是,当有区间分组未通过假设检验时,将该区间分组与其后一个区间分组合,并在合并后重新进行假设检验处理,直至每个区间分组均通过假设检验为止。
[0132]
例如,对于图7所示的实施例,假设第四行所示的十个区间分组中,第5号区间分组未通过假设检验,则可以将第5号区间分组和第6号区间分组合并为一个新的区间分组,并在此基础上适应性调整各个区间分组的序号,然后再次进行一轮假设检验。当所有区间分组均通过假设检验判断时,此时保留下的区间分组,即为假设检验处理后得到的多个区间分组。
[0133]
参考图6所示,在本说明书一些实施例中,所述根据所述危险事件真实发生概率对所述通过假设检验的多个区间分组进行分类,可以包括以下步骤:
[0134]
s601、确定每个通过假设检验的区间分组的组内危险事件真实发生概率。
[0135]
s602、对于每个通过假设检验的区间分组,确定其组内危险事件真实发生概率与所述危险事件真实发生概率的大小关系。
[0136]
在本说明书的实施例中,可以根据历史业务数据的危险事件真实发生概率预先设定风险类别的区间范围。例如,可以根据危险事件真实发生概率预先设定风险类别的区间范围可以如下表2所示。在表2中,mean
i
为第i个通过假设检验的区间分组的组内危险事件
真实发生概率,p为历史业务数据中的危险事件真实发生概率。
[0137]
表2
[0138][0139]
对于第i个通过假设检验的区间分组,当计算出其组内危险事件真实发生概率mean
i
,通过查询表2可以确定其与所述危险事件真实发生概率的大小关系。
[0140]
s603、根据所述大小关系对应确定每个通过假设检验的区间分组的风险类别。
[0141]
结合上表2可以看出,由于每个风险类别都有唯一对应的区间范围;当确定一个通过假设检验的区间分组的组内危险事件真实发生概率后,通过其所在表2中所归属的区间范围,可以确定其所属的风险类别。例如,假设p=0.0005,某个通过假设检验的区间分组的组内危险事件真实发生概率为0.0008,通过查询表2可以确认该区间分组的风险类别为2类风险。
[0142]
在本说明书一些实施例中,所述根据分类结果确定风险分类门限可以包括:将风险类别相同的所有区间分组合并为一个区间分组,从而获得风险分类门限。
[0143]
例如以图7所示的实施例为例,在确定图7中第4行内每个区间分组的组内危险事件真实发生概率(即mean1~mean
10
)后,将其分别与历史业务数据中的危险事件真实发生概率p进行比较,可以得到图7中第4行内每个区间分组的风险类别(具体请参见图7中第4行内每个区间分组下方的风险类别标识)。由于图7中第4行内的第0号区间分组~第3号区间分组的风险类别均为1类,因此可以将其合并为一个区间分组。同理,由于图7中第4行内的第4号区间分组~第6号区间分组的风险类别均为2类,可以将其组合并为一个区间分组;由于图7中第4行内的第7号区间分组~第9号区间分组的风险类别均为3类,可以将其组合并为一个区间分组;图7中第4行内只有第10号区间分组的风险类别为4类,因此图7中第4行内的第10号区间分组不与任何区间分组合并。如此,可以得到图7中第5行所示的四个区间分组。假设图7中第5行所示的四个区间分组分别为:[0,0.2)、[0.2,0.5)、[0.5,0.8)、[0.8,1],则可以得到如下表3所示的风险分类门限。
[0144]
表3
[0145]
区间分组风险类别[0,0.2)1类风险(即低风险)[0.2,0.5)2类风险(即中风险)[0.5,0.8)3类风险(即高风险)[0.8,1]4类风险(即超高风险)
[0146]
后续可以根据表3所示的风险分类门限,对与所述历史业务数据对应的业务数据
进行风险识别。例如,根据预设的风险预测模型得到一个业务数据的风险预测值为0.3,由于0.3位于区间[0.2,0.5)范围内,因此,可以该业务数据的风险类别为2类风险。
[0147]
下面以患病风险识别作为示例性应用场景举例说明。
[0148]
在本示例性应用场景中,患病风险预测模型(以下简称模型)是以线性判别分析(linear discriminant analysis,lda)算法为基础构建而成。
[0149]
假设当前选取步长为0.05,在0~1取值范围,可以将模型输出的预测结果,按照步长0.05进行分组划分成了20个基本分组。因为模型内部最终采用的算法不同,输出的患病概率有时是围绕在真实患病概率值附近,有时会因为算法逻辑输出针对个体的患病概率。本示例性应用场景需要考虑输出结果围绕在真实患病概率值附近的情况,于是添加了针对真实患病概率的分组。如图8所示,当前疾病在历史数据范围内的真实患病概率为0.001997252647941293,于是根据该真实患病概率值,可以将20个分组中的第一个分组细分出了前4个分组(即图8中第0号分组~第3号分组),从而形成图8中第0号分组~第22号分组。
[0150]
请继续参考图8所示,进行一轮单调性判断后发现:部分相邻两个分组之间不符合单调递增性(在图8中“单调性”对应的一列中,true表示符合单调递增性,false表示不符合单调递增性)。例如,第0号分组和第1号分组之间,第1号分组和第2号分组之间,第4号分组和第5号分组之间,第9号分组和第10号分组之间,第10号分组和第11号分组之间,以及第17号分组和第18号分组之间均不符合单调递增性。然后通过分组合并调整,最终使得每相邻两个分组之间的单调性达到如图9所示的完全符合单调递增性状态。可以发现这个过程中,原先的第0号分组、第1号分组和第2号分组合并了,原先的第4号分组和第5号分组合并了,原先的第9号分组、第10号分组和第11号分组合并了,原先的第17号分组和第18号分组合并了;即图8中的23个分组经过分组合并调整后变成如图9所示的17个分组。
[0151]
在此基础上,通过计算图9中每个分组的组内危险事件真实发生概率,并确定其与上述的真实患病概率值的大小关系,即可以对应确定该分组的风险类别(参见图9中最后一列对应的数值);然后通过将风险分类等级相同的分组进行合并,即可以得到最终的分类结果。也就是说,本示例性应用场景的最终结果为:[0,0.2]为低危,(02,0.45]为中危,(0.45,1]为高危。后续可以根据这个风险分类门限,对对应疾病的风险预测值进行分类。
[0152]
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
[0153]
与上述的业务数据风险分类门限确定方法对应,本说明书还提供了业务数据风险分类门限确定装置的实施例。参考图10所示,在本说明书一些实施例中,所述业务数据风险分类门限确定装置可以包括:输入数据获取模块101、区间分组划分模块102、单调性处理模块103和分类门限确定模块104。其中:
[0154]
输入数据获取模块101,可以用于获取历史业务数据的风险概率预测值及危险事件真实发生概率;
[0155]
区间分组划分模块102,可以用于将所述风险概率预测值按照大小划分成多个区间分组;
[0156]
单调性处理模块103,可以用于对所述多个区间分组进行单调性处理,以获得符合
单调性的多个区间分组;
[0157]
分类门限确定模块104,可以用于根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,并根据分类结果确定风险分类门限,以用于业务风险预测。
[0158]
在本说明书一些实施例中,所述业务数据风险分类门限确定装置还可以包括假设检验模块,其可以用于对所述符合单调性的多个区间分组进行假设检验处理,以获得通过假设检验的多个区间分组。对应的,所述分类门限确定模块104根据所述危险事件真实发生概率对所述符合单调性的多个区间分组进行分类,则可以包括:所述分类门限确定模块104根据所述危险事件真实发生概率对所述通过假设检验的多个区间分组进行分类。
[0159]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0160]
本说明书的实施例还提供一种计算机设备。如图11所示,在本说明书一些实施例中,所述计算机设备1102可以包括一个或多个处理器1104,诸如一个或多个中央处理单元(cpu)或图形处理器(gpu),每个处理单元可以实现一个或多个硬件线程。计算机设备1102还可以包括任何存储器1106,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器1106上并可在处理器1104上运行的计算机程序,所述计算机程序被所述处理器1104运行时,可以执行根据上述方法的指令。非限制性的,比如,存储器1106可以包括以下任一项或多种组合:任何类型的ram,任何类型的rom,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备1102的固定或可移除部件。在一种情况下,当处理器1104执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备1102可以执行相关联指令的任一操作。计算机设备1102还包括用于与任何存储器交互的一个或多个驱动机构1108,诸如硬盘驱动机构、光盘驱动机构等。
[0161]
计算机设备1102还可以包括输入/输出模块1110(i/o),其用于接收各种输入(经由输入设备1112)和用于提供各种输出(经由输出设备1114)。一个具体输出机构可以包括呈现设备1116和相关联的图形用户接口1118(gui)。在其他实施例中,还可以不包括输入/输出模块1110(i/o)、输入设备1112以及输出设备1114,仅作为网络中的一台计算机设备。计算机设备1102还可以包括一个或多个网络接口1120,其用于经由一个或多个通信链路1122与其他设备交换数据。一个或多个通信总线1124将上文所描述的部件耦合在一起。
[0162]
通信链路1122可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路1122可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
[0163]
本申请是参照本说明书一些实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0164]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定
方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0165]
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0166]
在一个典型的配置中,计算机设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0167]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0168]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0169]
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0170]
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0171]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示
例的特征进行结合和组合。
[0172]
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1