参数阈值确定方法、装置及计算机存储介质与流程

文档序号:16741913发布日期:2019-01-28 13:05阅读:278来源:国知局
参数阈值确定方法、装置及计算机存储介质与流程

本发明涉及信息技术领域,尤其是涉及一种参数阈值确定方法、装置及计算机存储介质。



背景技术:

在某些场景中,为了评定数据的等级,通常需要建立等级评定模型。一般来说,建立等级评定模型之前会构建规则引擎。规则引擎会即在等级评定模型中使用一系列的参数规约条件,然后等级评定模型根据参数规约条件评定要执行的每一步步骤,直到得出等级的结论。通常参数规约条件是由参数和参数阈值构建的。例如,针对金额消费场景,评定金额消费的风险等级时,金额消费涉及的参数可以有参数a:消费金额;参数b:消费笔数,金额消费的风险等级为高时,对应的参数规约条件可以为a>x1andb>y1;金额消费的等级为低时,对应的参数规约条件a<x2andb<y2;金额消费的风险等级为中时,对应的参数规约条件可以为:a>x1andy1>b>y2、或者x1>a>x2andb>y1或者x1>aandy1>b>y2。其中,x1、x2为参数a的参数阈值;y1、y2为参数b的参数阈值。

目前,通常根据业务方或者专家的业务经验确定等级评定的参数阈值,即直接将业务方或者专家的依据业务经验给出的参数阈值确定为等级评定的参数阈值。然而,在业务方或者专家的业务经验不足或者针对新场景的情况下,可能会造成根据上述参数阈值评定的等级不符合数据的实际情况,导致等级评定的参数阈值的精确度较低,数据等级评定的精确度较低。



技术实现要素:

本发明提供了一种参数阈值确定方法、装置及计算机存储介质,主要在于能够实现基于数据分布的实际情况对依据业务经验给定的参数阈值进行调优,提升等级评定的参数阈值的精确度,从而能够提升数据等级评定的精确度。

根据本发明的第一个方面,提供一种参数阈值确定方法,包括:

根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;

利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优;

根据调优后的参数阈值确定等级评定的参数阈值。

根据本发明的第二个方面,提供一种参数阈值确定装置,包括:

确定单元,用于根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;

调优单元,用于利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优;

所述确定单元,用于根据调优后的参数阈值确定等级评定的参数阈值。

根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:

根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;

利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优;

根据调优后的参数阈值确定等级评定的参数阈值。

根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:

根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;

利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优;

根据调优后的参数阈值确定等级评定的参数阈值。

本发明提供的一种参数阈值确定方法、装置及计算机存储介质,与目前根据业务方或者专家的业务经验确定等级评定的参数阈值相比,本发明能够根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;能够利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优,并根据调优后的参数阈值确定等级评定的参数阈值,从而能够实现基于数据分布的实际情况对依据业务经验给定的参数阈值进行调优,提升等级评定的参数阈值的精确度,从而能够提升数据等级评定的精确度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了本发明实施例提供的一种参数阈值确定方法流程图;

图2示出了本发明实施例提供的另一种参数阈值确定方法流程图;

图3示出了本发明实施例提供的一种参数阈值确定装置的结构示意图;

图4示出了本发明实施例提供的另一种参数阈值确定装置的结构示意图;

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

如背景技术,目前,通常根据业务方或者专家的业务经验确定等级评定的参数阈值,即直接将业务方或者专家的依据业务经验给出的参数阈值确定为等级评定的参数阈值。然而,在业务方或者专家的业务经验不足或者针对新场景的情况下,可能会造成根据上述参数阈值评定的等级不符合数据的实际情况,导致等级评定的参数阈值的精确度较低,数据等级评定的精确度较低。

为了解决上述问题,本发明实施例提供了一种参数阈值确定方法,如图1所示,所述方法包括:

101、根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值。

例如,样本数据为银行卡盗刷场景中的金额消费数据,金额消费数据对应的参数可以包括:参数a:消费金额;参数b:消费笔数,那么金额消费数据在消费金额和消费笔数两个参数上都会呈现一定的分布,如金额消费数据为100条,消费笔数为10笔以上的金额消费数据可能有10条,消费笔数为10笔以下的金额消费数据可能有90条;消费金额在5万元以上的金额消费数据可能有20条,消费金额在在5万以下的金额消费数据可能有80条等。又例如,样本数据为人体属性数据,人体属性数据对应的参数可以包括:参数a:体重;参数b:身高,那么人体属性数据在体重和身高两个参数上都会呈现一定的分布,如人体属性数据有100条,体重在100斤以上的人体属性数据可能有80条,体重在100斤以下的人体属性数据可能有20条,身高在1.6m以上的人体属性数据可能有70条,身高在1.6m以下的人体属性数据可能有20条等。

在本发明实施例中,可以根据在各个参数上的述数据分布,绘制各个参数的统计量折线图,然后通过查找所述统计量折线图中的各个拐点作为候选参数阈值。针对每个参数确定的参数候选阈值可以有一组,例如,针对参数a确定的参数候选阈值可以包括针对参数b确定的参数候选阈值可以包括

102、利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优。

其中,所述预先设定的调优假设可以根据具体应用场景或者实际需求进行设置,本发明实施例在此不做限定。具体地,所述调优假设可以为根据等级评定的级数,数据的参数个数设定的。例如,所述预先设定的调优假设可以包括:

假设1:若待评定的等级有p级,则np:np-1≈np-1:np-2≈...≈n2:n1,所述np表示第p个等级所包含的样本数据量;

假设2:若参数个数为h,则调优后的每个参数的各级参数阈值符合

所述rhp表示第h个参数的第p个等级的参数阈值所在百分位数;

假设3:调优后的参数阈值组合对应的样本占比约等于调优前的样本占比。

103、根据调优后的参数阈值确定等级评定的参数阈值。

例如,在银行卡盗刷场景中,调优后的高风险等级对应的消费金额阈值为48525元,对应的消费笔数为10笔,则将消费金额阈值48525元,消费笔数10笔确定为评定高风险等级的参数阈值,即在消费金额大于48525元,且消费笔数大于10笔时确定为金额消费的等级为高风险等级。本发明实施例中的消费金额阈值和消费笔数与目前依据业务经验给定的高风险等级对应的消费金额阈值为5万元,对应的消费笔数为10笔相比,更符合金额消费数据在消费金额和消费笔数上分布的实际情况。

本发明实施例提供的一种参数阈值确定方法,与目前根据业务方或者专家的业务经验确定等级评定的参数阈值相比,本发明实施例能够根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;能够利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优,并根据调优后的参数阈值确定等级评定的参数阈值,从而能够实现基于数据分布的实际情况对依据业务经验给定的参数阈值进行调优,提升等级评定的参数阈值的精确度,从而能够提升数据等级评定的精确度。

进一步的,为了更好的说明上述参数阈值确定的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种参数阈值确定方法,如图2所示,所述方法包括:

201、根据样本数据在各个参数上的数据分布,计算所述样本数据在各个参数上的统计量。

其中,所述统计量可以为分位数、组内离差或者组间距离中的一种或者多种。例如,若所述统计量为分位数,则可以直接计算所述各个参数在0-100分位数;若所述统计量为组内离差或者组间距离,则可以按照一定的步长阈值将所述样本数据划分为两组数据,然后根据组内离差计算公式,计算两组的组内离差或者根据组间距离计算公式,计算两组的组间距离;最后按照一定的步长移动阈值,计算每次移动的组内离差或者组间距离,得到一组组内离差或者组间距离。

202、根据所述统计量确定所述各个参数对应的统计量折线图。

对于本发明实施例,所述步骤202具体可以为:根据所述统计量绘制所述各个参数对应的统计量折线图,所述统计量折线图的横坐标可以为参数具体数值,纵坐标可以为统计量。例如,若统计量折线图为分位数折线图,可以根据步骤201计算的0-100分位数绘制分位数折线图,分位数折线图的横坐标为参数a的具体数值,纵坐标为参数a的分位数。若统计量折线图为组内离差折线图,可以根据步骤201计算的一组组内离差折线图绘制组内离差折线图;若统计量折线图为组间距离折线图,可以根据步骤201计算的一组组间距离折线图绘制组间距离折线图。

203、根据所述统计量折线图中的各个拐点对应的阈值,确定所述各个参数的的候选参数阈值。

对于本发明实施例,所述统计量折线图中的拐点可以为前后斜率差异较大的点,可以将统计量折线图中前斜率为正,后斜率为负的点确定为为所需要的拐点。具体地,当所述统计量折线图为分位数折线图时,可以利用如下公式查找拐点:

此公式中xi可以表示分位数折线图的横坐标值,yi可以表示分位数折线图的纵坐标值。通过所述步骤203确定的参数a的参数候选阈值可以包括参数b参数候选阈值可以包括

204、利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优。

其中,所述预先设定的调优假设包括:

假设1:若待评定的等级有p级,则np:np-1≈np-1:np-2≈...≈n2:n1,所述np表示第p个等级所包含的样本数据量;

假设2:若参数个数为h,则调优后的每个参数的各级参数阈值符合

所述rhp表示第h个参数的第p个等级的参数阈值所在百分位数;

假设3:调优后的参数阈值组合对应的样本占比约等于调优前的样本占比。

例如,针对银行卡盗刷的场景,风险等级评定的风险等级有3级,可以分别为高风险等级,中风险等级,低风险等级,样本数据的参数有2个参数,消费笔数;设定的调优假设可以为:

假设1:低风险等级的样本数据量:中风险等级的样本数据量≈中风险等级的样本数据量:高风险等级的样本数据量;或者低风险等级的样本占比:中风险等级的样本占比≈中风险等级的样本占比:高风险等级的样本占比;

假设2:消费金额阈值所在百分位数≈消费笔数阈值所在百分位数;

假设3:调优后的消费金额阈值和消费笔数阈值组合对应的样本占比约等于调优前的样本占比。

对于本发明实施例,所述步骤204具体可以包括:

1、计算所述给定的参数阈值对应参数阈值组合的样本数据量与总样本数据量的比值,作为调优前的样本占比。

需要说明的是,所述样本占比h通过如下方式表示:

例如,样本数据为100条金额消费数据,给定的高风险等级的消费金额阈值x1为5万元,消费笔数y1为10笔,消费金额阈值为5万元且消费笔数为10笔的金额消费数据为20条,则调优前的样本占比为:20/100=0.2。

2、根据所述假设3、所述假设2和所述候选参数阈值对应的组合阈值划分表,选择样本占比与所述调优前的样本占比约等于的且对应候选参数阈值所在百分位数约等于的候选参数阈值组合,作为调优后的第一组参数阈值。

对于本发明实施例,所述步骤2具体包括:确定所述候选参数阈值对应的组合阈值划分表,所述组合阈值划分表中保存有所述候选参数阈值与其所在百分位数的对应关系,所述各个参数的候选参数阈值组合对应的样本占比,以及所述对应关系与所述样本占比的映射关系;根据所述假设3从所述组合阈值划分表中查找与所述调优前的样本占比约等于的样本占比,以及与查找的多个样本占比对应的第一对应关系;根据所述假设2从所述第一对应关系中查找对应百分位数约等于的各个参数的候选参数阈值并根据查找的候选参数阈值,确定调优后的第一组参数阈值。

此外,所述确定所述候选参数阈值对应的组合阈值划分表的步骤具体可以包括:根据所述候选参数阈值,确定所述各个参数的候选参数阈值组合;计算所述各个参数的候选参数阈值组合对应的样本数据量与总样本数据量的比值,作为所述所述各个参数的候选参数阈值组合对应的样本占比;建立所述候选参数阈值及其所在百分位数的之间的对应关系,以及所述对比关系与所述样本占比之间的映射关系;根据所述对应关系和所述映射关系,构建所述候选参数阈值对应的组合阈值划分表。

例如,参数a的参数候选阈值包括参数b参数候选阈值包括可以组合成一个n×m的候选参数阈值组合矩阵,具体如下所示:

针对组合矩阵中的每个元素(候选参数阈值组合),可以计算对应的样本占比,表示两个参数均大于对应候选参数阈值的样本数据量与总样本数据量的比值:

参数a的候选参数阈值及其所在百分位数的之间的对应关系可以为:参数b的候选参数阈值及其所在百分位数的之间的对应关系可以为:所述对比关系与所述样本占比之间的映射关系可以为:h11分别与映射;…;hij分别与分别与映射;确定的所述组合阈值划分表可以如表1所示为:

表1

因此,关于所述步骤2可以为根据假设3从表1中寻找与调优前的样本占比h约等于的样本占比,如与调优前的样本占比h约等于的样本占比有hi-1j、hij、hij-1、根据hi-1j可以查找对应的对应关系:根据hij可以查找对应的对应关系:根据hij-1可以查找对应的对应关系:根据所述假设2可以从上述对应关系找到ri和rj的值比较接近,则即为所要查找的参数a的候选参数阈值,即为所要查找的参数b的候选参数阈值;最后即为调优后的第一组候选阈值,即为对给定的参数阈值(x1,y1)进行调优的其中一个结果。在银行盗刷应用场景中,可以为中风险等级对应的消费金额阈值和消费笔数阈值。

3、根据所述调优后的第一组参数阈值、所述组合阈值划分表和所述假设1,确定调优后的其他组参数阈值。

对于本发明实施例,所述步骤3具体包括:根据所述调优后的第一组参数阈值对应的的样本占比和所述假设1,计算其他组参数阈值对应的样本占比;从所述组合阈值划分表中查找与所述其他组参数阈值对应的样本占比对应的第二对应关系,并根据所述第二对应关系,确定所述其他组参数阈值。

例如,第一组候选阈值对应的样本占比为pi-1(此处的pi-1与上述步骤2中hij含义相同,为了避免混淆因此用pi-1表示调优后的第一组候选阈值对应的样本占比hij),在本发明实施例中根据假设1,可以设定调优不等式,假设下组参数阈值对应等级的样本占比为pi,调优不等式可以满足:

根据上述不等式即可以计算出pi,根据pi重新回到所述组合阈值划分表可以找对应的样本占比;根据找到的样本占比,可以选取出两个参数所在的候选参数阈值;根据选取的候选参数阈值,即可以确定下组参数阈值以及其他组参数阈值,在银行盗刷应用场景中,可以根据中风险等级对应的确定出高风险等级对应的消费金额阈值和消费笔数阈值,如为

需要说明的是,本发明实施例仅是以2个参数的情况进行举例说明,若有多个参数,重复迭代上述步骤,直到求出每一组阈值,在此不进行赘述。此外,由于在实际各种应用场景中的参数阈值调优计算中,样本数据量、百分位数、样本占比通常并非为整数,可能为有多位小数的数值,不同等级的样本数据量、参数阈值的百分位数、调优前后的样本占比,很难做到相等,因此本发明实施例中的用约等于设定各种假设,本发明实施例涉及的约等于或者接近,并非含义不清楚的情况。

205、根据调优后的参数阈值确定等级评定的参数阈值。

本发明实施例提供的另一种参数阈值确定方法,与目前根据业务方或者专家的业务经验确定等级评定的参数阈值相比,本发明实施例能够根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;能够利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优,并根据调优后的参数阈值确定等级评定的参数阈值,从而能够实现基于数据分布的实际情况对依据业务经验给定的参数阈值进行调优,提升等级评定的参数阈值的精确度,从而能够提升数据等级评定的精确度。

进一步地,作为图1的具体实现,本发明实施例提供了一种参数阈值确定装置,如图3所示,所述装置包括:确定单元31和调优单元32。

所述确定单元31,可以用于根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值,所述确定单元31是本装置中根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值的主要功能模块。

所述调优单元32,可以用于利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优。所述调优单元32是本装置利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优的主要功能模块,也是核心模块。

所述确定单元31,可以用于根据调优后的参数阈值确定等级评定的参数阈值。所述确定单元31还是本装置中根据调优后的参数阈值确定等级评定的参数阈值的主要功能模块。

对于本发明实施例,所述确定单元31,具体可以用于根据样本数据在各个参数上的数据分布,计算所述样本数据在各个参数上的统计量;根据所述统计量确定所述各个参数对应的统计量折线图,并根据所述统计量折线图中的各个拐点对应的阈值,确定所述各个参数的的候选参数阈值。所述统计量可以为分位数、组内离差或者组间距离中的一种或者多种。

对于本发明实施例,所述预先设定的调优假设包括:

假设1:若待评定的等级有p级,则np:np-1≈np-1:np-2≈...≈n2:n1,所述np表示第p个等级所包含的样本数据量;

假设2:若参数个数为h,则调优后的每个参数的各级参数阈值符合

所述rhp表示第h个参数的第p个等级的参数阈值所在百分位数;

假设3:调优后的参数阈值组合对应的样本占比约等于调优前的样本占比。

对于本发明实施例,所述调优单元32可以包括:计算模块321、选择模块322和确定模块322,如图4所示。

所述计算模块321,可以用于计算所述给定的参数阈值对应参数阈值组合的样本数据量与总样本数据量的比值,作为调优前的样本占比。

所述选择模块322,可以用于根据所述假设3、所述假设2和所述候选参数阈值对应的组合阈值划分表,选择样本占比与所述调优前的样本占比约等于的且对应候选参数阈值所在百分位数约等于的候选参数阈值组合,作为调优后的第一组参数阈值。

所述确定模块323,可以用于根据所述调优后的第一组参数阈值、所述组合阈值划分表和所述假设1,确定调优后的其他组参数阈值。

在具体应用场景中,所述选择模块322可以包括:确定子模块3221和查找子模块3222。

所述确定子模块3221,可以用于确定所述候选参数阈值对应的组合阈值划分表,所述组合阈值划分表中保存有所述候选参数阈值与其所在百分位数的对应关系,所述各个参数的候选参数阈值组合对应的样本占比,以及所述对应关系与所述样本占比的映射关系。

所述查找子模块3222,可以用于根据所述假设3从所述组合阈值划分表中查找与所述调优前的样本占比约等于的样本占比,以及与查找的多个样本占比对应的第一对应关系。

所述确定子模块3221,还可以用于根据所述假设2从所述第一对应关系中查找对应百分位数约等于的各个参数的候选参数阈值并根据查找的候选参数阈值,确定调优后的第一组参数阈值。

对于本发明实施例,所述确定单元31,具体可以用于根据所述调优后的第一组参数阈值对应的的样本占比和所述假设1,计算其他组参数阈值对应的样本占比;从所述组合阈值划分表中查找与所述其他组参数阈值对应的样本占比对应的第二对应关系,并根据所述第二对应关系,确定所述其他组参数阈值。

此外,为了确定所述候选参数阈值对应的组合阈值划分表,所述确定子模块3221,具体可以用于根据所述候选参数阈值,确定所述各个参数的候选参数阈值组合;计算所述各个参数的候选参数阈值组合对应的样本数据量与总样本数据量的比值,作为所述所述各个参数的候选参数阈值组合对应的样本占比;建立所述候选参数阈值及其所在百分位数的之间的对应关系,以及所述对比关系与所述样本占比之间的映射关系;根据所述对应关系和所述映射关系,构建所述候选参数阈值对应的组合阈值划分表。

需要说明的是,本发明实施例提供的一种参数阈值确定装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。

基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优;根据调优后的参数阈值确定等级评定的参数阈值。

基于上述如图1所示方法和如图3所示参数阈值确定装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该装置包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优;根据调优后的参数阈值确定等级评定的参数阈值。

通过本发明的技术方案,能够根据样本数据在各个参数上的数据分布,确定所述各个参数的参数候选阈值;能够利用预先设定的调优假设和所述候选参数阈值对依据业务经验给定的参数阈值进行调优,并根据调优后的参数阈值确定等级评定的参数阈值,从而能够实现基于数据分布的实际情况对依据业务经验给定的参数阈值进行调优,提升等级评定的参数阈值的精确度,从而能够提升数据等级评定的精确度。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1