一种样本数据处理方法、装置及计算机设备与流程

文档序号:23717298发布日期:2021-01-24 06:06阅读:90来源:国知局
一种样本数据处理方法、装置及计算机设备与流程

[0001]
本发明涉及数据处理技术领域,具体而言,涉及一种样本数据处理方法、装置及计算机设备。


背景技术:

[0002]
在应用分类模型建模时,可能面临的问题有误分类代价高,例如对合法用户和非法用户进行分类,将非法用户识别为合法用户的代价远远大于将合法用户识别为非法用户的代价;又或者样本高度失衡影响预测结果,比如10000用户样本中只有1条是非法用户,9999条是合法用户,那么直接将所有的样本预测为合法用户准确率是99.99%,这显然是没有意义的。
[0003]
因此对于类别不均的样本,应该想办法平衡类别间的权重,一般使得各类别的权重均等时,最能有效避免因为类别权重不均带来的高误分类代价以及模型预测能力下降的问题。而一个类别的权重为该类别中所有单个样本权重加总得到。而往往实际风控场景中能获取的建模样本在各类别上数量不均,可能导致样本不是实际总样本的无偏估计,假设实际业务中合法用户和非法用户的比例是10:1,而建模的样本中合法用户和非法用户的比例是5:1,那么该样本分布就不能代表实际上的分布,从而影响模型的预测效果。


技术实现要素:

[0004]
为了改善上述问题,本发明提供了一种样本数据处理方法、装置及计算机设备。
[0005]
基于本发明实施例的第一方面,提供一种样本数据处理方法,应用于计算机设备,所述方法包括:获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集;其中,每个样本子集对应一个类别标签;接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列;依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重。
[0006]
可选地,依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重,包括:根据所述样本子集的总数确定整体样本权重;基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
[0007]
可选地,确定每个类别标签下的样本子集的当前样本权重,包括:针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重;根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权
重。
[0008]
可选地,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列,包括:确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素;提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素;根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素,在所述目标清单元素中得到需求映射数据,并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据,根据所述相关性系数列表对应的相关性匹配路径,将所述待关联数据匹配到所述需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据;获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹;根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
[0009]
基于本发明实施例的第二方面,提供一种样本数据处理装置,应用于计算机设备,所述装置包括:样本划分模块,用于获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集;其中,每个样本子集对应一个类别标签;标签排序模块,用于接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列;权重分配模块,用于依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重。
[0010]
可选地,权重分配模块,用于:根据所述样本子集的总数确定整体样本权重;基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
[0011]
可选地,权重分配模块,用于:针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重;根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样
本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权重。
[0012]
可选地,标签排序模块,用于:确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素;提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素;根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素,在所述目标清单元素中得到需求映射数据,并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据,根据所述相关性系数列表对应的相关性匹配路径,将所述待关联数据匹配到所述需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据;获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹;根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
[0013]
基于本发明实施例的第三方面,提供一种计算机设备,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现第一方面所述的方法。
[0014]
基于本发明实施例的第四方面,提供其上存储有计算机程序,所述计算机程序在运行时实现第一方面所述的方法。
[0015]
本发明实施例所提供的样本数据处理方法、装置及计算机设备,首先获取待处理样本数据并确定多个类别标签,根据类别标签将待处理样本数据划分为多个样本子集,其次根据接收到的业务需求信息将多个类别标签进行排序得到类别排序队列,最后依次为类别排序队列中的每个类别标签下的每个样本子集分配样本权重。如此,当待处理样本数据涉及多个层级的类别标签时,上述方法能够快速求取每个样本子集的样本权重,使得统一级别下的各样本子集的总权重相等,同时又能保证不同层级类别间的样本总权重一致,这在保留有效信息的同时使得待处理样本数据的整体权重均衡更准确。
附图说明
[0016]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
[0017]
图1为一种现有权重分配的示意图。
[0018]
图2为本发明实施例所提供的一种样本数据处理方法的流程图。
[0019]
图3为本发明实施例所提供的一种样本数据处理方法对应的现有权重分配的示意图。
具体实施方式
[0020]
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
[0021]
发明人经调查和研究发现,现有决定样本权重的方法一般是根据各类样本间的数量占比来求取权重,或事先通过直接抽样使各类样本数量相等从而均衡各类样本总权重。利用数量占比的方式求取权重,即当两个类别a和b的样本数量分别是na和nb时,那么a和b类中各自样本权重比例是nb:na,实际应用中可以令a和b类中每个样本权重是1和或者是和1。这样总能保证两个类中每个样本权重加总后的总权重相等,即类别权重一致。在不特别指定每个样本的具体权重时,都是默认所有的样本权重相等。因此可以通过直接抽样的方式使得不同类别对应的样本数量相等,则各自样本加总的权重也一定相等。
[0022]
然而,利用各类样本数量占比来求取权重,在样本涉及多个层级的类别时,业务需求一般需要维持样本在各层级类别下的权重均衡,例如图1为一个两层类别的样本结构,其中a类别将整个数据集划分为a1和a2两个子集,a1子集下用b类别可以继续得到b1和b2两个子集,a2用b类别划分全部属于b3类。假设整体样本为借贷数据,a类可以是客户好坏划分,b类可以进一步是客户的收入水平区间。需要保证a1和a2总权重相等,以及b1和b2总权重相等。根据数据占比可以求取a1和a2中各自样本的权重,b1和b2内各样本相应的权重,但不能协调a和b划分的数据集间的权重关系,使得前后层级的样本总权重一致,即a1的样本总权重应该等于b1和b2的总权重。
[0023]
利用抽样使得不同类别的样本数量均等可以达到直接均衡各类样本总权重的目的,但是需要提前指定样本数量,另一方面抽样涉及的增加或者删除样本都会增加模型效果的不确定性。同样涉及多层级类别时,会增大终端类别抽样的复杂性。还是以图1为例,表面上直接抽样只要保证a1和a2数量一致,b1和b2数量相等即可,但最终需要综合考虑b1和b2以及b3各样本集的数量,给出一个合适的抽样数量方案,使得增删样本造成的信息损失最小。其中终端样本指的是层次最小的类别下的样本,图1中b类别就是终端类别。
[0024]
综上可知在涉及多层级类别的样本下,利用占比求取样本权重难以维系各层级间权重一致,以及直接抽样会因为增删样本导致信息损失,并且抽样方法也具有复杂性和不确定性。本专利发明了一种样本权重的决定方法,其本质依然是样本数量占比,在此基础上进一步改进,使得样本涉及多层级类别时,能迅速求取终端类别的样本权重,并保证了各层级类别样本集的权重均衡。
[0025]
请参阅图2,示出了一种样本数据处理方法的流程图,所述方法可以应用于计算机设备,所述方法具体包括以下步骤所描述的内容。
[0026]
步骤s21,获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集。
[0027]
其中,每个样本子集对应一个类别标签。
[0028]
步骤s22,接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列。
[0029]
步骤s23,依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重。
[0030]
可以理解,基于上述步骤s21-步骤s23所描述的内容,首先获取待处理样本数据并确定多个类别标签,根据类别标签将待处理样本数据划分为多个样本子集,其次根据接收到的业务需求信息将多个类别标签进行排序得到类别排序队列,最后依次为类别排序队列中的每个类别标签下的每个样本子集分配样本权重。如此,当待处理样本数据涉及多个层级的类别标签时,上述方法能够快速求取每个样本子集的样本权重,使得统一级别下的各样本子集的总权重相等,同时又能保证不同层级类别间的样本总权重一致,这在保留有效信息的同时使得待处理样本数据的整体权重均衡更准确。
[0031]
在一个可以替换的实施方式中,步骤s23所描述的依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重,具体包括以下步骤s231和步骤s232所描述的内容。
[0032]
步骤s231根据所述样本子集的总数确定整体样本权重。
[0033]
步骤s232,基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
[0034]
进一步地,步骤s232所描述的确定每个类别标签下的样本子集的当前样本权重具体可以包括以下步骤s2321和步骤s2322所描述的内容。
[0035]
步骤s2321,针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重。
[0036]
步骤s2322,根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权重。
[0037]
为便于对步骤s23进行说明,下面结合图3进行示例性说明。
[0038]
(1)计算机设备初始化整体样本的权重,为了不让终端样本的权重过小,一般初始化整体样本权重为总样本的数量值w。
[0039]
(2)计算机设备循环获取每个层次下类别的个数,该层次下每个类别对应的样本集权重等于所属上一层类别总权重除以该层类别的个数。以图3多层类别样本结构示例为例,a类别的个数为2,那么a1和a2样本集各自的总权重为w/2。同样a1类别下b类别个数为2个,则a1类别下b类别样本集的总权重各是(w/2)/2;a2类别下的b类别个数是3个,示例中a1和a2的下一级类别都包含b1,但这两个b1应该视作两个不同的类别来考虑,b2同样视作两个不同类别,则a2类别下的三个b类别总权重均是(w/2)/3。依次类推得到终端c类各个样本集的总权重。
[0040]
(3)计算机设备获取终端各个类别的总权重,在终端各个类别下的单个样本权重为该类别总权重除以该类别的样本数量。
[0041]
其中,均衡各层类别对应的样本总权重指的是上一级大类别样本集划分出来的下一级各个小类别的样本集总权重均等,并不是考虑整体样本在每层类别下划分出的数据集总权重均等。依旧看图2的例子,如果要考虑每个类别在整体样本的划分下样本总权重相等,则a类别下a1和a2总权重均等,都是w/2,b类别下b1、b2和b3对应的整体样本的三个样本集总权重均等,则b类各样本集总权重都是w/3。那么b1和b2均在a1和a2类中出现了,而a1和a2样本总权重均等,则a1下的b1样本集,简写为a1b1的总权重就应该是1/2的b1总权重,(w/3)/2,同样a1b2、a2b1、a2b2总权重都是(w/3)/2,只有a2b3总权重是w/3。此时加总a1b1、a1b2总权重和为w/3,加总a2b1、a2b2、a2b3的总权重和为2w/3,这和a类划分的样本集各自总权重不一致。因此,各层类别下的样本均衡只局限在上一个类别划分下的样本子集在该层类别下各子集总权重的均衡,例图2就只用考虑a1子集内b1和b2总权重均衡,只考虑a2子集内b1、b2、b3的总权重均衡。
[0042]
在一个可能的实现方式中,步骤s22所描述的根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列,可以通过步骤s220实现。
[0043]
步骤s220,分别确定业务需求信息对应的需求类别清单以及所述类别标签对应的标签特征清单,根据所述需求类别清单和所述标签特征清单确定排序执行路径,通过所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
[0044]
对于一些进一步的实施例而言,步骤s220所描述的内容,进一步可以包括以下步骤s221-步骤s225所描述的内容。
[0045]
步骤s221,确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素。
[0046]
步骤s222,提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素。
[0047]
步骤s223,根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素,在所述目标清单元素中得到需求映射数据,并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表。
[0048]
步骤s224,以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据,根据所述相关性系数列表对应的相关性匹配路径,将所述待关联数据匹配到所述需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据。
[0049]
步骤s225,获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹;根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
[0050]
可以理解,基于上述步骤s221-步骤s225,能够分别获取确定业务需求信息对应的
需求类别清单以及类别标签对应的标签特征清单,从而基于需求类别清单和标签特征清单实现清单元素的互相映射处理,进而确定出相关性系数列表,并进一步确定出不同清单元素中的排序参考结果,这样可以实现对不同清单元素中的排序参考结果的排序置信度的考虑,以确保最终得到的排序参考结果的排序置信度符合业务需求,进而确保对类别标签进行排序时充分考虑实际业务需求。
[0051]
基于上述同样的发明构思,提供了一种样本数据处理装置,应用于计算机设备,所述装置包括:样本划分模块,用于获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集;其中,每个样本子集对应一个类别标签;标签排序模块,用于接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列;权重分配模块,用于依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重。
[0052]
可选地,权重分配模块,用于:根据所述样本子集的总数确定整体样本权重;基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
[0053]
可选地,权重分配模块,用于:针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重;根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权重。
[0054]
可选地,标签排序模块,用于:确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素;提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素;根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素,在所述目标清单元素中得到需求映射数据,并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据,根据所述相关性系数列表对应的相关性匹配路径,将所述待关联数据匹配到所述需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据;获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹;根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所
述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
[0055]
在上述基础上,提供了一种计算机设备,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现上述的方法。
[0056]
在上述基础上,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现上述的方法。
[0057]
可以理解,基于上述方案,能够解决实际的业务中面临的样本类别不平衡,不同类别下样本数量不均等,可能导致预测结果不准确、错分代价高等问题。当样本涉及多个层级的类别时,上述方案能够迅速的求取单个样本的权重值,使得同一级别下的各类样本总权重均等,同时又保证不同层级类别间的样本总权重一致。
[0058]
进一步地,上述方案不需要进行样本抽样,因而没有抽样将面临的复杂考虑,同时计算过程只涉及到简单的循环计算,因此计算方式更加简便,高效,可以快速求出每个样本的权重。由于不需要进行抽样,就不会因增删样本损失样本信息从而增加不确定性。相反保留所有样本并通过自大类到小类别的类别排序,循环求取各层级类别的权重,不仅平衡了同一级别下各类别的权重,而且可以保证各层类别间总权重的一致性。这在保留有效信息的同时使得整体权重均衡更准确。
[0059]
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1