一种用户样本特征优化处理方法和装置与流程

文档序号:11458914阅读:231来源:国知局
一种用户样本特征优化处理方法和装置与流程

本申请涉及计算机技术领域,尤其涉及一种用户样本特征优化处理方法和装置。



背景技术:

随着信息技术的不断发展,时下已经步入大数据时代,商家或企业等可通过其提供的各种服务平台收集到海量用户样本,这些用户样本中通常具有很多特征,例如用户在网络上购物消费的金额,退换货的记录,购买金融投资产品的金额,用户a和用户b之间关系的紧密程度等,通过对这些用户样本的特征进行处理,进而输入模型进行训练,最终得到能够预测出新的用户行为的分类模型。得出分类模型之后,将新的用户样本经过处理输入上述分类模型,经过模型计算即可对该用户样本进行预测,例如,预测该用户为信用良好或信用较差等。

对用户样本的特征进行处理时,通常是对特征值进行处理以得到该特征的新取值,目前常用的处理方法为最大值最小值处理法,其步骤如下:第一步,统计出用户样本在特征上的最大值与最小值;第二步,利用最大值最小值法将每个用户样本的该特征的取值进行处理,由此将特征的新取值范围映射到了0到1之间。

利用上述最大值最小值处理法对用户样本特征值处理,容易使处理后特征的新取值不能贴合正样本浓度的变化趋势,最终有可能导致模型在训练时不能很好地学习出该特征的线性规律,从而降低模型的学习效果,导致模型的预测精度下降。



技术实现要素:

基于上述技术问题,本申请实施例提供一种用户样本特征优化处理方法和装置,用于对用户样本特征优化处理,进而使构造出的特征值更加贴合正样本浓度的变化趋势。

本申请实施例采用下述技术方案:

一种用户样本特征优化处理方法,包括:确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;根据各个用户样本的所述特征的取值以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间,n为大于1的正整数;对于n+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。

优选地,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之后,所述方法还包括:对用户样本的所述特征的新取值进行归一化处理。

优选地,对用户样本的所述特征的新取值进行归一化处理,具体包括:确定所述特征的新取值中的最大值与最小值;对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:

其中,fnew为进行处理后的数值,fold为进行处理之前所述特征的新取值,fmax、fmin分别为所述特征新取值中的最大值与最小值。

优选地,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之前,所述方法还包括:选取出每个区间中的比值和所述预定分位点所确定的预设值之间不满足线性关系的特征。

优选地,根据各个用户样本的所述特征的取值以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间,具体包括:根据各个用户样本的所述 特征的取值进行排序;将n个分位点上对应的取值作为边界,将用户样本集内的用户样本分成n+1个区间。

优选地,在对用户样本的所述特征的新取值进行归一化处理之后,所述方法还包括,将处理后的用户样本输入线性模型进行训练。

一种用户样本特征优化处理装置,包括:特征确定模块、区间划分模块、比值计算模块和特征值确定模块,其中:所述特征确定模块,用于确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;所述区间划分模块,用于根据各个用户样本的所述特征的取值以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间,n为大于1的正整数;所述比值计算模块,用于对于n+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;所述特征值确定模块,用于将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。

优选地,所述装置还包括归一化模块,其中:所述归一化模块,用于对用户样本的所述特征的新取值进行归一化处理。

优选地,所述归一化模块具体包括确定子单元和处理子单元,其中:所述确定子单元,用于确定所述特征的新取值中的最大值与最小值;所述处理子单元,用于对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:

其中,fnew为进行处理后的数值,fold为进行处理之前所述特征的新取值,fmax、fmin分别为所述特征新取值中的最大值与最小值。

优选地,所述装置还包括模型训练模块,其中:所述模型训练模块,用于将处理后的用户样本输入线性模型进行训练。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:将用户样本集内的用户样本划分区间之后,计算每个区间中正样本的数量占区间整 体用户样本数量的比值,以计算出的比值作为区间内各用户样本的特征的新取值,这样特征的新取值能够贴合正样本浓度的增长或下降趋势,最终可以使模型对该特征进行充分训练。同时,以计算出的比值作为区间内各用户样本特征的新取值,可以使正样本的浓度和特征新取值之间满足线性关系,同时又解决了正样本的浓度和特征新取值之间不满足线性关系的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的用户样本特征优化处理方法的实现流程示意图;

图2为本申请实施例提供的每个区间中的比值和预定分位点所确定的预设值之间满足线性关系示意图;

图3为本申请实施例提供的每个区间中的比值和预定分位点所确定的预设值之间不满足线性关系示意图;

图4为本申请实施例提供的用户样本特征优化处理装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的用户样本特征优化处理方法的实现流程示意图,主要包括以下几个步骤:

步骤11:确定用户样本集内用户样本的待优化特征;

用户样本通常为采集到的与用户相关的历史数据,例如用户基本信息、银行账户信息、社会信息、爱好偏好、使用信息、缴费信息、欠款信息等,这里的历史数据具体包括多个特征,而这些特征往往是用数值的形式体现出来。以个人征信业务为例,用户样本的历史数据所包括的特征为用户在网络上购物消费的具体金额,退换货的具体次数,购买金融投资产品的具体金额,信用卡的还款情况,某段时间内信用卡的欠款金额等等。由此可见,用户样本涉及到很多特征,因此首先要从用户样本中确定某一特征或者是某几个特征出来进行分析,如果一次确定出多个特征,则可以将多个特征中的每一个特征分别按以下步骤12、13、14进行操作。

对于上述用户样本,通常是在一个用户样本集中,用户样本集中用户样本的数量可以根据实际的需要来设置,例如可以为几千到几万个,一般用户样本数量越多越能更精确地反映实际情况,但无论是构造特征工程或者是进行模型训练时,其相应的计算和处理则时间则会大于用户样本数量较少时的情况。

另外,这里的用户样本中包括有正样本。其中,正样本可以为已经被标签化的样本,也即正样本是被手动标记或者是计算机识别标记的,其归属类别已知。例如将用户样本中信用较差的样本进行标签化,而这里的信用较差的用户样本则称为正样本,相应的还可以有信用较好的反样本等。

步骤12:根据各个用户样本的所述特征的取值以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间;

用户样本中的特征往往是用数值的形式体现出来,用户样本的数量较多,可以根据各个用户样本的确定的特征的取值以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间,其中n为正整数。例如,确定出用户样本待优化的特征为消费金额,在具体划分区间时,首先可以将所有用户样本的消费金额按照从小到大的顺序进行排序,排序后的样式可以为(100,202,…,25000,30000)等,需要说明的是,排序后的每一个特征的取值还应与原用户 样本相对应;在排序完之后,根据各个用户样本的消费金额的大小以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间。

对于上述的分位点,举例进行说明,例如一共有100个样本,把样本分为10个区间,可以把排序后在第10,20…90上的数作为分位点。

另外,在上述n+1个区间中,每一个区间里的用户样本的数量可以是均等,例如用户的样本一共为100个,相应地,这里有100个按从小到大排序后的数据,可以根据预定的n个分位数将上述数据分为10个区间,即每个区间中均有10个用户样本。除每一个区间里的用户样本的数量是均等之外,当然每一个区间里的用户样本的数量也可以是按一定的比例分布的,本实施例对此不作限制。

步骤13:对于n+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;

如前所述,用户样本包括已经标签化的正样本,经过步骤12的处理将用户样本划分到n+1个区间之后,则可以对于每一个区间,均计算出该区间的正样本的数量占该区间整体用户样本数量的比值。例如某一区间的用户样本数量总共为10个,而正样本的数量为3个,则计算出该区间中正样本的数量占该区间整体用户样本数量的比值0.3。

需要说明的是,这里提到的正样本和整体用户样本数量,在整体用户样本数量中,除了正样本之外的其他样本,可以全部为反样本;当然还可以为部分未知类别的样本,部分反样本;还可以为全部是未知类别的样本。例如将用户信用分为信用好和信用差,信用差的为正样本,信用好的为反样本,在整体用户样本数量中除了信用较差的样本之外的其他样本,可以全部为信用好的为反样本;当然还可以为部分未知类别的样本,部分为信用好的反样本;还可以为全部是未知信用类别的样本。

步骤14:将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。

步骤13中已经计算出n+1个区间中,每个区间中的正样本的数量占区间整体用户样本数量的比值,相应的计算出了n+1个比值,此步骤则可以对于上述的n+1中的每一个区间,均将该区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。还以之前所举的一个例子为例,某一区间的用户样本数量总共为10个,计算出该区间中正样本的数量占该区间整体用户样本数量的比值0.3,则可以将该区间10个用户样本的特征的新取值确定为0.3,另外对于每个区间均执行此步骤的操作。

本申请实施例采用的上述技术方案,将用户样本集内的用户样本划分区间之后,计算每个区间中正样本的数量占区间整体用户样本数量的比值,以计算出的比值作为区间内各用户样本的特征的新取值,这样特征的新取值可以尽可能的贴合正样本浓度的增长或下降趋势,最终可以使模型对该特征进行充分训练,优化模型拟合程度。同时,以计算出的比值作为区间内各用户样本特征的新取值,可以使正样本的浓度和特征新取值之间满足线性关系,同时又解决了正样本的浓度和特征新取值之间不满足线性关系的问题。

上述实施例的步骤14之后,上述实施例还可以包括以下步骤:对用户样本的所述特征的新取值进行归一化处理。在进行归一化处理时,可以采用线性函数法中的最大最小值法、均值法或中间值法等。最大最小值法可以将特征的取值归一化到[0,1]范围内;均值法可以将特征的取值归一化到任意范围内,但最大值与最小值的符号不可同时改变;中间值法可以将特征的取值归一化到[-1,1]范围内。当然还可以为其他的归一化算法。

经过此归一化处理,最终将归一化处理后的取值限制在需要的范围内,主要是为了后面数据处理的方便以及保证最终输入模型训练时的收敛速度加快。具体可以采用如下的归一化方法:

第一步:确定所述特征的新取值中的最大值与最小值;

第二步:对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:

其中,fnew为进行处理后的数值,fold为进行处理之前所述特征的新取值,fmax、fmin分别为所述特征新取值中的最大值与最小值。

如前所述,用户样本中通常包括有很多的特征,对所有特征的新取值进行归一化处理之后,之前的方法实施例还可以包括以下步骤:将处理后的用户样本输入线性模型进行训练。如前所述,用户样本中包括有很多的特征,这里可以挑选出部分特征全部按上述实施例的步骤11,步骤12,步骤13和步骤14处理之后进而进行归一化处理,最终输入线性模型进行训练。进而使模型对上述选取出的特征进行充分训练,优化模型拟合程度,最终将提升模型预测性能与效果。

在上述实施例的步骤14之前,所述方法实施例还可以包括以下步骤:选取出每个区间中的比值和所述预定分位点所确定的预设值之间不满足线性关系的特征。这里的线性关系主要指每个区间中的比值是否随分为点所确定的预设值的增加而单调递增,又或者是每个区间中的比值是否随分为点所确定的预设值的增加而单调递减。对于n个分位点所确定的预设值,所述预设值可以为以分为点为依据所划分的区间,也可以直接为分为点的具体取值,也可以为跟分位点呈一定比例关系的某一数值等。

具体地,在选取出不满足线性关系的特征时,可以首先判断每个区间中的比值和预定的n个分位点分别确定的预设值之间是否满足线性关系,在进行判断时可以结合步骤11,步骤12以及步骤13的处理结果,为方便判断,还可以根据上述处理结果画出新特征的的bi-var曲线图,并根据图形是否有单调性来判断每个区间中的比值和所述预定的n个分位点之间是否满足线性关系。

图2和图3为根据步骤11,步骤12以及步骤13的处理结果,画出新特征的bi-var曲线图,其中曲线的横坐标为以分为点所确定的预设值为依据所划分的区间,纵坐标为每个区间中的正样本的数量占该区间整体用户样本数量的比 值,当然这里的画图只是便于理解,实际中横坐标的区间之间可能是连续的,也可能是离散的。可以看出,图2的bi-var曲线图为满足线性关系,即纵坐标的数值随着横坐标的数值而单调增加,而图3所示的bi-var曲线图为不满足线性关系。因此在步骤14中进行归一化处理之前,可以选取出所述判断结果为否的条件下的特征,即仅对不满足线性关系的特征值进行步骤14的处理。

上述实施例的步骤12中,根据各个用户样本的所述特征的取值以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间,具体可以采用如下方法:第一步:根据各个用户样本的所述特征的取值进行排序;第二步:将n个分位点上对应的取值作为边界,将用户样本集内的用户样本分成n+1个区间。例如有100条用户样本,可以将排序为第10,20…90上的9个数做为预定分位点,以此数值为边界将用户样本分成10个区间。还可以将排序为第20,40…80上的4个数做为分位点,以此数值为边界将用户样本分成5个区间。另外,上述n+1个区间中的任意两个区间中用户样本的数量可以相等。

上述几个实施例皆为本申请的方法实施例,相应地,本申请还提供一种用户样本特征优化处理装置实施例,用于对用户样本特征优化处理,进而使构造出的特征值更加贴合正样本浓度的变化趋势。具体见图4,包括:特征确定模块21、区间划分模块22、比值计算模块23和特征值确定模块24,其中:

所述特征确定模块21,可以用于确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;

所述区间划分模块22,可以用于根据各个用户样本的所述特征的取值以预定的n个分位点将用户样本集内的用户样本划分到n+1个区间,n为大于1的正整数;

所述比值计算模块23,可以用于对于n+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;

所述特征值确定模块24,可以用于将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。

本装置实施例工作时,特征确定模块首先确定待优化的特征,然后区间划分模块将用户样本集内的用户样本划分到n+1个区间,比值计算模块计算每个区间中正样本的数量占区间整体用户样本数量的比值,最后特征值确定模块将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。这样特征的新取值可以完全贴合正样本浓度的增长或下降趋势,最终可以使模型对该特征进行充分训练,优化模型拟合程度。同时,以计算出的比值作为区间内各用户样本特征的新取值,可以使正样本的浓度和特征新取值之间满足线性关系,同时又解决了正样本的浓度和特征新取值之间不满足线性关系的问题。

在上述装置实施例还可以包括归一化模块,其中:所述归一化模块,可以用于对用户样本的所述特征的新取值进行归一化处理。

所述归一化模块具体包括确定子单元和处理子单元,其中:

所述确定子单元,可以用于确定所述特征的新取值中的最大值与最小值;

所述处理子单元,可以用于对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:

其中,fnew为进行处理后的数值,fold为进行处理之前所述特征的新取值,fmax、fmin分别为所述特征新取值中的最大值与最小值。

另外,上述装置还可以包括模型训练模块,其中:模型训练模块可以用于将归一化处理后的用户样本输入线性模型进行训练。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器 (cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1