一种模型迁移的特征值确定方法、装置及设备与流程

文档序号:21830159发布日期:2020-08-11 21:58阅读:133来源:国知局
一种模型迁移的特征值确定方法、装置及设备与流程

本申请涉及数据风险防控技术领域,尤其涉及一种模型迁移的特征值确定方法、装置及设备。



背景技术:

随着信息技术的不断发展,越来越多的行为可以通过网络实现。在通过网络实现这些行为的过程中,会产生大量的数据(简称大数据)。于是,通过对大数据进行分析,可以识别出某些数据所对应的行为是否是异常行为,进而存在风险。例如,当某个非企业账户每天产生大量的交易数据时,该账户就可能有违规经营或者洗钱等风险。

为了尽可能的通过对于数据的分析,识别出潜在的风险,利用历史数据构建的数据驱动的风险防控模型,应运而生。但是,若在一个新开展的业务场景中进行风险防控,由于缺乏历史数据,无法对模型进行训练等原因,导致在初始阶段构建风控模型存在较大困难。

综上,如何能够在历史数据不够充足的情况下,对于数据风险进行防控,仍是亟待解决的问题。



技术实现要素:

本说明书实施例提供一种基于模型迁移的特征值确定方法、装置及设备,以解决历史数据不够充足的情况下,对于数据风险进行防控的问题。

为解决上述技术问题,本说明书实施例是这样实现的:

本说明书实施例提供的一种基于模型迁移的特征值确定方法,包括:

获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;

在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;

获取所述第一数据分箱的数据在第二特征维度的特征值;

将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。

本说明书实施例提供的一种基于模型迁移的特征值确定装置,包括:

占比信息获取模块,用于获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;

占比匹配模块,用于在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;

特征值获取模块,用于获取所述第一数据分箱的数据在第二特征维度的特征值;

特征值确定模块,用于将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。

本说明书实施例提供的一种基于模型迁移的特征值确定设备,

包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;

在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;

获取所述第一数据分箱的数据在第二特征维度的特征值;

将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。

由以上本说明书实施例提供的技术方案可见,在本说明书实施例中,可以利用源场景数据集中基于第一特征维度的分箱数据的占比信息来确定在第一特征维度中目标场景的分箱情况,然后将源场景数据集中的分箱数据在第二特征维度的特征值确定为目标场景的分箱数据在第二特征维度的特征值,从而可以使源场景数据迁移至目标场景中,使目标场景历史数据不够充足的情况下,也可以对数据风险进行防控,为新业务的开展提高了一定的保障。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种基于模型迁移的特征值确定方法流程图;

图2为一种源场景数据分箱的示意图;

图3为基于图2的源场景得到的一种目标场景数据分箱的示意图;

图4为一种源场景数据分箱的示意图;

图5为基于图4的源场景得到的一种目标场景数据分箱的示意图;

图6为本说明书实施例提供的一种基于模型迁移的特征值确定装置结构示意图;

图7为本说明书实施例提供的一种基于模型迁移的特征值确定设备结构示意图。

具体实施方式

发明人研究发现,为了解决历史数据不够充足的情况下,对于数据风险进行防控的问题,通常的方法是,等待新开展的业务运行一段时间,积累到足够的数据后,再采用这些数据构建风控模型。这意味着新开展的业务在运行初期无法得到有效的风险控制。在这段时期内,如果没有识别和阻拦恶意用户的诈骗等行为,往往会给开展该业务的平台,以及参与该业务的用户带来巨大的损失。

为了解决在历史数据不够充足的情况下,对于数据风险进行防控的问题,学术界和工业界都进行了大量的探索和实践。例如:一种方式是通过专家经验进行初始化模型设计。但专家经验存在主观偏差,且人力成本高,效率低下。另一种方式是利用无标签业务数据,通过无监督算法挖掘潜在的模式。但无监督学习的难度较大,且无监督算法挖掘得到的潜在模式,与需要解决的特定问题不一定直接相关,往往还需要结合专家业务经验,进行启发式的模型设计。

发明人发现在实际应用中,会存在许多相似的场景,例如,对于某一电子支付平台,此平台可以为用户提供特色的存款业务,通常情况下,年轻人更喜欢使用电子平台进行存款,并考虑到年轻人收入情况,在30至40岁的年龄的人使用电子存款的较多,这样年龄与电子存款的使用情况之间就可以存在类似正态分布的分布曲线;现新出现了一款线下存款业务,考虑到同样是存款业务,只不过此业务是线下进行的,所以,此业务的使用情况与年龄分布也会呈现类似正态分布的分布曲线,但由于是新的业务,没有太多的历史数据,故考虑到电子平台进行存款与线下进行存款同样都可以存在类似正态分布的分布曲线,即两者的分布情况是相似的,是否可以借鉴电子平台的经验或者模型来分析此款新的线下业务的风险情况。

发明人发现迁移学习可以试图利用相似的源场景数据和经验,迁移到目标场景中,解决目标场景中历史数据不够充足的情况下,模型构建的问题。但在实际应用中,由于某些原因,源场景的数据只能用于构建模型,获得模型参数,无法将源场景的原始数据和目标场景进行融合,例如在金融风控建模场景中,由于数据安全和隐私等要求,通常a机构的原始用户行为数据,无法放在b机构融合使用,从而使得传统的迁移方法在该场景中并不适用。

为获得本说明书实施例中的方案,发明人发现,衡量迁移模型hs(x)在迁移场景dt中的结构风险rt可以表示为:

进行估算可得到:

并且,由贝叶斯定理可知,联合概率分布

p(x,y)=p(x|y)p(y)=p(y|x)p(x)。

从经验风险的分析可知,如果假设先验概率或后验概率其中一项不变,则通过对分布进行校准,使得源场景训练的模型可以在目标场景中的经验风险最小。

本说明书实施例中,假设源场景和目标场景的后验分布相同,即pt(x|y)p(y)=ps(y|x)p(x),但先验分布发生漂移,即pt(x)≠ps(x),可以得到:

由此可知,源场景中训练样本在目标场景中的概率,可以通过pt(x)/ps(x)进行校准,从而降低源场景模型在目标场景中预测泛化误差。由于源场景的样本无法与目标场景融合进行训练,因此,无法先利用目标场景的pt(x)先验分布信息,对源场景做加权处理。

在源场景中基于dt训练模型h,即在源场景中求解以下问题,使得在源场景中泛化误差最小:

当源场景模型训练完成后,在目标场景中,使得在目标场景中的泛化误差与源场景泛化误差的差异最小,从而使得模型在目标场景中的性能也与源场景尽量相似,则可以转化为优化以下问题:

由于pt(x|y)p(y)=ps(y|x)p(x),在源场景训练完成后,hs(x)固定,如果假设模型参数保持不变,则问题可以转化为:

即可以通过对目标场景特征分布做操作,使得pt(x)和ps(x)的分布最接近,得到模型最优结果。

因此,本说明书实施例提供了一种基于模型迁移的特征值确定方法、装置以及设备。

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

以下结合附图,详细说明本申请各实施例提供的技术方案。

图1是本说明书实施例提供的基于模型迁移的特征值确定方法流程图,包括以下步骤:

步骤100:获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息。

数据分箱可以是按照某种规则将数据进行分类,可以把一段连续或离散的值切分成若干段,每一段的值看成一个分类。

源场景可以是具有大量可进行模型构建的已知信息的场景,在实际应用中可以按照某个特定维度将源场景数据集进行分箱处理。例如,对于某消费业务,源场景数据集可以是此业务中用户的历史消费记录,使用此业务的用户具有年龄特征,可以按照年龄这一特征维度将源场景数据集进行分箱处理;又如,对于某理财业务,使用此业务的用户具有收入特征,可以按照收入这一特征维度将源场景数据集进行分箱处理,等等。具体特征维度可以根据实际需求进行选择,这里不作限定。

本说明书实施例中,所述占比信息可以具体可以是指一个第一数据分箱内的数据在源场景数据集中的占比。例如,源场景中有100个数据,其中一个数据分箱中的数据为20个,此数据分箱的数据在所述源场景数据集中的占比信息可以为20%。

步骤102:在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱。

目标场景可以理解为与所述源场景相同或相似的场景,其与源场景具有相同或相近的特征维度,例如,源场景为某线上平台的一款理财业务,目标场景为某线下平台的一款理财业务,两者都为理财业务,具有相同的应用场景,可以具有相同或相近的特征维度。

本说明书实施例中可以基于与源场景相同的第一特征维度对目标场景数据集进行分箱处理,具体的可以根据第一数据分箱的数据在所述源场景数据集中的占比信息来确定目标场景数据集的数据分箱,为与源场景中的数据分箱区别开来,这里将目标场景数据集的数据分箱称为第二数据分箱。

步骤104:获取所述第一数据分箱的数据在第二特征维度的特征值。

机器学习中,进行模型构建数据可以具有多个特征维度,可以利用特征工程获得数据的特征,特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。

在本说明书实施例中,使用一个特征维度可能不足以描述数据的特征,还可以利用第二特征维度进行数据的描述,第二特征维度可以是与第一特征维度具有一定联系的维度,例如,第一特征维度为用户的年龄,用户的购买力与用户的年龄具有一定的联系,可以将第二特征维度选定为用户的购买力。为完成模型迁移的特征值的确定,本说明书实施例中还可以获取第二特征维度的特征值。

步骤106:将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。

在本说明书实施例中,可以将第二特征维度的特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值,以便完成模型迁移。

如图1所示的基于模型迁移的特征值确定方法,可以利用源场景数据集中基于第一特征维度的分箱数据的占比信息来确定在第一特征维度中目标场景的分箱情况,然后将源场景数据集中的分箱数据在第二特征维度的特征值确定为目标场景的分箱数据在第二特征维度的特征值,从而可以使源场景数据迁移至目标场景中,使目标场景历史数据不够充足的情况下,也可以对数据风险进行防控,为新业务的开展提供了保障。

本说明书实施例中,步骤102中所述在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱,具体可以包括:

确定所述第二数据分箱的左端点在所述第一特征维度对应的起始特征值;

在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱包含的所述第一特征维度的特征值,计算所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于第一预设阈值;

将所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值小于或等于第一预设阈值时,所述第二数据分箱包含的所述第一特征维度的全部特征值确定为所述第二数据分箱的分箱取值范围。

在实际应用中,目标场景数据的分箱情况是根据源场景的分箱情况相关的,假设源场景为a平台的一项电子信贷场景,通过平台数据可以获知用户相关的信息,例如,交易信息、还款信息等,目标场景为b平台的一项信用卡业务,由于此项信用卡业务是新业务,还没有大量的历史信息或者历史信息缺失,在一些风控管理中,需要迁移使用a平台的风控模型来对b平台进行风控管理。假设第一特征维度为年龄,年龄可以设置为0至100岁,源场景数据集基于年龄进行分箱处理,将年龄0-20岁设置为第一个第一数据分箱,第一个第一数据分箱内的数据个数在原场景数据集中的占比为20%;假设目标场景中,从有限个历史信息中获知,目标场景的用户年龄段为16岁至75岁,可以将16岁确定为起始特征值,判断16岁对应的数据个数在目标场景数据集中所占的比例是否与20%相同或相近,若刚好与20%相同或相近,则可以确定第二数据分箱的第一个数据分箱取值范围为16岁,而通常会小于20%,则可以将16岁确定为第二数据分箱的第一个数据分箱的左端点值,然后依次以每次加1的方式增加年龄值,计算从16岁开始的年龄段中对应的数据个数在目标场景数据集中所占情况,直到达到20%,停止计算,此时对应的年龄值为第二数据分箱的第一个数据分箱的右端点值,假设为35岁,则可以第二数据分箱的第一个数据分箱取值范围为16岁至35岁;之后针对第二数据分箱的第二个分箱可以从35岁开始,依次增加年龄值计算占比情况,进而确定第二数据分箱的第二个数据分箱取值范围,进而可以确定整个第二数据分箱的分箱情况。在实际应用中,前述达到20%,可以理解为第二数据分箱包含的数据在目标场景数据集中所占的比例与占比信息对应的比例,即20%的差值小于或等于第一预设阈值,其中第一预设阈值可以根据实际需求设定,例如0.1%等。

本说明书实施例中,所述确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值,具体可以包括:

按照所述第一特征维度递增的方向,当所述第二数据分箱是所述目标场景数据集的起始数据分箱时,将所述目标场景数据集中所述第一特征维度的最小特征值确定为所述起始特征值;

当所述第二数据分箱是所述目标场景数据集的非起始数据分箱时,将所述目标场景数据集中所述第二数据分箱的前一个数据分箱的右端点值确定为所述起始特征值。

在实际应用中,数据分箱的分箱的取值范围通常会采用左开右闭的区间表示,例如按照年龄维度进行分箱,得到一个分箱的取值范围为(20,35],则表示此分箱表示一个从年龄大于20岁,至年龄小于等于35岁的范围。

本说明书实施例中可以从目标场景中第一特征维度的起始开始确定第二数据分箱的取值范围,延续上例,假设目标场景的用户年龄段为16岁至75岁,16岁为第一特征维度的起始位置,可以将16岁作为目标场景数据集中所述第一特征维度的最小特征值确定为所述起始特征值;当判断第二分箱中的第二个分箱时,可以以第一个分箱的右端点值35岁作为起始特征值。

本说明书实施例中,所述第一特征维度的特征值可以为数值类型,所述按照设定顺序,依次增加所述第二数据分箱包含的所述第一特征维度的特征值,具体可以包括:

按照所述第一特征维度的特征值增大的方向,依次增加所述第二数据分箱包含的所述第一特征维度的特征值。

如上例,可以按照年龄增长的方向,依次增加第二数据分箱包含的年龄值。需要说明的是,第一特征维度的特征值的类型还可以是其他类型,例如文字、符号、颜色等,所述设定顺序可以根据实际需求进行设定,这里不作具体限定,只要能够满足需求即可。

本说明书实施例中,所述第二特征维度的特征值,具体可以包括:证据权重的值。

证据权重(woe,weightofevidence),是衡量正常样本和违约样本分布的差异方法,可以将特征的值规范到相近的尺度上。

为更清楚的说明本说明书实施例中的内容,下面结合图2和图3进行说明,图2为一种源场景数据分箱的示意图,图3为基于图2的源场景得到的一种目标场景数据分箱的示意图,其中第二特征维度可以为证据权重。

根据本说明书实施例中的方法可以由图2中所述的源场景的第一数据分箱情况得到图3中目的场景的第二数据分箱情况,大概过程可以包括:假设将源场景中的数据为10-40岁用户的数据,将其为五个数据分箱,第一个第一数据分箱内的数据个数在源场景数据集中的占比为v1=20%,证据权重值w1=0.5;第二个第一数据分箱内的数据个数在源场景数据集中的占比为v2=25%,证据权重值w2=0.3;第三个第一数据分箱内的数据个数在源场景数据集中的占比为v3=25%,证据权重值w3=0.1;第四个第一数据分箱内的数据个数在源场景数据集中的占比为v4=15%,证据权重值w4=0;第五个第一数据分箱内的数据个数在源场景数据集中的占比为v5=15%,证据权重值w5=-0.2。假设目标场景针对的是18岁及以上的用户,以18岁作为第一个第二数据分箱的起点,计算18岁对应的数据个数在目标场景数据集中的占比,通常会较小,假设小于20%,则依次增加第一个第二数据分箱的右端点的年龄值,直至第一个第二数据分箱中数据个数在目标场景数据集中的占比为20%,或者接近20%,其中接近可以理解为第一个第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例,即20%,的差值小于或等于根据实际需求设定的第一预设阈值,停止第一个第二数据分箱的右端点的年龄值的增加,将此时的年龄值确定为第一个第二数据分箱的右端点,图3所示第一个第二数据分箱的右端点为25岁,然后将第一个第一数据分箱对应的woe值确定为第一个第二数据分箱的woe值。以此类推可以获得图3所示的第二数据分箱的情况。

在实际应用中,所述占比信息具体可以包括所述第一数据分箱的左端点对应的第一累计占比信息,以及所述第一数据分箱的右端点对应的第二累计占比信息,所述在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱,具体可以包括:

确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值;在所述第一特征维度,小于所述起始特征值的数据在所述目标场景数据集中的占比为第一累积占比;所述第一累积占比与所述第一累积占比信息相匹配;

在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱的右端点在所述第一特征维度对应的特征值,直至小于所述右端点对应的特征值的数据在所述目标场景数据集中的占比为第二累积占比;所述第二累积占比与所述第二累积占比信息相匹配。

所述占比信息,也可以是指累计占比信息,可以包括数据分箱左端点对应的第一累计占比信息,以及右端点对应的第二累计占比信息。累计占比可以指,小于某一端点对应的特征值的数据在所述目标场景数据集中的占比。

为更清楚的说明,继续以上述图2所示的内容为例,假设源场景数据中只包含大于10岁的数据,第一个第一数据分箱为从大于10岁至小于或等于16岁年龄段的数据分箱,其占比信息可以包括左端点对应的第一累计占比信息,以及右端点对应的第二累计占比信息,具体可以对应的表示为第一累计占比为0,第二累计占比为20%;第二个第一数据分箱为从大于16岁至小于或等于20岁年龄段的数据分箱,对应的第一累计占比为20%,第二累计占比为45%;第三个第一数据分箱为从大于20岁至小于或等于24岁年龄段的数据分箱,对应的第一累计占比为45%,第二累计占比为70%;第四个第一数据分箱为从大于24岁至小于或等于30岁年龄段的数据分箱,对应的第一累计占比为70%,第二累计占比为85%;第五个第一数据分箱为从大于30岁至小于或等于40岁年龄段的数据分箱,对应的第一累计占比为85%,第二累计占比为100%。同理,可以按照设定顺序,依次增加第二数据分箱的右端点在年龄值,直至小于所述右端点对应的年龄值在目标场景数据集中的占比为第二累积占比,从而确定第二数据分箱的情况。其中,所述设定顺序可以根据实际需求进行设定,例如降序、降序等,这不作具体限定。

本说明书实施例中可以适用于多种场合,所述第二特征维度的特征值,具体可以包括:用户购买力的值。

为提高模型迁移的准确性,本说明书实施例中所述的方法,还可以包括:

确定所述源场景数据集的数据个数;

从目标场景的原始数据集中,选取所述数据个数的数据构成所述目标场景数据集。

将目标场景与源场景设定为包含相同数量数据的数据集,可提高目标场景与源场景的相似度,进而可以提高模型迁移的准确性。

在实际应用中,利用离散化处理的特征构建的模型,可以使模型更稳定,可以降低模型过拟合的风险。数据分箱,可以包括卡方分箱、等距分箱、等频分箱以及自定义分箱等等,可以根据实际需求选择合适的分箱方式,可以单独选择一种分箱方式,也可以选择使用多种方式。

其中,等距分箱可以是从最小值a到最大值b之间,均分为m等份,每个区间长度w=(b-a)/m,则区间边界值为a+w,a+2w,…,a+(m-1)w,其中可以只考虑边界,每个等份里面的实例数量可能不等。

等频分箱中区间的边界值要经过选择,使得每个区间包含大致相等的实例数量,如m=10,可以表示每个区间应该包含大约10%的实例。

本说明书实施例所述的方法,还可以包括:

对所述目标场景数据集的数据基于所述第一特征维度进行等频分箱,得到n个数据分箱;

所述在目标场景数据集中基于所述第一特征维度确定与所述占比相匹配的第二数据分箱,具体包括:

从所述n个数据分箱中,确定所述第二数据分箱的对应的起始数据分箱;

以所述起始数据分箱为基准,依次累加后续的数据分箱,得到数据分箱集合,计算所述数据分箱集合中包含的数据在所述目标场景集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于第二预设阈值;

合并所述数据分箱集合中的数据分箱,得到所述第二数据分箱。

为提高计算效率,在实际应用中,可以将目标场景数据集的数据基于第一特征维度进行等频分箱,通过将分箱后的数据进行累加得到第二数据分箱。

本说明书实施例中第二特征维度还可以包括购买力,购买力(purchasingpower)可以指在一定时期内对于商品的购买能力指数。其中,购买能力指数可以是指按照一定的评估方法计算出的表示用户购买能力的指标。

为更清楚的说明本说明书实施例中内容,以第一特征维度为年龄,第二特征维度为对某物品的购买力进行说明。图4为一种源场景的数据分箱的示意图,图5为基于图4的源场景得到的一种目标场景的数据分箱示意图。

如图4所示,假设图4为某平台中某一产品的购买力与用户人群年龄的关系图,其中用户可以是此平台的注册用户,在进行注册时,可以填写用户资料,例如年龄、学历、收入、住址等信息。在实际应用中,可以将用户按照年龄从小到大排序,每10岁的数据划分为一个分箱,假设年龄在大于10岁且小于或等于20岁的占比为0.15,对应的购买力为10;年龄在大于20岁且小于或等于30岁的占比为0.45,对应的购买力为45;年龄在大于30岁且小于或等于40岁的占比为0.3,对应的购买力为60;年龄在大于40岁且小于或等于50岁的占比为0.05,对应的购买力为30;年龄在大于50岁且小于或等于60岁的占比为0.03,对应的购买力为10;年龄在大于60岁且小于或等于70岁的占比为0.02,对应的购买力为5;70岁以上的占比为0,可以不进行计算。相应的这些分箱的占比信息也可以理解为对应年龄在10至20岁的第一个分箱的累计占比为0.15,也可以表示为(0,0.15];对应年龄在20至30岁的第二个分箱的累计占比为0.6,也可以表示为(0.15,0.6];对应年龄在30至40岁的第三个分箱的累计占比为0.9,也可以表示为(0.6,0.9];对应年龄在40至50岁的第四个分箱的累计占比为0.95,也可以表示为(0.9,0.95];对应年龄在50至60岁的第五个分箱的累计占比为0.98,也可以表示为(0.95,0.98];对应年龄在60至70岁的第六个分箱的累计占比为1,也可以表示为(0.98,1.00]。

假设某平台推出了一款新产品或业务,此产品或业务对应的用户年龄与购买力的分布趋势与图4中源场景相似,只是针对的主要群体在年龄上可能有些差距,可以利用图4中的存在的大量已知数据构建模型,利用模型迁移获得可应用于新产品的模型,其中在获得了上述源场景数据集的基于第一特征维度,即年龄的第一数据分箱的数据在所述源场景数据集中的占比信息后,可以将目标场景数据集的数据基于第一特征维度(年龄)进行等频分箱,得到n个数据分箱,其中,n为大于0的自然数;假设n=100,将目标场景数据集的数据基于年龄等频分为100个原始分箱,即每个原始分箱中的数据占目标场景数据集的1%,假设目标场景的用户是从16岁开始的用户(包括16岁),可以将16岁对应的分箱确定为第二数据分箱的对应的起始数据分箱,然后按照年龄的增长方向开始依次累加后续的数据分箱,由于目标场景中每个分箱中的数据占目标场景数据集的1%,要达到源场景第一个数据分箱的占比0.15,也就是使目标场景的第一个数据分箱的数据达到目标场景数据集的15%,可以将15个占比1%的原始分箱合并累加,假设第15个原始分箱对应的是22岁,则可以得到目标场景的第一个数据分箱为(含)16岁至(含)22岁的年龄段,进而可以确定其对应的购买力为10;然后继续确定与源场景第二个数据分箱对应的目标场景的第二个数据分箱,具体可以包括,继续第16个原始分箱开始合并累加,由于源场景第二个数据分箱的占比0.45,可以从第16个原始分箱开始的45个占比1%的原始分箱合并累加,也就是可以把第16个至第60个原始分箱合并累加得到占比为0.45的第二个数据分箱,假设第60个原始分箱对应的年龄为35岁,则可以得到目标场景的第二个数据分箱为(含)23岁至(含)35岁的年龄段,进而可以确定其对应的购买力为45;依次类推,可以计算得到与4中所示的第一数据分箱对应的第二数据分箱,最终可以得到图5中所示的适用于目标场景的年龄与购买力关系示意图。需要说明的是,当n取值为100,即等频划分100个分箱后,后续在进行分箱取值范围的合并计算过程时,就可以以分箱为单位进行合并后占比的计算,因为每个原始分箱内的数据占比已经是目标场景数据集的1%,计算效率更高。

需要说明的是,本说明书实施例中n的取值可以为任一符合需求的数值,上述仅是为了更清楚的说明本说明书实施例的原理进行的举例说明,在实际应用中,可以任意选择合适的第一特征维度、第二特征维度、预设阈值、设定顺序等内容,只要能够满足实际需求即可,这里可以不作具体限定。

基于图1所示的基于模型迁移的特征值确定方法,本说明书实施例还对应提供了一种基于模型迁移的特征值确定装置,如图6所示,所述装置可以包括:

占比信息获取模块600,用于获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;

占比匹配模块602,用于在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;

特征值获取模块604,用于获取所述第一数据分箱的数据在第二特征维度的特征值;

特征值确定模块606,用于将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。

其中,所述占比匹配模块602,具体可以用于:

确定所述第二数据分箱的左端点在所述第一特征维度对应的起始特征值;

在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱包含的所述第一特征维度的特征值,计算所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于预设阈值;

将所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值小于或等于第一预设阈值时,所述第二数据分箱包含的所述第一特征维度的全部特征值确定为所述第二数据分箱的分箱取值范围。

其中,所述占比信息具体可以包括所述第一数据分箱的左端点对应的第一累计占比信息,以及所述第一数据分箱的右端点对应的第二累计占比信息,所述占比匹配模块602,具体可以用于:

确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值;在所述第一特征维度,小于所述起始特征值的数据在所述目标场景数据集中的占比为第一累积占比;所述第一累积占比与所述第一累积占比信息相匹配;

在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱的右端点在所述第一特征维度对应的特征值,直至小于所述右端点对应的特征值的数据在所述目标场景数据集中的占比为第二累积占比;所述第二累积占比与所述第二累积占比信息相匹配。

本说明书实施例中所述装置,还可以包括数据选取模块,用于:

确定所述源场景数据集的数据个数;

从目标场景的原始数据集中,选取所述数据个数的数据构成所述目标场景数据集。

本说明书实施例中所述装置,还可以包括等频分箱模块,用于:

对所述目标场景数据集的数据基于所述第一特征维度进行等频分箱,得到n个数据分箱;

所述占比匹配模块602,具体可以用于:

从所述n个数据分箱中,确定所述第二数据分箱的对应的起始数据分箱;

以所述起始数据分箱为基准,依次累加后续的数据分箱,得到数据分箱集合,计算所述数据分箱集合中包含的数据在所述目标场景集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于第二预设阈值;

合并所述数据分箱集合中的数据分箱,得到所述第二数据分箱。

基于图1所示的基于模型迁移的特征值确定方法,本说明书实施例还对应提供了一种基于模型迁移的特征值确定设备,如图7所示,该设备700,可以包括:

至少一个处理器710;以及,

与所述至少一个处理器710通信连接的存储器730;其中,

所述存储器730存储有可被所述至少一个处理器执行的指令720,所述指令720被所述至少一个处理器710执行,以使所述至少一个处理器710能够:

获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;

在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;

获取所述第一数据分箱的数据在第二特征维度的特征值;

将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图3所示的电子券发送设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字符多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1