联合建模方法、设备及介质与流程

文档序号:21368548发布日期:2020-07-04 04:44阅读:941来源:国知局
联合建模方法、设备及介质与流程

本发明涉及数据处理领域,尤其涉及一种联合建模方法、设备及介质。



背景技术:

在数据建模时,由于业务方的客群信息维度不全或者建模能力不足,通常需要联合他方数据维度进行建模。例如基于银行的联合建模,银行主要以央行征信、用户流水等作为数据源,缺乏用户其他行业的行为数据,通常需要联合第三方数据进行建模。

在传统的联合建模场景下,一般由业务方提供包含实际数据的样本,再由建模方根据样本完成建模,即:1)由业务方挑选样本数据,直接将样本数据明细提供给专家建模团队;2)专家建模团队根据样本数据挑选特征后,进行建模调优;3)业务方对模型效果进行确认后,部署模型。但是传统的联合建模方法存在以下缺点:因为业务方提供的样本数据通常为用户隐私数据或公司保密数据,通过这种联合建模方式,存在造成业务方敏感数据泄露的缺陷,使得信息安全面临严重威胁。且直接包含用户信息的数据提供给他方平台时需要用户授权,导致部分没有授权的数据信息无法被模型获取,影响最终建模效果。



技术实现要素:

为了克服现有技术的不足,本发明的目的之一在于提供一种联合建模方法,旨在解决因业务方直接提供样本进行建模而导致的敏感数据泄露的问题。

本发明的目的之一采用以下技术方案实现:

一种联合建模方法,包括以下步骤:

发送行为样本数据集,所述行为样本数据集中的行为样本包括身份识别信息以及所述身份识别对应的行为特征;

接收对所述行为样本数据集的处理结果,所述处理结果包括:分组规则、通过比对用户偏好样本数据集得到的每个用户组的匹配率和正样本占比,其中根据所述分组规则对所述行为样本数据集进行分组处理得到所述每个用户组和所述每个用户组的组编号;

根据所述分组规则对所述行为样本数据集进行分组处理,并根据所述每个用户组的匹配率和正样本占比对每个用户组进行标注,根据标注后的用户组进行建模;

其中,所述每个用户组的匹配率=每个用户组中匹配成功的行为样本的数量/每个用户组中所有行为样本的数量,所述每个用户组中匹配成功的行为样本为:与用户偏好样本集中的偏好样本具有相同身份识别信息的行为样本;

所述每个用户组的正样本占比=所述每个用户组中匹配成功的行为样本发生预设目标行为的数量/所述每个用户组中匹配成功的行为样本的数量。

进一步地,发送行为样本数据集,包括:

获取行为样本数据集,所述行为样本数据集中的行为样本包括身份识别信息以及所述身份识别信息对应的行为特征;

对所述行为样本数据集进行预处理,得到脱敏后的行为样本数据集;

发送所述脱敏后的行为样本数据集

进一步地,对所述行为样本数据集进行脱敏处理,得到脱敏后的行为样本数据集,包括:

对所述行为特征的特征名进行编码处理,包括:随机为所述行为特征的特征名赋予唯一标识,存储所述唯一标识和所述特征名的映射关系。

进一步地,对所述行为样本数据集进行预处理,还包括:

对所述行为样本数据集中的连续型的行为特征进行离散化处理,包括:对所述连续型的行为特征进行等频分箱或等距分箱或聚类。

进一步地,接收对所述行为样本数据集的处理结果,所述处理结果还包括:根据所述分组规则对所述行为样本数据集进行分组处理得到的若干用户组;

根据所述每个用户组的匹配率和正样本占比对所述若干用户组进行标注,根据标注后的用户组进行建模。

进一步地,根据所述分组规则对所述行为样本数据集进行分组处理,具体包括以下步骤:

根据预设目标特征,将所述行为样本数据集中特征值相同的行为样本归为一组,删除不符合预设要求的用户组后,根据预设编号规则为每个用户组编号,得到每个用户组的组编号;

或,

根据预设目标特征,将所述行为样本数据集中特征相同的行为样本归为一组,根据所述预设编号规则为每个用户组编号,得到每个用户组的组编号,删除不符合预设要求的用户组;

根据所述每个用户组的组编号匹配接收的所述每个用户组的匹配率和正样本占比。

进一步地,通过比对用户偏好样本数据集得到每个用户组的匹配率和正样本占比,包括:

将所述用户偏好样本数据集中的偏好样本与所述每个用户组中的行为样本进行比对,若偏好样本的身份识别信息与行为样本的身份识别信息相同,则判定匹配成功,否则判定匹配失败,计算每个用户组中匹配成功的行为样本的数量与用户组中所有行为样本的数量之比,得到每个用户组的匹配率;

将匹配成功的行为样本中发生预设目标行为的样本标记为正样本,计算每个用户组的正样本占比。

进一步地,根据所述每个用户组的匹配率和正样本占比对每个用户组进行标注,根据标注后的用户组进行建模,包括:

根据所述每个用户组的匹配率,删除匹配率小于预设阈值的用户组;

根据所述每个用户组的正样本占比分别标注每个用户组,将标注后的用户组输入建模模型进行建模;其中,所述建模模型包括xgb分类模型;

根据所述每个用户组的正样本占比分别标注每个用户组,包括:

根据所述每个用户组的正样本占比,分别在每个用户组中抽取相应数量的行为样本标注为正样本,剩余的行为样本标注为负样本;

或;

将所述每个用户组的正样本占比作为每个用户组中所有行为样本的标签值。

本发明的目的之二在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的联合建模方法。

本发明的目的之三在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的联合建模方法。

相比现有技术,本发明的有益效果在于:

根据提供的行为样本数据集,增加了建模的样本维度,将行为样本数据集分为若干用户组再进行处理,实现了用户信息的模糊处理,降低了直接将用户信息还原到具体用户的概率,从而降低用户信息暴露的风险,实现用户信息脱敏。根据行为样本和偏好样本进行匹配和正样本标记,整个过程不直接传输偏好样本数据,仅根据匹配结果和正样本占比,即能进行样本标注和建模,既能保证建模时获取到完整的数据信息,又能保证数据安全,降低敏感数据的泄露风险。

附图说明

图1是本发明联合建模方法的流程图;

图2是本发明较佳实施例的联合建模方法流程图;

图3是实施例3的电子设备的结构框图。

具体实施方式

以下将结合附图,对本发明进行更为详细的描述,需要说明的是,以下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。

实施例1

本实施例提供了一种联合建模方法,旨在实现联合建模的同时,保护业务方数据安全。具体地:通过建模方提供行为样本数据,增加建模的数据维度,建模方将提供的行为样本数据发送给业务方进行特征挑选,并基于挑选的行为特征进行行为样本数据分组,使得具有相同特征的用户被分到同一组,以用户组的形式计算业务方样本与建模方样本的匹配率和正样本占比,使得建模方通过相同的分组规则将行为样本数据进行分组后,根据匹配率和正样本进行建模,整个建模过程不直接涉及具体用户信息的处理,业务方也不用向建模方提供自身的用户偏好数据,能降低直接将用户信息还原到具体用户的概率,起到数据降敏的作用,从而降低建模过程中的敏感数据泄露的风险。

根据上述原理,对联合建模方法进行介绍,如图1所示,联合建模方法,具体包括以下步骤:

发送行为样本数据集,所述行为样本数据集中的行为样本包括身份识别信息以及所述身份识别信息对应的行为特征;

接收对所述行为样本数据集的处理结果,所述处理结果包括:分组规则、通过比对用户偏好样本数据集得到的每个用户组的匹配率和正样本占比,其中根据所述分组规则对所述行为样本数据集进行分组处理得到所述每个用户组和所述每个用户组的组编号;根据所述分组规则对所述行为样本数据集进行分组处理,并根据所述每个用户组的匹配率和正样本占比对每个用户组进行标注,根据标注后的用户组进行建模;

其中,所述每个用户组的匹配率=每个用户组中匹配成功的行为样本的数量/每个用户组中所有行为样本的数量,所述每个用户组中匹配成功的行为样本为:与用户偏好样本集中的偏好样本具有相同身份识别信息的行为样本;

所述每个用户组的正样本占比=所述每个用户组中匹配成功的行为样本发生预设目标行为的数量/所述每个用户组中匹配成功的行为样本的数量。

需要注意的是,本实施例所述的联合建模方法由建模方执行,建模方发送行为样本数据集至业务方,并接收业务方返回的处理结果。建模方为具备建模能力且具备多维度数据提供能力的第三方,业务方为提供特定业务给用户的且具有数据分析需求的平台或机构,如银行、券商等,且本实施例所述的建模方与业务方作为执行主体时,表示建模方和业务方采用自动化软件或编程软件执行上述各步骤。建模方和业务方采用相同的分组规则对行为样本数据集进行分组处理,得到相同的用户组和组编号,使得业务方采用自身的用户偏好样本数据与用户组(包括若干行为数据)进行比对而得到的匹配率和正样本占比,能根据组编号一一对应建模方分组处理后的用户组,建模方不用获取或直接处理业务方的数据也能得到用户偏好信息,从而通过偏好信息和行为信息完成建模,不仅能保证模型效果,还能保证业务方的数据安全。

优选地,如图2所示,在本发明的较佳实施例中,建模方发送行为样本数据集之前,还包括以下处理步骤:

获取行为样本数据集,所述行为样本数据集中的行为样本包括身份识别信息以及所述身份识别信息对应的行为特征;

对所述行为样本数据集进行预处理,得到脱敏后的行为样本数据集;

发送所述脱敏后的行为样本数据集。

通过对发送至业务方的行为样本数据集进行脱敏,使得业务方后续处理的行为样本数据集为脱敏后的行为样本数据集,既能保证增加样本维度又能减低敏感信息的泄露风险,使得业务方不能根据建模方行为样本数据集,直接获取具体的行为特征,能保护用户的隐私,避免用户信息泄露。优选地,建模方对所述行为样本数据集进行脱敏处理,得到脱敏后的行为样本数据集,包括:对所述行为样本数据集中的连续型的行为特征进行离散化处理;对所述行为特征的特征名进行编码处理。

优选地,在本发明的其中一个实施例中,若行为样本数据集中包含连续型的行为特征,在对行为样本数据集进行预处理时,建模方会对所述行为样本数据集中的连续型的行为特征进行离散化处理,包括:对所述连续型的行为特征进行等距分箱处理;

其中,所述连续型的行为特征为年龄等具有连续值的行为特征,对连续型的行为特征进行离散化处理,能增加数据的鲁棒性,避免对异常数值对模型构建的干扰。具体地,本实施例采用等距分箱对连续型的行为特征进行离散化处理,在此对等距分箱的原理进行介绍:将连续型的行为特征从最小特征值到最大特征值之间均分为n等分。假设a为最大特征值,b为最小特征值,则每个分箱(区间)的长度w=(b−a)/n;则分箱的的边界值为a+w、a+2w、……a+(n-1)w。需要注意的是,上述等距分箱处理得到每个分箱的特征值数量可能不等。

在本发明的另一实施例中,也可采用等频分箱对连续型的行为特征进行离散化处理,实现将连续型的行为特征根据设定的分箱数进行等频划分,使得每个分箱包含特征值数量相同。

在本发明的其他实施例中,还可以采用卡方分箱、聚类算法等方式进行连续型的行为特征进行离散化处理,因卡方分箱和聚类算法的处理过程为本领域的公知常识,在此不再赘述。

需要注意的是,若所述行为样本数据集中不包括连续型的行为特征时,则不需要进行离散化处理,只需对特征名进行编码处理,以实现脱敏。

优选地,建模方对所述行为特征的特征名进行编码处理,包括:随机为所述行为特征的特征名赋予唯一标识,保存所述唯一标识和所述特征名的映射关系。所述唯一标识为数字标识或字母标识,用唯一标识编码特征名,实现样本脱敏,使得建模方将行为样本发送至业务方时,业务方不会通过特征名直接获知建模方提供的具体行为特征,能保护用户的隐私,避免用户信息泄露。

优选地,接收对所述行为样本数据集的处理结果;所述处理过程在本实施例中由业务方执行,处理结果由由业务方返回,业务方对所述行为样本数据集进行处理,具体包括以下步骤:

根据预设目标特征,将所述行为样本数据集中特征值相同的行为样本归为一组,删除不符合预设要求的用户组后根据预设编号规则为每个用户组编号;

业务方将所述用户偏好样本数据集中的偏好样本与所述每个用户组中的行为样本进行比对,若偏好样本的身份识别信息与行为样本的身份识别信息相同,则判定匹配成功,否则判定匹配失败,计算每个用户组中匹配成功的行为样本的数量与用户组中所有行为样本的数量之比,得到每个用户组的匹配率;

将匹配成功的行为样本中发生预设目标行为的样本标记为正样本,计算每个用户组的正样本占比。

上述比对过程基于行为样本和偏好样本的身份识别信息进行,若偏好样本的身份识别信息与某一个用户组中的行为样本的身份识别信息,即判定匹配成功,统计每个用户组匹配成功的行为样本数量,计算匹配率。例如,某一个用户组总的行为样本数据为100条,匹配成功的行为样本数据为50条,则该用户组的匹配率为50%。

计算正样本占比时,在每个用户组中,将匹配成功的的行为样本的行为特征与预设目标行为进行比对,若匹配成功(表示用户发生预设目标行为),则标记为正样本,计算正样本占比。例如:在匹配成功的50条行为样本中,与目标行为匹配的样本为40,则正样本占比为80%。

需要注意的是,经业务方处理后得到的每个用户组的匹配率和正样本占比,与每个用户组的组编号对应,使得建模方根据相同的分组规则完成分组后,能根据组编号,为每个用户组匹配对应的匹配率和正样本占比。

在本实施例中,所述预设目标特征,由业务方对行为样本数据集进行特征筛选得到,具体可通过xgb模型筛选行为样本中的所述行为特征,在此,对所述xgb模型的算法思想进行介绍:xgb模型将行为特征不断分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当通过xgb模型训练完成得到k棵树,那么预测一个行为样本的分数,其实就是根据这个行为样本的行为特征,在每棵树中落到的对应叶子节点(每个叶子节点就对应一个分数),去将每棵树对应的叶子节点的分数加起来就是该行为样本的预测值。根据行为样本的预测值,去确定目标行为特征。

在本发明的其他实施中,所述预设目标特征,还可根据行为特征的iv值筛选得到,具体为:计算行为样本数据集中的每个行为特征的iv值,根据iv值,确定目标行为特征。特征的iv值计算为本领域常用的特征信息计算方法,在此不在赘述。

根据xgb模型的预测值或iv值确定预设目标特征的规则,可根据实际情况定义,不影响本发明联合建模方法的实现,因此不作限定。因此,在其他实施例中,所述预设目标特征,也可预先由业务方直接确定。

需要注意的是,上述分组规则包括预设目标规则、预设要求和预设编号规则。

在此举例说明根据预设目标特征进行分组的过程:例如预设目标特征为年龄,则根据年龄的具体数值,将所述脱敏后的行为样本数据集按照年龄划分为若干用户组,该每个用户组包括年龄相同的用户的行为样本。

在本实施例中,所述预设要求为用户数较少的组与易暴露用户信息的组,在实际应用中,也可根据具体情况设置预设要求,例如预设要求:用户组中的用户数大于5。所述编号规则在本实施中采用从0开始顺序标号,在其他实施例中也可以采用其他编号规则,只要保证业务方和建模采用同样的编号规则进行用户组编号即可,从而建模方能将业务方提供每个用户组的匹配率和正样本占比对应到正确的用户组。

优选地,建模方接收业务防返回的处理结果后,根据所述分组规则(与业务方相同的分组规则)对所述行为样本数据集进行分组处理,包括:

根据所述预设目标特征,将所述脱敏后的行为样本数据集中特征值相同的行为样本归为一组,删除不符合预设要求的用户组后,根据所述预设编号规则为每个用户组编号,得到每个用户组的组编号;

根据所述每个用户组的组编号匹配接收的所述每个用户组的匹配率和正样本占比。

优选地,在本发明的其他实施例中,业务方根据分组规则对所述行为样本数据集进行分组处理,所述分组规则为:根据预设目标特征,将所述行为样本数据集中特征相同的行为样本归为一组,根据所述预设编号规则对每个用户进行编号,得到每个用户组的组编号,再删除不符合预设要求的用户组,将符合预设要求的用户组的组编号同所述分组规则一起发送至建模方,由建模方根据所述分组规则对行为样本数据集进行分组处理,即根据所述预设目标特征,将所述行为样本数据集中特征值相同的行为样本归为一组,删除不符合预设要求的用户组后,根据接收的所述组编号为符合要求的用户组匹配组编号。

根据匹配到的组编号,匹配组编号对应用户组的匹配率和正样本占比,即可根据每个用户组的匹配率和正样本占比进行建模。

优选地,根据所述每个用户组的匹配率和正样本占比对每个用户组进行标注,根据标注后的用户组进行建模,包括:

根据每个用户组的匹配率,删除匹配率小于预设阈值的用户组;

根据每个用户组的正样本占比分别标注每个用户组,将标注后的用户组输入建模模型进行建模。

本实施例的所述预设阈值为0.2,因此在建模前会删除匹配率小于0.2的用户组,再根据正样本占比对删除后的用户组进行标注。需要说明的是,所述预设阈值可根据实际情况确定,不会影响本发明联合建模方法的实现,在此不作限定,因此在其他实施例中也可不设定阈值,即不进行用户组筛选直接进行标注建模,仅会影响建模效果。

其中,在本实施例中采用的建模模型为xgb分类模型,当然在本发明的其他实施例中可以采用其他成熟的分类模型或预测模型实现模型构建和模型优化,例如deepfm模型、lgb模型、lr模型等。

优选地,根据每个用户组的正样本占比分别标注每个用户组,包括:

根据每个用户组的正样本占比,分别在每个用户组中抽取相应数量的行为样本标注为正样本,剩余的行为样本标注为负样本。例如某一个用户组的正样本占比为80%,则随机抽取该用户组80%的行为样本标注为正样本,赋予标签值为1,该用户组的剩余样本赋予标签值为0。

优选地,在本发明的其中一个实施例中,根据每个用户组的正样本占比分别标注每个用户组,具体为:将每个用户组的正样本占比作为每个用户组中所有行为样本的标签值。例如某一个用户组的正样本占比为80%,则赋予该用户组的所有行为样本的标签值为0.8。

优选地,根据所述每个用户组的匹配率和正样本占比进行建模时,还包括:根据筛选条件删除对建模存在干扰的用户组。该预设是筛选条件根据实际情况设置,删除干扰的用户组,有助于提高建模效果,但是并不影响前期的联合建模过程,在此不作限定。

实施例2

本实施例与实施例1的区别在于,接收对所述行为样本数据集的处理结果,所述处理结果包括:分组规则、根据所述分组规则对所述行为样本数据集进行分组处理得到的若干用户组以及通过比对用户偏好样本数据集得到的每个用户组的匹配率和正样本占比;

根据所述每个用户组的匹配率和正样本占比对每个用户组进行标注,根据标注后的用户组进行建模。

本实施例与实施例1实现相同的技术效果,只是传输的处理结果有所差异,本实施例通过将根据分组规则分组处理得到用户组也一并作为处理结果传输,使得建模方接收到处理结果之后,不用再次进行分组处理,根据接收到的处理结果,即可以得到用户组和用户组对应的匹配率和正样本占比,从而进行后续标注和建模。

实施例3

图3为本发明实施例3提供的一种电子设备的结构示意图,如图3所示,该电子设备包括处理器210、存储器220、输入装置230和输出装置240;计算机设备中处理器210的数量可以是一个或多个,图3中以一个处理器210为例;电子设备中的处理器210、存储器220、输入装置230和输出装置240可以通过总线或其他方式连接,图3中以通过总线连接为例。

存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的联合建模方法对应的程序指令/模块。处理器210通过运行存储在存储器220中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现实施例1的联合建模方法。

存储器220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器220可进一步包括相对于处理器210远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置230可接收发送或输入的分组规则、每个分组的匹配率等。输出装置240可包括显示屏等显示设备。

实施例4

本发明实施例4还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现联合建模方法,该方法包括:

获取行为样本数据集,所述行为样本数据集中的行为样本包括身份识别信息以及所述身份识别信息对应的行为特征;

对所述行为样本数据集进行预处理,得到脱敏后的行为样本数据集;

将所述脱敏后的行为样本数据集发送至业务方,由业务方根据分组规则对所述脱敏后的行为样本数据集进行分组处理,得到若干用户组,并将用户偏好样本数据集与每个用户组进行比对,得到每个用户组的匹配率和正样本占比;

接收业务方返回的所述分组规则、所述每个用户组的匹配率和正样本占比;

根据所述分组规则对所述脱敏后的行为样本数据集进行分组处理,并根据所述每个用户组的匹配率和正样本占比对每个用户组进行标注,根据标注后的用户组进行建模。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的联合建模方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述联合建模方法或装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1