联邦学习分类树构建方法、模型构建方法,及终端设备与流程

文档序号:22546335发布日期:2020-10-17 02:16阅读:160来源:国知局
联邦学习分类树构建方法、模型构建方法,及终端设备与流程

本发明实施例涉及计算机技术领域,尤其涉及联邦学习分类树构建方法、模型构建方法,及终端设备。



背景技术:

随着机器学习技术的发展,越来越多的机器学习方法在金融、医疗等领域中得到了广泛的应用。在机器学习中,数据决定了模型效果的上限,为了进一步提高模型的准确性,聚合多方数据进行模型训练的联邦学习方法开始出现。

由于不同的公司可能掌握着同一批用户不同维度的特征,将不同的特征聚合起来,可以有效地提高机器学习的效果。纵向联邦学习的目标正是聚合多方不同维度的特征数据,在不泄露用户隐私的前提下,共享各方数据,协同训练模型。目前比较成熟的纵向联邦学习方案是fate开源框架中的secureboost方案,该方案是对xgboost模型的一种联邦训练方法。为了避免用户隐私泄露,secureboost方案中,数据提供方会将特征名称隐藏,使用特征的编号代替特征名称,防止业务方根据特征名称和背景知识对数据提供方的特征进行分析。

也正是由于数据提供方的特征名称都被隐藏处理,使得最终xgboost模型的可解释性受到了极大的影响。模型的可解释性在金融领域有着重要意义。如果模型缺乏可解释性,我们便无法直觉地判断模型是否抓住了有意义的特征,也无法得知模型在其他样本预测上的泛化能力如何,因此可能会使得模型预测结果受到质疑。



技术实现要素:

鉴于此,为解决现有技术中上述技术问题,本发明实施例提供联邦学习分类树构建方法、模型构建方法,及终端设备。

第一方面,本发明实施例提供一种联邦学习分类树构建方法,该方法由第一数据提供方执行,包括:

根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;

按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中第一子集为至少两组用户样本子集中的任一个子集;

根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;

对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后,与第二子集共同发送至第二数据提供方;

接收第二数据提供方反馈的第二加密梯度值之和,第二加密梯度值之和为第二数据提供方根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;

对第二加密梯度值之和进行一次解密后,与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;

接收第二数据提供方反馈的最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为第二数据提供方根据第一加密梯度值之和,以及第二加密梯度值之和,确定的信息;

根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类,形成联邦学习分类树的分支节点;

直至达到预设分类要求时,根据所有分支节点,构建联邦学习分类树。

在一个可能的实施方式中,第一分类特征、第一分类阈值、第二分类特征,以及第二分类阈值的数量均包括一个或多个。

在一个可能的实施方式中,按照预设规则,对至少两组用户样本子集中的第一子集中添加混淆用户样本,获取经过混淆后的第二子集,具体包括:

当第一子集中用户样本数量低于预设阈值时,从用户样本集合中选择部分用户样本作为混淆用户样本,加入到第一子集中,获取第二子集;

或者,当第一子集中用户样本数量高于预设阈值时,将用户样本集合中除第一子集外的所有用户样本作为混淆用户样本,加入到第一子集中,获取第二子集。

在一个可能的实施方式中,第一子集中用户样本对应的一次加密梯度值为:根据第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值;混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。

在一个可能的实施方式中,当前构建的分类树为第t棵树,且t大于1时,第一子集中每一个用户样本对应的一次加密梯度值为根据第一子集中每一个用户样本对应的实际标签,以及在第t-1棵树中的预测标签计算得出的,且为第一数据提供方和第二数据提供方共同计算得出;

或者,当t=1时,第一子集中的每一个用户样本对应的一次加密梯度值为第二数据提供方根据第一子集中每一个用户样本对应的实际标签计算得出。

第二方面,本发明实施例提供一种联邦学习分类树构建方法,该方法由第二数据提供方执行,包括:

接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值;

根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值,计算相应的梯度值之和后,进行加密得到第二加密梯度值之和;

将第二加密梯度值之和反馈至第一数据提供方;

接收第一数据提供方反馈的第一加密梯度值之和、第一分类特征的信息、第一分类阈值的信息,以及经过一次解密的后的第二加密梯度值之和;

根据第一数据提供方反馈的第一加密梯度值之和计算第一增益信息;

根据经过一次解密的后的第二加密梯度值之和计算第二增益信息;

从第一增益信息和第二增益信息中,确定最大的增益信息;

根据最大的增益信息,从述第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息;

将最优分类特征的信息以及最优分类阈值的信息反馈至第一数据提供方。

第三方面,本发明实施例提供一种联邦学习分类模型构建方法,该方法包括:

根据至少一棵如第一方面任一实施方式构建的联邦分类树,组成联邦分类模型。

第四方面,本发明实施例提供一种联邦学习分类树构建装置,该装置包括:

分类单元,用于根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;

获取单元,用于按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中第一子集为至少两组用户样本子集中的任一个子集;

处理单元,用于根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;

对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密;

发送单元,用于将第二子集中每一个用户样本分别对应的,经过二次加密后的梯度值,以及第二子集共同发送至第二数据提供方;

接收单元,用于接收第二数据提供方反馈的第二加密梯度值之和,第二加密梯度值之和为第二数据提供方根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;

处理单元还用于,对第二加密梯度值之和进行一次解密;

发送单元还用于,将经过一次解密后的第二加密梯度值之和、第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;

接收单元还用于,接收第二数据提供方反馈的最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为第二数据提供方根据第一加密梯度值之和,以及第二加密梯度值之和,确定的信息;

分类单元还用于,根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类,形成联邦学习分类树的分支节点;

构建单元,用于根据所有分支节点,构建联邦学习分类树。

第五方面,本发明实施例提供一种联邦学习分类树构建装置,该装置包括:

接收单元,用于接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值;

处理单元,用于根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值,计算相应的梯度值之和后,进行加密得到第二加密梯度值之和;

发送单元,用于将第二加密梯度值之和反馈至第一数据提供方;

接收单元,用于接收第一数据提供方反馈的第一加密梯度值之和、第一分类特征的信息、第一分类阈值的信息,以及经过一次解密的后的第二加密梯度值之和;

处理单元还用于,根据第一数据提供方反馈的第一加密梯度值之和计算第一增益信息;

根据经过一次解密的后的第二加密梯度值之和计算第二增益信息;

从第一增益信息和第二增益信息中,确定最大的增益信息;

根据最大的增益信息,从述第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息;

发送单元还用于,将最优分类特征的信息以及最优分类阈值的信息反馈至第一数据提供方。

第六方面,本发明实施例提供一种终端设备,该终端设备包括:至少一个处理器和存储器;处理器用于执行存储器中存储的联邦学习分类树构建程序,以实现如第一方面任一实施方式所介绍的联邦学习分类树构建方法,或者执行如第三方面所介绍的联邦学习分类模型构建方法。

第七方面,本发明实施例提供一种终端设备,该终端设备包括:至少一个处理器和存储器;

处理器用于执行存储器中存储的联邦学习分类树构建程序,以实现第二方面所介绍的联邦学习分类树构建方法。

第八方面,本发明实施例提供一种计算机存储介质,该计算机存储介质存储有一个或者多个程序,一个或者多个程序可被如第六方面所介绍的终端设备执行,以实现如第一方面任一实施方式所介绍的联邦学习分类树构建方法;或实现如第三方面所介绍的联邦学习分类模型构建方法。

第九方面,本发明实施例提供一种计算机存储介质,该计算机存储介质存储有一个或者多个程序,一个或者多个程序可被如第六方面所介绍的终端设备执行,以实现如第二方面所介绍的联邦学习分类树构建方法。

本发明实施例提供的一种联邦学习分类树构建方法,首先根据第一分类特征和第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取知识两组用户样本子集。然后,在第一子集中添加混淆用户,获取第二子集,防止第二数据提供方反推获取用户隐私情况。将第二加密子集中每一个用户对应的一次加密梯度值进行二次加密,同样是为了防止第二数据方获取用户隐私。根据第二子集中每一个用户对应的一次加密梯度值计算第一加密梯度值之和;将经过二次加密后的梯度值,以及第二子集共同发送至第二数据提供方,以便第二数据提供方可以在进行解密后,基于第二子集和第二子集中每一个用户样本对应的二次加密梯度值,根据自身一侧存储的第二特征和第二特征对应的第二分类阈值,计算第二加密梯度值之和;第二加密梯度值之和需要经过第一数据提供方进行一次解密,才能计算信息增益。

同样是防止第一数据方反推获取用户隐私,因此对第二加密梯度值之和进行加密后再反馈至第一数据提供方;第一数据提供方对第二加密梯度值之和进行一次解密后,与与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;以便第二数据提供方分别计算每一个特征、每一个特征对应的分类阈值,计算相应的增益信息,并最终确定最优分类特征的信息,以及最优分类阈值的信息,反馈至第一数据提供方。最终由第一数据提供方根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类形成联邦学习分类树的分支节点;根据所有分支节点,构建联邦学习分类树。

通过该种方式,不仅仅成功构建了联邦学习分类树,还防止了双方数据被对方窥探的情况发生。即不公开准确的用户子集,便可以避免用户数据隐私的泄露,同时通过公开特征的信息来提高模型的可解释性,解决了隐私与可解释性之间的矛盾。

附图说明

图1为本发明实施例提供的一种联邦学习分类树构建方法流程示意图;

图2为本发明实施例提供的另一种联邦学习分类树构建方法流程示意图;

图3为本发明实施例提供的第一数据方和第二数据方交互信令流程图;

图4为本发明实施例提供的一种联邦学习分类树构建装置结构示意图;

图5为本发明实施例提供的另一种联邦学习分类树构建装置结构示意图;

图6为本发明实施例提供一种终端设备结构示意图;

图7为本发明实施例提供另一种终端设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。

在介绍该方法步骤之前,首先要说明的是,第一数据提供方为提供数据的一方,其自身一侧存在与用户样本数据对应的特征,以及与特征对应的分类阈值。第二数据提供方为即提供数据,又提供用户真实标签的一方。第二数据提供方一侧同样存在与用户样本数据对应的特征,以及特征对应的分类阈值。区别在于,第一数据提供方一侧存储的特征与第二数据提供方一侧存储的特征不同,或者交集很小。

例如,第一数据提供方为某购物网站,第二数据提供方为某银行。第一数据提供方所能提供的数据包括某用户账号信息、消费记录等等,其存储的特征可能是与消费产品、消费记录等对应的特征,例如消费金额、消费类型等等特征,并配置相应的分类阈值。可选的,针对每一个特征,可以对应一个或多个分类阈值。第二数据提供方提供的数据包括用户身份信息、存储信息、借贷信息或者信用信息等等,那么存储的特征可以包括身份、年龄、性别、学历、财产等等,相应的针对每一个特征配置相应的分类阈值,同样的,每一个特征可以根据实际情况配置一个或多个分类阈值。而用户标签,则可以根据是实际情况设定,例如配置用户样本对应的信誉度标签,信誉度高的,标签值置为1,信誉度低的,标签值置为0。用户实际标签,将根据第二数据提供方一侧的实际情况自行配置。

图1为本发明实施例提供的一种联邦学习分类树构建方法流程示意图,如图1所示。该方法由第一数据提供方执行,包括:

步骤110,根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集。

具体的,假设用户样本集合中包括u1到u5等5个供用户样本。第一分类特征为年龄,为30岁,将当前用户样本集合进行分类后,获取至少两组用户样本子集包括{u1,u2}和{u3,u4,u5}。其中,{u1,u2}为年龄小于或者等于30岁的用户样本子集,{u3,u4,u5}为年龄大于30岁的用户样本子集。

步骤120,按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集。

具体的,考虑到后续计算需要将用户样本子集、第一分类特征以及第一分类阈值发送至第二数据方一侧,为防止第二数据方可以根据第一分类特征和第一分类阈值,实现反推确定用户隐私信息(起码可以获知用户年龄范围),因此需要按照预设规则,对第一子集中添加混淆用户样本。其中,第一子集是至少两组用户样本子集中的任一个子集。实际上,需要针对每一个子集分别执行下面的操作,以实现分别对每一个子集完成进一步的分类,构成分类树的一个分支节点。

在一个具体的例子中,假设第一子集是用户样本集合{u1,u2},那么可以在{u1,u2}中增加混淆用户样本,由此获取到经过混淆后的第二子集。

可选的,按照预设规则,对至少两组用户样本子集中的第一子集中添加混淆用户样本,获取经过混淆后的第二子集,具体包括:

当第一子集中用户样本数量低于预设阈值时,从用户样本集合中选择部分用户样本作为混淆用户样本,加入到第一子集中,获取第二子集;

或者,当第一子集中用户样本数量高于预设阈值时,将用户样本集合中除第一子集外的所有用户样本作为混淆用户样本,加入到第一子集中,获取第二子集。

在一个具体的例子中,假设全量用户的集合为u,当前节点对应的用户集合,即第一子集为s1,扩充混淆后的第二子集为sall,预设规则可以参见如下公式:

其中s2为从u-s1中随机选取的用户集合,且|s2|=|s1|。

如上例子中,当第一子集为{u1,u2}时,第二子集sall中则可以从u3到u5中随机选择两个用户样本加入到第一子集中,由此构成第二子集。比如第二子集为{u1,u2,u3,u5}。

步骤130,根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和。

实际上,在执行上述所有操作步骤之前,第一数据提供方已经获取到集合u中所有用户样本中每一个用户样本对应的一次加密梯度值了。

具体获取过程包括:当当前构建的联邦学习分类树为联邦学习模型中的首棵分类树时,每一个用户样本对应的梯度值均是根据用户样本对应真实标签计算得到的。具体的计算过程为现有技术,这里不做过多说明,计算执行主体为第二数据方。即,第一数据方会在执行上述操作之前,就获取到第二数据方反馈的与每一个用户样本对应的一次加密梯度值,之所以是加密的,同样是考虑到防止用户因此被泄露。

在另一种情况中,当当前构建的联邦学习分类树并非为首棵分类树时,每一个用户样本对应的梯度值则是根据用户样本对应的真实标签以及在前一棵树中用户样本对应的预测标签共同计算得到的。原因在于,第二数据提供方大多数情况下,不能直接获取到真实的用户样本和,其获取的是经过混淆后的用户样本集合,所以不能直接计算用户梯度值。因此,具体的执行主体则是包括第一数据提供方以及第二数据提供方。

具体计算一次加密梯度值的过程如下:

首先说明计算梯度值的公式包括如下公式:

其中,公式2中gi为第i个用户在第t棵树中对应的一阶梯度值;公式3中的hi则为第i个用户在第t棵树中对应的二阶梯度值;为第i个用户在第t-1棵树中的预测标签,yi为第i个用户的真实标签。

然后,说明计算用户样本预测标签的公式,参见如下:

其中,t为第棵树,xi为第i个用户,fk(xi)为第i个用户在第k棵树中的得分,k为大于或者等于1,小于或者等于t的正整数,为第i个用户在第t棵树中的预测标签。

通过上述公式,则可以获知构建的每一棵树对应的预测标签。因此,在构建当前树之前,首先可以获取每一个用户在当前构建的树之前的前一棵树中对应的预测标签。

假设当前构建的树就是第t棵树,那么前一棵树对应的预测标签即为

第一数据提供方可以计算出每个用户样本对应的的密文,从所有用户样本对应的的密文选出代表密文。不同用户样本对应的预测标签的密文可能相同。例如,如表1所示,

表1

从表1中可以看出,id分别为1、3、6的用户样本对应的预测标签均为0.8,id分别为2、4、7的用户样本对应的预测标签均为0.2,id为5的用户样本对应的预测标签均为0.7。可想而知,其对应的预测标签密文也就是包括3类,分别与0.2、0.7以及0.8对应。第一数据提供方只要将分别与0.2、0.7以及0.8对应密文反馈至第二数据提供方,以便由第二数据提供方对这些密文进行非线性计算后,得到的运算结果,以及所有用户样本分别对应的真实标签映射表(包括用户id和真实标签进行加密后形成的真实标签映射表)反馈至第一数据提供方。

此时,第一数据提供方再根据用户id,可以将每一个用户样本对应的预测标签以及每一个用户样本对应的真实标签(加密)建立一个映射关系。进而,根据这个映射关系,来分别计算第一子集中每一个用户样本对应的一阶加密梯度值和二阶加密梯度值(参见公式2和公式3),也即是上文中所介绍的一次加密梯度值。

在计算出第一子集中每一个用户样本对应的一次加密梯度值后,还需要确定混淆用户的一次加密梯度值。具体的,混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。在一个具体的例子中,为考虑到后续的计算精度,可以设定固定数值为0。也即是第一子集中用户样本对应的一次加密梯度值为:根据第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值;混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。

那么第一加密梯度值则为第一子集中所有样本用户对应的一次加密梯度值之和与0的和值。

通过上述轮数可知,当前构建的分类树为第t棵树,且t大于1时,第一子集中每一个用户样本对应的一次加密梯度值为根据第一子集中每一个用户样本对应的实际标签,以及在第t-1棵树中的预测标签计算得出的,且为第一数据提供方和第二数据提供方共同计算得出。

还需要说明的是,当t=1时,第一子集中的每一个用户样本对应的一次加密梯度值为第二数据提供方根据第一子集中每一个用户样本对应的实际标签计算得出。

步骤140,对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后,与第二子集共同发送至第二数据提供方。

具体的,具体的,由上述论述可知,第一子集对应的一次加密梯度值为第一子集中每一个用户对应的梯度值进行加密得到的,而混淆用户对应的一次加密梯度值实际就是对固定数值,例如0进行加密后得到的。如果这样直接发送至第二数据方,第二数据方自然可以根据规律分析出哪些用户是混淆用户,依然可以通过反推获取用户隐私。因此,在第一数据提供方一侧,还需要对第二子集中每一个用户样本分别对应的一次加密梯度值进行加密后,发送至第二数据提供方,同时发送的还包括第二子集。以便第二数据提供方可以根据自身一侧存储的第二分类特征,以及与第二分类特征对应的第二分类阈值,以及第二子集和第二子集中每一个用户样本分别对应的二次加密梯度值计算得到第二梯度值之和。具体计算过程参见下一实施例,这里不做过多说明。

步骤150,接收第二数据提供方反馈的第二加密梯度值之和。

步骤160,对第二加密梯度值之和进行一次解密后,与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方。

具体的,第一数据提供方在发送给第二数据提供方的第二子集中每一个用户样本分别对应梯度值进行了一次加密(上文提及的二次加密),而第二加密梯度值正式在该加密的密文基础上计算得到的。所以本次第一数据提供方需要对第二加密梯度值进行一次解密,然后再将经过本次解密后的第二加密梯度值之和,第一加密梯度值之和,第一分类特征的信息,以及第一分类阈值的信息,共同反馈至第二数据提供方。这里所说的第一分类特征的信息可以是第一分类特征本身对应的标识信息,例如名称或者相应的编号;类似的道理,第一分类阈值的信息可以是第一分类阈值的名称或者是相应的编号等。

具体的反馈上述信息的目的,就是为了第二数据方对上述内容进行解密后,可以直接计算增益信息。

具体的增益计算公式参见如下:

其中,lsplit为第h个特征,第h个特征的第i个阈值对应的增益信息,ihl代表用户样本根据第h个特征的第i个阈值,分配至左侧一组,ihl代表用户样本根据第h个特征的第i个阈值,分配至右侧一组,λ和γ均为预设正则项系数,防止模型过拟合。

需要说明的是,步骤110至步骤160仅仅是以第一数据提供方的一个特征对应的一个分类阈值为例对用户集合进行分类后,得到第一子集后,计算增益信息的过程,以及,简略说明了针对第二数据提供方的每一个特征分别对应的分类阈值针对第一子集,计算增益信息的过程。实际上,针对每一个特征对应的每一个分类阈值,都要执行上述过程,计算出相应的增益信息。第二数据提供方计算增益信息的过程同上述过程类似,都是首先计算出一阶梯度值和二阶梯度值,然后计算增益信息,为叙述简便,这里不再过多说明。即,假设第一数据提供方包括2个特征,每一个特征包括3个阈值,第二数据提供方包括3个特征,每一个特征包括一个阈值。那么,计算出的新增增益总数为2×3+3×1=9,也即是最终获取的增益信息为9个。然后,第二数据提供方需要从这9个增益信息中选取最大的增益信息,并确定最大的增益信息。

在一种情况中,如果最大的增益信息对应的是第一数据提供方提供的特征和相应的阈值,那么业务方所能获取到的就是最优分类特征的信息和最优分类阈值的信息。其原因就在于上文所介绍的,第一数据提供方反馈第二数据提供方的是第一分类特征的信息以及以分类阈值的信息。具体信息是什么,可以根据实际情况而定,例如可以直接是第一分类特征的名称,以及第一分类阈值对应的具体数值信息。当然也可以第一分类特征的编号信息,以及第一分类阈值对应的编号信息。具体是什么,可以根据实际情况设定。在这种情况下,第二数据提供方反馈至第一数据提供方的自然也就是最优分类特征的信息,以及与最优分类特征对应的最优分类阈值的信息。

在第二种情况中,如果根据最大增益确定最优分类特征和最优分类阈值是第二数据提供方侧提供的第二分类特征和第二分类特征对应的阈值,那么,第二数据提供方向第一提供方提供的最优分类特征的信息和最优分类特征对应的最优分类阈值的信息,则是具体的分类特征名称和具体的分类阈值。

步骤170,接收第二数据提供方反馈的最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息。

步骤180,根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类,形成联邦学习分类树的分支节点。

具体的,步骤150中的介绍可知,如果第一数据提供方接收到的第二数据提供方反馈的最优分类特征的信息和最优分类阈值的信息,首先会确定根据最优分类特征的信息和最优分类阈值的信息,然后确定最优分类特征以及与最优分类特征对应的最优分类阈值,进而根据最优分类特征以及最优分类阈值,对第一子集进行分类,形成联邦学习分类树的其中两个分支节点。

步骤190,根据所有分支节点,构建联邦学习分类树。

具体的,联邦学习分类树由所有分支节点构成,至于该分类树构建到什么程度停止,则可以预先配置。即预先配置预设分类要求。当达到预设分类要求时,停止联邦学习分类树的构建。

其中,预设分类要求例如可以是构建的联邦学习分类树包括了几层叶子节点,又或者是一共分支几层等等。当检测达到预设要求时,停止执行重复分支操作,不再对后面的子集进行分组。构建联邦学习分类树完成。

本发明实施例提供的联邦学习分类树构建方法,首先根据第一分类特征和第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取知识两组用户样本子集。然后,在第一子集中添加混淆用户,获取第二子集,防止第二数据提供方反推获取用户隐私情况。将第二加密子集中每一个用户对应的一次加密梯度值进行二次加密,同样是为了防止第二数据方获取用户隐私。根据第二子集中每一个用户对应的一次加密梯度值计算第一加密梯度值之和;将经过二次加密后的梯度值,以及第二子集共同发送至第二数据提供方,以便第二数据提供方可以在进行解密后,基于第二子集和第二子集中每一个用户样本对应的二次加密梯度值,根据自身一侧存储的第二特征和第二特征对应的第二分类阈值,计算第二加密梯度值之和;第二加密梯度值之和需要经过第一数据提供方进行一次解密,才能计算信息增益。

同样是防止第一数据方反推获取用户隐私,因此对第二加密梯度值之和进行加密后再反馈至第一数据提供方;第一数据提供方对第二加密梯度值之和进行一次解密后,与与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;以便第二数据提供方分别计算每一个特征、每一个特征对应的分类阈值,计算相应的增益信息,并最终确定最优分类特征的信息,以及最优分类阈值的信息,反馈至第一数据提供方。最终由第一数据提供方根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类形成联邦学习分类树的分支节点;根据所有分支节点,构建联邦学习分类树。

通过该种方式,不仅仅成功构建了联邦学习分类树,还防止了双方数据被对方窥探的情况发生。即不公开准确的用户子集,便可以避免用户数据隐私的泄露,同时通过公开特征的信息来提高模型的可解释性,解决了隐私与可解释性之间的矛盾。

图2为本发明实施例提供的一种联邦学习分类树构建方法流程示意图,如图2所示,该方法包括:

步骤210,接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值。

步骤220,根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值,计算相应的梯度值之和后,进行加密得到第二加密梯度值之和。

具体计算第二加密梯度值之和的方法同实施例1中所介绍的计算第一加密梯度值之和的方式类似,具体参见上文,这里不再过多介绍。

步骤230,将第二加密梯度值之和反馈至第一数据提供方。

步骤240,接收第一数据提供方反馈的第一加密梯度值之和、第一分类特征的信息、第一分类阈值的信息,以及经过一次解密的后的第二加密梯度值之和。

步骤250,根据第一数据提供方反馈的第一加密梯度值之和计算第一增益信息。

步骤260,根据经过一次解密的后的第二加密梯度值之和计算第二增益信息。

具体计算信息增益的过程参见上一实施例中的描述,这里不再过多说明。

步骤270,从第一增益信息和第二增益信息中,确定最大的增益信息。

步骤280,根据最大的增益信息,从第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息。

具体的,由上一实施例可知,根据第一数据提供方存储的特征和每一个分类特征对应的多个分类阈值,就可以计算出多个信息增益;类似的道理,根据本侧存的多个分类特征,以及每一个分类特征对应的多个分类阈值,同样可以计算出多个信息增益。因此,需要从所有信息增益中选择出最大的信息增益,并根据最大的信息增益,从述第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息。

步骤290,将最优分类特征的信息以及最优分类阈值的信息反馈至第一数据提供方。

以便第一数据提供方根据最优分类特征的信息确定最优分类特征,并根据最优分类阈值的信息,确定最优分类阈值。并根据最优分类特征和最优分类阈值,对第一子集进行分类。

本发明实施例提供的联邦学习分类树构建方法,接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值后,结合自身一侧存储的第二特征,以及第二分类阈值,可以计算相应的梯度值之和后进行二次加密,得到第二加密梯度值之和。之所以进行加密,是防止第一数据提供方反推得到本次用户的隐私信息。将第二加密梯度值之后反馈至第一数据提用方,是为了第一数据提供方进行一次解密后,再反馈回来,才能够计算信息增益。同时还需接收的是第一加密梯度值之和,第一分类特征的信息、第一分类阈值的信息,最终可以根据这些信息计算出多个增益信息,然后比较最大增益信息,并匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息,以便第一数据提供方可以根据最优分类特征的信息以及最优分类阈值的信息确定最优分类特征以及最优分类阈值,以完成对第一子集的分类。即生成联邦学习分类树的一个节点,直至最终完成分类树的构建。

通过该种方式,不仅仅成功构建了联邦学习分类树,还防止了双方数据被对方窥探的情况发生。即不公开准确的用户子集,便可以避免用户数据隐私的泄露,同时通过公开特征的信息来提高模型的可解释性,解决了隐私与可解释性之间的矛盾。

为方便读者更加容易理解第一数据提供方和第二数据提供方之间的交互流程,图3示出了第一数据提供方和第二数据提供方交互的信令流程图,具体交互过程均在上述两个实施例中做了详细描述,因此这里不再过多描述。

在上述实施例的基础上,本发明实施例提供还提供了一种联邦学习分类模型构建方法,该方法包括如下步骤:

根据至少一棵如上实施例说介绍的方法构建的联邦分类树,组成联邦分类模型。

之所以说是至少一棵树,是因为构建的树符合一定的预设需求。例如,当构建的联邦分类学习树满足一定数量(一百棵)时,停止构建联邦分类学习树,利用这些分类树组成联邦分类模型。又或者,当第t棵树对应的损失函数达到预设要求时,停止构建分类树,利用这些分类树组成联邦分类模型。

具体的损失函数表达式如下公式:

其中yi是第i个用户真实标签,ft(xi)是用户第i个用户x在第t棵树上的得分,是第i个用户在第t-1棵树的预测标签,而ω(ft)是防止模型过拟合的正则项。具体计算用户在分类树上的得分过程为现有技术,这里不再过多说明。

本发明实施例提供的联邦学习分类模型构建方法,不公开准确的用户子集,便可以避免用户数据隐私的泄露,同时通过公开特征的信息来提高模型的可解释性,解决了隐私与可解释性之间的矛盾。

图4为本发明实施例提供的一种联邦学习分类树构建装置,该装置包括:分类单元401、获取单元402、处理单元403、发送单元404、接收单元405以及构建单元406。

分类单元401,用于根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;

获取单元402,用于按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中第一子集为至少两组用户样本子集中的任一个子集;

处理单元403,用于根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;

对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密;

发送单元404,用于将第二子集中每一个用户样本分别对应的,经过二次加密后的梯度值,以及第二子集共同发送至第二数据提供方;

接收单元405,用于接收第二数据提供方反馈的第二加密梯度值之和,第二加密梯度值之和为第二数据提供方根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;

处理单元403还用于,对第二加密梯度值之和进行一次解密;

发送单元404还用于,将经过一次解密后的第二加密梯度值之和、第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;

接收单元405还用于,接收第二数据提供方反馈的最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为第二数据提供方根据第一加密梯度值之和,以及第二加密梯度值之和,确定的信息;

分类单元401还用于,根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类,形成联邦学习分类树的分支节点;

构建单元406,用于根据所有分支节点,构建联邦学习分类树。

可选的,第一分类特征、第一分类阈值、第二分类特征,以及第二分类阈值的数量均包括一个或多个。

可选的,获取单元402具体用于,当第一子集中用户样本数量低于预设阈值时,从用户样本集合中选择部分用户样本作为混淆用户样本,加入到第一子集中,获取第二子集;

或者,当第一子集中用户样本数量高于预设阈值时,将用户样本集合中除第一子集外的所有用户样本作为混淆用户样本,加入到第一子集中,获取第二子集。

可选的,第一子集中用户样本对应的一次加密梯度值为:根据第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值;混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。

可选的,当前构建的分类树为第t棵树,且t大于1时,第一子集中每一个用户样本对应的一次加密梯度值为根据第一子集中每一个用户样本对应的实际标签,以及在第t-1棵树中的预测标签计算得出的,且为第一数据提供方和第二数据提供方共同计算得出;

或者,当t=1时,第一子集中的每一个用户样本对应的一次加密梯度值为第二数据提供方根据第一子集中每一个用户样本对应的实际标签计算得出。

本实施例提供的联邦学习分类树构建装置中各功能部件所执行的功能均已在图1对应的实施例中做了详细介绍,因此这里不再赘述。

本发明实施例提供的一种联邦学习分类树构建装置,首先根据第一分类特征和第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取知识两组用户样本子集。然后,在第一子集中添加混淆用户,获取第二子集,防止第二数据提供方反推获取用户隐私情况。将第二加密子集中每一个用户对应的一次加密梯度值进行二次加密,同样是为了防止第二数据方获取用户隐私。根据第二子集中每一个用户对应的一次加密梯度值计算第一加密梯度值之和;将经过二次加密后的梯度值,以及第二子集共同发送至第二数据提供方,以便第二数据提供方可以在进行解密后,基于第二子集和第二子集中每一个用户样本对应的二次加密梯度值,根据自身一侧存储的第二特征和第二特征对应的第二分类阈值,计算第二加密梯度值之和;第二加密梯度值之和需要经过第一数据提供方进行一次解密,才能计算信息增益。

同样是防止第一数据方反推获取用户隐私,因此对第二加密梯度值之和进行加密后再反馈至第一数据提供方;第一数据提供方对第二加密梯度值之和进行一次解密后,与与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;以便第二数据提供方分别计算每一个特征、每一个特征对应的分类阈值,计算相应的增益信息,并最终确定最优分类特征的信息,以及最优分类阈值的信息,反馈至第一数据提供方。最终由第一数据提供方根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类形成联邦学习分类树的分支节点;根据所有分支节点,构建联邦学习分类树。

通过该种方式,不仅仅成功构建了联邦学习分类树,还防止了双方数据被对方窥探的情况发生。即不公开准确的用户子集,便可以避免用户数据隐私的泄露,同时通过公开特征的信息来提高模型的可解释性,解决了隐私与可解释性之间的矛盾。

图5为本发明实施例提供的另一种联邦学习分类树构建装置,该装置包括:接收单元501、处理单元502以及发送单元503。

接收单元501,用于接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值;

处理单元502,用于根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值,计算相应的梯度值之和后,进行加密得到第二加密梯度值之和;

发送单元503,用于将第二加密梯度值之和反馈至第一数据提供方;

接收单元501,用于接收第一数据提供方反馈的第一加密梯度值之和、第一分类特征的信息、第一分类阈值的信息,以及经过一次解密的后的第二加密梯度值之和;

处理单元502还用于,根据第一数据提供方反馈的第一加密梯度值之和计算第一增益信息;

根据经过一次解密的后的第二加密梯度值之和计算第二增益信息;

从第一增益信息和第二增益信息中,确定最大的增益信息;

根据最大的增益信息,从述第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息;

发送单元503还用于,将最优分类特征的信息以及最优分类阈值的信息反馈至第一数据提供方。

本实施例提供的联邦学习分类树构建装置中各功能部件所执行的功能均已在图2对应的实施例中做了详细介绍,因此这里不再赘述。

本发明实施例提供的一种联邦学习分类树构建装置,接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值后,结合自身一侧存储的第二特征,以及第二分类阈值,可以计算相应的梯度值之和后进行二次加密,得到第二加密梯度值之和。之所以进行加密,是防止第一数据提供方反推得到本次用户的隐私信息。将第二加密梯度值之后反馈至第一数据提用方,是为了第一数据提供方进行一次解密后,再反馈回来,才能够计算信息增益。同时还需接收的是第一加密梯度值之和,第一分类特征的信息、第一分类阈值的信息,最终可以根据这些信息计算出多个增益信息,然后比较最大增益信息,并匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息,以便第一数据提供方可以根据最优分类特征的信息以及最优分类阈值的信息确定最优分类特征以及最优分类阈值,以完成对第一子集的分类。即生成联邦学习分类树的一个节点,直至最终完成分类树的构建。

通过该种方式,不仅仅成功构建了联邦学习分类树,还防止了双方数据被对方窥探的情况发生。即不公开准确的用户子集,便可以避免用户数据隐私的泄露,同时通过公开特征的信息来提高模型的可解释性,解决了隐私与可解释性之间的矛盾。

图6为本发明实施例提供的一种终端设备的结构示意图,图6所示的终端设备600包括:至少一个处理器601、存储器602、至少一个网络接口603和其他用户接口604。联邦学习分类树构建终端设备600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统605。

其中,用户接口604可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本发明实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序6022。

其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。

在本发明实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,处理器601用于执行如下方法步骤,包括:

根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;

按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中第一子集为至少两组用户样本子集中的任一个子集;

根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;

对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后,与第二子集共同发送至第二数据提供方;

接收第二数据提供方反馈的第二加密梯度值之和,第二加密梯度值之和为第二数据提供方根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;

对第二加密梯度值之和进行一次解密后,与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;

接收第二数据提供方反馈的最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为第二数据提供方根据第一加密梯度值之和,以及第二加密梯度值之和,确定的信息;

根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类,形成联邦学习分类树的分支节点;

根据所有分支节点,构建联邦学习分类树。

可选的,第一分类特征、第一分类阈值、第二分类特征,以及第二分类阈值的数量均包括一个或多个。

可选的,当第一子集中用户样本数量低于预设阈值时,从用户样本集合中选择部分用户样本作为混淆用户样本,加入到第一子集中,获取第二子集;

或者,当第一子集中用户样本数量高于预设阈值时,将用户样本集合中除第一子集外的所有用户样本作为混淆用户样本,加入到第一子集中,获取第二子集。

可选的,第一子集中用户样本对应的一次加密梯度值为:根据第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值;混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。

可选的,当前构建的分类树为第t棵树,且t大于1时,第一子集中每一个用户样本对应的一次加密梯度值为根据第一子集中每一个用户样本对应的实际标签,以及在第t-1棵树中的预测标签计算得出的,且为第一数据提供方和第二数据提供方共同计算得出;

或者,当t=1时,第一子集中的每一个用户样本对应的一次加密梯度值为第二数据提供方根据第一子集中每一个用户样本对应的实际标签计算得出。

或者,执行如下方法步骤:

根据至少一棵如实施例1的方法构建的联邦分类树,组成联邦分类模型。

上述本发明实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的终端设备可以是如图6中所示的终端设备,可执行如图1中联邦学习分类树构建方法的所有步骤,进而实现图1所示联邦学习分类树构建方法的技术效果,具体请参照图1相关描述;或者,执行上述实施例中联邦学习分类模型构建方法的所有步骤,进而实现联邦学习分类模型构建方法的技术效果,为简洁描述,在此不作赘述。

图7为本发明实施例提供的一种终端设备的结构示意图,图7所示的终端设备700包括:至少一个处理器701、存储器702、至少一个网络接口703和其他用户接口704。联邦学习分类树构建终端设备700中的各个组件通过总线系统705耦合在一起。可理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统705。

其中,用户接口704可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本发明实施例中的存储器702可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。本文描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器702存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统7021和应用程序7022。

其中,操作系统7021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序7022,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序7022中。

在本发明实施例中,通过调用存储器702存储的程序或指令,具体的,可以是应用程序7022中存储的程序或指令,处理器701用于执行各方法实施例所提供的方法步骤,例如包括:

接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值;

根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值,计算相应的梯度值之和后,进行加密得到第二加密梯度值之和;

将第二加密梯度值之和反馈至第一数据提供方;

接收第一数据提供方反馈的第一加密梯度值之和、第一分类特征的信息、第一分类阈值的信息,以及经过一次解密的后的第二加密梯度值之和;

根据第一数据提供方反馈的第一加密梯度值之和计算第一增益信息;

根据经过一次解密的后的第二加密梯度值之和计算第二增益信息;

从第一增益信息和第二增益信息中,确定最大的增益信息;

根据最大的增益信息,从述第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息;

将最优分类特征的信息以及最优分类阈值的信息反馈至第一数据提供方。

上述本发明实施例揭示的方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的终端设备可以是如图7中所示的终端设备,可执行如图2中联邦学习分类树构建方法的所有步骤,进而实现图2所示联邦学习分类树构建方法的技术效果,具体请参照图2相关描述,为简洁描述,在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在终端设备侧执行的联邦学习分类树构建方法,或者联邦学习分类模型构建方法。

处理器用于执行存储器中存储的联邦学习分类树构建程序,以实现以下在终端设备侧执行的联邦学习分类树构建方法的步骤:

根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;

按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中第一子集为至少两组用户样本子集中的任一个子集;

根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;

对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后,与第二子集共同发送至第二数据提供方;

接收第二数据提供方反馈的第二加密梯度值之和,第二加密梯度值之和为第二数据提供方根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;

对第二加密梯度值之和进行一次解密后,与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;

接收第二数据提供方反馈的最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为第二数据提供方根据第一加密梯度值之和,以及第二加密梯度值之和,确定的信息;

根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类,形成联邦学习分类树的分支节点;

根据所有分支节点,构建联邦学习分类树。

可选的,第一分类特征、第一分类阈值、第二分类特征,以及第二分类阈值的数量均包括一个或多个。

可选的,按照预设规则,对至少两组用户样本子集中的第一子集中添加混淆用户样本,获取经过混淆后的第二子集,具体包括:

当第一子集中用户样本数量低于预设阈值时,从用户样本集合中选择部分用户样本作为混淆用户样本,加入到第一子集中,获取第二子集;

或者,当第一子集中用户样本数量高于预设阈值时,将用户样本集合中除第一子集外的所有用户样本作为混淆用户样本,加入到第一子集中,获取第二子集。

可选的,第一子集中用户样本对应的一次加密梯度值为:根据第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值;混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。

可选的,当前构建的分类树为第t棵树,且t大于1时,第一子集中每一个用户样本对应的一次加密梯度值为根据第一子集中每一个用户样本对应的实际标签,以及在第t-1棵树中的预测标签计算得出的,且为第一数据提供方和第二数据提供方共同计算得出;

或者,当t=1时,第一子集中的每一个用户样本对应的一次加密梯度值为第二数据提供方根据第一子集中每一个用户样本对应的实际标签计算得出。

或者处理器用于执行存储器中存储的联邦学习分类模型构建程序,以实现以下在终端设备侧执行的联邦学习分类模型构建方法的步骤:

根据至少一棵如实施例1任一实施方式构建的联邦分类树,组成联邦分类模型。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在另一终端设备侧执行的联邦学习分类树构建方法。

处理器用于执行存储器中存储的联邦学习分类树构建程序,以实现以下在另一终端设备侧执行的联邦学习分类树构建方法的步骤:

接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值;

根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值,计算相应的梯度值之和后,进行加密得到第二加密梯度值之和;

将第二加密梯度值之和反馈至第一数据提供方;

接收第一数据提供方反馈的第一加密梯度值之和、第一分类特征的信息、第一分类阈值的信息,以及经过一次解密的后的第二加密梯度值之和;

根据第一数据提供方反馈的第一加密梯度值之和计算第一增益信息;

根据经过一次解密的后的第二加密梯度值之和计算第二增益信息;

从第一增益信息和第二增益信息中,确定最大的增益信息;

根据最大的增益信息,从述第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息;

将最优分类特征的信息以及最优分类阈值的信息反馈至第一数据提供方。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1