安全求交、联邦学习模型的训练方法及系统、设备及介质与流程

文档序号：32343220发布日期：2022-11-26 10:29阅读：来源：国知局

技术特征：
1.一种数据共享中的安全求交方法，其特征在于，应用于至少两个参与方之间数据共享场景中，所述安全求交方法包括：获取各所述参与方的原始数据矩阵；其中，所述原始数据矩阵包括至少一组样本数据，所述样本数据包括用于标识所述参与方中每个对象的唯一标识和与所述唯一标识相对应的属性数据；基于所述样本数据对各所述参与方的原始数据矩阵进行碎片化处理得到各自对应的原始碎片矩阵，并基于所述原始碎片矩阵生成对应的随机数碎片矩阵，将每个参与方的所述随机数碎片矩阵发送给其他参与方；将各所述参与方的原始碎片矩阵与从其他参与方获得的所述随机数碎片矩阵进行拼接处理，以得到各自对应的拼接矩阵；分别基于各所述参与方的拼接矩阵确定目标求交样本。2.如权利要求1所述的数据共享中的安全求交方法，其特征在于，所述基于各所述参与方的拼接矩阵确定目标求交样本包括：分别基于各所述参与方的所述拼接矩阵进行排序，以得到与所述拼接矩阵对应的排序矩阵；分别基于各所述参与方的所述排序矩阵进行样本特征对齐计算，以确定所述目标求交样本。3.如权利要求2所述的数据共享中的安全求交方法，其特征在于，在得到各自对应的原始碎片矩阵之后，所述安全求交方法还包括：基于预设密态打乱算法对所述原始碎片矩阵中若干列进行密态打乱，以得到样本顺序变换后的新的原始碎片矩阵；其中，不同所述参与者对应的所述原始碎片矩阵采用相同的所述预设密态打乱算法进行密态打乱处理。4.如权利要求2所述的数据共享中的安全求交方法，其特征在于，所述原始碎片矩阵包括样本数据碎片，所述样本数据碎片包括唯一标识碎片和与所述唯一标识碎片对应的属性数据碎片；所述分别基于各所述参与方的所述拼接矩阵进行排序，以得到各自对应的排序矩阵包括：分别基于预设排序算子提取各所述参与方的所述拼接矩阵中的所述唯一标识碎片相同的样本数据碎片并进行排序，以得到各自对应的所述排序矩阵。5.如权利要求2所述的数据共享中的安全求交方法，其特征在于，所述分别基于各所述参与方的所述排序矩阵进行样本特征对齐计算，以确定所述目标求交样本包括：分别基于各所述参与方的所述排序矩阵依次比较相邻的所述样本数据碎片对应的所述唯一标识碎片是否相同，以根据比较结果进行样本特征对齐计算，得到所述目标求交样本。6.如权利要求5所述的数据共享中的安全求交方法，其特征在于，所述以根据比较结果进行样本特征对齐计算包括：根据预设转换算子将碎片化的所述比较结果转化为对应的第一比较值或第二比较值；将相邻的所述样本数据碎片中的对应属性数据碎片进行密态求和，并将各个求和值依
次与所述第一比较值或所述第二比较值相乘，得到所述目标求交样本。7.如权利要求6所述的数据共享中的安全求交方法，其特征在于，所述根据预设转换算子将碎片化的所述比较结果转化为对应的第一比较值或第二比较值包括：在所述比较结果相同时，基于b2a算子将碎片化的所述比较结果转化为算术类型的第一比较值；在所述比较结果不相同时，基于所述b2a算子将碎片化的所述比较结果转化为算术类型的第二比较值。8.如权利要求6所述的数据共享中的安全求交方法，其特征在于，所述根据比较结果进行样本特征对齐计算还包括：在所述比较结果相同时，并将相邻的所述样本数据碎片中对应的所述属性数据碎片进行密态求和；在所述比较结果不相同时，丢弃排序位置靠前的样本数据，以得到新的目标求交样本。9.如权利要求6所述的数据共享中的安全求交方法，其特征在于，在所述根据比较结果进行样本特征对齐计算之后，所述安全求交方法还包括：将碎片化的所述比较结果进行恢复处理。10.如权利要求1所述的数据共享中的安全求交方法，其特征在于，在所述获取各所述参与方的原始数据矩阵之后，所述安全求交方法还包括：判断各个所述参与方的原始数据矩阵中属性数据对应的列数是否相同，若不相同，则根据预设补齐规则生成虚拟属性数据列进行补齐，以得到补齐后的所述原始数据矩阵；其中，各所述参与方所对应补齐后的所述原始数据矩阵的列数相等。11.如权利要求1所述的数据共享中的安全求交方法，其特征在于，所述基于所述样本数据对各所述参与方的原始数据矩阵进行碎片化处理得到各自对应的原始碎片矩阵，并基于所述原始碎片矩阵生成对应的随机数碎片矩阵包括：基于所述样本数据对各所述参与方的原始数据矩阵中的每一个原始数据都减去一个随机数，以得到差值碎片和随机数碎片，将所有的差值碎片作为原始碎片矩阵，将所有的随机数碎片作为随机数碎片矩阵。12.如权利要求4所述的安全求交方法，其特征在于，所述预设排序算子基于快速排序算法或排序网络算法中实现；和/或，所述排序网络算法基于双调排序算法实现。13.如权利要求1-11中任一项所述的数据共享中的安全求交方法，其特征在于，所述安全求交方法还包括：判断所述原始数据矩阵中的唯一标识的类型；若所述唯一标识为字符串型，则将所述字符串的唯一标识进行数值化处理以得到数值化的唯一标识；若所述唯一标识为数值型，则不进行操作。14.一种联邦学习模型的训练方法，其特征在于，所述训练方法包括：获取各参与方利用如权利要求1-13中任一项所述安全求交方法得到的碎片化的目标求交样本；
基于预设划分策略获取各所述参与方对所述目标求交样本执行划分后得到的训练集碎片和测试集碎片；获取各所述参与方利用各自的所述训练集碎片、所述测试集碎片通过安全多方计算算子进行特征与权重参数计算得到的预测碎片；获取各所述参与方利用各自的所述预测碎片通过所述安全多方计算算子进行梯度计算得到的梯度碎片；获取各所述参与方利用各自的所述梯度碎片通过所述安全多方计算算子进行更新权重系数计算，以更新初始权重碎片得到新的权重碎片，并利用新的权重碎片进行迭代；在所述权重碎片满足预设条件时则获取目标权重碎片，并利用所述目标权重碎片建立所述联邦学习模型。15.如权利要求14所述的联邦学习模型的训练方法，其特征在于，在得到所述预测碎片之后，所述训练方法还包括：获取各所述参与方基于各自的所述预测碎片通过所述安全多方计算算子进行损失值计算得到损失值碎片；任一所述参与方接收其他所述参与方发送的所述损失值碎片，并将所有的损失值碎片恢复至对应的明文后上报训练日志。16.如权利要求14或15所述的联邦学习模型的训练方法，其特征在于，在得到梯度碎片之后，所述训练方法还包括：分别通过所述安全多方计算算子判断各所述参与方的特征对应的所述梯度碎片的梯度值是否小于预设阈值，若是则任一所述参与方接收其他所述参与方发送的比较结果碎片，并将所述比较结果碎片恢复至对应的明文。17.如权利要求14所述的联邦学习模型的训练方法，其特征在于，所述训练方法还包括：判断训练状态是否为终止训练；若是，则输出并根据使用需求保存模型参数为对应的模型参数明文或模型参数碎片；若否，则执行对所述梯度碎片通过所述安全多方计算算子进行梯度更新权重系数计算得到新的所述目标权重碎片。18.一种数据共享中的安全求交系统，其特征在于，应用于至少两个参与方之间数据共享场景中，所述安全求交系统包括：获取模块，用于获取各所述参与方的原始数据矩阵；其中，所述原始数据矩阵包括至少一组样本数据，所述样本数据包括用于标识所述参与方中每个对象的唯一标识和与所述唯一标识相对应的属性数据；碎片化模块，用于基于所述样本数据对各所述参与方的原始数据矩阵进行碎片化处理得到各自对应的原始碎片矩阵，并基于所述原始碎片矩阵生成对应的随机数碎片矩阵，将每个参与方的所述随机数碎片矩阵发送给其他参与方；拼接模块，用于将各所述参与方的原始碎片矩阵与从其他参与方获得的所述随机数碎片矩阵进行拼接处理，以得到各自对应的拼接矩阵；求交样本确定模块，用于分别基于各所述参与方的拼接矩阵确定目标求交样本。19.一种联邦学习模型的训练系统，其特征在于，所述联邦学习模型的训练系统包括：
求交样本获取模块，用于获取各所述参与方利用如权利要求18所述的安全求交系统得到的碎片化的目标求交样本；划分模块，用于基于预设划分策略获取各所述参与方对所述目标求交样本执行划分后得到的训练集碎片和测试集碎片；预测碎片计算模块，用于获取各所述参与方利用各自的所述训练集碎片、所述测试集碎片通过安全多方计算算子进行特征与权重参数计算得到的预测碎片；梯度碎片计算模块，用于获取各所述参与方利用各自的所述预测碎片通过所述安全多方计算算子进行梯度计算得到的梯度碎片；权重碎片更新模块，用于获取各所述参与方利用各自的所述梯度碎片通过所述安全多方计算算子进行更新权重系数计算，以更新初始权重碎片得到新的权重碎片，并利用新的权重碎片进行迭代；模型建立模块，用于在所述权重碎片满足预设条件时则获取目标权重碎片，并利用所述目标权重碎片建立所述联邦学习模型。20.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求1-13中任一项所述的数据共享中的安全求交方法；或，实现如权利要求14-17中任一项所述的联邦学习模型的训练方法。21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-13中任一项所述的数据共享中的安全求交方法；或，实现如权利要求14-17中任一项所述的联邦学习模型的训练方法。

技术总结
本发明公开了一种数据安全求交、联邦学习模型的训练方法及系统、设备及介质，其中，安全求交方法包括获取各参与方的原始数据矩阵，对各个参与方的原始数据矩阵进行碎片化处理后进行拼接，然后通过密态排序以及密态对齐，生成碎片态的求交样本，由于求交样本为碎片态，可以保证交集结果不泄露，从而安全求交的全流程中不暴露任何敏感信息，既保护交集以外的信息，同时输出的结果又可以保护交集信息，进而能够执行高标准的安全要求和实现保护敏感数据的目标。据的目标。据的目标。

技术研发人员：尤志强卞阳陈立峰
受保护的技术使用者：北京富算科技有限公司
技术研发日：2022.08.05
技术公布日：2022/11/25

完整全部详细技术资料下载

当前第2页1 2