面向纵向联邦学习的多模态数据加密传输方法及系统

文档序号:37279790发布日期:2024-03-12 21:17阅读:9来源:国知局
面向纵向联邦学习的多模态数据加密传输方法及系统

本发明属于信息安全领域,具体涉及一种面向纵向联邦学习的多模态数据加密传输方法及系统。


背景技术:

1、随着大数据时代信息技术的不断发展,在确保数据安全和隐私保护的前提下开展高质量的机器学习任务已成为信息安全领域亟待解决的重要问题。面对跨地域、跨机构、跨设备、跨场景的机器学习任务中存在数据异构、通信受限、易受攻击等问题,结合纵向联邦学习架构和同态加密技术对多模态数据进行保护是缓解模型隐私脆弱性和模型安全局限性的有效途径。

2、作为缓解数据孤岛的有效解决方案,联邦学习可以在各个参与方不进行数据共享的情况下展开模型训练。但是现有的联邦学习算法在面对多元化的数据来源时存在局限性,尤其面对行业领域数据多呈现垂直分布的场景。例如,同一城市的两家不同机构(一家银行和一家电子商务公司)旨在共同开发产品购买预测模型,由于用户数据从邻近的社区收集,所以两家机构的数据样本可能存在大量重叠,但是样本特征空间的重叠度较低。尽管纵向联邦学习能够在一定程度上缓解该问题,但是面对数据模态呈现多样化的现状,愈加复杂的数据分布和更深层的数据维度不断向现有的纵向联邦学习模型提出新的挑战。

3、海量数据在为模型提供丰富训练数据来源的同时,也不可避免地涉及用户的隐私信息。尽管国际和国内已经提出并实施了相关法律法规加强对数据隐私的保护,但是面对复杂的业务场景,仅从立法层面约束隐私攻击存在一定的局限性。同态加密是一种允许用户对加密数据直接进行计算而无需解密的有效加密算法,其应用椭圆曲线加密,并保持同态性质。但是,由于传统的同态加密算法仅支持加法和乘法运算,其在面对涉及指数和对数运算的交叉熵函数时束手无策。传统的数据加密协议多数依赖第三方协作者分发密钥、确保数据传输过程的安全性。但是由于第三方的参与,数据隐私泄露的风险将大幅增加。尽管部分方案试图消除第三方协作者展开模型训练,但是由于加密后的计算复杂度过高,部分模型参数存在无法加密的可能性。

4、现有技术1提出了一种多模态联邦学习训练方法及装置(专利号:cn116386058a),该发明将共享数据输入至初始的服务器端模型,得到输出的全局特征表示,并将所述全局特征表示传输至客户端;接收所述客户端生成的局部特征表示;基于所述全局特征表示以及所述局部特征表示,对所述客户端传输的局部特征表示进行聚合,得到聚合特征表示;基于所述聚合特征表示对所述服务器端模型进行训练,完成一个轮次的模型训练。虽然现有技术1能够处理和分析多种模态的数据,但是其训练过程涉及第三方服务器的参与,在全局特征和局部特征的传输过程中可能存在严重的数据泄露隐患。面对攻击者试图直接窃取参与者敏感数据,或窃取全局特征和局部特征进而推断参与者敏感数据的情况将束手无策。

5、现有技术2提出了一种多模态联邦学习的隐私保护方法及系统(专利号:cn115859367b),对于同时包含图像数据、文本数据的客户端,分别通过第一自动编码器、第二自动编码器对图像数据、文本数据进行对齐,向第一自动编码器、第二自动编码器中间层生成的图像特征fv′、文本特征ft′分别添加基于差分隐私技术的拉普拉斯噪声;将添加噪声后的图像特征fv′、文本特征ft′上传到服务器中。虽然现有技术2能够利用差分隐私技术为图像和文本提供隐私保护,但是一方面由于第三方服务器的参与,图像和文本中蕴含的敏感信息泄露的风险将大幅提高;另一方面由于拉普拉斯噪声的引入,模型性能的损失较大。


技术实现思路

1、为了解决现有技术中存在的上述问题,本发明提供了一种面向纵向联邦学习的多模态数据加密传输方法及系统。本发明要解决的技术问题通过以下技术方案实现:

2、第一方面,本发明提供了一种面向纵向联邦学习的多模态数据加密传输方法,所述面向纵向联邦学习的多模态数据加密传输方法包括:

3、s100,每个参与方从数据集中选择不同模态的输入数据;所述局部模型包括跨域编码模块和多模态编码模块;

4、s200,每个参与方将所述输入数据作为所述局部模型的输入,并通过自身的跨域编码模块与其他参与方交互各自加密后的局部模型参数,以及通过多模态编码模块对局部模型参数作计算得到输出数据;

5、s300,利用输出数据和输入数据构建目标函数,并重复s200的过程以对所述局部模型进行迭代训练,在训练过程中每个参与方利用所述目标函数更新自身局部模型的局部模型参数;

6、s400,每个参与方对自身的传输参数进行加密,并在加密后传输给其他参与方以使其他参与方对自身的局部模型进行再训练;所述传输参数包括加密的局部模型参数、基于二元泰勒级数展开的目标函数的部分参数以及所述目标函数的梯度;

7、s500,重复s200至s400直至局部模型收敛,并将收敛的局部模型部署到参与方的服务器上,使得参与方利用收敛的局部模型处理即将输入的实时数据。

8、第二方面,本发明提供了一种面向纵向联邦学习的多模态数据加密传输系统,所述系统包括多个参与方,每个参与方均执行以下过程:

9、s100,每个参与方从数据集中选择不同模态的输入数据,并将所述输入数据输入至已构建的局部模型中;所述局部模型包括跨域编码模块和多模态编码模块;

10、s200,每个参与方将所述输入数据作为所述局部模型的输入,并通过自身的跨域编码模块与其他参与方交互各自加密后的局部模型参数,以及通过多模态编码模块对局部模型参数作计算得到输出数据;

11、s300,利用输出数据和输入数据构建目标函数,并重复s200的过程以对所述局部模型进行迭代训练,在训练过程中每个参与方利用所述目标函数更新自身局部模型的局部模型参数;

12、s400,每个参与方对自身的传输参数进行加密,并在加密后传输给其他参与方以使其他参与方对自身的局部模型进行再训练;所述传输参数包括加密的局部模型参数、基于二元泰勒级数展开的目标函数的部分参数以及所述目标函数的梯度;

13、s500,重复s200至s400直至局部模型收敛,并将收敛的局部模型部署到参与方的服务器上,使得参与方利用收敛的局部模型处理即将输入的实时数据。

14、有益效果:

15、本发明提供了一种面向纵向联邦学习的多模态数据加密传输方法及系统,结合多模态机器学习算法和纵向联邦学习架构,在保证本地数据可用不可见的前提下,构建每个参与方的局部模型学习不同模态的数据特征,提高模型的准确性和鲁棒性;利用二元泰勒级数展开解决同态加密算法无法针对涉及指数和对数运算的单项式加密的问题,无需依赖第三方协作者即可确保局部模型参数的机密性,且无需担心未经授权的原始数据访问,实现了通信过程中局部模型参数的无损加密,且对所有传输数据均加密。因此本发明可以实现实时数据的精确无损处理。

16、以下将结合附图及实施例对本发明做进一步详细说明。



技术特征:

1.一种面向纵向联邦学习的多模态数据加密传输方法,其特征在于,所述面向纵向联邦学习的多模态数据加密传输方法包括:

2.根据权利要求1所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,s200中通过自身的跨域编码模块与其他参与方交互各自加密后的局部模型参数包括:

3.根据权利要求2所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,每个参与方对应的跨域编码模块具体用于:

4.根据权利要求3所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,所述跨域注意力计算采用注意力合并方法计算完成,计算公式表示为:

5.根据权利要求2所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,所述加密采用公钥和掩码进行加密,所述解密采用约定的私钥进行解密。

6.根据权利要求2所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,s200中的过多模态编码模块对局部模型参数作计算得到输出数据包括:

7.根据权利要求1所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,s300中的所述目标函数表示为:

8.根据权利要求1所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,s400中所述基于二元泰勒级数展开的目标函数表示为:

9.根据权利要求1所述的面向纵向联邦学习的多模态数据加密传输方法,其特征在于,s400包括:

10.一种面向纵向联邦学习的多模态数据加密传输系统,其特征在于,所述系统包括多个参与方,每个参与方均执行以下过程:


技术总结
本发明提供了一种面向纵向联邦学习的多模态数据加密传输方法及系统,本发明结合多模态机器学习算法和纵向联邦学习架构,在保证本地数据可用不可见的前提下,构建每个参与方的局部模型学习不同模态的数据特征,提高模型的准确性和鲁棒性;利用二元泰勒级数展开解决同态加密算法无法针对涉及指数和对数运算的单项式加密的问题,无需依赖第三方协作者即可确保局部模型参数的机密性,且无需担心未经授权的原始数据访问,实现了通信过程中局部模型参数的无损加密,且对所有传输数据均加密。因此本发明可以实现实时数据的精确无损处理。

技术研发人员:潘珂,张元侨,公茂果,李晖,王善峰
受保护的技术使用者:西安电子科技大学
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1