一种基于同态加密的面向说话人识别系统的隐私保护方法

文档序号:37174935发布日期:2024-03-01 12:26阅读:19来源:国知局
一种基于同态加密的面向说话人识别系统的隐私保护方法

本发明属于密码学应用,具体涉及一种基于同态加密的面向说话人识别系统的隐私保护方法。


背景技术:

1、生物信息技术的发展浪潮带来说话人识别技术的广泛应用,越来越多的智能设备、应用程序利用说话人识别技术提供更加个性化的人机交互功能。说话人识别技术是一项利用语音特征完成说话人确认或说话人辨认任务的技术,用户向服务商上传个人语音数据的声学特征,然后服务商利用提取模型从中提取出说话人特征向量以实现说话人识别功能。

2、目前该领域中最常见的方法是基于tdnn(time delay neural network,时延神经网络)的x-vector说话人识别框架,这个框架将用户语音数据的声学特征作为tdnn网络的输入,从网络的全连接层提取一种被称作embedding的向量,将其称作说话人的x-vector,即说话人特征,该特征在框架第二阶段可以和一些确认模型相结合,用于交互或认证任务。在这个过程中,用户语音数据的声学特征可能通过不可信的公共网络进行传输,然后在不可信的第三方服务端上存储和处理,由此引发一系列隐私安全问题。而个人声学特征携带的信息本质上是极其敏感的:从中可以分析出说话人的年龄、性别、情绪或性格特征甚至健康状况等多种多样的信息。因此,将用户的声音或者从声音中提取出的声学特征发送到服务端进行处理的过程,对用户隐私造成极大威胁。

3、解决上述隐私安全问题的一种办法是让用户在本地进行处理并提取说话人特征x-vector,但是这种方法假设用户可以获取服务商预先训练好的说话人特征提取网络模型,破坏了服务商的网络模型隐私。具体地说:用于提取说话人特征x-vector的时延深度神经网络模型tdnn是整个说话人识别系统中最有价值的组件之一,训练这样一个模型,需要庞大的数据集支持和高水平的专业知识,公开网络模型将意味着放弃对知识产权的控制,并失去拥有该模型的价值。为此,在说话人识别系统中对用户语音数据和服务商模型信息进行隐私保护的研究开始受到学术界和工业界的关注,学术界也已经提出了一些具有隐私保护功能的说话人识别方案,大多是基于深度神经网络的推理方案,这些方案并不完全适用于说话人特征x-vector的提取。对于已经实现的方案,比如文献“teixeira,f.,abad,a.,raj,b.,trancoso,i.(2022)towards end-to-end private automatic speakerrecognition.proc.interspeech 2022,2798-2802,doi:10.21437/interspeech.2022-10672.”提出的方案:使用秘密共享技术从tdnn网络中提取x-vector,在只有服务端和客户端两方参与的情况下,完成整个tdnn网络的向量矩阵乘法运算,但是需要提前生成乘法三元组才能实现在加性秘密共享中做乘法运算。加性秘密共享技术让两方分别持有实际数据的随机份额,双方交互式的对随机份额做运算,可以不泄露各方的实际数据,保护两方隐私。

4、但是,上述提出的可实现方案,使用加性秘密共享做乘法运算需要提前生成乘法三元组,需要前期大量的准备工作,导致预处理时间很长;其次,由于tdnn网络结构的复杂性,计算开销大,比如表1给出tdnn网络了提取x-vector过程中网络参数的矩阵维度,可见前五层网络层计算需要802725888次乘加运算,使得现有可实现方案在通信、计算等方面的性能还有待提高。

5、表1网络参数

6、 层 层上下文 总上下文 输入维度×输出维度 第一层 [t-2,t+2] 5 120×512 第二层 {t-2,t+2} 9 1536×512 第三层 {t-3,t+3} 15 1536×512 第四层 {t} 15 512×512 第五层 {t} 15 512×1500 统计池化层 [0,t) t 1500t×3000 全连接层 {0} t 3000×512

7、其中,t表示当前时间帧,t表示第五层输出的向量维数。


技术实现思路

1、为了解决现有技术中存在的上述问题,本发明提供了一种基于同态加密的面向说话人识别系统的隐私保护方法。本发明要解决的技术问题通过以下技术方案实现:

2、本发明实施例提供了一种基于同态加密的面向说话人识别系统的隐私保护方法,所述系统包括服务端和客户端;所述客户端提供说话人的声学特征;所述服务端提供用于提取说话人x-vector的深度神经网络模型,所述深度神经网络模型包括若干由卷积层、激活层、归一化层组成的网络模块,以及一连接于最后一个网络模块的统计池化层;对应方法包括:

3、卷积层计算过程:利用simd(single instruction multiple data,多数据单指令)打包技术分别在服务端打包卷积层的网络参数和在客户端打包声学特征,并利用全同态加密算法实现服务端打包的卷积层的网络参数在客户端对客户端打包的声学特征进行同态加密运算得到卷积层加密结果,利用在客户端产生的第一随机向量对所述卷积层加密结果进行盲化得到卷积层盲化结果;

4、激活层计算过程:服务端与客户端共同参与,在服务端对所述卷积层盲化结果进行解密得到第一解密结果,将所述第一解密结果和所述第一随机向量作为百万富翁协议的输入并输出两部分明文结果,服务端与客户端各持有两部分中一部分明文结果,利用全同态加密算法对服务端与客户端各持有的一部分明文结果、所述第一解密结果进行同态加密运算得到激活层加密结果,利用在客户端产生的第二随机向量对所述激活层加密结果进行盲化得到激活层盲化结果;

5、归一化层计算过程:在服务端,对所述激活层盲化结果进行解密得到第二解密结果,并对所述第二解密结果进行归一化计算,利用同态加密算法对归一化计算结果进行同态加密运算得到第一归一化层加密结果,利用simd打包技术打包归一化层的网络参数;在客户端,利用服务端打包的归一化层的网络参数对所述第二随机向量进行归一化计算得到第二归一化层加密结果,合并所述第一归一化加密结果和所述第一归一化加密结果得到归一化层加密结果,利用在客户端产生的第三随机向量对所述归一化层加密结果进行盲化得到归一化层盲化结果;

6、将所述第三随机向量作为下一层与归一化层连接的卷积层在客户端提供的输入数据,服务端与客户端重复上述卷积层、激活层、归一化层的计算过程,直到所有网络模块中卷积层、激活层、归一化层完成计算;

7、统计池化层计算过程:利用simd打包技术分别打包服务端统计池化层的网络参数,并引入多个随机向量,利用引入的多个随机向量和全同态加密算法实现服务端打包的统计池化层的网络参数在客户端对所有归一化层加密结果进行同态加密运算得到统计池化层加密结果,根据所述统计池化层加密结果计算得到所述说话人x-vector。

8、本发明的有益效果:

9、本发明提出的基于同态加密的面向说话人识别系统的隐私保护方法,是一种可以解决说话人识别系统提取说话人特征时,引发的一系列隐私安全问题的特征提取方法,说话人识别系统包括服务端和客户端;客户端提供说话人的声学特征;服务端提供用于提取说话人x-vector的深度神经网络模型,深度神经网络模型包括若干由卷积层、激活层、归一化层组成的网络模块,以及一连接于最后一个网络模块的统计池化层;对应方法包括:客户端与服务端计算过程均基于simd打包技术和全同态加密算法;在卷积层,提出在客户端利用服务端发送的网络参数密文与客户端打包的数据做同态运算的计算方式计算卷积层加密结果,能够减少乘法运算次数并且避免高开销的同态旋转操作,有效降低了x-vector提取过程的计算开销与通信开销;在激活层,提出了一种客户端与服务端两方交互共同参与的方式,并利用百万富翁协议在明文下进行计算激活层加密结果,避免了密文与密文计算的复杂情况,利用明文计算提高了计算效率,进一步降低了x-vector提取过程的计算开销与通信开销;在归一化层,同样提出了一种客户端和服务端两方交互共同参与的方式,在客户端和服务端各自一端计算一部分归一化加密结果,合并两部分结果得到完整的归一化加密结果,在交互过程中密文与打包的明文进行同态乘法运算,能够减少乘法运算次数并且避免了高开销的同态旋转操作,更进一步降低了x-vector提取过程的计算开销与通信开销;在统计池化层,利用引入的多个随机向量提出了一种适用于全同态加密环境的开平方运算方式,解决了传统经全同态加密算法加密的数据不支持开方运算的问题。可见,本发明所提出方法,大幅降低了计算开销与通信开销,使得该方法可以更好的应用于通信、计算等方面。

10、以下将结合附图及实施例对本发明做进一步详细说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1