一种基于多任务对抗解耦学习的语音隐私保护方法及系统

文档序号：37925357发布日期：2024-05-11 00:04阅读：64来源：国知局

本发明涉及语音信号处理，具体涉及一种基于多任务对抗解耦学习的语音隐私保护方法及系统。

背景技术：

1、随着近年来人工智能技术的快速发展以及数据和计算资源的不断增强，语音识别技术逐步从传统的高斯混合模型-隐马尔可夫模型转向以深度神经网络为主导。然而，这一转变也由此引发了人们对数据隐私安全的担忧与顾虑。

2、常见的语音识别技术，声纹识别能够从一段用户语音中提取到其相应的声纹特征，从而实现用户身份认证/辨认，这表明语音不仅包含了潜在的敏感信息，如说话内容，还有具备与身份密切相关的声纹特征。为了确保隐私安全，通常采用复合式架构来对语音识别服务进行部署，在这种架构下，客户端部署模型的编码器，对用户输入的语音进行初步的编码，同时保护原始语音的隐私，随后，编码后的信息被传输到云端服务器，通过语音处理引擎、语音识别模型完成预测、分类等任务，最终将结果返回给客户端。

3、虽然被传输的特征编码在离开原始训练的神经网络后难以逆向重建原始语音，但对这些中间编码进行敏感信息的识别和提取仍然具有一定的可能性。尽管引入同态加密和差分隐私等技术在一定程度上能够有效解决对中间编码进行敏感信息识别和提取的问题，但却对模型的分类精度造成一定影响，同时也带来了更高的计算成本。

4、综上所述，如何针对语音中的敏感内容和某些属性（例如身份）实施隐私保护，同时确保下游任务（例如估计年龄）的预测精度不受影响，是一个亟待解决的关键问题。

技术实现思路

1、为了克服现有技术存在的缺陷与不足，本发明提供一种基于多任务对抗解耦学习的语音隐私保护方法及系统，本发明基于多任务解耦特征学习，解决了语音信号中转录文本内容和身份信息难以同时保护的技术问题，将语音中的转录文本特征和身份特征作为特定属性进行保护，从而在维护隐私的同时避免丢失其中的年龄属性，并确保下游的年龄估计任务具有良好的预测精度，并且从隐私保护的角度出发添加相似度约束，实现高精度的年龄识别。

2、为了达到上述目的，本发明采用以下技术方案：

3、本发明提供一种基于多任务对抗解耦学习的语音隐私保护方法，包括下述步骤：

4、获取语音信号，基于编码器对语音信号进行声学特征提取，得到特征编码结果；

5、基于三个并行的通道注意力计算模块构建信息解耦模块，进行多任务解耦特征学习，具体包括：

6、将特征编码结果进行一维全局自适应平均池化，得到各通道的全局统计量；

7、全局统计量经过三个并行的通道注意力计算模块的一维卷积运算，得到三个不同的注意力权重，所述一维卷积运算中卷积核参数不同，一维卷积运算的卷积核大小与通道维度成正比；

8、对三个不同的注意力权重的每一个特征维度进行归一化，得到三个最终的注意力权重；

9、基于三个最终的注意力权重对特征编码结果进行放缩，分别得到特征信息、特征信息、特征信息；

10、分别使用两个全连接层对特征信息和特征信息进行编码，得到特征信息和特征信息；

11、基于全连接网络的年龄段分类器、基于transformer的自动语音解码器和基于全连接网络的身份识别器分别对特征信息、特征信息和特征信息进行年龄段分类、自动语音解码和身份识别；

12、基于多分类交叉熵损失函数对年龄段分类进行监督训练，基于ctc损失和交叉熵损失构建自动语音识别损失对自动语音解码进行监督训练，基于三元损失函数对身份识别进行监督训练；

13、对特征信息、特征信息、特征信息中同一时间步的特征向量两两计算余弦相似度，将所有时间步的相似度进行累加及求和，得到整体相似度，基于多分类交叉熵损失函数、自动语音识别损失、三元损失函数和整体相似度构建最小-最大目标；

14、将特征信息、特征信息和特征信息进行特征相加，相加后的特征信息输入至hifi-gan生成器中进行隐秘音频重建，输出隐秘音频。

15、作为优选的技术方案，所述基于编码器对语音信号进行声学特征提取，采用wav2vec 2.0编码器对语音信号进行声学特征提取。

16、作为优选的技术方案，全局统计量经过三个并行的通道注意力计算模块的一维卷积运算，得到三个不同的注意力权重，具体表示为：

17、；

18、；

19、；

20、；

21、；

22、；

23、其中，、和分别表示三个并行的通道注意力计算模块的一维卷积运算，表示通道维度，表示全局统计量；

24、对三个注意力权重的每一个特征维度进行归一化，得到三个最终的注意力权重，具体表示为：

25、；

26、；

27、；

28、其中，。

29、作为优选的技术方案，所述一维卷积运算的卷积核大小与通道维度成正比，具体表示为：

30、；

31、其中，表示取最近的奇数，和是自定义参数，表示通道维度，表示卷积核大小。

32、作为优选的技术方案，分别使用两个全连接层对特征信息和特征信息进行编码，得到特征信息和特征信息，具体表示为：

33、；

34、；

35、其中， w 3和 w 4是两个全连接层的权重矩阵， b 3和 b 4是相应的偏置向量，是sigmoid激活函数。

36、作为优选的技术方案，多分类交叉熵损失函数表示为：

37、；

38、其中， n s是样本数量， n a是年龄段数量， y i,j是一个指示器，对于第 i个样本属于第 j个年龄段时为1，否则为0， p i,j是年龄段分类器预测第 i个样本属于第 j个年龄段的概率；

39、ctc损失表示为：

40、；

41、；

42、；

43、；

44、；

45、其中， l ctc表示ctc损失，表示第个样本的输入音频序列，表示在时间步时选取的字符为的概率，表示第个样本的标注字符序列，表示与对齐的所有可能路径的集合，表示其中一条路径， k表示字符集合的大小， l表示时间步个数，表示全连接网络；

46、三元损失函数表示为：

47、；

48、其中， n t是三元组数量，是第个三元组中锚样本和负样本的相似度；是第个三元组中锚样本和正样本的相似度，是裕度；

49、身份识别器生成的特征向量作为锚样本，随机选择与锚样本来自同一说话人的样本作为正样本，来自不同说话人的样本作为负样本，共同组成每个训练样本的三元组。

50、作为优选的技术方案，对特征信息、特征信息、特征信息中同一时间步的特征向量两两计算余弦相似度，将所有时间步的相似度进行累加及求和，得到整体相似度：

51、；

52、基于多分类交叉熵损失函数、自动语音识别损失、三元损失函数和整体相似度构建最小-最大目标，表示为：

53、；

54、其中，表示整体相似度，表示编码器的参数，表示信息解耦模块的参数，表示两个全连接层的参数，、和分别表示年龄段分类器、自动语音解码器和身份识别器的参数，和表示对应目标的权重，表示多分类交叉熵损失函数；表示自动语音识别损失；表示三元损失函数，表示整体相似度对应的权重。

55、作为优选的技术方案，所述hifi-gan生成器包括依次连接的转置卷积层、自注意力计算模块、多感受野融合模块；

56、所述自注意力计算模块包括多头自注意力层和前馈神经网络。

57、作为优选的技术方案，将特征信息、特征信息和特征信息进行特征相加，相加后的特征信息输入至hifi-gan生成器中进行隐秘音频重建，输出隐秘音频，具体包括：

58、转置卷积层使用一维转置卷积操作对相加后的特征信息进行上采样，具体表示为：

59、；

60、其中，表示一维转置卷积运算；

61、自注意力计算模块进行多头自注意力计算，得到中间特征，表示为：

62、；

63、其中，表示多头自注意力计算；

64、多感受野融合模块将各个残差块的输出进行相加，具体表示为：

65、；

66、；

67、其中，表示残差块的运算；

68、迭代计算直至输出序列的长度与原始波形的时间分辨率相匹配，具体表示为：

69、；

70、其中，表示hifi-gan生成器的隐秘音频重建过程， p表示迭代次数，表示最终合成的隐秘音频。

71、本发明还提供一种基于多任务对抗解耦学习的语音隐私保护系统，用于实现上述基于多任务对抗解耦学习的语音隐私保护方法，该系统包括：语音信号获取模块、编码器、信息解耦模块、混淆模块、年龄段分类器、自动语音解码器、身份识别器、监督训练模块、整体相似度计算模块、最小-最大目标构建模块、隐秘音频重建模块；

72、所述语音信号获取模块用于获取语音信号；

73、所述编码器用于对语音信号进行声学特征提取，得到特征编码结果；

74、所述信息解耦模块用于基于三个并行的通道注意力计算模块进行多任务解耦特征学习，具体包括：

75、将特征编码结果进行一维全局自适应平均池化，得到各通道的全局统计量；

76、全局统计量经过三个并行的通道注意力计算模块的一维卷积运算，得到三个不同的注意力权重，所述一维卷积运算中卷积核参数不同，一维卷积运算的卷积核大小与通道维度成正比；

77、对三个不同的注意力权重的每一个特征维度进行归一化，得到三个最终的注意力权重；

78、基于三个最终的注意力权重对特征编码结果进行放缩，分别得到特征信息、特征信息、特征信息；

79、所述混淆模块分别使用两个全连接层对特征信息和特征信息进行编码，得到特征信息和特征信息；

80、所述年龄段分类器用于基于全连接网络对特征信息进行年龄段分类；

81、所述自动语音解码器用于基于transformer对特征信息进行自动语音解码；

82、所述身份识别器用于基于全连接网络对特征信息进行身份识别；

83、所述监督训练模块用于基于多分类交叉熵损失函数对年龄段分类进行监督训练，基于ctc损失和交叉熵损失构建自动语音识别损失对自动语音解码进行监督训练，基于三元损失函数对身份识别进行监督训练；

84、所述整体相似度计算模块用于基于对特征信息、特征信息、特征信息中同一时间步的特征向量两两计算余弦相似度，将所有时间步的相似度进行累加及求和，得到整体相似度；

85、所述最小-最大目标构建模块用于基于多分类交叉熵损失函数、自动语音识别损失、三元损失函数和整体相似度构建最小-最大目标；

86、所述隐秘音频重建模块用于将特征信息、特征信息和特征信息相加后的特征信息输入至hifi-gan生成器中进行隐秘音频重建，输出隐秘音频。

87、本发明与现有技术相比，具有如下优点和有益效果：

88、（1）本发明基于多任务解耦特征学习解决了语音信号中转录文本内容和身份信息难以同时保护的技术问题，将语音中的转录文本特征和身份特征作为特定属性进行保护，从而在维护隐私的同时避免丢失其中的年龄属性，并确保下游的年龄估计任务具有良好的预测精度，并且从隐私保护的角度出发添加相似度约束，实现高精度的年龄识别。

89、（2）本发明在hifi-gan生成器设置自注意力计算模块，能够有效地处理序列数据，捕捉复杂的依赖关系，使得多感受野融合模块能够专注于挖掘和捕获局部间及块间复杂的依赖关系，从而提升最终合成音频的保真度。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林舒源,廖海良,翁健,潘涛
技术所有人：暨南大学
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！