一种基于生成对抗网络的音频数据脱敏方法及系统

文档序号:34188623发布日期:2023-05-17 14:30阅读:152来源:国知局
一种基于生成对抗网络的音频数据脱敏方法及系统

本发明涉及人工智能和数据脱敏的交叉领域,更具体的说是涉及一种基于生成对抗网络的音频数据脱敏方法及系统。


背景技术:

1、对于类似于用户收入、医学影像和聊天记录等具有敏感隐私信息的数据,在进行统计分析前需要将敏感信息进行脱敏处理。而生成对抗网络(gan)可以在学习这些数据特征的基础上,自动生成和原始数据具有相同特征但不涉及用户隐私的数据集。作为半监督和无监督学习的最重要方法之一,随着物联网(iot),第五代无线系统(5g)和其他技术的发展,在网络边缘收集的大量数据为提高gan的功能提供了新途径。

2、随着人工智能技术的发展与逐渐成熟,人脸识别、语音识别、自动驾驶、智能家居已切实影响到日常生活。以上技术的实现,离不开大数据的支持,顾名思义,大数据的特征主要表现为数据量巨大。在国内,信息技术的发展助推了数据的爆炸式增长,数据量已从tb上升到pb级别,处理如此大的数据量,移动终端难以胜任。因此,数据被传入云端服务器,由云端服务器处理,但隐私、带宽和法律等因素的限制,将所有这些数据上传到云或服务器以进行gan的训练是不合适的。在应用人工智能的同时究竟应该怎么样更好地保护我们的安全隐私也很自然地成了当下人们共同关注的话题。因此,脱敏技术应运而生。

3、传统的脱敏技术主要采用数据替换、掩码屏蔽、加密、遮挡、编码化等方式,将隐私数据匿名化和匿名化。这类技术在实际应用中存在的问题是:隐私属性的定义和定位难度大,不能抵御重识别攻击,脱敏后的数据可用性有较大损失,表现为下游模型性能严重下降。而基于同态加密、安全多方计算等密码学防范是机器学习相关应用中数据隐私保护的重要途径,但计算或通信成本高,可能造成相关应用系统性能的幅度下降,非结构化的数据脱敏效率低。因此,包括音频数据在内的非结构化数据的有效脱敏方式亟待研究。

4、为此,如何提供一种能够对音频数据进行有效脱敏,且在有效保护用户隐私免遭泄露的同时,不影响甚至提高原本的识别器对所需信息的识别、分类精度的基于生成对抗网络的音频数据脱敏方法及系统是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种基于生成对抗网络的音频数据脱敏方法及系统,基于对抗训练的思想,在有效保护用户隐私免遭泄露的同时,不影响或提高原本的识别器对所需信息的识别、分类精度。

2、为了实现上述目的,本发明提供如下技术方案:

3、一种基于生成对抗网络的音频数据脱敏方法,包括以下步骤:

4、步骤1:分别构建编码器、公共属性分类器、隐私属性分类器以及重构器;

5、步骤2:对编码器、公共属性分类器、隐私属性分类器以及重构器进行对抗训练;

6、步骤3:重复对抗训练,直至公共属性分类器有效分类、隐私属性分类器无法有效分类以及重构器无法有效重构。

7、上述的方法,可选的,步骤2包括以下步骤:

8、步骤2.1:初始化公共属性分类器、隐私属性分类器以及重构器;

9、步骤2.2:计算由公共属性分类器的损失和重构器对噪声的损失构成的编码器损失,并反向传播、优化编码器;

10、步骤2.3:计算由公共属性分类器的损失和重构器对原音频数据的损失构成的编码器损失,并反向传播、优化编码器;

11、步骤2.4:计算由公共属性分类器的损失和隐私属性分类器的损失构成的编码器损失,并反向传播、优化编码器;

12、步骤2.5:计算隐私属性分类器的损失并反向传播、优化隐私属性分类器;计算重构器对原音频的的损失并反向传播、优化重构器;

13、步骤2.6:计算公共属性分类器的损失并反向传播、优化公共属性分类器。

14、上述的方法,可选的,步骤1中,构建公共属性分类器以及隐私属性分类器的网络结构一致,构建编码器以及重构器的网络结构镜像对称。

15、上述的方法,可选的,构建编码器以及重构器的网络结构镜像对称,即若编码器结构为卷积层、卷积层、池化层,则重构器结构为解池化、逆卷积、逆卷积。

16、上述的方法,可选的,步骤2.2中,计算由公共属性分类器的损失和重构器对噪声的损失构成的编码器损失,具体如下:

17、e_loss=c_loss+par*r1_loss

18、其中,e_loss为编码器损失;c_loss为公共属性分类器的损失;r1_loss为重构器对噪声的损失;par为权系数;参数优化方向为:使c_loss减小,r1_loss减小。

19、上述的方法,可选的,步骤2.3中,计算由公共属性分类器的损失和重构器对原音频数据的损失构成的编码器损失,具体如下:

20、e_loss=c_loss-par*r2_loss

21、其中,r2_loss为重构器对原音频数据的损失;参数优化方向为:使c_loss减小,r2_loss增大。

22、上述的方法,可选的,步骤2.4中,计算由公共属性分类器的损失和隐私属性分类器的损失构成的编码器损失,具体如下:

23、e_loss=c_loss-par*p_loss

24、其中,p_loss为隐私属性分类器的损失;参数优化方向为:使c_loss减小,p_loss增大。

25、上述的方法,可选的,步骤2.5中,计算隐私属性分类器的损失和重构器的损失的参数优化方向为使隐私属性分类器和重构器各自的损失增大。

26、上述的方法,可选的,步骤2.6中,计算公共属性分类器的损失的参数优化方向为使公共属性分类器的损失减小。

27、一种基于生成对抗网络的音频数据脱敏系统,应用上述的一种基于生成对抗网络的音频数据脱敏方法,包括依次连接的构建模块、训练模块、重复训练模块,其中,

28、构建模块,用于分别构建编码器、公共属性分类器、隐私属性分类器以及重构器;

29、训练模块,用于对编码器、公共属性分类器、隐私属性分类器以及重构器进行对抗训练;

30、重复训练模块,用于重复对抗训练,直至公共属性分类器有效分类、隐私属性分类器无法有效分类以及重构器无法有效重构。

31、一种存储介质,存储介质包括存储的指令,其中,在指令运行时控制存储介质所在的设备执行上述任一项的一种基于生成对抗网络的音频数据脱敏方法。

32、一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述任一项的一种基于生成对抗网络的音频数据脱敏方法。

33、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于生成对抗网络的音频数据脱敏方法及系统:通过构建编码器提取特征向量,对音频数据进行编码;通过构建公共属性分类器进行公共属性分类;通过构建脱敏所需要的隐私属性分类器和重构器模拟攻击者的攻击;通过对抗训练,编码器在与隐私属性分类器、重构器的对抗中逐步能够提取出代表公共属性的特征,脱去代表隐私属性的特征与蕴含重构信息的特征,从而实现音频数据的有效脱敏,且在有效保护用户隐私免遭泄露的同时,不影响甚至提高原本的识别器对所需信息的识别、分类精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1