基于音素扰动的语音识别对抗样本生成方法及装置与流程

文档序号:36625030发布日期:2024-01-06 23:18阅读:63来源:国知局

本发明涉及基于音素扰动的语音识别对抗样本生成方法,同时涉及基于音素扰动的语音识别对抗样本生成装置,属于深度学习。


背景技术:

1、基于深度学习的语音识别领域是人工智能中的一个重要研究领域,如自动语音识别(automatic speech recognition,asr),声纹识别(voiceprint recognition,vpr)等,如今的自动语音识别系统几乎全部采用了深度神经网络架构。然而,尽管取得了长足的成就和良好的效果,研究证明,深度神经网络很容易受到人为设计的对抗样本的影响,对深度神经网络在可靠性需求较大的场景中的应用提出了安全挑战。

2、自动语音识别系统应用在银行的声纹身份识别,多种智慧场景的语音中控,自动驾驶等多种安全级别较高的场景,所以语音识别系统的安全性更加重要。通过在语音输入中添加难以察觉的对抗扰动,会使模型输出错误的分类预测,从而导致模型推理出现错误。

3、另外,现实生活中的音频识别智能应用可能被用于不良的社会目的,例如手机应用通过窃取用户的音频信息进而分析他们的行为。因此,近年来保护用户隐私的需求不断增加并广受重视。作为一种影响模型决策的攻击手段,对抗样本为用户隐私保护提供了新的选择。通过开展对抗攻击研究,可以生成具有通用攻击性的对抗噪声,从而误导窃听者用于分析语音的智能模型,能够为深度学习时代的隐私保护提供一种新的可行解决方案,吸引了研究人员的广泛关注。

4、基于以上背景,研究研制语音对抗样本生成以对应用中的智能语音识别具有重要意义。除了用于测试现有深度学习语音识别模型的安全性与稳定性,还能够在更加严苛的场景下(例如物理世界)对现有模型的安全性与稳定性进行评估,便于指导基于深度学习的语音识别模型的优化方向,以提升语音识别算法模型的安全性与稳定性。同时,这种扰动在一定程度上也能够在安全性场景保护语音数据不被窃听,它能够干扰窃听者的对于音频的转录,使其获取信息只能通过人耳分辨,增加了窃听者的工作难度,是一种可行的语音隐私保护方案。


技术实现思路

1、本发明要解决的技术问题在于,克服现有的技术的不足,提供基于音素扰动的语音识别对抗样本生成方法及装置,不仅能够提升语音识别算法模型的安全性与稳定性,还能够保护用户语音隐私。

2、为达到上述技术目的,一方面,本发明提供的基于音素扰动的语音识别对抗样本生成方法,包括:

3、从音频数据集中,获取采样样本;

4、将音素噪声以滑动的方式注入采样样本的不同音频片段中,生成对抗样本。

5、其中较优地,所述从音频数据集中,获取采样样本,具体包括:

6、在音频数据集中选取音素密度满足预设条件的音频样本为采样样本;所述音素密度为单位长度内音频样本的音素数量。

7、其中较优地,所述在音频数据集中选取音素密度满足预设条件的音频样本为采样样本,具体包括:

8、计算音频数据集中各音频样本的音素密度;

9、通过各音频样本的音素密度计算音频数据集的平均音素密度;

10、选取音素密度与平均音素密度差值不大于音素密度阈值的音频样本为选取样本;

11、获取长度和振幅都大于对应预设阈值的选取样本为采样样本。

12、其中较优地,所述将音素噪声以滑动的方式注入采样样本的不同音频片段中,生成对抗样本,具体包括:

13、基于深度学习,通过将音素噪声以滑动的方式注入采样样本的不同音频片段,优化音素噪声,输出音素对抗噪声;

14、将音素对抗噪声与普通音频样本结合,得到对抗样本。

15、其中较优地,所述基于深度学习,通过将音素噪声以滑动的方式注入采样样本的不同音频片段,优化音素噪声,具体包括:

16、针对每次优化迭代,音素噪声以滑动步长可变地注入采样样本的不同音频片段;

17、针对被注入音素噪声的采样样本,通过损失函数优化音素噪声。

18、其中较优地,所述音素噪声以滑动步长可变地注入采样样本,可表示为:

19、

20、公式(7)中,表示音素噪声注入模块;clip(·)表示剪切函数,该函数依据剪切区间[a,b]将输入的采样样本x剪切为长度为b-a的片段,其中a为剪切起始时间点,b为剪切终止时间点;是一个拼接函数;n为迭代的轮次,lx是训练期间采样样本x的长度,是音素噪声δp的长度,β是滑动窗口的步长。

21、其中较优地,所述优化过程可表示为:

22、

23、公式(8)中,为ctc损失函数,表示语音识别模型,为rir函数,||·||∞是无穷范数,min表示最小化,x表示采样样本数据集,∈表示约束值。

24、其中较优地,所述选取样本的表达式为:

25、

26、公式(5)中,d表示音频数据集的平均音素密度,表示音频样本的音素密,度,counter(·)表示计数器函数,ψ(·)表示音素识别器函数,α表示音素密度阈值,x表示音频样本,lx表示音频样本的长度。

27、另一方面,本发明提供的基于音素扰动的语音识别对抗样本生成装置,包括:

28、选取单元,用于从音频数据集中,获取采样样本;

29、生成单元,用于将音素噪声以滑动的方式注入采样样本的不同音频片段中,生成对抗样本。

30、第三方面,本发明提供的基于音素扰动的语音识别对抗样本生成系统,包括:处理器和存储器,所述处理器读取所诉存储器中的计算机程序,用于执行以下操作:

31、从音频数据集中,获取采样样本;

32、将音素噪声以滑动的方式注入采样样本的不同音频片段中,生成对抗样本。

33、在本发明中,将音素噪声以滑动的方式注入采样样本的不同音频片段中而生成对抗样本,并非简单的将噪声重复地输入至音频样本后对齐。本发明所生成的对抗样本可以更好地得到不同因素样本的关键表征,进而可以激活识别模型的不确定性,从而获得更强的通用攻击能力。本发明所生成的对抗样本可以有效评估语音识别模型的对抗鲁棒性和应用安全性。此外,本发明所生成的对抗样本所进行的音素对抗攻击也可以指出语音识别中的音素特征的关键重要作用,对后续语音识别的模型设计和特征抽取具有一定的指导性作用。



技术特征:

1.一种基于音素扰动的语音识别对抗样本生成方法,其特征在于,包括:

2.根据权利要求1所述的基于音素扰动的语音识别对抗样本生成方法,其特征在于,所述从音频数据集中,获取采样样本,具体包括:

3.根据权利要求2所述的基于音素扰动的语音识别对抗样本生成方法,其特征在于,所述在音频数据集中选取音素密度满足预设条件的音频样本为采样样本,具体包括:

4.根据权利要求1所述的基于音素扰动的语音识别对抗样本生成方法,其特征在于,所述将音素噪声以滑动的方式注入采样样本的不同音频片段中,生成对抗样本,具体包括:

5.根据权利要求4所述的基于音素扰动的语音识别对抗样本生成方法,其特征在于,所述基于深度学习,通过将音素噪声以滑动的方式注入采样样本的不同音频片段,优化音素噪声,具体包括:

6.根据权利要求5所述的基于音素扰动的语音识别对抗样本生成方法,其特征在于,所述音素噪声以滑动步长可变地注入采样样本,可表示为:

7.根据权利要求6所述的基于音素扰动的语音识别对抗样本生成方法,其特征在于,所述优化过程可表示为:

8.根据权利要求3所述的基于音素扰动的语音识别对抗样本生成方法,其特征在于,所述选取样本的表达式为:

9.一种基于音素扰动的语音识别对抗样本生成装置,其特征在于,包括:

10.一种基于音素扰动的语音识别对抗样本生成系统,其特征在于,包括:处理器和存储器,所述处理器读取所诉存储器中的计算机程序,用于执行以下操作:


技术总结
本发明涉及基于音素扰动的语音识别对抗样本生成方法,同时涉及基于音素扰动的语音识别对抗样本生成装置,属于深度学习技术领域。所述方法包括:从音频数据集中,获取采样样本;将音素噪声以滑动的方式注入采样样本的不同音频片段中,生成对抗样本。本发明不仅能够提升语音识别算法模型的安全性与稳定性,还能够保护用户语音隐私。

技术研发人员:王嘉凯,刘祥龙,胡琎
受保护的技术使用者:北京中关村实验室
技术研发日:
技术公布日:2024/1/5
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!