训练自动语音识别器的训练示例的生成的制作方法

文档序号：38034783发布日期：2024-05-17 13:19阅读：29来源：国知局

本发明涉及自动语音识别(asr)，并且更具体地，涉及针对对抗攻击(adversarialattack)训练自动语音识别器的示例生成。

背景技术：

1、对抗攻击正变得常见并且对机器学习模型造成严重威胁。不可感知自动语音识别(asr)攻击的可用性使得语音识别器对对抗攻击敏感。

2、对抗训练是强化机器学习模型针对此类对抗攻击的有效方式，并且因此语音识别器还可被对抗地训练以增加其对抗鲁棒性。

3、对抗训练语音识别器的主要挑战包括以下各项：生成对抗和不可感知的训练示例可能花费数小时并且需要大量计算资源。生成的训练示例需要是不可感知，因为在实践中，对模型的攻击将生成不可感知示例以欺骗人。这使得对抗训练不切实际，因为需要非常大量的训练示例。

4、对抗训练过程取决于用于生成对抗训练示例的预选攻击。在实践中，在真实世界攻击比预先选择的攻击更弱并且因此不能欺骗经训练的模型的自然假设下经常选择强攻击，诸如投影梯度下降(pgd)。然而，该假设难以保持在asr的领域中，因为对于这种机器学习模型可用的攻击数量有限。

技术实现思路

1、根据本发明的一方面，提供了一种用于生成用于训练自动语音识别器的训练示例的计算机实现的方法，该方法包括：接收原始音频信号的训练数据集；以及至少部分地基于为原始音频信号中的原始音频信号而构造的不可感知空间和构造的不可感知空间中的对抗音频示例来生成用于训练自动语音识别器的训练示例；以及生成用于自动语音识别器的对抗训练器的不可感知和对抗音频示例。

2、根据本发明的另一方面，提供了一种用于生成用于训练自动语音识别器的训练示例的系统，包括：处理器和存储器，存储器被配置为向处理器提供计算机程序指令以执行示例生成器的组件的功能，示例生成器包括：训练数据集接收组件，用于接收原始音频信号的训练数据集；不可感知空间组件，用于使用心理声学模型来构造原始音频信号的不可感知空间；对抗示例检查组件，用于通过用所述自动语音识别器检查候选对抗音频示例以确定与所述原始音频信号存在足够差异(sufficient difference)作为对抗音频示例来在所述不可感知空间中搜索对抗音频示例；以及示例生成器组件，生成用于自动语音识别器的对抗训练器的不可感知和对抗音频示例。

3、根据本发明的另一方面，提供了一种用于生成用于训练自动语音识别器的训练示例的计算机程序产品，所述计算机程序产品包括一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括：用于接收原始音频信号的训练数据集的程序指令；以及用于至少部分地基于为所述原始音频信号中的原始音频信号所构造的不可感知空间和所构造的不可感知空间中的对抗音频示例来生成用于训练自动语音识别器的训练示例的程序指令，其中，生成用于训练自动语音识别的训练示例的程序指令包括：使用心理声学模型构造原始音频信号的不可感知空间的程序指令，以及用于通过用自动语音识别器检查候选对抗音频示例以确定与原始音频信号存在足够差异作为对抗音频示例来在不可感知空间中搜索对抗音频示例的程序指令；以及用于对所述自动语音识别器的对抗训练器生成不可感知和对抗音频示例的程序指令。

4、计算机可读存储介质可为非暂时性计算机可读存储介质，且计算机可读程序代码可由处理电路执行。

技术特征：

1.一种计算机实现方法，包括：

2.根据权利要求1所述的计算机实现的方法，其中，至少部分地基于为原始音频信号而构造的不可感知空间和所述构造的不可感知空间中的对抗音频示例来生成用于训练自动语音识别器的训练示例包括：

3.根据权利要求2所述的计算机实现的方法，其中，使用心理声学模型构造每个所述原始音频信号的不可感知空间包括：

4.根据权利要求2所述的计算机实现的方法，其中，使用心理声学模型构造每个所述原始音频信号的不可感知空间包括：

5.根据权利要求1所述的计算机实现的方法，还包括：

6.根据权利要求5所述的计算机实现的方法，其中，适配生成策略包括调整原始音频信号的示例生成的重复次数。

7.根据权利要求2所述的计算机实现的方法，其中，检查候选对抗音频示例包括确定字错误率的足够差异。

8.根据权利要求2所述的计算机实现的方法，其中，检查候选对抗音频示例包括确定可配置的足够差异级别。

9.根据权利要求1所述的计算机实现的方法，还包括：

10.根据权利要求9所述的计算机实现的方法，其中，使用所述验证数据集通过所述验证数据集攻击所述语音识别器。

11.一种计算机系统，包括：

12.根据权利要求11所述的系统，其中，用于使用心理声学模型来构造每个所述原始音频信号的不可感知空间的所述不可感知空间组件包括：

13.根据权利要求11所述的系统，其中，用于使用心理声学模型来构造每个所述原始音频信号的不可感知空间的所述不可感知空间组件包括：

14.根据权利要求11所述的系统，还包括：

15.根据权利要求14所述的系统，包括重复组件，用于将音频信号的所述生成策略重复可适配次数。

16.根据权利要求11所述的系统，其中，所述对抗示例检查组件检查候选对抗音频示例包括确定字错误率的足够差异。

17.根据权利要求11所述的系统，其中，所述对抗示例检查组件包括确定可配置的足够差异级别。

18.根据权利要求11所述的系统，包括对抗训练器，所述对抗训练器包括：

19.根据权利要求18所述的系统，其中，所述验证组件使用所述验证数据集通过所述验证数据集攻击所述自动语音识别器。

20.一种计算机程序产品，包括：

技术总结
一种用于生成用于训练自动语音识别器的训练示例的方法、计算机程序产品和计算机系统。本发明的实施例可以接收原始音频信号的训练数据集，并且至少部分地基于为原始音频信号中的原始音频信号而构造的不可感知空间和构造的不可感知空间中的对抗音频示例来生成用于训练自动语音识别器的训练示例。然后，本发明的实施例可以生成用于自动语音识别器的对抗训练器的不可感知和对抗音频示例。

技术研发人员：N·M·泉恩,H·图因霍夫,B·比塞尔
受保护的技术使用者：国际商业机器公司
技术研发日：
技术公布日：2024/5/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N·M·泉恩,H·图因霍夫,B·比塞尔
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：一种光电模块检测设备及其检测方法与流程
上一篇：手性光敏化合物及中间体、相应的聚合性液晶组合物的制作方法