语音处理方法、装置、计算机设备和存储介质与流程

文档序号：35921700发布日期：2023-11-04 06:48阅读：55来源：国知局

本申请涉及人工智能，特别是涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、随着人工智能技术的发展，语音处理的应用场景也越来越广泛，语音关键词检出技术作为语音识别中的一项子任务，是指在连续的语音流中检测是否存在预定的关键词，该技术被广泛的应用于语音唤醒、语音操控以及敏感词检测等场景中。以语音唤醒(keyword spotting，简称kws)的场景为例，由于kws系统通常需要处于长期开启的状态，并且多数情况下会运行在较低计算力的低资源平台上，因此其系统结构和设计都会更为精简，模型的参数量和体积会很小。在复杂场景下，例如说话人距离麦克风较远以及环境噪声较大的情况，噪声语音中关键词的识别结果的准确性会面临较大的挑战。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够在较低计算力的低资源平台，实现提高噪声语音中关键词的识别结果的准确性的语音处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种语音处理方法。所述方法包括：

3、获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量，所述关键词音频为语音音频中至少一部分关键词对应的音频，所述语音音频为声学模型的训练数据中的至少一部分；

4、对所述带噪语音进行编码处理，得到包含多个组成部分的编码数据；

5、将所述编码数据的每一组成部分分别与所述偏置向量进行拼接，得到目标拼接数据；

6、基于所述声学模型对所述目标拼接数据进行关键词识别，得到关键词识别结果。

7、第二方面，本申请还提供了一种语音处理装置。所述装置包括：

8、语音获取模块，用于获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量，所述关键词音频为语音音频中至少一部分关键词对应的音频，所述语音音频为声学模型的训练数据中的至少一部分；

9、语音编码模块，用于对所述带噪语音进行编码处理，得到包含多个组成部分的编码数据；

10、数据拼接模块，用于将所述编码数据的每一组成部分分别与所述偏置向量进行拼接，得到目标拼接数据；

11、关键词识别模块，用于基于所述声学模型对所述目标拼接数据进行关键词识别，得到关键词识别结果。

12、第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

13、获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量，所述关键词音频为语音音频中至少一部分关键词对应的音频，所述语音音频为声学模型的训练数据中的至少一部分；

14、对所述带噪语音进行编码处理，得到包含多个组成部分的编码数据；

15、将所述编码数据的每一组成部分分别与所述偏置向量进行拼接，得到目标拼接数据；

16、基于所述声学模型对所述目标拼接数据进行关键词识别，得到关键词识别结果。

17、第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

18、获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量，所述关键词音频为语音音频中至少一部分关键词对应的音频，所述语音音频为声学模型的训练数据中的至少一部分；

19、对所述带噪语音进行编码处理，得到包含多个组成部分的编码数据；

20、将所述编码数据的每一组成部分分别与所述偏置向量进行拼接，得到目标拼接数据；

21、基于所述声学模型对所述目标拼接数据进行关键词识别，得到关键词识别结果。

22、第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

23、获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量，所述关键词音频为语音音频中至少一部分关键词对应的音频，所述语音音频为声学模型的训练数据中的至少一部分；

24、对所述带噪语音进行编码处理，得到包含多个组成部分的编码数据；

25、将所述编码数据的每一组成部分分别与所述偏置向量进行拼接，得到目标拼接数据；

26、基于所述声学模型对所述目标拼接数据进行关键词识别，得到关键词识别结果。

27、上述语音处理方法、装置、计算机设备、存储介质和计算机程序产品，通过待进行关键词识别的带噪语音的编码，能避免带噪语音的信号处理前端对于非平稳噪声抑制难的问题，具有良好的噪声抑制能力，通过获取针对关键词音频提取得到的偏置向量，与待进行关键词识别的带噪语音的编码数据中的每一组成部分分别进行拼接，由于关键词音频为声学模型的至少一部分训练数据中至少一部分关键词对应的音频，通过偏置向量的拼接，能够有效地将关键词特征显式的融入编码数据，提高语音关键词识别过程在各种复杂声学场景下的性能，提高关键词识别结果的准确性，且上述处理过程拼接偏置向量所需要的数据处理资源消耗较少，能够很好的适配于低资源计算平台。

技术特征：

1.一种语音处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述编码数据的组成部分包括实部数据和虚部数据；

3.根据权利要求2所述的方法，其特征在于，所述对齐所述实部拼接数据和所述虚部拼接数据进行二次拼接，得到目标拼接数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求4或5所述的方法，其特征在于，所述训练集中的训练样本为干净语音与噪声的混合语音；所述带噪语音处理模型还包括增强网络；所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述声学模型对所述目标拼接数据进行关键词识别，得到关键词识别结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述声学模型包括依次连接的多个第一空洞时延卷积单元以及第二空洞时延卷积单元；

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.一种语音处理装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

技术总结
本申请涉及车辆网、人工智能、云数据等技术领域，提供了一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：获取待进行关键词识别的带噪语音、以及针对关键词音频提取得到的偏置向量，关键词音频为语音音频中至少一部分关键词对应的音频，语音音频为声学模型的训练数据中的至少一部分；对带噪语音进行编码处理，得到包含多个组成部分的编码数据；将编码数据的每一组成部分分别与偏置向量进行拼接，得到目标拼接数据；基于声学模型对目标拼接数据进行关键词识别，得到关键词识别结果。采用本方法能够提高语音关键词识别过程在各种复杂声学场景下的性能，提高关键词识别结果的准确性，能够很好的适配于低资源计算平台。

技术研发人员：王雄,吕术博,孙思宁
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王雄吕术博孙思宁
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种在流化床内壁设置硅涂层的方法与流程
上一篇：一种安全帽检测装置、方法和系统与流程