音频信号处理方法、装置、设备及存储介质与流程

文档序号：35920087发布日期：2023-11-04 02:44阅读：54来源：国知局

本公开涉及音频信号处理，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术：

1、语音增强算法在实时通信领域与语音识别领域有着广泛的应用。语音增强的目的是为了提高语音在复杂噪声环境下的信噪比和可懂度，从而提升人与人交流以及人与机器交互的体验。而在语音增强技术中，声学回声消除和噪声抑制又是其中重要的组成部分。

2、相关技术通常采用基于深度学习的回声消除系统对音频信号进行声学回声消除和噪声抑制，该基于深度学习的回声消除系统一般采用对称窗实现。然而相关技术在声学回声消除和噪声抑制过程中引入了较大的延时，降低了实时通讯体验。例如，对称窗的窗长度为32ms，帧移为10ms，该对称窗在时频转换过程中，引入了22ms的算法延时，该算法延时严重降低了实时通讯体验。

技术实现思路

1、本公开提供一种音频信号处理方法、装置、设备及存储介质，以至少解决相关技术在声学回声消除和噪声抑制过程中引入了较大的延时，降低了实时通讯体验的问题。本公开的技术方案如下：

2、根据本公开实施例的第一方面，提供一种音频信号处理方法，包括：

3、获取待处理音频信号和非对称分析窗函数；所述非对称分析窗函数包括相邻的第一左半窗和第一右半窗；所述第一左半窗的窗长度大于所述第一右半窗的窗长度；

4、基于所述第一左半窗和第一右半窗，分别对所述待处理音频信号中的第一时间段内的音频信号和第二时间段内的音频信号进行加窗处理，得到所述第一左半窗对应的第一加窗信号和所述第一右半窗对应的第二加窗信号；所述第一时间段为与所述第一左半窗的窗长度对应的时间段，所述第二时间段为与所述第一右半窗的窗长度对应的时间段；

5、根据所述第一加窗信号和所述第二加窗信号对所述待处理音频信号进行合成，得到所述待处理音频信号对应的合成音频信号；所述合成音频信号对应的合成时间由所述第二时间段确定。

6、在一个可选的实施例中，所述基于所述第一左半窗和第一右半窗，分别对所述待处理音频信号中的第一时间段内的音频信号和第二时间段内的音频信号进行加窗处理，得到所述第一左半窗对应的第一加窗信号和所述第一右半窗对应的第二加窗信号，包括：

7、确定所述第一左半窗与所述第一时间段内的音频信号的第一乘积，得到所述第一加窗信号；以及确定所述第一右半窗与所述第二时间段内的音频信号的第二乘积，得到所述第二加窗信号。

8、在一个可选的实施例中，所述根据所述第一加窗信号和所述第二加窗信号对所述待处理音频信号进行合成，得到所述待处理音频信号对应的合成音频信号，包括：

9、对所述第一加窗信号和所述第二加窗信号进行傅里叶变换，得到变换后的音频信号；

10、对所述变换后的音频信号进行降噪处理得到降噪音频信号；

11、对所述降噪音频信号进行傅里叶逆变换，得到所述逆变换后的音频信号；

12、对所述逆变换后的音频信号进行合成，得到所述待处理音频信号对应的合成音频信号。

13、在一个可选的实施例中，所述第一加窗信号为所述第一左半窗与所述第一时间段内的音频信号的第一乘积，所述第二加窗信号为所述第一右半窗与所述第二时间段内的音频信号的第二乘积；所述对所述第一加窗信号和所述第二加窗信号进行傅里叶变换，得到变换后的音频信号，包括：

14、对所述第一乘积中的音频信号进行傅里叶变换，得到第一左半窗与第一变换音频信号的乘积；以及对所述第二乘积中的音频信号进行傅里叶变换，得到第一右半窗与第二变换音频信号的乘积；

15、根据所述第一左半窗与第一变换音频信号的乘积以及所述第一右半窗与第二变换音频信号的乘积，生成所述变换后的音频信号。

16、在一个可选的实施例中，所述对所述变换后的音频信号进行降噪处理得到降噪音频信号，包括：

17、对所述第一左半窗与第一变换音频信号的乘积中的第一变换音频信号进行降噪处理，得到第一左半窗与第一降噪音频信号的乘积；以及对所述第一右半窗与第二变换音频信号的乘积中的第二变换音频信号进行降噪处理，得到第一右半窗与第二降噪音频信号的乘积；

18、根据所述第一左半窗与第一降噪音频信号的乘积以及所述第一右半窗与第二降噪音频信号的乘积，生成所述降噪音频信号。

19、在一个可选的实施例中，所述对所述降噪音频信号进行傅里叶逆变换，得到所述逆变换后的音频信号，包括：

20、对所述第一左半窗与第一降噪音频信号的乘积中的第一降噪音频信号进行傅里叶逆变换，得到第一左半窗与第一逆变换音频信号的第三乘积；以及对所述第一右半窗与第二降噪音频信号的乘积中的第二降噪音频信号进行傅里叶逆变换，得到第一右半窗与第二逆变换音频信号的第四乘积；

21、根据所述第三乘积和所述第四乘积，生成所述逆变换后的音频信号。

22、在一个可选的实施例中，所述对所述逆变换后的音频信号进行合成，得到所述待处理音频信号对应的合成音频信号，包括：

23、获取非对称合成窗函数；所述非对称合成窗函数为基于所述非对称分析窗函数生成，所述非对称合成窗函数的窗长度等于所述非对称分析窗函数的窗长度，所述非对称合成窗函数和所述非对称分析窗函数的乘积为预设对称窗函数；所述非对称合成窗函数为对预设对称窗函数进行变形得到；

24、基于所述非对称合成窗函数对所述逆变换后的音频信号进行合成，得到所述待处理音频信号对应的合成音频信号。

25、在一个可选的实施例中，所述预设对称窗函数包括窗长度为第一长度的第一预设对称窗函数以及窗长度为第二长度的第二预设对称窗函数，所述第二长度大于所述第一长度；所述第一预设对称窗函数包括窗长度为第一长度的一半的第一预设左半窗和第一预设右半窗，所述第二预设对称窗函数包括窗长度为第二长度的一半的第二预设左半窗和第二预设右半窗；所述非对称合成窗函数包括第二左半窗和第二右半窗，所述第二右半窗为所述第一右半窗，所述第二左半窗为所述第一预设左半窗与所述第一左半窗的比值；所述第一右半窗为对所述第一预设右半窗进行开方运算得到，所述第一左半窗为对所述第二预设左半窗进行开方运算；

26、所述逆变换后的音频信号包括第一左半窗与第一逆变换音频信号的第三乘积以及所述第一右半窗与第二逆变换音频信号的第四乘积；所述基于所述非对称合成窗函数对所述逆变换后的音频信号进行合成，得到所述待处理音频信号对应的合成音频信号，包括：

27、确定所述第三乘积与第二左半窗之间的乘积，得到第一预设左半窗与第一逆变换音频信号的乘积；确定所第四乘积与所述第二右半窗之间的乘积，得到第一预设右半窗与第二逆变换音频信号的乘积；

28、根据第一预设左半窗与第一逆变换音频信号的乘积以及所述第一预设右半窗与第二逆变换音频信号的乘积，生成所述合成音频信号。

29、在一个可选的实施例中，所述非对称分析窗函数还包括幅度为零的第一全零段，所述第一左半窗位于所述第一全零段和所述第一右半窗之间；所述方法还包括：

30、基于所述第一全零段对所述待处理音频信号中的第三时间段内的音频信号进行加窗处理，以降低所述待处理音频信号在时域的信号混叠程度，得到所述第一全零段对应的第三加窗信号；所述第三时间段为与所述第一全零段的窗长度对应的时间段；

31、所述根据所述第一加窗信号和所述第二加窗信号对所述待处理音频信号进行合成，得到所述待处理音频信号对应的合成音频信号，包括：

32、根据所述第一加窗信号、所述第二加窗信号和所述第三加窗信号对所述待处理音频信号进行合成，得到所述待处理音频信号对应的合成音频信号。

33、在一个可选的实施例中，所述非对称合成窗函数还包括第二全零段，所述第二左半窗位于所述第二全零段和所述第二右半窗之间；所述逆变换后的音频信号包括第一左半窗与第一逆变换音频信号的第三乘积、所述第一右半窗与第二逆变换音频信号的第四乘积以及所述第一全零段与第三逆变换音频信号的第五乘积；所述第三逆变换音频信号为对所述第三时间段内的音频信号依次进行傅里叶变换、降噪处理和傅里叶逆变换得到；

34、所述基于所述非对称合成窗函数对所述逆变换后的音频信号进行合成，得到所述待处理音频信号对应的合成音频信号，包括：

35、确定所述第三乘积与第二左半窗之间的乘积，得到第一预设左半窗与第一逆变换音频信号的乘积；确定所述第四乘积与所述第二右半窗之间的乘积，得到第一预设右半窗与第二逆变换音频信号的乘积；确定所述第五乘积与所述第二全零段之间的乘积，得到目标全零段信号；

36、根据所述目标全零段信号、所述第一预设左半窗与第一逆变换音频信号的乘积以及所述第一预设右半窗与第二逆变换音频信号的乘积，生成所述合成音频信号。

37、在一个可选的实施例中，所述对所述变换后的音频信号进行降噪处理得到降噪音频信号，包括：

38、对所述变换后的音频信号进行降噪处理，得到所述变换后的音频信号的语音幅度信息；并根据所述语音幅度信息生成所述降噪音频信号；

39、所述对所述降噪音频信号进行傅里叶逆变换，得到所述逆变换后的音频信号，包括：

40、组合所述语音幅度信息和所述变换后的音频信号，对组合结果进行傅里叶逆变换处理，得到所述逆变换后的音频信号。

41、根据本公开实施例的第二方面，提供一种音频信号处理装置，包括：

42、音频信号获取模块，被配置为执行获取待处理音频信号和非对称分析窗函数；所述非对称分析窗函数包括相邻的第一左半窗和第一右半窗；所述第一左半窗的窗长度大于所述第一右半窗的窗长度号；

43、加窗模块，被配置为执行基于所述第一左半窗和第一右半窗，分别对所述待处理音频信号中的第一时间段内的音频信号和第二时间段内的音频信号进行加窗处理，得到所述第一左半窗对应的第一加窗信号和所述第一右半窗对应的第二加窗信号；所述第一时间段为与所述第一左半窗的窗长度对应的时间段，所述第二时间段为与所述第一右半窗的窗长度对应的时间段；

44、合成模块，被配置为执行根据所述第一加窗信号和所述第二加窗信号对所述待处理音频信号进行合成，得到所述待处理音频信号对应的合成音频信号；所述合成音频信号对应的合成时间由所述第二时间段确定。

45、在一个可选的实施例中，所述加窗模块，包括：

46、乘积确定单元，被配置为执行确定所述第一左半窗与所述第一时间段内的音频信号的第一乘积，得到所述第一加窗信号；以及确定所述第一右半窗与所述第二时间段内的音频信号的第二乘积，得到所述第二加窗信号。

47、在一个可选的实施例中，所述合成模块，包括：

48、傅里叶变换单元，被配置为执行对所述第一加窗信号和所述第二加窗信号进行傅里叶变换，得到变换后的音频信号；

49、降噪单元，被配置为执行对所述变换后的音频信号进行降噪处理得到降噪音频信号；

50、逆变换单元，被配置为执行对所述降噪音频信号进行傅里叶逆变换，得到所述逆变换后的音频信号；

51、合成音频信号生成单元，被配置为执行对所述逆变换后的音频信号进行合成，得到所述待处理音频信号对应的合成音频信号。

52、在一个可选的实施例中，所述傅里叶变换单元，包括：

53、变换子单元，被配置为执行对所述第一乘积中的音频信号进行傅里叶变换，得到第一左半窗与第一变换音频信号的乘积；以及对所述第二乘积中的音频信号进行傅里叶变换，得到第一右半窗与第二变换音频信号的乘积；

54、变换乘积处理子单元，被配置为执行根据所述第一左半窗与第一变换音频信号的乘积以及所述第一右半窗与第二变换音频信号的乘积，生成所述变换后的音频信号。

55、在一个可选的实施例中，所述降噪单元，包括：

56、信号降噪子单元，被配置为执行对所述第一左半窗与第一变换音频信号的乘积中的第一变换音频信号进行降噪处理，得到第一左半窗与第一降噪音频信号的乘积；以及对所述第一右半窗与第二变换音频信号的乘积中的第二变换音频信号进行降噪处理，得到第一右半窗与第二降噪音频信号的乘积；

57、降噪乘积处理子单元，被配置为执行根据所述第一左半窗与第一降噪音频信号的乘积以及所述第一右半窗与第二降噪音频信号的乘积，生成所述降噪音频信号。

58、在一个可选的实施例中，所述逆变换单元，包括：

59、信号逆变换子单元，被配置为执行对所述第一左半窗与第一降噪音频信号的乘积中的第一降噪音频信号进行傅里叶逆变换，得到第一左半窗与第一逆变换音频信号的第三乘积；以及对所述第一右半窗与第二降噪音频信号的乘积中的第二降噪音频信号进行傅里叶逆变换，得到第一右半窗与第二逆变换音频信号的第四乘积；

60、逆变换乘积处理子单元，被配置为执行根据所述第三乘积和所述第四乘积，生成所述逆变换后的音频信号。

61、在一个可选的实施例中，所述合成音频信号生成单元，包括：

62、非对称合成窗函数获取子单元，被配置为执行获取非对称合成窗函数；所述非对称合成窗函数为基于所述非对称分析窗函数生成，所述非对称合成窗函数的窗长度等于所述非对称分析窗函数的窗长度，所述非对称合成窗函数和所述非对称分析窗函数的乘积为预设对称窗函数；所述非对称合成窗函数为对预设对称窗函数进行变形得到；

63、逆变信号合成子单元，被配置为执行基于所述非对称合成窗函数对所述逆变换后的音频信号进行合成，得到所述待处理音频信号对应的合成音频信号。

64、在一个可选的实施例中，所述预设对称窗函数包括窗长度为第一长度的第一预设对称窗函数以及窗长度为第二长度的第二预设对称窗函数，所述第二长度大于所述第一长度；所述第一预设对称窗函数包括窗长度为第一长度的一半的第一预设左半窗和第一预设右半窗，所述第二预设对称窗函数包括窗长度为第二长度的一半的第二预设左半窗和第二预设右半窗；所述非对称合成窗函数包括第二左半窗和第二右半窗，所述第二右半窗为所述第一右半窗，所述第二左半窗为所述第一预设左半窗与所述第一左半窗的比值；所述第一右半窗为对所述第一预设右半窗进行开方运算得到，所述第一左半窗为对所述第二预设左半窗进行开方运算；

65、所述逆变换后的音频信号包括第一左半窗与第一逆变换音频信号的第三乘积以及所述第一右半窗与第二逆变换音频信号的第四乘积；上述逆变信号合成子单元，包括：

66、乘积确定子单元，被配置为执行确定所述第三乘积与第二左半窗之间的乘积，得到第一预设左半窗与第一逆变换音频信号的乘积；确定所第四乘积与所述第二右半窗之间的乘积，得到第一预设右半窗与第二逆变换音频信号的乘积；

67、逆变信号乘积处理子单元，被配置为执行根据第一预设左半窗与第一逆变换音频信号的乘积以及所述第一预设右半窗与第二逆变换音频信号的乘积，生成所述合成音频信号。

68、在一个可选的实施例中，所述非对称分析窗函数还包括幅度为零的第一全零段，所述第一左半窗位于所述第一全零段和所述第一右半窗之间；所述装置还包括：

69、全零加窗模块，被配置为执行基于所述第一全零段对所述待处理音频信号中的第三时间段内的音频信号进行加窗处理，以降低所述待处理音频信号在时域的信号混叠程度，得到所述第一全零段对应的第三加窗信号；所述第三时间段为与所述第一全零段的窗长度对应的时间段；

70、相应地，所述合成模块，被配置为执行根据所述第一加窗信号、所述第二加窗信号和所述第三加窗信号对所述待处理音频信号进行合成，得到所述待处理音频信号对应的合成音频信号。

71、在一个可选的实施例中，所述非对称合成窗函数还包括第二全零段，所述第二左半窗位于所述第二全零段和所述第二右半窗之间；所述逆变换后的音频信号包括第一左半窗与第一逆变换音频信号的第三乘积、所述第一右半窗与第二逆变换音频信号的第四乘积以及所述第一全零段与第三逆变换音频信号的第五乘积；所述第三逆变换音频信号为对所述第三时间段内的音频信号依次进行傅里叶变换、降噪处理和傅里叶逆变换得到；

72、所述逆变信号合成子单元，包括：

73、乘积生成子单元，被配置为执行确定所述第三乘积与第二左半窗之间的乘积，得到第一预设左半窗与第一逆变换音频信号的乘积；确定所述第四乘积与所述第二右半窗之间的乘积，得到第一预设右半窗与第二逆变换音频信号的乘积；确定所述第五乘积与所述第二全零段之间的乘积，得到目标全零段信号；

74、合成信号确定子单元，被配置为执行根据所述目标全零段信号、所述第一预设左半窗与第一逆变换音频信号的乘积以及所述第一预设右半窗与第二逆变换音频信号的乘积，生成所述合成音频信号。

75、在一个可选的实施例中，所述降噪单元，被配置为执行对所述变换后的音频信号进行降噪处理，得到所述变换后的音频信号的语音幅度信息；并根据所述语音幅度信息生成所述降噪音频信号；

76、相应地，所述逆变换单元，被配置为执行组合所述语音幅度信息和所述变换后的音频信号，对组合结果进行傅里叶逆变换处理，得到所述逆变换后的音频信号。

77、根据本公开实施例的第三方面，提供一种音频信号处理的电子设备，包括：

78、处理器；

79、用于存储所述处理器可执行指令的存储器；

80、其中，所述处理器被配置为执行所述指令，以实现如上述任一实施方式所述的音频信号处理方法。

81、根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备执行如上述任一实施方式所述的音频信号处理方法。

82、根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一实施方式所述的音频信号处理方法。

83、本公开的实施例提供的技术方案至少带来以下有益效果：

84、本公开的实施例提供的音频信号处理方法、装置、电子设备及存储介质，通过非对称分析窗中的第一左半窗和第一右半窗，分别对待处理音频信号中的第一时间段内的音频信号和第二时间段内的音频信号进行加窗处理，得到第一左半窗对应的第一加窗信号和第一右半窗对应的第二加窗信号；根据第一加窗信号和第二加窗信号对待处理音频信号进行合成，得到待处理音频信号对应的合成音频信号；合成音频信号对应的合成时间由第二时间段确定。由于该第一左半窗的窗长度大于第一右半窗的窗长度，第一时间段为与第一左半窗的窗长度对应的时间段，第二时间段为与第一右半窗的窗长度对应的时间段，由此实现了基于非对称窗的形式将待处理音频信号从时域转换为频域。由于非对称分析窗函数包括相邻的第一左半窗和第一右半窗，第一左半窗的窗长度大于第一右半窗的窗长度，由此使得非对称分析窗的有效窗长度由第一左半窗的窗长度和第一右半窗的窗长度之和确定，即由第一时间段和第二时间段对应的时间之和确定，从而使得有效窗长度较长，而分析窗有效长度较长，分析的时间就会越多，因而能够获取更好的频率分辨率；而合成音频信号对应的合成时间由所述第二时间段确定，使得音频信号对应的合成时间较短，而合成时间较短，时间精度就会越小，因而能够获取更好的时间分辨率，从而实现了在将待处理音频信号从时域转换为频域的同时，降低了时频变换的算法延时，提高了实时通讯体验。

85、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩润强赵昊然李楠郑羲光张晨
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人