语音处理方法、装置、电子设备及存储介质与流程

文档序号:36388380发布日期:2023-12-15 03:48阅读:48来源:国知局
语音处理方法与流程

本技术涉及音频信号处理,特别是涉及一种语音处理方法、装置、电子设备及存储介质。


背景技术:

1、目前,多通道语音场景下有多个麦克风通道,为了适应不同空间感保留要求的场景,需要调整语音处理过程中输入和输出通道数量。然而相关技术中,语音处理网络往往和某个特定的麦克风阵型或者麦克风数量绑定,无法适应不同空间感保留要求的场景,若重新设计语音处理网络,则会增加网络部署的工作量,降低语音处理的效率。


技术实现思路

1、以下是对本技术详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本技术实施例提供了一种语音处理方法、装置、电子设备及存储介质,能够提高语音处理的效率。

3、一方面,本技术实施例提供了一种语音处理方法,包括:

4、获取多个通道的待处理语音,提取所述待处理语音在各个子带下的时频子特征;

5、对同一子带下各个通道的所述时频子特征进行变换,得到第一变换特征,将同一子带下多个通道的所述第一变换特征进行加权,根据加权结果得到各个子带下的原始子带特征;

6、沿频域维度对多个子带下的所述原始子带特征进行频带间关系分析,根据分析结果将所述原始子带特征映射为深度子带特征;

7、将至少两个通道的所述第一变换特征与对应子带下的所述深度子带特征进行拼接,得到拼接特征,对同一子带下各个通道的所述拼接特征进行变换,得到第二变换特征,基于所述第二变换特征将对应通道的所述待处理语音转换为目标语音;

8、其中,在对所述时频子特征或者所述拼接特征中的至少之一进行变换时,不同通道之间共享变换参数。

9、另一方面,本技术实施例还提供了一种语音处理方法,包括:

10、获取多个通道的待处理语音,提取所述待处理语音在各个子带下的时频子特征;

11、对同一子带下各个通道的所述时频子特征进行变换,得到第一变换特征,将同一子带下多个通道的所述第一变换特征进行加权,根据加权结果得到各个子带下的原始子带特征,其中,在对所述时频子特征进行变换时,不同通道之间共享变换参数;

12、沿频域维度对多个子带下的所述原始子带特征进行频带间关系分析,根据分析结果将所述原始子带特征映射为深度子带特征;

13、将其中一个通道的所述第一变换特征与对应子带下的所述深度子带特征进行拼接,得到拼接特征,对所述拼接特征进行变换,得到第二变换特征,基于所述第二变换特征将对应通道的所述待处理语音转换为目标语音。

14、另一方面,本技术实施例还提供了一种语音处理装置,包括:

15、第一提取模块,用于获取多个通道的待处理语音,提取所述待处理语音在各个子带下的时频子特征;

16、第一变换模块,用于对同一子带下各个通道的所述时频子特征进行变换,得到第一变换特征,将同一子带下多个通道的所述第一变换特征进行加权,根据加权结果得到各个子带下的原始子带特征;

17、第一分析模块,用于沿频域维度对多个子带下的所述原始子带特征进行频带间关系分析,根据分析结果将所述原始子带特征映射为深度子带特征;

18、第一转换模块,用于将至少两个通道的所述第一变换特征与对应子带下的所述深度子带特征进行拼接,得到拼接特征,对同一子带下各个通道的所述拼接特征进行变换,得到第二变换特征,基于所述第二变换特征将对应通道的所述待处理语音转换为目标语音;

19、其中,在对所述时频子特征或者所述拼接特征中的至少之一进行变换时,不同通道之间共享变换参数。

20、进一步,上述第一变换模块具体用于:

21、获取多个通道的所述待处理语音之间的多通道空间特征,其中,所述多通道空间特征用于指示不同通道的所述待处理语音之间的参数差异;

22、沿频域维度对所述多通道空间特征进行频带切分,得到所述多通道空间特征在各个子带下的空间子特征;

23、将所述空间子特征与对应子带的加权结果进行融合,得到各个子带下的原始子带特征。

24、进一步,上述第一变换模块还用于:

25、对各个子带下的所述空间子特征进行变换,得到第三变换特征,其中,所述第三变换特征与所述第一变换特征的特征维度相同;

26、将所述第三变换特征与对应子带的加权结果进行融合,得到各个子带下的原始子带特征。

27、进一步,上述第一分析模块具体用于:

28、将多个子带下的所述原始子带特征沿频域维度的方向进行堆叠,得到第一张量;

29、对所述第一张量中的所述原始子带特征进行频带间关系分析,根据分析结果将所述第一张量映射为深度频带特征;

30、沿着频域维度对所述深度频带特征进行频带切分,得到各个所述原始子带特征对应的深度子带特征。

31、进一步,上述第一分析模块还用于:

32、将所述第一张量输入至频带划分与交互神经网络;

33、沿时域维度对所述第一张量中的所述原始子带特征进行特征序列关系分析,得到第二张量,其中,所述第二张量用于指示各个所述原始子带特征在时域上的特征变化情况;

34、基于所述第二张量沿频域维度对所述第一张量中的所述原始子带特征进行频带间关系分析,得到深度频带特征。

35、进一步,上述第一分析模块还用于:

36、对所述第二张量进行特征维度变换,得到第三张量,其中,所述第三张量包括多个时间帧对应的时域子带特征,所述时域子带特征为所述原始子带特征沿时域维度的方向进行特征维度变换后得到的特征;

37、沿频域维度对所述第三张量中的所述时域子带特征进行频带间关系分析,得到第四张量;

38、对所述第四张量进行特征维度变换,得到深度频带特征。

39、进一步,将所述第一张量输入至频带划分与交互神经网络之前,上述第一分析模块还用于:

40、获取多个样本语音集,其中,所述样本语音集包括多个通道的样本语音,至少两个所述样本语音集之间的通道数量不相同;

41、对于任意一个所述样本语音集,提取所述样本语音集在各个子带下对应的样本子带特征;

42、将所述样本子带特征沿频域维度的方向进行堆叠后输入至所述频带划分与交互神经网络,得到样本频带特征;

43、基于所述样本频带特征对所述频带划分与交互神经网络进行训练。

44、进一步,所述时频子特征基于对应子带的第一变换网络进行变换,所述拼接特征基于对应子带的第二变换网络进行变换,上述第一分析模块还用于:

45、基于所述样本频带特征,对所述频带划分与交互神经网络、各个子带对应的所述第一变换网络以及各个子带对应的所述第二变换网络进行联合训练。

46、进一步,所述时频子特征通过将对应通道的所述待处理语音的原始时频特征沿频域维度进行频带切分得到,上述第一转换模块具体用于:

47、将同一通道中各个子带的所述第二变换特征进行堆叠,得到各个通道对应的掩膜特征;

48、基于所述掩膜特征调制对应通道的所述原始时频特征,得到目标语音的目标时频特征;

49、基于所述目标时频特征还原得到所述目标语音。

50、进一步,上述第一变换模块还用于:

51、对同一子带下各个通道的所述时频子特征进行归一化处理,得到第一归一化特征;

52、对所述第一归一化特征进行全连接处理或者多层感知处理,得到第一变换特征。

53、进一步,上述第一转换模块还用于:

54、对同一子带下各个通道的所述拼接特征进行归一化处理,得到第二归一化特征;

55、对所述第二归一化特征进行全连接处理或者多层感知处理,得到第二变换特征。

56、另一方面,本技术实施例还提供了一种语音处理装置,包括:

57、第二提取模块,用于获取多个通道的待处理语音,提取所述待处理语音在各个子带下的时频子特征;

58、第二变换模块,用于对同一子带下各个通道的所述时频子特征进行变换,得到第一变换特征,将同一子带下多个通道的所述第一变换特征进行加权,根据加权结果得到各个子带下的原始子带特征,其中,在对所述时频子特征进行变换时,不同通道之间共享变换参数;

59、第二分析模块,用于沿频域维度对多个子带下的所述原始子带特征进行频带间关系分析,根据分析结果将所述原始子带特征映射为深度子带特征;

60、第二转换模块,用于将其中一个通道的所述第一变换特征与对应子带下的所述深度子带特征进行拼接,得到拼接特征,对所述拼接特征进行变换,得到第二变换特征,基于所述第二变换特征将对应通道的所述待处理语音转换为目标语音。

61、另一方面,本技术实施例还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的语音处理方法。

62、另一方面,本技术实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行实现上述的语音处理方法。

63、另一方面,本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的语音处理方法。

64、本技术实施例至少包括以下有益效果:通过提取待处理语音在各个子带下的时频子特征,对同一子带下各个通道的时频子特征进行变换,得到第一变换特征,接着将同一子带下多个通道的第一变换特征进行加权,得到各个子带下的原始子带特征,所得到的原始子带特征就是在同一子带下不同通道统一的特征,因此沿频域维度对多个子带下的原始子带特征进行频带间关系分析后,根据分析结果将原始子带特征映射为深度子带特征,这样同一子带下不同通道也具有统一的深度子带特征,随后将至少两个通道的第一变换特征与对应子带下的深度子带特征进行拼接,得到拼接特征,对同一子带下各个通道的拼接特征进行变换,得到第二变换特征,最终基于第二变换特征将对应通道的待处理语音转换为目标语音,由于在对时频子特征或者拼接特征中的至少之一进行变换时,不同通道之间共享变换参数,因此,同一个语音处理网络能够适配不同的输入通道数量或者输出通道数量,使得语音处理网络能够适应不同空间感的保留要求,从而无需针对不同场景重新设计语音处理网络,可以减少网络部署的工作量,提高语音处理的效率。

65、本技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1