用于多通道音频信号的处理方法及装置与流程

文档序号:29522812发布日期:2022-04-06 23:58阅读:592来源:国知局
用于多通道音频信号的处理方法及装置与流程

1.本公开涉及人工智能及信号处理领域,更具体地,涉及一种用于多通道音频信号的处理方法、装置、设备和存储介质。


背景技术:

2.波束成形技术已经在语音通信系统、电话会议和语音识别等方面有着广泛应用,其作为空间滤波器,从由麦克风阵列接收的混合信号中提取目标信号。近来,对神经网络波束成形技术的研究极大地推进了语音信号处理技术(诸如多通道语音增强和分离)的发展。神经网络波束成形技术通常首先应用神经网络来从混合信号中提取目标信号,然后应用传统的波束成形技术来执行空间滤波以增强该目标信号。
3.现有的波束成形技术和神经网络波束成形技术大多通常基于信号的频域特征进行处理,例如在神经网络波束成形技术中,大多使用诸如多通道维纳滤波(mcwf)和最小方差无失真响应(mvdr)波束成形等方法以执行空间滤波。然而,这样的频域处理方法存在两个主要问题:(1)频域处理方法由于依赖于频域特征提取的精度与目标信号提取的质量,其理论上限性能有限;(2)信号的频域特征一般为复数域特征,而如何在神经网络中合理地进行复数域非线性操作仍然是未解决的问题。
4.因此,需要一种有效的波束成形方法,使得可以改进波束成形的理论上限性能,同时避免神经网络中的复数域非线性操作。


技术实现要素:

5.为了解决上述问题,本公开提出了基于信号的时域特征进行处理的多通道音频信号处理方法,通过在时域对多通道音频信号进行波束成形,提升了音频信号处理的理论上限性能,同时不涉及任何复数域操作。
6.根据本公开的一方面,提出了一种用于多通道音频信号的处理方法,包括:获取所述多通道音频信号,所述多通道音频信号是通过多个麦克风在特定环境中采集到的,在所述特定环境中包括一个或多个信号源;基于所获取的多通道音频信号,确定所述多通道音频信号的时域特征;基于所获取的多通道音频信号,确定一个或多个估计音频信号的时域特征,所述一个或多个估计音频信号分别与所述一个或多个信号源相对应;以及基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号。
7.在一些实施例中,基于所述多通道音频信号的时域特征和所述一个或多个输出音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号包括:对于所述一个或多个估计音频信号中的每个估计音频信号,基于所述多通道音频信号的时域特征以及所述估计音频信号的时域特征,确定特征变换矩阵;对于所述一个或多个估计音频信号中的每个估计音频信号,基于与所述估计音频信号相对应的特征变换矩阵和所述多通道音频信号的时域特征,确定与所述估计音频信号相对应的输出音频信号的时
域特征;以及基于所述一个或多个输出音频信号中的每个输出音频信号的时域特征,生成所述一个或多个输出音频信号。
8.在一些实施例中,基于所述多通道音频信号的时域特征以及所述估计音频信号的时域特征确定特征变换矩阵包括:以所述多通道音频信号的时域特征作为维纳滤波器的输入,并以所述估计音频信号的时域特征作为所述维纳滤波器的输出,确定所述维纳滤波器的系统函数;以及将所述维纳滤波器的系统函数作为所述特征变换矩阵。
9.在一些实施例中,基于所获取的多通道音频信号确定所述多通道音频信号的时域特征还包括:对所述多通道音频信号的时域特征进行分组,生成所述多通道音频信号的第一数量的时域特征组;以及基于所获取的多通道音频信号确定一个或多个估计音频信号的时域特征还包括:对所述一个或多个估计音频信号中的每个估计音频信号的时域特征进行分组,生成所述一个或多个估计音频信号中的每个估计音频信号的第一数量的时域特征组。
10.在一些实施例中,对于所述一个或多个估计音频信号中的每个估计音频信号:基于所述多通道音频信号的时域特征以及所述估计音频信号的时域特征确定特征变换矩阵还包括:对于所述估计音频信号的第一数量的时域特征组中的每个时域特征组以及所述多通道音频信号的第一数量的时域特征组中的相应时域特征组,确定相应的特征变换矩阵,以得到与所述估计音频信号相对应的第一数量的特征变换矩阵;基于与所述估计音频信号相对应的特征变换矩阵和所述多通道音频信号的时域特征确定与所述估计音频信号相对应的输出音频信号的时域特征还包括:基于所述多通道音频信号的第一数量的时域特征组以及与所述估计音频信号相对应的第一数量的特征变换矩阵,确定与所述估计音频信号相对应的输出音频信号的第一数量的时域特征组,以及将所述输出音频信号的第一数量的时域特征组进行拼接,以得到所述输出音频信号的时域特征。
11.在一些实施例中,基于所获取的多通道音频信号确定所述多通道音频信号的时域特征包括:对所获取的多通道音频信号进行时域线性变换,确定所述多通道音频信号的时域特征;其中,基于所获取的多通道音频信号确定一个或多个估计音频信号的时域特征包括:对于所述一个或多个信号源中的每个信号源,从所述多通道音频信号中选择一个通道的音频信号;以及通过预训练的音频分离网络,从所选择的一个通道的音频信号的时域特征中分离出所述信号源所对应的估计音频信号的时域特征。
12.根据本公开的另一方面,提出了一种用于多通道音频信号的处理方法,包括:获取所述多通道音频信号,所述多通道音频信号是通过多个麦克风在特定环境中采集到的,在所述特定环境中包括一个或多个信号源;基于所获取的多通道音频信号,确定所述多通道音频信号的时域特征;基于所获取的多通道音频信号,确定一个或多个估计音频信号的时域特征,所述一个或多个估计音频信号分别与所述一个或多个信号源相对应;基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,更新所述一个或多个估计音频信号的时域特征;以及基于所更新的一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号。
13.在一些实施例中,基于所获取的多通道音频信号确定一个或多个估计音频信号的时域特征包括:对于所述一个或多个信号源中的每个信号源,从所述多通道音频信号中选择一个通道的音频信号;以及通过预训练的第一音频分离网络,从所选择的一个通道的音
频信号的时域特征中分离出所述信号源所对应的估计音频信号的时域特征。
14.在一些实施例中,基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征更新所述一个或多个估计音频信号的时域特征包括:基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,确定分别与所述一个或多个估计音频信号相对应的一个或多个特征变换矩阵;基于所述多通道音频信号的时域特征和所述一个或多个特征变换矩阵,生成分别与所述一个或多个估计音频信号相对应的一个或多个临时音频信号的时域特征;以及基于所述一个或多个临时音频信号的时域特征和所述多通道音频信号的时域特征和/或所述一个或多个估计音频信号的时域特征,更新所述一个或多个估计音频信号的时域特征。
15.在一些实施例中,基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征确定分别与所述一个或多个估计音频信号相对应的一个或多个特征变换矩阵包括:对于所述一个或多个估计音频信号中的每个估计音频信号,以所述多通道音频信号的时域特征作为维纳滤波器的输入,并以所述估计音频信号的时域特征作为所述维纳滤波器的输出,确定所述维纳滤波器的系统函数;以及将所述维纳滤波器的系统函数作为与所述估计音频信号相对应的特征变换矩阵。
16.在一些实施例中,基于所述一个或多个临时音频信号的时域特征和所述多通道音频信号的时域特征和/或所述一个或多个估计音频信号的时域特征更新所述一个或多个估计音频信号的时域特征包括:对于所述一个或多个信号源中的每个信号源,从所述多通道音频信号中选择一个通道的音频信号;以及以与所述信号源相对应的临时音频信号的时域特征和所选择的一个通道的音频信号的时域特征和/或与所述信号源相对应的估计音频信号的时域特征为输入,通过预训练的第二音频分离网络,输出所述信号源所对应的估计音频信号的时域特征,作为所更新的与所述信号源相对应的估计音频信号的时域特征。
17.根据本公开的又一方面,提出了一种用于多通道音频信号的处理装置,包括:音频信号获取模块,被配置为获取所述多通道音频信号,所述多通道音频信号是通过多个麦克风在特定环境中采集到的,在所述特定环境中包括一个或多个信号源;时域特征确定模块,被配置为基于所获取的多通道音频信号,确定所述多通道音频信号的时域特征,以及基于所获取的多通道音频信号,确定一个或多个估计音频信号的时域特征,所述一个或多个估计音频信号分别与所述一个或多个信号源相对应;以及目标信号生成模块,被配置为基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号。
18.根据本公开的再一方面,提出了一种用于多通道音频信号的处理装置,包括:音频信号获取模块,被配置为获取所述多通道音频信号,所述多通道音频信号是通过多个麦克风在特定环境中采集到的,在所述特定环境中包括一个或多个信号源;时域特征确定模块,被配置为基于所获取的多通道音频信号,确定所述多通道音频信号的时域特征,以及基于所获取的多通道音频信号,确定一个或多个估计音频信号的时域特征,所述一个或多个估计音频信号分别与所述一个或多个信号源相对应;时域特征更新模块,被配置为基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,更新所述一个或多个估计音频信号的时域特征;以及目标信号生成模块,被配置为基于所更新的一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出
音频信号。
19.本公开的实施例提供了一种用于多通道音频信号的处理设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的方法。
20.本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的方法。
21.本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的用于多通道音频信号的处理方法。
22.本公开的实施例所提供的方法相比于传统的基于频域处理的波束成形方法而言,引入了更多的自由度,具有更高的理论上限性能,并且只涉及实数域运算,降低了计算复杂度。
23.本公开的实施例所提供的方法基于多通道音频信号的时域特征实现对信号源的音频信号波束成形,波束成形处理过程不涉及任何复数域操作,可以直接应用于任何现有的神经网络波束成形框架中,并且由于本公开的实施例的方法引入了更多的自由度,波束成形的理论上限性能得以显著提升。此外,通过在级联神经网络波束成形框架中利用本公开的波束成形方法作为频域波束成形方法的替代,显著提升了系统的音频处理性能。
附图说明
24.为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
25.图1是示出根据本公开的实施例的通过麦克风阵列获取多通道音频信号的场景示意图;
26.图2a是示出根据本公开的实施例的用于多通道音频信号的处理方法的流程图;
27.图2b是示出根据本公开的实施例的用于多通道音频信号的处理方法中的特征处理的示意图;
28.图3是示出根据本公开的实施例的对多通道音频信号的处理的示意图;
29.图4a是示出根据本公开的实施例的用于多通道音频信号的处理方法的流程图;
30.图4b是示出根据本公开的实施例的用于多通道音频信号的处理方法中的特征处理的示意图;
31.图5是示出根据本公开的实施例的基于神经网络的对多通道音频信号的处理的示意图;
32.图6是示出根据本公开的实施例的用于多通道音频信号的处理方法的模拟场景示意图;
33.图7是示出根据本公开的实施例的用于多通道音频信号的处理装置的示意图;
34.图8是示出根据本公开的实施例的用于多通道音频信号的处理装置的示意图;
35.图9示出了根据本公开的实施例的用于多通道音频信号的处理设备的示意图;
36.图10示出了根据本公开的实施例的示例性计算设备的架构的示意图;以及
37.图11示出了根据本公开的实施例的存储介质的示意图。
具体实施方式
38.为了使得本公开的目的、技术方案和优点更为明显,下面将参考附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
39.在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本公开的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或排序。
40.除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
41.为便于描述本公开,以下介绍与本公开有关的概念。
42.本公开的用于多通道音频信号的处理方法可以是基于人工智能(artificial intelligence,ai)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如,对于基于人工智能的用于多通道音频信号的处理方法而言,其能够以类似于人类听觉系统从嘈杂环境中很好地分辨出期望音频信号的方式来从通过麦克风阵列接收的混合音频信号中分离出源信号。人工智能通过研究各种智能机器的设计原理与实现方法,使本公开的用于多通道音频信号的处理方法具有自动准确地从多通道音频信号中分离出与源信号相关的音频信号并通过多次滤波和分离迭代以实现更准确的波束成形的功能。
43.例如,本公开的用于多通道音频信号的处理方法可以基于波束成形方法。在对麦克风阵列的多通道音频信号处理中,波束形成的任务是从多通道音频信号中提取目标信号,即对麦克风阵列信号进行合并处理,抑制非目标方向的干扰信号,并增强目标方向的声音信号。波束成形方法可在频域和时域中执行,因此可根据处理域而将其分为频域波束成形方法和时域波束成形方法。由于一般的波束成形方法难以满足实时性和多源跟踪的需求,近年来随着一些新兴学科的不断发展,波束成形方法也向这些热门方向迅速延伸,其中包括但不限于神经网络方法、遗传方法和高阶统计量方法等。
44.其中,对基于神经网络的波束成形方法(即,神经网络波束成形方法)的研究极大地推进了多通道语音增强和分离系统的发展水平。神经网络波束成形方法通常首先应用神经网络来从多通道混合信号中提取目标信号,然后应用传统的波束成形技术来执行空间滤波以增强该目标信号。由于麦克风阵列和目标源特征都可以在频域中以更容易的方式进行估计,大多神经网络波束成形方法通常基于信号的频域特征进行处理,例如使用诸如多通道维纳滤波(mcwf)和最小方差无失真响应(mvdr)波束成形等方法进行空间滤波。
45.例如,本公开的用于多通道音频信号的处理方法还可以基于维纳滤波方法。维纳
滤波方法是在最小均方误差准则下对平稳信号的最优估计,其对环境中的加性噪声有非常好的抑制作用,能够使滤波系统的输出信号尽可能地接近真实的目标信号。维纳滤波方法假设滤波过程为线性处理,将处理过程视为线性时不变系统,输入信号通过系统后,基于最优准则(即最小化系统输出信号与期望信号的误差,即最小均方误差)得到输出信号,其中,最优滤波系统(系统函数)可以在时域进行计算,也可以在频域计算。因此,本公开所涉及的波束成形方法和神经网络波束成形方法中均采用时域维纳滤波方法用于执行空间滤波。
46.综上所述,本公开的实施例提供的方案涉及人工智能、神经网络波束成形等技术,下面将结合附图对本公开的实施例进行进一步地描述。
47.图1是示出根据本公开的实施例的通过麦克风阵列获取多通道音频信号的场景示意图。
48.如图1所示,在多个说话人(对于麦克风阵列来说是多个目标源,图1中示为q个)在麦克风阵列(图1中示为由6个麦克风以圆形阵列均匀分布)的探测范围内发出声音时,其声音可由麦克风阵列进行采集,从而通过麦克风阵列的多个通道获取多通道音频信号。
49.接下来将所获取的多通道音频信号传送至音频信号处理端,以根据具体需求应用于各种麦克风阵列处理任务,包括但不限于语音增强、语音分离、自动语音识别、关键词识别和语音二值化。该音频信号处理端可以是如下文所述的根据本公开的实施例的用于多通道音频信号的处理装置,也可以是用于实现其他目的的处理装置。
50.如前文所述,由于在频域中可以更容易地估计麦克风阵列和目标源特征,大多数波束成形方法和神经网络波束成形方法都基于信号的频域特征进行处理,例如通常使用诸如多通道维纳滤波(mcwf)和最小方差无失真响应(mvdr)波束成形等方法进行空间滤波。但类似于已有的关于时域单通道语音分离的研究中已经讨论的传统时频掩蔽的潜在缺点,传统频域神经波束成形方法也有两个核心限制:理论上限性能和复数域运算。一方面,当使用最优目标源(即理想情况下无噪的目标信号)用于计算目标源特定的特征(诸如空间协方差矩阵)时,神经网络波束成形方法的性能上限受其自身性能的限制,而当所选的波束成形器的上限性能不佳时,神经网络波束成形方法可能会失败。另一方面,随着越来越多的研究开始将神经网络应用于复数域处理,如何在非线性变换中正确处理信号特征的实部和虚部以将非线性复数域运算有效地结合到神经网络波束成形方法中仍然是未解决的问题。
51.因此,本公开针对上述问题,提供了一种基于信号的时域特征进行处理的多通道音频信号处理方法,通过在时域对来自多通道的音频信号进行波束成形,以实现对音频信号处理性能的提升。
52.本公开的实施例所提供的方法相比于传统的基于频域处理的波束成形方法而言,引入了更多的自由度,具有更高的理论上限性能,并且只涉及实数域运算,降低了计算复杂度。
53.具体地,本公开的实施例所提供的方法基于多通道音频信号的时域特征进行维纳滤波,通过对从多通道音频信号中分离出的音频信号进行最小均方误差估计以得到最优维纳滤波系数,从而实现对信号源的音频信号波束成形。本公开的实施例的方法不需要信号变换(例如短时傅立叶变换(stft)),因此不涉及任何复数域操作,可以直接应用于任何现有的神经网络波束成形框架中,并且由于本公开的实施例的方法引入了更多的自由度,波束成形的理论上限性能得以显著提升。此外,通过在级联神经网络波束成形框架中利用本
公开的波束成形方法作为频域波束成形方法的替代,显著提升了系统的音频处理性能。
54.图2a是示出根据本公开的实施例的用于多通道音频信号的处理方法200的流程图。图2b是示出根据本公开的实施例的用于多通道音频信号的处理方法200中的特征处理的示意图。
55.如图2a所示,在步骤s201中,可以获取所述多通道音频信号,所述多通道音频信号是通过多个麦克风在特定环境中采集到的,在所述特定环境中包括一个或多个信号源。
56.可选地,多通道音频信号可以是通过如图1所示的麦克风阵列获取的,该麦克风阵列可以包括按照特定形状规则布置排列的多个麦克风,以用于采集来自空间中不同方向的单通道音频信号,其可根据拓扑结构而被分为线性阵列、平面阵列、立体阵列等,例如图1所示的麦克风阵列为平面阵列。
57.应当理解,本公开中以该平面阵列为例以便于描述本公开的方法,但该方法也适用于其他类型的麦克风阵列,图1所示的麦克风阵列仅用作示例而非限制。
58.例如,该一个或多个信号源可以是如图1所示的多个人声,此时本公开的方法用于对这些说话人的语音音频信号处理,诸如语音分离、语音增强或语音识别等。此外,该一个或多个信号源还可以包括音乐,诸如乐器演奏声。
59.在步骤s202中,可以基于所获取的多通道音频信号,确定所述多通道音频信号的时域特征。
60.根据本公开的实施例,步骤s202可以包括对所获取的多通道音频信号进行时域线性变换,确定所述多通道音频信号的时域特征。
61.可选地,可以对经加窗的多通道音频信号(观测信号)进行时域线性变换,以获得其时域特征。
62.例如,假设麦克风阵列包括m个麦克风,则多通道音频信号包括m个单通道音频信号,其中每个单通道音频信号对应于一个麦克风。以表示在第t帧的第m个通道上具有p个采样点的加窗音频信号,表示应用于该加窗音频信号的线性变换矩阵或实值波形编码器,表示多通道音频信号的时域特征,其中n表示每个通道所对应的音频信号的特征维度,而t表示采样帧数,则其中与相对应的单通道音频信号的时域特征y
m,t
可以表示为以下实值线性变换:
63.y
m,t
=y
m,tbꢀꢀꢀꢀ
(1)
64.可选地,b可以看作是对观测信号的特征的线性组合,以形成其他更丰富或更具代表性的信号特征。在本公开的实施例中,该线性变换矩阵可以为单位矩阵或其他预定义的或自适应优化的矩阵,本公开对此不作限制。
65.在步骤s203中,可以基于所获取的多通道音频信号,确定一个或多个估计音频信号的时域特征,所述一个或多个估计音频信号分别与所述一个或多个信号源相对应。
66.根据本公开的实施例,步骤s203可以包括:对于所述一个或多个信号源中的每个信号源,从所述多通道音频信号中选择一个通道的音频信号;以及通过预训练的音频分离网络,从所选择的一个通道的音频信号的时域特征中分离出所述信号源所对应的估计音频信号的时域特征。
67.可选地,如图2b所示,可以利用预先训练的神经网络(即音频分离网络)从混合信
号中分离出信号源的估计的时域特征。其中,该音频分离网络可以是单通道或多通道分离网络。
68.可选地,在本公开的实施例中,出于节约成本的考虑,使用单通道分离网络来针对每个信号源从多通道音频信号中分离出与该信号源对应的估计音频信号的时域特征。具体地,针对每个信号源,可以先从麦克风阵列的多个通道中选择一个通道作为参考通道,并将该参考通道的音频信号的时域特征通过单通道分离网络,以输出与该信号源对应的估计音频信号的时域特征。
69.在步骤s204中,可以基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号。
70.根据本公开的实施例,步骤s204可以包括:对于所述一个或多个估计音频信号中的每个估计音频信号,基于所述多通道音频信号的时域特征以及所述估计音频信号的时域特征,确定特征变换矩阵;对于所述一个或多个估计音频信号中的每个估计音频信号,基于与所述估计音频信号相对应的特征变换矩阵和所述多通道音频信号的时域特征,确定与所述估计音频信号相对应的输出音频信号的时域特征;以及基于所述一个或多个输出音频信号中的每个输出音频信号的时域特征,生成所述一个或多个输出音频信号。
71.可选地,如图2b所示,基于从多通道音频信号中分别获得的多通道音频信号的时域特征和一个或多个估计音频信号的时域特征,可以确定分别与一个或多个估计音频信号相对应的一个或多个特征变换矩阵,然后将这些特征变换矩阵分别应用于多通道音频信号的时域特征,可以获得分别与一个或多个估计音频信号相对应的一个或多个输出音频信号的时域特征。
72.其中,根据本公开的实施例,基于所述多通道音频信号的时域特征以及所述估计音频信号的时域特征确定特征变换矩阵可以包括:以所述多通道音频信号的时域特征作为维纳滤波器的输入,并以所述估计音频信号的时域特征作为所述维纳滤波器的输出,确定所述维纳滤波器的系统函数;以及将所述维纳滤波器的系统函数作为所述特征变换矩阵。
73.可选地,在本公开的实施例中,采用时域广义维纳滤波器(time-domain generalized wiener filter,td-gwf)对多通道音频信号进行滤波。对于该环境中存在的一个或多个信号源中的每个信号源,在针对其所对应的估计音频信号的时域特征确定了td-gwf的特定系统函数后,通过将多通道音频信号作为该td-gwf的输入,可以对该多通道音频信号针对该信号源进行滤波,以获得与该信号源对应的输出音频信号的时域特征。
74.应当理解,在本公开的方法中,各个估计音频信号、输出音频信号和下文中将提到的临时音频信号均是与一个信号源相对应的,并且因此这些信号之间也基于该信号源存在对应关系。
75.可选地,通过对所获得的一个或多个输出音频信号的时域特征进行诸如先前所述的时域线性变换的逆变换,可以得到分别与一个或多个信号源相对应的一个或多个输出音频信号,作为对多通道音频信号的波束成形处理的结果。
76.在上述对多通道音频信号的处理方法200中,以多通道音频信号的所有时域特征作为td-gwf的输入,以输出对应于单个信号源的输出音频信号的完整时域特征。但是,考虑到关于td-gwf的系统函数和滤波处理过程中的必要计算(例如,矩阵求逆运算)以及实际所
获得的多通道音频信号的所有时域特征的庞大数据量,本公开的方法可以通过对这些音频信号的时域特征进行特征分组以将单次高维求解转换为多次低维求解,从而降低计算复杂度并缓解计算系统的压力。
77.具体地,图3是示出根据本公开的实施例的对多通道音频信号的处理的示意图。
78.如图3所示,与关于步骤202所述类似地,301表示多通道音频信号的完整时域特征其包括m、n、t三个维度上的数据,其中,m表示麦克风阵列的通道数,n表示每个通道所对应的音频信号的特征维度,而t表示采样帧数。
79.因此,如上所述,根据本公开的实施例,步骤s202还可以包括:对所述多通道音频信号的时域特征进行分组,生成所述多通道音频信号的第一数量的时域特征组。
80.如302所示,对多通道音频信号的完整时域特征沿维度n进行特征分组,以形成第一数量(302中示为v个)的时域特征组其中第v个时域特征组可以表示为
81.类似地,步骤s203还可以包括:对所述一个或多个估计音频信号中的每个估计音频信号的时域特征进行分组,生成所述一个或多个估计音频信号中的每个估计音频信号的第一数量的时域特征组。
82.可选地,对于每个信号源,通过预先训练的音频分离网络从多通道音频信号中分离出与该信号源对应的估计音频信号的时域特征后,可以类似地沿维度n对进行特征分组,从而得到第一数量(303中示为v个)的时域特征组其中第v个时域特征组可以表示为
83.根据本公开的实施例,对于所述一个或多个估计音频信号中的每个估计音频信号,基于所述多通道音频信号的时域特征以及所述估计音频信号的时域特征确定特征变换矩阵还可以包括:对于所述估计音频信号的第一数量的时域特征组中的每个时域特征组以及所述多通道音频信号的第一数量的时域特征组中的相应时域特征组,确定相应的特征变换矩阵,以得到与所述估计音频信号相对应的第一数量的特征变换矩阵。
84.可选地,可以如上所述基于每个和确定相应的特征变换矩阵,即将作为td-gwf的输入,并将作为td-gwf的输出,以确定针对该信号源的td-gwf的系统函数(即特征变换矩阵)如图3中的304所示。根据维纳滤波算法,可如下基于最小均方误差估计准则对td-gwf的系统函数求解:
[0085][0086]
因此,可求得该wu表示如下:
[0087][0088]
其中,
t
表示转置运算符,并且-1
表示矩阵求逆运算符。
[0089]
由上式(3)可以看出,在对wv的计算中涉及而对矩阵求逆的计算量随矩阵大小增加而增加,的大小为因此其计算量随对特征分组的组数v增
大而减小。同时,在根据本公开的方法对时域特征进行分组后,对原系统函数的求解可以转换为对v个wv的并行求解,从而可以提升运算速度,改善系统运算性能。
[0090]
根据本公开的实施例,对于所述一个或多个估计音频信号中的每个估计音频信号,基于与所述估计音频信号相对应的特征变换矩阵和所述多通道音频信号的时域特征确定与所述估计音频信号相对应的输出音频信号的时域特征还可以包括:基于所述多通道音频信号的第一数量的时域特征组以及与所述估计音频信号相对应的第一数量的特征变换矩阵,确定与所述估计音频信号相对应的输出音频信号的第一数量的时域特征组,以及将所述输出音频信号的第一数量的时域特征组进行拼接,以得到所述输出音频信号的时域特征。
[0091]
可选地,对于多通道音频信号的第v个时域特征组和当前信号源所对应的估计音频信号的第v个时域特征组可以基于上述wv和求得当前信号源所对应的输出音频信号的第v个时域特征组具体地,可以对该时域特征组应用特征变换矩阵wv,如305所示,表示如下:
[0092][0093]
因此,基于多通道音频信号的v个时域特征组和当前信号源所对应的估计音频信号的v个时域特征组可以获得当前信号源所对应的输出音频信号的v个时域特征组
[0094]
因此,可选地,可以对上述输出音频信号的v个时域特征组进行拼接,如306所示,以得到该输出音频信号的时域特征:
[0095][0096]
上述处理方法200基于多通道音频信号的时域特征进行维纳滤波,处理过程不涉及任何复数域操作,并且由于过程中引入了更多的自由度,使得波束成形的理论上限性能得以显著提升。
[0097]
在该处理方法200中仅描述了多通道音频信号的时域特征进行单次维纳滤波的情况,考虑到该方法对于任何现有的神经网络波束成形框架的可适用性以及对波束成形性能上限的提升能力,可以在级联神经网络波束成形框架中基于该方法来优化处理系统的音频处理性能。
[0098]
图4a是示出根据本公开的实施例的用于多通道音频信号的处理方法400的流程图。图4b是示出根据本公开的实施例的用于多通道音频信号的处理方法400中的特征处理的示意图。
[0099]
如图4a所示,在步骤s401中,可以获取所述多通道音频信号,所述多通道音频信号是通过多个麦克风在特定环境中采集到的,在所述特定环境中包括一个或多个信号源。
[0100]
与步骤s201类似地,可以通过麦克风阵列获取该多通道音频信号,其中,该麦克风阵列可以包括按照特定形状规则布置排列的多个麦克风,以用于采集来自空间中不同方向的单通道音频信号,其可根据拓扑结构而被分为线性阵列、平面阵列、立体阵列等,例如图1所示的麦克风阵列为平面阵列。
[0101]
在步骤s402中,基于所获取的多通道音频信号,确定所述多通道音频信号的时域
特征。
[0102]
与步骤s202类似地,可以通过对经加窗的多通道音频信号(观测信号)进行时域线性变换来获得其时域特征。该多通道音频信号的时域特征可以表示为其中m表示麦克风阵列的通道数,而l表示每个通道所对应的音频信号的特征维度,其可以包括多个采样帧内的时域特征(即先前所述的n
×
t),也可以仅表示某个采样帧所对应的时域特征的维度(此时可看作对多通道音频信号的实时滤波处理),本公开对此不作限制。
[0103]
在步骤s403中,可以基于所获取的多通道音频信号,确定一个或多个估计音频信号的时域特征,所述一个或多个估计音频信号分别与所述一个或多个信号源相对应。
[0104]
根据本公开的实施例,步骤s403可以包括:对于所述一个或多个信号源中的每个信号源,从所述多通道音频信号中选择一个通道的音频信号;以及通过预训练的第一音频分离网络,从所选择的一个通道的音频信号的时域特征中分离出所述信号源所对应的估计音频信号的时域特征。
[0105]
与步骤s203类似地,可以利用预先训练的神经网络(即第一音频分离网络)从混合信号中分离出信号源的粗略估计的时域特征,该一个或多个信号源的粗略估计的时域特征可以表示为其中c表示信号源的个数,c表示第c个信号源,表示在通过该第一音频分离网络所分离出的第c个信号源所对应的估计音频信号的时域特征。其中,该第一音频分离网络可以是单通道或多通道分离网络。可选地,出于节约成本的考虑,使用单通道分离网络来针对每个信号源从多通道音频信号中分离出与该信号源对应的估计音频信号的时域特征。
[0106]
可选地,该第一音频分离网络可以包括由编码器、分离器和解码器组成的结构,诸如dprnn-tasnet(双路径递归神经网络-时域音频分离网络),其可以对本公开中长序列的时域特征输入执行单通道音频分离,以输出分离出的与特定信号源对应的估计音频信号的时域特征序列。此外,除了单通道dprnn-tasnet,本公开的音频分离网络还可以使用任何其他形式的分离器,本公开中仅以单通道dprnn-tasnet作为示例而非限制。
[0107]
在步骤s404中,基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,更新所述一个或多个估计音频信号的时域特征。
[0108]
可选地,对一个或多个估计音频信号的时域特征的更新可以包括滤波和分离两个部分。其中,滤波部分可以采用上述td-gwf,而分离部分则可以采用类似于上述第一音频分离网络来实现对滤波结果的进一步细分。通过每一次滤波和分离,可以获得更新的一个或多个估计音频信号的时域特征。
[0109]
根据本公开的实施例,步骤s404可以包括:基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,确定分别与所述一个或多个估计音频信号相对应的一个或多个特征变换矩阵;基于所述多通道音频信号的时域特征和所述一个或多个特征变换矩阵,生成分别与所述一个或多个估计音频信号相对应的一个或多个临时音频信号的时域特征;以及基于所述一个或多个临时音频信号的时域特征和所述多通道音频信号的时域特征,更新所述一个或多个估计音频信号的时域特征。可选地,可以基于所述一个或多个临时音频信号的时域特征、所述多通道音频信号的时域特征、以及所述一个或多个估计音频信号的时域特征,更新所述一个或多个估计音频信号的时域特征。
[0110]
其中,根据本公开的实施例,基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征确定分别与所述一个或多个估计音频信号相对应的一个或多个特征变换矩阵可以包括:对于所述一个或多个估计音频信号中的每个估计音频信号,以所述多通道音频信号的时域特征作为维纳滤波器的输入,并以所述估计音频信号的时域特征作为所述维纳滤波器的输出,确定所述维纳滤波器的系统函数;以及将所述维纳滤波器的系统函数作为与所述估计音频信号相对应的特征变换矩阵。
[0111]
如图4b所示,基于从多通道音频信号中分别获得的多通道音频信号的时域特征和一个或多个估计音频信号的时域特征,可以确定分别与一个或多个估计音频信号相对应的一个或多个特征变换矩阵,然后将这些特征变换矩阵分别应用于多通道音频信号的时域特征,可以获得分别与一个或多个估计音频信号相对应的一个或多个临时音频信号的时域特征,这些临时音频信号可用于后续对滤波结果的进一步细分。
[0112]
接下来,为了实现对滤波结果的进一步细分,可以将所获得的一个或多个临时音频信号的时域特征和多通道音频信号的时域特征输入与第一音频分离网络类似的第二音频分离网络。可选地,可以将所获得的一个或多个临时音频信号的时域特征、多通道音频信号的时域特征、以及所述一个或多个估计音频信号的时域特征输入与第一音频分离网络类似的第二音频分离网络。
[0113]
可选地,对于第一次更新,可以基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,确定与所述一个或多个估计音频信号相对应的一个或多个变换系数;对所述多通道音频信号的时域特征应用所述一个或多个变换系数,生成相应的一个或多个临时音频信号的时域特征;以及基于所述一个或多个临时音频信号的时域特征和所述多通道音频信号的时域特征(可选地,以及所述一个或多个估计音频信号的时域特征),更新所述一个或多个估计音频信号的时域特征。
[0114]
可选地,对于后续更新(包括第二次更新),可以基于所述多通道音频信号的时域特征和前次更新的所述一个或多个估计音频信号的时域特征,确定与所述一个或多个估计音频信号相对应的一个或多个维纳滤波器的系统函数;对所述多通道音频信号的时域特征应用所述一个或多个维纳滤波器的系统函数,生成一个或多个临时音频信号的时域特征;以及基于所述一个或多个临时音频信号的时域特征和所述多通道音频信号的时域特征(可选地,以及所述一个或多个估计音频信号的时域特征),更新所述一个或多个估计音频信号的时域特征。
[0115]
根据本公开的实施例,基于所述一个或多个临时音频信号的时域特征和所述多通道音频信号的时域特征(可选地,以及所述一个或多个估计音频信号的时域特征)更新所述一个或多个估计音频信号的时域特征可以包括:对于所述一个或多个信号源中的每个信号源,从所述多通道音频信号中选择一个通道的音频信号;以及以与所述信号源相对应的临时音频信号的时域特征和所选择的一个通道的音频信号的时域特征(可选地,以及与所述信号源相对应的估计音频信号的时域特征)为输入,通过预训练的第二音频分离网络,输出所述信号源所对应的估计音频信号的时域特征,作为所更新的与所述信号源相对应的估计音频信号的时域特征。
[0116]
类似地,该第二音频分离网络可以包括诸如dprnn-tasnet的结构,其可以至少基于一个或多个临时音频信号的时域特征和所述多通道音频信号的时域特征而分离出与特
定信号源对应的估计音频信号的时域特征序列,作为更新的估计音频信号的时域特征序列。
[0117]
例如,对于上述通过第一音频分离网络所分离出的一个或多个信号源的时域特征经由通过第二音频分离网络的多次迭代,可获得更新的估计音频信号的时域特征直到获得满意的估计音频信号的时域特征结果或已达到预先设置的更新次数限制。
[0118]
在步骤s405中,基于所更新的一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号。
[0119]
可选地,通过级联神经网络波束成形中的多次滤波和分离迭代处理,可将该神经网络的输出,即最后更新的一个或多个估计音频信号的时域特征作为分别与所述一个或多个信号源相对应的一个或多个输出音频信号的时域特征。
[0120]
图5是示出根据本公开的实施例的基于神经网络的对多通道音频信号的处理的示意图。
[0121]
如图5所示,可选地,对于所述一个或多个信号源中的每个信号源,可以从多通道音频信号中选择一个通道的音频信号,将其时域特征作为参考时域特征将该参考时域特征输入预训练的第一音频分离网络(即预分离模块),可以从中分离出与该一个或多个信号源相对应的一个或多个估计音频信号的时域特征
[0122]
接下来,在每次迭代中,可以基于多通道音频信号的时域特征和最新的一个或多个估计音频信号的时域特征(例如,对于第一次迭代为对于第二次迭代为),通过td-gwf滤波得到与一个或多个临时音频信号的时域特征(例如,对于第一次迭代为对于第二次迭代为),继而基于多通道音频信号的时域特征和一个或多个临时音频信号的时域特征和/或最新的一个或多个估计音频信号的时域特征(例如,对于第一次迭代为y和和/或对于第二次迭代为y和和/或),其中,后分离模块即为上述第二音频分离网络。
[0123]
图6是示出根据本公开的实施例的用于多通道音频信号的处理方法的模拟场景示意图。
[0124]
如图6所示,模拟房间的长宽在3-10米之间随机采样,而高度在2.5-4米之间随机采样。混响时间在0.1到0.5秒之间随机采样。在模拟房间中布置了一直径为10厘米(em)的圆形麦克风阵列,该麦克风阵列由6个均分分布的麦克风组成。此外,模拟房间中还存在两个扬声器,其与麦克风阵列的中心位置之间的平均距离为2.9
±
1.6米。从该模拟房间中获取的多通道音频信号含有噪声和混响。
[0125]
根据本公开的实施例,可以对上述级联神经网络波束成形方法中所涉及的神经网
络进行训练、验证与测试。例如,可以设置20000、5000和3000个4秒长的语音分别作为训练集、验证集和测试集。其中,对于每个语音,例如可以从各种语音语料库(诸如librispeech(大规模英语语料库))和非语音语料库中分别随机选择两个语音信号和一个噪声信号。
[0126]
可选地,可以将诸如单通道dprnn-tasnet模型用于上述级联神经网络波束成形处理中的预分离和后分离模块,其中每个模块可以包括诸如3个dprnn(双路径递归神经网络)块。通过对模型的合理参数设置,并且为了进行性能比较,可以对td-gwf的窗口大小进行区别设置,诸如设置为2毫秒(ms)、4ms、8ms和16ms。
[0127]
因此,如上所述的td-gwf与传统的频域波束成形fd-mcwf(时域多通道维纳滤波)方法的性能比较结果可以参见表1,其中,以用于信号质量评估的信号失真比(sdr)和尺度不变信号失真比(si-sdr)为示例而非限制进行说明。
[0128]
表1
[0129][0130]
如表1所示,当窗口大小较小时,fd-mcwf的上限性能较低,而本公开所提出的td-gwf在窗口大小仅为8ms的情况下,获得了窗口大小为256ms的fd-mcwf更高的上限性能。
[0131]
因此,窗口大小为32ms(通常用作频域波束成形器的默认配置)的fd-mcwf比窗口大小为2ms的td-gwf具有更低的上限性能,因此,在对频域分辨率没有严格要求的情况下,可以认为本公开所提出的td-gwf比传统的fd-mcwf具有高得多的上限性能。
[0132]
此外,采用不同tasnet(时域音频分离网络)模型的性能比较结果可以参见表2,其中,两个扬声器之间的重叠率在0%和100%之间均匀采样。
[0133]
表2
[0134][0135]
如表2所示,其中前两行提供了采用单通道dprnn-tasnet模型下的音频信号分离结果,其中
“‑
s”和
“‑
l”分别表示具有3个和6个dprnn块的“小”和“大”模型。表2中的剩余部分包括利用td-gwf或fd-mcwf用于波束成形的级联神经网络波束成形处理的结果。
[0136]
因此,可以看出,在1次和2次迭代次数的配置中,窗口大小为32ms的fd-mcwf的性能明显差于窗口大小仅为2ms的td-gwf。此外,当扬声器角度或扬声器重叠率较小时,虽然窗口大小为512ms的fd-mcwf可能比td-gwf具有更好的信号分离性能,但由于此时其空间协方差矩阵的大小太大(4097
×
4097),其计算成本远高于窗口大小为4ms的td-gwf。
[0137]
因此,通过上述模拟场景和性能结果比较,可以看出本公开的方法相比于传统的基于频域处理的波束成形方法而言,具有更高的理论上限性能,并且降低了计算复杂度和计算成本。
[0138]
图7是示出根据本公开的实施例的用于多通道音频信号的处理装置700的示意图。图8是示出根据本公开的实施例的用于多通道音频信号的处理装置800的示意图。
[0139]
根据本公开的实施例,用于多通道音频信号的处理装置700可以包括音频信号获取模块701、时域特征确定模块702和目标信号生成模块703。
[0140]
根据本公开的实施例,用于多通道音频信号的处理装置800可以包括音频信号获取模块801、时域特征确定模块802、时域特征更新模块803和目标信号生成模块804。
[0141]
其中,音频信号获取模块701和801可以类似地被配置为获取所述多通道音频信号,所述多通道音频信号是通过多个麦克风在特定环境中采集到的,在所述特定环境中包括一个或多个信号源。
[0142]
例如,多通道音频信号可以是通过如图1所示的麦克风阵列获取的,该麦克风阵列可以包括按照特定形状规则布置排列的多个麦克风,以用于采集来自空间中不同方向的单通道音频信号,其可根据拓扑结构而被分为线性阵列、平面阵列、立体阵列等,例如图1所示的麦克风阵列为平面阵列。
[0143]
例如,该一个或多个信号源可以是如图1所示的多个人声,此时本公开的方法用于对这些说话人的语音音频信号处理,诸如语音分离、语音增强或语音识别等。
[0144]
时域特征确定模块702和802可以类似地被配置为基于所获取的多通道音频信号,确定所述多通道音频信号的时域特征,以及基于所获取的多通道音频信号,确定一个或多个估计音频信号的时域特征,所述一个或多个估计音频信号分别与所述一个或多个信号源相对应。
[0145]
例如,可以对经加窗的多通道音频信号(观测信号)进行时域线性变换,以获得其时域特征。
[0146]
可选地,可以利用预先训练的神经网络(即音频分离网络)从混合信号中分离出信
号源的估计的时域特征,其中,该音频分离网络可以是单通道或多通道分离网络。
[0147]
例如,在本公开的实施例中,出于节约成本的考虑,使用单通道分离网络来针对每个信号源从多通道音频信号中分离出与该信号源对应的估计音频信号的时域特征。
[0148]
目标信号生成模块703可以被配置为基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号。
[0149]
可选地,基于从多通道音频信号中分别获得的多通道音频信号的时域特征和一个或多个估计音频信号的时域特征,可以确定分别与一个或多个估计音频信号相对应的一个或多个特征变换矩阵,然后将这些特征变换矩阵分别应用于多通道音频信号的时域特征,可以获得分别与一个或多个估计音频信号相对应的一个或多个输出音频信号的时域特征。
[0150]
与处理装置700不同的是,处理装置800可以包括级联神经网络波束成形处理中对时域特征的迭代更新。因此,处理装置800中的时域特征更新模块803可以被配置为基于所述多通道音频信号的时域特征和所述一个或多个估计音频信号的时域特征,更新所述一个或多个估计音频信号的时域特征。
[0151]
可选地,对一个或多个估计音频信号的时域特征的更新可以包括滤波和分离两个部分。其中,滤波部分可以采用上述td-gwf,而分离部分则可以采用类似于上述第一音频分离网络来实现对滤波结果的进一步细分。通过每一次滤波和分离,可以获得更新的一个或多个估计音频信号的时域特征。
[0152]
目标信号生成模块804可以被配置为基于所更新的一个或多个估计音频信号的时域特征,生成分别与所述一个或多个信号源相对应的一个或多个输出音频信号。
[0153]
可选地,通过级联神经网络波束成形中的多次滤波和分离迭代处理,可将该神经网络的输出,即最后更新的一个或多个估计音频信号的时域特征作为分别与所述一个或多个信号源相对应的一个或多个输出音频信号的时域特征。
[0154]
根据本公开的又一方面,还提供了一种用于多通道音频信号的处理设备。图9示出了根据本公开的实施例的用于多通道音频信号的处理设备2000的示意图。
[0155]
如图9所示,所述用于多通道音频信号的处理设备2000可以包括一个或多个处理器2010,和一个或多个存储器2020。其中,所述存储器2020中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器2010运行时,可以执行如上所述的方法。
[0156]
本公开的实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是x86架构或arm架构的。
[0157]
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
[0158]
例如,根据本公开的实施例的方法或装置也可以借助于图10所示的计算设备3000的架构来实现。如图10所示,计算设备3000可以包括总线3010、一个或多个cpu3020、只读存储器(rom)3030、随机存取存储器(ram)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如rom 3030或硬盘3070可以存储本公开提供的方法的处理和/或通信使用的各种数据或文件以及cpu所执行的程序指令。计算设备3000还可以包括用户界面3080。当然,图9所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图10示出的计算设备中的一个或多个组件。
[0159]
根据本公开的又一方面,还提供了一种计算机可读存储介质。图11示出了根据本公开的存储介质的示意图4000。
[0160]
如图11所示,所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的根据本公开的实施例的方法。本公开的实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(sdram)、双倍数据速率同步动态随机存取存储器(ddrsdram)、增强型同步动态随机存取存储器(esdram)、同步连接动态随机存取存储器(sldram)和直接内存总线随机存取存储器(dr ram)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
[0161]
本公开的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的用于多通道音频信号的处理方法。
[0162]
本公开的实施例所提供的方法相比于传统的基于频域处理的波束成形方法而言,引入了更多的自由度,具有更高的理论上限性能,并且只涉及实数域运算,降低了计算复杂度。
[0163]
本公开的实施例所提供的方法基于多通道音频信号的时域特征进行维纳滤波,通过对从多通道音频信号中分离出的音频信号进行最小均方误差估计以得到最优维纳滤波系数,从而实现对信号源的音频信号波束成形。本公开的实施例的方法不需要信号变换(例如短时傅立叶变换(stft)),因此不涉及任何复数域操作,可以直接应用于任何现有的神经网络波束成形框架中,并且由于本公开的实施例的方法引入了更多的自由度,波束成形的理论上限性能得以显著提升。此外,通过在级联神经网络波束成形框架中利用本公开的波束成形方法作为频域波束成形方法的替代,显著提升了系统的音频处理性能。
[0164]
需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现
中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0165]
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
[0166]
在上面详细描述的本公开的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本公开的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本公开的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1