一种降噪方法、电子设备及存储介质与流程

文档序号:32170538发布日期:2022-11-12 06:53阅读:50来源:国知局
一种降噪方法、电子设备及存储介质与流程

1.本技术实施例涉及音频技术领域,具体涉及一种降噪方法、电子设备及存储介质。


背景技术:

2.音视频会议、语音通话等音频交互场景下需要进行说话人定位,说话人定位是指对通过麦克风阵列等音频设备接收到的音频信号确定声源位置,从而确定出当前说话人的位置。
3.然而,音频设备接收到的音频信号中可能存在说话人的音频和噪音,因此在进行说话人定位时,如何有效的抑制噪音,从而提高说话人定位算法的鲁棒性,成为了本领域技术人员亟需解决的技术问题。


技术实现要素:

4.有鉴于此,本技术实施例提供一种降噪方法、电子设备及存储介质,以有效的抑制噪音,提高说话人定位算法的鲁棒性。
5.为实现上述目的,本技术实施例提供如下技术方案。
6.第一方面,本技术实施例提供一种降噪方法,包括:
7.获取多路音频信号;
8.根据所述多路音频信号,确定估计噪音能量的目标音频信号;
9.对所述目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比,所述频点对应的音频抑制比体现所述目标音频信号的噪音能量;
10.根据所述频点对应的音频抑制比,对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理;
11.根据信号增强处理结果,确定说话人定位结果。
12.第二方面,本技术实施例提供电子设备,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述第一方面所述的降噪方法。
13.第三方面,本技术实施例提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如上述第一方面所述的降噪方法。
14.第四方面,本技术实施例提供一种计算机程序,该计算机程序被执行时实现如上述第一方面所述的降噪方法。
15.本技术实施例可在采集到多路音频信号之后,根据采集的多路音频信号确定进行智能降噪处理的目标音频信号,从而对目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比;基于利用频点对应的音频抑制比,对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理,从而实现利用频点的音频抑制比,对包含噪音的音频信号进行抑制,对包含说话人的音频信号进行突出;进而根据信号增强处理结果,
确定说话人定位结果,可有效抑制噪音的信号和有效地突出说话人的信号的情况下,实现突出说话人语音并且抑制干扰噪音的目的,进而达到对噪音进行有效抑制,并且提高说话人定位算法的鲁棒性的效果。
附图说明
16.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
17.图1为说话人方位和点噪音方位的示例图。
18.图2为本技术实施例提供的降噪方法的流程图。
19.图3为本技术实施例提供的降噪方法的另一流程图。
20.图4为本技术实施例提供的降噪方法的再一流程图。
21.图5为本技术实施例提供的降噪方法的又一流程图。
22.图6a为线性阵列的波束形成示例图。
23.图6b为环形阵列的波束形成示例图。
24.图7a为本技术实施例提供的降噪方法的又另一流程图。
25.图7b为本技术实施例实现声源定位的示例图。
26.图8为本技术实施例提供的降噪装置的框图。
27.图9为电子设备的框图。
具体实施方式
28.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.音视频会议等音频交互场景中,准确的进行说话人定位能够更好地支持音频拾音算法和视频导播功能。目前通常是基于音频到达麦克风阵列上的不同麦克风的时间/相位差,来进行说话人定位,因此说话人定位方案通常是建立在声学环境良好的情况下(比如安静场景)。然而,实际的音频交互场景更偏向于含有噪音的复杂场景,因此在含有噪音的复杂场景下,说话人定位方案的鲁棒性有待提升。
30.一般来说,噪音主要可以分为发散型噪音和点噪音;发散型噪音是指噪音源并不处在某一个位置,造成的噪音为发散型的,比如环境噪音;点噪音是指固定的声源发出来的噪音。针对发散型噪音,发散型噪音对于说话人定位算法的影响有限,因为发散型噪音到达麦克风阵列上不同麦克风的时间差较为模糊,在音频信噪比良好的情况下,可以通过估计发散型噪音的能量,在说话人定位算法中进行噪音去除。而针对点噪音,由于点噪音具有明确的声源位置,因此点噪音极易被误识别为说话人的音频,从而导致说话人定位算法提供出错误的说话人方位信息;为便于理解,图1示例性的示出了说话人方位和点噪音方位的示例图,可以看出,点噪音存在与说话人相似的声源位置,存在被误识别为说话人的可能性。
31.综上所述,对于音视频会议等音频交互场景而言,在进行说话人定位时,如何对点噪音进行有效的抑制,对于说话人定位算法的鲁棒性收敛具有重要意义。也就是说,鲁棒性可收敛为如何在不同噪声类型下准确的进行说话人定位,尤其是含有点噪音的情况下。
32.目前,说话人定位算法对于点噪音的声源追踪主要是依靠传统噪音估计算法来处理,例如通过估计点噪音的能量,从而在说话人定位算法中进行点噪音的抑制去除;然而由于点噪音的非稳态特性,并且点噪音可能出现音频能量大于说话人的情况,因此基于点噪音的能量进行点噪音抑制的传统噪音估计算法,并不能准确的追踪并估计出点噪音的能量,从而导致点噪音无法有效的抑制,进而导致说话人定位算法提供错误的结果。
33.基于此,本技术实施例提供改进的降噪方案,以对点噪音进行有效的抑制,提高说话人定位算法的鲁棒性。本技术实施例可在说话人定位算法中融合智能降噪技术,从而在基于音频设备采集的多路音频信号确定目标音频信号之后,本技术实施例可对目标音频信号进行智能降噪处理,估计出目标音频信号对应的噪音能量,即得出目标音频信号的频点对应的音频抑制比;进而,利用上述音频抑制比,对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理,达到在包含噪音的音频信号和包含说话人的音频信号中抑制噪音,突出说话人语音的效果,提高说话人定位算法对于噪音的鲁棒性。
34.基于上述思路,作为可选实现,图2示出了本技术实施例提供的降噪方法的可选流程图。该方法流程可由音频设备执行实现,音频设备例如麦克风阵列等具有音频采集和处理能力的设备。参照图2,该方法流程可以包括如下步骤。
35.在步骤s210中,获取多路音频信号,并对多路音频信号分别进行预处理。
36.可选的,音频设备可通过多路的音频采集通道,获取到多路音频信号。例如,设置多路麦克风的麦克风阵列可通过多路的音频采集通道,获取多路音频信号,麦克风阵列的一路麦克风可采集一路音频信号。
37.在采集到多路音频信号之后,本技术实施例可对多路音频信号分别进行预处理。可选的,音频信号的预处理过程包括但不限于:将各路音频信号由时域信号转换为频域信号(即进行各路音频信号的时域至频域的转换)、将转换为频域的各路音频信号进行幅值归一化处理等。
38.在步骤s211中,根据预处理后的多路音频信号,确定目标音频信号。
39.在说话人定位算法中融合智能降噪技术的情况下,目标音频信号可以视为是本技术实施例需进行智能降噪处理的音频信号。通过对音频信号进行智能降噪处理,本技术实施例可估计出音频信号的噪音能量,并且通过音频信号中频点对应的音频抑制比,体现所估计的噪音能量,因此目标音频信号可以视为是本技术实施例估计噪音能量的音频信号。
40.音频抑制比也可以称为mask(掩蔽),即每个time-frequency(时频域)点存在一个表示音频抑制比的值,0代表全是噪音,在说话人定位时需要进行抑制,1代表全是语音,在说话人定位时需要进行保留,mask的值范围在0.0至1.0之间。
41.在一些实施例中,音频信号可以按照路或者方位角度进行划分,本技术实施例可将需进行噪音能量估计的路或者方位角度的音频信号,确定为目标音频信号。作为可选实现,在将音频信号按照方位角度进行划分的情况下,多路音频信号可以划分为多个方位角度,目标音频信号可以是多个方位角度的音频信号中各方位角度的音频信号或者部分方位角度的音频信号。作为可选实现,在将音频信号按照路进行划分的情况下,目标音频信号可
以是多路音频信号中已转换为频域的一路音频信号。
42.作为可选实现,本技术实施例提供多种确定目标音频信号的方式以及相应的降噪处理方案。
43.在一些实施例中,在将音频信号按照方位角度进行划分的情况下,本技术实施例可对各方位角度的音频信号进行噪音能量估计;相应的,本技术实施例可将多路音频信号划分为多个方位角度的音频信号,从而将各方位角度的音频信号均作为目标音频信号;
44.在此情况下,在对目标音频信号进行智能降噪处理后,本技术实施例可估计出各方位角度的音频信号的噪音能量,体现为各方位角度中各频点对应的音频抑制比;进而利用各方位角度中各频点对应的音频抑制比,对各个方位角度的音频信号进行信号增强处理,达到在各个方位角度的音频信号中抑制噪音,突出说话人语音的效果。
45.在一些实施例中,在将音频信号按照方位角度进行划分的情况下,说话人所在的方位角度一般位于信号峰值最大的方位角度,考虑噪音对说话人语音的干扰,本技术实施例可从划分的多个方位角度中确定信号峰值最大的部分方位角度(例如信号峰值最大的至少两个方位角度),从而对该部分方位角度的音频信号进行噪音能量估计;相应的,本技术实施例可将多路音频信号划分为多个方位角度的音频信号,并且确定多个方位角度中信号峰值最大的部分方位角度,从而将该部分方位角度的音频信号作为目标音频信号;
46.在此情况下,在对目标音频信号进行智能降噪处理后,本技术实施例可估计出上述部分方位角度的音频信号的噪音能量,体现为上述部分方位角度中各频点对应的音频抑制比;由于上述部分方位角度的音频信号包含了说话人语音和噪音,因此本技术实施例可利用上述部分方位角度中各频点对应的音频抑制比,对上述部分方位角度中的音频信号进行信号增强处理,达到在上述部分方位角度的音频信号中抑制噪音,突出说话人语音的效果。
47.在一些实施例中,在音频信号按照路进行划分的情况下,基于采集的多路音频信号,本技术实施例可选择采集的一路已转换为频域的音频信号,作为目标音频信号,以对所选择的一路音频信号进行噪音能量估计,体现为所选择的一路音频信号中各频点对应的音频抑制比;在此情况下,由于所选择的一路音频信号可能不包含说话人语音,因此本技术实施例需从多路音频信号的层面,利用所选择的一路音频信号中各频点对应的音频抑制比,对多路音频信号进行信号增强处理,达到在多路音频信号中抑制噪音,突出说话人语音的效果。
48.在步骤s212中,对所述目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比。
49.本技术实施例可使用智能降噪算法,对目标音频信号进行智能降噪处理。作为可选实现,本技术实施例可使用适用于会议场景(例如会议室场景)的智能降噪算法,目标音频信号进行智能降噪处理;当然,本技术实施例也可对使用的智能降噪算法不进行限制。
50.在音频信号已转换为频域形式的情况下,本技术实施例在对目标音频信号进行智能降噪处理后,可估计目标音频信号的噪音能量,体现出目标音频信号中每个频点对应的音频抑制比。也就是说,本技术实施例在对目标音频信号进行智能降噪处理后,可得到目标音频中每个频点对应的音频抑制比。
51.在步骤s213中,根据所述频点对应的音频抑制比,对包含噪音的音频信号和包含
说话人的音频信号进行信号增强处理。
52.在得到目标音频信号的频点对应的音频抑制比后,本技术实施例可利用所述频点对应的音频抑制比,对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理,从而在包含噪音的音频信号和包含说话人的音频信号中抑制噪音,突出说话人语音。
53.作为信号增强处理的一种可选实现,本技术实施例可利用目标音频信号中各个频点的音频抑制比,对包含噪音的音频信号和包含说话人的音频信号进行重新加权,从而得到增强音频信号。例如,在包含噪音的音频信号和包含说话人的音频信号中,本技术实施例可使用目标音频信号的频点对应的音频抑制比,对频点对应的音频信号进行重新加权,从而得到增强音频信号。
54.需要说明的是,在说话人定位等声源定位算法中可以设置在频域计算音频信号的correlation(相关性)的公式,从而针对包含噪音的音频信号和包含说话人的音频信号,本技术实施例可在计算音频信号的相关性的公式中,加入目标音频信号的频点对应的音频抑制比,以对包含噪音的音频信号和包含说话人的音频信号进行重新加权,从而得到增强音频信号。
55.基于目标音频信号的不同形式,包含噪音的音频信号和包含说话人的音频信号也可以具有不同的形式。
56.在一些实施例中,上述描述的多个方位角度的音频信号可以包括:包含噪音的音频信号和包含说话人的音频信号。在一些实施例中,上述描述的信号峰值最大的部分方位角度的音频信号可以包括:包含噪音的音频信号和包含说话人的音频信号。在一些实施例中,上述描述的预处理后的多路音频信号可以包括:包含噪音的音频信号和包含说话人的音频信号。
57.在可选实现中,如果目标音频信号为各个方位角度的音频信号,则包含噪音的音频信号和包含说话人的音频信号可以是各个方位角度的音频信号;也就是说,本技术实施例可利用各方位角度的音频信号的频点对应的音频抑制比,对各个方位角度的音频信号进行信号增强处理。
58.在可选实现中,如果目标音频信号为信号峰值最大的部分方位角度的音频信号,则包含噪音的音频信号和包含说话人的音频信号可以是上述部分方位角度的音频信号;也就是说,本技术实施例可利用部分方位角度的音频信号的频点对应的音频抑制比,对部分方位角度的音频信号进行信号增强处理。
59.在可选实现中,如果目标音频信号为已转换为频域的一路音频信号,则包含噪音的音频信号和包含说话人的音频信号可以是多路音频信号;也就是说,本技术实施例可利用一路音频信号的频点对应的音频抑制比,对多路音频信号进行信号增强处理。
60.在步骤s214中,根据信号增强处理结果,确定说话人定位结果。
61.在一些实施例中,由于信号增强处理结果对噪音进行了抑制,对说话人语音进行了突出,因此在将音频信号划分方位角度的情况下,本技术实施例可将信号增强处理后的信号峰值最大的方位角度,作为说话人所在的方位角度,从而得出说话人定位结果。
62.本技术实施例可在采集到多路音频信号之后,根据采集的多路音频信号确定进行智能降噪处理的目标音频信号,从而对目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比;基于利用频点对应的音频抑制比,对包含噪音的音频信号
和包含说话人的音频信号进行信号增强处理,从而实现利用频点的音频抑制比,对包含噪音的音频信号进行抑制,对包含说话人的音频信号进行突出;进而根据信号增强处理结果,确定说话人定位结果,可在有效抑制噪音的信号和有效地突出说话人的信号的情况下,实现突出说话人语音并且抑制干扰噪音的目的,进而达到对噪音进行有效抑制,并且提高说话人定位算法的鲁棒性的效果。
63.作为图2所示流程的一种可选实现方式,在将多路音频信号可以划分为多个方位角度的情况下,进行智能降噪处理的目标音频信号可以是各方位角度的音频信号。图3示例性的示出了本技术实施例提供的降噪方法的另一可选流程图。参照图3,该方法流程可以包括如下步骤。
64.在步骤s310中,获取多路音频信号,对多路音频信号分别进行时域至频域的转换处理。
65.在步骤s311中,将转换为频域的多路音频信号分别进行幅值归一化处理。
66.在步骤s312中,根据预设的方位角度精度,将多路音频信号划分为多个方位角度的音频信号。
67.在对采集的多路音频信号分别进行预处理之后(比如对采集的多路音频信号分别进行时域至频域的转换,以及幅值归一化处理之后),本技术实施例可根据预设的方位角度精度,将多路音频信号按照方位角度进行划分,从而得到多个方位角度的音频信号。可选的,方位角度精度可以视为是对多路音频信号进行区间划分的精度,按照方位角度精度(方位区间精度),本技术实施例可将多路音频信号划分成多个区间的音频信号(多个区间的音频信号即多个方位角度的音频信号),从而通过定向矢量的形式,实现对多路音频信号的精细划分。在一个示例中,本技术实施例可以5度为方位区间精度,将多路音频信号划分为定向矢量的多个方位角度的音频信号,比如5度作为一个区间角度,从而将多路音频信号划分为多个以5度为区间单位的音频信号。
68.在本实施例中,所述多个方位角度的音频信号可作为需进行智能降噪处理的目标音频信号。
69.在步骤s313中,对多个方位角度的音频信号分别进行智能降噪处理,得到各个频点的音频抑制比。
70.在将多路音频信号划分为多个方位角度的音频信号之后,本技术实施例可使用智能降噪算法,对各个位角度的音频信号分别进行智能降噪处理。作为可选实现,本技术实施例可使用适用于会议场景(例如会议室场景)的智能降噪算法,对多个方位角度的音频信号分别进行智能降噪处理;当然,本技术实施例也可对使用的智能降噪算法不进行限制。
71.由于音频信号已在预处理过程中事先转换为频域形式,因此本技术实施例在对各个方位角度的音频信号(频域形式)进行智能降噪处理后,可得到每个方位角度的每个频点对应的音频抑制比。音频抑制比也可以称为mask(掩蔽),即每个time-frequency(时频域)点存在一个表示音频抑制比的值,0代表全是噪音,在说话人定位时需要进行抑制,1代表全是语音,在说话人定位时需要进行保留,mask的值范围在0.0至1.0之间。
72.在步骤s314中,根据各个频点的音频抑制比,对各个方位角度的音频信号进行信号增强处理,以得到各个方位角度的增强音频信号。
73.在得到各个频点的音频抑制比之后,本技术实施例可利用各个频点的音频抑制
比,对划分的各个方位角度的音频信号进行信号增强处理,从而得到信号增强之后的各个方位角度的增强音频信号。作为信号增强处理的一种可选实现,本技术实施例可利用各个频点的音频抑制比,对各个方位角度的音频信号进行重新加权,从而得到各个方位角度的增强音频信号。例如,本技术实施例可在各个方位角度,使用频点的音频抑制比,对频点对应的音频信号进行重新加权,从而得到各个方位角度的增强音频信号。比如,一个方位角度的一个音频信号,使用相应频点的音频抑制比进行重新加权处理。
74.需要说明的是,在说话人定位等声源定位算法中可以设置在频域计算音频信号的correlation(相关性)的公式,本技术实施例可在计算音频信号的相关性的公式中,加入音频信号对应的频点的音频抑制比,实现对音频信号进行重新加权,从而得到各个方位角度的增强音频信号。
75.在本实施例中,各个方位角度的音频信号可以包括:包含噪音的音频信号和包含说话人的音频信号。
76.在步骤s315中,根据各个方位角度的增强音频信号,确定说话人定位结果。
77.在确定出各个方位角度的增强音频信号之后,本技术实施例可基于各个方位角度的增强音频信号,确定出说话人定位结果,即得出说话人的定位位置。作为可选实现,本技术实施例可根据各个方位角度的增强音频信号,确定信号峰值符合说话人条件的方位角度,从而将确定的方位角度作为说话人的方位角度,以得到说话人定位结果。在一个示例中,根据各个方位角度的增强音频信号,本技术实施例可确定信号峰值最大的方位角度,从而将信号峰值最大的方位角度作为说话人的方位角度。
78.本技术实施例在说话人定位算法中,可以对每个方位角度的音频信号分别进行智能降噪处理,从而在得到每个方位角度中各频点的音频抑制比之后,使用每个方位角度中各频点的音频抑制比,对每个方位角度中各频点的音频信号进行信号增强(例如重新加权),从而得出各个方位角度的增强音频信号。由于智能降噪对于稳态以及非稳态的点噪音(如果点噪音处于被智能降噪的某一方位角度)具有较好的抑制作用,因此,本技术实施例利用智能降噪之后的各频点的音频抑制比,对各频点的音频信号进行信号增强,能够使得后续计算各个方位角度的信号峰值时,有效抑制点噪音所在的方位角度的峰值,从而有效地突出说话人方位角度的信号峰值,实现突出说话人语音并且抑制干扰的点噪音的目的,进而达到对点噪音进行有效抑制,并且提高说话人定位算法的鲁棒性的效果。
79.需要进一步说明的是,图3所示方法流程虽然实现了点噪音抑制和突出说话人语音的效果,但是图3所示方法流程需要对多个方位角度的音频信号均进行智能降噪处理,这极大提高了系统的计算量。基于此,本技术实施例进一步提供可选的降噪方案,以在实现有效抑制点噪音的情况下,降低系统计算量。
80.作为图2所示流程的一种可选实现方式,在将多路音频信号可以划分为多个方位角度的情况下,进行智能降噪处理的目标音频信号可以是信号峰值最大的部分方位角度的音频信号。图4示例性的示出了本技术实施例提供的降噪方法的再一可选流程图。参照图4,该方法流程可以包括如下步骤。
81.在步骤s410中,获取多路音频信号,对多路音频信号分别进行时域至频域的转换处理。
82.在步骤s411中,将转换为频域的多路音频信号分别进行幅值归一化处理。
83.在步骤s412中,根据预设的方位角度精度,将多路音频信号划分为多个方位角度的音频信号。
84.可选的,步骤s410至步骤s412的介绍可参照前文相应部分,此处不再展开。
85.在步骤s413中,确定各个方位角度的音频信号的峰值,并根据各个方位角度的音频信号的峰值,确定峰值符合预设条件的至少两个目标方位角度,所述至少两个目标方位角度的数量小于所述多个方位角度。
86.在将多路音频信号划分为多个方位角度的音频信号之后,本技术实施例不直接对各个方位角度的音频信号进行智能降噪处理,而是计算各个方位角度的音频信号的峰值,从而基于各个方位角度的音频信号的峰值,从多个方位角度中选择出峰值符合预设条件的部分方位角度,该部分方位角度的数量可以为至少两个并且不大于划分的多个方位角度的数量。为便于说明,本技术实施例基于音频信号的峰值,从多个方位角度中筛选的部分方位角度可称为目标方位角度,目标方位角度的数量为至少两个。
87.作为可选实现,本技术实施例可根据各个方位角度的音频信号的峰值,确定出信号峰值最大的至少两个目标方位角度。比如在选择两个目标方位角度时,本技术实施例可从划分的多个方位角度中,选择信号峰值最大的两个目标方位角度。
88.需要说明的是,目标方位角度的数量选择为两个仅是一种可选实现,在设置目标方位角度的数量不小于2个,并且小于划分的多个方位角度的情况下,本技术实施例可根据实际情况选择目标方位角度的数量。
89.在本实施例中,所述至少两个目标方位角度的音频信号可以作为需进行智能降噪处理的目标音频信号。由于所述至少两个目标方位角度的音频信号在多个方位角度中具有信号峰值最大的特性,因此说话人语音包含在所述至少两个目标方位角度的音频信号中,考虑噪音的干扰,所述至少两个目标方位角度的音频信号中还可能存在噪音;因此需要对所述至少两个目标方位角度的音频信号进行噪音抑制,和突出说话人语音。
90.在步骤s414中,对各目标方位角度的音频信号分别进行智能降噪处理,得到各目标方位角度中的各个频点的音频抑制比。
91.在步骤s415中,根据各目标方位角度中的各个频点的音频抑制比,对各目标方位角度的音频信号进行信号增强处理,以得到各目标方位角度的增强音频信号。
92.在步骤s416中,根据各目标方位角度的增强音频信号,确定说话人定位结果。
93.在确定出至少两个目标方位角度之后,本技术实施例可对各目标方位角度的音频信号分别进行智能降噪处理,从而得到各目标方位角度中的各个频点的音频抑制比。可选的,智能降噪处理、音频抑制比的说明可参照前文相应部分,此处不再赘述。在本实施例中,所述至少两个目标方位角度的音频信号可以包括:包含噪音的音频信号和包含说话人的音频信号。
94.基于各目标方位角度中的各个频点的音频抑制比,本技术实施例可对各目标方位角度的音频信号进行信号增强处理;比如,针对一个目标方位角度的一个音频信号,使用相应频点的音频抑制比进行重新加权处理。基于智能降噪处理,本技术实施例可得到各目标方位角度的增强音频信号,从而根据各目标方位角度的增强音频信号,从上述至少两个目标方位角度中,选择出音频信号的峰值最大的目标方位角度,作为说话人的方位角度,得出说话人定位结果。
95.作为可选实现,假设当前一个点噪音源在干扰说话人,则本技术实施例可在选择目标方位角度时,选择音频信号的峰值最大的两个方位角度,作为目标方位角度;从而对各个目标方位角度的音频信号分别进行智能降噪处理,得到各个目标方位角度中各频点的音频抑制比,从而再利用各频点的音频抑制比,对各个目标方位角度中的音频信号进行音频信号增强(重新加权),实现在含有点噪音源和说话人的两个目标方位角度中,有效抑制点噪音所在的目标方位角度的峰值,有效地突出说话人所在的目标方位角度的信号峰值,达到对点噪音进行有效抑制,并且提高说话人定位算法的鲁棒性的效果。需要说明的是,在点噪音源的数量为多个时,本技术实施例可适应调整目标方位角度的选择数量,此处不作严格限制。
96.可以看出,本技术实施例在将多路音频信号划分为多个方位角度的音频信号之后,可按照音频信号的峰值,从多个方位角度中筛选出包含点噪音源和说话人的目标方位角度,从而对目标方位角度的音频信号进行智能降噪处理,并基于智能降噪处理之后的信号峰值结果,从目标方位角度中筛选出说话人所在的方位角度,可以通过降低进行智能降噪处理的方位角度数量,来降低系统计算量,从而在实现有效抑制点噪音的情况下,降低系统计算量。
97.为进一步降低系统计算量,作为图2所示流程的一种可选实现方式,在此实现方式中,进行智能降噪处理的目标音频信号可以是已转换为频域的一路音频信号。图5示例性的示出了本技术实施例提供的降噪方法的又一可选流程图。参照图5,该方法流程可以包括如下步骤。
98.在步骤s510中,获取多路音频信号,对多路音频信号分别进行时域至频域的转换处理。
99.在步骤s511中,从所述多路音频信号中选择一路音频信号,对该一路音频信号进行智能降噪处理,得到该一路音频信号中各个频点的音频抑制比。
100.在将多路音频信号进行时域至频域的转换处理之后,本技术实施例可从多路音频信号中选择一路音频信号,并且对选择的该一路音频信号进行智能降噪处理,从而得到该一路音频信号中各个频点的音频抑制比。作为可选实现,本技术实施例可从多路音频信号中任意选择一路音频信号,或者,从多路音频信号中选择中间路的音频信号。
101.在一个示例中,本技术实施例可从麦克风阵列的多路麦克风中,选择一路麦克风采集的音频信号,并对该一路麦克风采集的音频信号进行智能降噪处理。更为具体的示例中,假设每路全向麦克风拾取到的语音和噪音信噪比的差值在预设范围内(即每路全向麦克风拾取到的语音和噪音信噪比的差值区别不大),则本技术实施例可选择中间一路的麦克风采集的音频信号,并对中间一路的麦克风采集的音频信号进行智能降噪处理。
102.在本实施例中,选择的一路音频信号可以作为需进行信号增强处理的目标音频信号。
103.在步骤s512中,在将转换为频域的多路音频信号分别进行幅值归一化处理之后,根据该一路音频信号中各个频点的音频抑制比,对多路音频信号进行信号增强处理,以得到多路增强音频信号。
104.在对选择的一路音频信号进行智能降噪处理,并得到该路音频信号中各个频点的音频抑制比之后,针对幅值归一化处理之后的多路音频信号,本技术实施例可利用该一路
音频信号中各个频点的音频抑制比,对多路音频信号进行信号增强处理(比如重新加权),从而得到多路的增强音频信号。作为可选实现,一路音频信号中各个频点的音频抑制比,可作用于本身路的音频信号以及其他路音频信号中相对频点的音频信号,从而实现使用一路音频信号的频点的音频抑制比,对所有路的音频信号进行信号增强处理。例如,本技术实施例可将一路麦克风采集的音频信号在频点的mask,作用于其他路麦克风通道采集的音频信号,从而实现对多路麦克风采集的音频信号进行信号增强处理。
105.在本实施例中,预处理后的多路音频信号可以包括:包含噪音的音频信号和包含说话人的音频信号。
106.在步骤s513中,根据预设的方位角度精度,将多路增强音频信号划分为多个方位角度的增强音频信号。
107.在得到多路增强音频信号之后,本技术实施例可基于预设的方位角度精度,对多路增强音频信号进行方位区间的划分,从而得到多个方位角度的增强音频信号。作为实现过程可与前文相应部分的描述同理实现,此处不再展开。
108.在步骤s514中,根据各个方位角度的增强音频信号,确定说话人定位结果。
109.可选的,在得到多个方位角度的增强音频信号之后,本技术实施例可确定信号峰值最大的方位角度,从而将信号峰值最大的方位角度作为说话人的方位角度。
110.假设音频设备采集的多路音频信号中,每路音频信号的各频点信噪比相似(例如麦克风阵列中每个麦克风接收到的各频点信噪比相似,特别是在使用全向麦克风的情况下),本技术实施例可选择采集的一路音频信号(例如麦克风阵列中一路麦克风采集的音频信号)进行智能降噪处理,从而得到该路音频信号的各频点的音频抑制比,然后对所有路的音频信号(例如所有麦克风采集的音频信号)进行重新加权,得到各路的增强音频信号;进而再对各路增强音频信号进行区间划分,通过信号峰值筛选出说话人所在的方位角度。本技术实施例可只对采集的一路音频信号进行一次智能降噪处理,达到有效抑制点噪音,并且突出说话人语音的目的,同时极大的降低系统计算量。
111.本技术实施例可在说话人定位算法中融合智能降噪技术,有效地追踪和估计不同类型的噪音能量,尤其是非稳态的点噪音,并且控制系统的计算量,达到有效抑制点噪音,并且突出说话人语音的效果,从而提升说话人定位算法的鲁棒性。
112.在进一步的一些实施例中,本技术实施例在得到目标音频信号的频点对应的音频抑制比的可选实现中,如果目标音频信号存在不同方向的波束形成区域,则基于音频抑制比为掩蔽(mask),本技术实施例可将目标音频信号在不同方向的波束形成区域所对应的mask进行结合,从而得到组合掩蔽,该组合掩蔽可作为目标音频信号的频点对应的音频抑制比;进而,本技术实施例可利用组合掩蔽对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理,以在说话人定位算法中降低噪音方向的加权(weighting)。
113.需要说明的是,在进行说话人定位时,本技术实施例可通过音频采集阵列(例如麦克风阵列)采集音频信号,音频采集阵列可以是线性阵列或者环形阵列。线性阵列和环形阵列均可以具有多个方向的波束形成(beam forming),该多个方向的波束形成可以为m个方向的波束形成,包括方向一的波束形成、方向二的波束形成至方向m的波束形成。针对线性阵列,作为一个示例,图6a示例性的示出了线性阵列的波束形成示例图,具体的,图6a示例性的示出了线性阵列在方向一、方向二至方向m的波束形成,可进行参照。针对环形阵列,图
6b示例性的示出了环形阵列的波束形成示例图,具体的,图6b示例性的示出了环形阵列在方向一、方向二至方向m的波束形成(beam forming),可进行参照。
114.需要说明的是,在音频频谱的每一帧的每一个频带,不同方向的波束形成区域具有不同的mask;基于此,本技术实施例可在确定目标音频信号后,将目标音频信号在不同方向的波束形成区域所对应的mask进行结合,得出组合掩蔽;进而利用组合掩蔽,对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理,以在说话人定位算法中进一步降低噪音方向的加权(weighting),提升说话人音频方向的加权,从而提升说话定位算法的准确性。这种方式可以适用于目标音频信号为各个方位角度的音频信号、信号峰值最大的部分方位角度的音频信号、已转换为频域的一路音频信号等情况;只要目标音频信号的频带在不同方向的波束形成区域对应有mask即可。
115.作为可选实现,图7a示例性的示出了本技术实施例提供的降噪方法的又另一可选流程图。该方法流程可由音频设备执行实现,音频设备例如麦克风阵列等具有音频采集和处理能力的设备。参照图7a,该方法流程可以包括如下步骤。
116.在步骤s710中,将目标音频信号经过多个方向的波束形成处理,并确定目标音频信号在不同方向的波束形成区域对应的掩蔽。
117.在确定需进行智能降噪处理的目标音频信号后,本技术实施例可将目标音频信号经过多个方向的波束形成处理,从而确定出目标音频信号在不同方向的波束形成区域对应的掩蔽。
118.需要进一步说明的是,mask(掩蔽)可以具体是tf-mask,tf-mask为time-frequency mask(时频域掩蔽)的简称,在确定tf-mask的实现上,可以基于智能降噪算法实现。例如,可以基于信号处理算法(minimum statistics,imcra)等诸多算法进行稳态噪声估计,也可以基于深度学习进行数据驱动的方法获得稳态噪声或者非稳态噪声估计,又或者两者都可以使用,然后再进行噪声估计的融合得到最终的tf-mask。
119.在步骤s711中,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽。
120.本技术实施例可将每一帧的目标音频信号,经过不同方向的波束形成处理(例如,每一帧的音频信号,在方向一、方向二、方向m等不同的方向进行波束形成处理),从而针对每一帧的目标音频信号的每一个频带,本技术实施例可在不同方向的波束形成区域对应不同的mask,比如针对一帧目标音频信号的一个频带,一方向的波束形成区域对应一个mask。可选的,在计算mask时,本技术实施例可利用信号处理或者深度学习模型的方法,针对每一帧的音频信号的每一个频带,计算出不同方向的波束形成区域对应的mask。
121.例如,目标音频信号经过波束形成处理之后,目标音频信号在每一个time-frequency(时频域,即每一帧每一频带)上,可以针对不同的波束形成方向计算出0至1的值,一个值可以视为是目标音频信号在频带的一个波束形成方向对应的mask;在一个示例中,结合图6b所示,如果有m个不同方向的波束形成,则一帧的目标音频信号在一个频带上存在m个不同mask,其中,第m个方向(方向m)的波束形成区域对应的mask可以表示为maskm(ω,n),其中,n表示音频信号的帧数,ω表示所处的频带。
122.在得到目标音频信号在不同方向的波束形成区域对应的掩蔽后,本技术实施例可将这些不同方向的波束形成区域对应的掩蔽进行组合,从而得到组合掩蔽,该组合掩蔽可以视为是时频域(tf)spatial(空间)mask(掩蔽)。例如,针对每一帧音频信号的每一个频
带,将不同方向的波束形成区域对应的掩蔽进行组合,得到组合掩蔽。
123.在步骤s712中,根据所述组合掩蔽,对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理。
124.可选的,在得到所述组合掩蔽后,本技术实施例可将所述组合掩蔽应用于声源定位算法(例如说话人定位算法)中,从而基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,以实现对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理,从而得出准确性更高的说话人的声源定位结果。
125.为便于理解,图7b示例性的示出了本技术实施例实现声源定位的示例图,如图7b所示,目标音频信号经过m个方向的波束形成处理之后,可输出方向1至方向m的波束形成,每个方向的波束形成确定出对应的mask;然后每个方向的波束形成对应的mask进行组合,得到tf spatial mask(时频域空间掩蔽,即本技术实施例所指的组合掩蔽);tf spatial mask应用于适应权重的声源定位算法,从而对噪声方向的音频信号的加权进行降低,对说话人方向的音频信号的加权进行提升,进而得出说话人方向(即说话人的声源定位结果)。例如,针对包含噪音的音频信号和包含说话人的音频信号,本技术实施例可使用组合掩蔽,对噪声方向的音频信号的加权进行降低,对说话人方向的音频信号的加权进行提升,从而实现信号增强处理。
126.作为可选实现,图2至图5所示方法流程中,确定频点的音频抑制比(例如目标音频信号的频点对应的音频抑制比)可以是确定频点的单独mask,也可以是基于图7a所示方法流程的原理确定组合掩蔽。例如,图2至图5所示方法流程中,在对目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比时,本技术实施例可通过图7a所示方法流程的原理,确定出目标音频信号在每一个频带的不同方向的波束形成区域对应的掩蔽,将该不同方向的波束形成区域对应的掩蔽,组合为组合掩蔽,进而将组合掩蔽作为目标音频信号的频点对应的音频抑制比。图2至图5所示方法流程使用图7a所示方法确定组合掩蔽的方式,可参照前文相应部分进行技术交叉实现,此处不再展开。
127.下面对本技术实施例提供的降噪装置进行介绍,下文描述的降噪装置可以是电子设备(例如麦克风阵列等音频设备)为实现本技术实施例提供的降噪方法所需设置的功能模块。下文描述的装置内容,可与上文描述的方法内容相互对应参照。
128.作为可选实现,图8示例性的示出了本技术实施例提供的降噪装置的框图,该装置可应用于电子设备,如图8所示,该装置可以包括:
129.音频信号获取及预处理模块801,用于获取多路音频信号;可选的,音频信号获取及预处理模块801还可对所述多路音频信号分别进行预处理;
130.目标音频信号确定模块802,用于根据所述多路音频信号,确定估计噪音能量的目标音频信号;
131.智能降噪模块803,用于对所述目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比;
132.信号增强模块804,用于根据所述频点对应的音频抑制比,对包含噪音的音频信号和包含说话人的音频信号进行信号增强处理;
133.结果确定模块805,用于根据信号增强处理结果,确定说话人定位结果。
134.可选的,信号增强模块804,用于根据所述频点对应的音频抑制比,对包含噪音的
音频信号和包含说话人的音频信号进行信号增强处理包括:
135.在包含噪音的音频信号和包含说话人的音频信号中,使用所述频点对应的音频抑制比,对所述频点对应的音频信号进行重新加权。
136.可选的,信号增强模块804,用于在包含噪音的音频信号和包含说话人的音频信号中,使用所述频点对应的音频抑制比,对所述频点对应的音频信号进行重新加权包括:
137.针对包含噪音的音频信号和包含说话人的音频信号,在计算音频信号的相关性的公式中,加入所述频点对应的音频抑制比,以对包含噪音的音频信号和包含说话人的音频信号进行重新加权。
138.可选的,所述目标音频信号包括:多个方位角度的音频信号中各方位角度的音频信号,或者部分方位角度的音频信号,或者,所述多路音频信号中已转换为频域的一路音频信号;其中,所述多路音频信号划分为多个方位角度。
139.一方面,可选的,所述目标音频信号为多个方位角度的音频信号中各方位角度的音频信号;
140.所述装置还可用于:根据预设的方位角度精度,将多路音频信号划分为多个方位角度的音频信号;
141.目标音频信号确定模块802,用于根据所述多路音频信号,确定估计噪音能量的目标音频信号包括:将所述多个方位角度的音频信号作为所述目标音频信号;
142.智能降噪模块803,用于对所述目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比包括:对所述多个方位角度的音频信号分别进行智能降噪处理,得到各个频点的音频抑制比;
143.其中,各个频点的音频抑制比用于,对各个方位角度的音频信号进行信号增强处理,以得到各个方位角度的增强音频信号;
144.结果确定模块805,用于根据信号增强处理结果,确定说话人定位结果包括:根据各个方位角度的增强音频信号,确定说话人定位结果。
145.另一方面,可选的,所述目标音频信号为多个方位角度的音频信号中部分方位角度的音频信号;
146.所述装置还可用于:根据预设的方位角度精度,将多路音频信号划分为多个方位角度的音频信号;
147.目标音频信号确定模块802,用于根据所述多路音频信号,确定估计噪音能量的目标音频信号包括:确定各个方位角度的音频信号的峰值,并根据各个方位角度的音频信号的峰值,确定峰值符合预设条件的至少两个目标方位角度,所述至少两个目标方位角度的数量小于所述多个方位角度;其中,所述至少两个目标方位角度的音频信号作为所述目标音频信号;
148.智能降噪模块803,用于对所述目标音频信号进行智能降噪处理,以得到目标音频信号的频点对应的音频抑制比包括:对各目标方位角度的音频信号分别进行智能降噪处理,得到各目标方位角度中的各个频点的音频抑制比;
149.其中,各目标方位角度中的各个频点的音频抑制比用于,对各目标方位角度的音频信号进行信号增强处理,以得到各目标方位角度的增强音频信号;
150.结果确定模块805,用于根据信号增强处理结果,确定说话人定位结果包括:根据
circuit),或者是被配置成实施本技术实施例的一个或多个集成电路等。
168.存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
169.其中,存储器3存储一条或多条计算机可执行指令,处理器1调用所述一条或多条计算机可执行指令,以执行本技术实施例提供的降噪方法。
170.进一步的,本技术实施例还提供一种存储介质,该存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如本技术实施例提供的降噪方法。
171.进一步的,本技术实施例还提供一种计算机程序,该计算机程序被执行时,实现如本技术实施例提供的降噪方法。
172.上文描述了本技术实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本技术实施例披露、公开的实施例方案。
173.虽然本技术实施例披露如上,但本技术并非限定于此。任何本领域技术人员,在不脱离本技术的精神和范围内,均可作各种更动与修改,因此本技术的保护范围应当以权利要求所限定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1