语音增强方法、装置、设备和存储介质与流程

文档序号:18325546发布日期:2019-08-03 10:58阅读:151来源:国知局
语音增强方法、装置、设备和存储介质与流程

本发明涉及语音信号处理技术领域,具体而言,涉及一种语音增强方法、装置、设备和存储介质。



背景技术:

噪声环境下,许多语音处理系统的性能急剧下降。语音增强作为解决噪声污染的一种有效的预处理技术,一直是语音信号处理领域的热点。语音增强的目的是从带噪信号中提取出尽可能纯净的原始语音信号,提高信噪比,改善语音质量。

现有技术中,语音增强的一般原理为:首先利用滤波器系数对经过傅里叶变换或短时傅里叶变换的带噪信号进行滤波,得到增强的频域信号;然后再对所述增强的频域信号做反傅里叶变换,得到增强的时域信号,从而输出。其中对于滤波器系数的确定,现有技术中存在多种确定方法。常规的确定方法中,滤波器系数被确定为一个固定值,由于噪声本身一般会跟随时间而变化,因此将滤波器系数被确定为一个固定值不符合一般的自然规律,利用此滤波器系数进行语音增强的方法仅能适用于噪声场恒定情况下语音增强,适应性弱。为了克服上述问题,现有的另一种算法是采用em算法,利用缓存的一段较长的带噪信号数据,首先计算出该段语音对应的时频掩模,然后利用所述时频掩模计算该段语音对应的滤波器系数;虽然此种方法可以较准确地计算出滤波器系数,从而提高语言增强效果,但是由于此种方法需要较长时间缓存大量数据,例如需要10分钟缓存数据,因此将此种方法应用于语音增强方法后,语音增强方法不仅计算量大,而且其不满足实时性要求,不能被应用于具有实时性要求的语音增强任务中。



技术实现要素:

有鉴于此,本发明的目的在于提供一种语音增强方法、装置、设备和存储介质。旨在解决现有语音增强方法计算量大、不满足实时性要求的问题。

第一方面,本发明实施例提供了一种语音增强方法,包括:

获取麦克风阵列采集的当前帧带噪信号,所述当前帧带噪信号至少包括目标语音声源和其他声源各自发出的声音信号;

利用所述当前帧带噪信号,确定所述当前帧带噪信号对应的时频掩模;

利用所述时频掩模,确定所述当前帧带噪信号对应的滤波器系数;

利用所述滤波器系数,对带噪信号进行语音增强处理。

第二方面,本发明实施例提供了一种语音增强装置,包括:

获取模块,用于获取麦克风阵列采集的当前帧带噪信号,所述当前帧带噪信号至少包括目标语音声源和其他声源各自发出的声音信号;

时频掩模确定模块,用于利用所述当前帧带噪信号,确定所述当前帧带噪信号对应的时频掩模;

滤波器系数确定模块,用于利用所述时频掩模,确定所述当前帧带噪信号对应的滤波器系数;以及

语音增强模块,用于利用所述滤波器系数,对带噪信号进行语音增强处理。

第三方面,本发明实施例提供了一种语音增强设备,包括:麦克风阵列、处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器与所述麦克风阵列连接,其特征在于,当所述处理器执行所述计算机程序时,实现本发明实施例任一所述的语音增强方法。

第四方面,本发明实施例提供了存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现本发明实施例任一所述的语音增强方法。

与现有技术相比,本发明具有以下有益效果:

本发明所提供的语音增强方法中,获取了麦克风阵列采集的当前帧带噪信号,利用所述当前帧带噪信号,确定了所述当前帧带噪信号对应的时频掩模,利用所述时频掩模,确定了所述当前帧带噪信号对应的滤波器系数,利用所述滤波器系数,对带噪信号进行语音增强处理,其中所述带噪信号可以是所述当前帧带噪信号,也可以是所述当前帧带噪信号的前几帧带噪信号或后几帧带噪信号。一方面,由于本发明针对每一帧带噪信号,计算该帧带噪信号对应的时频掩模,所述时频掩模不是固定值,而是根据每帧带噪信号的具体情况而变化的,相应的,由其所得的滤波器系数也是根据每帧带噪信号的具体情况而变化的,因此利用所述滤波器系数进行最终的语音增强处理,可以提高语音增强效果;另一方面,由于本发明在计算所述时频掩模时,仅需对一帧带噪信号进行处理,因此本发明的计算量较小,且满足实时性要求。

附图说明

图1示出了实施例中提供的语音增强方法的流程示意图;

图2示出了实施例中所述的语音增强系统的结构框图;

图3示出了实施例中所述的时频掩模的确定方法的流程示意图;

图4示出了实施例中提供的语音增强装置的结构框图;

图5示出了实施例中提供的又一种语音增强装置的结构框图。

具体实施方式

下文描述了本发明的具体实施方式,该实施方式为示意性的,旨在揭示本发明的具体工作过程,不能理解为对权利要求的保护范围的进一步限定。

请参阅图1,实施例提供了一种语音增强方法,所述方法可作为语音识别、语音编码等语音信号应用技术的前期处理环节,可应用于语音增强系统中。如图2所示,所述语音增强系统主要包括依次连接的麦克风阵列10、音频解码器20、数字信号处理器30和da转换器40。其中,所述麦克风阵列10用于采集声音,并将采集的声音转换为由模拟量表示的带噪信号;所述音频解码器20用于对所述带噪信号进行数字化采样转换,并将转换后的数据送入所述数字信号处理器30;所述数字信号处理器30用于对所述数据进行语音增强处理,并将所述经过语音增强处理后的数据送入所述da转换器40;所述da转换器40用于将接收到的数据转换为模拟信号,并输出。图2所示的语音增强系统中,所述麦克风阵列10中包括至少两个阵元,每个阵元即为一个麦克风,当所述麦克风阵列10为数字麦克风阵列时,图2所示系统中可省去所示音频解码器20。

相关技术中,数字信号处理器30在进行语音增强处理时,首先利用滤波器系数对经过傅里叶变换或短时傅里叶变换的带噪信号进行滤波,得到增强的频域信号;然后再对所述增强的频域信号做反傅里叶变换,得到增强的时域信号,从而输出。这其中,对于滤波器系数的确定,现有技术中主要包括以下三种现有方法:

第一种现有方法,利用带噪信号的协方差矩阵近似作为噪声协方差矩阵利用所述噪声协方差矩阵计算所述滤波器系数。其弊端在于,由于并不是的精确估计,将导致噪声抑制能力不足,同时还损伤讲话者语音。

第二种现有方法,假设噪声是弥散噪声场,利用预先设定的弥散噪声的协方差矩阵代替真实的自相关矩阵当噪声是弥散噪声时,这种方案有不错的噪声抑制能力。然而,在实际应用场景,存在各种相干噪声或干扰声音,这时,与真实的噪声协方差矩阵偏差较大。将导致噪声抑制能力不足,语音增强效果不佳。

第三种现有方法,利用em算法对时频点聚类计算时频掩模,进而利用所述时频掩模计算噪声协方差矩阵此方法的好处是能比较准确的估计噪声协方差矩阵其弊端在于,em算法计算量大,需要缓存足够大的数据才能估计准确,难以满足实时计算的需求。

本发明中,由于本实施例提供的语音增强方法具有计算量小、能满足实时性要求等特点,因此可被应用于具有实时性要求的语音信号处理任务中。以下,本实施例将结合图1,对所述语音增强方法进行详细介绍。

步骤101,获取麦克风阵列采集的当前帧带噪信号,所述当前帧带噪信号至少包括目标语音声源和其他声源各自发出的声音信号。

具体的,当各声源所发出的声音被麦克风阵列中的每个阵元捕获到,所述麦克风阵列中的每个阵元将产生一个带噪信号。作为示例,获取所述麦克风阵列中每个阵元的所述带噪信号。由于所述阵元在接收到目标语音声源和其他声源各自发出的声音后,而产生的所述带噪信号,因此所述带噪信号中包含有目标语音生源发出的声音信号,还包含有他声源发出的声音信号。应当理解的,所述目标语音声源即为需要进行语音增强的声源,所述其他声源为除所述目标语音声源以外的声源,所述其他声源的数量可以是一个或多个。作为示例,手机的麦克风阵列接收到来自用户a的语音,还接收到来自环境噪声源所发出的噪声,手机需要对用户的语音进行增强,并将增强后形成的语音信号实时传输给外地的另一用户b。这其中,用户a为所述目标语音声源,环境噪声源为所述其他声源。

作为示例,所述麦克风阵列可以是手机、平板电脑、掌上电脑pda、笔记本电脑、台式电脑或智能语音盒子(如天猫精灵、小米盒子)等设备上的麦克风阵列。相应的,获取所述带噪信号、并对所述带噪信号进行下述后续处理的实施主体可以是所述手机、平板电脑、掌上电脑pda、笔记本电脑、台式电脑或智能音响等的处理器。

具体的,所述麦克风阵列包括至少两个阵元,每个阵元即为一个麦克风。作为示例,所述麦克风阵列具体可包括6个阵元。

作为示例,当前帧带噪信号的帧长可以是10ms、20ms或30ms等。应当理解的,所述带噪信号的帧长并不局限于上述举例,本发明对带噪信号的帧长不做限定。应当理解的,本发明实施例正是由于对带噪信号的每一帧进行及时处理,得到每一帧相应的滤波器系数,因此可以针对每帧信号计算出更准确的滤波器系数,进而提高语音增强效果。又由于每帧带噪信号的帧长较短,一般在100ms以内,因此信号数据量较小,处理器所需处理的数据量较小,且由于不需要在缓存较长的信号数据后才进行处理,因此处理的实时性更好。

步骤102,利用所述当前帧带噪信号,确定所述当前帧带噪信号对应的时频掩模。

由于所述当前帧带噪信号对应的所述时频掩模是利用当前帧带噪信号得到的,因此所述时频掩模的数值大小与当前帧带噪信号的实际情况相关,所述时频掩模的数值更准确,应用于语音增强后,可以提高语音增强效果。

作为一种可实施方式的举例,具体可通过以下包括步骤201和步骤202的方法,求取所述时频掩模,如图3所示。

步骤201,根据所述当前帧带噪信号,确定所述目标语音声源相对于所述麦克风阵列的估计方位。

作为示例,对于所述目标语音声源的位置估计,可选用任何估计方法进行估计,本发明对此不做限定。例如,当所述麦克风阵列选用球麦克风阵列时,可以通过球麦克风阵列采集高阶声场的声压信息,采用球谐函数分解声场并建立信号模型,应用music算法估计出目标语音声源的方位。又例如,还可以选用现有的tdoa算法估计出目标语音声源的方位。考虑到对所述目标语音声源的位置进行估计,可选用现有技术,因此本发明对具体的估计方法不再赘述。应当理解的,为了进一步减小计算量,可以选用计算量偏小的估计方法对所述目标语音声源的位置进行估计。

本步骤中,所述目标语音声源相对于所述麦克风阵列的估计方位与目标语音声源的真实方位之间存在误差,所述误差的大小会受到噪声源(即所述其他声源)的影响。例如当噪声源所发出的声音对目标语音声源所发出的声音影响较大时,所述误差也较大。

步骤202,根据所述估计方位与目标区域之间的相对位置关系,确定所述当前帧带噪信号对应的时频掩模,其中所述目标区域为所述目标语音声源所在的实际位置区域。

其中,所述实际位置区域为一个位置区间。例如所述目标语音声源的真实位置相对于所述麦克风阵列的方位为15°,则所述实际位置区域为[15-a,15+a]。作为示例,所述a的具体大小可预先设定,如a设定为30°时,此时实际位置区域为[-15°,45°];作为示例,所述a的具体大小也可根据语音增强效果及时自动地调整优化,比如当语音增强效果不明显、输出的语音信号仍然包含较大噪声时,可自动将所述a缩小,比如当经过语音增强后输出的语音信号中损坏了原有的目标语音信号(即所述目标语音声源对应的语音信号),可将自动将所述a放大。

作为示例,当所述目标语音声源为位置固定的声源时,例如所述目标语音声源的真实位置相对于所述麦克风阵列的方位为15°,且一直不变,则所述实际位置区域始终为[15-a,15+a];作为示例,当所述目标语音声源为位置不固定声源时,则所述实际位置区域为[b-a,b+a],其中所述目标语音声源的真实位置是b,比如可通过双目摄像头追踪、红外追踪定位等非语音信号处理方法,确定目标语音声源的真实位置b。

应当理解的,本发明可选用任何合理方式为所述目标语音声源确定一个实际位置区域,即所述目标区域。以上所列举的多个示例并不限定本发明。

上述包含步骤201和步骤202的方法中,由于具体是根据所述估计方位与目标区域之间的相对位置关系,确定所述当前帧带噪信号对应的时频掩模,其本质是根据所述估计方位与所述目标语音声源真实位置之间的误差大小,确定所述时频掩模。而如前所述,所述误差的大小本身会受到噪声源的影响,因此所述时频掩模的大小,实质是由噪声源自身主要决定。例如当噪声源所发出的声音对目标语音声源所发出的声音影响较大时,所述时频掩模较大,当噪声源所发出的声音对目标语音声源所发出的声音影响较小时,所述时频掩模较小。

对于上述步骤202的具体实现,即如何根据估计方位与目标区域之间的相对位置关系,确定所述当前帧带噪信号对应的时频掩模,实施例提供以下两种可实施方式的举例。

第一可实施方式,如果所述估计方位位于所述目标区域内,则确定所述时频掩模为预设固定值t1;如果所述估计方位位于所述目标区域外,则确定所述时频掩模为预设固定值t2;其中0≤t1<t2≤1。应当理解的,所述第一可实施方式以硬判决方式确定出所述时频掩模。

上述第一可实施方式中,预设固定值t1对应“所述估计方位位于所述目标区域内”的情况,此时噪声源对目标语音声源的影响较小,所述估计方位与目标语音声源实际位置之间的误差较小;预设固定值t2对应“所述估计方位位于所述目标区域外”的情况,此时噪声源对目标语音声源的影响较大,所述估计方位与目标语音声源实际位置之间的误差较大;由于t1和t2具有0≤t1<t2≤1的数值关系,因此反映了当噪声源对目标语音声源影响较大时,所述时频掩模较大,当噪声源对目标语音声源影响较小时,所述时频掩模较小。

作为示例,所述t1的具体取值,优选为取0;所述t2的具体取值,优选为取1。在上述示例情况下,当所述估计方位位于所述目标区域内时,所述时频掩模为0,可认为此时可以不考虑噪声源影响;当所述估计方位位于所述目标区域外时,所述时频掩模为1,可认为此时需要考虑噪声源影响。将所述t1取为0,将所述t2取为1的有益效果在于,大小为0或1的数值可利于进一步简化计算,进而进一步减小计算量。应当理解的,所述t1和t2的具体取值,并不局限于上述举例,例如所述t1也可以取为0.05,或取为0.1,或取为0.2等,例如所述t2也可以取为0.95,或取为0.9,或取为0.8等,本发明对t1和t2的具体取值不做限定。

第二可实施方式,如果所述估计方位位于所述目标区域外,则确定所述时频掩模为预设固定值t3,其中0<t3≤1;如果所述估计方位位于所述目标区域内,则根据所述估计方位在所述目标区域内的具体相对位置,确定所述时频掩模为t4;其中0≤t4<t3。应当理解的,所述第二可实施方式以软判决方式确定出所述时频掩模。

上述第二可实施方式中,预设固定值t3对应“所述估计方位位于所述目标区域外”的情况,此时噪声源对目标语音声源的影响较大,所述估计方位与目标语音声源实际位置之间的误差较大;t4对应“所述估计方位位于所述目标区域内”的情况,此时噪声源对目标语音声源的影响较小,所述估计方位与目标语音声源实际位置之间的误差较小;由于t3和t4具有0≤t4<t3的数值关系,因此反映了当噪声源对目标语音声源影响较大时,所述时频掩模较大,当噪声源对目标语音声源影响较小时,所述时频掩模较小。

作为示例,所述t3的具体取值,优选为取1。将所述t2取为1的有益效果在于,大小为1的数值可利于进一步简化计算,进而进一步减小计算量。应当理解的,所述t3的具体取值,并不局限于上述举例,例如所述t3也可以取为0.95,或取为0.9,或取为0.8等,本发明对t3的具体取值不做限定。

上述第二可实施方式中,在根据所述估计方位在所述目标区域内的具体相对位置,确定所述时频掩模为t4时,作为示例,所述t4的数值的大小满足以下关系:所述估计方位越靠近所述目标区域的中心位置,所述t4的数值越接近0;所述估计方位越靠近所述目标区域的边缘位置,所述t4的数值越接近所述t3。

上述示例中,当所述估计方位越靠近所述目标区域的中心位置,此时噪声源对目标语音声源的影响较小,所述估计方位与目标语音声源实际位置之间的误差较小,相应的时频掩模较小;当所述估计方位越靠近所述目标区域的边缘位置,此时噪声源对目标语音声源的影响较大,所述估计方位与目标语音声源实际位置之间的误差较大,相应的时频掩模较大。

例如,具体可根据预设的映射函数映射出所述t4。所述映射函数可以通过经验设定,也可通过机器的统计学习得到。作为示例,可以将所述估计方位在所述目标区域内的具体相对位置与所述t4之间的映射函数,设定为线性映射函数。比如所述目标语音声源的真实位置相对于所述麦克风阵列的方位为15°,所述实际位置区域为[-15°,45°],预设固定值t3的数字设定为1,则可以设定线性映射函数为t4=r/30-0.5(15≤r≤45),t4=-r/30+0.5(-15≤r≤15),其中r为所述估计方位。作为示例,也可以将所述估计方位在所述目标区域内的具体相对位置与所述t4之间的映射函数,设定为非线性映射函数,所述非线性映射函数中,以所述估计方位为自变量,以所述时频掩模t4为因变量,所述非线性映射函数可根据经验设定,也可通过机器的统计学习得到。应当理解的,本发明对所述映射函数的设定途径不做限定。

步骤103,利用所述时频掩模,确定所述当前帧带噪信号对应的滤波器系数。

其中,由于所述时频掩模是根据当前帧带噪信号的自身实际情况所得,具体是根据前帧带噪信号对应的噪声源情况所得,因此利用所述时频掩模所确定的滤波器系数,是当前帧带噪信号对应的滤波器系数,所述滤波器系数的准确度高。

作为一种可实施方式的举例,具体可通过以下包括步骤一至步骤三的方法,确定所述滤波器系数。

步骤一,对所述当前帧带噪信号进行傅里叶变换,得到所述当前帧带噪信号的傅里叶变换频谱。

具体的,由于从麦克风阵列中输出的带噪信号为在时间上连续输出的带噪信号,本实施例从所述连续的带噪信号中截获出当前时间的一帧带噪信号,并把这一帧带噪信号命名为当前帧带噪信号,然后对所述当前帧带噪信号进行傅里叶变换。应当理解的,针对一段较长的连续带噪信号,本实施例将从所述连续带噪信号中一帧一帧地截取出数据进行傅里叶变换,随着时间推移,所述连续带噪信号将被截取为多个帧,依次进行傅里叶变换,因此针对连续带噪信号,实质上是对其进行了短时傅里叶变换,对于每一帧,相当于一个时间窗口所对应的数据。

具体的,可以从麦克风阵列中的每个阵元输出的带噪信号中,截取出一帧带噪信号,作为每个阵元的当前帧带噪信号;然后对每个阵元的当前帧带噪信号进行傅里叶变换,得到每个阵元的傅里叶变换频谱y1、y2、y3或ym,其中下标m代表阵元编号;最后将每个阵元的傅里叶变换频谱进行合并,得到所述当前帧带噪信号的傅里叶变换频谱y=[y1,y2,y3…ym]t,所述傅里叶变换频谱由所述矩阵y表征。

步骤二,按照如下公式计算噪声协方差矩阵:

其中,所述为所述噪声协方差矩阵,t为所述时频掩模,y(t,f)为表征所述傅里叶变换频谱的矩阵,yh(t,f)为y(t,f)的共轭矩阵。

具体的,所述y(t,f)具有阵元编号属性、时间属性和频率属性,所述yh(t,f)可通过对所述y(t,f)取共轭而求得。

其中,通过引入所述时频掩模t至上述公式中,体现了本发明的进步性。现有技术在求取滤波器系数时,也应用了所述噪声协方差矩阵。如前所述的第一种现有方法中,其利用带噪信号的协方差矩阵近似作为噪声协方差矩阵其相当于将时频掩模t固定地取值为1。如前所述的第二种现有方法中,其假设噪声是弥散噪声场,利用预先设定的弥散噪声的协方差矩阵代替真实的自相关矩阵其相当于将噪声系数t固定地取值为0到1之间的一个小数,例如0.6。

上述两种现有方法中,不能根据当前帧带噪信号对应的噪声源情况,而确定出当前帧带噪信号对应的时频掩模,因此时频掩模不够准确,导致滤波器系数准确度较低,最终使语音增强效果不佳。而本发明中,可以根据当前帧带噪信号对应的噪声源情况,而确定出当前帧带噪信号对应的时频掩模,因此时频掩模更准确,使得滤波器系数准确度更高,最终使语音增强效果更佳。

步骤三,按照如下公式计算所述滤波器系数:

其中,w(f)为所述滤波器系数,为所述噪声协方差矩阵,为所述当前帧带噪信号对应的被估计出的导向矢量,的共轭矩阵。

其中,所述导向矢量可通过现有的估计方法,估计出所述导向矢量例如现有技术中,可通过音频信号的相位时频掩码估计导向矢量。应当理解的,本发明对如何估计出所述导向矢量不做限定。

本步骤中,由于所述噪声协方差矩阵是根据当前帧带噪信号中噪声源的具体情况而确定的,因此利用其确定的滤波器系数也是与当前帧带噪信号相匹配的,所述滤波器系数的准确度更高,利用其进行语音增强处理时,可以提高语音增强效果。

步骤104,利用所述滤波器系数,对带噪信号进行语音增强处理。

作为示例,所述带噪信号可以是所述当前帧带噪信号,也可以是所述当前帧带噪信号的前几帧带噪信号或后几帧带噪信号。比如,数字信号处理器可利用所述滤波器系数,在下一时刻时,对下一时刻对应的一帧或几帧带噪信号进行语音增强处理。又比如,数字信号处理器也可利用所述滤波器系数,对前一时刻对应的一帧或几帧带噪信号进行语音增强处理,然后输出前一时刻的语音增强信号,此时虽然存在信号输出时延,时延时间为所述上一时刻与当前时刻之间的时差,该段时差对应的帧数为一帧或几帧,由于每帧带噪信号的时长很短,因此信号输出时延很小。

作为示例,本实施例也选用背景技术中所述的语音增强的一般原理方法,对所述当前帧带噪信号进行语音增强处理。具体的,利用所述滤波器系数,对经过傅里叶变换或短时傅里叶变换的带噪信号进行滤波,得到增强的频域信号;然后再对所述增强的频域信号做反傅里叶变换,得到增强的时域信号,从而输出。更具体的,首先按下式计算增强的频域信号,然后按下式计算增强的时域信号,其中为所述增强的频域信号,wh(f)为所述滤波器系数的共轭矩阵,y(t,f)为表征所述傅里叶变换频谱的矩阵,为所述增强的时域信号,ifft表示反傅里叶变换。应当理解的,上述示例仅作为举例作用,并不用于限定本发明。

以上述所的包括步骤101至步骤104的语音增强方法,获取了麦克风阵列采集的当前帧带噪信号,利用所述当前帧带噪信号,确定了所述当前帧带噪信号对应的时频掩模,利用所述时频掩模,确定了所述当前帧带噪信号对应的滤波器系数,利用所述滤波器系数,对所述当前帧带噪信号进行语音增强处理。一方面,由于上述方法针对每一帧带噪信号,计算该帧带噪信号对应的时频掩模,所述时频掩模不是固定值,而是根据每帧带噪信号的具体情况而变化的,相应的,由其所得的滤波器系数也是根据每帧带噪信号的具体情况而变化的,因此利用所述滤波器系数进行最终的语音增强处理,可以提高语音增强效果;另一方面,由于上述方法在计算所述时频掩模时,仅需对一帧带噪信号进行处理,因此本发明的计算量较小,且满足实时性要求。

请参阅图4,实施例提供了一种语音增强装置,所述语音增强装置包括:

获取模块501,用于获取麦克风阵列采集的当前帧带噪信号,所述当前帧带噪信号至少包括目标语音声源和其他声源各自发出的声音信号;

时频掩模确定模块502,用于利用所述当前帧带噪信号,确定所述当前帧带噪信号对应的时频掩模;

滤波器系数确定模块503,用于利用所述时频掩模,确定所述当前帧带噪信号对应的滤波器系数;以及

语音增强模块504,用于利用所述滤波器系数,对所述当前帧带噪信号进行语音增强处理。

可选的,参照图5,在上述图4的基础上,所述语音增强装置中的时频掩模确定模块502包括:

估计方位确定子模块5021,用于根据所述当前帧带噪信号,确定所述目标语音声源相对于所述麦克风阵列的估计方位;以及

时频掩模确定子模块5022,用于根据所述估计方位与目标区域之间的相对位置关系,确定所述当前帧带噪信号对应的时频掩模,其中所述目标区域为所述目标语音声源所在的实际位置区域。

可选的,在上述图5的基础上,所述时频掩模确定子模块5022,可具体用于:如果所述估计方位位于所述目标区域内,则确定所述时频掩模为预设固定值t1;如果所述估计方位位于所述目标区域外,则确定所述时频掩模为预设固定值t2;其中0≤t1<t2≤1。

或者可选的,在上述图5的基础上,所述时频掩模确定子模块5022,可具体用于:如果所述估计方位位于所述目标区域外,则确定所述时频掩模为预设固定值t3,其中0<t3≤1;如果所述估计方位位于所述目标区域内,则根据所述估计方位在所述目标区域内的具体相对位置,确定所述时频掩模为t4;其中0≤t4<t3。其中,所述估计方位越靠近所述目标区域的中心位置,所述t4的数值越接近0;所述估计方位越靠近所述目标区域的边缘位置,所述t4的数值越接近所述t3。

可选的,在上述图4的基础上,所述语音增强装置中的滤波器系数确定模块503包括:

傅里叶变换子模块,用于对所述当前帧带噪信号进行傅里叶变换,得到所述当前帧带噪信号的傅里叶变换频谱;

噪声协方差矩阵计算子模块,用于按照如下公式计算噪声协方差矩阵:以及

滤波器系数计算子模块,用于按照如下公式计算所述滤波器系数:

其中,为所述噪声协方差矩阵,t为所述时频掩模,y(t,f)为表征所述傅里叶变换频谱的矩阵,yh(t,f)为y(t,f)的共轭矩阵,w(f)为所述滤波器系数,为所述当前帧带噪信号对应的被估计出的导向矢量,的共轭矩阵。

此外,实施例还提供了一种语音增强设备,所述语音增强设备包括:麦克风阵列、处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器与所述麦克风阵列连接,当所述处理器执行所述计算机程序时,实现以上任一方法实施例中所述的语音增强方法。

上述语音增强设备中,作为示例,所述麦克风阵列可选用数字麦克风阵列,所述处理器可选用数字信号处理器。作为示例,所述麦克风阵列也可选用非数字式麦克风阵列,所述处理器仍可选用数字信号处理器,此时可通过音频解码器连接所述麦克风阵列和所述处理器,所述音频解码器用于对所述麦克风阵列产生的带噪信号进行数字化采样转换,并将转换后的数据送入所述数字信号处理器。

此外,实施例还提供了一种存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现以上任一方法实施例中所述的语音增强方法。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1