一种消除混响的方法和系统与流程

文档序号:19747602发布日期:2020-01-21 18:47阅读:909来源:国知局
一种消除混响的方法和系统与流程

本发明涉及声音信号处理的技术领域,特别涉及一种消除混响的方法和系统。



背景技术:

当声波在传播过程中遇到墙体、地面和物品后,会发生多次反射才到达相应的传声器中,该传声器除了接收到来自声源的直达声波外,还会接收到大量反射声波,并且这些反射声波同时也构成相应的混响成分。通常来说,早期混响成分能够使声音信号更加饱满,而晚期混响成分则会大幅度降低声音信号的可识别性以及影响声音信号的听感,因此现有的混响消除技术主要是针对晚期混响成分。

虽然,现有的消除晚期混响成分的技术能够有效地抑制晚期混响成分,但是该技术设计的在线算法在噪声较强且为相干噪声的情况下,会将声音滤波器更新到错误的方向,从而使得不能有效地消除混响成分,并且还会对声音信号造成损害和降低声音信号的可识别性能,还有由于该在线算法对于混响成分消除的多寡与滤波器的长度相关,并且当滤波器的阶数较高时,其涉及的计算量十分巨大,从而限制了在低运算能力的处理器上运行该在线算法。可见,现有技术并不能实现对混响成分、特别是高阶混响成分的准确和高效消除处理。



技术实现要素:

针对现有技术存在的缺陷,本发明提供一种消除混响的方法和系统,该消除混响的方法和系统通过在消除混响的过程中引入关于语音信号的语音时频概率检测,以计算得到该语音信号的语音时频概率,并根据该语音时频概率对混响消除处理中使用的滤波器进行适应性的更新调整操作,其中通过计算该语音信号的语音时频概率,能够将该语音信号中的大部分噪声进行排除处理,这样当根据该语音时频概率更新调整该滤波器时,能够有效地降低滤波器发生更新错误的概率,同时由于该语音信号中的大部分噪声已被排除处理,这样使得非语音数据并不参与到后续的混淆消除计算中,这能够大大地降低该滤波器的计算频率和减少消除混响的计算量,从而便于对消除混响的计算量进行大幅度压缩和提高消除混响算法在不同类型处理器中的适用性。

本发明提供一种消除混响的方法,其特征在于,所述消除混响的方法包括如下步骤:

步骤(1),对目标语音信号进行预处理,并获取经过所述预处理的目标语音信号对应的语音时频概率;

步骤(2),根据所述语音时频概率,调整作用到所述目标语音信号的滤波处理;

步骤(3),根据调整后的所述滤波处理,抑制所述目标语音信号对应语音阵列数据中存在的混响分量;

进一步,在所述步骤(1)中,对目标语音信号进行预处理,并获取经过所述预处理的目标语音信号对应的语音时频概率具体包括,

步骤(101),对所述目标语音信号进行晚期混响抑制处理,以消除所述目标语音信号中的晚期混响分量;

步骤(102),对经过所述晚期混响抑制处理后的所述目标语音信号进行语音时频概率计算处理,以得到所述语音时频概率,其中,所述语音时频概率计算处理是通过深度学习模型实现的,所述深度学习模型的构建过程包括,

s1、将干净语音数据x和噪声数据n混合得到带噪语音数据y,将所述干净语音数据x的每帧干净语音信号和所述带噪语音数据y的每帧混合语音信号分解到频域,以分别得到相应的干净语音频域数据x和带噪语音频域数据y;

s2、对于所述干净语音频域数据x和所述带噪语音频域数据y,计算所述带噪语音频域数据y相对于所述干净语音频域数据x在每个频点k对应的概率值p(k)=abs(y(k))/abs(x(k)),其中abs(x(k))为所述干净语音频域数据x对于每个频点k的概率值,abs(y(k))为所述带噪语音频域数据y对于每个频点k的概率值;

s3、根据所述带噪语音频域数据y相对于所述干净语音频域数据x在每个频点k对应的所有概率值,构建得到所述深度学习模型;

进一步,在所述步骤(2)中,根据所述语音时频概率,调整作用到所述目标语音信号的滤波处理具体包括,

步骤(201),根据所述语音时频概率,判断所述目标语音信号对应的若干帧语音数据中的每一个的可用状态;

步骤(202),根据所述目标语音信号中每一帧语音数据的可用状态判断结果,确定所述目标语音数据对应的fifo数据缓冲区的数据缓冲评判值;

步骤(203),根据所述数据缓冲评判值,确定是否调整所述滤波处理;

进一步,在所述步骤(201)中,根据所述语音时频概率,判断所述目标语音信号对应的若干帧语音数据中的每一个的可用状态具体包括,

步骤(2011),将所述语音时频概率与预设概率门限值进行对比处理,并根据所述对比处理的结果,判断所述目标语音信号中每一帧语音数据的可用状态;

步骤(2022),若所述语音时频概率大于所述预设概率门限值,则判断所述目标语音信号中对应帧语音数据处于可用状态;

步骤(2023),若所述语音时频概率小于或者等于所述预设概率门限值,则判断所述目标语音信号中对应帧语音数据处于不可用状态;

或者,

在所述步骤(202)中,根据所述目标语音信号中每一帧语音数据的可用状态判断结果,确定所述目标语音数据对应的fifo数据缓冲区的数据缓冲评判值具体包括,

步骤(2021),根据所述可用状态判断结果,确定所述目标语音信息中处于可用状态的所有帧语音数据在所述fifo数据缓冲区的数据存储状态;

步骤(2022),根据处于可用状态的所有帧语音数据在所述fifo数据缓冲区的数据存储状态,确定处于可用状态的每一帧语音数据对应的数据缓冲评判值;

或者,

在所述步骤(203)中,根据所述数据缓冲评判值,确定是否调整所述滤波处理具体包括,

步骤(2031),将所述数据缓冲评价值与预设评价门限值进行对比处理,并根据所述对比处理的结果,判断是否更新所述滤波处理;

步骤(2032),若所述数据缓冲评价值超过所述预设评价门限值,则更新所述滤波处理;

步骤(2033),若所述数据缓冲评价值不超过所述预设评价门限值,则不更新所述滤波处理;

进一步,在所述步骤(3)中,根据调整后的所述滤波处理,抑制所述目标语音信号对应语音阵列数据中存在的混响分量具体包括,

步骤(301),获取经过调整后的所述滤波处理得到的所述目标语音信号的混响属性;

步骤(302),根据所述混响属性,将所述目标语音信号转换成所述语音阵列数据;

步骤(303),对所述语音阵列数据进行混响分量的抑制与消除处理。

本发明还提供一种消除混响的系统,其特征在于:所述消除混响的系统包括语音信号预处理模块、语音时频概率计算模块、滤波器模块、滤波器调整模块和混响抑制模块;其中,

所述语音信号预处理模块用于对目标语音信号进行预处理;

所述语音时频概率计算模块用于计算获取经过所述预处理的目标语音信号对应的语音时频概率;

所述滤波器模块用于对所述目标语音信号进行滤波处理;

所述滤波器调整模块用于根据所述语音时频概率,调整所述滤波器模块的滤波处理模式;

所述混响抑制模块用于通过调整后的所述滤波处理模式,抑制所述目标语音信号对应语音阵列数据中存在的混响分量;

进一步,所述语音信号预处理模块包括晚期混响抑制子模块;其中,

所述晚期混响抑制子模块用于对所述目标语音信号进行晚期混响分量抑制处理,以消除所述目标语音信号中的晚期混响分量;

所述语音时频概率计算模块用于对经过所述晚期混响分量抑制处理的所述目标语音信号进行语音时频概率计算处理,以得到所述语音时频概率;

进一步,所述滤波器调整模块包括语音数据可用状态判断子模块、语音数据缓冲评价值确定子模块和滤波器调整确定子模块;其中,

所述语音数据可用状态判断子模块用于根据所述语音时频概率,判断所述目标语音信号对应的若干帧语音数据中的每一个的可用状态;

所述语音数据缓冲评价值确定子模块用于根据所述目标语音信号中每一帧语音数据的可用状态判断结果,确定所述目标语音数据对应的fifo数据缓冲区的数据缓冲评判值;

所述滤波器调整确定子模块用于根据所述数据缓冲评判值,确定是否调整所述滤波器模块的滤波处理模式;

进一步,所述语音数据可用状态判断子模块包括第一对比单元和可用状态确定单元;其中,

所述第一对比单元用于将所述语音时频概率与预设概率门限值进行对比处理;

所述可用状态确定单元用于根据所述对比处理的结果,判断所述目标语音信号中每一帧语音数据的可用状态;

或者,

所述语音数据缓冲评价值确定子模块包括语音数据存储状态确定单元和数据缓冲评价值计算单元;其中,

所述语音数据存储状态确定单元用于根据所述可用状态判断结果,确定所述目标语音信息中处于可用状态的所有帧语音数据在所述fifo数据缓冲区的数据存储状态;

所述数据缓冲评价值计算单元用于根据处于可用状态的所有帧语音数据在所述fifo数据缓冲区的数据存储状态,计算处于可用状态的每一帧语音数据对应的数据缓冲评判值;

或者,

所述滤波器调整确定子模块包括第二对比单元和滤波处理模式更新单元;其中,

所述第二对比单元用于将所述数据缓冲评价值与预设评价门限值进行对比处理;

所述滤波处理模式更新单元用于根据所述对比处理的结果,确定是否更新所述滤波器模块的滤波处理模式;

进一步,所述混响抑制模块包括混响属性获取子模块、语音阵列数据转换子模块和混响分量处理子模块;其中,

所述属性获取子模块用于获取经过所述滤波处理得到的所述目标语音信号的混响属性;

所述语音阵列数据转换子模块用于根据所述混响属性,将所述目标语音信号转换成所述语音阵列数据;

所述混响分量处理子模块用于对所述语音阵列数据进行混响分量的抑制与消除处理。

相比于现有技术,该消除混响的方法和系统通过在消除混响的过程中引入关于语音信号的语音时频概率检测,以计算得到该语音信号的语音时频概率,并根据该语音时频概率对混响消除处理中使用的滤波器进行适应性的更新调整操作,其中通过计算该语音信号的语音时频概率,能够将该语音信号中的大部分噪声进行排除处理,这样当根据该语音时频概率更新调整该滤波器时,能够有效地降低滤波器发生更新错误的概率,同时由于该语音信号中的大部分噪声已被排除处理,这样使得非语音数据并不参与到后续的混淆消除计算中,这能够大大地降低该滤波器的计算频率和减少消除混响的计算量,从而便于对消除混响的计算量进行大幅度压缩和提高消除混响算法在不同类型处理器中的适用性。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种消除混响的方法的流程示意图。

图2为本发明提供的一种消除混响的系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参阅图1,为本发明实施例提供的一种消除混响的方法的流程示意图。该消除混响的方法包括如下步骤:

步骤(1),对目标语音信号进行预处理,并获取经过该预处理的目标语音信号对应的语音时频概率。

优选地,在该步骤(1)中,对目标语音信号进行预处理,并获取经过该预处理的目标语音信号对应的语音时频概率具体包括,

步骤(101),对该目标语音信号进行晚期混响抑制处理,以消除该目标语音信号中的晚期混响分量;

步骤(102),对经过该晚期混响抑制处理后的该目标语音信号进行语音时频概率计算处理,以得到该语音时频概率;

优选地,该语音时频概率计算处理是通过深度学习模型实现的,该深度学习模型的构建过程包括,

s1、将干净语音数据x和噪声数据n混合得到带噪语音数据y,将该干净语音数据x的每帧干净语音信号和该带噪语音数据y的每帧混合语音信号分解到频域,以分别得到相应的干净语音频域数据x和带噪语音频域数据y;

s2、对于该干净语音频域数据x和该带噪语音频域数据y,计算该带噪语音频域数据y相对于该干净语音频域数据x在每个频点k对应的概率值p(k)=abs(y(k))/abs(x(k)),其中abs(x(k))为该干净语音频域数据x对于每个频点k的概率值,abs(y(k))为该带噪语音频域数据y对于每个频点k的概率值;

s3、根据该带噪语音频域数据y相对于该干净语音频域数据x在每个频点k对应的所有概率值,构建得到该深度学习模型。

步骤(2),根据该语音时频概率,调整作用到该目标语音信号的滤波处理。

优选地,在该步骤(2)中,根据该语音时频概率,调整作用到该目标语音信号的滤波处理具体包括,

步骤(201),根据该语音时频概率,判断该目标语音信号对应的若干帧语音数据中的每一个的可用状态;

步骤(202),根据该目标语音信号中每一帧语音数据的可用状态判断结果,确定该目标语音数据对应的fifo数据缓冲区的数据缓冲评判值;

步骤(203),根据该数据缓冲评判值,确定是否调整该滤波处理。

优选地,在该步骤(201)中,根据该语音时频概率,判断该目标语音信号对应的若干帧语音数据中的每一个的可用状态具体包括,

步骤(2011),将该语音时频概率与预设概率门限值进行对比处理,并根据该对比处理的结果,判断该目标语音信号中每一帧语音数据的可用状态;

步骤(2022),若该语音时频概率大于该预设概率门限值,则判断该目标语音信号中对应帧语音数据处于可用状态;

步骤(2023),若该语音时频概率小于或者等于该预设概率门限值,则判断该目标语音信号中对应帧语音数据处于不可用状态;

优选地,在该步骤(202)中,根据该目标语音信号中每一帧语音数据的可用状态判断结果,确定该目标语音数据对应的fifo数据缓冲区的数据缓冲评判值具体包括,

步骤(2021),根据该可用状态判断结果,确定该目标语音信息中处于可用状态的所有帧语音数据在该fifo数据缓冲区的数据存储状态;

步骤(2022),根据处于可用状态的所有帧语音数据在该fifo数据缓冲区的数据存储状态,确定处于可用状态的每一帧语音数据对应的数据缓冲评判值;

优选地,在该步骤(203)中,根据该数据缓冲评判值,确定是否调整该滤波处理具体包括,

步骤(2031),将该数据缓冲评价值与预设评价门限值进行对比处理,并根据该对比处理的结果,判断是否更新该滤波处理;

步骤(2032),若该数据缓冲评价值超过该预设评价门限值,则更新该滤波处理;

步骤(2033),若该数据缓冲评价值不超过该预设评价门限值,则不更新该滤波处理。

步骤(3),根据调整后的该滤波处理,抑制该目标语音信号对应语音阵列数据中存在的混响分量。

优选地,步骤(301),获取经过调整后的该滤波处理得到的该目标语音信号的混响属性;

步骤(302),根据该混响属性,将该目标语音信号转换成该语音阵列数据;

步骤(303),对该语音阵列数据进行混响分量的抑制与消除处理。

参阅图2,为本发明提供的一种消除混响的系统的结构示意图。该消除混响的系统包括语音信号预处理模块、语音时频概率计算模块、滤波器模块、滤波器调整模块和混响抑制模块;其中,

该语音信号预处理模块用于对目标语音信号进行预处理;

该语音时频概率计算模块用于计算获取经过该预处理的目标语音信号对应的语音时频概率;

该滤波器模块用于对该目标语音信号进行滤波处理;

该滤波器调整模块用于根据该语音时频概率,调整该滤波器模块的滤波处理模式;

该混响抑制模块用于通过调整后的该滤波处理模式,抑制该目标语音信号对应语音阵列数据中存在的混响分量。

优选地,该语音信号预处理模块包括晚期混响抑制子模块;

优选地,该晚期混响抑制子模块用于对该目标语音信号进行晚期混响分量抑制处理,以消除该目标语音信号中的晚期混响分量;

优选地,该语音时频概率计算模块用于对经过该晚期混响分量抑制处理的该目标语音信号进行语音时频概率计算处理,以得到该语音时频概率;

优选地,该滤波器调整模块包括语音数据可用状态判断子模块、语音数据缓冲评价值确定子模块和滤波器调整确定子模块;

优选地,该语音数据可用状态判断子模块用于根据该语音时频概率,判断该目标语音信号对应的若干帧语音数据中的每一个的可用状态;

优选地,该语音数据缓冲评价值确定子模块用于根据该目标语音信号中每一帧语音数据的可用状态判断结果,确定该目标语音数据对应的fifo数据缓冲区的数据缓冲评判值;

优选地,该滤波器调整确定子模块用于根据该数据缓冲评判值,确定是否调整该滤波器模块的滤波处理模式;

优选地,该语音数据可用状态判断子模块包括第一对比单元和可用状态确定单元其中,

该第一对比单元用于将该语音时频概率与预设概率门限值进行对比处理;

该可用状态确定单元用于根据该对比处理的结果,判断该目标语音信号中每一帧语音数据的可用状态;

优选地,该语音数据缓冲评价值确定子模块包括语音数据存储状态确定单元和数据缓冲评价值计算单元;其中,

该语音数据存储状态确定单元用于根据该可用状态判断结果,确定该目标语音信息中处于可用状态的所有帧语音数据在该fifo数据缓冲区的数据存储状态;

该数据缓冲评价值计算单元用于根据处于可用状态的所有帧语音数据在该fifo数据缓冲区的数据存储状态,计算处于可用状态的每一帧语音数据对应的数据缓冲评判值;

优选地,该滤波器调整确定子模块包括第二对比单元和滤波处理模式更新单元;其中,

该第二对比单元用于将该数据缓冲评价值与预设评价门限值进行对比处理;

该滤波处理模式更新单元用于根据该对比处理的结果,确定是否更新该滤波器模块的滤波处理模式;

优选地,该混响抑制模块包括混响属性获取子模块、语音阵列数据转换子模块和混响分量处理子模块;

优选地,该属性获取子模块用于获取经过该滤波处理得到的该目标语音信号的混响属性;

优选地,该语音阵列数据转换子模块用于根据该混响属性,将该目标语音信号转换成该语音阵列数据;

优选地,该混响分量处理子模块用于对该语音阵列数据进行混响分量的抑制与消除处理。

从上述实施例可以看出,该消除混响的方法和系统通过在消除混响的过程中引入关于语音信号的语音时频概率检测,以计算得到该语音信号的语音时频概率,并根据该语音时频概率对混响消除处理中使用的滤波器进行适应性的更新调整操作,其中通过计算该语音信号的语音时频概率,能够将该语音信号中的大部分噪声进行排除处理,这样当根据该语音时频概率更新调整该滤波器时,能够有效地降低滤波器发生更新错误的概率,同时由于该语音信号中的大部分噪声已被排除处理,这样使得非语音数据并不参与到后续的混淆消除计算中,这能够大大地降低该滤波器的计算频率和减少消除混响的计算量,从而便于对消除混响的计算量进行大幅度压缩和提高消除混响算法在不同类型处理器中的适用性。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1