一种混响消除方法、装置、设备及存储介质与流程

文档序号:19145711发布日期:2019-11-15 23:29阅读:333来源:国知局
一种混响消除方法、装置、设备及存储介质与流程

本发明属于信号处理技术领域,尤其涉及一种语音混响消除方法、装置、设备及存储介质。



背景技术:

声音混响是日常生活中较为普遍的一种现象,适量的早期混响可以使声音饱满,但混响时间过长会产生严重的负面影响,且通常会对语音的清晰度有一定的影响,尤其是对有听力障碍的听众。当说话人与麦克风距离较远时,麦克风采集到的语音通常含有较多的混响成分,过大的混响不仅会影响到语音的清晰度和可懂度,同时也影响到后续语音识别等语音信号处理的性能。因此对具有混响的音频进行混响的消除具有重要的意义。

传统的混响消除方法包括基于波束形成的混响消除、基于逆滤波的混响消除以及基于语音增强的混响消除方法,基于波束形成的混响消除又分为固定波束形成和自适应波束形成两种方法,基于固定波束形成的混响消除方法易实现,但不能应用于变化的声学环境,基于自适应波束形成的混响消除方法只能抑制波束方向的混响,计算复杂度高;基于逆滤波的混响消除难以应用于实际。峰值检测法不能用于复杂的混响模型中。



技术实现要素:

本发明实施例提供一种混响消除方法、装置、设备及存储介质,环境适应度强能够适应各种复杂的混响模型实现混响消除。

第一方面,本发明实施例提供了一种混响消除方法,包括:

获取语音信号;

基于所述语音信号进行时频分解得到听觉谱;

基于所述听觉谱提取第一mrcg特征;

将所述第一mrcg特征输入预先训练好的混响消除模型得到第二mrcg特征;

基于所述第二mrcg特征通过语音变换得到消除混响后的语音信号。

第二方面,本发明实施例还提供了一种混响消除系统,包括:

语音信号获取模块,用于获取语音信号;

时频分解模块,用于基于所述语音信号进行时频分解得到听觉谱;

第一mrcg特征提取模块,用于基于所述听觉谱提取第一mrcg特征;

第二mrcg特征获取模块,用于将所述第一mrcg特征输入预先训练好的混响消除模型得到第二mrcg特征;

语音变换模块,用于基于所述第二mrcg特征通过语音变换得到消除混响后的语音信号。

第三方面,本发明实施例还提供了一种混响消除设备,包括存储器和处理器,存储器上存储有可在处理器运行的计算机程序,处理器执行计算机程序时实现前述的混响消除方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被执行时实现前述的混响消除方法。

本发明实施例提供的技术方案,通过预设规则将etl任务归类为第一类型任务和第二类型任务,进而选择不同的计算资源执行对应类型的etl任务,避免了传统etl任务通过统一的计算资源执行所造成的资源浪费以及并发排队过多造成的时间浪费。

附图说明

图1是本发明实施例一中的混响消除方法的流程图;

图2是本发明实施例一中的混响消除方法的子流程图;

图3是本发明实施例一中的混响消除方法的子流程图;

图4是本发明实施例二中的混响消除方法的流程图;

图5是本发明实施例二中的混响消除模型的训练流程图;

图6是本发明实施例二中的混响消除装置的结构示意图;

图7是本发明实施例三中的混响消除设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本发明的范围的情况下,可以将第一预设时间称为第二预设时间,且类似地,可将第二预设时间称为第一预设时间。第一预设时间和第二预设时间两者都是预设时间,但其不是同一预设时间。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。需要说明的是,当部被称为“固定于”另一个部,它可以直接在另一个部上也可以存在居中的部。当一个部被认为是“连接”到另一个部,它可以是直接连接到另一个部或者可能同时存在居中部。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述,只是为了说明的目的,并不表示是唯一的实施方式。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种混响消除方法的流程图,本实施例可适用于多种复杂混响模型的混响消除需求,具体包括如下步骤:

步骤110、获取语音信号。

此处获取的语音信号为需要进行混响消除的语音信号。

步骤120、基于所述语音信号进行时频分解得到听觉谱。

时频分解通常作为前端处理手段,其可以将以为时域信号分解成二维的视频信号。

进一步的,听觉谱获取流程如图2所示,步骤120包括步骤121~123:

步骤121、选择听觉滤波器对所述语音信号进行滤波,得到滤波输出。

在语音的压缩和识别技术中,听觉滤波器有广泛的应用。降低采样率等技术难以获得满意的音质,而听觉滤波器的语音压缩技术考虑了人耳对声音的感受特性,对不同频带的语音信号采用不同的压缩率,让原始语音信号通过一组听觉滤波器,哪些人耳敏感的频带的滤波器通道的输出采用较低的压缩率,这些通道的信息尽可能多的保留在压缩后的语音中,而那些原始语音信号中不容易被人耳察觉的频带的滤波器通道的输出则采用较高的压缩率,甚至被丢弃掉。这样得到的滤波输出由于较好地模拟了人耳的感知特性,使得语音识别技术在较强的噪声背景下也可以取得较佳的效果。

进一步的,本实施例采用gammatone听觉滤波器对语音信号进行处理,其时域脉冲响应为:

其中,l为gammatone听觉滤波器的阶数,b为滤波器的衰减因子,f为滤波器的中心频率。

相较于其他听觉滤波器,gammatone听觉滤波器其需要的参数较少、需要的阶次较低、具有简单的冲激响应函数。

步骤122、采用交叠分段的方法,以第一预设时间为帧长,第二预设时间为偏移量对每一个频率通道的所述滤波输出做分帧加窗,得到输入信号的时频域表示,即时频单元。

本实施例选用的第一预设时间大于第二预设时间,且均大于零,预设时间的大小影响时间分辨率和频域分辨率,时间分辨率越高时频域分辨率越低,考虑到10ms一般可以刚好表达一个最低的基频周期本实施例选用稍大的20ms作为第一预设时间,10ms作为第二预设时间,保证两种分辨率的平衡。

分帧加窗处理后得到输入信号的时频域表示,也即是时频单元,时频单元被人在听觉场景分析系统中的最小处理单位。

步骤123、根据所述时频单元计算听觉滤波器输出能量,得到听觉谱。

计算每个视频单元内的听觉滤波器输出能量便可得到听觉谱。

步骤130、基于所述听觉谱提取第一mrcg特征。

梅尔倒谱系数(mel-scalefrequencycepstralcoefficients,简称mfcc)是在mel标度频率域提取出来的倒谱参数,mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:

式中f为频率,单位为hz。

进一步的,第一mrcg特征提取流程如图3所示,步骤130包括步骤131~135:

步骤131、对输入的语音信号,计算64通道的听觉谱cg1,对每一个时频单元取对数操作。

每个时频单元的能量也是语音的重要特征,而且计算也较为容易,因此在对每个视频单元取对数操作使得每一个时频单元的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。

步骤132、以第三预设时间为帧长,以第二预设时间为帧移计算得到听觉谱cg2。

优选的,本实施例中第三预设时间为200ms,第二预设时间为10ms。

步骤133、用一个长为11时间帧和宽为11频带的方形窗对所述听觉谱cg1进行平滑,得到听觉谱cg3。

步骤134、使用23×23的方形窗对所述听觉谱cg1进行平滑,得到听觉谱cg4。

步骤135、串联听觉谱cg1、cg2、cg3和cg4得到一个64×4的向量,即为第一mrcg特征。

串联了听觉谱cg1、cg2、cg3和cg4后的第一mrcg特征是一种多分辨率的特征,其既有关注细节的高分辨率特征,又有把握全局性的低分辨率特征。

步骤140、将所述第一mrcg特征输入预先训练好的混响消除模型得到第二mrcg特征。

传统的混响消除方法包括基于波束形成的混响消除、基于逆滤波的混响消除以及基于语音增强的混响消除方法,上述混响均存在不同程度的缺陷,包括:不能应用于变化的声学环境、只能抑制波束方向的混响、计算复杂度高只能抑制波束方向的混响和计算复杂度高。因此本实施例采用一种基于深度置信网络(dbn)的混响消除模型进行语音信号的混响消除。

考虑到声学环境的复杂,在获取混响消除模型是采用包括各种混响程度的训练数据进行训练大大提高了混响消除模型的适应性。

本实施例提供的混响消除模型以语音信号的听觉谱第一mrcg特征为输入,以期望的纯净语音信号的听觉谱第二mrcg特征为输出。

步骤150、基于所述第二mrcg特征通过语音变换得到消除混响后的语音信号。

当获取到进行混响消除后的第二mrcg特征后,可以基于上述第一mrcg特征的获取方式,通过逆向变换进行语音合成,得到消除混响后的语音信号。

在上述方案中,通过时频分解得到听觉谱,基于听觉谱进行mrcg提取特征,基于mrcg特征利用dbn建立的混响消除模型完成混响消除,在进行逆向变换得到消除混响的语音信号。由于混响消除模型训练数据量大,且可以利用各种混响程度的音频数据进行训练,因此其对于各种混响程度的语音皆可达到好的去混响效果,而且可以通过不断训练改进混响消除模型不断提高混响消除效果。

实施例二

图4为本发明实施例二提供的一种混响消除方法流程图,本实施例在实施例一的基础上实现,如图4所示,在步骤110之前还包括:

步骤100、获取包括多个混响语音信号和纯净语音信号的音频数据。

在一些实施例中,如图5所示,步骤s100、基于深度神经网络训练得到预先训练好的混响消除模型(即混响消除模型的具体训练过程)包括步骤s210-步骤s280,具体如下。

步骤210、获取包括多个混响语音信号和纯净语音信号的音频数据。

根据实际情况的不同,语音的混响程度有轻有重,且对应的混响时间也不相同,为了提高混响消除模型的适应性,需要提供多种混响程度和混响时间的混响语音信号以及对应的纯净语音信号作为训练数据库。

进一步的,步骤210包括:

自语音数据库中随机选择n句语音信号。语音数据库包括timit,还有清华语音数据集、mardy和vctk数据集,优选的,n为5000。

随机选择m个滤波器,所述m个滤波器可对语音信号进行不同程度、不同时间的混响。滤波器由mardy数据库中选出,优选的,m为50。

混响程度可以分为轻度、中度和重度,混响时间可以包括依次增大的第一混响时间、第二混响时间和第三混响时间,示例性的,第一混响时间为0.5s,第二混响时间为1s,第三混响时间为2s。

使用每个滤波器对每句语音信号滤波生成三种不同程度的混响语音信号,得到的3*m*n个混响语音信号作为混响音频数据,同时得到相应的纯净音频与其对应。

步骤220、基于所述多个混响语音信号和纯净语音信号进行时频分解得到多个混响听觉谱和纯净听觉谱。

步骤230、基于所述多个混响听觉谱提取多个混响mrcg特征,基于所述多个纯净听觉谱提取多个纯净mrcg特征。

步骤240、以所述多个混响mrcg特征作为输入充分训练第一个rbm网络,固定所述第一个rbm网络的权重和偏移量,使用其隐性神经元的状态,作为第二个rbm的输入向量。

一个dbn模型由若干个rbm网络堆叠而成,训练过程由低到高逐层进行训练,因此需要先对第一层rbm网络进行训练。一个rbm网络,由可见层、隐层组成,位于可见层的显元用于接受输入,位于隐层的隐元用于提取特征。也就是说,通过rbm训练之后,可以得到输入数据的特征。

步骤250、充分训练第二个rbm网络,将第二个rbm网络堆叠在第一个rbm网络的上方。

训练完第一个rbm网络后需要将第一个rbm提取的特征作为下一个rbm网络的输入进行继下一层rbm网络的训练。

步骤260、判断训练是否达到预设次数,不是则重复训练过程步骤240-250,是则进行步骤270。

当训练次数到达预设次数时,继续训练所花费的时间相较于其改进程度成本较大,可以认为此时的模型已经能一定程度上满足混响消除的期望。

步骤270、设置bp网络,以rbm网络的输出特征向量作为bp网络的输入特征向量,有监督地训练实体关系分类器。

bp网络采用的bp算法为传统的全局学习算法,其可以对网络进行微调,从而使模型收敛到局部最优点,通过这种方式可以高效训练一个深层网络出来。

步骤280、基于所述多个纯净mrcg特征对上述已完成初始权值和偏置设置的bp神经网络模型进行误差反向传播训练。

基于和混响mrcg特征对应的纯净mrcg特征对模型进行误差反向传播训练可以进行一步使模型到达更优点实现更佳的混响消除效果。

本实施例在实施例一的基础上进一步提供了基于dbm的混响消除模型的训练过程,基于混响语音信号和纯净语音信号通过对两个rbm网络和一个bp网络的训练以及反向传播训练,保证了混响消除模型对不同混响程度的语音的均可以起到良好的去混响效果。

实施例三

图6所示为本发明实施例三提供的一种混响消除装置300的结构示意图,该混响消除装置的具体结构如下:

语音信号获取模块310,获取语音信号。

时频分解模块320,基于所述语音信号进行时频分解得到听觉谱。

进一步的,时频分解模块320还包括:

滤波单元,用于选择听觉滤波器对所述语音信号进行滤波,得到滤波输出。

优选的,本实施例中滤波单元采用gammatone听觉滤波器对语音信号进行处理,其时域脉冲响应为:

其中,l为gammatone听觉滤波器的阶数,b为滤波器的衰减因子,f为滤波器的中心频率。

分帧加窗单元,用于采用交叠分段的方法,以第一预设时间为帧长,第二预设时间为偏移量对每一个频率通道的所述滤波输出做分帧加窗,得到输入信号的时频域表示,即时频单元。

听觉谱获取单元,用于根据所述时频单元计算听觉滤波器输出能量,得到听觉谱。

第一mrcg特征提取模块330,用于基于所述听觉谱提取第一mrcg特征。

进一步的,第一mrcg特征提取模块330还包括:

听觉谱cg1获取单元,用于对输入的语音信号,计算64通道的听觉谱cg1,对每一个时频单元取对数操作。

听觉谱cg2获取单元,用于以第三预设时间为帧长,以第二预设时间为帧移计算得到听觉谱cg2。

听觉谱cg3获取单元,用于用一个长为11时间帧和宽为11频带的方形窗对所述听觉谱cg1进行平滑,得到听觉谱cg3。

听觉谱cg4获取单元,用于使用23×23的方形窗对所述听觉谱cg1进行平滑,得到听觉谱cg4。

串联单元,用于串联听觉谱cg1、cg2、cg3和cg4得到一个64×4的向量,即为第一mrcg特征。

第二mrcg特征获取模块340,用于将所述第一mrcg特征输入预先训练好的混响消除模型得到第二mrcg特征。

语音变换模块350,用于基于所述第二mrcg特征通过语音变换得到消除混响后的语音信号。

本实施例中,第二mrcg特征获取模块340还包括模型训练子模块,用于基于深度神经网络获取训练好的混响消除模型。

具体的,模型训练子模块包括:

音频数据获取单元,用于获取包括多个混响语音信号和纯净语音信号的音频数据。

进一步的,音频数据获取单元包括:

语音信号选取子单元,用于自语音数据库中随机选择n句语音信号。

滤波器选择子单元,用于随机选择m个滤波器,所述m个滤波器可对语音信号进行不同程度、不同时间的混响。

混响子单元,用于使用每个滤波器对每句语音信号滤波生成三种不同程度的混响语音信号,得到的3*m*n个混响语音信号作为混响音频数据,同时得到相应的纯净音频与其对应。

听觉谱获取单元,用于基于所述多个混响语音信号和纯净语音信号进行时频分解得到多个混响听觉谱和纯净听觉谱。

mrcg特征提取单元,用于基于所述多个混响听觉谱提取多个混响mrcg特征,基于所述多个纯净听觉谱提取多个纯净mrcg特征。

第一rbm网络训练单元,用于以所述多个混响mrcg特征作为输入充分训练第一个rbm网络,固定所述第一个rbm网络的权重和偏移量,使用其隐性神经元的状态,作为第二个rbm的输入向量。

第二rbm网络训练单元,用于充分训练第二个rbm网络,将第二个rbm网络堆叠在第一个rbm网络的上方。

重复单元,用于重复以上两个步骤进行预设次数。

bp网络训练单元,用于设置bp网络,以rbm网络的输出特征向量作为bp网络的输入特征向量,有监督地训练实体关系分类器。

方向传播单元,用于基于所述多个纯净mrcg特征对上述已完成初始权值和偏置设置的bp神经网络模型进行误差反向传播训练。

本实施例进一步提供了一种混响消除装置,通过时频分解得到听觉谱,基于听觉谱进行mrcg提取特征,基于mrcg特征利用dbn建立的混响消除模型完成混响消除,在进行逆向变换得到消除混响的语音信号。由于混响消除模型训练数据量大,且可以利用各种混响程度的音频数据进行训练,因此其对于各种混响程度的语音皆可达到好的去混响效果,而且可以通过不断训练改进混响消除模型不断提高混响消除效果。

本发明实施例所提供了一种混响消除装置可执行本发明前述实施例所提供的一种混响消除方法,其具备执行方法相应的功能模块和有益效果。

实施例四

图7为本发明实施例四提供的一种混响消除设备400的结构示意图,如图7所示,该种混响消除设备包括存储器410、处理器420,混响消除设备中处理器420的数量可以是一个或多个,图7中以一个处理器420为例;混响消除设备中的存储器410、处理器420可以通过总线或其他方式连接,图7中以通过总线连接为例。

存储器410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的混响消除方法对应的程序指令/模块(例如,混响消除系统中的语音信号获取模块310、时频分解模块320、第一mrcg特征提取模块330、第二mrcg特征获取模块340、语音变换模块350)。处理器420通过运行存储在存储器410中的软件程序、指令以及模块,从而执行混响消除设备的各种功能应用以及数据处理,即实现上述的混响消除方法。

其中,所述处理器420用于运行存储在存储器410中的计算机可执行程序,以实现如下步骤:步骤110、获取语音信号;步骤120、基于所述语音信号进行时频分解得到听觉谱;步骤130、基于所述听觉谱提取第一mrcg特征;步骤140、将所述第一mrcg特征输入预先训练好的混响消除模型得到第二mrcg特征步骤;150、基于所述第二mrcg特征通过语音变换得到消除混响后的语音信号。

当然,本发明实施例所提供的一种混响消除设备,该混响消除设备不限于如上所述的方法操作,还可以执行本发明实施例任意实施例所提供的混响消除方法中的相关操作。

存储器410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接至混响消除设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述产品可执行本发明任意实施例所提供的混响消除方法,具备执行方法相应的功能模块和有益效果。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种混响消除方法,该混响消除方法包括:

获取语音信号;

基于所述语音信号进行时频分解得到听觉谱;

基于所述听觉谱提取第一mrcg特征;

将所述第一mrcg特征输入预先训练好的混响消除模型得到第二mrcg特征;

基于所述第二mrcg特征通过语音变换得到消除混响后的语音信号。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的混响消除方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,混响消除设备,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述混响消除装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1