用于远场通话的噪声估计方法及系统与流程

文档序号：22317377发布日期：2020-09-23 01:45阅读：375来源：国知局

本发明涉及语音降噪领域，尤其涉及一种用于远场通话的噪声估计方法及系统和用于远场通话的语音降噪方法及系统。

背景技术：

为了提高耳机、手机、会议设备的通话效果，通常会进行通话降噪。例如：单麦克风方案(常见于耳机/手机)：通过噪声频谱估计，求得后验/先验信噪比，随后进行谱减、维纳、统计模型等方法求得降噪结果。麦克风阵列方案(常见于耳机/手机/会议系统)：1、求得doa(directionofarrival，波达方向)后，利用得到的角度信息进行特定方向的波束形成语音增强，如fb(fixedbeamforming，固定波束形成)、gsc(generalizedsidelobecancellation，广义旁瓣抑制器)等；2、不需要直接的doa角度信息，利用bss(blindsourceseparation，盲源分离)、mwf(multichannelwienerfilter，多通道维纳滤波)、mvdr(minimumvariancedistortionlessresponse，最小方差无失真响应)等多通道信号处理。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

单麦克风方案、mwf、mvdr等麦克风阵列方案均需要噪声估计模块，但传统的噪声估计算法存在估计不准的情况，无法准确和及时地估得突变的非平稳噪声。因为传统的噪声估计算法，如最小值跟踪算法、时间递归平均算法、基于直方图算法等，均基于假设：分析时间段内的噪声比语音更为平稳，即噪声变化速率比语音慢，因此无法准确和及时地估得突变的非平稳噪声。

存在单点/多点/散射噪声干扰的情况下，doa角度可能偏离真实的说话人方向，导致波束形成算法的增强效果不佳。因为噪声情况下，语音信噪比降低影响相关矩阵，从而求得的信号和噪声子空间与准确值存在偏差，导致计算出的doa角度发生偏差。

技术实现要素：

为了至少解决现有技术中传统的噪声估计算法无法准确和及时地估得突变的非平稳噪声，存在噪声干扰的情况下，角度发生偏差，降噪效果较差的问题。

第一方面，本发明实施例提供一种用于远场通话的噪声估计方法，包括：

通过多个场景的纯噪声集合对纯净语音集合进行加噪处理，得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱，其中，所述纯净语音集合包括：由近场纯净语音卷积冲激响应生成的远场纯净语音；

基于设备的性能，选择噪声频谱估计模型的类型，其中，所述噪声频谱估计模型的类型包括：深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合；

提取所述各带噪训练语音的语音特征，将所述语音特征作为所述噪声频谱估计模型的输入，其中，所述语音特征至少包括：fft频点/子带、梅尔域/bark域、fbank、mfcc、lpc、基音一种或至少两种的组合；

将所述语音特征进行特征处理后，对所述噪声频谱估计模型进行深度学习训练，直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛，以用于估计远场通话的噪声，其中，所述特征处理至少包括：前后拼帧、均值归一化、方差归一化一种或至少两种的组合。

第二方面，本发明实施例提供一种用于远场通话的语音降噪方法，包括：

将所述语音特征进行特征处理后，对所述噪声频谱估计模型进行深度学习训练，直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛，以用于估计远场通话的噪声，其中，所述特征处理至少包括：前后拼帧、均值归一化、方差归一化一种或至少两种的组合；

接收用户输入的多通道带噪对话语音，提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型，确定所述多通道带噪对话语音的噪声频谱；

将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块，获得降噪对话语音。

第三方面，本发明实施例提供一种用于远场通话的噪声估计系统，包括：模型优化模块，用于：

第四方面，本发明实施例提供一种用于远场通话的语音降噪系统，包括：

模型优化模块，用于：

-通过多个场景的纯噪声集合对纯净语音集合进行加噪处理，得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱，其中，所述纯净语音集合包括：由近场纯净语音卷积冲激响应生成的远场纯净语音；

-基于设备的性能，选择噪声频谱估计模型的类型，其中，所述噪声频谱估计模型的类型包括：深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合；

-提取所述各带噪训练语音的语音特征，将所述语音特征作为所述噪声频谱估计模型的输入，其中，所述语音特征至少包括：fft频点/子带、梅尔域/bark域、fbank、mfcc、lpc、基音一种或至少两种的组合；

-将所述语音特征进行特征处理后，对所述噪声频谱估计模型进行深度学习训练，直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛，以用于估计远场通话的噪声，其中，所述特征处理至少包括：前后拼帧、均值归一化、方差归一化一种或至少两种的组合；

客户端：用于：

-接收用户输入的多通道带噪对话语音，提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型，确定所述多通道带噪对话语音的噪声频谱；

-将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块，获得降噪对话语音。

本发明实施例的有益效果在于：深度学习和信号处理相结合，利用深度学习进行模型训练，模型用来进行噪声频谱估计，深度学习模型估计噪声的准确性优于传统的噪声估计算法，再结合传统多通道信号处理，得到增强后语音，显著提升通话质量，如语音清晰度、可懂度等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于远场通话的噪声估计方法的流程图；

图2是本发明一实施例提供的一种用于远场通话的语音降噪方法的流程图；

图3是本发明一实施例提供的一种用于远场通话的语音降噪方法的结构图；

图4是本发明一实施例提供的一种用于远场通话的噪声估计系统的结构示意图；

图5是本发明一实施例提供的一种用于远场通话的语音降噪系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于远场通话的噪声估计方法的流程图，包括如下步骤：

s11：通过多个场景的纯噪声集合对纯净语音集合进行加噪处理，得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱，其中，所述纯净语音集合包括：由近场纯净语音卷积冲激响应生成的远场纯净语音；

s12：基于设备的性能，选择噪声频谱估计模型的类型，其中，所述噪声频谱估计模型的类型包括：深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合；

s13：提取所述各带噪训练语音的语音特征，将所述语音特征作为所述噪声频谱估计模型的输入，其中，所述语音特征至少包括：fft频点/子带、梅尔域/bark域、fbank、mfcc、lpc、基音一种或至少两种的组合；

s14：将所述语音特征进行特征处理后，对所述噪声频谱估计模型进行深度学习训练，直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛，以用于估计远场通话的噪声，其中，所述特征处理至少包括：前后拼帧、均值归一化、方差归一化一种或至少两种的组合。

对于步骤s11，收集近场纯净语音(如专业录音棚录制)和各种噪声场景下的纯噪声(不包含语音)数据。然后，将近场纯净语音通过大量不同的空间冲激响应、空间频率响应调制，将其调整为远场纯净语音。

再通过设定的信噪比范围，与各种噪声进行叠加处理得到带噪语音。在加噪处理的同时可以得到噪声频谱的分布情况，通常选用噪声掩蔽值g或者幅度谱anoise，作为模型训练的标签。

对于步骤s12，由于一些设备比如可便携设备(耳机、手表等)的运算能力和存储空间相对有限，需要结合实际情况确定模型类型和大小。模型的类型可选择的比较多，例如，

dnn(deepneuralnetworks，深度神经网络)、cnn(convolutionalneuralnetworks，卷积神经网络)、lstm(longshorttermmemory，长短时记忆神经网络)、fsmn(feedforwardsequentialmemorynetworks，前馈序列神经网络)、rnn(reccurrentneuralnetworks，递归神经网络)等一种或多种的组合。

对于步骤s13，通过提取带噪语音的语音特征，如fft频点/子带、梅尔域/bark域fbank、mfcc、lpc、基音等一种特征或多种特征的组合，可以根据不同需求提取不同的语音特征，语音特征也不限于上述这几种，作为模型训练的输入。

对于步骤s14，因为语音存在时间上的连续性，所以对语音特征做前后拼帧处理后模型效果会有提升。但向后拼帧会带来延时问题，在通话场景中延时希望越小越好，因此可以向前拼的帧数多一些，向后拼的少一些。比如在人耳无法感知的范围内，可适当存在一定的延时，通常在几十毫秒以内。比如帧移10ms，向前拼5帧，当前1帧，向后拼1帧，得到共计7帧的特征输入。此时的通话延时为信号处理重叠相加的1帧以及向后拼的1帧，共计2帧20ms，该延时较小，不会造成听感上的明显差异或者影响双讲情况。

此外，模型还可选择对输入特征是否做cmvn(cepstralmeanandvariancenormalization，特征均值方差归一化)，开启后模型对输入数据的绝对幅度不敏感，有利于模型收敛，也有利于远场小幅度的语音。

通常，在前后拼帧后进行均值方差归一化处理，可以显著提高模型效果。

最后，经过各种深度学习工具，进行大量数据(通常1000～2000小时以上)的模型训练，多轮迭代后模型达到收敛。收敛后的模型对各种场景/类型的噪声频谱具有准确的估计能力，估出的噪声频谱可供后面的降噪算法使用。

通过该实施方式可以看出，利用前后拼帧、均值方差归一化等处理提升模型噪声估计，利用深度模型进一步提高噪声估计的效果。

如图2所示为本发明一实施例提供的一种用于远场通话的语音降噪方法的流程图，包括如下步骤：

s21：通过多个场景的纯噪声集合对纯净语音集合进行加噪处理，得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱，其中，所述纯净语音集合包括：由近场纯净语音卷积冲激响应生成的远场纯净语音；

s22：基于设备的性能，选择噪声频谱估计模型的类型，其中，所述噪声频谱估计模型的类型包括：深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合；

s23：提取所述各带噪训练语音的语音特征，将所述语音特征作为所述噪声频谱估计模型的输入，其中，所述语音特征至少包括：fft频点/子带、梅尔域/bark域、fbank、mfcc、lpc、基音一种或至少两种的组合；

s24：将所述语音特征进行特征处理后，对所述噪声频谱估计模型进行深度学习训练，直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛，以用于估计远场通话的噪声，其中，所述特征处理至少包括：前后拼帧、均值归一化、方差归一化一种或至少两种的组合；

s25：接收用户输入的多通道带噪对话语音，提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型，确定所述多通道带噪对话语音的噪声频谱；

s26：将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块，获得降噪对话语音。

在本实施方式中，由于步骤s21-s24与s11-s14相同，再此不再赘述。

对于步骤s25，考虑到doa相关方案与doa准确度密切相关，噪声场景doa准确度明显下降，因此采用mwf、mvdr等这类非直接doa的多通道降噪方案。多通道降噪算法需要计算每个通道的噪声频谱、带噪语谱，求得协方差矩阵后通过相应计算得到每个通道的权值/滤波器系数，最终卷积带噪语音得到降噪语音。其中，带噪语谱是已知的，关键的是要得到准确的噪声频谱。相比传统的噪声估计算法(如最小值跟踪算法、时间递归平均算法、基于直方图算法等均基于假设：分析时间段内的噪声比语音更为平稳，即噪声变化速率比语音慢)，深度学习模型可以更为准确和实时地得到噪声频谱，尤其针对突变非平稳类的噪声，如乐器/音乐、键盘敲击声、开关门等。

例如有一个m个麦克风设备，其可以抓取m个通道原始带噪音频。计算这m个通道每一帧的特征(该特征和模型训练时保持完全一致，如频率范围、维数、预加重等处理)，然后根据模型训练时是否拼帧、具体拼帧方法、是否开启cmvn等，对特征进行处理后输入模型，模型前向计算得到每一帧每一个频点上的噪声掩蔽值gtif或幅度谱atif，比如t＝10,20…ms；i＝1,2…m；f＝0,50,100…8000hz。

作为一种实施方式，所述噪声频谱估计模型输出所述多通道带噪对话语音中各个通道的噪声频谱；

基于预设规则从所述各个通道的噪声频谱中选取有效噪声频谱，其中，所述预设规则包括最大值max()、最小值min()、平均值avg()，其中，基于所述最小值min()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的语音失真度，优于所述最大值max()、所述平均值avg()。

基于所述最大值max()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的噪声抑制程度，优于所述最小值min()、所述平均值avg()。

在本实施方式中，对于同一时刻(如t＝10ms时)，m个通道每一个频点上的噪声掩蔽值或者幅度谱可以做取最大值max(gtif或atif)、最小值min(gtif或atif)、平均值、不做处理(即每个通道可能有所差异)等操作。通常，取最小值操作最终降噪语音的可懂度略好于其他方式，因为远场语音信噪比较低，取最小值可以保证语音最大程度被保留，降噪后的语音失真度最小。

将每个通道带噪语谱及模型前向求得的噪声频谱(如果是噪声掩蔽值gtif，gtif乘以带噪语谱即为噪声频谱；如果是噪声幅度atif，atif乘以带噪语谱的相位谱即为噪声频谱)传给多通道降噪模块，即可得到最终的降噪音频。简易结构图如图3所示，其中，前端处理模块，是指回声消除、去混响、盲源分离、波束形成等这些操作，前面涉及的拼帧、归一化等特征处理包含在“深度学习模块”里。

通过该实施方式可以看出，深度学习和信号处理相结合，利用深度学习进行模型训练，模型用来进行噪声频谱估计，深度学习模型估计噪声的准确性优于传统的噪声估计算法，再结合传统多通道信号处理，得到增强后语音，显著提升通话质量，如语音清晰度、可懂度等。

作为一种实施方式，在本实施例中，在所述获得降噪对话语音之后，所述方法还包括：

基于所述降噪对话语音以及所述多通道带噪对话语音确定各个通道的后验信噪比；

选取所述后验信噪比最大的通道对应的掩蔽值，确定为后处理掩蔽值；

基于所述后处理掩蔽值对所述降噪对话语音进行二次降噪，以确保降噪效果和语音失真的平衡。

在本实施方式中，在多通道降噪模块后，通过降噪音频和多通道的原始带噪音频可以求得每一帧每个通道的后验信噪比(比如全/部分频段信噪比求和)，然后选取后验信噪比最大的那一通道对应的掩蔽值作为后处理掩蔽值gpost。该后处理掩蔽值乘在降噪音频上可以得到二次降噪的音频。通常，对后处理掩蔽值加一个下限值能够保证降噪和语音失真度之间的相对平衡。下限值指：低于下限值的后处理掩蔽值将赋值为下限值，如下限值为0.3，则小于0.3的频点掩蔽值令其等于0.3。通常，下限值设为0.1～0.5之间效果较好，下限值过小可能引起语音失真，下限值过大则相当于没有后处理效果，增加了计算量却没带来效果提升。

通过该实施方式可以看出，对获得的降噪对话语音二次降噪后，进一步提升降噪效果，确保降噪和语音失真度之间的相对平衡。

作为一种实施方式，在所述接收用户输入的多通道带噪对话语音之后，所述方法还包括：

对所述多通道带噪对话语音进行回声消除、去混响、盲源分离、波束形成等，用于提高所述多通道带噪对话语音的信噪比。

在本实施方式中，带噪音频在输入深度学习模型前，可以做一些前端处理以提升语音信噪比，最终提升整体效果。比如m通道带噪音频可以先经过bss或gsc得到n(1<n≤m且为正整数)通道输出，然后对n通道输出提取特征后分别输入模型做前向计算得到n通道每一帧的噪声掩蔽值gtif或幅度谱atif，比如t＝10,20…ms；i＝1,2…n；f＝0,50,100…8000hz。同样的，可以做取最大值、最小值等操作。这里，推荐采用取最小值的操作，因为bss会将噪声和语音分离到不同输出通道上，gsc能够提升说话方向的语音信噪比，为保证语音失真度尽可能小，通常采用最小值效果较好。然后将得到的噪声频谱(如果是噪声掩蔽值gtif，gtif乘以带噪语谱即为噪声频谱；如果是噪声幅度atif，atif乘以带噪语谱的相位谱即为噪声频谱)输入后续的多通道降噪模块。通常，在设备运算能力允许的情况下，选用bss或gsc能够提升送模型前音频的信噪比，从而提升模型输出结果的准确性，有利于最终降噪音频语音的失真度，提升语音清晰度和可懂度。

如图4所示为本发明一实施例提供的一种用于远场通话的噪声估计系统的结构示意图，该系统可执行上述任意实施例所述的用于远场通话的噪声估计方法，并配置在终端中。

本实施例提供的一种用于远场通话的噪声估计系统包括：模型优化模块11，用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于远场通话的噪声估计方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

如图5所示为本发明一实施例提供的一种用于远场通话的语音降噪系统的结构示意图，该系统可执行上述任意实施例所述的用于远场通话的语音降噪方法，并配置在终端中。

本实施例提供的一种用于远场通话的语音降噪系统包括：

模型优化模块21，用于：

客户端22：用于：

-将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块，获得降噪对话语音。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于远场通话的语音降噪方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块，获得降噪对话语音。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于远场通话的噪声估计方法以及用于远场通话的语音降噪方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于远场通话的噪声估计方法以及用于远场通话的语音降噪方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周晨
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人

上一篇：一种半监督瞬态噪声抑制方法与流程
上一篇：一种具备旋转爬梯功能的电梯轿顶的制作方法