一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法与流程

文档序号:20195511发布日期:2020-03-27 20:06阅读:553来源:国知局
一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法与流程

本发明涉及电子设备语音降噪技术领域,更具体地说,涉及一种融合骨振动传感器和麦克风信号的深度学习降噪方法。



背景技术:

语音降噪技术是指从带噪语音信号中分离出语音信号,该技术拥有广泛的应用,通常有单麦克风降噪技术和多麦克风降噪技术,然而传统的降噪技术中存在一些缺陷,传统的单麦克风降噪技术预先假设噪声为平稳噪声,适应性不高,局限较大;而传统的多麦克风降噪技术需要两个及以上的麦克风,增加了成本,多麦克风结构对于产品的结构设计要求更高,限制了产品的结构设计,而且,多麦克风降噪技术依靠方向信息进行降噪,无法抑制来自目标人声方向的噪音,以上缺陷值得改进。

传统多麦克风和单麦克风通话降噪技术存在以下缺陷:

1.麦克风数量与成本呈线性关系,麦克数量越多,成本越高;

2.多麦克风对产品结构设计要求更高,限制产品的结构设计;

3.多麦克降噪技术依靠方向信息进行降噪,无法抑制来自于接近目标人声方向的噪音;

4.单麦克风降噪技术依赖噪声估计,其预先架设噪声为平稳声,具有局限性。

本发明结合了骨震动传感器及传统麦克风的信号,采用深度学习进行融合从而实现降噪,在各种噪声环境下,实现提取目标人声,降低干扰噪声。该技术可应用于耳机、手机等贴合耳部(或其它身体部位)的通话场景。相比于仅采用一个或多个麦克风降噪的技术,结合骨振动传感器可在信噪比极低的环境下,诸如:地铁、风噪等场景,依然可以保持良好的通话体验。相比传统单麦克风降噪技术,本技术不对噪声做任何假设(传统单麦风降噪技术预先假设噪声为平稳噪声),利用深度神经网络强大的建模能力,有很好的人声还原度及极强的噪声抑制能力,可以在解决复杂噪声场景下人声提取问题。相比于传统多麦克风降噪技术需要2个及以上麦克风进行波束形成的降噪方案,我们采用单麦克风。

相对于气导麦克风,骨振动传感器信号采样主要在低频范围,但不受气导噪声干扰。不同于其他结合骨震动传感器及气导麦克风降噪方式仅利用骨震动传感器信号作为人声激活检测的标志,本技术将骨传导信号作为低频输入信号,通过高频重建(可选)后,与麦克风信号一同送入深度神经网络进行整体融合后实现降噪。借助骨振动传感器,我们能够得到优质的低频信号,并以此为基础,极大地提高深度神经网络预测的准确性,使得降噪效果更佳。

相比申请号为201710594168.3的专利(名称为一种通用的单声道实时降噪方法),本发明引入了骨振动传感器信号,利用骨振动传感器不受空气噪音干扰的特性,将骨振动传感器信号与气导麦克风信号使用深度神经网络融合,达到了在极低信噪比下也能有优质的降噪效果。

相比申请号为201811199154.2的专利(名称为一种通过人体振动识别用户语音以控制电子设备的系统)中将骨振动传感器信号作为语音活动检测的标志不同,我们将骨振动传感器信号与麦克风信号一起作为深度神经网络的输入,进行信号层的有机融合,从而达到优质的降噪效果。



技术实现要素:

本发明要解决的技术问题在于如何通过采用一种融合骨振动传感器和麦克风信号的深度学习降噪方法,以解决现有技术中多麦克风限制产品结构、成本过高、而且传统的单麦克风降噪技术有局限性等问题。不同于其他结合骨震动传感器和气导麦克风技术中仅利用骨震动传感器信号作为激活检测的标志,本技术利用骨振动传感器信号不受气导噪声干扰的特性,将骨传信号作为直接输入信号,通过高频重建(可选)后,与麦克风信号一同送入深度神经网络进行整体融合及降噪。借助骨振动传感器,我们能够得到优质的低频信号,并以此为基础,极大地提高深度神经网络预测的准确性,使得降噪效果更佳。

本发明解决其技术问题所采用的技术方案是:构造一种融合骨振动传感器和麦克风信号的深度学习降噪方法,结合了骨震动传感器及传统麦克风的信号各自优势,采用深度学习人声提取及降噪技术,在各种噪声环境下,实现提取目标人声,降低干扰噪声。该技术可应用于耳机、手机等贴合耳部(或其它身体部位)的通话场景,且成本低易实现。

在本发明所述的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,所述一种融合骨振动传感器和麦克风信号的深度学习降噪方法,包括如下步骤:

s1骨振动传感器和麦克风采集音频信号,分别得到骨振动传感器音频信号和麦克风音频信号;

s2将骨振动传感器音频信号输入高通滤波模块,进行高通滤波;

s3将经过高通滤波后的骨振动传感器音频信号与麦克风音频信号输入深度神经网络模块;

s4深度神经网络模块经过融合后预测得出降噪语音。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,高通滤波模块修正骨振动传感器音频信号直流偏移,并滤除低频杂波信号。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,骨振动传感器音频信号经过高通滤波处理后,更优选的,通过高频重建,即频带拓宽的方法,进一步拓宽频率范围,将骨振动传感器音频信号拓宽至两千赫兹以上,随后将其输入深度神经网络模块。

进一步,亦可仅使用频带拓宽后的骨振动信号作为最终的输出信号,从而无需依赖麦克风信号。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块还包括融合模块,融合模块将麦克风音频信号和骨振动传感器音频信号融合及降噪。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块的一种实现方法是通过卷积循环神经网络实现,并通过预测得到纯净语音幅度谱。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块由数层卷积网络、数层长短期记忆网络和三相对应的数层反卷积网络构成。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块的训练目标是纯净语音幅度谱。首先将纯净语音经过短时傅里叶变换后,再获得纯净语音幅度谱作为训练目标,即目标幅度谱。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,深度神经网络模块的输入信号是由骨振动传感器音频信号的幅度谱(或经过频带拓宽后的幅度谱)和麦克风音频信号的幅度谱堆叠而成;

首先将骨振动传感器音频信号和麦克风音频信号分别经过短时傅里叶变换,再分别取得两路幅度谱,并进行堆叠。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,将堆叠后的幅度谱经过深度神经网络模块,得到预测幅度谱,并输出。

在本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法中,将目标幅度谱与预测幅度谱做均方误差。

根据上述方案的本发明,其有益效果在于,本发明提供了一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法,利用深度神经网络强大的建模能力,有很好的人声还原度及极强的噪声抑制能力,可以解决复杂噪声场景下的人声提取问题。本发明利用骨振动传感器不受气导噪声干扰的特性,可在信噪比极低的环境下,诸如:地铁、风噪等场景,依然保持良好的通话体验。且采用单麦克风显著地简化实现和降低成本。不同于其他结合骨震动传感器和气导麦克风降噪方式中仅利用骨震动传感器信号作为激活检测的标志,本技术利用骨振动传感器信号不受气导噪声干扰的特性,将骨传信号作为低频输入信号,通过高频重建(可选)后,与麦克风信号一同送入深度神经网络进行整体融合而获取人声。借助骨振动传感器,我们能够得到优质的低频信号,并以此为基础,极大地提高深度神经网络预测人声的准确性,使得降噪效果更佳。

附图说明

下面将结合附图及实施例对本发明作进一步说明。附图中:

图1是本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法的流程框图;

图2是高频重建的一种方法原理框图;

图3是本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法的深度神经网络融合模块结构框图;

图4是本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法的骨震动传感器采集到的音频信号频谱图示意;

图5是本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法的麦克风采集到的音频信号频谱图示意;

图6是本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法处理后的音频信号频谱图示意;

图7是本发明的一种融合骨振动传感器和麦克风信号的降噪方法和一种无骨震动传感器的单声道对应的深度学习实时降噪方法的降噪效果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明是一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法,包括如下步骤:

s1骨振动传感器和麦克风采集音频信号,分别得到骨振动传感器音频信号和麦克风音频信号;

s2将骨振动传感器音频信号输入高通滤波模块,并进行高通滤波;

s3将经过高通滤波后的骨振动传感器音频信号与麦克风音频信号输入深度神经网络模块;

s4深度神经网络模块经过预测得出融合降噪后的语音。本发明引入了骨振动传感器,利用其不受空气噪音干扰的特性,将骨振动传感器信号与气导麦克风信号使用深度神经网络融合,达到了在极低信噪比下也能有理想的降噪效果。

之前最先进的实用语音降噪方案是使用大量数据训练的前馈型深度神经网络(deepneuralnetwork,dnn),尽管该方案可以实现从未经训练的带噪人声中分离出特定人声,但该模型对非特定人声的降噪效果并不好。为了提升非特定人声的降噪效果,最有效的方法是在训练集中加入多个说话人的语音,然而这样会使得dnn对语音和背景噪声出现混淆,并且倾向于将噪声错分为语音。

公开的申请号为201710594168.3专利(名称为一种通用的单声道实时降噪方法)涉及一种通用的单声道实时降噪方法,包括以下步骤:接收电子格式的带噪语音,其中包含语音和非人声干扰噪声;从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征;使用具有长短期记忆的深度回归神经网络逐帧产生比值膜;利用产生的比值膜对带噪语音的幅度谱进行掩蔽;使用掩蔽后的幅度谱和带噪语音的原始相位,经过逆傅里叶变换,再次合成语音波形。该发明采用有监督学习方法进行语音降噪,通过使用带有长短期记忆的回归神经网络来估计理想比值膜;该发明提出的回归神经网络使用大量带噪语音进行训练,其中包含了各种现实声学场景和麦克风脉冲响应,最终实现了独立于背景噪声、说话人和传输信道的通用语音降噪。其中,单声道降噪是指对单个麦克风采集的信号进行处理,相比波束形成的麦克风阵列降噪方法,单声道降噪具有更广泛的实用性及低成本。该发明采用有监督学习方法进行语音降噪,通过使用带有长短期记忆的回归神经网络来估计理想比值膜。该发明引入了消除对未来时间帧依赖的技术,并实现了降噪过程中回归神经网络模型的高效计算,在不影响降噪性能的前提下,通过进一步的简化计算,构造了一个非常小的回归神经网络模型,从而实现了实时语音降噪。

进一步地,引入了骨振动传感器。骨振动传感器能采集低频语音、不受空气噪音干扰。将骨振动传感器信号与气导麦克风信号使用深度神经网络融合,达到了在极低信噪比下也能有理想的全频段降噪效果。本实施例中的骨振动传感器为现有技术。

语音信号在时间维度上具有较强的相关性,而且这种相关性对语音分离有很大帮助。为了利用这一上下文信息提高分离性能,基于深度神经网络的方法将当前帧和前后连续几帧拼接成一个维度较大的向量作为输入特征。该方法由计算机程序执行,从带噪语音中提取声学特征,估计理想时频比值膜,并重新合成降噪后的语音波形。该方法包含一个或多个程序模块,任何系统或带有可执行计算机编程指令的硬件设备用来执行上述的一个或多个模块。

进一步地,高通滤波模块修正骨振动传感器音频信号直流偏移,并滤除低频杂波信号。

更进一步地,高通滤波模块可通过数字滤波器滤波实现。

进一步地,骨振动传感器音频信号经过高通滤波处理后,更优选的,通过高频重建。即利用频带拓宽方法进一步拓宽频率范围,将骨振动传感器音频信号拓宽至两千赫兹以上,随后将其输入深度神经网络模块。

进一步地,高频重建模块的作用是进一步拓宽骨振动信号的带宽,是可选模块。

更进一步地,高频重建的方法有很多,深度神经网络是目前最有效的方法,本实施例中仅示例给出了一种深度神经网络的结构作为示例。

将骨振动传感器音频信号进行高通滤波,修正骨传导信号直流偏移,滤除低频噪音;通过频带拓宽(高频重建)的方法,将骨振动信号拓宽至2khz以上,此步骤可选,此步可直接使用步骤s1中原始的骨振动信号;将步骤s2的输出与麦克风的信号送入深度神经网络模块;深度神经网络模块预测出融合降噪后的语音。

如图2所示,高频重建的作用是进一步拓宽骨振动信号的频率范围,可以采用深度神经网络进行重建,其中深度神经网络可以有多种实现方式,图2给出了其中一种(但不限于该网络),基于长短期记忆的深度回归神经网络的高频重建方式。

公开的申请号为201811199154.2专利(名称为一种通过人体振动识别用户语音以控制电子设备的系统)包括人体振动传感器,用于感应用户的人体振动;处理电路,与所述人体振动传感器相耦合,用于当确定所述人体振动传感器的输出信号包括用户语音信号时,控制拾音设备开始拾音;通信模块,与处理电路和所述拾音设备相耦合,用于所述处理电路和所述拾音设备之间的通信。与该专利将骨振动传感器信号作为语音活动检测的标志不同,我们将骨振动传感器信号与麦克风信号一起作为深度神经网络的输入,进行信号层的深度融合,从而达到优良的降噪效果。

进一步地,深度神经网络模块还包括融合模块,基于深度神经网络的融合模块作用是完成麦克风音频信号和骨振动传感器音频信号融合及降噪。

进一步地,深度神经网络模块的一种实现方法是通过卷积循环神经网络实现,并通过预测得到纯净语音幅度谱(speechmagnitudespectrum)。

更进一步地,基于深度神经网络的融合模块中网络结构以卷积循环神经网络作为示例,也可替换成长短期神经网络、深度全卷积网络等结构。

作为示例,深度神经网络模块可由三层卷积网络、三层长短期记忆网络和三层反卷积网络构成。

图3示出了本发明的一种融合骨振动传感器和麦克风信号的深度学习降噪方法的深度神经网络融合模块结构框图,给出了深度神经网络模块的卷积循环神经网络实现,即深度神经网络模块的训练目标(trainingtarget)是纯净语音幅度谱(speechmagnitudespectrum),首先将纯净语音(cleanspeech)经过短时傅里叶变换(stft)后,再获得纯净语音幅度谱(speechmagnitudespectrum)作为训练目标(trainingtarget),即目标幅度谱(targetmagnitudespectrum)。

进一步地,深度神经网络模块的输入信号是由骨振动传感器音频信号的幅度谱和麦克风音频信号的幅度谱堆叠(stacking)而成;

首先将骨振动传感器音频信号和麦克风音频信号分别经过短时傅里叶变换(stft),再分别取得两路幅度谱(magnitudespectrum),并进行堆叠(stacking)。

进一步地,将堆叠(stacking)后的幅度谱经过深度神经网络模块,得到预测幅度谱(estimatedmagnitudespectrum),并输出。

进一步地,将目标幅度谱与预测幅度谱(estimatedmagnitudespectrum)做均方误差(mean-squareerror,mse),均方误差(mse)是反映估计量与被估计量之间差异程度的一种度量。更进一步地,训练过程(training)采用反向传播-梯度下降的方式更新网络参数,不断地送入网络训练数据、更新网络参数,直至网络收敛。

进一步地,推理过程(inference)使用麦克风数据短时傅里叶变换(stft)后结果的相位和预测的幅度谱(estimatedmagnitudespectrum)结合,恢复出预测后的纯净语音(cleanspeech)。

相对传统多麦降噪技术,本专利采用单麦克风作为输入。因此具有鲁棒性强、成本可控、对产品结构设计要求低等特点。在本实施例中,鲁棒性是指降噪系统的降噪性能受麦克风一致性等干扰,鲁棒性强指的是对麦克风一致性及放置等没有要求,能适应各种麦克风。

如图7所示,示出了一种融合骨振动传感器和麦克风信号的深度学习降噪方法和相对应一种无骨震动传感器的单声道深度学习降噪方法的降噪效果对比图。具体对比了8种噪音场景下分别使用《一种通用的单声道实时降噪方法》(申请号:201710594168.3)中方法(only-mic)与本技术所述方法(sensor-mic)处理结果,得出了图7中的客观测试结果。八种噪声分别为:酒吧噪声、公路噪声、十字路口噪声、火车站噪声、130km/h速度行驶的汽车噪声、咖啡厅噪声、餐桌上的噪声以及办公室噪声。测试标准为主观语音质量评估(pesq),其值范围为[-0.5,4.5]。从表中我们可以看到,在各场景下,经本技术处理后pesq得分都有很大提升,八个场景平均提升在0.26。这表明本技术对语音还原度更高、噪声抑制能力更强。本方法利用骨振动传感器不受空气噪音干扰的特性,将骨振动传感器信号与气导麦克风信号使用深度神经网络融合,达到了在极低信噪比下也能有理想的降噪效果。

更进一步地,相比传统单麦克风降噪技术,本发明不对噪声做任何假设(传统单麦风降噪技术一般预先假设噪声为平稳噪声),利用深度神经网络强大的建模能力,有很好的人声还原度及极强的噪声抑制能力,可以解决复杂噪声场景下的人声提取问题,该技术可应用于耳机、手机等贴合耳部(或其它身体部位)的通话场景。不同于其他结合骨震动传感器及气导麦克风降噪方式中仅利用骨震动传感器信号作为激活检测的标志,本技术利用骨振动传感器信号不受气导噪声干扰的特性,将骨传信号作为低频输入信号,通过高频重建(可选)后,与麦克风信号一同送入深度神经网络进行整体降噪、融合。借助骨振动传感器,我们能够得到优质的低频信号,并以此为基础,极大地提高深度神经网络预测的准确性,使得降噪效果更佳。亦可单独将骨振动传感器信号经过频带拓宽后的结果直接作为输出。

在本实施例中,高频重建模块的作用是进一步拓宽骨振动信号的带宽,是一种可选模块。高频重建的方法有很多,深度神经网络是一种效果最优秀的近期方法,具体实施例中仅示例给出了一种深度神经网络的结构作为示例。实施例中基于深度神经网络的融合模块中网络结构以卷积循环神经网络作为示例,也可替换成长短期神经网络、深度全卷积网络等结构。

本发明提供一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法,结合了骨震动传感器及传统麦克风信号的各自优势,利用深度神经网络强大的建模能力实现了很高的人声还原度及极强的噪声抑制能力,可以解决复杂噪声场景下的人声提取问题,实现提取目标人声,降低干扰噪声,并采用单麦克风结构,减少了实现复杂度及成本。

尽管通过以上实施例对本发明进行了揭示,但本发明的保护范围并不局限于此,在不偏离本发明构思的条件下,对以上各构件所做的变形、替换等均将落入本发明的权利要求范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1