融合入耳麦克风和耳外麦克风的深度学习降噪方法及设备与流程

文档序号:23231200发布日期:2020-12-08 15:19阅读:119来源:国知局
融合入耳麦克风和耳外麦克风的深度学习降噪方法及设备与流程

本申请涉及电子设备语音降噪技术领域,特别是涉及融合入耳麦克风和耳外麦克风的深度学习降噪方法及设备。



背景技术:

语音降噪技术是指从带噪语音信号中分离或提取出目标语音信号。目前的降噪方案中,通常采用耳外单麦克风和耳外麦克风阵列降噪技术从带噪音语音信号分离或提取出目标语音信号,当降噪装置处于十分嘈杂环境时,从带噪音语音信号中分离或提取出的目标语音信号变得极为困难,导致无法进行语音通话。入耳麦克风从物理上可以有效的隔绝外部环境噪声,确保拾取信号具有较高的信噪比。但入耳麦克风通过耳道拾取佩戴者的语音,导致其采集的目标语音高频缺失。因此,单独使用入耳麦克风或耳外麦克风进行语音降噪,具有很大的局限性。



技术实现要素:

本申请至少提供一种融合入耳麦克风和耳外麦克风信号的深度学习降噪方法及设备,能够有效的提升通话质量,尤其是能在强噪声环境中提高语音的可懂度。

本申请第一方面提供了一种融合入耳麦克风和耳外麦克风的深度学习降噪方法,所述降噪方法包括:

获取入耳麦克风的音频信号和耳外麦克风的音频信号;

获取网络模型的目标幅度谱;

基于高通滤波技术对所述入耳麦克风的音频信号进行滤波处理;

将滤波处理后的所述入耳麦克风的音频信号和所述耳外麦克风的音频信号分别输入所述网络模型中,得到所述网络模型输出的预测幅度谱;

在所述目标幅度谱与所述预测幅度谱的误差在预设范围内的情况下,将所述预测幅度谱经过再合成后输出为降噪后信号。

在一些实施例中,所述降噪方法还包括:

在所述目标幅度谱与所述预测幅度谱的误差在所述预设范围外的情况下,基于所述误差更新所述网络模型的网络参数,直至更新后的所述网络模型输出的预设幅度谱与所述目标幅度谱的误差在所述预设范围内。

在一些实施例中,所述将滤波处理后的所述入耳麦克风的音频信号和所述耳外麦克风的音频信号分别输入所述网络模型中的步骤,包括:

将滤波处理后的所述入耳麦克风的音频信号经过短时傅里叶变换,得到所述入耳麦克风的音频幅度谱;

将所述耳外麦克风的音频信号经过所述短时傅里叶变换,得到所述耳外麦克风的音频幅度谱;

将所述入耳麦克风的音频幅度谱以及所述耳外麦克风的音频幅度谱输入所述网络模型。

在一些实施例中,所述使用高通滤波器对所述入耳麦克风的音频信号进行高通滤波处理的步骤之后,还包括:

将滤波处理后的所述入耳麦克风的音频信号经过高频重建,将所述入耳麦克风的音频信号频率拓宽到预设信号频率。

在一些实施例中,所述将滤波处理后的所述入耳麦克风的音频信号经过高频重建,将所述入耳麦克风的音频信号频率拓宽到预设信号频率的步骤之后,包括:

将所述高频重建后的入耳麦克风的音频信号和所述耳外麦克风的音频信号分别输入所述网络模型中,得到所述网络模型输出的预测幅度谱。

在一些实施例中,所述获取网络模型的目标幅度谱的步骤,包括:

获取标准音频信号;

将所述标准音频信号经过短时傅里叶变换,得到所述网络模型的目标幅度谱。

本申请第二方面提供了一种融合入耳麦克风和耳外麦克风的深度学习降噪装置,所述降噪装置包括本体部、数据处理模块及上述任一项所述的入耳麦克风和耳外麦克风;

所述入耳麦克风、所述耳外麦克风和所述数据处理模块设置于所述本体部内;

所述数据处理模块分别与所述入耳麦克风和所述耳外麦克风连接;

所述入耳麦克风设置于所述本体部朝向人体外耳道一侧;

所述耳外麦克风设置于所述本体部远离所述人体耳道内一侧;

所述入耳麦克风用于获取耳道内的音频信号;

所述耳外麦克风用于获取耳道外的音频信号;

所述数据处理模块用于对获取的所述入耳麦克风的音频信号进行高通滤波,并将滤波后的所述入耳麦克风的音频信号和所述耳外麦克风的音频信号分别输入所述网络模型中,得到所述网络模型输出的预测幅度谱,在所述目标幅度谱与所述预测幅度谱的误差在预设范围内的情况下,将所述预测幅度谱经过再合成后输出为算法预测降噪后的信号。

在一些实施例中,所述降噪装置还包括柄状部,所述柄状部连接于所述本体部;所述耳外麦克风包括第一耳外麦克风和第二耳外麦克风;

所述第二耳外麦克风设置于所述柄状部远离所述本体部一端。

本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的融合入耳麦克风和耳外麦克风的深度学习降噪方法。

本申请第四方面提供了一种计算机存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的融合入耳麦克风和耳外麦克风的深度学习降噪方法。

上述方案,降噪装置获取入耳麦克风的音频信号和耳外麦克风的音频信号;获取网络模型的目标幅度谱;使用高通滤波器对入耳麦克风的音频信号进行高通滤波处理;将滤波处理后的入耳麦克风的音频信号和耳外麦克风的音频信号分别输入网络模型中,得到网络模型输出的预测幅度谱;在目标幅度谱与预测幅度谱的误差在预设范围内的情况下,将预测幅度谱经过再合成后输出为算法预测降噪后的信号。能够利用入耳麦克风对空气噪声具有自然过滤的特性,通过获取入耳麦克风的音频信号,将入耳麦克风音频信号与耳外麦克风音频信号输入网络模型中进行训练,可实现在极低信噪比下的理想降噪效果;利用高通滤波对入耳麦克风的音频信号进行处理,过滤抑制入耳麦克风音频信号中低频信号对降噪的影响,提高了噪声环境下的语音通话质量。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。

图1是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪方法第一实施例的流程示意图;

图2是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪方法第二实施例的流程示意图;

图3是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪方法中高频重建的流程示意图;

图4是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪装置第一实施例的结构示意图;

图5是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪装置第二实施例的结构示意图;

图6是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪装置第三实施例的结构示意图;

图7是本申请提供的电子设备一实施例的框架示意图;

图8是本申请提供的计算机存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图,对本申请实施例的方案进行详细说明。

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。

本申请提出了一种融合入耳麦克风和耳外麦克风的深度学习降噪方法,可应用于耳塞式耳机、入耳式耳机等贴合用户耳部的语音通话场景,通过本申请的融合入耳麦克风和耳外麦克风的深度学习降噪方法可以提高噪声环境下的语音通话的质量,具体请参见图1,图1是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪方法第一实施例的流程示意图。本实施例的融合入耳麦克风和耳外麦克风的深度学习降噪方法可应用于降噪装置,也可应用于具有数据处理能力的服务器,本申请以降噪装置为例进行说明。

具体而言,本实施例的融合入耳麦克风和耳外麦克风的深度学习降噪方法包括以下步骤:

s101:获取入耳麦克风的音频信号和耳外麦克风的音频信号。

本实施例中的降噪装置上设置有入耳麦克风和耳外麦克风,其中,入耳麦克风设置于朝向用户耳道内的位置,对空气噪声有自然抑制作用,用于获取到用户耳道内的音频信号;耳外麦克风设置于朝向外界环境的位置,用于获取用户佩戴降噪装置时所处环境的音频信号。降噪装置通过对入耳麦克风的音频信号和耳外麦克风的音频信号的处理,降低音频信号中噪声对语音通话质量的影响。

其中,入耳麦克风获取用户耳道内的音频信号,这部分音频信号主要包括低频的噪声信号以及用户的语音信号,入耳麦克风可以为气传麦克风。耳外麦克风的音频信号包括用户通话时的环境噪音和用户通话过程中产生的音频信号。

s102:获取网络模型的目标幅度谱。

由于深度神经网络对噪声具有极强的抑制能力,为了在语音通话中高度还原人声音频信号,需预先设置神经网络模型的训练目标,以使输入神经网络模型中的音频信号朝着训练目标训练。具体地,本实施例获取网络模型的标准音频信号,将标准音频信号经过短时傅里叶变换,得到网络模型的目标幅度谱。

其中,标准音频信号为理想状态下的音频信号,即用户处于无噪声环境下时,降噪装置所获取的音频信号作为标准音频信号。

需要说明的是,网络模型为卷积循环神经网络,在其他实施例中,还可以为长短期记忆神经网络或深度全卷积神经网络等,本实施例对此不进行限定。

s103:使用高通滤波器对入耳麦克风的音频信号进行高通滤波处理。

由于入耳麦克风获取的是耳道内的音频信号,包含有低频噪声信号,为了避免低频噪声信号对降噪效果的影响,本实施例使用高通滤波器对入耳麦克风的音频信号进行高通滤波处理,过滤抑制入耳麦克风音频信号中的低频噪声信号。

其中,高通滤波器主要过滤抑制音频信号中低于预设频率的音频信号,也就是低于预设频率的音频信号都将被抑制,其中包括音频信号或噪声信号。在具体实施例中,预设频率为100赫兹。

需要说明的是,在其他实施例中,也可以通过数字滤波实现对入耳麦克风音频信号的滤波处理。

s104:将滤波处理后的入耳麦克风的音频信号和耳外麦克风的音频信号分别输入网络模型中,得到网络模型输出的预测幅度谱。

降噪装置将s101中获取耳外麦克风的音频信号和s103中获取的滤波后的入耳麦克风的音频信号,分别输入网络模型进行训练,得到网络模型输出的预设幅度谱。

具体地,降噪装置将滤波处理后的入耳麦克风的音频信号经过短时傅里叶变换(stft,short-timefouriertransform),得到入耳麦克风的音频幅度谱。降噪装置将耳外麦克风的音频信号经过短时傅里叶变换,得到耳外麦克风的音频幅度谱。降噪装置将入耳麦克风的音频幅度谱以及耳外麦克风的音频幅度谱分别输入网络模型进行训练,得到网络模型的预测幅度谱(estimatedmagnitudespectrogram)。

s105:计算目标幅度谱与预测幅度谱的误差。

s106:判断误差是否在预设范围内。

s107:将预测幅度谱经过再合成后输出为算法预测降噪后的信号。

为了获知通过网络模型训练所得的预测幅度谱是否满足要求,本实施例需计算目标幅度谱与预测幅度谱的误差。具体可计算目标幅度谱与预测幅度谱的均方误差,判断均方误差是否在预设范围内,若是,则执行s107,将预测幅度谱经过再合成后输出为算法预测降噪后的信号;若否,则基于均方误差更新网络模型的网络参数,直至更新后的网络模型输出的预测幅度谱与目标幅度谱的误差在预设范围内。

其中,均方误差反映了目标幅度谱与预测幅度谱之间的差异程度,均方误差越小,表示网络模型训练所得的预测幅度谱越接近于目标幅度谱,均方误差越大,表示网络模型训练所得的预测幅度谱与目标幅度谱差异越大。

需要说明的是,在具体实施例中,可采用反向传播-梯度下降的方式更新网络模型的网络参数。

上述方案中,降噪装置获取入耳麦克风的音频信号和耳外麦克风的音频信号;获取网络模型的目标幅度谱;使用高通滤波器对入耳麦克风的音频信号进行高通滤波处理;将滤波处理后的入耳麦克风的音频信号和耳外麦克风的音频信号分别输入网络模型中,得到网络模型输出的预测幅度谱;在目标幅度谱与预测幅度谱的误差在预设范围内的情况下,将预测幅度谱经过再合成后输出为算法预测降噪后的信号。本实施例利用入耳麦克风对空气噪声具有自然过滤的特性,通过入耳麦克风获取人体耳道内的音频信号,将入耳麦克风音频信号与耳外麦克风音频信号输入网络模型中进行训练,可实现在极低信噪比下的理想降噪效果;利用高通滤波对入耳麦克风的音频信号进行处理,过滤抑制入耳麦克风音频信号中低频信号对降噪的影响,提高了噪声环境下的语音通话质量。

请继续参阅图2,图2是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪方法第二实施例的流程示意图。具体而言,本公开实施例的方法可以包括如下步骤:

s201:获取入耳麦克风的音频信号和耳外麦克风的音频信号。

s202:获取网络模型的目标幅度谱。

s203:使用高通滤波器对入耳麦克风的音频信号进行高通滤波处理。

本实施例s201~s203的详细描述可参阅上述实施例s101~s103的详细描述,对此不进行赘述。

s204:将滤波处理后的入耳麦克风的音频信号经过高频重建,将入耳麦克风的音频信号频率拓宽到预设信号频率。

由于入耳麦克风获取的音频信号主要包括低频语音信号和低频噪声信号,为了拓宽入耳麦克风音频信号频率,本实施例可将滤波处理后的入耳麦克风的音频信号进行高频重建,拓宽入耳麦克风的音频信号频率至预设信号频率,其中,预设信号频率为人耳能够清晰舒适辨识的信号频率范围值。

具体地,滤波后的入耳麦克风音频信号高频重建过程可参阅图3,图3是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪方法中高频重建的流程示意图。本实施例的高频重建过程可以包括如下步骤:

s1:将滤波处理后的入耳麦克风的音频信号经过短时傅里叶变换,得到入耳麦克风的音频幅度谱。

s2:将入耳麦克风的音频幅度谱输入网络模型,得到入耳麦克风的预测幅度谱。

s3:获取网络模型的目标幅度谱。

本实施例通过获取入耳麦克风的标准音频信号,将入耳麦克风的标准音频经过短时傅里叶变换,得到网络模型的目标幅度谱。

s4:计算网络模型中入耳麦克风的目标幅度谱与预测幅度谱之间的误差。

s5:判断误差是否在入耳麦克风的预设范围内。

s6:将入耳麦克风的预测幅度谱作为拓宽后的幅度谱。

为了拓宽入耳麦克风音频信号的频率,本实施例将获取的入耳麦克风音频信号经过短时傅里叶变换后,输入网络模型中进行训练,比较入耳麦克风的预测幅度谱与入耳麦克风的目标幅度谱的误差是否在预设范围内,若是,则执行s6,将入耳麦克风的预测幅度谱作为拓宽后的幅度谱;若否,则基于误差更新网络模型的网络参数,直至更新后的网络模型输出的入耳麦克风的目标幅度谱与预测幅度谱的误差在预设范围内,将预设幅度谱输出为入耳麦克风的目标幅度谱。

其中,高频重建中的网络模型为长短期记忆神经网络,在其他实施例中,还可以为卷积循环神经网络或深度全卷积神经网络等。

s205:将高频重建后的入耳麦克风的音频信号和外耳麦克风的音频信号输入网络模型中,得到网络模型输出的预测幅度谱。

需要说明的是,本实施例s205中的网络模型不同于s204中高频重建的网络模型。

s206:计算目标幅度谱与预测幅度谱的误差。

s207:判断误差是否在预设范围内。

s208:将预测幅度谱经过再合成后输出为算法预测降噪后的信号。

基于s204中获取的入耳麦克风的目标音频信号,即高频重建后入耳麦克风的音频信号,将耳外麦克风的音频信号与入耳麦克风的目标音频信号分别输入网络模型中,得到入耳麦克风的目标音频信号和耳外麦克风的音频信号融合后的预测幅度谱,计算目标幅度谱与预测幅度谱的误差,判断误差是否在预设范围内,若是,则执行s208,将预测幅度谱经过再合成后输出为算法预测降噪后的信号;若否,则更新网络模型的网络参数,直至网络模型输出的预测幅度谱与目标幅度谱间的误差在预设范围内,将预测幅度谱经过再合成后输出为算法预测降噪后的信号。

上述方案中,利用入耳麦克风对空气噪声具有自然过滤的特性,通过入耳麦克风获取耳部的音频信号,将入耳麦克风音频信号与耳外麦克风音频信号输入网络模型中进行训练,可实现在极低信噪比下的理想降噪效果;利用高通滤波对入耳麦克风的音频信号进行处理,过滤抑制入耳麦克风音频信号中低频信号对降噪的影响,提高了噪声环境下的语音通话质量;利用高频重建将入耳麦克风的音频信号频率拓宽到预设信号频率,优化了降噪过程。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请参阅图4,图4是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪装置第一实施例的结构示意图。

本实施例的降噪装置40包括本体部41、数据处理模块(图中未示)、入耳麦克风42和耳外麦克风43;入耳麦克风42、耳外麦克风43和数据处理模块设置于本体部41内;数据处理模块分别与入耳麦克风42和耳外麦克风43连接;入耳麦克风42设置于本体部41朝向人体耳内一侧;耳外麦克风42设置于本体部41远离人体耳内一侧。

其中,入耳麦克风42用于获取入耳麦克风42的音频信号;耳外麦克风43用于获取耳外麦克风43的音频信号;数据处理模块用于对获取的入耳麦克风42的音频信号进行高通滤波,并将滤波后的入耳麦克风42的音频信号和耳外麦克风43的音频信号分别输入网络模型中,得到网络模型输出的预测幅度谱,在目标幅度谱与预测幅度谱的误差在预设范围内的情况下,将预测幅度谱经过再合成后输出为算法预测降噪后的信号。

请继续参阅图5,图5是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪方法第二实施例的结构示意图。本实施例的降噪装置50包括本体部51、数据处理模块(图中未示)、入耳麦克风52、耳外麦克风53和柄状部54。

其中,本体部51与柄状部54连接。耳外麦克风53包括第一耳外麦克风531和第二耳外麦克风532,第二耳外麦克风532设置于柄状部54远离本体部51一端,使得第二耳外麦克风532靠近人体口部,用于获取人体口部发出的音频信号和环境中的噪音信号。

请继续参阅图6,图6是本申请提供的融合入耳麦克风和耳外麦克风的深度学习降噪装置第三实施例的结构示意图。本实施例的降噪装置60还可为挂脖式,包括两个本体部61,两个本体部61通信连接。本体部61上设置有入耳麦克风62,入耳麦克风62包括第一入耳麦克风621和第二入耳麦克风622,第一入耳麦克风621和第二入耳麦克风622分别设置于本体部61靠近人体耳内一侧。耳外麦克风63包括第一耳外麦克风631、第二耳外麦克风632和第三入耳麦克风633,第一耳外麦克风631设置在远离第一入耳麦克风621一侧上,第二耳外麦克风632设置在远离第二入耳麦克风622一侧上,第三耳外麦克风633可设置于靠近第一入耳麦克风621一侧,也可设置于靠近第二入耳麦克风622,用于直接获取人体口部发出的人声。

请参阅图7,图7是本申请提供的电子设备一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72,处理器72用于执行存储器71中存储的程序指令,以实现上述任一融合入耳麦克风和耳外麦克风的深度学习降噪方法实施例的步骤。在一个具体的实施场景中,电子设备70可以包括但不限于:微型计算机、服务器,此外,电子设备70还可以包括笔记本电脑、平板电脑、耳机、手机等移动设备,在此不做限定。

具体而言,处理器72用于控制其自身以及存储器71以实现上述任一融合入耳麦克风和耳外麦克风的深度学习降噪方法实施例的步骤。处理器72还可以称为cpu(centralprocessingunit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。

请参阅图8,图8是本申请提供的计算机存储介质一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令801,程序指令801用于实现上述任一融合入耳麦克风和耳外麦克风的深度学习降噪方法实施例的步骤。

在一些实施例中,本实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1