双耳助听器中基于双耳声源定位和深度学习的语音增强方法与流程

文档序号:16989608发布日期:2019-03-02 00:51阅读:413来源:国知局
双耳助听器中基于双耳声源定位和深度学习的语音增强方法与流程

本发明属于语音信号处理技术领域,涉及到数字助听器中目标语音定位和语音增强两个关键的语音信号处理技术。



背景技术:

听力障碍是一种严重影响人类生活质量的慢性疾病。在美国65岁以上老年人的听力损失发病率约为30%~40%,加拿大为20%,欧洲为35%,我国35%。且随着年龄的增加,发病率急剧增长。目前全世界60岁以上老年人口总数达6亿,其中我国占近30%,而且我国只有22.28%的老龄人群的听阈在正常范围。助听器的发展为这些听障患者带来了福音。助听器是一种将声音放大,以补充损失的听力的装置,是目前解决听力障碍患者交流困难的重要手段。近年来,随着数字技术的采用,实现了助听器技术的飞速发展。数字助听器的出现相对传统助听器,大大提高了其可控性,可以灵活划分频段,进行多频段调节声音的强度。此外,数字助听器的灵活性更高,先进算法的应用使其能够摆脱对固化模拟电路的依赖,可灵活调整和更新算法,满足患者的需求。数字助听器的小型化、互动化、智能化和跨行化,也使患者对助听器的接受程度大幅提高。

但是即使在市场充满了各种助听器的今天,中国听力障碍人士助听器佩戴率为1%,因为在噪声环境下,助听器的性能急剧下降,让耳障者无法听清楚声音的同时感觉更加不舒服。尤其是在鸡尾酒会问题下,耳障者根本无法辨识出自己想要的声音,严重影响耳障者的生活质量。据调查可知,在数字助听器技术非常发达的美国,70%的助听器使用者对其在噪声环境下的性能并不满意,且95%的助听器使用者希望在噪声环境下的言语可懂度和舒适度能够提高。

语音增强既是提高数字助听器在噪声环境下的性能的关键技术,数字助听器中的语音增强模块是对采集到的原始数字信号进行处理,目的是消除背景噪声,改善语音质量,使患者易于接受,降低听者的疲劳感(主观度量),同时提高患者语音的可懂度(客观度量),并增强后续处理过程对输入噪声的鲁棒性。

目前,数字助听器中常采用的语音增强算法如:谱减法、多通道自适应降噪法、同步检测降噪算法、谐波增强算法、维纳滤波器法、短时谱幅度的mmse估计、基于听觉掩蔽的方法以及双耳噪声抑制等。以上各种方法在各种单耳助听器中已得到应用,在一定程度上提高了耳障者的言语可懂度和舒适度。但是对耳障者而言,现有的语音增强方法不能达到满意的效果,因为现有的方法都有其自己的缺陷,但是噪声却是千变万化的,有的方法只能部分去除与目标语音不同方向的噪声,有的方法在去除噪声的同时带来新的噪声,有的方法在去除噪声的同时对语音造成不可恢复的损伤。现有方法的缺陷导致在我国只有不到1%的耳障者佩戴助听器,使生活质量严重下降。为此去除噪声对数字助听器性能的影响,提高耳障者配戴助听器的言语可懂度和舒适度,减轻耳障者的痛苦,是数字助听器发展的趋势。

近年来,深度学习在语音信号处理领域迅速发展,并提出许多基于深度学习的语音增强算法。该算法的基本思想:用含噪的语音信号和干净语音对包含多个层级的神经网络进行训练,使其具有抗噪声的功能。由于深度学习强大非线性拟合能力,非常适合对含有非平稳噪声的语音进行增强。常用的基于深度学习的语音增强算法有:(1)利用深度神经网络估计出含噪语音信号中的干净语音信号。(2)利用深度神经网络估计出干净语音和噪声之间的时频掩模。(3)利用深度神经网络分别估计出干净语音信号和噪声信号。(4)利用深度神经网络对噪声进行分类,然后再针对性的训练出相对应的语音增强模型。但是以上这些基于深度学习的语音增强算法中,要么直接用采集到的全部数据作为深度学习的输入,但该方法这种方法的复杂度很高,不满足数字助听器实时性的要求,要么提取采集数据的特征参数作为深度学习的输入,但目前这种方法中提取的特征参数不能很好地描述语音和噪声的特性差异,无法提高耳障者的言语可懂度和舒适度。但是深度神经网络的自主学习能力又是其它方法无法比拟的。

因此,一种基于深度学习能力的可满足耳障者对噪声环境下对言语可懂度和舒适度的语音增强算法是所必须的。

本发明提出一种基于双耳声源定位和深度学习的语音增强算法,首先使用两级的深度神经网络对目标语音给予定位,利用空间滤波去除与目标语音方向不同的噪声。接着使用搭建的lc-blstm-dnn与分类器相结合的深度学习模型,以提取的多分辨率听觉倒谱系数为特征输入,经过深度学习的非线性处理能力,将每个含噪语音的时频单元分类为语音时频单元或噪声的时频单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,获得最终的增强语音。所有的深度学习模型都采用线下训练,利用训练完成的模型,可以满足数字助听器的实时性。



技术实现要素:

本发明采用的技术方案是:首先利用深度学习强大的数据驱动能力,构建两级深度学习网络,模拟双耳特征和相应方位角之间的统计关系,以获得目标语音的空间信息,然后结合空间滤波,去除来自与目标语音不同方向上的噪声。其次构建合理的深度学习模型从表征语音和噪声差异的初级特征参数中学习出能直接用于噪声和语音分类的特征并分类,去除来自与目标语音相同方向的噪声,最终实现空间含噪语音的增强。过程的具体步骤如下:

步骤一,对数字助听器的输入信号采用能够模拟人耳听觉系统中的基底膜和听觉神经的工作机理的gammatone滤波器进行时频分析。

步骤二,对经过gammatone滤波器滤波生成的频域信号提取双耳时间差和双耳声级差两个双耳空间线索,由于不同方向语音的这两个特征之间有着差异,因此可以作为定位的有效特征。且这两种特征之间具有互相补充的关系,即双耳时间差在低频定位效果较好,双耳声级差在高频有较好的定位效果。

步骤三,以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能的方位角划分为四个象限。即右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限。然后构建第一级深度学习网络,以含噪语音的双耳时间差和双耳声级差作为特征输入,输出为目标语音位置所在的象限,用于解决目标语音定位的前后混淆问题。

步骤四,为每个象限构建第二级深度学习网络,结合步骤三中判断出的目标语音的方位角所属的象限选取用于方位角度定位的第二级深度学习网络。并以归一化互相关函数和双耳声级差作为第二级深度学习网络的输入,最终输出目标语音的方向。

步骤五,利用现有空间滤波算法,依据步骤四获得目标语音的方位角以匹配相应方向上的头相关传输函数,将目标语音从混合语音中解混出来。去除与目标声源不同方向上的噪声,获得与目标语音相同方向的初步增强语音。

步骤六,对步骤五获得的初步增强语音进行时频分析,即将初步增强的语音使用步骤一中相同gammatone滤波器进行频域分析,以获得初步增强语音的频域表示。

步骤七,对步骤六获得的频谱信号提取多分辨率听觉倒谱系数。

步骤八,构建从步骤七中提取可直接用于分类器分类的特征的深度神经网络模型,以步骤七中提取的多分辨率听觉倒谱系数作为特征输入,输出为从多分辨率听觉倒谱系数中学习的直接用于分类的的语音特征,用于区分语音和噪声。

步骤九,构建特征分类器,以步骤八中获得的的特征参数,输出代表理想二值掩蔽的值。即获得包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,得到最终的增强语音,即数字助听器的输出信号。

有益效果

本发明针对现有数字助听器中的语音增强算法对非平稳噪声处理能力差,在噪声环境下无法满足耳障者的言可懂度和舒适度等问题,提出了一种结合双耳声源定位和深度学习的高性能的语音增强算法。本发明的优点在于:首先,利用双耳声源定位与空间滤波相结合,去除与目标声源方向不同的噪声。这使本发明适用于去除与目标语音不同方向的噪声。其次,在双耳声源定位中,采取两级深度学习的方位角定位算法,更好的解决传统算法不能解决的声源方向前后混淆的错误。最后,提取的能准确表征语音和噪声差异的新特征参数结合构建的特征提取并分类的深度学习模型,去除与目标语音相同方向的噪声。最终获得满足耳障者的言可懂度和舒适度的增强语音。所有模型均采用线下训练,可以保证助听器的实时性好,功耗低。

附图说明

图1本发明的实现流程图

图2双耳声源定位流程图

图3提取语音特征的深度神经网络模型图

图4特征分类器结构图

图5深度神经网络训练流程图

具体实施方式

步骤一,对数字助听器的输入信号采用能够模拟人耳听觉系统中的基底膜和听觉神经的工作机理的gammatone滤波器进行时频分析。

(1)数字助听器的输入信号xl(k)、xr(k),经过gammatone滤波器

把信号频带分为64个频带,得到分解信号xf,l(k)、xf,r(k)。其中,m为滤波器阶数,为滤波器初始相位,u(t)为单位阶跃函数,,b是带宽。f为频带的索引范围取1到64,fc为滤波器的中心频率,范围取50hz到8khz,l、r为左右耳标识,k为样点数。

(2)利用哈明窗对得到的分解信号xf,l(k)、xf,r(k)进行分帧加窗,根据语音信号的短时平稳特性,16khz采样率的语音信号取20ms(320点)为一帧的长度,帧移长度为10ms(160点),哈明窗函数定义如式(1),分帧、加窗定义如式(2)、(3)所示。

式中,w(n)是哈明窗函数,n为每帧的样点数,l为窗长。

xft,l(n)=x′ft,l(n)×w(n)0≤n≤l-1(2)

xft,r(n)=x′ft,r(n)×w(n)0≤n≤l-1(3)

式中,n为每帧的样点数,xft,l(n)、xft,r(n)是分帧、加窗后的时频单元,x′ft,l(n)、x′ft,r(n)是分帧、加窗前的时频单元,w(n)是哈明窗函数,t为帧索引,f为频带的索引。

步骤二,对经过gammatone滤波器滤波生成的频域信号提取双耳时间差和双耳声级差两个双耳空间线索,由于不同方向语音的这两个特征之间有着差异,因此可以作为定位的有效特征。且这两种特征之间具有互相补充的关系,即双耳时间差在低频定位效果较好,双耳声级差在高频有较好的定位效果。

对由gammatone滤波器进行视频分解的信号提取双耳时间差(式(4))、归一化互相关函数(式(5))和双耳声级差(式(6))两个双耳线索特征。作为描述语音信号方位角的信息:

其中,

其中,i为帧内样点数的索引,τ为延时,范围取-1ms到1ms,在16khz采样率下可得33维的ccf。t为帧索引,f为频带的索引。

步骤三,以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能的方位角划分为四个象限。即右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限。然后构建第一级深度学习网络,以含噪语音的双耳时间差和双耳声级差作为特征输入,输出为含噪语音位置所在的象限,用于解决目标语音定位的前后混淆问题。

(1)以双耳连线为x轴,双耳连线的中垂线为y轴,将含噪语音可能所属的方位角划分为四个象限,标记为右前为第一象限、左前为第二象限、左后为第三象限以及右后为第四象限。

(2)搭建第一级深度置信网络,4层隐藏层的激活函数全部采用sigmoid函数,输出层采用purelin激活函数,以已知方位角的含噪语音的itd、ild特征为输入,方位角所属的象限为标签,训练网络至均方误差不再变化为止,如图5所示。

(3)将助听器所接收的含噪语音进行时频分析后提取的itd、ild作为完成训练的第一级深度学习网络的输入,输出为目标语音方位角所属的象限。

步骤四,为每个象限构建第二级深度学习网络,结合步骤三中判断出的目标语音的方位角所属的象限选取方位角度定位使用的第二级深度学习网络。并以归一化互相关函数和双耳声级差作为第二级深度学习网络的输入,最终输出目标语音的方向。

(1)搭建4个具有四层隐藏层的深度神经网络分别对应每个象限,每个每层具有128个神经单元,输出层为一个单元,层与层之间采用sigmoid函数作为激活函数。以已知方位角的含噪语音提取的ccf、ild所示作为输入,真实方位角作为标签训练网络直至均方误差不再下降,如图5所示。

(2)根据第一级深度神经网络的输出,选择相应的第二级深度学习网络c。将含噪语音的ccf、ild作为神经网络c的输入,则该神经输出的结果便是估计的目标语音方位角。

步骤五,利用现有的空间滤波算法,依据步骤四获得目标语音的方位角以匹配相应方向上的头相关传输函数,将目标语音从混合语音中解混出来。去除与目标声源不同方向上的噪声(如式(7)所示的解卷积过程),获得与目标语音相同方向的初步增强语音sl(k)、sr(k)。

其中,h(k)是目标语音方向上的头相关传输函数,xe(k)为助听器接收信号。e∈{l,r}代表左右耳索引,k为样点数,a为解卷积时延,取0到k-1。

完整的声源定位流程图如图2所示。

步骤六,对sl(k)、sr(k)进行时频分析,即将初步增强的语音使用步骤一中相同gammatone滤波器进行频域分析,以获得初步增强语音的频域表示sf,l(k)、sf,r(k)。

步骤七,对步骤六获得的频谱信号提取多分辨率听觉倒谱系数。

(1)通过设置不同的帧长nt,对sf,l(k)、sf,r(k)进行分帧加窗,得到语音信号的时频单元表示sft,l(nt)、sft,r(nt),不同帧长的时频单元即关注细节的高分辨率特征,又把握全局性的低分辨率特征。

(2)计算每个时频单元的能量(耳蜗图)其中,e∈{l,r}代表左右耳索引,i为帧内样点数的索引。

(3)对每个时频单元的能量应用立方根压缩,c_ge(t,f)=(cge(t,f))1/3。这不仅可以对多分辨率耳蜗图特征进行压缩,它不仅更能表征语音和噪声之间的差异,而且计算简单。

(4)最后采用离散余弦变换(dct)对c_ge(t,f)进行去相关操作得到多分辨率听觉倒谱系数。如式(8)所示:

上式为对c_ge(t,f)取dct的过程,其中,m为gammatone滤波器通道数,本算法取m=64。d代表保留c_ge(t,d)的前d维系数,测试表明当d大于36时,fe(t,d)的值极小,也表示fe(t,d)的信息几乎都包含在前36维中。

步骤八,构建从步骤七中提取可直接用于分类器分类的特征的深度神经网络模型,以步骤七中提取的多分辨率听觉倒谱系数作为特征输入,输出为从多分辨率听觉倒谱系数中学习的直接用于分类的语音特征,用于区分语音和噪声。

搭建一个由3层的lc-bsltm和2层的dnn全连接层构成。如图3所示,其中lc-bsltm为延迟控制-双向长短时记忆网络,它是lstm网络的一种变形,它将典型的lstm网络中的单向网络改为双向网络,其沿时间轴存在正向和反向两个信息传递过程,可以更好地利用上下文信息。

步骤九,构建特征分类器,以步骤八中获得的可直接用于分类器分类的特征参数作为输入,输出代表理想二值掩蔽的值。即获得包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,得到最终的增强语音,即数字助听器的输出信号。

采用一个softmax层添加在lc-blstm-dnn网络的输出层后构成分类器如图4所示。即lc-blstm-dnn网络的输出层作为特征分类器的输入,输出为可区分噪声和语音的二值掩蔽。

结合步骤八和步骤九,可形成一个完整的区分语音和噪声的深度神经网络。它以已知纯净语音和噪声形成的含噪语音的多分辨率听觉倒谱系数fe(t,f)为特征输入,以已知噪声和纯净语音计算出的二值掩蔽为标签,使用通过时间展开的误差反向传播算法训练。并结合dropout算法抑制过拟合,训练流程图如图5所示。二值掩蔽的具体计算过程如式(9)所示。对于每一个时频单元,如果局部信噪比snr(t,f)大于某一阈值(localcriterion,lc),这里我们为了更好保证的语音质量,将lc设置为5db,则将相对应的时频单元的掩蔽值设置为1,否则设置为0。

测试时,使用步骤七中最后提取的多分辨率听觉倒谱系数fe(t,f)为特征输入,最终输出可分辨噪声和语音的二值掩蔽,这些二值掩蔽中包含着语音信号的时频单元的所属信息,最后利用语音波形合成算法去除与目标语音相同方向的噪声,从而获得最终的增强语音。采用语音质量感知评估值(pesq)作为评估标准对增强语音进行客观性能测试,对比算法为采用其他特征且未使用声源定位去除与声源方向不同噪声,噪声都使用来自于noisex-92数据库中的15中噪声,分别为:white、babble、pink、f16、volvo、factory1、factory2、m109、machinegun、leopard等.其他数据也均相同,表1列出几种噪声和信噪比下的增强效果,通过对比可以看出本发明对语音增强在各种噪声下的效果比对比算法要平均要高出0.25。

综上,完整的语音增强算法流程图如图1所示。首先双耳声源信息输入声源定位模块,确定目标声源的空间信息,然后利用空间滤波去除与目标语音不同方向的噪声,接着把分离出了不同方向噪声但包含有与目标语音相同方向噪声的含噪语音输入深度学习模块提取可直接用于分类器分类特征,分类器依据这些特征对输入信号进行分类,识别出包含语音信息的单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声,获得最终的增强语音。

表1最终增强效果

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1