一种基于便携式智能终端的智能语音降噪算法的制作方法

文档序号:12475828阅读:415来源:国知局
一种基于便携式智能终端的智能语音降噪算法的制作方法与工艺

本发明属于助听器噪声消除算法设计领域,具体的说,是涉及一种基于便携式智能终端的智能语音降噪算法,神经网络与传统算法相结合,以实现噪声的高效抑制和消除功能。该算法将在助听器芯片上实现并通过云端数据共享来实现硬件的软升级。



背景技术:

根据世界卫生组织在2015年3月的统计,全世界人口的5%,也就是3.6亿人,患有残疾性听力损失,随着人口寿命增长和老龄化,老年性耳聋的人数不断增加。党和国家对老龄化人口的医疗健康十分重视,十八大报告提出“大力发展老龄服务事业和产业”,国务院在2015年11月发布的《关于推进医疗卫生与养老服务相结合的指导意见》中要求“推动医疗卫生服务延伸至社区、家庭,推进社区、居家养老,为老年人提供连续性的健康管理服务和医疗服务”。而听力障碍严重影响着这些人的社会交往和个人生活质量。对于这些听力障碍的人群来说,通过助听器来恢复大部分的听觉是十分有效的一种手段。

语音是语言声学的物理表现,是我们日常交流最常见、最有效、最自然的方式,也是我们思维的惯性依托。但是在现实生活语音通信中,不可避免的会受到周围环境噪声或者内部噪声的影响,这会对助听器的性能以及听力损失患者的使用体验造成极大的影响。而在助听器中,语音的降噪算法发挥着重要的作用,是从噪声背景中提取有用的语音信号,抑制、降低甚至消除噪声的干扰。语音降噪的目的主要是改善语音质量,尽可能的消除背景噪声,提高信噪比(signal to noise ratio,SNR),同时提高语音的自然可懂度和说话人的可辨度。

不同的噪声环境下,对噪声消除的算法也相应的是不同的,所以未来的助听器降噪算法必将也是趋于智能化。即针对助听器不同的使用环境,如噪声(白噪声,工厂噪声,babble噪声,机车噪声等等)环境,安静环境,或者两者双向的过渡环境(由噪声环境变为安静环境,或者由安静环境变为噪声环境),采用不同的降噪算法或者使用相同的方法达到同样好的降噪效果。这就需要语音降噪算法智能化,有自我学习和联想记忆的能力,以达到在不同的使用环境下,自动识别并精确降噪的理想效果。



技术实现要素:

本发明的目的是为了克服现有技术中的不足,提供一种基于便携式智能终端的智能语音降噪算法,本发明基于智能终端,具体分为智能终端的软件APP开发和智能终端与数据云和助听器三者之间的通信。语音由助听器接受并传输到智能终端,经终端应用处理后一部分上传到数据云,另一部分输出到助听器进行进一步的处理,最后转化为人耳能够识别的语音信号。此外,本发明应用在智能终端(包括手机、平板电脑和智能穿戴设备等)上还能为云端数据库提供新的数据,进一步训练得到更加准确的网络,然后返回至智能终端实现更新升级。

本发明的目的是通过以下技术方案实现的:

一种基于便携式智能终端的智能语音降噪算法,用于助听器、数据云端和智能终端之间的通信,助听器从外界接收带噪语音信号并传输到智能终端,智能终端通过智能语音降噪算法应用处理后一部分带噪语音信号上传到数据云端,另一部分输出到助听器进行进一步的处理,最后转化为人耳能够识别的语音信号,所述智能语音降噪算法包括以下流程步骤:

(1)通过对语音数据库及噪声数据库的语音信号和噪声数据进行特征提取,并对提取到的特征参数进行网络训练,得到成熟网络作为BP神经网络的中间层;

(2)助听器从外界接收带噪语音信号传输到智能终端后,通过WOLA分析滤波器分析后形成有三条路径并保存相位;

(3)第一条路径是通过提取带噪语音信号每一帧的特征参数作为BP神经网络的输入信号,输出为估计噪声谱;第二条路径是WOLA分析滤波器输出的每一帧语音信号做为成熟网络的输入信号,输出为拟合的谱减因子β;第三条路径是提取所保存的相位;

(4)进行谱减操作,WOLA分析滤波器综合上述三条路径并重构之后输出得到增强的语音信号,即完成了智能语音降噪算法。

步骤(1)中所述语音数据库为TIMIT语音库,提取出的语音信号为时长为3s,采样频率为16kHz,单通道16位采样的男女语音信号。

步骤(1)中所述噪声数据库为NoiseX92噪声数据库,提取的噪声数据有白噪声、粉色噪声、工厂噪声和机车噪声。

步骤(1)中网络训练的步骤如下:

f)根据神经网络的初始输入输出状态,确定网络的各个参数:输入个数、隐含层层数,输出个数、相邻两层之间的权值、隐含层和输出层的阈值;

g)根据输入向量x,输入层和隐含层之间的连接权值Wij以及隐含层阈值a,按照下式得到隐含层输出H,

式中f为隐含层激励函数,l是隐含层的节点数;

输出层的计算:根据隐层输出H,连接权值Wjk和阈值b,按照下式计算得到神经网络的预测输出O,

其中m是输出层的层数;

c)根据神经网络的预测输出O和期望输出Y,计算神经网络预测的误差e,

ek=Yk-Ok,k=1,2,3,…,m (4-3)

d)根据神经网络预测的误差更新网络连接的权值Wij和Wjk

式中η为学习速率;

e)达到最大迭代次数或者神经网络已经收敛则停止网络训练。

与现有技术相比,本发明的技术方案所带来的有益效果是:

1.本发明是助听器与智能终端相互协作中必不可少的一环,充当了中转站的总要角色,完成了助听器、智能终端和数据云端中心之间的数据收集、数据处理和数据传输的功能。

2.本发明结合了当代前沿的科技,与神经网络和数据云相结合,并将助听器的一部分功能转移到智能终端上,节省了助听器电池功耗,另外利用智能终端高性能的硬件电路和灵活的软件编程,为复杂的数字信号处理提供了十分有利的扩展和升级的空间。

附图说明

图1是本发明算法应用的系统结构示意图。

图2是本发明的算法结构图。

图3是本发明算法的流程示意图。

图4-1和图4-2分别是通过本发明算法和传统算法完成的实验结果图。

具体实施方式

下面结合附图对本发明作进一步的描述:

如图1所示为本发明算法所应用的系统的结构示意图。

本系统是由三个主要部分组成,即助听器、数据云端和智能终端。助听器的受话器从外界接收语音信号,也包括背景噪声等干扰信号,在助听器中进行数模转换、WOLA分析变换之后通过无线传输到智能终端。在传输之前也可以进行一些语音信号的预处理,此时是不对语音进行任何的改变的,在智能终端上,根据智能语音降噪算法处理得到的判别结果和降噪参数进行噪声的消除,而这两个结果通过网络传输到云端,作为神经网络训练的目标样本。降噪后的分帧信号再通过蓝牙等返回到助听器,滤波器综合、数模转换后输出为人耳可听见的语音信号。

具体实施过程中,数字化的语音信号传输到智能终端之后进行VAD判别、谱减参数计算以及噪声估计等一系列操作。完成之后一部分通过网络上传至云端数据库,方便进一步的网络训练以提高准确性,另一部分通过无线通信返回到助听器,进行WOLA综合变换、模数转换等。将采集到的听力障碍患者数据上传到云端,然后再把经过中心服务器训练后的网络参数通过升级的方式下载到智能终端上,这样就实现了软件的更新升级,保证了应用的可靠性。

如图2所示为本发明的算法结构图。从结构上,本发明分为训练阶段和应用阶段两个部分。

训练阶段:在本阶段中,我们从已有的TIMIT语音库中挑选出若干时长为3s,采样频率为16kHz,单通道16位采样的男女语音信号,从NoiseX92噪声数据库中挑选出白噪声、粉色噪声、工厂噪声、机车噪声等多种不同特性的噪声,将这些语音信号随机排列组合合成不同信噪比的带噪语音,经过处理后,提取出特征参数作为神经网络的训练数据,训练结束得到的收敛网络将会被应用在第二个阶段。

应用阶段:从外界接收到的语音信号同样进行特征的提取,使用训练阶段得到的网络可以得到估计噪声谱及谱减参数,利用噪声的加性原理,将噪声谱从语音谱中减去得到相对纯净的增强信号。

在本发明算法中,BP神经网络的功能是判断和预测,所以在使用之前首先要对神经网络进行联想记忆和预测功能的训练。训练步骤如下:

1.网络的生成以及初始化

根据网络的初始输入输出状态,确定网络的各个参数,例如输入个数,隐层层数,输出个数,相邻两层之间的权值,隐层和输出层的阈值,另外还有网络的学习速率以及激励函数等等。

2.隐层及输出层的输出计算

隐含层的计算:根据输入向量X,输入层和隐含层之间的连接权值Wij以及隐含层阈值a,按照下式得到隐含层输出H。

式中f为隐含层激励函数,l是隐含层的节点数。

输出层的计算:根据隐层输出H,连接权值Wjk和阈值b,按照下式计算得到神经网络的输出O。

其中m是输出层的层数。

3.误差计算

根据网络的预测输出O和期望输出Y,计算网络预测的误差e。

ek=Yk-Ok,k=1,2,3,…,m (4-3)

4.权值阈值更新

根据网络预测的误差更新网络连接的权值Wij和Wjk

式中η为学习速率。

5.判断是否结束

达到最大迭代次数或者神经网络已经收敛则停止训练结束仿真。

如图3所示为本发明的算法流程示意图:助听器从外界接收带噪语音信号传输到智能终端后,通过WOLA分析滤波器分析后形成有三条路径;首先带噪语音进入后,利用人耳对语音信号相位不敏感的特性,通过WOLA分析滤波器分析后保存相位,以便合成时使用;然后,通过提取每一帧的特征参数,做为网络输入,输出为估计的噪声谱;WOLA分析滤波器输出的每一帧语音信号做为网络输入,输出为拟合的谱减因子β。最后进行谱减操作,WOLA综合滤波器重构之后输出。

图4-1和4-2分别是本发明算法与传统算法的降噪后波形的比较示意图,可以清晰地看出,传统方法降噪后,由于存在过减状态,所以残留了很多的音乐噪声,而本发明中的算法中的音乐噪声则小的多。

表1是基于信噪比指标的比较,数据表明,两者在信噪比方面效果是相当的,传统算法虽然看起来性能更好一点,但是没有考虑存在的严重过减问题,以语音失真换取高的信噪比是得不偿失的。所以本发明算法在这方面处理的更为合适。

表1

总体上,本发明结合了当代前沿的科技,与神经网络和数据云相结合,并将助听器的一部分功能转移到智能终端上,节省了助听器电池功耗,另外利用智能终端高性能的硬件电路和灵活的软件编程,为复杂的数字信号处理提供了十分有利的扩展和升级的空间。

进一步的,本实施例中所使用的特征参数是MFCC(Mel Frequency Cepstrum Coefficient),即Mel频率倒谱系数,该系数是基于人的听觉机理,依据人的听觉实验结果来分析语音频谱的,音频分析中,MFCC参数是经典参数之一;所用的神经网络是现有的发展比较成熟、应用十分广泛的BPNN(Back Propagation Neural Network),同传统的网络相仿,并不是深层网络,有输入中间和输出层构成,权值和阈值以及传递函数的选择都和实际应用相关。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,但这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1