一种融合超声波信号特征的语音增强方法及系统

文档序号:28947203发布日期:2022-02-19 09:28阅读:265来源:国知局
一种融合超声波信号特征的语音增强方法及系统

1.本发明属于声音处理技术领域,具体涉及一种融合超声波信号特征的语音增强方法及系统。


背景技术:

2.语音在传输过程中会不可避免的受到来自周围环境的干扰,这些干扰会严重影响语音接收时的质量,导致接收到的信号不再是原始的纯净语音信号,而是带有各种干扰噪声的语音信号,这会降低语音的质量和可懂度,影响语音收听者的听感以及语音识别的准确度,因此需要通过语音增强技术减小环境的影响,提高语音质量和可懂度。
3.在各种语音增强方法中,基于深度神经网络的语音增强因其出色的效果,吸引了研究人员的广泛关注。在深度神经网络的基础上,引入多模态信息更是有效地提高了语音增强的性能。但基于多模态的语音增强主要是利用声音和视觉两种模态,而视觉信息会受到光照条件的影响,并且需要视觉传感器的支持,同时也会带来隐私问题。


技术实现要素:

4.本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种融合超声波信号特征的语音增强方法及系统,充分利用用户说话时的发声动作且不需要视觉信息的支持,有效提高语音增强的效果。
5.本发明采用以下技术方案:
6.一种融合超声波信号特征的语音增强方法,其特征在于,包括以下步骤:
7.s1、移动设备同时发射并接收预定义的超声信号,在发射超声信号的同时,发送用户语音;移动设备接收到描绘发声动作的超声波信号和用户语音;超声波信号用于信道估计以提取信道冲击响应矩阵,将信道冲击响应矩阵沿时间轴逐位求一阶差分得到一阶差分信道冲击响应,对用户语音进行降采样,再经短时傅里叶变换得到语音信号的时频谱图;
8.s2、将步骤s1得到的一阶差分信道冲击响应和语音信号的时频谱图分别输入深度复数神经网络,深度复数神经网络预测复值比率掩码,将语音信号的时频谱图与预测的复值比率掩码逐位相乘得到增强语音的时频谱图,然后通过逆短时傅里叶变换得到增强后的时序语音信号,实现语音增强。
9.具体的,步骤s1具体为:
10.s101、发射端的超声信号选择26位gsm序列作为基础序列,每一段超声信号的采样点数为480,当超声波的采样率为48khz时,系统以100hz的频率计算信道冲击响应,将gsm训练序列进行12倍上采样,然后在结尾添加168位的零值作为保护位形成一段训练序列,最后将发射信号乘以以上变频到超声频带,同时进行带通滤波使超声信号保持在18~22khz,根据gsm序列进行采样及补零插值后生成的训练序列帧的数据得到循环训练序列矩阵m;
11.s102、在接收端,通过滤波器将接收到的超声信号划分成两部分:通过截止频率为
8khz的低通滤波器得到带噪的用户语音,对用户语音部分从48khz降采样到16khz,然后以20毫秒的汉明窗和10毫秒的跳跃长度进行短时傅里叶变换得到语音信号的时频谱图,作为神经网络语音分支的输入;
12.s103、将信道冲击响应矩阵沿时间轴逐位求一阶差分得到dcir,然后将dcir作为神经网络超声分支的输入。
13.进一步的,步骤s101中,循环训练序列矩阵m由训练序列的数据部分d={m1,m2,

,m
p
},循环训练序列矩阵m为:
[0014][0015]
其中,p是训练序列中数据部分的长度。
[0016]
进一步的,步骤s102中,接收信号通过截止频率为18khz的高通滤波器得到信号的超声部分,首先进行帧检测使发射信号和接收信号对齐,然后将高通滤波后得到的超声部分接收信号分别乘以和作为接收基带信号r(t)的实部和虚部,然后通过截止频率为2khz的低通滤波器消除带外噪声。
[0017]
更进一步的,通过最小二乘信道估计算法计算信号冲击响应得到一个70
×
100的复数cir矩阵h如下:
[0018]
h=argmin‖r-mh‖2[0019]
其中,r为接收信号,h为信号冲击响应。
[0020]
具体的,步骤s2中,增强语音的时频谱图具体为:
[0021][0022]
其中,n为带噪语音时频谱图,
[0023]
预测复值比率掩码m
crm
为:
[0024][0025]
其中,nr,ns是带噪语音时频谱图的实部和虚部;sr,si是纯净语音的实部和虚部,为crm的实部,j为虚数单位,为crm的虚部,r为复数的实部,i为复数的虚部。
[0026]
具体的,步骤s2中,神经网络采用复数编解码结构,并在编解码器之间添加复数lstm;编码器用于从输入的带噪语音谱图和一阶差分信道冲击响应中提取高维特征,每一个编码块包含带噪语音谱图和一阶差分信道冲击响应各自的分支,每一个分支均包含复数二维卷积,复数批标准化和渗漏复数整流单元激活;将编码后的高维音频和一阶差分信道冲击响应特征输入一个交互模块,用于转换和共享信息;随后,解码器采用复数反卷积重构低分辨率特征到原始输入的尺度,在编解码器之间使用了跳跃连接,在编码器超声分支的末尾,添加用户认证分支,经过全连接后进行用户的预测。
[0027]
进一步的,交互模块具体为:
[0028]
将两个输入分支特征f1和f2进行连接,然后分别馈入复数卷积、复数批标准化、复数sigmoid激活预测f2中需要保存下来的有效特征,f1的新特征表示为:
f2的新特征表示为f2的新特征表示为h(
·
)表示复数卷积、复数批标准化、复数sigmoid激活的组合操作。进一步的,神经网络的损失函数l为:
[0029]
l=αl
sisdr
+βls[0030]
其中,l
sisdr
为信号尺度不变信噪比损失函数,ls为用户预测的交叉熵损失函数,α和β为超参数。
[0031]
本发明的另一技术方案是,一种融合超声波信号特征的语音增强系统,包括:
[0032]
输入模块,移动设备同时发射并接收预定义的超声信号,在发射预定义超声信号的同时,发送用户语音;移动设备接收到描绘发声动作的超声波信号和用户语音;超声部分用于信道估计提取信道冲击响应矩阵,将信道冲击响应矩阵沿时间轴逐位求一阶差分得到一阶差分信道冲击响应,对经过低通滤波的用户语音部分进行降采样,经短时傅里叶变换得到语音信号的时频谱图;
[0033]
增强模块,将输入模块得到的一阶差分信道冲击响应和语音信号的时频谱图分别输入深度复数神经网络,深度复数神经网络预测复值比率掩码,将语音信号的时频谱图与预测的复值比率掩码逐位相乘得到增强语音的时频谱图,然后通过逆短时傅里叶变换得到增强后的时序语音信号,实现语音增强。
[0034]
与现有技术相比,本发明至少具有以下有益效果:
[0035]
本发明一种融合超声波信号特征的语音增强方法,先预定义超声信号,再使用设备自带的扬声器和麦克风主动发射和接收超声信号,进行信道估计得到信道冲击响应(channel impulse response,cir)作为反映用户说话时面部发声器官(如嘴唇、下巴、舌头)的运动特征,将其作为语音的一种补充模态信息输入神经网络中实现语音增强。为了在时频域中对复数语音信号的幅度和相位同时进行处理以利用语音信号的全部信息,本发明采用复数神经网络,其内部操作均遵守复数运算法则,网络输出为复值比率掩码(complex ratio mask,crm),将其与输入语音的时频谱相乘即可得到预测的语音时频谱,进一步对该语音时频谱进行逆短时傅里叶变换从而获得增强后的语音,一阶差分信道冲击响应可以有效地反映用户讲话时面部器官的运动特征,作为可用的冗余信息,实现对语音增强任务效果的提升。
[0036]
进一步的,为了估计信道冲击响应,需要已知发射信号和接收信号,同时为了保证接收信号和发射信号的同步,采用具有良好自相关性的26位gsm序列作为基础序列。为了使其具有足够的长度,先对其进行12倍上采样,然后在结尾补零,以防止当前帧的回声和下一帧混合。将信号调制到18~22khz的频带上是为了保证人耳无法感知到发射处的声音信号。在接收端将接收信号分为两部分,一部分是18khz以上的超声部分,用于信道估计计算信道冲击响应;另一部分是作为输入的带噪语音部分,为了减小数据复杂度,将采样率从48khz降低到16khz。
[0037]
进一步的,循环训练矩阵m代表了一帧训练信号序列的数据,作为信道估计时的发射信号。
[0038]
进一步的,通过截止频率为2khz的低通滤波器是为了消除带外噪声,防止超声频带以外的声音信号对信道估计产生影响。
[0039]
进一步的,最小二乘信道估计算法可以有效计算出信道时变特征,且结构简单,计
算复杂度低,
[0040]
进一步的,相比于直接在时域上预测语音信号,时频域的方法同时考虑语音时域和频率的信息,预测结果更加准确。预测复数比率掩码的方法可以同时对时频域语音信号的幅度和相位进行预测,可以实现对纯净语音几乎无损地重构。
[0041]
进一步的,由于网络的输入为dcir和时频域语音信号,两者均为复数矩阵,因此采用复数编解码结构,可以有效的对输入复数信号的实部和虚部进行建模,输出的结果会同时考虑信号实部和虚部,使预测结果更加可靠。
[0042]
进一步的,用户发声时的动作和语音是自然相关的,因此可以利用一种模态中学到的特征来补充另一种模态的特征。交互模块能实现语音分支和超声分支的信息交流,可以用一个分支的特征信息恢复另一分支中一些丢失的特征或删除一些不需要的特征。
[0043]
进一步的,l
sisdr
损失函数可以反映预测信号与清晰信号之间的差异。超声分支的ls损失函数用于用户预测,可以利用目标说话者的先验知识,提升语音增强效果。
[0044]
综上所述,本发明方法适用于装备有扬声器和麦克风的商用移动设备,可以有效利用复数信号实部和虚部的相关性,提升了语音增强效果。
[0045]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0046]
图1为本发明系统图;
[0047]
图2为本发明超声信号收发图;
[0048]
图3为本发明网络结构图;
[0049]
图4为本发明网络结构参数图,其中,(a)为超声分支编码器结构参数,(b)为语音分支编码器(上)和解码器(下)结构参数;
[0050]
图5为本发明交互模块结构图;
[0051]
图6为本发明复数卷积操作示意图;
[0052]
图7为本发明流程图。
具体实施方式
[0053]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054]
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0055]
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0056]
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0057]
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
[0058]
本发明提供了一种融合超声波信号特征的语音增强方法,适用于装备有扬声器和麦克风的商用移动设备;先预定义超声信号,再使用设备自带的扬声器和麦克风主动发射和接收超声信号,进行信道估计得到信道冲击响应(channel impulse response,cir)作为反映用户说话时面部发声器官(如嘴唇、下巴、舌头)的运动特征,将其作为语音的一种补充模态信息输入神经网络中实现语音增强。为了在时频域中对复数语音信号的幅度和相位同时进行处理以利用语音信号的全部信息,本发明采用复数神经网络,其内部操作均遵守复数运算法则,网络输出为复值比率掩码(complex ratio mask,crm),将其与输入语音的时频谱相乘即可得到预测的语音时频谱,进一步对该语音时频谱进行逆短时傅里叶变换从而获得增强后的语音。本发明充分利用了用户发声动作特征辅助语音增强任务,提高了语音增强效果,具有广泛的应用前景。
[0059]
请参阅图1和图7,本发明一种融合超声波信号特征的语音增强方法,包括超声信号收发模块和深度网络预测模块,具体步骤如下:
[0060]
s1、采用具有扬声器和麦克风的商用移动设备(例如智能手机),同时发射并接收预定义的超声信号,在发射超声信号的同时,用户进行讲话,此时麦克风接收到的信号分为两个部分,一部分是描绘发声动作的超声波信号,通过截止频率为18khz的高通滤波器得到;另一部分是用户语音,通过截止频率为8khz的低通滤波器得到,超声部分用于信道估计提取信道冲击响应(cir),作为反映发声动作的辅助信息对语音部分实现降噪;
[0061]
请参阅图2,超声信号收发模块具体为:
[0062]
s101、发射端的超声信号选择26位gsm序列作为基础序列,每一段超声信号的采样点数为480,当超声波的采样率为48khz时,系统能以100hz的频率计算cir,将gsm序列进行12倍上采样,然后在结尾添加168位的零值作为保护位形成一段训练序列,最后将发射信号乘以以上变频到超声频带(fc=20khz),同时进行带通滤波使超声信号保持在18~22khz;
[0063]
s102、在接收端,首先通过滤波器将接收到的超声信号划分成两部分:通过截止频率为8khz的低通滤波器得到带噪的用户语音,对用户语音部分从48khz降采样到16khz以减小模型复杂度,然后以20毫秒的汉明窗和10毫秒的跳跃长度进行短时傅里叶变换(stft)得到语音信号的时频谱图,作为神经网络语音分支的输入。
[0064]
接收信号通过截止频率为18khz的高通滤波器得到信号的超声部分,在接收端利用gsm训练序列具有良好自相关性的特点,首先进行帧检测使发射信号和接收信号对齐,然后将高通滤波后得到的超声部分接收信号分别乘以和作为接收基带信号r(t)的实部和虚部,然后通过截止频率为2khz的低通滤波器消除带外噪声。
[0065]
循环训练序列矩阵m由训练序列的数据部分d={m1,m2,

,m
p
}变换得到:
[0066][0067]
其中,p是训练序列中数据部分的长度,p=d+n=312,n取70。
[0068]
信道冲击响应h通过最小二乘信道估计算法求得:
[0069]
h=argmin‖r-mh‖2[0070]
其中,r为接收信号,h为信号冲击响应。
[0071]
通过h
ls
=(mhm)-1
mhr求得信号冲击响应h,根据设计,每秒得到一个70
×
100的复数cir矩阵h。
[0072]
s103、将cir矩阵沿时间轴逐位求一阶差分得到一阶差分信道冲击响应dcir,可以有效消除环境中静态物体的反射,突出嘴部运动的超声特征,之后将dcir作为神经网络超声分支的输入。
[0073]
s2、在深度网络预测模块,将dcir和语音时频谱图分别输入深度复数神经网络,网络预测复值比率掩码(crm),将语音时频谱图与复值比率掩码逐位相乘即可得到增强语音的时频谱图,然后通过逆短时傅里叶变换即可得到增强后的时序语音信号。
[0074]
神经网络以预测复数比率掩码(crm)的方式实现语音增强,crm是纯净语音和带噪语音的时频谱图之间的比率,定义为:
[0075][0076]
其中,nr,ns是带噪语音时频谱图的实部和虚部;sr,si是纯净语音的实部和虚部。此外,为了缩小搜索空间以优化模型,使用双曲正切函数将crm的幅度限制在[0,1),crm的相位也进行相应的变化:
[0077][0078][0079][0080]
其中,d是网络的输出。
[0081]
最终估计的纯净语音时频谱图可以通过下式计算得到:
[0082][0083]
其中,n为带噪语音时频谱图。
[0084]
请参阅图3,神经网络采用复数编解码结构,并在编解码器之间添加了复数lstm。在编解码器中,复数lstm用于对时序相关性进行建模。编码器用于从输入的带噪语音谱图和dcir中提取高维特征。每一个编码块又包含带噪语音谱图和dcir各自的分支,每一个分支均包含复数二维卷积,复数批标准化和leaky crelu激活,网络结构参数如图4所示。
[0085]
然后,将编码后的高维音频和dcir特征输入一个交互(interaction)模块,用于转换和共享信息;交互模块结构如图5所示,首先将两个输入分支特征f1和f2进行连接,然后分别馈入复数卷积、复数批标准化、复数sigmoid激活预测f2中需要保存下来的有效特征,
则f1的新特征可以表示为:则f1的新特征可以表示为:同理,f2的新特征可以表示为其中h(
·
)表示复数卷积、复数批标准化、复数sigmoid激活的组合操作。交互模块输出的新特征可以有效地在原特征的基础上保留另一特征中需要保留的部分,实现两个分支信息的融合。
[0086]
随后,解码器采用复数反卷积重构低分辨率特征到原始输入的尺度。在编解码器之间使用了跳跃连接,可以有效地促进梯度的传递。在编码器超声分支的末尾,添加了用户认证分支,经过全连接后进行用户的预测,可以进一步利用用户的身份信息提升语音增强效果。
[0087]
其中,复数神经网络的操作均符合复数运算法则,以复数卷积为例,设卷积核为w=a+ib,输入为i=x+iy,则输出f
conv
为:
[0088]fconv
=w*i=(a*x-b*y)+i(b*x+a*y)
[0089]
其中,神经网络损失函数为:
[0090]
l=αl
sisdr
+βls[0091]
其中,l
sisdr
为信号尺度不变信噪比损失函数,ls为用户预测的交叉熵损失函数,α和β为超参数,分别取1和0.1。
[0092]
尺度不变信噪比损失函数l
sisdr
为:
[0093][0094]
se=s
′‑st
[0095][0096]
其中,s

是预测的语音序列,s是原始纯净语音序列,s
t
是s

在s上的投影,sisnr反映了s

和s的相似性。
[0097]
交叉熵损失函数ls为:
[0098][0099]
其中,n是讲话者的数量,此处取10,是第i个讲话者身份的真实标签,是对第i个讲话者身份标签的预测。
[0100]
本发明再一个实施例中,提供一种融合超声波信号特征的语音增强系统,该系统能够用于实现上述融合超声波信号特征的语音增强方法,具体的,该融合超声波信号特征的语音增强系统包括输入模块以及增强模块。
[0101]
其中,输入模块,移动设备同时发射并接收预定义的超声信号,在发射预定义超声信号的同时,发送用户语音;移动设备接收到描绘发声动作的超声波信号和用户语音;超声部分用于信道估计提取信道冲击响应矩阵,将信道冲击响应矩阵沿时间轴逐位求一阶差分得到一阶差分信道冲击响应,对经过低通滤波的用户语音部分进行降采样,经短时傅里叶变换得到语音信号的时频谱图;
[0102]
增强模块,将输入模块得到的一阶差分信道冲击响应和语音信号的时频谱图分别输入深度复数神经网络,深度复数神经网络预测复值比率掩码,将语音信号的时频谱图与预测的复值比率掩码逐位相乘得到增强语音的时频谱图,然后通过逆短时傅里叶变换得到增强后的时序语音信号,实现语音增强。
[0103]
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor、dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于融合超声波信号特征的语音增强方法的操作,包括:
[0104]
移动设备同时发射并接收预定义的超声信号,在发射超声信号的同时,发送用户语音;移动设备接收到描绘发声动作的超声波信号和用户语音;超声波信号用于信道估计以提取信道冲击响应矩阵,将信道冲击响应矩阵沿时间轴逐位求一阶差分得到一阶差分信道冲击响应,对用户语音进行降采样,再经短时傅里叶变换得到语音信号的时频谱图;将一阶差分信道冲击响应和语音信号的时频谱图分别输入深度复数神经网络,深度复数神经网络预测复值比率掩码,将语音信号的时频谱图与预测的复值比率掩码逐位相乘得到增强语音的时频谱图,然后通过逆短时傅里叶变换得到增强后的时序语音信号,实现语音增强。
[0105]
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
[0106]
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关融合超声波信号特征的语音增强方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
[0107]
移动设备同时发射并接收预定义的超声信号,在发射超声信号的同时,发送用户语音;移动设备接收到描绘发声动作的超声波信号和用户语音;超声波信号用于信道估计以提取信道冲击响应矩阵,将信道冲击响应矩阵沿时间轴逐位求一阶差分得到一阶差分信道冲击响应,对用户语音进行降采样,再经短时傅里叶变换得到语音信号的时频谱图;将一阶差分信道冲击响应和语音信号的时频谱图分别输入深度复数神经网络,深度复数神经网络预测复值比率掩码,将语音信号的时频谱图与预测的复值比率掩码逐位相乘得到增强语音的时频谱图,然后通过逆短时傅里叶变换得到增强后的时序语音信号,实现语音增强。
[0108]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0109]
请参阅图6,为复数卷积操作示意图,设输入矩阵i=x+jy,复数卷积核w=a+jb,则经过卷积操作的输出f可以表示为f=w*i=(a*x

b*y)+j(b*x+a*y)。使用复数卷积可以进一步利用幅度和相位之间的内在联系进行预测,有利于语音增强任务。
[0110]
为了证明此发明对语音增强的提高,将其与相关工作phasen系统进行比较,带噪数据的平均信噪比(signal-to-distortion ratio,sdr)为4.99db,平均语音质量感知评估值(perceptual evaluation of speech quality,pesq)为2.18,平均短时客观可懂度值(short-time objective intelligibility measure,stoi)为0.77。
[0111]
本发明对带噪语音进行增强后的snr为16.91db,pesq为3.27,stoi为0.90。
[0112]
而phasen系统增强后的三者值分别为13.34db,3.15,0.88。
[0113]
与phasen相比,本发明对带噪语音的增强效果有着显著的提升。
[0114]
综上所述,本发明一种融合超声波信号特征的语音增强方法及系统,适用于装备有扬声器和麦克风的商用移动设备。使用设备自带的扬声器和麦克风主动发射和接收超声信号,进行信道估计得到信道冲击响应(cir)作为反映用户说话时面部发声器官(如嘴唇、下巴、舌头)的运动特征,将其作为一种补充模态信息输入神经网络与带噪语音进行交互,从而提升增强效果。为了在时频域中对复数语音信号的幅度和相位同时进行处理以利用语音信号的全部信息,网络采用复数神经网络,其内部操作均遵守复数运算法则,可以利用复数信号实部和虚部的相关性,有效提升了语音质量和可懂度。
[0115]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0116]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0117]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0118]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计
算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0119]
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1