一种基于约束朴素生成对抗网络的语音增强方法与流程

文档序号:19949196发布日期:2020-02-18 10:04阅读:716来源:国知局
一种基于约束朴素生成对抗网络的语音增强方法与流程

本发明涉及语音处理技术领域,具体涉及一种基于约束朴素生成对抗网络的语音增强方法。



背景技术:

语音作为人类交流的主要媒介,已经在移动通信、多媒体技术等领域发挥了重要作用。在人工智能方兴未艾的大背景下,语音识别、声纹识别等技术的广泛应用也对语音信号的质量提出了更高的要求。然而在实际的语音采集和对话交流场景中,语音信号往往会受到各种噪声的干扰,主要包括背景噪声、信道噪声和干扰噪声。语音增强是解决噪声污染的有效技术。

传统的语音增强方法主要有四种:(1)谱减法,是利用语音的短时平稳性将含噪语音信号的功率谱减去噪声信号的功率谱,便可得到纯净语音信号的功率谱估计。此方法容易产生“音乐噪声”问题;(2)维纳滤波器法,是在假定语音和加性噪声都服从高斯分布的条件下,从给定的含噪语音中通过维纳滤波器估计出语音的谱系数。当滤波器参数的调节到达极限或者处于非稳态噪声环境时,维纳滤波法的效果不佳;(3)基于谱幅度最小均方误差估计法(mmse),是假设语音幅度谱满足某种分布,如高斯分布、伽玛分布等,通过统计学习估计出谱系数的概率分布。然而,假设的分布和真实的分布往往并不一致;(4)子空间法,是将纯净语音置于一个低秩的信号子空间,噪声信号置于一个噪声子空间,并且信号子空间和噪声子空间相互正交。此方法通过将噪声子空间置零,再对信号子空间进行滤波以得到纯净的语音信号。此方法未考虑语音和噪声的先验知识,难以完全去除噪声子空间。



技术实现要素:

本发明所要解决的问题是:提供一种基于约束朴素生成对抗网络的语音增强方法,巧妙地解决了语音和噪声信号分布难以估计问题,有助于提高语音可懂度,避免相位失真。

本发明为解决上述问题所提供的技术方案为:一种基于约束朴素生成对抗网络的语音增强方法,所述方法包括以下步骤,

(1)、噪声数据收集和标记;

(2)、语音分帧加窗;

(3)、幅度压缩;

(4)、输入约束朴素生成对抗网络训练;

(5)、幅度解压缩;

(6)、逆短时傅里叶变换,生成增强语音。

优选的,所述步骤(1)中噪声数据收集和标记具体包括以下步骤:

(1.1)数据收集:采用noizeus库的语音作为纯净语音,采用noisex~92噪声库中的噪声作为噪声信号,采样频率均为8khz;

(1.2)数据标记:每种噪声分别以-5db,0db,5db,10db和15db的信噪比叠加到纯净语音,以此作为含噪语音数据集。

优选的,所述步骤(2)中语音分帧加窗是指采用长度为512,帧移为50%的汉明窗对含噪语音分帧,短时傅里叶变换的点数为1024。

优选的,所述步骤(3)中幅度压缩是指使用双曲正切函数对复数谱串接向量进行幅度压缩,把取值范围限制在[-1,1],双曲正切函数定义为

优选的,所述步骤(4)中输入约束朴素生成对抗网络训练可分为网络模型初始化、训练判别器、训练生成器及输出训练模型,具体如下:

(4.1)、网络模型初始化:初始化生成器和判别器;生成器g通过卷积层和反卷积层实现,激活函数选择prelu;判别器d通过卷积层实现,激活函数选择leakyrelu;采用“same”的补零策略,并采用batchnormalization对每一层进行归一化;优化器选择rmsprop,学习率为0.0002;

(4.2)、训练判别器:对步骤3)得到的纯净语音样本压缩复数谱训练,使得趋近1;对步骤3)得到的含噪语音样本压缩复数谱训练,使得增强语音复数谱趋近0;

(4.3)、训练生成器:对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练,冻结判别器,训练生成器,使得判别器d对增强语音复数谱趋近1;

(4.4)、输出训练模型:重复步骤(4.1)~(4.3),直到模型收敛为止,输出生成器g和判别器d。

优选的,所述步骤(5)中幅度解压缩是指使用反双曲正切函数对增强复数谱串接向量进行幅度解压缩,反双曲正切函数定义为:

与现有技术相比,本发明的优点是:通过生成对抗网络中的生成模型和判别模型之间的对抗学习,不断增强生成模型生成样本的能力,最终得到干净语音样本的分布;对语音或噪声的统计分布没有任何假设;采取复数谱映射的方法,在训练样本中增加了相位信息。本发明巧妙地解决了语音和噪声信号分布难以估计问题,有助于提高语音可懂度,避免相位失真。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1是本发明的工作原理图。

图2是本发明约束朴素生成对抗网络的原理框图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本发明采用如图1所示的基于约束朴素生成对抗网络(cn-gan)的语音增强方法的流程图,实现低信噪比环境下的语音去噪,其具体实施步骤如下:

1)噪声数据收集和标记

(1.1)数据收集:本发明实例采用noizeus库的sp01~sp30语音作为纯净语音,采用noisex~92噪声库中的babble噪声,white噪声,hfchannel噪声及buccaneer1噪声作为噪声信号,采样频率均为8khz;

(1.2)数据标记:将(1.1)所述的四种噪声分别以-5db,0db,5db,10db和15db的信噪比叠加到纯净语音,以此作为含噪语音数据集。将数据集以3:1的比例分成训练集和测试集。

2)语音分帧加窗

采用长度为512,帧移为50%的汉明窗对含噪语音分帧,短时傅里叶变换(stft)的点数为1024,得到含噪语音的复数谱,并将复数谱的实部和虚部串接成向量,以此作为网络训练目标。

3)幅度压缩

使用双曲正切函数对步骤2)所得复数谱串接向量进行幅度压缩,将图1所示的含噪语音复数谱的实部zr和虚部zi的幅度范围限制在[-1,1],然后把zr和zi的串接向量作为cn-gan的输入,通过cn-gan计算xr和xi的估计值双曲正切函数定义如式(1)所示:

4)输入约束朴素生成对抗网络训练

(4.1)网络模型初始化:初始化生成器和判别器。生成器g通过卷积层和反卷积层实现,激活函数选择prelu。判别器d通过卷积层实现,激活函数选择leakyrelu。采用“same”的补零策略,并采用batchnormalization对每一层进行归一化。优化器选择rmsprop,学习率为0.0002。复数谱映射的约束朴素生成对抗网络目标函数如式(2)所示:

式中,有xc=[xr'xi'],zc=[zr'zi'],λ表示调节权重,e[·]表示计算数学期望。

(4.2)训练判别器:对步骤3)得到的纯净语音样本压缩复数谱训练,使得趋近1;对步骤3)得到的含噪语音样本压缩复数谱训练,使得增强语音复数谱趋近0。

(4.3)训练生成器:对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练,冻结判别器,训练生成器,使得判别器d对增强语音复数谱趋近1;

(4.4)输出训练模型:重复步骤(4.1)~(4.3),直到模型收敛为止,输出生成器g和判别器d。

5)幅度解压缩

使用反双曲正切函数对步骤4)得到的增强复数谱串接向量的实部和虚部进行幅度解压缩,获得反双曲正切函数定义如式(3)所示:

6)逆短时傅里叶变换,生成增强语音

对步骤5)得到的增强语音复数谱进行逆短时傅里叶变换(istft),得到降噪语音的时域波形,完成语音增强过程。

将测试集的所有含噪语音重复步骤6),可得增强后的语音数据集。

以上仅就本发明的最佳实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化。凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1