基于可分离深度自动编码技术的无监督噪声估计和语音增强方法

文档序号:9305377阅读:950来源:国知局
基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
【技术领域】
[0001] 本发明属于语音信号处理技术领域,特别是一种基于可分离深度自动编码技术的 无监督噪声估计和语音增强方法。
【背景技术】
[0002] 语音增强无论对于提高语音信号的听觉效果,还是作为前端处理提高语音识别器 的性能,都具有重要的意义。语音增强的核心问题在于语音噪声的分离,理想的语音增强 技术需要在未知噪声的前提条件下,也能获得很好的效果。为此,语音增强需要解决的一 个关键问题是噪声估计问题。为了估计噪声的频谱,人们提出了一些经典的算法,如谱减 (SpectrumSubtraction,SS)、最小均方误差(MinimumMeanSquareError,MMSE)等,并已 经广泛应用在语音通信中。然而,这些方法一般基于噪声的平稳性假设,对于具有高度非平 稳突变特性的噪声的频谱估计效果较差。
[0003] 基于隐马尔可夫模型和线性预测系数的码书的语音增强方法能够处理非平稳噪 声,其前提条件是需要在已知噪声的条件下预先训练出噪声谱,并且噪声谱的特征在实际 带噪语音信号中不发生显著变化。然而,当所需处理的噪声特征未知或不可得到时,这些方 法就不能够有效实现语音增强。
[0004] 基于非负矩阵分解的语音增强方法在噪声已知的条件下,也能够处理非平稳噪 声。为了使其在噪声未知的条件下也能取得好的效果,一种解决方案需要提前训练出若干 种不同噪声环境的噪声字典,将每种噪声环境的字典作为一个状态,并在允许不同状态之 间可以跳车专(N.Mohammadiha,P.Smaragdis,andA.Leijon,"Supervisedandunsupervised speechenhancementusingnonnegativematrixfactorization,''Audio,Speech,and LanguageProcessing,IEEETransactionson,vol. 21,no. 10,pp. 2140 - 2151,2014.) 〇 然而,这种方法无法穷举可能遇到的所有未知噪声环境,并且,在特定噪声环境下也可 能存在不匹配问题。一种解决方案是假设噪声频谱具有低秩结构或预先训练一个通用 的语音字典,根据输入的含噪声的语音谱,估计出噪声谱(M.Sun,Y.Li,J.F.Ge_ke,X. Zhang"SpeechenhancementunderlowSNRconditionsvianoiseestimationusing sparseandlow-rankNMFwithKullback-Leiblerdivergence,''IEEETransactionson Audio,SpeechandLanguageProcessing,vol. 59, 2015.)。但噪声的这种低秩假设限制了 其在不具有低秩结构的噪声消除方面的效果。
[0005] 在无任何噪声先验信息的条件下估计出噪声谱,其本质上就是找到无法用语 音模型表示的成分(这部分被认为是噪声),所以首要的问题是精确的表示语音,从 而利于后续的非语音成分的剔除。近年来,深度学习在语音信号表示领域获得了成功 应用,并且在噪声已知条件下取得了较好的去噪效果(X.Lu,Y.Tsao,S.Matsuda,and C.Hori,"Speechenhancementbasedondeepdenoisingautoencoder,',in INTERSPEECH,2013,pp. 436 - 440.)。借助于104种噪声合成的带噪语音库,通过训练 深度神经网络建立起带噪语音信号和干净语音信号之间的映射关系(Y.Xu,J.Du,L. -R.Dai,andC. -H.Lee,"Aregressionapproachtospeechenhancementbasedon deepneuralnetworks, ',IEEE/ACMTransactionsonAudio,Speech,andLanguage Processing,vol. 23,no. 1,pp. 7 - 19,January2015.)。巨大的训练数据集使对于未知噪声 的处理成为可能,相关的实验结果也验证了增强效果的显著提升。然而,无论训练噪声数据 集如何庞大,仍然无法得到能够囊括自然界的所有噪声类型。因此,还需要一种在任何噪声 环境都能使用的语音增强技术。
[0006] 在信号的频谱领域进行处理,需要用到描述信号幅度谱重构的深度自编码机 (DeepAutoEncoder,DAE),在此先做简要介绍。DAE本质上是一个多层的神经网络,并假 设其输出与输入是相同的,然后训练调整其各层参数(即每一层的权重和偏置)(http:// deeplearning.Stanford,edu/wiki/index.php/UFLDL_Tutorial) 〇 然后,京尤得到了输入幅 度谱的几种不同表示(每一层代表一种表示)。DAE就是一种在输出层尽可能复现输入信 号的神经网络。降噪深度自编码机(DenoisingDAE)是一种采用了"对干净语音信号加入 人工噪声,并将其映射到干净语音信号"的思路,在噪声已知的情况下经常被采用[8] [9]。 但在未知噪声,或未知噪声特性与已知噪声差异很大的情况下,会存在不匹配的问题,从而 影响其效果。

【发明内容】

[0007] 本发明的目的在于提供一种基于可分离深度自动编码技术的无监督噪声估计和 语音增强方法,旨在解决无噪声或特定说话人先验信息的模式下,能够同时估计出干净语 音谱和未知噪声频谱结构。
[0008] 实现本发明目的技术解决方案为:一种基于可分离深度自动编码技术的无监督噪 声估计和语音增强方法,包括事前处理和对被未知噪声污染的语音增强:
[0009] 所述事前处理的实现步骤为:
[0010] 步骤一,对干净语音时域信号s(n),经过分帧加窗后,对每帧进行傅里叶变换并取 模,得到该帧的幅度谱s;综合所有帧,就可得该语句的幅度谱S;
[0011] 步骤二,使用来自不同性别、不同说话人的大量语音信号的幅度谱S,通过非负矩 阵分解,训练出一个能够表征语音信号的非负语音字典D,即求解如下优化问题:
[0012]
[0013] 其中,KLD表示Kullback-Leibler散度,D为所要求的非负字典,C为字典中各基 函数的激活系数;
[0014] 步骤三,使用来自不同性别、不同说话人的大量语音信号的幅度谱S,训练出一个 能够表征语音信号的深度自动编码机f(S);其中,各个节点的激活函数采用反射线性单元 激活函数〇 (?)来确保重构谱的非负性,编码机的输出函数为:
[0015]
[0016] 其中,W^^W^dW"。1},1}=讲(1),,:.、:,:*)^}分别为各层的系数和偏置,它们是待 估参数,因此,训练的目标函数为:
[0017]
[0018] 所述对被未知噪声污染的语音增强实现步骤为:
[0019] 步骤四,对输入的带噪语音时域信号x(n),经过分帧加窗后,对每帧进行傅里叶变 换并取模得到该帧的幅度谱x;
[0020] 步骤五,使用预先训练的非负语音字典D和预先训练好的深度自动编码机f(s), 该f(s)含参数的表述形式为f(W,b,S),引入额外的深度自动编码机g(n),将这三者联合起 来对含噪语音进行建模;该模型中,所有不能被语音深度自动编码机f(s)有效表示的成分 均被认为是噪声,用g(n)来表示;利用链式求导方法迭代更新语音基函数的系数向量和噪 声模型中的未知参数,分别得到干净语音幅度谱和噪声谱的估计值;
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1