一种改善喉振话筒语音音质的方法

文档序号:2819051阅读:565来源:国知局
专利名称:一种改善喉振话筒语音音质的方法
技术领域
本发明涉及一种改善喉振话筒语音音质的方法,属于语音处理技术领域。
背景技术
喉振话筒采用接触方式,将话筒紧贴在人喉部,拾取人喉头部分的振动声源,因而感受不到外界空气传导的噪声,具有很强的抗外界干扰能力。喉振话筒作为通讯工具被广泛应用在直升机、军机、坦克、摩托车等强噪声环境中。目前不少手机生产商,如摩托罗拉、 诺基亚、松下等公司都推出了可接喉振话筒的手机,将喉振话筒推广到民用通讯中。但由于喉振话筒采集的是通过肌肉、皮肤等的振动传播的语音,它与传统的采集通过口腔等声道传播的近讲语音相差较大,表现为喉振话筒采集的语音发闷、含糊不清,特别是清音几乎听不到,使得喉振语音的可懂度较差,这限制了喉振话筒的推广使用。A. Shahina 和 B. Yegnanarayana 于 2OO7 年在 EURASIP Journal on Advances in Signal Processing杂志上发表的“Mapping Speech Spectra from Throat Microphone to Close-Speaking Microphone A Neural Network Approach”文章中,提出利用语音转换技术来改善喉振语音的音质,即用神经网络训练喉振话筒和近讲话筒同时录制的语音的线性加权倒谱特征,得到谱包络的映射函数,用此映射函数修正喉振话筒录制的语音,来提高喉振语音的音质。2009 年 E. Erzin 等在文章 “Estimation of Acoustic Microphone Vocal Tract Parameters from Throat Microphone Recordings”中提出用隐马尔科夫模型(HMM) 训练喉振话筒和近讲话筒同时录制的语音的线谱对特征,得到近讲语音的声道传输函数, 通过比较平均对数谱失真测度函数,得出隐马尔科夫模型训练要好于矢量量化法。以上文章都是采用语音信号处理常用的倒谱、线谱对特征参量,没有充分考虑喉振语音特殊的声学特性,修正后的语音仍然有很多音听不清楚,所以喉振语音的音质还待进一步提高改善。Flif Bozkurt 等人 2011 年在 Speech Communication 杂志上发表的 “Formant position based weighted spectral features for emotion recognition,,文章中,将由语音信号直接得到的共振峰加权Mel倒谱参数应用到情感语音的识别中取得较好的结果。

发明内容
术语解释I. STRAIGHT 是 Speech Transformation and Representation based on Adaptive Interpolation of weiGHTed spectrogram的缩写,含义为基于自适应加权谱内插的语音转换和重构。参考文献H. Kawahara, I. Masuda-Katsuse and A. de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based FO extraction’’, Speech Communication,1999, Vol. 27, p.187-207.2.尺度共扼梯度算法(SCG Scaled Conjugate Gradient algorithm)参考文献Martin F. Moller, uK scaled conjugate gradient algorithm for fast supervisedlearning”,Neural Networks, 1993,Vol. 6,p.525-533.本发明的技术方案如下一种改善喉振话筒语音音质的方法,包括如下步骤(I)利用近讲话筒和喉振话筒同时录制训练语音。喉振话筒录制的语音作为源语音,近讲话筒录制的语音作为目标语音;(2)分别建立源语音和目标语音的STRAIGHT语音模型,得到基频参数、非周期指数和幅度谱,作为语音分析-修改-合成的模型;(3)由幅度谱分别提取源语音的共振峰加权Mel倒谱参数和增益参数作为源语音的特征参量,及目标语音的线谱对参数和增益参数作为目标语音的特征参量;(4)将步骤(3)中所述的特征参量送入动态前馈神经网络中训练;(5)动态前馈神经网络是根据特征结构自动选取网络的拓扑结构,训练出最优的非线性映射函数;(6)利用喉振话筒录制测试语音,建立测试语音的STRAIGHT语音模型,由幅度谱提取共振峰加权Mel倒谱参数和增益参数,送入步骤(5)训练得到的最优非线性映射函数中,得到修改后的线谱对参数和增益参数;(7)由修改后的线谱对参数和增益参数得到修改后的幅度谱,与基频参数和非周期指数一起利用STRAIGHT模型合成出清晰的语音。所述步骤(3)中共振峰加权Mel倒谱参数提取过程如下A)首先根据人耳的听觉特性划分Mel临界带Hii (I彡i彡Nb, Nb = 26是Mel临界带的频带数),即每个Mel临界带间隔79. 5Mel,带宽159Mel ;然后设计每个Mel临界带的三角形滤波器,求每个三角形滤波器频率带宽内的所有信号幅度谱加权和作为Mel带通滤波器的能量输出e”B)由幅度谱X(n)求平方,得到功率谱S(n);S(n) =| X(n) |2;0 < <S (n) = S (NF-n);其中NF = 1024为频域采样点数;C)由功率谱S (η)求逆快速傅里叶变换(IFFT),得到自相关函数R(i);
I NF-1Τ,πτι RQ) = — Y S(n)exp(70<n<NF-\;
NF y J NF JD)根据Levinson-Durbin递推算法,由自相关函数得到P阶线性预测系数Si及增益参数g ;7 (| i - 7 I) = RUXj = 1,…,尸;
i=\g = R(O)-YjGfRii);
i=\p = 16为线性预测阶数;E)由线性预测系数与线谱对参数的关系,得到P阶线谱对参数Isp⑴;A(z) = I + afz~l +αζζ~2 +... + +appz—p;
6
P(z) = A(z)+z、+1)A(z-1);Q(z) = A (z)-z、+1)A (z-1);A(Z)为P阶线性预测误差滤波器的传递函数;P(z)和Q(Z)多项式的根值即为P 阶线谱对参数Isp⑴。令Isp (O) = O, Isp (p+1) = fs/2, fs = 8000Hz为采样频率;F)由于线谱对参数的疏密程度反映了共振峰的频率位置,所以采用P阶逆谐波平均加权函数Oi作为初始加权函数
权利要求
1.一种改善喉振话筒语音音质的方法,其特征在于,该方法包括如下步骤(1)利用近讲话筒和喉振话筒同时录制训练语音,喉振话筒录制的语音作为源语音,近讲话筒录制的语音作为目标语音;(2)分别建立源语音和目标语音的STRAIGHT语音模型,得到基频参数、非周期指数和幅度谱,作为语音分析-修改-合成的模型;(3)由幅度谱分别提取源语音的共振峰加权Mel倒谱参数和增益参数作为源语音的特征参量,及目标语音的线谱对参数和增益参数作为目标语音的特征参量;(4)将步骤(3)中所述的特征参量送入动态前馈神经网络中训练;(5)动态前馈神经网络是根据特征结构自动选取网络的拓扑结构,训练出最优的非线性映射函数;(6)利用喉振话筒录制测试语音,建立测试语音的STRAIGHT语音模型,由幅度谱提取共振峰加权Mel倒谱参数和增益参数,送入步骤(5)训练得到的最优非线性映射函数中,得到修改后的线谱对参数和增益参数;(7)由修改后的线谱对参数和增益参数得到修改后的幅度谱,与基频参数和非周期指数一起利用STRAIGHT模型合成出清晰的语音。
2.根据权利要求I所述的一种改善喉振话筒语音音质的方法,其特征在于,所述步骤(3)中共振峰加权Mel倒谱参数提取过程如下A)首先根据人耳的听觉特性划分Mel临界带Hii(I彡i彡Nb, Nb = 26是Mel临界带的频带数),即每个Mel临界带间隔79. 5Mel,带宽159Mel ;然后设计每个Mel临界带的三角形滤波器,求每个三角形滤波器频率带宽内的所有信号幅度谱加权和作为Mel带通滤波器的能量输出e”B)由幅度谱X(n)求平方,得到功率谱S(n);S(n)=\X(n)f-0<n<^-·S (n) =S (NF-n);其中NF = 1024为频域采样点数;C)由功率谱S(n)求逆快速傅里叶变换(IFFT),得到自相关函数R(i);I Νρ-χΤ,πτι RQ) = — Y S(n)exp(70<n<NF-\;NFJ V J NF hD)根据Levinson-Durbin递推算法,由自相关函数得到P阶线性预测系数Si及增益参数g ;Σ《,R(\1 - i I)=Ruy,)=I”.尸;i=lg = R(O)-^afRii);i=lP = 16为线性预测阶数;E)由线性预测系数与线谱对参数的关系,得到P阶线谱对参数Isp(i);A(z) = I + afz~l +αζζ~2 +... + +appz—p;P(z) = Α(ζ)+ζ" ρ+1)Α(ζ_1);
3.一种改善喉振话筒语音音质的方法,其特征在于,所述步骤5)中动态前馈神经网络根据特征结构自动选取网络的拓扑结构过程如下a)设置前馈神经网络的初始隐层层数、隐层神经元个数、最大隐层神经元个数、最小误差要求,对初始结构网络的权值进行初始化;b)对输入数据和输出数据进行零均值、方差为I的规整,送入前馈神经网络;c)计算出网络的实际输出;d)将网络的实际输出与目标值进行比较,得到误差E;e)若E满足本结构网络的终止条件,则说明此结构的神经网络已经训练完成,向下执行步骤f);否则,网络采用尺度共扼梯度算法(SCG :Scaled Conjugate Gradient algorithm),跳转到步骤c)继续训练;f)判断E是否满足设定的最小误差要求,若满足,则训练结束,说明最优结构的神经网络已经自动生成;g)否则再判断隐层神经元个数是否已达到设定的最大值,若不满足,则隐层神经元个数增加1,将已训练好的权值自动赋给新网络,新增隐层神经元的权值初始值为0,跳转到步骤c)继续训练;h)若隐层神经元个数已达到设定的最大值,则训练结束,选取具有最小误差E的拓扑结构作为最优网络结构,即训练得出最优的非线性映射函数。
全文摘要
本发明提供一种改善喉振话筒语音音质的方法,提出由STRAIGHT语音模型得到完全去除激励影响的精确幅度谱,并加重此幅度谱中对喉振语音听觉感知起重要作用的第一、二共振峰区域,得到适用于语音转换的共振峰加权Mel倒谱参数加增益参数、线谱对参数加增益参数分别作为转换的源、目标特征参量,比起传统常用的倒谱-倒谱参数对、线谱对-线谱对参数对、Mel倒谱-Mel倒谱参数对有更好的映射关系。而且设计的动态前馈神经网络能自动选取网络的拓扑结构,比起固定网络结构的神经网络有着较好的泛化能力及较高的拟合精度,可训练出最优的非线性映射函数,使得改善后的语音音质有较大的提高。
文档编号G10L21/02GK102610236SQ201210049868
公开日2012年7月25日 申请日期2012年2月29日 优先权日2012年2月29日
发明者冯大伟, 栗学丽 申请人:山东大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1