一种人工语音带宽扩展的方法

文档序号：8340786阅读：290来源：国知局

一种人工语音带宽扩展的方法
【技术领域】
[0001] 本发明涉及一种人工语音带宽扩展的方法，属于数字信号处理技术领域。
【背景技术】
[0002] 目前，公用电话网（PSTN)有效频率范围仅是0· 3~3. 4KHz，GSM数字蜂窝电话有效带宽不超过4KHz。尽管语言信号的主要能量集中在0. 3~3. 4KHz频率范围，但实际占用的频率范围要大的多。4KHz窄带语音由于缺失了高频分量，其自然度，可懂度等方面明显变差，听起来"闷闷"的。

【发明内容】

[0003] 为了克服上述的不足，本发明的目的在于提供一种人工语音带宽扩展的方法。
[0004] 一种人工语音带宽扩展的方法，其工作过程如下：
[0005] 窄带语音信号经过曲线拟合模块后经过外推高频包络模块，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，利用线性预测系数后构造自回归模型及滤波模块，将白噪声通过此自回归模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与窄带语音信号经过语音合成模块得到宽带语音。
[0006] 本发明原理及有益效果：保持算法复杂度较低的优点，产生与真实激励相关性较高的人工激励。本发明首先对已知的低频对数域频谱进行曲线拟合，得到曲线方程，进而外推出高频对数域频谱包络曲线。从窄带语音中低频参数，利用线性预测系数构成自回归模型，使用均匀白噪声序列通过此自回归模型，得到高频噪声序列。此高频噪声序列是与窄带语音具有一定相关性的白噪声，将其转换为对数域频谱，再经过高频对数频谱包络的调制，即可恢复出高频语音，并在复倒谱域合成宽带语音。本发明是一种全盲语音带宽扩展技术，可直接应用于窄带语音接收端。本发明不需要任何先验知识或高频信息，算法复杂度较低，可以恢复出与低频相关性较高的高频部分，且合成的宽带语音听觉效果良好。
【附图说明】
[0007] 图1是本发明的流程图。
[0008] 图2是本发明的宽带语音合成过程。
[0009] 图3(a)原始宽带语音语谱图。
[0010] 图3(b)窄带语音语谱图。
[0011] 图3(c)带宽扩展后的语音语谱图。
[0012] 图4(a)本发明算法输出和自适应变速率语音编解码器在编码速率为12. 2kbps时的输出对比结果分布图。
[0013] 图4(b)本发明算法输出和宽带自适应变速率语音编解码器在编码速率为 8. 85kbps时的输出对比结果分布图。
[0014] 图5窄带语音和本发明合成的宽带语音的谱失真测度图。
[0015] 图6显示主观测试标准。
【具体实施方式】
[0016] 下面结合附图对本发明做进一步说明。
[0017] 图1是本发明的流程图。如图1所示：
[0018] 窄带语音信号经过曲线拟合模块后经过外推高频包络模块，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，构造自回归模型及滤波模块，将白噪声通过此AR模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与窄带语音信号经过语音合成模块得到宽带语音。
[0019] 曲线拟合模块
[0020] 本模块采用曲线拟合的方法得到窄带语音低频对数频谱包络曲线方程，通过曲线方程外推出高频对数频谱包络。选取低频部分的共振峰值作为曲线拟合的输入。首先输入 8kHz采样的窄带语音，估计基音周期，并将时域信号转换到对数频域中，通过估计的基音周期搜索对数频域峰值点，再经过曲线拟合技术描述共振峰的变化曲线，进而外推出高频对数频谱包络曲线。
【主权项】
1. 一种人工语音带宽扩展的方法，其特征在于：窄带语音信号经过曲线拟合模块后经过外推高频包络模块，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，构造自回归模型及滤波模块，将白噪声通过此自回归模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与窄带语音信号经过语音合成模块得到宽带语音。
2. 根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：曲线拟合模块采用曲线拟合的方法得到窄带语音低频对数频谱包络曲线方程，通过曲线方程外推出高频对数频谱包络，选取低频部分的共振峰值作为线性拟合的输入；首先输入8kHz采样的窄带语音，估计基音周期，并将时域信号转换到对数频域中，通过估计的基音周期搜索对数频域峰值点，再经过曲线拟合技术描述共振峰的变化曲线，进而外推出高频对数频谱包络曲线，对窄带语音分帧处理：帧长为128,帧间重叠64个采样点，采用频域方法即计算信号的相关性来计算本帧语音的基音周期T，输入窄带语音为X (η)，自相关函数R(k)为
其中N为帧长，所述N=128,在相关延迟k=20~143范围内搜索R(k)的最大值的位置 k'，k'即为基音周期的估值T，将窄带语音做傅里叶变换，然后转换到对数频域，搜索出对数频域中第一个共振峰，第一个共振峰设为Ρ〇。由于基因周期的大小与共振峰的间距大致相等，通过已确定的第一个共振峰P tl和基因周期Τ，即可搜索出其他的低频共振峰，搜索其他低频共振峰时，只需要在与前一共振峰距离为T的点附近搜索，即可得到其他共振峰的准确位置，设其幅值为l〇_env (ω)，即低频对数频谱包络，所对应的频率点ω，l〇_env (ω) 和ω作为曲线拟合的输入，将低频对数频谱包络l〇_env(co)与低频频点ω建立映射关系 lo_env (ω) = a · ebw+c · edw，ω = 〇 ~2 π *4000，得到拟合函数中的参数 a，b，c， d，既确定映射公式。
3. 根据权利要求1所述的一种人工语音带宽扩展的装置和方法，其特征在于：外推高频包络模块是通过已确定的映射公式，将高频频率点代入公式，对未知的高频对数频谱包络数据hi_env (ω)进行外推，外推出高频对数频谱包络hi_env (ω) hi_env (ω) = a · ebw+c · edw，ω = 2 π *4000 ~2 π *8000。
4. 根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：特征提取模块是对窄带语音进行线性预测分析，每帧得到一组线性预测系数，构造自回归模型；首先使用窄带语音构造自回归模型，对每一长度为N的语音帧X (η)进行线性预测分析，所述N=128，即计算每一加窗语音帧的自相关函数，并使用Levinson-Durbin算法将其转换成线性预测系数，具体步骤如下：使用1^臟;[1^窗￥；[11(1〇￥(11)=0.5-0.5(3〇8(2 3111/1'0，11=0，1，...，1^-1，1^为正整数，对输入语音信号X (η)进行加窗处理，加窗后语音X'（η)为 χ' (η) = χ (η) · window (η), 计算自相关函数， ΛΓ 1
，k=0, 1，."，N-LN 为正整数，采用Levinson-Durbin算法，通过求解以下方程组可获得L阶自回归模型系数 = 为正整数
5. 根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：构造自回归模型及滤波模块方法如下：由低频语音自回归模型系数&i，i=l，. . .，L，L
为正整数，构造合成滤波器模型，即其中，G为增益，L为自回归模型阶数，所述L为8, 9, 10, ...，20之间某个正整数，L为整数，G为0. 1~1之间某个小数。将白噪声通过此合成滤波器进行处理，产生与低频语音相关的随机序列；白噪声序列的产生方法为 w (n) = [w(n-l) * 31821+13849], 其中，W(O)=O ; 白噪声序列w (η)通过上述合成滤波器后，输出高频噪声序列y (η)，即
其中，％为合成滤波器系数。为了限定高频部分能量，将高频噪声序列y (η)进行归一化处理，即
其中，N为帧长，所述
6. 根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：频谱成型模块是利用上面估计的高频对数频域包络hi_env (ω)对高频噪声序列进行调制，首先，对高频噪声序列y (η)进行傅立叶变换，再将其转换到对数域，得到高频噪声序列的频域对数值Cy (ω )，使用高频对数频谱包络对高频噪声序列频谱对进行调制，得到高频语音的频谱对数值Cwide(O) Cwide(w) = Cy(w) · hi_env(w), 设高频语音的频域值以及高频语音时域值分别用SwitJco)和SwitJn)表示，则有 Swide (ω) = exp (Cwide (ω)), (I) Swide (η) = IFFT(Swide(?)), (2) 其中，exp〇是指数运算，IFFTO为逆傅里叶变换。经过式（1)、式（2)逆变换过程，即可得到高频语音。
7.根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：语音合成模块是将采样频率为SKHz的窄带信号通过插值的方法提高采样率，提升为16KHz，经过复倒谱计算过程得到窄带语音的复倒谱，高频语音同样经过复倒谱计算过程得到高频语音的复倒谱；将窄带语音和高频语音的复倒谱分别转换到频域，窄带语音的频域幅值做如下处理： Cwide(W)= Cnarrow (w)+Chigh(w)? 其中，Cnamw(O)和Chigh(CO)分别为窄带语音和高频语音的复倒谱频域值；C wide(CO)为合成的宽带复倒谱的频域值，再经过逆傅立叶变换得到宽带语音的复倒谱，最后经过复倒谱的逆过程，得到合成后的宽带语音。
【专利摘要】本发明公开了一种人工语音带宽扩展的方法。其工作过程如下：窄带语音信号经过曲线拟合模块后输入到外推高频包络模块处理，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，利用线性预测系数构造自回归模型及滤波模块，将白噪声通过此AR模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与原始窄带语音信号经过语音合成模块得到宽带语音。
【IPC分类】G10L21-038, G10L21-0388
【公开号】CN104658547
【申请号】CN201310590362
【发明人】盖丽
【申请人】大连佑嘉软件科技有限公司
【公开日】2015年5月27日
【申请日】2013年11月20日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：盖丽;
技术所有人：大连佑嘉软件科技有限公司;
我是此专利的发明人

上一篇：用外部声音向车辆驾乘人员警告外部事件并掩蔽车内谈话的制作方法
上一篇：录音处理方法和装置的制造方法