线性预测语音编码方法及语音合成方法

文档序号：2833760阅读：465来源：国知局

专利名称：线性预测语音编码方法及语音合成方法
技术领域：
本发明涉及语音编码技术，特别涉及一种线性预测语音编码方法及一种语音合成方法。
背景技术：
随着信息社会和通信技术的高速发展，频率资源显得愈加宝贵。在数字移动通信和语音存储领域中，为了有效利用通信带宽或存储空间，使用语音编码装置压缩语音信号的传输带宽或降低电话通道的传输码率，提高效率进行编码，一直是人们追求的目标。随着通信网络用户数量的增加、网络业务综合化与多样化，网络带宽与系统容量、服务质量的矛盾日益突出，传统的语音压缩编码技术已不能满足不断变得拥挤的传输信道要求。因此，如何在不牺牲语音通话质量的前提下尽可能降低其传输的比特速率是重要的研究课题。近十年来，中比特率(4. 8kbps 16kbps)语音编码算法研究已取得了长足的进步并有了广泛应用，同时低比特率特别是2. 4kbps以下语音编码算法逐渐成为研究焦点。随着运行编码算法的处理芯片运算速度的迅速提高，基于线性预测混合编码技术的算法渐渐成为了低比特率语首编码算法的主流。线性预测编码(Linear Prediction Coding, LPC)的基础是假设声音信号(池音)是音管末端的蜂鸣器产生的，偶尔伴随有撕撕声与爆破声(齿擦音与爆破音)，声带之间的声门产生不同强度(音量)与频率(音调)的声音，喉晚与嘴组成共鸣声道。撕撕声与爆破声通过舌头、嘴唇以及喉咙的作用产生出来。线性预测编码通过估计共振峰、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号。剔除共振峰的过程称为逆滤波，经过这个过程剩余的信号称为残差信号。描述共振峰、残差信号的参数以及线性预测系数可以保存、发送到接收方。接收方通过逆向的过程合成语音信号，共振峰、残差信号作为激励源产生源信号，使用线性预测系数作为声道的滤波器，源信号经过滤波器的处理就得到语音信号。根据对激励信号描述方式的不同，线性预测语音编码方法主要分为LPC-10、码激励线性预测编码(Code Excited Linear Prediction, CELP)、混合激励(Mixed ExcitedLinear Prediction, MELP)、正弦激励(Sinusoidal Excited Linear Prediction, SELP)和多带激励(Mult1-BandExcitation)等。这些语音编码方式是将语音划分为某个巾贞长(20ms 50ms左右)，对每个帧进行语音的线性预测，用已知码本对线性预测矢量和每帧的通过线性预测所得的预测残差(激励信号)进行编码。图1是现有的基于线性预测的语音编码方法的基本框图，这些方法除了残差参数的提取方法不同外，其它参数的提取都基本相同。在图1中，激励信号用残差参数、原始语音的基音周期、原始语音的增益和原始语音的各子带的清浊音来表示，残差参数用来描述残差中浊音的谐波分量，清音用噪声代替。现有的基于线性预测的声码器语音质量强烈地依赖于原始语音的噪声强度，原始语音信噪比较差时，清浊音判决错误、基音提取错误会导致严重的变调失真，使合成自然度下降。这些技术中产生激励信号的基音周期、增益和子带的清浊音都是从原始语音提取的，接收端还原激励信号时部分参数来源于原始语音，部分参数来源于残差信号，使解码的语音质量受到限制。

发明内容
(一)所要解决的技术问题本发明的目的在于提供一种线性预测语音编码方法及一种语音合成方法，能够减小噪声对解码语音质量的影响，抑制清浊音判决错误时的音质恶化，并改善对清音语音或背景噪声的编码性能。(二)技术方案为了解决上述技术问题，本发明提出了一种线性预测语音编码方法，所述语音编码方法包括以下步骤S101、对语音进行预处理以去除直流成分和工频干扰；S102、对预处理后的语音进行二阶反线性预测，得到残差信号；S103、对所述残差信号进行小波分解压缩，得到小波系数，并对所述小波系数进行
矢量量化，计算所述残差信号的基音周期，并对所述基音周期进行标量量化，计算所述残差信号的增益参数，并对所述增益参数进行标量量化，将所述残差信号划分为若干个子带，对各子带进行清浊音判决，得到各子带的清浊音特性并进行标量量化。可选的，步骤S102进一步包括对所述预处理后的语音进行线性预测分析，得到线性预测系数，然后将所述线性预测系数转换为线谱频率对，并对所述线谱频率对进行矢量量化。可选的，步骤S102中，所述线性预测分析具体包括对所述预处理后的语音采用汉明窗进行加窗处理，并将加窗后的语音信号进行自相关计算，利用Levinson-Durbin算法计算出10阶线性预测系数,然后将所述10阶线性预测系数乘以O. 994i+1 (i = 1，2，…，10)以获得带宽扩展的线性预测系数。可选的，步骤S103中，所述小波分解压缩具体包括选取所述残差信号的样点进行一阶小波分解，采用dB10小波基，得到小波系数，并将前100个小波系数进行压缩分析。可选的，步骤S103中，对所述小波系数进行矢量量化具体包括先将所述小波系数转换为小波激励幅度谱，然后将所述小波激励幅度谱进行矢量量化，量化时码本搜索采用全搜索算法，失真度量采用加权欧式距离。可选的，步骤S103中，计算所述残差信号的基音周期具体包括对所述残差信号采用傅里叶变换进行频谱分析，并对频谱幅值进行反傅里叶变换，将得到的残差信号的自相关峰值作为整数基音；在所述整数基音± I的范围内进行搜索，通过对所述残差信号进行插值及局部相关，得到基首周期。可选的，步骤S103中，计算所述残差信号的基音周期进一步包括
利用所述基音周期对所述残差信号进行基音峰值及其谐振峰值搜索，并将各峰值的差的平均值作为最终的基音周期。可选的，步骤S103中，对各子带进行清浊音判决具体包括计算各子带信号在所述基音周期附近的最大归一化自相关值；计算各子带包络信号在所述基音周期附近的最大归一化自相关值；采用阈值比较法，根据所述各子带信号在所述基音周期附近的最大归一化自相关值，以及所述各子带包络信号在所述基音周期附近的最大归一化自相关值，对各子带进行清浊音判决。本发明同时提出了一种基于所述语音编码方法的语音合成方法，所述语音合成方法包括以下步骤S201、对量化的线谱频率对、小波系数、基音周期、增益参数及各子带的清浊音特性进行解码，得到线谱频率对、小波激励幅度谱、基音周期、增益参数及各子带的清浊音特性；S202、利用所述小波激励幅度谱、所述基音周期及所述各子带的清浊音特性，合成小波激励信号；S203、利用所述线谱频率对，对所述小波激励信号进行反线性预测，得到合成语
曰；S204、对所述合成语音进行谱增强和相位调整。可选的，步骤S202具体包括根据所述各子带的清浊音特性，对各子带的清音成分和浊音成分进行滤波混合，得到小波频谱；对所述小波频谱进行反傅里叶变换，得到小波系数，并利用dB10小波基复合得到所述小波激励信号。(三)有益效果本发明所述技术方案具有如下优点1、利用小波压缩去除了语音信号的背景噪声，同时去除了冗余信息，采用小波系数谱作为激励源能更好地描述原始语音信号。由于采用小波分解压缩方法来产生激励信号，在同样的量化比特数下，能够比现有技术更准确地描述残差信号，从而能够提高解码后的语音质量。2、提取整数基音时对残差信号采用傅里叶变换进行频谱分析，对频谱幅值进行反FFT变换，得到残差信号的自相关峰值位置作为整数基音，相对于背景技术中提取的整数基音更加准确，从而能够显著提高合成后的语音质量。3、产生小波激励信号的基音周期、增益参数和各子带的清浊音特性均从残差信号提取，提高了解码的语音质量。

图1是现有的基于线性预测的语音编码方法的基本框图。图2是本发明所述线性预测语音编码方法的基本框图。图3是本发明所述语音合成方法的基本框图。
具体实施例方式下面结合附图和实施例，对本发明的具体实施方式
作进一步详细描述。本发明提供了一种线性预测语音编码方法，如图2所示，所述语音编码方法包括以下步骤S101、对语音进行预处理以去除直流成分和工频干扰；S102、对预处理后的语音进行线性预测分析，得到线性预测系数，然后将所述线性预测系数转换为线谱频率对，并对所述线谱频率对进行矢量量化，对所述预处理后的语音进行二阶反线性预测，得到残差信号；S103、对所述残差信号进行小波分解压缩，得到小波系数，并对所述小波系数进行
矢量量化，计算所述残差信号的基音周期，并对所述基音周期进行标量量化，计算所述残差信号的增益参数，并对所述增益参数进行标量量化，将所述残差信号划分为若干个子带，对各子带进行清浊音判决，得到各子带的清浊音特性并进行标量量化。优选的，步骤S102中，所述线性预测分析具体包括对所述预处理后的语音采用汉明窗进行加窗处理，并将加窗后的语音信号进行自相关计算，利用Levinson-Durbin算法计算出10阶线性预测系数,然后将所述10阶线性预测系数乘以O. 994i+1 (i = 1，2，…，10)以获得带宽扩展的线性预测系数。优选的，步骤S102中对所述线谱频率对进行矢量量化时，采用3级码本，码本搜索采用加权欧式距离准则。优选的，步骤S103中，所述小波分解压缩具体包括选取所述残差信号的样点进行一阶小波分解，采用dB10小波基，得到小波系数，并将前100个小波系数进行压缩分析。优选的，步骤S103中，对所述小波系数进行矢量量化具体包括先将所述小波系数转换为小波激励幅度谱，然后将所述小波激励幅度谱进行矢量量化，量化时码本搜索采用全搜索算法，失真度量采用加权欧式距离。优选的，步骤S103中，计算所述残差信号的基音周期具体包括对所述残差信号采用傅里叶变换进行频谱分析，并对频谱幅值进行反傅里叶变换，将得到的残差信号的自相关峰值作为整数基音；在所述整数基音± I的范围内进行搜索，通过对所述残差信号进行插值及局部相关，得到基首周期。优选的，步骤S103中，计算所述残差信号的基音周期进一步包括利用所述基音周期对所述残差信号进行基音峰值及其谐振峰值搜索，并将各峰值的差的平均值作为最终的基音周期。优选的，步骤S103中，对各子带进行清浊音判决具体包括计算各子带信号在所述基音周期附近的最大归一化自相关值；计算各子带包络信号在所述基音周期附近的最大归一化自相关值；采用阈值比较法，根据所述各子带信号在所述基音周期附近的最大归一化自相关值，以及所述各子带包络信号在所述基音周期附近的最大归一化自相关值，对各子带进行清浊音判决。本发明提出的技术方案可由一种小波激励线性预测(WaveletExcited LinearPrediction，WELP)语音编码/解码装置，简称WELP声码器，来加以实现。WELP声码器需要提取的参数主要包括线谱频率(Line Spectrum Frequency,LSF)、残差小波激励系数(即小波系数)、小波系数周期(即基音周期)、小波增益(即增益参数)以及小波系数周期性标志(即各子带的清浊音特性)。下面结合WELP声码器，分别对各步骤的具体实现方法进行详细的举例说明。在步骤SlOl中，WELP声码器将输入语音经过高通滤波器以去掉工频干扰，预处理由一个截止频率为60Hz的高通滤波器完成，用以去除直流成分和50Hz的工频干扰并进行闻频提升，闻通滤波器的频率响应函数如公式(I)所不
权利要求
1.一种线性预测语音编码方法，其特征在于，所述语音编码方法包括以下步骤 5101、对语音进行预处理以去除直流成分和エ频干扰； 5102、对预处理后的语音进行ニ阶反线性预测，得到残差信号； 5103、对所述残差信号进行小波分解压缩，得到小波系数，并对所述小波系数进行矢量量化，计算所述残差信号的基音周期，并对所述基音周期进行标量量化，计算所述残差信号的增益參数，并对所述增益參数进行标量量化，将所述残差信号划分为若干个子带，对各子带进行清浊音判决，得到各子带的清浊音特性并进行标量量化。
2.根据权利要求1所述的语音编码方法，其特征在于，步骤S102进ー步包括对所述预处理后的语音进行线性预测分析，得到线性预测系数，然后将所述线性预测系数转换为线谱频率对，并对所述线谱频率对进行矢量量化。
3.根据权利要求2所述的语音编码方法，其特征在干，步骤S102中，所述线性预测分析具体包括对所述预处理后的语音采用汉明窗进行加窗处理，并将加窗后的语音信号进行自相关计算，利用Levinson-Durbin算法计算出10阶线性预测系数，然后将所述10阶线性预测系数乘以0. 994i+1 (i = 1，2，-,10)以获得带宽扩展的线性预测系数。
4.根据权利要求1所述的语音编码方法，其特征在干，步骤S103中，所述小波分解压缩具体包括选取所述残差信号的样点进行ー阶小波分解，采用dB10小波基，得到小波系数，并将前100个小波系数进行压缩分析。
5.根据权利要求1或4所述的语音编码方法，其特征在干，步骤S103中，对所述小波系数进行矢量量化具体包括先将所述小波系数转换为小波激励幅度谱，然后将所述小波激励幅度谱进行矢量量化，量化时码本搜索采用全捜索算法，失真度量采用加权欧式距离。
6.根据权利要求1所述的语音编码方法，其特征在干，步骤S103中，计算所述残差信号的基音周期具体包括对所述残差信号采用傅里叶变换进行频谱分析，并对频谱幅值进行反傅里叶变换，将得到的残差信号的自相关峰值作为整数基音；在所述整数基音±1的范围内进行搜索，通过对所述残差信号进行插值及局部相关，得到基音周期。
7.根据权利要求6所述的语音编码方法，其特征在于，步骤S103中，计算所述残差信号的基音周期进ー步包括利用所述基音周期对所述残差信号进行基音峰值及其谐振峰值搜索，并将各峰值的差的平均值作为最終的基音周期。
8.根据权利要求1所述的语音编码方法，其特征在干，步骤S103中，对各子带进行清浊音判决具体包括计算各子带信号在所述基音周期附近的最大归ー化自相关值；计算各子带包络信号在所述基音周期附近的最大归ー化自相关值；采用阈值比较法，根据所述各子带信号在所述基音周期附近的最大归ー化自相关值，以及所述各子带包络信号在所述基音周期附近的最大归ー化自相关值，对各子带进行清浊音判決。
9.ー种基于权利要求2或3所述的线性预测语音编码方法的语音合成方法，其特征在于，所述语音合成方法包括以下步骤 5201、对量化的线谱频率对、小波系数、基音周期、增益參数及各子带的清浊音特性进行解码，得到线谱频率对、小波激励幅度谱、基音周期、增益參数及各子带的清浊音特性； 5202、利用所述小波激励幅度谱、所述基音周期及所述各子带的清浊音特性，合成小波激励信号； 5203、利用所述线谱频率对，对所述小波激励信号进行反线性预测，得到合成语音； 5204、对所述合成语音进行谱增强和相位调整。
10.根据权利要求9所述的语音合成方法，其特征在于，步骤S202具体包括根据所述各子带的清浊音特性，对各子带的清音成分和浊音成分进行滤波混合，得到小波频谱；对所述小波频谱进行反傅里叶变换，得到小波系数，并利用dB10小波基复合得到所述小波激励信号。
全文摘要
本发明公开了一种线性预测语音编码方法及一种语音合成方法。所述语音编码方法包括对语音进行预处理；对预处理后的语音进行二阶反线性预测，得到残差信号；对残差信号进行小波分解压缩，得到小波系数，并对小波系数进行矢量量化，同时，计算残差信号的基音周期、增益参数及各子带的清浊音特性并分别进行标量量化。所述语音合成方法基于所述语音编码方法。采用本发明的技术方案，能够减小噪声对解码语音质量的影响，抑制清浊音判决错误时的音质恶化，并改善对清音语音或背景噪声的编码性能。
文档编号G10L19/04GK103050121SQ201210592909
公开日2013年4月17日申请日期2012年12月31日优先权日2012年12月31日
发明者洪小斌申请人:北京迅光达通信技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：洪小斌
技术所有人：北京迅光达通信技术有限公司
我是此专利的发明人

上一篇：辅助启动装置、语音操控系统及其方法
上一篇：语音交互系统、移动终端装置及语音通信的方法