一种基于混合激励线性预测的600bps甚低速率语音编解码方法

文档序号:10727066阅读:387来源:国知局
一种基于混合激励线性预测的600bps甚低速率语音编解码方法
【专利摘要】本发明请求保护一种基于混合激励线性预测的600bps甚低速率语音编解码方法,包括:编码端对输入的语音信号进行加窗截断,得到一个子帧,提取子帧的语音特征参数,包括:线谱对频率、基音周期、增益和带通清/浊音强度;以相邻五个子帧组成一个超帧,判断出超帧的类型;对语音特征参数进行多帧联合量化编码;利用多帧联合量化编码后的剩余比特对重要的语音特征参数进行差错控制;最后组成二进制比特流进行传送。解码端解析出超帧类型和语音特征参数后,进行语音特征参数完整性重构,生成激励信号,再经过自适应谱增强、合成滤波器、增益控制和脉冲散布滤波后得到合成语音信号。本发明能有效地降低语音编码速率,接收端合成的语音具有较高的清晰度和可懂度,且算法复杂度较低。
【专利说明】
一种基于混合激励线性预测的600bps甚低速率语音编解码 方法
技术领域
[0001] 本发明属于语音通信领域,特别是涉及到一种基于混合激励线性预测的甚低速率 语音编解码器,可应用在保密通信、卫星移动通信以及深海通信中。
【背景技术】
[0002] 语音是人类相互传递信息的主要载体,是现代通信中最直接、最方便、最有效的交 流方式,也是未来人机交互的主要手段。随着通信技术的发展,图像、数据等非语音信息在 信息传递中所占比重越来越大,但有效的语音信息传递仍然是众多通信系统必备的功能之 〇
[0003] 虽然光纤传输技术的引入为通信网络提供了巨大的传输容量,信道带宽问题似乎 得到解决。但人们对频带资源有限的陆地蜂窝移动通信和卫星通信的需求也在不断增加。 语音信号经过模/数转换后,数据量大增,数字语音信号在通信网中进行传输时需要更大的 带宽,这对频带资源有限的无线通信系统来说,传输成本增大,因此,必须对数字化后的语 音信号进行压缩编码。一般将速率低于1.2kbp S的语音编码称为甚低速率语音编码,甚低速 率语音编码技术在现代通信系统中有着特殊的应用。(1)保密通信。由于数字加密技术可增 加通信的安全性,语音信号通过甚低速率编码器编码后,对编码的语音数据进行加密处理, 然后在窄带信道上进行传输。(2)增大系统容量。卫星移动通信系统主要用于解决线路铺设 艰难的边远山区、浩瀚的沙漠和广阔海洋区域的通信,通过降低语音的编码速率,在有限的 频带的信道上提供更多的话音通道,提高通信效率。(3)通信条件恶劣的军事通信和水下通 信中也是甚低速率语音编码技术的应用领域。可以说甚低速率语音通信的这些特殊应用, 促进了甚低速率语音编码技术的发展。
[0004]经过几十年的研究和发展,高质量语音编码技术已大规模地走向实用化,产生了 许多语音编码国际标准。国际标准化组织ITU-T相继制定了 16kb/s的G. 728(LD-CELP)、8kb/ s的G.729(CS-ACELP)、5.3/6.3kb/s的G. 723.1 (ACELP)等国际语音编码标准;国际海事卫星 组织(I匪ARSAT)于1990年制定的语音压缩编码标准采用了 4.15kb/s改进型多带激励 (MBE)算法;美国Qualcom公司为CDMA移动通信系统采用了 4kb/s~8kb/s的变速率语音压 缩编码的标准QCELP,并纳入了IS-95标准中。二十世纪九十年代,McCree博士和Barnwell教 授提出了混合激励线性预测(MELP)编码算法,采用MELP算法可产生具有较高合成质量的 1.2~2.4kbps声码器。通过分析1.2~2.4kbps低速率声码器算法原理,提出一种600bps甚 低速率声码器的实现方法,可扩大MELP算法在低码率语音编码领域的应用范围。

【发明内容】

[0005] 针对现有技术的不足,提出了一种算法复杂度较低,所需存储空间较小,合成语音 清晰度较高的600bps甚低速率语音编解码方法。本发明的技术方案如下:
[0006] 一种基于混合激励线性预测的600bps甚低速率语音编解码方法,其包括以下步 骤:
[0007] 101、在编码端,对输入的语音信号进行分段,以N毫秒(N取值为20)为一个子帧,相 邻五个子帧组成一个超帧,将超帧的语音数据存储在数据缓存器结构中。
[0008] 102、提取每一子帧的语音特征参数,包括:线谱对频率、基音周期、增益和带通清/ 浊音强度;
[0009] 103、根据每子帧的清/浊音状态判断出超帧的类型,对五个子帧的语音特征参数 进行多帧联合量化编码;
[0010] 104、利用多帧联合量化编码后的剩余比特对重要的语音特征参数进行差错控制, 最后组成二进制比特流传送给解码端;
[0011] 105、在解码端,从接收到的比特流中解析出超帧类型和语音特征参数,然后进行 语音特征参数完整性重构,利用重构的语音特征参数生成激励信号,再经过自适应谱增强、 合成滤波器、增益控制和脉冲散布滤波后得到合成语音信号。
[0012] 进一步的,所述步骤101对输入的语音信号进行分段前还包括滤除工频干扰在内 的预处理步骤,及对语音信号加窗截断的步骤。
[0013] 进一步的,所述步骤101数据缓存器结构:1到350是前一超帧后350个语音样点的 存储区域,351到1150是当前超帧的五个子帧共800个语音样点的存储区域。
[0014] 进一步的,所述步骤102中提取带通清/浊音强度。每个子帧的语音信号通过滤波 器组分解为5个子频带,计算出每个子频带的清/浊音强度值,当判断出某子频带为清音状 态,用"0"表示,如果为浊音状态,则用"Γ表示。其中第一子频带的清/浊音状态决定该子帧 的清/浊音状态。
[0015] 进一步的,所述步骤103中超帧类型有16种。判断出超帧的连续五个子帧的清/浊 音状态后,五个子帧的清/浊音状态值视为一种超帧结构;统计出每种超帧结构出现的概 率;取概率最大的16种结构做为超帧类型,剩余16种超帧结构归类到与之相近的超帧类型 中。
[0016] 进一步的,所述步骤103对五个子帧的语音特征参数进行多帧联合量化包括;将传 输的参数按其在帧结构中分配的比特数进行标量量化或矢量量化,具体参数的量化包括: [00? 7] A1、超帧类型的量化:对超帧类型进行4b it标量量化;
[0018] A2、基音周期的量化:对于没有浊音子帧的超帧,不传输基音周期参数;对只有一 个池音子帧的超帧,只对池音子帧的基音周期进行对数化,再进行7b i t标量量化;对有两个 浊音子帧的超帧,将5个子帧的基音周期进行对数化后,再组成一个矢量,进行9bit的矢量 量化;对于有两个以上浊音子帧的超帧,将5个子帧的基音周期进行对数化后,再组成一个 矢量,进行libit矢量量化;
[0019] A3、带通清/浊音强度的量化:除了最低子频带外,将五个子帧的其余4个子频带的 清/浊音状态值组成一个20维矢量。如果超帧没有浊音子帧,不传输带通清/浊音强度值;如 果超帧只有一个池音子帧,对超帧的20维清/池音状态矢量进行4bit的矢量量化;对于有两 个或两个以上浊音子帧的超帧,对超帧的20维清/浊音状态进行5bit矢量量化;
[0020] A4、增益的量化:每子帧提取2个增益值,五个子帧的增益组成一个10维矢量,进行 8b it矢量量化;
[0021] A5、线谱对频率的量化:只对超帧中的2或3个子帧的LSF参数进行量化。若子帧为 清音帧,进行9bit的矢量量化;若子帧为浊音帧,进行16bit的矢量量化。
[0022]进一步的,所述步骤104对重要的语音特征参数进行差错控制,具体包括:
[0023] A1、如果超帧是UUUUU模式
[0024] 步骤一:将增益值(Gain)量化后的8bit平均分成两个部分,每部分进行汉明(8,4) 编码保护;
[0025]步骤二:对超帧类型值(Type)进行汉明(8,4)编码保护;
[0026]步骤三:对多级矢量量化后的线谱对频率(LSF)进行保护。对第一子帧的第一级 5bit的高4位进行汉明(7,4)编码保护,对剩余的lbit联合第二级的高3bit进行汉明(7,4) 编码保护,对第一子帧第二级剩余的lbit联合第三子帧第一级的高3bit进行汉明(7,4)编 码保护;
[0027] A2、如果超帧是VUUUU模式
[0028]对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护;
[0029] A3、如果超帧是UUUUV模式
[0030] 对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护。
[0031] 进一步的,所述步骤105利用重构的语音特征参数生成激励信号,包括步骤:将残 差谐波幅度和抖动值设置为默认值;
[0032] 根据步骤105解析出的超帧类型,判断出每个子帧的清/浊状态。若为浊音子帧,利 用残差谐波幅度和带通清/浊音强度生成周期性脉冲激励信号;若为清音子帧,激励为白噪 声信号。激励信号经合成滤波器后,得到重构的语音信号。
[0033] 进一步的,步骤105中的合成滤波器的系统函数为 '其中,<^是 通过解码重构出的线谱对频率经转换后得到的线性预测系数值。
[0034] 所述N取值为20。
[0035]本发明的优点及有益效果如下:
[0036] 本发明能实现一种基于混合激励线性预测的600bps声码器。通过采取多子帧的语 音特征参数联合量化的方式,为各种语音特征参数分配合理的量化比特数,采取标量量化 和矢量量化的方式,既降低了编码器的输出比特率,又保证合成语音具有较高清晰度和可 懂度,且编解码算法复杂度相对较小,实现成本较低。采用本发明实现的甚低码率声码器可 应用在军事保密和卫星移动通信等频带资源有限的无线通信系统中。因此本发明具有良好 的应用前景和实用价值。
【附图说明】
[0037]图1本发明提供的实施例语音编解码流程图 [0038]图2本发明编码端语音信号处理流程图
[0039] 图3本发明解码端语音特征参数恢复及语音信号合成流程图
[0040] 图4编码数据缓存结构示意图
【具体实施方式】
[0041] 以下结合附图,对本发明作进一步说明:
[0042] 在编码端,对输入的语音信号进行去噪等预处理后,加窗截断形成20ms的子帧,五 个子帧组成一个超帧;对五个子帧的语音特征参数进行联合量化,并利用帧结构中的剩余 比特对一些重要的语音特征参数进行差错控制编码,最后组成二进制比特流进行传送。在 解码端,从接收到的比特流中解析出各语音特征参数,利用解析出的语音特征参数生成激 励信号,经过合成滤波器后得到重构的语音。再经过增益调整和脉冲整形滤波,得到最终的 合成语音。
[0043] 提取子帧的语音参数有:线谱对频率(LSF)、基音周期(Pitch)、带通清/浊音强度 (BPVC)和增益(Gain)。
[0044] (1)编码端的基本步骤
[0045]步骤一:将输入的语音信号经过一个截止频率为100Hz的高通滤波器,滤除50Hz的 工频干扰;
[0046]步骤二:把五个连续的20ms子帧组成一个超帧,按编码数据缓存器结构进行存储; [0047]步骤三:分别提取五个子帧的语音特征参数;
[0048] 步骤四:根据五个子帧的清/浊音状态值通过查表确定超帧类型;
[0049] 步骤五:根据超帧类型,确定各语音特征参数量化所用的比特数;
[0050] 步骤六:对超帧类型进行量化,对子帧的语音特征参数进行联合量化;
[0051] 步骤七:利用编码后超帧结构中的剩余比特对步骤六所得的重要参数进行差错控 制编码;
[0052] 步骤八:对联合量化后的参数和差错控制编码参数一起组成二进制比特流,传送 给解码端;
[0053]其中,编码端步骤二中的"编码数据缓存器结构"如图4所示,1到350是前一超帧后 350个样点的存储区域,351到1150是当前超帧五个子帧共800个样点的存储区域。
[0054]其中,编码端步骤六中"对超帧类型进行量化,对子帧的语音特征参数进行联合量 化",超帧类型和子帧的语音特征参数比特分配和量化方式如下:
[0055] 步骤一:超帧类型(Type)进行4b it标量量化;
[0056]步骤二:基音周期(Pitch)的量化。对于没有浊音子帧的超帧,不传输基音周期参 数;对于只有一个池音子帧的超帧,先对池音子帧的基音周期进行对数化,再进行7bit标量 量化;对于有两个浊音子帧的超帧,将5个子帧的基音周期进行对数化后组成一个矢量,再 进行9bit的矢量量化;对于有两个以上浊音子帧的超帧,将5个子帧的基音周期进行对数化 后组成一个矢量,再进行1 lbit矢量量化;
[0057]步骤三:带通清/浊音强度(BPVC)的量化。除了最低子频带外,将五个子帧的其余4 个子频带的清/浊音状态值组成一个20维矢量。如果超帧没有浊音子帧,不传输带通清/浊 音强度值;如果超帧只有一个浊音子帧,对超帧的20维清/浊音状态矢量进行4bit的矢量量 化;对于有两个或两个以上浊音子帧的超帧,对超帧的20维清/浊音状态进行5bit矢量量 化;
[0058]步骤四:增益的量化。每子帧提取2个增益值,五个子帧的增益组成一个10维矢量, 进行8b it矢量量化;
[0059]步骤五:线谱对频率的量化。只对超帧中的2或3个子帧的LSF参数进行量化。若子 帧为清音帧,进行9bit的矢量量化;若子帧为浊音帧,进行16bit的矢量量化。
[0060]其中,编码端步骤七中"差错控制编码",差错控制编码方式如下:
[0061 ] A1、如果超帧是UUUUU模式
[0062] 步骤一:将增益值(Gain)量化后的8bit平均分成两个部分,每部分进行汉明(8,4) 编码保护;
[0063]步骤二:对超帧类型(Type)进行汉明(8,4)编码保护;
[0064]步骤三:对多级矢量量化后的线谱对频率(LSF)进行保护。对第一子帧的第一级 5bit的高4位进行汉明(7,4)编码保护,对剩余的lbit联合第二级的高3bit进行汉明(7,4) 编码保护,对第一子帧第二级剩余的lbit联合第三子帧第一级的高3bit进行汉明(7,4)编 码保护;
[0065] A2、如果超帧是VUUUU模式
[0066]对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护;
[0067] A2、如果超帧是UUUUV模式
[0068]对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护。
[0069]本发明设计的600bps声码器,超帧类型和超帧结构如表1所示,LSF参数量化方案 如表2所示,编码端帧结构比特分配方案如表3所示。
[0070]表 1


[0077] (2)解码端的基本步骤
[0078] 图3给出的是解码端语音特征参数的解码和语音信号的合成过程。
[0079] 步骤一:解码端从接收到的比特流中解析出超帧类型(Type)和语音特征参数的量 化索引值,通过量化索引得到语音特征参数的初值后,进行语音特征参数完整性重构。残差 谐波幅度(Fsmag)设置为默认值1.0,抖动(Jitter)设置为默认值0.25;
[0080] 步骤二:采用上述语音特征参数生成的激励信号经过合成滤波器后得到重构的语 音信号;
[0081] 步骤三:对重构的语音信号进行增益调整和脉冲整形滤波,得到最终合成的语音 信号;
[0082] 其中,解码端步骤二中"采用上述语音特征参数生成的激励信号"。根据步骤一解 析出的超帧类型,可判断出五个子帧的清/浊状态。若为浊音子帧,利用残差谐波幅度 (Fsmag)和带通清/浊音强度(BPVC)生成周期性脉冲激励信号;若为清音子帧,激励信号为 白噪声信号;
[0083]其中,解码端步骤二中"经过合成滤波器后得到重构的语音信号",合成滤波器的 系数CU是解析重构后的线谱对频率LSF经转换后得到的。合成滤波器的系统函数
[0084]以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在 阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变 化和修饰同样落入本发明权利要求所限定的范围。
【主权项】
1. 一种基于混合激励线性预测的600bps甚低速率语音编解码方法,其特征在于,包括 W下步骤: 101、 在编码端,对输入的语音信号进行分段,WN毫秒为一个子帖,相邻五个子帖组成 一个超帖,将超帖的语音数据存储在数据缓存器结构中。 102、 提取每一子帖的语音特征参数,包括:线谱对频率、基音周期、增益和带通清/浊音 强度; 103、 根据每子帖的清/浊音状态判断出超帖的类型,对五个子帖的语音特征参数进行 多帖联合量化编码; 104、 利用多帖联合量化编码后的剩余比特对重要的语音特征参数进行差错控制,最后 组成二进制比特流传送给解码端; 105、 在解码端,从接收到的比特流中解析出超帖类型和语音特征参数,然后进行语音 特征参数完整性重构,利用重构的语音特征参数生成激励信号,再经过自适应谱增强、合成 滤波器、增益控制和脉冲散布滤波后得到合成语音信号。2. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,所述步骤101对输入的语音信号进行分段前还包括滤除工频干扰在内的预处 理步骤,及对语音信号加窗截断的步骤。3. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,所述步骤101数据缓存器结构:1到350是前一超帖后350个语音样点的存储区 域,351到1150是当前超帖的五个子帖共800个语音样点的存储区域。4. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,所述步骤102中提取带通清/浊音强度。每个子帖的语音信号通过滤波器组分 解为5个子频带,计算出每个子频带的清/浊音强度值,当判断出某子频带为清音状态,用 "0"表示,如果为浊音状态,则用"Γ表示,其中第一子频带的清/浊音状态决定该子帖的清/ 浊音状态。5. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,所述步骤103中超帖类型有16种。判断出超帖的连续五个子帖的清/浊音状态 后,五个子帖的清/浊音状态值视为一种超帖结构;统计出每种超帖结构出现的概率;取概 率最大的16种结构做为超帖类型,剩余16种超帖结构归类到与之相近的超帖类型中。6. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,所述步骤103对五个子帖的语音特征参数进行多帖联合量化包括;将传输的参 数按其在帖结构中分配的比特数进行标量量化或矢量量化,具体参数的量化包括: A1、超帖类型的量化:对超帖类型进行4bit标量量化; A2、基音周期的量化:对于没有浊音子帖的超帖,不传输基音周期参数;对只有一个浊 音子帖的超帖,只对浊音子帖的基音周期进行对数化,再进行7bit标量量化;对有两个浊音 子帖的超帖,将5个子帖的基音周期进行对数化后,再组成一个矢量,进行9bit的矢量量化; 对于有两个W上浊音子帖的超帖,将5个子帖的基音周期进行对数化后,再组成一个矢量, 进行libit矢量量化; A3、带通清/浊音强度的量化:除了最低子频带外,将五个子帖的其余4个子频带的清/ 浊音状态值组成一个20维矢量。如果超帖没有浊音子帖,不传输带通清/浊音强度值;如果 超帖只有一个浊音子帖,对超帖的20维清/浊音状态矢量进行4bit的矢量量化;对于有两个 或两个W上浊音子帖的超帖,对超帖的20维清/浊音状态进行化it矢量量化; A4、增益的量化:每子帖提取2个增益值,五个子帖的增益组成一个10维矢量,进行8bit 矢量量化; A5、线谱对频率的量化:只对超帖中的2或3个子帖的LSF参数进行量化。若子帖为清音 帖,进行9bit的矢量量化;若子帖为浊音帖,进行16bit的矢量量化。7. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,所述步骤104对重要的语音特征参数进行差错控制,具体包括: A1、如果超帖是UUUUU模式 步骤一:将增益值Gain量化后的8bit平均分成两个部分,每部分进行汉明(8,4)编码保 护; 步骤二:对超帖类型值Type进行汉明(8,4)编码保护; 步骤Ξ:对多级矢量量化后的线谱对频率LSF进行保护。对第一子帖的第一级化it的高 4位进行汉明(7,4)编码保护,对剩余的Ibit联合第二级的高3bit进行汉明(7,4)编码保护, 对第一子帖第二级剩余的化it联合第Ξ子帖第一级的高3bit进行汉明(7,4)编码保护; A2、如果超帖是VUUUU模式 对量化后增益值Gain的高4位进行汉明(7,4)编码保护; A3、如果超帖是UUUUV模式 对量化后增益值Gain的高4位进行汉明(7,4)编码保护。8. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,所述步骤105利用重构的语音特征参数生成激励信号,包括步骤:将残差谐波 幅度和抖动值设置为默认值; 根据步骤105解析出的超帖类型,判断出每个子帖的清/浊状态。若为浊音子帖,利用残 差谐波幅度和带通清/浊音强度生成周期性脉冲激励信号;若为清音子帖,激励为白噪声信 号,激励信号经合成滤波器后,得到重构的语音信号。9. 根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法, 其特征在于,步骤105中的合成滤波器的系统函数式廷中,曰1是通过解 码重构出的线谱对频率经转换后得到的线性预测系数值。10. 根据权利要求1所述的基于混合激励线性预测的60化PS甚低速率语音编解码方法, 其特征在于,所述N取值为20。
【文档编号】G10L19/087GK106098072SQ201610395422
【公开日】2016年11月9日
【申请日】2016年6月2日 公开号201610395422.2, CN 106098072 A, CN 106098072A, CN 201610395422, CN-A-106098072, CN106098072 A, CN106098072A, CN201610395422, CN201610395422.2
【发明人】李强, 朱兰, 陈浩, 张玲, 明艳
【申请人】重庆邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1