一种基于多描述格型矢量量化技术的语音编码方法

文档序号：2837304阅读：209来源：国知局

专利名称：一种基于多描述格型矢量量化技术的语音编码方法
技术领域：
本发明涉及通信领域，特别涉及多描述格型矢量量化技术的语音编码方法，属于网络通信领域。
背景技术：
多描述编码是1979年的香农信息论会议上由Gersho、 0zarow等人提出。它将单个信号编码成两个(或两个以上)独立的比特流，这些独立的比特流称为描述。每个描述都可以单独解码，并得到质量上可接受的原始信号；而且多个描述之间存在互补的信息，随着正确接收到的描述的数量的增加，解码出的信号质量也在逐步提高。值得注意的是，多描述编码不同于常规的可分级编码，常规的方法编码出的基本层是至关重要的，如果失去基本层，剩下的其他比特流将毫无用处。而多描述编码技术可以利用正确接收到的任何一个描述符重构出有用的原始信号，随着接收到描述符数量的增加，编码出来的语音质量也逐步提高。相比较分层编码更适合存在分组丢失的网络上提高系统的性能。
Jayant最早在他的论文"分组丢失对波形编码的影响以及通过奇偶样点内插来提升质量"("Effects of packet losses in waveform coded speech and improvements due to an odd-even sample-interpolation procedure" IEEE Trans. Co咖un. ， vol. 29， pp. 101-109， Feb. 1981.)设计出一个简单有效的多描述波形编码系统。该编码系统将奇数样点和偶数样点分别放入两个描述中，用 DPCM进行编码，并在两条信道中传输。当两个描述同时收到时，它就是一个普通的DPCM解码器。而当只收到一个描述时，采用自适应内插法进行恢复，得到带有频谱混叠的信号。为了降低混叠的影响，这类编码器需要提高采样率，从而使编码速率比较高，而且当有描述
丢失时，信号的混叠也会严重的影响恢复质量。
Dong Lin在她的论文"基于LSP适用于实时低速率IP语音的多描述编码算法，，("LSP-based multiple-description coding for real-time low bit-rate voice over IP " Multimedia, IEEE Transactions on ， vol. 7， no. 1pp. 167_ 178, Feb. 2005)中设计出一个基于CELP结构的多描述参数语音编码系统。这类多描述参数语音编码算法相对于波形多描述编码算法而言，具有较高的压縮效率。它根据参数的统计特性将参数分配到两个描述中。因为参数之间的依赖性，以及对误差的敏感性,使得两个描述中有大量重复的参数才可以单独解码，降低了系统的压縮率。而且参数在分解的过程中，也不灵活，有诸多限制。
本发明就是为了解决上述这些不足，相对于波形多描述编码方法，本发明因采用格型矢量量化技术，所以在保持较低的延时和算法复杂度的情况下，还能保证足够的压缩率；相对于参数多描述编码方法，本发明直接对加权语音的频谱进行量化，不需要提取基音周期等参数，即使在噪声环境下也不会发生误判，抵抗噪声的能力更强。

发明内容
本发明要解决分组语音传输过程中，分组丢失影响系统性能的问题，提供了一种基于多描述格型矢量量化的多描述语音编码方法，涉及到对加权语音信号进行格型矢量量化，并对量化后的索引进行多描述标注。
本发明的技术方案
首先对语音信号进行LPC分析，并进行感知加权，再通过时频变换将加权语音信号变换到频域；在频域，经过幅度调整之后的信号被分解成矢量，用格型矢量量化法进行量化，量化后的格点按照多描述格型矢量量化的方法分解成两个描述(相应子格点的索引)；两个描述分别在信道中传输；在接收端根据信道的传输状态对参数进行解析，根据解析的结果重建矢量，从而重建感知加权语音信号的频谱，再通过时频反变换变化到时域。最后通过感知去加权滤波器得到最终的重建语音信号。
本发明用到的技术方案中涉及到对输入信号进行LPC分析。为提
5
高LPC分析的精度，若输入信号为宽带语音信号需进行预加重处理，若输入信号为窄带语音则直接进行LPC分析；LPC分析的窗长大于实际处理的语音信号的窗长；利用LPC分析之后的参数对输入语音进行感知加权。
本发明用到的技术方案中涉及到通过时频变换方法将加权语音信号从时域变换到频域；变换方法可以是离散傅里叶变换、离散余弦变换等。
本发明用到的技术方案中涉及到在形成格型量化的码本时，不同的编码速率对应不同的码本尺寸，需要根据实际的系统速率要求确定格型量化的码本尺寸。根据码本尺寸所确定的量化范围，对加权语音信号的频谱幅度进行调整。使其充分利用量化器的动态范围。
本发明用到的技术方案中涉及到根据格型量化的维数，将加权语音信号的频谱的实部虚部分开，组成相应维数的矢量，并进行格型矢
本发明用到的技术方案中涉及到根据多描述格型矢量量化技术的标注方法，将量化索引映射成两个子格的索引，该映射可以在一个小范围内首先确立，然后根据格型本身的结构特性和平移属性将这种格点到两个子格点的映射关系扩展到整个量化空间。
本发明用到的技术方案中涉及到解码的过程依赖于每个描述的传输状态，如果两个描述(子格索引)都正确接收，就可以根据多描述格型矢量量化的映射关系，找到中心描述。如果只有一个描述正确接收，那么就用单个描述来恢复信号。如果所有的描述都丢失，则采用静音替代的方法进行恢复。
本发明用到的技术方案中涉及到将恢复后的矢量重新组合成信号的频谱，并进行能量调整，再利用与编码端相同的时频变换方法将信号从频域变换到时域。
本发明用到的技术方案中涉及到合成的时域信号通过感知去加重后得到重建语音信号。
本发明有益的效果是编码器采用了多描述的思想，这样语音信号在传输过程中，如果包含一个描述的分组丢失，仍然可以从另外正确接收的分组中部分的恢复原始信号，从而提高了系统的稳定性。而且在对信号进行编码的过程中，采用了格型矢量量化的方法，该方法
算法复杂度低，所以编解码时不会引入大量的算法时延，而且不需要存储量化码本，节省了编解码器中的存储空间。

图l一本发明的系统组成框图2 —A2格中格点与索引为31的子格点的位置关系；图3 —A2格中格点与索引为31子格点对的对应关系。
具体实施例方式
下面结合附图和实施例对本发明作进一步介绍。本发明主要针对如何提高语音信号在分组网络上的传输质量的问题。适合分组语音传输。
如图l所示，本发明方法包括对编码端和解码端的处理。编码端包括感知加权、时频变换、能量调整与格型矢量量化以及多描述标注；而解码端包括，参数解析、能量调整与频谱矢量恢复、时频反变换以及去加权。各个部分的实现细节如下
如图1所示，编码端首先需要对语音信号进行加权，得到加权语
音信号，而在解码端需要进行相反的去加权过程。操作细节如下
a) 根据语音信号的短时特性，可以将语音信号分成20ms左右的帧，对每帧语音进行LPC分析，为了避免LPC分析的边界效应，可以将LPC的分析窗长大于实际处理的语音帧长。为了提高LPC的精度而又不引入较大的计算量，可以将语音帧分成若干子帧，将LPC 系数对每个子帧进行内插。
b) 在子帧的基础上进行感知加权，如果输入信号是宽带语音信号，则加权滤波器为『(匀=—(小^=0.92，而&_— =1/(1-/ p一1) 为预加重滤波器，其中/ ,0.68;如果是窄带语音信号，则采用『0)=」0/^)作为加权滤波器。
c) LPC分析的系数需要传输到解码端，在两个描述中重复。
d) 在解码端对恢复出来的加权语音信号采用去加权滤波器l/r② 进行处理，从而得到重建的语音信号。
如图1所示，在编码端需要将加权语音信号从时域变化到频域，而在解码端需要将重建频域的加权语音信号转化到时域。
a) 在编码端建议采,的方法为离散傅里叶变换。表达式为绿)=——^
其中丄，ii3ff的样点个数。
b) 在解码端同样建g采用离散反傅里叶变换。表达式为<formula>formula see original document page 8</formula>其中丄ror是l5，T的样点个数。
如图l所示，在编码端需要对变换到频域的加权语音信号组成矢量并进行能量调整，而在解码端需要将量化的索引转化为矢量并重新组成加权语音信号的频谱。
a) 建议将X(Q的每个复数的实部和虚部组成一个二维矢量，用A2 格进行矢量量化。在量化之前需要根据预先设定的比特率确定量化器的量化范围，不同的比特率对应不同的量化半径，比特率越高量化的半径就越大。对矢量的能量进行调整，使得能量最大的矢量距离原点的距离与量化半径相等。能量调整公式如下<formula>formula see original document page 8</formula>其中&为量化范围，《M为幅度的最大值。幅度的最大值4皿采用标量量化传送到接收端。而每个矢量的量化索引送入多描述标注模块。
b) 在接收端，从参数解析模块得到A2格量化的索引，送入能量调整与频谱矢量恢复模块。首先将A2格索引计算出实际的矢量，每个矢量分解得到能量未调整的加权语音信号一个频率样点的实部和虚部。这样所有的矢量就构成了能量未调整的加权语音信号的频谱。能量调整的过程与模块的过程相反。首先得到解量化的幅度的最大值 A皿，然后通过<formula>formula see original document page 8</formula> 得到能量调整后的重建加权语音信号。其中带波浪线的字母表示接量化后的重建信号。
如图1所示，在编码端需要将格的量化索引映射成两个子格索引，子格索弓I在信道中传输。而在解码端需要对输入矢量进行参数解析，根据不同的传输状态确定不同的恢复策略。
令A代表一个格，用A'cA表示与A几何相似的子格。所谓相似是指A'通过旋转和尺度变换可以得到A。更确切的，如果G和G'分别表示A和A'的生成矩阵。A'与A相似意味着G'"WM，其中c为非零标
量，U为行列式为±1的整数矩阵，B为实数正交矩阵。子格的索引
iV = IA / A'l为A'和八基本体积的比值，也是A'的一个Voronoi包腔中格点的数量。以A2格为例说明格与子格的对应关系。如图2所示为A2 格中格点以及索引为31的子格点的结构图。建议采用的方法仍然以A2格为例
a) 首先根据A2格与子格的关系，在较小的范围内R找到格点到子格点的对应关系。最终决定两个描述之间冗余的大小。
在如图2所示的范围内(格点位于坐标原点的Voronoi域，其最远端距离原点的半径设为R格点到子格点对的对应关系如图3所示。如果输入矢量落在这个范围内，当它被量化到每一个格点时，就可以根据图3的对应关系，找到与之对应的两个子格点。
b) 如果输入矢量的能量超过了 R，那么就需要对输入矢量进行平移运算。首先将输入矢量量化到离它最近的子格点上，然后做输入矢量与该子格点的矢量差，得到的差矢量的能量在范围R之内，从而找到差失量所对应的两个子格点，再将这两个子格点分别与距离输入矢量最近的子格点作矢量和就得到了最终需要在网络上传输的两个子格点。
c) 在解码端，参数解析模块根据传输状态确定最终的恢复方案。
1、如果只有一个描述(子格样点)正确接收，就用子格矢量来恢复加权语音信号的频率点，此时的误差较大。
2、如果两个描述都正确接收了，就采用两个子格点到格点的映射关系，通过两个子格点的坐标找到格点的坐标，从而恢复出格点。并用格点矢量来恢复加权语音信号的频率点。
权利要求
1.一种基于多描述格型矢量量化技术的语音编码方法，其特征在于该方法首先对语音信号进行LPC分析，并进行感知加权，再通过时频变换将加权语音信号变换到频域；在频域，经过幅度调整之后的信号被分解成矢量，用格型矢量量化法进行量化，量化后的格点按照多描述格型矢量量化的方法分解成两个描述(相应子格点的索引)；两个描述分别在信道中传输；在接收端根据信道的传输状态对参数进行解析，根据解析的结果重建矢量，从而重建感知加权语音信号的频谱，再通过时频反变换变化到时域；最后通过感知去加权滤波器得到最终的重建语音信号。
2. 如权利要求1所述的基于多描述格型矢量量化技术的语音编码算法，其特征在于，该方法的主要步骤有-a) 对输入语音信号进行LPC分析，并进行感知加权；b) 通过时频变换方法将加权后的语音信号转换到频域；c) 对信号的频谱进行能量调整，将信号频谱参数的实部虚部组合在一起形成矢量，并用格型矢量量化算法对信号矢量进行量化；d) 根据标注方程，将量化后的索引映射到两个描述；e) 根据传输状态对传输参数进行解析；f) 重建矢量，并进行能量调整重新合成信号的频谱；g) 并采用时频变换将信号从频域变化到时域；h) 感知去加权。
3. 如权利要求2要求所述的一种基于多描述格型矢量量化技术的语音编码方法，其特征在于对输入语音信号进行LPC分析；为提高LPC分析的精度，若输入信号为宽带语音信号需进行预加重处理，若输入信号为窄带语音则直接进行LPC分析；LPC分析的窗长大于实际处理的语音信号的窗长；利用LPC分析之后的参数对输入语音进行感知加权。
4. 如权利要求2所述的一种基于多描述格型矢量量化技术的语音编码方法，其特征在于通过时频变换方法将加权语音信号从时域变换到频域；变换方法可以是离散傅里叶变换、离散余弦变换等。
5. 如权利要求2所述一种基于多描述格型矢量量化技术的语音编码方法，其特征在于在形成格型量化的码本时，不同的编码速率对应不同的码本尺寸，需要根据实际的系统速率要求确定格型量化的码本尺寸；根据码本尺寸所确定的量化范围，对加权语音信号的频谱幅度进行调整，使其充分利用量化器的动态范围；根据格型量化的维数，将加权语音信号的频谱的实部虚部分开，组成相应维数的矢量，并进行格型矢量量化。
6. 如权利要求2所述的一种基于多描述格型矢量量化技术的语音编码方法，其特征在于根据多描述格型矢量量化技术的标注方法，将量化索引映射成两个子格的索引，在信道中传输；而且解码的过程依赖于每个描述的传输状态，如果两个描述(子格索引)都正确接收，就可以根据多描述格型矢量量化的映射关系，找到中心描述；如果只有一个描述正确接收，那么就用单个描述来恢复信号；如果所有的描述都丢失，则采用必要的差错隐藏算法。
7. 根据权利要求2所述的一种基于多描述格型矢量量化技术的语音编码方法，其特征在于将恢复后的矢量重新组合成信号的频谱，并进行能量调整，再利用与编码端相同的时频变换方法将信号从频域变换到时域。
8. 根据权利要求2所述的一种基于多描述格型矢量量化技术的语音编码方法，其特征在于合成的时域信号通过感知去加重得到重建语音信号。
全文摘要
本发明涉及一种基于多描述格型矢量量化的语音编码方法，属于通信领域。本发明主要用于分组语音传输。该算法首先对语音信号进行LPC分析，并进行感知加权，再将加权语音信号变换到频域。在频域，信号被分解成矢量，采用格型矢量量化方法进行量化，最后量化后的格点按照多描述格型矢量量化的标注方法分解成两个描述(相应子格点的索引)在信道中传输，从而提高了系统的传输可靠性。因为该算法基于格型量化技术，算法复杂度和编码延时较低。
文档编号G10L19/02GK101110214SQ20071012014
公开日2008年1月23日申请日期2007年8月10日优先权日2007年8月10日
发明者匡镜明, 赵胜辉, 玥郎申请人:北京理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：匡镜明;郎玥;赵胜辉
技术所有人：北京理工大学
我是此专利的发明人

上一篇：一种多孔材料低频吸声结构的制作方法
上一篇：一种Abis接口不连续传输模式的语音传输装置及方法