一种语音编码器码流的转码方法

文档序号：2835121阅读：137来源：国知局

专利名称：一种语音编码器码流的转码方法
技术领域：
本发明涉及一种语音编码器码流的转码方法，属于语音编解码技术领域。
背景技术：
不同的通信网络常使用不同的语音编码标准。为了保证通信网络间的互通性，在通信网络之间连接时，常需要在不同编码器之间进行“转码”。设通信网I使用A型语音编解码器，通信网2使用B型语音编解码器。传统的语音转码方法是以先解码再编码(DTE)的方式进行转码，即用通信网I所使用的A型语音解码器对接收到的比特流进行解码，得到时间域的语音信号，然后再用通信网2所使用的B型语音编码器对该时间域语音信号进行编码，将编码后的比特流发送到通信网2。这种转码方法的计算复杂度高，时延较大，所需的存储量也较大，两次编解码也使合成语音质量不高。

发明内容
本发明针对以上问题的提出，而研制一种语音编码器码流的转码方法。一种语音编码器码流的转码方法，其特征在于:通信网I发送的A码流经过比特流解析单元，解码单元，参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流，通信网1、2是使用不同语音编码标准的通信网络，例如使用AMR标准的无线网，使用G.729AB标准的IP网。本发明技术方案带来的有益效果如下:(I)由于对线谱对系数转码时，事先使用了支持向量回归(SVR)算法对大量语音数据进行训练，从而得到发送端线谱对系数与接收端线谱对系数的映射模型。在此基础上，进行输入线谱对系数到输出线谱对`系数的映射，使线谱对系数的转换更为精确，提高了合成语音的质量。(2)将解码所得的基音延迟整数部分TO作为编码端开环搜索结果，这样在进行闭环搜索时，可根据TO的值来限制闭环搜索范围，从而提高了合成语音质量，也使计算量有所减小。(3)在静音插入描述帧的转码过程中，采用能量参数直接映射的方法，去掉了静音插入描述帧能量的计算，使得算法复杂度降低，存储量相应减少。(4)从输入的比特流中提取帧类型信息，这样就可在转码过程中不进行帧类型判断，而直接在比特流输出时将帧类型转换为与接收到的帧类型相同，有效地提高了接收端的合成语音质量。

图1是本发明的流程图。图2是本发明的语音帧转码方法流程图。图3是本发明的静音插入描述帧参数转码方法流程图。
图4AMR到G.729AB转码的DTE方法与本发明转码方法的PESQ比较。图5AMR到G.729AB转码的DTE方法与本发明转码方法的WMOPS比较。
具体实施例方式下面结合附图对本发明做进一步说明:如图1所示:通信网I发送的A码流经过比特流解析单元，解码单元，参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流，所述通信网1、2是使用不同语音编码标准的通信网络。这里以AMR到G.729AB的参数转码过程为例，阐述本发明的具体实现过程，即上述A编码标准为AMR，B编码标准为G.729AB，通信网I为无线通信网，通信网2为IP网。AMR帧长为20ms，G.729AB帧长为10ms，两者子帧长度都为5ms，AMR —帧对应G.729AB两帧。转码具体方案如下:比特流解析单元用于接收无线通信网发送的AMR码流，具体步骤如下:(I)根据AMR的帧结构，从接收到的AMR码流中依次提取帧类型(SPEECH_G00D、SPEECH_BAD、SID_FIRST、SID_UPDATE、SID_BAD、N0_DATA)、模式信息(MR_4.75kbps、MR_5.15kbps、MR_5.9kbps、MR_6.7kbps、MR_7.4kbps、MR_10.2kbps、MR_12.2kbps)和参数比特。(2)根据AMR的帧结构，将参数比特转化为量化编码后的参数值，即语音帧的线谱对系数、基音延迟、固定码本非零脉冲位置和符号及增益，或静音插入描述帧的线谱对系数和语音能量。(3)根据帧类型信息判断当前帧为语音帧(SPEECH_G00D、SPEECH_BAD)、静音插入描述帧(SID_UPDATE、SID_BAD)或非传输帧(SID_FIRST、N0_DATA)解码单元用于AMR解码器从参数比特中解码，得到语音参数值及合成语音，具体步骤如下:(I)若当前帧为语音帧:用AMR解码器对量化编码后的参数值解码得语音参数，包括线谱对系数、基音延迟、固定码本非零脉冲位置和符号、自适应码本增益和固定码本增益；用AMR解码器由以上语音参数进行语音重建，得到重构语音s’ (η)。(2)若当前帧为静音插入描述帧:用AMR解码器对量化编码后的参数值解码得静音插入描述帧的线谱对系数和语
音能量。参数转换单元用于对AMR解码所得的语音参数进行转码，得到G.729ΑΒ量化编码所需的语音参数，具体步骤如下:(I)若接收到的AMR帧类型为语音帧(SPEECH_G00D或SPEECH_BAD)，则转码流程如图2所示:(a)线性预测分析:线谱对系数的转码包括离线的映射模型参数获取和在线的参数映射。映射模型参数获取的过程为，首先由AMR和G.729AB编码器对大量(10个小时以上)、各种类型(如成年男声、成年女声、男童声、女童声等)、各种语言(如汉语、英语、法语等)的语音数据分别进行编码，分别得到K组和2K组量化的线谱对系数=LSPame(k，i)和 LSPe.729AB(2k，i)，i=l,...，n，k=l，...，K，其中 η 为线谱对系数矢量的维数。再用支持向量回归算法计算LSPame和LSPe.729ΑΒ之间的映射模型:
权利要求
1.一种语音编码器码流的转码方法，其特征在于:通信网I发送的A码流经过比特流解析单元，解码单元，参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流，所述通信网1、2是使用不同语音编码标准的通信网络。
2.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于:比特流解析单元用于接收通信网I发送的A码流，具体步骤如下: (1)根据通信网I的A编码标准的帧结构，从输入的A码流的相应比特位提取模式信息、帧类型信息和参数比特。
(2)根据通信网I的A编码标准的帧结构，将参数比特转化为语音参数量化编码后的参数值，语音帧的参数包括线谱对系数、基音延迟、固定码本非零脉冲位置和符号及增益；静音插入描述帧的参数为线谱对系数和语音能量。
(3)从A码流中提取帧类型信息，判断接收到的帧类型为语音帧、非传输帧或静音插入描述中贞。
3.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于:解码单元用于A解码器从参数比特中解码，得到语音参数值及合成语音，具体步骤如下: (1)如果接收到的帧类型为静音插入描述帧，则根据接收到的参数索引值解码，得到语音参数值，参数为线谱对系数和能量ener。
(2)如果接收到的帧类型为语音帧，则: (a)根据接收到的参数索引值，解码得到语音参数值，参数包括线谱对系数、基音延迟的整数部分TO和分数部分T0_frac、固定码本非零脉冲位置和符号、量化的自适应码本增益g’ P和量化的固定码本增益g’。， (b)根据上述语音参数，用通信网I的A编码标准进行语音重建，得到重构语音s’(η), (c)得到重构语音s’(η)后，不进行A解码器中的后置处理。
4.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于:参数转换单元用于对解码所得的语音参数进行转码，得到通信网2的B编码标准量化编码所需的语音参数，具体步骤如下: (I)若接收到的为语音帧，则转码步骤为: (a)线性预测分析: 线谱对系数的转码包括离线的映射模型参数获取和在线的参数映射，映射模型参数获取的过程为，首先由A、B编码器对10小时以上的语音数据、各种类型、各种语言的语音数据分别进行编码，得到K组量化的线谱对系数，所述各种类型包括成年男声、成年女声、男童声、女童声；各种语言包括汉语、英语、法语、西班牙语、阿拉伯语:LSPa (k，i)和LSPb (k，i)，k=l,...，K，i=l, , n，其中n为线谱对系数矢量的维数；再用支持向量回归算法计算LSPa和LSPb之间的映射模型:/、％(/) = wiLSI^i)+^的参数W1、bi; i=l,...，η;转码时，就可由A编码器线谱对系数LSPJi)使用η个映射模型:!.SPnQ) = IjSPa(I)+ b;，i=l,..., η,分别计算出 LSPb⑴，i=l,..., η ；用支持向量回归(SVR)算法计算LSPa和LSPb之间的映射模型参数Wpbi具体过程为: 定义第k帧语音的线谱对系数LSPa和LSPb分别为训练数据x和y，即记x (k, i) =LSPa(k, i)，y (k, i) =LSPb (k, i);用 η 个回归函数 /: (Λ.) = Wi1X+&拟合数据{x (k, i)，y (k, i)}，k=l，…，K，i=l,…，η ;定义 η 个映射函数
5.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于:编码单元用于对以上所得参数进行量化编码，具体步骤为: (1)若当前帧为语音帧，参数包括线谱对系数、基音延迟、固定码本非零脉冲位置和符号、自适应码本增益和固定码本增益，按通信网2的编码标准对各个参数进行量化、编码，得到参数比特； (2)若当前帧为静音插入描述帧，参数为线谱对系数和语音能量，将其按通信网2的编码标准进行量化、编码，得到参数比特。
6.根据权利要求1所述的一种语音编码器码流的转码方法，其特征在于:比特流封装单元用于将参数比特、模式信息和帧类型打包输出，其中输出的帧类型根据接收到的帧类型进行赋值，使输入与输出的帧类型相同，即接收到的数据帧为语音帧，则输出的帧类型也为语音帧；接收到的数据帧为静音帧，则输出的帧类型也为静音帧，不再根据重构语音进行帧类型的判断。
全文摘要
本发明公开了一种语音编码器码流的转码方法，属于语音编解码技术领域。通信网1发送的A码流经过比特流解析单元，解码单元，参数转换单元、编码单元和比特流封装单元得到通信网2接收的B码流，所述通信网1、2是使用不同语音编码标准的通信网络。
文档编号G10L19/002GK103236262SQ20131017540
公开日2013年8月7日申请日期2013年5月13日优先权日2013年5月13日
发明者陈喆, 殷福亮, 袁兴华申请人:大连理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈喆;殷福亮;袁兴华
技术所有人：大连理工大学
我是此专利的发明人