锥形矢量音频编码的制作方法

文档序号：2818928阅读：226来源：国知局

专利名称：锥形矢量音频编码的制作方法
技术领域：
本发明涉及用于经由传输介质诸如借助于有线连接上的电子信号或者无线连接上的电磁信号进行传输的语音的编码。
背景技术：
在图Ia中示意性地示出了语音的声源-滤波器模型。如所示，语音能够被建模为包括从声源102经过时变滤波器104的信号。声源信号表示声带的直接振动，而滤波器表示由咽喉、口部和舌头的形状形成的声道的声效。滤波器的作用是改变声源信号的频率分布从而增强或者削弱特定的频率。语音编码通过使用声源-滤波器模式的参数表示语音来工作而不是试图直接表示为实际的波形。如图Ib中所示意性地示出的，编码信号将被分成多个帧106，其中每个帧包括多个子帧108。例如，语音可以16kHz被采样并且以20ms的帧被处理，其中一些处理以5ms 的子帧进行(每帧有4个子帧)。每个帧包括标记107，帧通过标记107根据其各自的类型被分类。因此每个帧至少被分为“浊音的”或者“清音的”，并且清音帧不同于浊音帧地被编码。因此每个子帧108包括一组表示在该子帧中的语音声音的声源-滤波器模型的参数。对于浊音声音(诸如元音声)，声源信号具有对应于感知到的声音的基音的一定程度的长期周期性。在该情形中，声源信号能够被建模为包括准周期性信号，其中对应于各自的“基音脉冲”的每个周期包括一系列不同幅度的波峰。声源信号被称为是“准”周期性的，原因在于在至少一个子帧的时标上，可能需要使其具有大致恒定的单个的、有针对性的(meaningful)周期；但是在多个子帧或帧上，信号的周期和形式则可改变。在任意给定点的大致周期可以被称为基音滞后。在图加中示意性地示出了被建模的声源信号202的示例，其中逐渐变化的周期Ρ”Ρ2、Ρ3等各包括四个波峰的基音脉冲，基音脉冲从一个周期到下一个周期在形状和幅度上逐渐变化。根据诸如使用线性预测编码(LPC)的算法的多种语音编码算法，使用短期滤波器来将语音信号分成两个单独的分量(i)表示时变滤波器104的作用的信号；和(ii)去除了滤波器104的作用的剩余信号，其表示声源信号。表示滤波器104的作用的信号可以被称为频谱包络线信号(spectral envelope signal)，并且典型地包括一系列描述在各个阶段的频谱包络线的LPC参数组。图2b示出了随时间变化的一连串频谱包络线204^204^ 2043等的示意性示例。如图加示意性所示，当去除了变化的频谱包络线时，仅表示声源的剩余信号可以被称为LPC残差信号。短期滤波器通过去除短期相关性(即与基音周期相比的短期)而工作，从而产生具有比语音信号更少能量的LPC残差。频谱包络线信号和声源信号各自被单独编码以进行传输。在图示出的示例中，各个子帧106将包括(i)表示频谱包络线204的一组参数；和(ii)表示去除了短期相关性的作用的声源信号202的LPC残差信号。为了改善声源信号的编码，可以利用其周期性。为此，使用长期预测(LTP)分析来确定LPC残差信号从一个周期到下一个周期与其自身的相关性，即在当前基音滞后下当前时间的LPC残差信号与一个周期之后的LPC残差信号之间的相关性(相关性是数据组之间的相关程度的统计测定结果，在该情形中是信号的部分之间的重复度)。就此而言，声源信号可被称为是“准”周期性的，原因在于在至少一个相关性计算的时标上，可能需要使其具有大致恒定的有针对性的周期；但是在多次的这种计算上，声源信号的周期和形状则可改变得更加明显。对于每个子帧，从此相关性导出(derive)的一组参数被确定为至少部分地表示声源信号。每个子帧的参数组典型地是一组系列参数，该组系列系数形成各自的矢量。然后从LPC残差中去除这个周期间相关性的作用，留下去除了基音周期之间的相关性的作用的表示声源信号的LTP残差信号。为了表示声源信号，LTP矢量和LTP残差信号被单独地编码以进行传输。LPC参数组、LTP矢量组和LTP残差信号组在传输之前各自被量化(量化是将连续范围的值转换为一组离散值，或者将较大的大致连续的一组离散值转换为较小的一组离散值的处理)。将LPC残差信号分成LTP矢量和LTP残差信号的优点在于，LTP残差典型地具有比LPC残差小的能量，因此需要较少的比特来进行量化。因此在图示出的示例中，各个子帧106将包括(i) 一组量化的表示频谱包络线的 LPC参数(包括基音滞后)；(ii) (a)与声源信号中的基音周期之间的相关性有关的量化的 LTP矢量，和(ii) (b)去除了此周期间相关性的作用的表示声源信号的量化的LTP残差信号。在传输之前，对量化值进行编码。锥形矢量编码是为具有拉普拉斯概率分布的整数值提供有效编码的无损枚举编码技术，其中整数值的概率随着其绝对值指数式地减小。锥形矢量编码一般用于静止图像和活动图像的变换编码和子带编码以及音频转换编码。对于这些编码方法，变换系数或者子带系数大致地具有拉普拉斯概率分布，以使得锥形矢量编码成为有效的方法。锥形矢量编码作用于L个量化索引q(n)的块，L个量化索引q(n)典型地由标量、点阵(lattice)或者格栅(trellis)量化变换系数生成。在锥形矢量编码的一个实施方式中，第一步骤是将量化索引的块转换为符号值s (η)的块和绝对值u(n)的块。与非零量化索引相对应的符号值是通过简单的二级熵编码器进行编码的。将绝对值累加在一起以生成半径K:
权利要求
1.一种对值的一个或者多个父块进行编码的方法，值的数量是每个块的长度，所述方法包括对于每个父块(a)确定所述父块中的值的第一和；(b)将所述父块拆分成更小的子块；(c)对于所述子块中的至少一个，确定所述子块中的值的第二和，基于所述父块中的所述值的所述第一和从多个似然表中选择似然表，并且使用所述似然表对所述第二和进行编码；(d)将每个子块指定为父块；(e)执行步骤(a)、(b)、(c)和(d)直至至少一个父块达到预定条件。
2.根据前述权利要求中任一项所述的方法，其中，还基于所述父块的长度来选择所述似然表。
3.根据权利要求1或2所述的方法，其中，在步骤(b)中所述子块的大小相等。
4.根据前述权利要求中任一项所述的方法，其中，对所述和进行编码的步骤包括熵编码。
5.根据前述权利要求中任一项所述的方法，其中，对所述和进行编码的步骤包括算术编码。
6.根据前述权利要求中任一项所述的方法，其用于对表示激励量化索引的值进行编码以表示语音。
7.根据权利要求6所述的方法，包括将一组量化索引拆分成符号的块和值的块的步骤。
8.根据前述权利要求中任一项所述的方法，其中，所述预定条件是所有子块具有相同的长度。
9.根据权利要求1至7中任一项所述的方法，其中，所述预定条件是第一子块中的值的和等于零。
10.根据前述权利要求中任一项所述的方法，其中，步骤(a)包括对于所述第一和使用已知值。
11.根据权利要求1至9中任一项所述的方法，其中，步骤(a)包括确定累加的值的和。
12.根据前述权利要求中任一项所述的方法，包括存储步骤(b)的编码结果的步骤和每个步骤(d)，直至在对于块的最终拆分和编码步骤之后产生最终的结果。
13.一种根据声源滤波器模型进行语音编码从而将语音建模为包括由时变滤波器滤波的声源信号的方法，所述方法包括接收语音信号；从所述语音信号中导出激励量化索引的帧，每个索引由值表示并且所述帧包括多个块；以及根据前述权利要求中任一项所述的方法对每个块进行编码。
14.一种用于对值的父块进行编码的编码器，值的数量是块的长度，所述编码器包括用于将所述父块拆分成更小的子块的器件；用于对子块中的值进行累加以生成和的器件；保存似然表的存储器，每个似然表为每个可能的值的和保存与所述和相关的概率；用于使用位于所述存储器中的似然表对所述子块中的值的和进行编码的器件；用于基于父子块的和从似然表的所述存储器中选择似然表的器件，所述编码器件设置为基于选择出的似然表对从所述父块中拆分出的子块的和进行编码；以及用于保存所述编码的结果的存储器件。
15.根据权利要求12所述的编码器，其中，所述编码器件是算数编码器。
16.根据权利要求14所述的编码器，其中，所述编码器件是熵编码器。
17.一种用于根据声源滤波器模型进行语音编码从而将语音建模为包括由时变滤波器滤波的声源信号的系统，所述系统包括用于接收语音信号的器件；用于从所述语音信号中导出激励量化索引的帧的器件，每个索引由值表示并且所述帧包括多个块；以及根据权利要求14、15或16所述的编码器。
18.—种对表示值的一个或者多个父块的比特流进行解码的方法，值的数量是每个块的长度，所述方法包括对于每个父块(a)获得所述父块中的值的第一和；(b)将所述父块拆分成更小的子块；(c)对于所述子块中的至少一个，基于所述父块中的所述值的所述第一和从多个存储的似然表中选择似然表，每个似然表为所述子块中的每个可能的值的第二和保存与所述和相关的概率，并且基于所述似然表对所述比特率进行解码从而为所述子块生成值的所述第二和；(d)将每个子块指定为父块；(e)执行步骤(a)、(b)、(c)和(d)直至至少一个父块达到预定条件。
19.根据权利要求18所述的方法，其中，在步骤(c)中基于子块的长度来选择似然表。
20.一种当执行时实施如权利要求1至13中任一项所述的编码方法的步骤或者如权利要求18或19所述的解码方法的步骤的计算机程序产品。
21.一种用于对表示值的一个或者多个父块的比特流进行解码的解码器，所述解码器包括用于获得所述父块中的值的第一和的器件；用于将父块拆分成更小的子块的器件；用于基于所述父块中的所述值的所述第一和从多个存储的似然表中选择似然表的器件，每个似然表为所述子块中的每个可能的值的第二和保存与所述和相关的概率；以及用于基于所述似然表对所述比特率进行解码从而为所述子块生成值的所述第二和的器件。
22.一种用于根据声源滤波器模型进行语音解码从而将语音建模为包括由时变滤波器滤波的声源信号的系统，所述系统包括用于接收经编码的语音信号的器件，所述经编码的语音信号包括激励量化索引的帧，每个索引由值表示并且所述帧包括多个块；以及根据权利要求21所述的解码器。
全文摘要
一种对值的一个或者多个父块进行编码的系统和方法，值的数量是每个块的长度。所述方法包括对于每个父块(a)确定所述父块中的值的第一和；(b)将所述父块拆分成更小的子块；(c)对于所述子块中的至少一个，确定所述子块中的值的第二和，基于所述父块中的所述值的所述第一和从多个似然表中选择似然表，并且使用所述似然表对所述第二和进行编码；(d)将每个子块指定为父块；(e)执行步骤(a)、(b)、(c)和(d)直至至少一个所述父块达到预定条件。
文档编号G10L19/02GK102341849SQ201080010210
公开日2012年2月1日申请日期2010年1月5日优先权日2009年1月6日
发明者科恩·贝尔纳德·福斯申请人:斯凯普有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：科恩·贝尔纳德·福斯
技术所有人：斯凯普有限公司
我是此专利的发明人