编码设备、解码设备、编码方法和解码方法

文档序号:2837398阅读:317来源:国知局
专利名称:编码设备、解码设备、编码方法和解码方法
技术领域
本发明涉及对诸如音频信号或语音信号之类的声信号进行高效压缩编码的编码设备、解码设备、编码方法和解码方法,尤其涉及即使根据一部分编码信息也能够解码音频或语音的、适合于可伸缩(scalar)编码和解码的编码设备、解码设备、编码方法和解码方法。

背景技术
以低位速率压缩音频信号或语音信号的声音编码技术对于有效利用移动通信中的无线电和记录媒体是非常重要的。编码语音信号的语音编码方法包括由ITU(国际电信联盟)标准化的G726和G729。这些方法编码窄带信号(300Hz-3.4kHz),并且能够以8kb/s(千位每秒)到32kb/s的位速率进行高质编码。
宽带(50Hz-7kHz)的标准编码包括ITU的G722和G722.1和GPP(第三代伙伴项目)的AMR-WB。这些方法能够以6.6kb/s到64kb/s的位速率高质编码宽带语音信号。
以低位速率对语音信号高效编码的有效方法是CELP(码激励线性预测)。CELP是根据通过工程技术模仿人类语音生成模型的模型进行编码的方法。具体地说,在CELP中,让由随机值组成的激励信号经过与周期性的强度相对应的音调滤波器和与声道特性相对应的合成滤波器,并且确定编码参数,以便在听觉特性加权下使输出信号和输入信号之间的平方误差达到最小。
在许多最新标准语音编码方法中,都是根据CELP进行编码。例如,G729能够以8kb/s进行窄带信号编码,和AMR-WB能够以6.6kb/s到23.85kb/s进行窄带信号编码。
同时,在编码音频信号的音频编码的情况下,共同使用将音频信号转换到频域和利用听觉心理声学模型进行编码的方法,譬如,由MPEG(运动图像专家组)标准化的LayerIII方法和AAC方法。众所周知,利用这些方法,对于44.1kHz取样速率的信号,在64kb/s到96kb/s每信道上几乎不会变差。
这种音频编码是对音乐进行高质编码的方法。音频编码也可以对如上所述,在背景中存在音乐或环境声音的语音信号进行高质编码,并且可以管理具有CD质量的、大约22kHz的信号频带。
但是,当利用语音编码方法对语音信号占优势和在背景中叠加了音乐或环境声音的信号进行编码时,存在如下问题,由于背景音乐或环境声音,不仅背景信号变差了,而且语音信号也变差了,因此,总质量下降了。
出现这个问题是因为语音编码方法基于专用于CELP语音模型的方法。问题在于,语音编码方法只能管理直到7kHz的信号频带,和对于复合信号,不能充分地管理作为更高频带中的成分的信号。
此外,对于音频编码方法,为了取得高质编码,必须使用高位速率。对于音频编码方法,如果应该利用下至32kb/s的位速率进行编码,那么,存在解码信号质量大幅下降的问题。因此,存在问题不能在传输速率低的通信网络上使用的问题。


发明内容
本发明的目的是提供一种甚至在低位速率下也能够对语音信号占优势和在背景中叠加了音乐或环境声音的信号进行高质编码和解码的编码设备、解码设备、编码方法和解码方法。
这个目的是通过拥有两个层,即基本层和增强层,根据基本层中的CELP,以低位速率对输入信号窄带或宽带频区进行高质编码,和在不能在基本层中得到表示的背景音乐或环境声音,以及存在比基本层覆盖的频区高的频率成分的信号的增强层中进行编码达到的。
根据本发明的一个方面,提供一种声音编码设备,包括第一编码部分,对声信号进行编码来获取第一编码信息;解码部分,对所述第一编码信息进行解码来获取解码信号;确定部分,计算所述解码信号的听觉掩蔽阈值,并且确定出确定所述解码信号中幅度显示为大于或等于该听觉掩蔽阈值的频域;减法部分,获取所述声信号和所述解码信号之间的残差信号;以及第二编码部分,对所述残差信号中的由所述确定部分确定出的频域进行编码,获取第二编码信息。
根据本发明的一个方面,提供一种声音解码设备,包括第一解码部分,对第一编码信息进行解码来获取第一解码信号;确定部分,计算所述第一解码信号的听觉掩蔽阈值,并且确定所述第一解码信号中幅度显示为大于或等于该听觉掩蔽阈值的频域;第二解码部分,对所述第二编码信息中的由所述确定部分确定出的频域进行编码,获取第二解码信号;以及加法部分,将所述第一解码信号与所述第二解码信号相加来获取声信号。
根据本发明的一个方面,提供一种通信终端设备,包括如上所述的声音编码设备或如上所述的声音解码设备。
根据本发明的一个方面,提供一种基站设备,包括如上所述的声音编码设备或如上所述的声音解码设备。
根据本发明的一个方面,提供一种声音编码方法,包括第一编码步骤,对声信号进行编码来获取第一编码信息;解码步骤,对所述第一编码信息进行解码来获取解码信号;确定步骤,计算所述解码信号的听觉掩蔽阈值,并且确定所述解码信号中幅度显示为大于或等于该听觉掩蔽阈值的频域;减法步骤,获取所述声信号和所述解码信号之间的残差信号;以及第二编码步骤,对所述残差信号中的由所述确定部分确定出的频域进行编码,获取第二编码信息。
根据本发明的一个方面,提供一种声音解码方法,包括第一解码步骤,对第一编码信息进行解码来获取第一解码信号;确定步骤,计算所述第一解码信号的听觉掩蔽阈值,并且确定所述第一解码信号中幅度显示为大于或等于该听觉掩蔽阈值的频域;第二解码步骤,对所述第二编码信息中的由所述确定部分确定出的频域进行编码,获取第二解码信号;以及加法步骤,将所述第一解码信号与所述第二解码信号相加来获取声信号。



图1是示出根据本发明第1实施例的信号处理设备的配置的方块图; 图2是示出输入信号成分的例子的图形; 图3是示出根据上面实施例的信号处理设备的信号处理方法的例子的图形; 图4是示出基本层编码器的配置的例子的图形; 图5是示出增强层编码器的配置的例子的图形; 图6是示出增强层编码器的配置的例子的图形; 图7是示出增强层中的LPC系数计算的例子的图形; 图8是示出根据本发明第3实施例的信号处理设备的增强层编码器的配置的方块图; 图9是示出根据本发明第4实施例的信号处理设备的增强层编码器的配置的方块图; 图10是示出根据本发明第5实施例的信号处理设备的配置的方块图; 图11是示出基本层解码器的例子的方块图; 图12是示出增强层解码器的例子的方块图; 图13是示出增强层解码器的例子的图形; 图14是示出根据本发明第7实施例的信号处理设备的增强层解码器的配置的方块图; 图15是示出根据本发明第8实施例的信号处理设备的增强层解码器的配置的方块图; 图16是示出根据本发明第9实施例的声音编码设备的配置的方块图; 图17是示出声信号信息分布的例子的图形; 图18是示出在基本层和增强层中经受编码的区域的例子的图形; 图19是示出声(音乐)信号谱的例子的图形; 图20是示出上面实施例的声音编码设备的频率确定部分的内部配置的例子的方块图; 图21是示出上面实施例的声音编码设备的听觉掩蔽计算器的内部配置的例子的图形; 图22是示出上面实施例的增强层编码器的内部配置的例子的方块图; 图23是示出上面实施例的听觉掩蔽计算器的内部配置的例子的方块图; 图24是示出根据本发明第9实施例的声音解码设备的配置的方块图; 图25是示出上面实施例的声音解码设备的增强层解码器的内部配置的例子的方块图; 图26是示出根据本发明第10实施例的基本层编码器的内部配置的例子的方块图; 图27是示出上面实施例的基本层解码器的内部配置的例子的方块图; 图28是示出上面实施例的基本层解码器的内部配置的例子的方块图; 图29是示出根据本发明第11实施例的声音编码设备的频率确定部分的内部配置的例子的方块图; 图30是示出上面实施例的估计误差谱计算器计算的残留误差谱的例子的图形; 图31是示出根据本发明第12实施例的声音编码设备的频率确定部分的内部配置的例子的方块图; 图32是示出上面实施例的声音编码设备的频率确定部分的内部配置的例子的方块图; 图33是示出根据本发明第13实施例的声音编码设备的增强层编码器的内部配置的例子的方块图; 图34是示出上面实施例的定序部分排序估计失真值的例子的图形; 图35是示出根据本发明第13实施例的声音解码设备的增强层解码器的内部配置的例子的方块图; 图36是示出根据本发明第14实施例的声音编码设备的增强层编码器的内部配置的例子的方块图; 图37是示出根据本发明第14实施例的声音解码设备的增强层解码器的内部配置的例子的方块图; 图38是示出上面实施例的声音编码设备的频率确定部分的内部配置的例子的方块图; 图39是示出根据本发明第14实施例的声音解码设备的增强层解码器的内部配置的例子的方块图; 图40是示出根据本发明第15实施例的通信设备的配置的方块图; 图41是示出根据本发明第16实施例的通信设备的配置的方块图; 图42是示出根据本发明第17实施例的通信设备的配置的方块图;和 图43是示出根据本发明第18实施例的通信设备的配置的方块图。

具体实施例方式 基本上,本发明拥有两个层,即基本层和增强层,根据基本层中的CELP,以低位速率对输入信号窄带或宽带频区进行高质编码,然后,在不能在基本层中得到表示的背景音乐或环境声音,以及存在比基本层覆盖的频区高的频率成分的信号的增强层中进行编码,增强层具有如同使用音频编码方法一样,能够使所有信号得到管理的配置。
通过这种手段,可以对不能在基本层中得到表示的背景音乐或环境声音,以及存在比基本层覆盖的频区高的频率成分的信号进行高效编码。本发明的特性是,此时,利用通过基本层编码信息获得的信息进行增强层编码。通过这种手段,获得了能够减少增强层编码位的个数的效果。
现在参照附图详细描述本发明的实施例。
(第1实施例) 图1是示出根据本发明第1实施例的信号处理设备的配置的方块图。图1中的信号处理设备100主要包括向下取样器(down-sampler)101、基本层编码器102、局部解码器103、向上取样器(up-sampler)104、延迟器105、减法器106、增强层编码器107和多路复用器108。
向下取样器101从取样速率FH到取样速率FL向下取样(down-sample)输入信号取样速率,并且将取样速率FL的声信号输出到基本层编码器102。这里,取样速率FL是比取样速率FH低的频率。
基本层编码器102编码取样速率FL的声信号,并且将编码信息输出到局部解码器103和多路复用器108。
局部解码器103解码从基本层编码器102输出的编码信息,将解码信号输出到向上取样器104,并且将从解码结果中获得的参数输出到增强层编码器107。
向上取样器104将解码信号取样速率升高到FH,并且将结果输出到减法器106。
延迟器105将输入取样速率FH的声信号延迟预定时间,然后,将信号输出到减法器106。通过使这个延迟时间等于在向下取样器106、基本层编码器102、局部解码器103和向上取样器104中产生的时间延迟,可以防止在接着的相减处理中出现相移。
减法器106从取样速率FH的声信号中减去解码信号,并且将相减结果输出到增强层编码器107。
增强层编码器107利用从局部解码器103输出的解码结果参数解码从减法器106输出的信号,并且将所得结果输出到多路复用器108。多路复用器108多路复用和输出由基本层编码器102和增强层编码器107编码的信号。
现在说明基本层编码和增强层编码。图2是示出输入信号成分的例子的图形。在图2中,垂直轴表示信号成分信息量,而水平轴表示频率。图2示出了给出包含在输入信号中的语音信息和背景音乐/背景噪声信息的频带。
在语音信息的情况下,在低频区中存在大量信息,信息量随着频区增高而减少。相反,在背景音乐和背景噪声信息的情况下,与语音信息相比,在较低区域中存在相对少的信息,和大量信息处在较高区域中。
因此,本发明的信号处理设备使用数种编码方法,并且对各自编码方法适合的每个区域进行不同编码。
图3是示出根据本实施例的信号处理设备的信号处理方法的例子的图形。在图3中,垂直轴表示信号成分信息量,而水平轴表示频率。
基本层编码器102被设计成有效表示从0到FL的频带中的语音信息,并且可以对该区域中的语音信息进行高质编码。但是,从0到FL的频带中背景音乐和背景噪声信息的编码质量不高。增强层编码器107编码基本层编码器102不能编码的部分和从FL到FH的频带中的信号。
因此,通过组合基本层编码器102和增强层编码器107,可以在宽带中实现高质编码。此外,可以实现即使只利用至少基本层编码部分的编码信息也可以解码语音信息的可伸缩功能。
这样,局部解码器103中出自通过编码生成的那些参数当中的有用参数被供应给增强层编码器107,和增强层编码器107利用这个参数进行编码。
由于这个参数是从编码信息中生成的,当解码本实施例的信号处理设备编码的信号时,在声音解码过程中可以获得相同参数,没有必要附加这个传输到解码方的参数。其结果是,增强层编码部分可以实现不会招致附加信息增加的有效编码处理。
例如,存在于局部解码器103解码的参数当中,指示输入信号是诸如元音之类具有明显周期性的信号还是诸如辅音之类具有明显噪声特性的信号的有声/无声标志用作增强层编码器107应用的参数。可以利用有声/无声标志进行调整,譬如,进行在有声部分中的增强层中强调较低区域多于较高区域的位分配,和进行在无声部分中强调较高区域多于较低区域的位分配。
因此,根据本实施例的信号处理设备,通过从输入信号中提取不超过预定频率的成分和进行适当于语音编码的编码,和利用解码所得编码信息的结果进行适合于音频编码的编码,可以以低位速率进行高质编码。
关于取样速率FH和FL,只需要取样速率FH比取样速率FL高,并且对这些值没有限制。例如,可以利用FH=24kHz和FL=16kHz的取样速率进行编码。
(第2实施例) 在本实施例中,描述在第1实施例的局部解码器103解码的参数当中,指示输入信号谱的LPC系数用作增强层编码器107利用的参数的例子。
本实施例的信号处理设备利用图1中的基本层编码器102中的CELP进行编码,并且在增强层编码器107中利用指示输入信号谱的LPC系数进行编码。
首先给出基本层编码器102的操作的详细描述,后面接着增强层编码器107的基本配置的描述。这里提到的“基本配置”旨在简化随后实施例的描述,和表示不使用局部解码器103编码参数的配置。此后,给出使用局部解码器103解码的LPC系数的增强层编码器107的描述,这是本实施例的特征。
图4是示出基本层编码器102的配置的例子的图形。基本层编码器102主要包括LPC分析器401、加权部分402、自适应码簿搜索单元403、自适应增益量化器404、目标矢量发生器405、噪声码簿搜索单元406、噪声增益量化器407和多路复用器408。
LPC分析器401从向下取样器101以取样速率FL取样的输入信号中获取LPC系数,并且将这些LPC系数输出到加权部分402。
加权部分402根据LPC分析器401获取的LPC系数,对输入信号进行加权,并且将加权输入信号输出到自适应码簿搜索单元403、自适应增益量化器404和目标矢量发生器405。
自适应码簿搜索单元403利用作为目标信号的加权输入信号进行自适应码簿搜索,并且将检索的自适应矢量输出到自适应增益量化器404和目标矢量发生器405。然后,自适应码簿搜索单元403将确定为存在最小量化失真的自适应矢量的代码输出到多路复用器408。
自适应增益量化器404量化乘以从自适应码簿搜索单元403输出的自适应矢量的自适应增益,并且将结果输出到目标矢量发生器405。然后,将这个代码输出到多路复用器408。
目标矢量发生器405对将自适应矢量乘以自适应增益的结果与从加权部分402输入的输入信号进行矢量相减,并且将相减结果作为目标矢量输出到噪声码簿搜索单元406和噪声增益量化器407。
噪声码簿搜索单元406从噪声码簿中检索与从目标矢量发生器405输出的目标矢量相关的失真最小的噪声矢量。然后,噪声码簿搜索单元406将检索的噪声矢量输出到噪声增益量化器407,并且还将那个代码输出到多路复用器408。
噪声增益量化器407乘以噪声码簿搜索单元406检索的噪声矢量的噪声增益,并且将那个代码输出到多路复用器408。
多路复用器408多路复用LPC系数、自适应矢量、自适应增益、噪声矢量和噪声增益编码信息,并且将所得信号输出到局部解码器103和多路复用器108。
接着,描述图4中基本层编码器102的操作。首先,输入从向下取样器101输出的取样速率FL,和LPC分析器401获取LPC系数。将LPC系数转换成诸如LSP系数之类适合量化的参数,并且量化它们。将通过这种量化获得的编码信息供应给多路复用器408,并且,从编码信息中计算出量化LSP系数和将其转换成LPC系数。
通过这种量化,获得量化LPC系数。利用量化LPC系数、自适应码簿、自适应增益、噪声码簿和噪声增益进行编码。
然后,加权部分402根据LPC分析器401获得的LPC系数,对输入信号进行加权。这种加权的目的是进行谱成形,以便通过输入信号的频谱包络掩蔽量化失真谱。
然后,自适应码簿搜索单元403利用作为目标信号的加权输入信号搜索自适应码簿。以音调周期为基础重复旧激励序列的信号被称为自适应矢量,和自适应码簿由在预定范围的音调周期上生成的自适应矢量组成。
如果将加权输入信号指定为t(n),将包括LPC系数的加权合成滤波器的脉冲响应被卷积成音调周期为i的自适应矢量的信号指定为pi(n),那么,将使如下方程(1)的估算函数D达到极小的自适应矢量的音调周期i作为参数发送到多路复用器408。
这里,N表示矢量长度。
接着,自适应增益量化器404进行乘以自适应矢量的自适应增益的量化。自适应增益β用方程(2)表示。这个β值经受标量量化(scalar quantization),并且所得代码被发送到多路复用器408。
然后,目标矢量发生器405从输入信号中减去自适应矢量产生的效果,生成噪声码簿搜索单元406和噪声增益量化器407使用的目标矢量。如果这里的pi(n)表示当方程(1)所表示的估算函数D达到极小时,合成滤波器的脉冲响应被卷积成自适应矢量的信号,和βq表示当方程(2)所表示的自适应矢量β经受标量量化时的量化值,那么,目标矢量t2(n)由如下方程(2)表示。
t2(n)=t(n)-βq·pi(n) ...(3) 将前述目标矢量t2(n)和LPC系数供应给噪声码簿搜索单元406,进行噪声码簿搜索。
这里,提供给噪声码簿搜索单元406的噪声码簿的典型成分是代数。在代数码簿中,幅度为1的脉冲由只具有预定极少数的矢量表示。此外,对于代数码簿,事先决定可以为每个相位保留的位置,以便不重叠。因此,代数码簿的特征是,通过小量计算就可以确定脉冲位置和脉冲代码(极性)的最佳组合。
如果将目标矢量指定为t2(n),将加权合成滤波器的脉冲响应被卷积成与代码j相对应的噪声矢量的信号指定为cj(n),那么,将使如下方程(4)的估算函数D达到极小的噪声矢量的指标j作为参数发送到多路复用器408。
接着,噪声增益量化器407进行乘以噪声矢量的噪声增益的量化。噪声增益γ用方程(5)表示。这个γ值经受标量量化,并且所得代码被发送到多路复用器408。
多路复用器408多路复用发送的LPC系数、自适应码簿、自适应增益、噪声码簿和噪声增益编码信息,并且将所得信号输出到局部解码器103和多路复用器108。
当存在新输入信号时,重复上面的处理。当不存在新输入信号时,终止该处理。
现在描述增强层编码器107。图5是示出增强层编码器107的配置的例子的图形。图5中的增强层编码器107主要包括LPC分析器501、谱包络计算器502、MDCT部分503、功率计算器504、功率归一化器505、谱归一化器506、Bark标度归一化器508、Bark标度形状计算器507、矢量量化器509和多路复用器510。
LPC分析器501对输入信号进行LPC分析。并且,LPC分析器501在LSP或其它适合于量化的参数的值域中有效地量化LPC系数,LPC分析器将编码信息输出到多路复用器,和LPC分析器将量化LPC系数输出到谱包络计算器502。谱包络计算器502从量化LPC系数中计算谱包络,并且将这个谱包络输出到矢量量化器509。
MDCT部分503对输入信号进行MDCT(改进离散余弦变换)处理,并且将获得的MDCT系数输出到功率计算504和功率归一化器505。功率计算器504找出和量化MDCT系数的功率,并且将量化功率输出到功率归一化器505和将编码信息输出到多路复用器510。
功率归一化器505利用量化功率归一化MDCT系数,并且将功率归一化MDCT系数输出到谱归一化器506。谱归一化器506利用谱包络归一化根据功率归一化的MDCT系数,并且将归一化MDCT系数输出到Bark标度形状计算器507和Bark标度归一化器508。
Bark标度形状计算器507通过Bark标度计算以等间隔频带划分的频谱的形状,然后,量化这个谱形状,并且,将量化谱形状输出到Bark标度归一化器508和矢量量化器509。并且,Bark标度形状计算器507将编码信息输出到多路复用器510。
Bark标度归一化器508利用量化Bark标度形状归一化归一化MDCT系数,将结果输出到矢量量化器509。
矢量量化器509对从Bark标度归一化器508输出的归一化MDCT系数进行矢量量化,找出失真最小的代码矢量,并且将代码矢量的指标作为编码信息输出到多路复用器510。
多路复用器510多路复用所有编码信息,并且将所得信号输出到多路复用器108。
现在描述图5中增强层编码器107的操作。图1中的减法器106获得的相减信号经受LPC分析器501的LPC分析。然后,通过LPC分析计算出LPC系数。将LPC系数转换成此后进行量化、诸如LSP系数之类适合于量化的参数。将与这里获得的LPC系数有关的编码信息供应给多路复用器510。
谱包络计算器502根据解码的LPC系数,按照如下的方程(6)计算谱包络。
这里,αq表示解码的LPC系数,NP表示LPC系数的次序,和M表示谱分辨率。通过方程(6)获得的谱包络env(m)供如后所述的谱归一化器506和矢量量化器509使用。
然后,输入信号在MDCT部分503中经受MDCT处理,获得MDCT系数。MDCT处理的特征是,由于使用了每次一半地完全叠加连续帧的分析帧,和分析帧的前一半是奇函数,而分析帧的后一半是偶函数的正交基,不会出现帧边缘失真。当进行MDCT处理时,将输入信号与诸如正弦函数窗口那样的窗口函数相乘。当将MDCT系数指定为X(m)时,MDCT系数按照如下方程(7)计算。
这里,x(n)表示将输入信号乘以窗口函数时的信号。
接着,功率计算器504求出和量化MDCT系数X(m)的功率。然后,功率归一化器505利用方程(8)归一化具有那个量化之后的功率的MDCT系数。
这里,M表示MDCT系数的大小。在MDCT系数功率pow被量化之后,将编码信息发送到多路复用器510。利用编码信息解码MDCT系数的功率,和利用所得值,按照如下方程(9)归一化MDCT系数。
这里,X1(m)代表功率归一化之后的MDCT系数,和powq表示量化之后MDCT系数的功率。
然后,谱归一化器506利用谱包络归一化已经按照功率归一化的MDCT系数。谱归一化器506按照如下的方程(10)进行归一化。
接着,Bark标度形状计算器507通过Bark标度计算以等间隔频带划分的频谱的形状,然后,量化这个谱形状。Bark标度形状计算器507将这个编码信息发送到多路复用器510,并且还利用解码值,对作为来自谱归一化器506的输出信号的MDCT系数X2(m)进行归一化。Bark标度和Herz标度之间的对应关系通过如下方程(11)所表示的转换表达式给出。
这里,B表示Bark标度和f表示Herz标度。对于在Bark标度上以等间隔频带划分的子频带,Bark标度形状计算器507按照如下的方程(12)计算形状。
这里,fl(k)表示第k子频带的最低频率和fh(k)表示第k子频带的最高频率,和K表示子频带的个数。
然后,Bark标度形状计算器507量化每个频带的Bark标度形状B(k)和将编码信息发送到多路复用器510,并且还解码Bark标度形状和将结果供应给Bark标度归一化器508和矢量量化器509。利用归一化之后的Bark标度形状,Bark标度归一化器508按照如下方程(13)生成归一化MDCT系数X3(m)。
这里,Bq(k)表示第k子频带量化之后的Bark标度形状。
接着,矢量量化器509将X3(m)划分成数个矢量和利用与每个矢量相对应的码簿,找出失真最小的代码矢量,并且将这个指标作为编码信息发送到多路复用器510。
当进行矢量量化时,矢量量化器509利用输入信号谱信息,确定两个重要参数。这些参数之一是量化位分配,和另一个是码簿搜索加权。量化位分配是利用谱包络计算器502获得的谱包络env(m)确定的。
当利用谱包络确定量化位分配时,也可以作出这样的设置,使分配在与频率0到FL相对应的频谱中的位数很少。
实现这个过程的一个例子是设置可以分配在频率0到FL中的最大位数MAX_LOWBAND_BIT,并且,施加一个限制,以便分配在这个频带中的最大位数不超过最大位数MAX_LOWBAND_BIT的方法。
在这种实现例子中,由于在频率为0到FL的基本层中已经进行了编码,没有必要分配大量位数,和通过进行有意使这个频带中的量化粗糙些并使位分配保持在低水平上的量化和将额外位分配给频率FL到FH,可以提高总体质量。也可以使用通过组合谱包络env(m)和前述Bark标度形状Bq(k)确定这种位分配的配置。
利用应用谱包络计算器502获得的谱包络env(m)和从Bark标度形状计算器507获得的Bark标度形状Bq(k)中计算的权重的失真度量进行矢量量化。通过找出使如下方程(14)规定的失真D达到极小的代码矢量C的指标j实现矢量量化。
这里,w(m)表示加权函数。
利用谱包络env(m)和Bark标度形状Bq(k)可以将加权函数w(n)表示成如下方程(15)所示那样。
w(m)=(env(m)·Bq(Herz_to_Bark(m)))p...(15) 这里,p表示0和1之间的常数,和Herz_to_Bark()表示从Herz标度转换到Bark标度的函数。
当加权函数w(m)确定下来时,也可以作出这样的设置,使将位分配给与频率0到FL相对应的频谱的加权函数很小。实现这个过程的一个例子是下面将与频率0到FL相对应的加权函数w(m)的可能最大值设置成MAX_LOWBAND_WGT,并且,施加一个限制,以便这个频带的加权函数w(m)的值不超过MAX_LOWBAND_WGT的方法。在这种实现例子中,在频率为0到FL的基本层中已经进行了编码,通过有意降低这个频带的量化精度和相对提高频率FL到FH的量化精度,可以提高总体质量。
最后,多路复用器510多路复用编码信息,并且将所得信号输出到多路复用器108。当存在新输入信号时,重复上面的处理。当不存在新输入信号时,终止该处理。
因此,根据本实施例的信号处理设备,通过从输入信号中提取不超过预定频率的成分和利用码激励线性预测进行编码,和利用解码所得编码信息的结果通过MDCT处理进行编码,可以以低位速率进行高质编码。
上面已经描述了从减法器106获得的相减信号中分析LPC系数的例子,但本发明的信号处理设备也可以利用局部解码器103解码的LPC系数进行解码。
图6是示出增强层编码器107的配置的例子的图形。将与图5中相同的标号指定给图6中与图5中的那些相同的部分,并且省略对它们的详细描述。
图6中的增强层编码器107与图5中的增强层编码器107的不同之处在于,配备了转换表601、LPC系数映射部分602、谱包络计算器603和变换部分604,并且利用局部解码器103解码的LPC系数进行编码。
转换表601存储基本层LPC系数和增强层LPC系数,以及指示它们之间的对应关系。
LPC系数映射部分602参考转换表601,将从局部解码器103输入的基本层LPC系数转换成增强层LPC系数,并且将增强层LPC系数输出到谱包络计算器603。
谱包络计算器603根据增强层LPC系数获取谱包络,并且将这个谱包络输出到变换部分604。变换部分604变换谱包络和将结果输出到谱归一化器506和矢量量化器509。
现在描述图6中增强层编码器107的操作。基本层LPC系数是为信号带0到FL中的信号求的,并且与增强层信号(信号带0到FH)所用的LPC系数不一致。但是,在两者之间存在强关联。因此,在LPC系数映射部分602中,利用这种关联事先独立设计示出信号带0到FL信号的LPC系数和信号带0到FH信号的LPC系数之间的对应关系的转换表601。这个转换表601用于从基本层LPC系数中求出增强层LPC系数。
图7是示出增强层中的LPC系数计算的例子的图形。转换表601由表示增强层LPC系数(次序M)的J个候选者{Yj(m)}和与{Yj(m)}指定了对应关系、与基本层LPC系数具有相同次数(=K)的候选者{yj(k)}组成。{Yj(m)}和{yj(k)}是根据大规模音频和语音数据等事先设计和提供的。当输入基本层LPC系数x(k)时,从{yj(k)}当中找出与x(k)最相似的一系列LPC系数。通过输出与确定为最相似的LPC系数的指标j相对应的增强层LPC系数Yj(m),可以实现从基本层LPC系数到增强层LPC系数的映射。
接着,谱包络计算器603根据以这种方式找出的增强层LPC系数获得谱包络。然后,变换部分604变换这个谱包络。然后,将这个变换谱包络当作如上所述的实现例子的谱包络,由此加以处理。
实现变换谱包络的变换部分604的一个例子是使与经受基本层编码的信号带0到FL相对应的谱包络的作用很小的处理。如果将谱包络指定为env(m),变换env′(m)由如下方程(16)表示。
这里,p表示0和1之间的常数。
在频率为0到FL的基本层中已经进行了编码,和经过增强层编码的相减信号的频率0到FL之间的频谱接近平坦。与此无关,在如在这个实现例子中所述的LPC系数映射中不考虑这样的动作。因此,通过利用利用方程(16)校正谱包络的技术可以提高质量。
因此,根据本实施例的信号处理设备,通过利用基本层量化器量化的LPC系数求出增强层LPC系数,和从增强层LPC系数分析中计算出谱包络,使LPC分析和量化变得多余了,并且可以减少量化位的个数。
(第3实施例) 图8是示出根据本发明第3实施例的信号处理设备的增强层编码器的配置的方块图。将与图5中相同的标号指定给图8中与图5中的那些相同的部分,并且省略对它们的详细描述。
图8中的增强层编码器107与图5中的增强层编码器107的不同之处在于,配备了谱精细结构计算器801,并且,利用基本层编码器102编码和局部解码器103解码的音调周期计算谱精细结构,和将那个谱精细结构应用在谱归一化和矢量量化中。
谱精细结构计算器801从在基本层中编码的音调周期T和音调增益β中计算谱精细结构,并且将谱精细结构输出到谱归一化器506。
前述音调周期T和音调增益β实际上是编码信息的组成部分,并且,通过局部解码器(如图1所示)可以获得相同信息。因此,即使利用音调周期T和音调增益β进行编码,位速率也不会增加。
利用音调周期T和音调增益β进行编码,谱精细结构计算器801按照如下方程(17)计算谱精细结构har(m)。
这里,M表示谱分辨率。由于方程(17)是β的绝对值大于等于1时的振荡滤波,所以还存在设置一种限制,使β绝对值的可能范围小于等于小于1的预定设置值(例如,0.8)的方法。
谱归一化器506利用谱包络计算器502获得的谱包络env(m)和谱精细结构计算器801获得的谱精细结构har(m)两者,按照如下方程(18)进行归一化。
利用谱包络计算器502获得的谱包络env(m)和谱精细结构计算器801获得的谱精细结构har(m)两者还可以确定矢量量化器509的量化位分配。谱精细结构还用在矢量量化中的加权函数w(m)确定中。具体地说,按照如下方程(18)定义加权函数w(m)。
w(m)=(env(m)·har(m)·Bq(Herz_to_Bark(m)))p...(19) 这里,p表示0和1之间的常数,和Herz_to_Bark()表示从Herz标度转换到Bark标度的函数。
因此,根据本实施例的信号处理设备,通过利用基本层编码器编码和局部解码器解码的音调周期计算谱精细结构,和将那个谱精细结构应用在谱归一化和矢量量化中,可以提高量化性能。
(第4实施例) 图9是示出根据本发明第4实施例的信号处理设备的增强层编码器的配置的方块图。将与图5中相同的标号指定给图9中与图5中的那些相同的部分,并且省略对它们的详细描述。
图9中的增强层编码器107与图5中的增强层编码器的不同之处在于,配备了功率估计单元901和功率涨落量量化器902,并且,在局部解码器103中利用基本层编码器102获得的编码信息生成解码信号,根据那个解码信号预测MDCT系数功率,和根据那个预测值编码涨落量。
在图1中,解码参数从局部解码器103输出到增强层编码器107,但是,在本实施例中,将局部解码器103获得的解码信号输出到增强层编码器107,而不是解码参数。
图5中局部解码器103解码的信号sl(n)输入到功率估计单元901。然后,功率估计单元901根据这个解码信号sl(n)估计MDCT系数功率。如果将MDCT系数功率指定为powp,powp由如下方程(20)表示。
这里,N表示解码信号sl(n)的长度,和α表示用于校正的预定常数。在使用从基本层LPC系数中求出的谱斜度的另一种方法中,MDCT系数功率估计由如下方程(21)表示。
这里,β表示具有当谱斜度大时(当低频带中谱能量大时)接近0,和当谱斜度小时(当相对高区域中存在功率时)接近1的特性、取决于从基本层LPC系数中求出的谱斜度的变量。
接着,功率涨落量量化器902通过功率估计单元901获得的功率估计powp,归一化MDCT部分503获得的MDCT系数的功率,并且量化涨落量。涨落量r用如下方程(22)表示。
这里,pow表示MDCT系数功率,和通过方程(23)来计算。
这里,X(m)表示MDCT系数,和M表示帧长度。功率涨落量量化器902量化涨落量r,将编码信息发送到多路复用器510,并且还解码量化涨落量rq。利用量化涨落量rq,功率归一化器505利用如下方程(24)归一化MDCT系数。
这里,X1(m)表示功率归一化之后的MDCT系数。
因此,根据本实施例的信号处理设备,通过利用基本层解码信号功率和增强层MDCT系数功率之间的关联,利用基本层解码信号预测MDCT系数功率,和根据那个预测值编码涨落量,可以减少MDCT系数功率量化所需的位数。
(第5实施例) 图10是示出根据本发明第5实施例的信号处理设备的配置的方块图。图10中的信号处理设备主要包括多路分用器1001、基本层解码器1002、向上取样器1003、增强层解码器1004和加法器1005。
多路分用器1001分离编码信息,生成基本层编码信息和增强层编码信息。然后,多路分用器1001将基本层编码信息输出到基本层解码器1002,和将增强层编码信息输出到增强层解码器1004。
基本层解码器1002利用多路分用器1001获得的基本层编码信息解码取样速率FL解码信号,并且将所得信号输出到向上取样器1003。同时,将基本层解码器1002解码的参数输入到增强层解码器1004。向上取样器1003将解码信号取样频率升高到FH,并且将它输出到加法器1005。
增强层解码器1004利用多路分用器1001获得的增强层编码信息和基本层解码器1002解码的参数,解码取样速率FH解码信号,并且将所得信号输出到加法器1005。
加法器1005对从向上取样器1003输出的解码信号和从增强层解码器1004输出的解码信号进行相加。
现在描述本实施例的信号处理设备的操作。首先,输入在第1到第4实施例任何一个的信号处理设备中编码的代码,并且,多路分用器1001分离那个代码,生成基本层编码信息和增强层编码信息。
接着,基本层解码器1002利用多路分用器1001获得的基本层编码信息解码取样速率FL解码信号。然后,向上取样器1003将那个解码信号的取样频率升高到FH。
在增强层解码器1004中,利用多路分用器1001获得的增强层编码信息和基本层解码器1002解码的参数解码取样速率FH解码信号。
加法器1005相加向上取样器1003向上取样的基本层解码信号和增强层解码信号。当存在新输入信号时,重复上面的处理。当不存在新输入信号时,终止该处理。
因此,根据本实施例的信号处理设备,通过利用基本层解码器1002解码的参数进行增强层解码器1004解码,可以从利用基本层编码中的解码参数进行增强层编码的声音编码单元的编码信息中生成解码信号。
现在描述基本层解码器1002。图11是示出基本层解码器1002的例子的方块图。图11中的基本层解码器1002主要包括多路分用器1101、激励发生器1102和合成滤波器1103,和进行CELP解码处理。
多路分用器1101从多路分用器1001输入的基本层编码信息中分离出各种参数,并且将这些参数输出到和合成滤波器1103。
激励发生器1102进行自适应矢量、自适应矢量增益、噪声矢量和噪声矢量增益解码,利用这些值生成激励信号,并且将这个激励信号输出到合成滤波器1103。合成滤波器1103利用解码LPC系数生成合成信号。
现在描述图11中基本层解码器1002的操作。首先,多路分用器1101从基本层编码信息中分离出各种参数。
接着,激励发生器1102进行自适应矢量、自适应矢量增益、噪声矢量和噪声矢量增益解码。然后,激励发生器1102按照如下方程(25)生成激励矢量ex(n)。
ex(n)=βq·q(n)+γq·c(n) ...(25) 这里,q(n)表示自适应矢量,βq表示自适应矢量增益,c(n)表示噪声矢量,和γq表示噪声矢量增益。
然后,合成滤波器1103利用解码LPC系数,按照如下方程(26)生成合成信号syn(n)。
这里,αq表示解码LPC系数,和NP表示LPC系数的次序。
将以这种方式解码的解码信号syn(n)输出到向上取样器1003,并且将作为解码结果获得的参数输出到增强层解码器1004。当存在新输入信号时,重复上面的处理。当不存在新输入信号时,终止该处理。取决于CELP配置,在经过后置滤波器之后输出合成信号的模式也是可以的。所述的后置滤波器具有使编码失真更不易觉察的后处理功能。
现在描述增强层解码器1004。图12是示出增强层解码器1004的例子的方块图。图12中的增强层解码器1004主要包括多路分用器1201、LPC系数解码器1202、谱包络计算器1203、矢量解码器1204、Bark标度形状解码器1205、乘法器1206、乘法器1207、功率解码器1208、乘法器1209和IMDCT部分1210。
多路分用器1201从多路分用器1001输出的增强层编码信息中分离出各种参数。LPC系数解码器1202利用LPC系数相关编码信息解码LPC系数,并且将结果输出到谱包络计算器1203。
谱包络计算器1203利用LPC系数,按照方程(6)计算谱包络,并且将谱包络env(m)输出到矢量解码器1204和乘法器1207。
矢量解码器1204根据谱包络计算器1203获得的谱包络env(m)确定量化位分配,并且根据从多路分用器1201中获得的编码信息和前述量化位分配,解码归一化MDCT系数X3q(m)。量化位分配方法与用在第1到第4实施例任何一个的编码方法中的增强层编码中的方法相同。
Bark标度形状解码器1205根据从多路分用器1201中获得的编码信息,解码Bark标度形状Bq(k),并且将结果输出到乘法器1206。
乘法器1206按照如下方程(27),将归一化MDCT系数X3q(m)乘以Bark标度形状Bq(k),并且将结果输出到乘法器1207。
这里,fl(k)表示第k子频带的最低频率和fh(k)表示第k子频带的最高频率,和K表示子频带个数。
乘法器1207按照如下方程(28),将从乘法器1206中获得的归一化MDCT系数X2q(m)乘以谱包络计算器1203获得的谱包络env(m),并且将相乘结果输出到乘法器1209。
X1q(m)=X2q(m)env(m)...(28) 功率解码器1208根据从多路分用器1201中获得的编码信息解码功率powq,并且将解码结果输出到乘法器1209。
乘法器1209按照如下方程(29),将归一化MDCT系数X1q(m)乘以解码功率powq,并且将相乘结果输出到IMDCT部分1210。
IMDCT部分1210对以这种方式获得的解码MDCT系数进行IMDCT(改进离散余弦逆变换),重叠和相加一半在前一个帧中获得和一半在当前帧中获得的信号,并且,所得信号是输出信号。当存在新输入信号时,重复上面的处理。当不存在新输入信号时,终止该处理。
因此,根据本实施例的信号处理设备,通过利用基本层解码器解码的参数进行增强层解码器解码,可以从利用基本层编码中的解码参数进行增强层编码的编码单元的编码信息中生成解码信号。
(第6实施例) 图13是示出增强层解码器1004的例子的方块图。将与图12中相同的标号指定给图13中与图2中的那些相同的部分,并且省略对它们的详细描述。
图13中的增强层解码器1004与图12中的增强层编码器1004的不同之处在于,配备了转换表1301、LPC系数映射部分1302、谱包络计算器1303和变换部分1304,并且利用基本层解码器1002解码的LPC系数进行解码。
转换表1301存储基本层LPC系数和增强层LPC系数,以及指示它们之间的对应关系。
LPC系数映射部分1302参考转换表1301,将从局部解码器1002输入的基本层LPC系数转换成增强层LPC系数,并且将增强层LPC系数输出到谱包络计算器1303。
谱包络计算器1303根据增强层LPC系数获取谱包络,并且将这个谱包络输出到变换部分1304。变换部分1304变换谱包络和将结果输出到乘法器1207和矢量解码器1204。变换方法的一个例子是显示在第2实施例的方程(16)中的方法。
现在描述图13中增强层解码器1003的操作。基本层LPC系数是为信号带0到FL中的信号求的,并且与增强层信号(信号带0到FH)所用的LPC系数不一致。但是,在两者之间存在强关联。因此,在LPC系数映射部分1302中,利用这种关联事先独立设计示出信号带0到FL信号的LPC系数和信号带0到FH信号的LPC系数之间的对应关系的转换表1301。这个转换表1301用于从基本层LPC系数中求出增强层LPC系数。
转换表1301的细节与第2实施例中转换表601的细节相同。
因此,根据本实施例的信号处理设备,通过利用基本层解码器量化的LPC系数求出增强层LPC系数,和从增强层LPC系数中计算出谱包络,使LPC分析和量化变得多余了,并且可以减少量化位的个数。
(第7实施例) 图14是示出根据本发明第7实施例的信号处理设备的增强层解码器的配置的方块图。将与图12中相同的标号指定给图14中与图12中的那些相同的部分,并且省略对它们的详细描述。
图14中的增强层解码器1004与图12中的增强层解码器的不同之处在于,配备了谱精细结构计算器1401,并且,利用基本层解码器1002解码的音调周期计算谱精细结构,将那个谱精细结构应用在解码中,并且进行与声音编码相对应的声音解码,从而提高量化性能。
谱精细结构计算器1401从基本层解码器1002解码的音调周期T和音调增益β中计算谱精细结构,并且将谱精细结构输出到矢量解码器1204和乘法器1207。
利用音调周期Tq和音调增益βq,谱精细结构计算器1401按照如下方程(30)计算谱精细结构har(m)。
这里,M表示谱分辨率。由于方程(30)是βq的绝对值大于等于1时的振荡滤波,所以还可以设置一种限制,使βq绝对值的可能范围小于等于小于1的预定设置值(例如,0.8)。
利用谱包络计算器1203获得的谱包络env(m)和谱精细结构计算器1401获得的谱精细结构har(m)两者还可以确定矢量解码器1204的量化位分配。然后,根据那个量化位分配和从多路分用器1201中获得的编码信息解码归一化MDCT系数X3q(m)。此外,通过按照如下方程(31)将归一化MDCT系数X2q(m)乘以谱包络env(m)和谱精细结构har(m)求出归一化MDCT系数X1q(m)。
X1q(m)=X2q(m)env(m)har(m)...(31) 因此,根据本实施例的信号处理设备,通过利用基本层编码器编码和局部解码器解码的音调周期计算谱精细结构,和将那个谱精细结构应用在谱归一化和矢量量化中,可以进行与声音编码相对应的声音解码,从而提高量化性能。
(第8实施例) 图15是示出根据本发明第8实施例的信号处理设备的增强层解码器的配置的方块图。将与图12中相同的标号指定给图15中与图12中的那些相同的部分,并且省略对它们的详细描述。
图15中的增强层解码器1004与图12中的增强层解码器的不同之处在于,配备了功率估计单元1501、功率涨落量解码器1502和功率发生器1503,并且,形成与利用基本层解码信号预测MDCT系数功率,并根据那个预测值编码涨落量的编码器相对应的解码器。
在图10中,解码参数从基本层解码器1002输出到增强层解码器1004,但是,在本实施例中,将基本层解码器1002获得的解码信号输出到增强层解码器1004,而不是解码参数。
功率估计单元1501利用方程(20)或方程(21),从基本层解码器1002解码的解码信号sl(n)中估计MDCT系数的功率。
功率涨落量量化器1502根据从多路分用器1201获得的编码信息解码功率涨落量,并且将这个功率涨落量输出到功率发生器1503。功率发生器1503从功率涨落量中计算功率。
乘法器1209按照如下方程(32)求出MDCT系数。
这里,rq表示功率涨落量,和powp表示功率估计。X1q(m)表示来自乘法器1207的输出信号。
因此,根据本实施例的信号处理设备,通过配置与利用基本层解码信号预测MDCT系数功率,和根据那个预测值编码涨落量的编码器相对应的解码器,可以减少MDCT系数功率量化所需的位数。
(第9实施例) 图16是示出根据本发明第9实施例的声音编码设备的配置的方块图。图16中的声音编码设备1600主要包括向下取样器1601、基本层编码器1602、局部解码器1603、向上取样器1604、延迟器1605、减法器1606、频率确定部分1607、增强层编码器1608和多路复用器1609。
基本层编码器1602以预定基本帧为单位编码取样速率FL输入数据,并且将第一编码信息输出到局部解码器1603和多路复用器1609。基本层编码器1602可以利用,例如,CELP方法编码输入数据。
局部解码器1603解码第一编码信息,并且将通过解码获得的解码信号输出到向上取样器1604。向上取样器1604将解码信号取样速率升高到FH,并且将结果输出到减法器1606和频率确定部分1607。
延迟器1605将输入信号延迟预定时间,然后,将信号输出到减法器1606。通过使这个延迟时间等于在向下取样器1601、基本层编码器1602、局部解码器1603和向上取样器1604中产生的时间延迟,可以防止在接着的相减处理中出现相移。减法器1606进行输入信号和解码信号之间的相减,并且将相减结果作为误差信号输出到增强层编码器1608。
频率确定部分1607根据取样速率已经升高到FH的解码信号确定进行误差信号编码的区域和不进行误差信号编码的区域,并且通知增强层编码器1608。例如,频率确定部分1607根据取样速率已经升高到FH的解码信号确定听觉掩蔽的频率,并且将这个频率输出到增强层编码器1608。
增强层编码器1608将误差信号转换到频域和生成误差谱,并且根据从频率确定部分1607中获得的频率信息进行误差谱编码。多路复用器1609多路复用通过基本层编码器1602编码获得编码信息和通过增强层编码器1608编码获得编码信息。
现在分别描述基本层编码器1602和增强层编码器1608编码的信号。图17是示出声信号信息分布的例子的图形。在图17中,垂直轴表示信息量,而水平轴表示频率。图17示出了在哪些频带中给出多少包含在输入信号中的语音信息和背景音乐和背景噪声信息。
如图17所示,在语音信息的情况下,在低频区中存在大量信息,信息量随着频区增高而减少。相反,在背景音乐和背景噪声信息的情况下,与语音信息相比,在较低区域中存在相对少的信息,和在较高区域中存在大量信息。
因此,在基本层中,利用CELP高质量地编码语音信号,和在增强层中,不能在基本层中得到表示的背景音乐或环境声音和存在比基本层覆盖的频区高的频率成分的信号得到有效编码。
图18是示出基本层和增强层中编码区的例子的图形。在图18中,垂直轴表示信息量,而水平轴表示频率。图18示出了作为分别由基本层编码器1603和增强层编码器1608编码的信息的对象的区域。
基本层编码器1602被设计成有效表示从0到FL的频带中的语音信息,并且可以对该区域中的语音信息进行高质编码。但是,对于基本层编码器1602,从0到FL的频带中背景音乐和背景噪声信息的编码质量不高。
增强层编码器1608被设计成覆盖如上所述,基本层编码器1602的能力不足的部分和从FL到FH的频带中的信号。因此,通过组合基本层编码器1502和增强层编码器1608,可以在宽带中实现高质编码。
如图18所示,通过基本层编码器1602中的编码获得的第一编码信息包含0和FL之间的频带中的语音信息,因此,可以实现即使只利用至少第一编码信息也可以获得解码信号的可伸缩功能。
此外,可以考虑利用增强层中的听觉掩蔽来升高编码频率。听觉掩蔽应用了当供应某个信号时,频率在那个信号的频率附近的信号不能被听到(被掩蔽)的人听觉特性。
图19是示出声(音乐)信号谱的例子的例子。在图19中,实线表示听觉掩蔽,和虚线表示误差谱。这里的“误差谱”指的是输入信号和基本层解码信号的误差信号(增强层输入信号)的频谱。
在图19中阴影区所指的误差谱中,幅度值低于听觉掩蔽,因此,人的耳朵听不到声音,而在其它区域中,误差谱幅度值超过听觉掩蔽,因此,感觉得到量化失真。
在增强层中,只需编码包括在图19中的白区中的误差谱,使得那些区域的量化失真小于听觉掩蔽。属于阴影区的系数已经小于听觉掩蔽,因此,不需要量化。
在本实施例的声音编码设备1600中,根据听觉掩蔽等编码残留误差信号的频率不从编码方发送到解码方,编码方和解码方利用向上取样基本层解码信号分开确定进行增强层编码的误差谱频率。
在解码信号来源于对基本层编码信息的解码的情况下,编码方和解码方获得相同信号,因此,通过让编码方通过从这个解码信号中确定听觉掩蔽频率来编码信号和让解码方通过从这个解码信号中获取听觉掩蔽频率来解码信号,编码和发送作为附加信息的误差谱频率信息就变得多余了,从而能够实现位速率的降低。
接着,详细描述根据本实施例的声音编码设备的操作。首先,描述频率确定部分1607从向上取样基本层解码信号(下文称为“基本层解码信号”)中确定在增强层中编码的误差谱频率的操作。图20是示出本实施例的声音编码设备的频率确定部分的内部配置的例子的方块图。
在图20中,频率确定部分1607主要包括FFT部分1901、估计听觉掩蔽计算器1902和确定部分1903。
FFT部分1901对从向上取样器1604输出的基本层解码信号x(n)进行正交转换,计算幅度谱P(m),并且将幅度谱P(m)输出到估计听觉掩蔽计算器1902和确定部分1903。具体地说,FFT部分1901利用如下方程(33)计算幅度谱P(m)。
这里,Re(m)和Im(m)表示基本层解码信号x(n)的付里叶系数的实部和虚部,和m表示频率。
接着,估计听觉掩蔽计算器1902利用基本层解码信号幅度谱P(m)计算估计听觉掩蔽M′(m),并且将估计听觉掩蔽M′(m)输出到确定部分1903。一般说来,听觉掩蔽是根据输入信号的频谱计算的,但在这个实现例子中,利用基本层解码信号x(n)而不是利用输入信号来估计听觉掩蔽。这基于这样的思想,由于基本层解码信号x(n)被确定成相对应于输入信号失真很小,所以,如果用基本层解码信号x(n)取代输入信号,将会取得足够好的近似,并且主要问题也不会存在。
然后,确定部分1903利用基本层解码信号幅度谱P(m)和估计听觉掩蔽计算器1902获得的估计听觉掩蔽M′(m),确定增强层编码器1608进行误差谱编码可应用的频率。确定部分1903把基本层解码信号幅度谱P(m)当作误差谱的近似,并且将使如下方程(34)成立的频率输出到增强层编码器1608。
P(m)-M′(m)>0...(34) 在方程(34)中,项P(m)估计误差谱的大小,和项M′(m)估计听觉掩蔽。然后,确定部分1903比较估计误差谱和估计听觉掩蔽的值,并且,如果方程(34)得到满足-也就是说,如果估计误差谱的值超过估计听觉掩蔽的值-假设那个频率的误差谱是可当作噪声感觉的,并且让增强层编码器1608对它进行编码。
相反,如果估计误差谱的值小于估计听觉掩蔽的大小,确定部分1903认为由于掩蔽效应,那个频率的误差谱将不会当作噪声感觉到,并且确定不要对这个频率的误差谱进行量化。
现在描述估计听觉掩蔽计算器1902的操作。图21是示出本实施例的声音编码设备的听觉掩蔽计算器的内部配置的例子的图形。在图21中,估计听觉掩蔽计算器1902主要包括Bark谱计算器2001、扩展函数卷积单元2002、音调计算器2003和听觉掩蔽计算器2004。
在图21中,Bark谱计算器2001利用如下方程(35)计算Bark谱B(k)。
这里,P(m)表示幅度谱,并且从上面的方程(33)中求出,k与Bark谱号相对应,和fl(k)和fh(k)分别表示第kBark谱的最低频率和最高频率。在频带分布在Bark标度上是等间隔的情况下,Bark谱B(k)表示谱强度。如果Herz标度用h表示和Bark标度用B表示,Herz标度和Bark标度之间的关系用如下方程(36)表示。
扩展函数卷积单元2002利用如下方程(37)将扩展函数SF(k)卷积成Bark谱B(k)。
C(k)=B(k)*SF(k)...(37) 音调计算器2003利用如下方程(38)求出每个Bark谱的谱平坦度SFM(k)。
这里,μg(k)表示第k Bark谱中功率谱的几何平均,和μa(k)表示第k Bark谱中功率谱的算术平均。然后,音调计算器2003利用如下方程(39),从谱平坦度SFM(k)的分贝值SFMdB(k)中计算音调系数α(k)。
利用如下方程(40),听觉掩蔽计算器2004从音调计算器2003计算的音调系数α(k)中求出每个Bark标度的偏移量O(k)。
O(k)=α(k)·(14.5-k)+(1.0-α(k))·5.5...(40) 然后,听觉掩蔽计算器2004利用如下方程(41),通过从扩展函数卷积单元2002求出的C(k)中减去偏移量O(k)计算听觉掩蔽T(k)。
这里,Tq(k)表示绝对阈值。绝对阈值代表作为人听觉特性观察的听觉掩蔽的最小值。听觉掩蔽计算器2004将在Bark标度上表达的听觉掩蔽T(k)转换成Herz标度。并且求出输出到确定部分1903的估计听觉掩蔽M′(k)。
增强层编码器1608利用以这种方式求出的经过量化的频率m进行MDCT系数编码。图22是示出本实施例的增强层编码器的内部配置的例子的图形。图22中的增强层编码器1608主要包括MDCT部分2101和MDCT系数量化器2102。
MDCT部分2101将从减法器1606输出的输入信号乘以分析窗,然后,进行MDCT(改进离散余弦变换)处理以获得MDCT系数。在MDCT处理中,供分析用的正交基用于相继的两个帧。并且,分析帧一半重叠,分析帧的前一半是奇函数,而分析帧的后一半是偶函数。MDCT处理的特征是,由于逆变换之后波形的叠加造成的相加,不会出现帧边缘失真。当进行MDCT时,输入信号被乘以诸如正弦函数窗口之类的窗口函数。如果将一系列MDCT系数指定为X(n)时,MDCT系数按照如下方程(42)计算。
MDCT系数量化器2102量化与来自频率确定部分1607的频率相对应的系数。然后,MDCT系数量化器2102将量化MDCT系数编码信息输出到多路分用器1609。
因此,根据本实施例的声音编码设备,由于利用基本层解码信号确定了增强层中用于量化的频率,没有必要将用于量化的频率信息从编码方发送到解码方,并且能够以低位速率进行高质编码。
在上面的实施例中,已经描述了使用FFT的听觉掩蔽计算方法,但是,也可以利用MDCT取代FFT来计算听觉掩蔽。图23是示出本实施例的听觉掩蔽计算器的内部配置的例子的图形。将与图20中相同的标号指定给图23中与图20中的那些相同的部分,并且省略对它们的详细描述。
MDCT部分2201利用MDCT系数近似计算幅度谱P(m)。具体地说,MDCT部分2201利用如下方程(43)近似计算幅度谱P(m)。
这里,R(m)是通过对向上取样器1604供应的信号进行MDCT处理求出的MDCT系数。
估计听觉掩蔽计算器1902从P(m)中近似计算Bark谱B(k)。此后,按照上述方法计算用于量化的频率信息。
因此,本实施例的声音编码设备可以利用MDCT计算听觉掩蔽。
现在描述解码方。图24是示出根据本发明第9实施例的声音解码设备的配置的方块图。图24中的声音解码设备2300主要包括多路分用器2301、基本层解码器2302、向上取样器2303、频率确定部分2304、增强层解码器2305和加法器2306。
多路分用器2301将声音编码设备1600编码的代码分离成基本层第一编码信息和增强层第二编码信息,并且将第一编码信息输出到基本层解码器2302,和将第二编码信息输出到增强层解码器2305。
基本层解码器2302解码第一编码信息和获取取样速率FL解码信号。然后,基本层解码器2302将解码信号输出到向上取样器2303。向上取样器2303将取样速率FL解码信号转换成取样速率FH解码信号,并且将这个信号输出到频率确定部分2304和加法器2306。
利用向上取样基本层解码信号,频率确定部分2304确定要在增强层解码器2305中解码的误差谱频率。这个频率确定部分2304具有与图16中的频率确定部分16相同类型的配置。
增强层解码器2305解码第二编码信息和将取样速率FH解码信号输出到加法器2306。
加法器2306相加向上取样器2303向上取样的基本层解码信号和增强层解码器2305解码的增强层解码信号,并且输出所得信号。
接着,详细描述根据本实施例的声音解码设备的每个方块的操作。图25是示出本实施例的声音解码设备的增强层解码器的内部配置的例子的方块图。图25示出了图24中的增强层解码器2305的内部配置的例子。图25中的增强层解码器2305主要包括MDCT系数解码器2401、IMDCT部分2402和叠加加法器2403。
MDCT系数解码器2401根据从频率确定部分2304输出的频率,确定从多路分用器2301输出的第二编码信息中量化的MDCT系数。具体地说,定位与频率确定部分2304所指的频率相对应的解码MDCT系数,并且,对于其它频率填上零。
IMDCT部分2402对从MDCT系数解码器2401输出的MDCT系数进行逆MDCT处理,生成时域信号,并且将这个信号输出到叠加加法器2403。
叠加加法器2403在对来自IMDCT部分2402的时域信号开窗之后,进行叠加和相加操作,并且,它将解码信号输出到加法器2306。具体地说,叠加加法器2403将解码信号乘以一个窗口和叠加在前一帧和当前帧中解码的时域信号,进行相加,并且生成输出信号。
因此,根据本实施例的声音解码设备,通过利用基本层解码信号确定用于增强层解码的频率,无需任何附加信息就可以确定用于增强层解码的频率,并且,能够以低位速率进行高质编码。
(第10实施例) 在本实施例中,描述CELP用在基本层编码中的例子。图26是示出根据本发明第10实施例的基本层编码器的内部配置的例子的方块图。图26示出了图16中的基本层编码器1602的内部配置的例子。图26中的基本层编码器1602主要包括LPC分析器2501、加权部分2502、自适应码簿搜索单元2503、自适应增益量化器2504、目标矢量发生器2505、噪声码簿搜索单元2506、噪声增益量化器2507和多路复用器2508。
LPC分析器2501计算取样速率FL输入信号的LPC系数,将LPC系数转换成诸如LSP系数之类适合于量化的参数,并且进行量化。然后,LPC分析器2501将通过这种量化获得的编码信息输出到多路复用器2508。
此外,LPC分析器2501从编码信息中计算量化LSP系数,将这个量化LSP系数转换成LSP系数,并且将量化LSP系数输出到自适应码簿搜索单元2503、自适应增益量化器2504、噪声码簿搜索单元2506和噪声增益量化器2507。LPC分析器2501还将原LPC系数输出到加权部分2502、自适应码簿搜索单元2503、自适应增益量化器2504、噪声码簿搜索单元2506和噪声增益量化器2507。
加权部分2502根据LPC分析器1501获得的LPC系数,对从向下取样器1601输出的输入信号进行加权。这种操作的目的是进行谱成形,以便通过输入信号谱包络掩蔽量化失真谱。
然后,自适应码簿搜索单元2503利用作为目标信号的加权输入信号搜索自适应码簿。以音调周期为基础重复以前确定激励信号的信号被称为自适应矢量,和自适应码簿由在预定范围的音调周期上生成的自适应矢量组成。
如果将加权输入信号指定为t(n),和将包括原LPC系数和量化LPC系数的加权合成滤波器的脉冲响应被卷积成音调周期为i的自适应矢量的信号指定为pi(n),那么,自适应码簿搜索单元2503将使如下方程(44)的估算函数D达到极小的自适应矢量的音调周期i作为编码信息输出到多路复用器408。
这里,N表示矢量长度。由于方程(44)的第一项与音调周期i无关,自适应码簿搜索单元2503实际上只计算第二项。
自适应增益量化器2504进行乘以自适应矢量的自适应增益的量化。自适应增益β用方程(45)表示。自适应增益量化器2504进行这个自适应增益β的标量量化,并且将在量化过程中获得的编码信息输出到多路复用器2508。
目标矢量发生器2505从输入信号中减去自适应矢量产生的效果,生成和输出噪声码簿搜索单元2506和噪声增益量化器2507使用的目标矢量。在目标矢量发生器2505中,如果pi(n)表示当方程(44)所表示的估算函数D达到极小时,加权合成滤波器脉冲响应被卷积成自适应矢量的信号,和βq表示当方程(45)所表示的自适应矢量β经受标量量化时的量化自适应增益,那么,目标矢量t2(n)由如下方程(46)表示。
t2(n)=t(n)-βq·pi(n)...(46) 噪声码簿搜索单元406利用前述目标矢量t2(n)、原LPC系数和量化LPC系数,进行噪声码簿搜索。噪声码簿搜索单元406可以使用,例如,随机噪声或利用大量语音信号学习的信号。此外,可以使用代数码簿。代数码簿由一些脉冲组成。这样代数码簿的特征是,通过小量计算就可以确定脉冲位置和脉冲代码(极性)的最佳组合。
如果将目标矢量指定为t2(n),和将加权合成滤波器的脉冲响应被卷积成与代码j相对应的噪声矢量的信号指定为cj(n),那么,噪声码簿搜索单元2506将使如下方程(47)的估算函数D达到极小的噪声矢量的指标j输出到多路复用器2508。
噪声增益量化器2507量化乘以噪声矢量的噪声增益。噪声增益量化器2507利用如下方程(48)计算自适应增益γ,对这个噪声增益γ进行标量量化,并且将编码信息输出到多路复用器2508。
多路复用器2508多路复用LPC系数的编码信息、自适应矢量、自适应增益、噪声矢量和噪声增益编码信息,并且将所得信号输出到局部解码器1603和多路复用器1609。
现在描述解码方。图27是示出本实施例的基本层解码器的内部配置的例子的方块图。图27示出了基本层解码器2302的例子。图27中的基本层解码器2302主要包括多路分用器2601、激励发生器2602和合成滤波器2603。
多路分用器2601将来自多路分用器2301的第一编码信息分离成LPC系数、自适应矢量、自适应增益、噪声矢量和噪声增益编码信息,并且将自适应矢量、自适应增益、噪声矢量和噪声增益编码信息输出到激励发生器2602。类似地,多路分用器2601将线性预测系数编码信息输出到合成滤波器2603。
激励发生器2602解码自适应矢量、自适应矢量增益、噪声矢量和噪声矢量增益编码信息,和利用如下方程(49)生成激励矢量ex(n)。
ex(n)=βq·q(n)-γq·c(n) ...(49) 这里,q(n)表示自适应矢量,βq表示自适应矢量增益,c(n)表示噪声矢量,和γq表示噪声矢量增益。
合成滤波器2603对LPC系数编码信息进行LPC系数解码,和利用如下方程(50),从解码LPC系数中生成合成信号syn(n)。
这里,αq表示解码LPC系数,和NP表示LPC系数的次序。然后,合成滤波器2603将以这种方式解码的解码信号syn(n)输出到向上取样器2303。
因此,根据本实施例的声音编码设备,通过在发送方在基本层中利用CELP编码输入信号,和在接收方利用CELP解码这个编码输入信号,可以以低位速率实现高质基本层。
为了抑制量化失真被人们感觉到,本实施例的编码设备也可以应用在合成滤波器2603之后附属连接后置滤波器的配置。图28是示出本实施例的基本层解码器的内部配置的例子的方块图。将与图27中相同的标号指定给图28中与图27中的那些相同的部分,并且省略对它们的详细描述。
各种类型的配置可用于后置滤波器,以实现量化失真被人们感觉到的抑制,一种典型方法是利用包括通过多路分用器2601解码获得的LPC系数的共振峰强调滤波器的方法。共振峰强调滤波函数Hf(z)用如下方程(51)表示。
这里,A(z)表示包括解码LPC系数的分析滤波函数,和γn、γd和μ表示确定滤波器特性的常数。
(第11实施例) 图29是示出根据本发明第11实施例的声音编码设备的频率确定部分的内部配置的例子的方块图。将与图20中相同的标号指定给图29中与图20中的那些相同的部分,并且省略对它们的详细描述。图29中的频率确定部分1607与图20中的频率确定部分的不同之处在于,配备了估计误差谱计算器2801和确定部分2802,并且,从基本层解码信号幅度谱P(m)中估计估计误差谱E′(m),和利用估计误差谱E′(m)和估计听觉掩蔽M′(m),确定增强层编码器1608编码的误差谱的频率。
FFT部分1901对从向上取样器1604输出的基本层解码信号x(n)进行付里叶变换,计算幅度谱P(m),并且将幅度谱P(m)输出到估计听觉掩蔽计算器1902和估计误差谱计算器2801。具体地说,FFT部分1901利用如下方程(33)计算幅度谱P(m)。
估计误差谱计算器2801从FFT部分1901计算的基本层解码信号幅度谱P(m)中计算估计误差谱E′(m),并且将估计误差谱E′(m)输出到确定部分2802。估计误差谱E′(m)是通过执行使基本层解码信号幅度谱P(m)接近平坦的处理计算的。具体地说,估计误差谱计算器2801利用如下方程(52)计算估计误差谱E′(m)。
E′(m)=a·P(m)γ...(52) 这里,a和γ是大于等于0和小于1的常数。
利用估计误差谱计算器2801获得的估计误差谱E′(m)和估计听觉掩蔽计算器1902获得的估计听觉掩蔽M′(m),确定部分1903确定增强层编码器1608用于误差谱编码的频率。
接着,描述本实施例的估计误差谱计算器2801计算的估计误差谱。图30是示出本实施例的估计误差谱计算器计算的残留误差谱的例子的图形。
如图30所示,误差谱E(m)的谱线形状比基本层解码信号幅度谱P(m)的谱线形状光滑,并且,它的总频带功率较小。因此,通过使幅度谱P(m)变平成γ(0<γ<1)的功率,和通过乘以a(0<a<1)降低总频带功率,可以提高误差谱估计的精度。
此外,在解码方,声音解码设备2300的频率确定部分2304的内部配置与图29中的编码方频率确定部分1607的内部配置相同。
因此,根据本实施例的声音编码设备,通过使从基本层解码信号谱中估计的残留误差谱变平滑,可以使估计误差谱接近残留误差谱,和可以在增强层中有效地编码误差谱。
在本实施例中,已经描述了使用FFT的情况,但是,像上述第9实施例中那样,MDCT或其它变换用来取代FFT的配置也是可以的。
(第12实施例) 图31是示出根据本发明第12实施例的声音编码设备的频率确定部分的内部配置的例子的方块图。将与图20中相同的标号指定给图31中与图20中的那些相同的部分,并且省略对它们的详细描述。图31中的频率确定部分1607与图20中的频率确定部分的不同之处在于,配备了估计听觉掩蔽校正部分3001和确定部分3002,并且,在通过估计听觉掩蔽计算器1902从基本层解码信号幅度谱P(m)中计算出估计听觉掩蔽M′(m)之后,频率确定部分1607根据局部解码器1603解码参数信息,对这个估计听觉掩蔽M′(m)加以校正。
FFT部分1901对从向上取样器1604输出的基本层解码信号x(n)进行付里叶变换,计算幅度谱P(m),并且将幅度谱P(m)输出到估计听觉掩蔽计算器1902和确定部分3002。估计听觉掩蔽计算器1902利用基本层解码信号幅度谱P(m)计算估计听觉掩蔽M′(m),并且将估计听觉掩蔽M′(m)输出到估计听觉掩蔽校正部分3001。
因此,根据本实施例的声音编码设备,通过使从基本层解码信号谱中估计的残留误差谱变平滑,可以使估计误差谱接近残留误差谱,和可以在增强层中有效地编码误差谱。
利用从局部解码器1603输入的基本层解码参数信息,估计听觉掩蔽校正部分3001对估计听觉掩蔽计算器1902获得的估计听觉掩蔽M′(m)加以校正。
这里假设供应从解码LPC系数中计算的一阶PARCOR系数作为基本层编码信息。一般说来,LPC系数和PARCOR系数代表输入信号谱包络。由于PARCOR系数的特性,随着PARCOR系数的阶降低,谱包络的形状简化了,并且,当PARCOR系数的阶是1时,指出了频谱的倾斜度。
另一方面,在音频或语音输入信号的谱特性中,存在与较高区相反,功率朝着较低区方向偏置的情况(例如,对于元音),和反过来的情况(例如,对于辅音)。基本层解码信号易受这样输入信号谱特性的影响,并且,存在过分强调谱功率偏置的倾向。
因此,在本实施例的声音编码设备中,通过在估计听觉掩蔽校正部分3001中利用前述一阶PARCOR系数校正过分强调谱偏置,可以提高估计听觉掩蔽M′(m)的精度。
估计听觉掩蔽校正部分3001利用如下方程(53),从基本层编码器1602输出的一阶PARCOR系数k(1)中计算校正滤波函数Hk(z)。
Hk(z)=1-β·k(1)·z-1...(53) 这里,β表示小于1的正常数。接着,估计听觉掩蔽校正部分3001利用如下方程(54),计算校正滤波函数Hk(z)的幅度特性K(m)。
然后,估计听觉掩蔽校正部分3001利用如下方程(55),从校正滤波函数幅度特性K(m)中计算校正估计听觉掩蔽M″(m)。
M″(m)=K(m)·M′(m)...(55) 然后,取代估计听觉掩蔽M′(m),估计听觉掩蔽校正部分3001将校正估计听觉掩蔽M″(m)输出到确定部分3002。
利用基本层解码信号幅度谱P(m)和从估计听觉掩蔽校正部分3001输出的校正估计听觉掩蔽M″(m),确定部分3002确定增强层编码器1608用于误差谱编码的频率。
因此,根据本实施例的声音编码设备,通过利用掩蔽效应特性,从输入信号谱中计算听觉掩蔽,和在增强层编码中进行使量化失真不超过掩蔽值的量化,在不会使质量下降的情况下,可以减少经受量化的MDCT系数的个数,和以低位速率进行高质编码。
因此,根据本实施例的声音编码设备,通过根据基本层编码器解码参数信息对估计听觉掩蔽加入校正,可以提高估计听觉掩蔽的精度,和在增强层中进行有效误差谱编码。
此外,在解码方,声音解码设备2300的频率确定部分2304的内部配置与图31中的编码方频率确定部分1607的内部配置相同。
对于本实施例的频率确定部分1607,还可以应用将本实施例和第11实施例组合在一起的配置。图32是示出本实施例的声音编码设备的频率确定部分的内部配置的例子的方块图。将与图20中相同的标号指定给图32中与图20中的那些相同的部分,并且省略对它们的详细描述。
FFT部分1901对从向上取样器1604输出的基本层解码信号x(n)进行付里叶变换,计算幅度谱P(m),并且将幅度谱P(m)输出到估计听觉掩蔽计算器1902和估计误差谱计算器2801。
估计听觉掩蔽计算器1902利用基本层解码信号幅度谱P(m)计算估计听觉掩蔽M′(m),并且将估计听觉掩蔽M′(m)输出到估计听觉掩蔽校正部分3001。
在估计听觉掩蔽校正部分3001中,应用从局部解码器1603输入的基本层解码参数信息来校正估计听觉掩蔽计算器1902获得的估计听觉掩蔽M′(m)。
估计误差谱计算器2801从FFT部分1901计算的基本层解码信号幅度谱P(m)中计算估计误差谱E′(m),并且将估计误差谱E′(m)输出到确定部分3101。
利用估计误差谱计算器2801估计的估计误差谱E′(m)和从估计听觉掩蔽校正部分3001输出的校正听觉掩蔽M″(m),确定部分3101确定增强层编码器1608进行误差谱编码的频率。
在本实施例中,已经描述了使用FFT的情况,但是,像上述第9实施例中那样,MDCT或其它变换技术用来取代FFT的配置也是可以的。
(第13实施例) 图33是示出根据本发明第13实施例的声音编码设备的增强层编码器的内部配置的例子的方块图。将与图22中相同的标号指定给图33中与图22中的那些相同的部分,并且省略对它们的详细描述。图33中的增强层编码器与图22中的增强层编码器的不同之处在于,配备了定序部分3201和MDCT系数量化器3202,并且,按照估计失真值D(m)的数量,通过频率对频率确定部分1607供应的频率进行加权。
在图33中,MDCT部分2101将从减法器1606输出的输入信号乘以分析窗,然后,进行MDCT(改进离散余弦变换)处理以获得MDCT系数,并且将MDCT系数输出到MDCT系数量化器3202。
定序部分3201接收频率确定部分1607获得的频率信息,并且计算每个频率的估计误差谱E′(m)超过估计听觉掩蔽M′(m)的数量(下文称为“估计失真值”)D(m)。这个估计失真值D(m)由如下方程(56)定义。
D(m)=E’(m)-M’(m)...(56) 这里,定序部分3201只计算满足如下方程(57)的估计失真值D(m)。
E’(m)-M’(m)>0...(57) 然后,定序部分3201按从高到低估计失真值D(m)次序进行定序,并且将相应频率信息输出到MDCT系数量化器3202。MDCT系数量化器3202进行量化,根据估计失真值D(m),将位成正比地分配给位于按从高到低估计失真值D(m)次序排列的频率上的误差谱E(m)。
作为一个例子,这里描述从频率确定部分发送的频率和估计失真值像图34所示那样的情况。图34是示出本实施例的定序部分排序估计失真值的例子的图形。
定序部分3201根据图34中的信息,按从高到低估计失真值D(m)次序重新排列频率。在本例中,作为定序部分3201的处理结果获得的频率m次序是7、8、4、9、1、11、3、12。定序部分3201将这个定序信息输出到MDCT系数量化器3202。
在MDCT部分2101给出的误差谱E(m)内,MDCT系数量化器3202根据定序部分3201给出的定序信息,量化E(7)、E(8)、E(4)、E(9)、E(1)、E(11)、E(3)、E(12)。
同时,在该次序的开头分配许多用于误差谱量化的位,和朝着该次序的末端分配逐渐减少的位。也就是说,频率的估计失真值D(m)越大,分配用于误差谱量化的位就越多,频率的估计失真值D(m)越小,分配用于误差谱量化的位就越少。
例如,可以进行如下位分配对于E(7),8个位;对于E(8)和E(4),7个位;对于E(9)和E(1),6个位;对于E(11)、E(3)和E(12),5个位。这样,根据估计失真值D(m)进行自适应位分配提高了量化效率。
当应用矢量量化时,增强层编码器1608从位于该次序的开头上的误差谱开始依次配置矢量,并且对各自矢量进行矢量量化。同时,进行矢量配置和量化位分配,以便对于位于该次序的开头上的误差谱,分配的位较多,和对于位于该次序的末端上的误差谱,分配的位较少。在图34中的例子中,配置了三个矢量-二维、二维和四维,以及V1=(E(7),E(8))、V2=(E(4),E(9))和V3=(E(1),E(11),E(3),E(12)),并且,位分配是对于V1,10个位;对于V2,8个位;和对于V3,8个位。
因此,根据本实施例的声音编码设备,通过在增强层编码中进行将大量信息分配给估计误差谱超过估计听觉掩蔽的数量大的频率的编码,可以实现量化效率的提高。
现在描述解码方。图35是示出根据本发明第13实施例的声音解码设备的增强层解码器的内部配置的例子的方块图。将与图25中相同的标号指定给图35中与图25中的那些相同的部分,并且省略对它们的详细描述。图35中的增强层解码器2305与图25中的增强层解码器的不同之处在于,配备了定序部分3401和MDCT系数解码器3402,并且,按照估计失真值D(m)的数量定序频率确定部分2304供应的频率。
定序部分3401利用上面的方程(56)计算估计失真值D(m)。定序部分3401具有与上述定序部分3201相同的配置。通过这种配置,可以解码能够进行自适应位分配和提高量化效率的上述声音编码方法的编码信息。
MDCT系数解码器3402利用按照估计失真值D(m)的数量定序的频率信息,解码从多路分用器2301输出的第二编码信息。具体地说,MDCT系数解码器3402定位与频率确定部分2304供应的频率相对应的解码MDCT系数,并且,对于其它频率填上零。然后,IMDCT部分2402对从MDCT系数解码器2401获得的MDCT系数进行逆MDCT处理,生成时域信号。
叠加加法器2403为了组合将前述信号乘以一个窗口函数,和叠加在前一帧和当前帧中解码的时域信号,进行相加,并且生成输出信号。叠加加法器2403将这个输出信号输出到加法器2306。
因此,根据本实施例的声音解码设备,通过在增强层编码中进行按照估计误差谱超过估计听觉掩蔽的数量进行自适应位分配的矢量量化,可以实现量化效率的提高。
(第14实施例) 图36是示出根据本发明第14实施例的声音编码设备的增强层编码器的内部配置的例子的方块图。将与图22中相同的标号指定给图36中与图22中的那些相同的部分,并且省略对它们的详细描述。图36中的增强层编码器与图22中的增强层编码器的不同之处在于,配备了固定频带指定部分3501和MDCT系数量化器3502,并且,与从频率确定部分1607中获得的频率一起量化包括在事先指定的频带中的MDCT系数。
在图36中,在固定频带指定部分3501中事先设置就听觉感觉而言重要的频带。这里假设对于包括在所设频带中的频率,设置“m=15,16”。
MDCT系数量化器3502在来自MDCT部分2101的输入信号中,利用从频率确定部分1607输出的听觉掩蔽将输入信号分类成要量化的系数和不要量化的系数,并且,编码要量化的系数,以及固定频带指定部分3501设置的频带中的系数。
假设相关频率成为如图34所示那样,MDCT系数量化器3502量化误差谱E(1)、E(3)、E(4)、E(7)、E(8)、E(9)、E(11)、E(12)和固定频带指定部分3501指定的频率的误差谱E(15)、E(16)。
因此,根据本实施例的声音编码设备,通过强迫量化不可能选作量化的对象、但从听觉的观点来说重要的频带,即使不选择应该真正选为编码的对象的频率,也必定可以量化位于包括在从听觉的观点来说重要的频带中的频率上的误差谱,从而使质量得到提高。
现在描述解码方。图37是示出根据本发明第14实施例的声音解码设备的增强层解码器的内部配置的例子的方块图。将与图25中相同的标号指定给图37中与图25中的那些相同的部分,并且省略对它们的详细描述。图37中的增强层解码器与图25中的增强层解码器的不同之处在于,配备了固定频带指定部分3601和MDCT系数解码器3602,并且,与从频率确定部分2304中获得的频率一起解码包括在事先指定的频带中的MDCT系数。
在图37中,在固定频带指定部分3601中事先设置就听觉感觉而言重要的频带。
MDCT系数解码器3602根据从频率确定部分1607输出的经过解码的误差谱频率,解码从多路分用器2301输出的第二编码信息中量化的MDCT系数。具体地说,MDCT系数解码器3602定位与频率确定部分2304和固定频带指定部分3501所指的频率相对应的解码MDCT系数,并且,对于其它频率填上零。
IMDCT部分2402对从MDCT系数解码器3601输出的MDCT系数进行逆MDCT处理,生成时域信号,并且将这个信号输出到叠加加法器2403。
因此,根据本实施例的声音解码设备,通过解码包括在事先指定的频带中的MDCT系数,可以解码其中已经强迫量化了不可能选作量化的对象、但从听觉的观点来说重要的频带的信号,并且,即使不选择在编码方应该真正选为编码的对象的频率,也必定可以量化位于包括在从听觉的观点来说重要的频带中的频率上的误差谱,从而使质量得到提高。
对于本实施例的增强层编码器和增强层解码器,还可以应用将本实施例和第13实施例组合在一起的配置。图38是示出本实施例的声音编码设备的频率确定部分的内部配置的例子的方块图。将与图22中相同的标号指定给图38中与图22中的那些相同的部分,并且省略对它们的详细描述。
在图38中,MDCT部分2101将从减法器1606输出的输入信号乘以分析窗,然后,进行MDCT(改进离散余弦变换)处理以获得MDCT系数,并且将MDCT系数输出到MDCT系数量化器3701。
定序部分3201接收频率确定部分1607获得的频率信息,并且,计算每个频率的估计误差谱E′(m)超过估计听觉掩蔽M′(m)的数量(下文称为“估计失真值”)D(m)。
在固定频带指定部分3501中事先设置就听觉感觉而言重要的频带。
MDCT系数量化器3701进行量化,根据按照估计失真值D(m)定序的频率信息,将位成正比地分配给位于按从高到低估计失真值D(m)次序排列的频率上的误差谱E(m)。MDCT系数量化器3701还编码固定频带指定部分3501设置的频带中的系数。
现在描述解码方。图39是示出根据本发明第14实施例的声音解码设备的增强层解码器的内部配置的例子的方块图。将与图25中相同的标号指定给图39中与图25中的那些相同的部分,并且省略对它们的详细描述。
在图39中,定序部分3401接收频率确定部分2304获得的频率信息,并且,计算每个频率的估计误差谱E′(m)超过估计听觉掩蔽M′(m)的数量(下文称为“估计失真值”)D(m)。
然后,定序部分3401按从高到低估计失真值D(m)次序进行定序,并且将相应频率信息输出到MDCT系数解码器3801。在固定频带指定部分3601中事先设置就听觉感觉而言重要的频带。
MDCT系数解码器3801根据从定序部分3401输出的经过解码的误差谱频率,解码从多路分用器2301输出的第二编码信息中量化的MDCT系数。具体地说,MDCT系数解码器3801定位与定序部分3401和固定频带指定部分3601所指的频率相对应的解码MDCT系数,并且,对于其它频率填上零。
IMDCT部分2402对从MDCT系数解码器3801输出的MDCT系数进行逆MDCT处理,生成时域信号,并且将这个信号输出到叠加加法器2403。
(第15实施例) 现在参照附图描述本发明的第15实施例。图40是示出根据本发明第15实施例的通信设备的配置的方块图。本实施例的特征是图40中的信号处理设备3903被配置成如上述第1到第14实施例所示的声音编码设备之一。
如图40所示,根据本发明第15实施例的通信设备3900包括输入设备3901、A/D转换设备3902和与网络3904连接的信号处理设备3903。
A/D转换设备3902与输入设备3901的输出端相连接。信号处理设备3903的输入端与A/D转换设备3902的输出端相连接。信号处理设备3903的输出端与网络3904相连接。
输入设备3901将人耳朵可听见的声波转换成作为电信号的模拟信号,并且将这个模拟信号供应给A/D转换设备3902。A/D转换设备3902将模拟信号转换成数字信号,并且将这个数字信号供应给信号处理设备3903。信号处理设备3903编码输入数字信号和生成代码,并且将这个代码输出到网络3904。
因此,根据本发明这个实施例的通信设备,可以在通信过程中获得像上述第1到第14实施例所示那样的效果,并且,可以提供用少量的位有效编码声信号的声音编码设备。
(第16实施例) 现在参照附图描述本发明的第16实施例。图41是示出根据本发明第16实施例的通信设备的配置的方块图。本实施例的特征是图41中的信号处理设备4003被配置成如上述第1到第14实施例所示的声音解码设备之一。
如图41所示,根据本发明第16实施例的通信设备4000包括与网络4001连接的接收设备4002、信号处理设备4003、D/A转换设备4004和输出设备4005。
接收设备4002与网络4001相连接。信号处理设备4003的输入端与接收设备4002的输出端相连接。D/A转换设备4004的输入端与信号处理设备4003的输出端相连接。输出设备4005的输入端与D/A转换设备4004的输出端相连接。
接收设备4002接收来自网络4001的数字编码声信号,生成数字接收声信号,并且将这个接收声信号供应给信号处理设备4003。信号处理设备4003接收来自接收设备4002的接收声信号,对这个接收声信号进行解码处理和生成数字解码声信号,并且将这个数字解码声信号供应给D/A转换设备4004。D/A转换设备4004转换来自信号处理设备4003的数字解码声信号和生成模拟解码语音信号,并且将这个模拟解码语音信号供应给输出设备4005。输出设备4005将作为电信号的模拟解码语音信号转换成空气振动,并且像声波那样输出这些空气振动,以便人的耳朵可听见。
因此,根据本施例的通信设备,可以在通信过程中获得像上述第1到第14实施例所示那样的效果,并且,可以解码用少量的位有效编码的声信号,从而输出良好的声信号。
(第17实施例) 现在参照附图描述本发明的第17实施例。图42是示出根据本发明第17实施例的通信设备的配置的方块图。本实施例的特征是图42中的信号处理设备4103被配置成如上述第1到第14实施例所示的声音编码设备之一。
如图42所示,根据本发明第17实施例的通信设备4100包括输入设备4101、A/D转换设备4102和信号处理设备4103、RF(射频)调制设备4104和天线4105。
输入设备4101将人耳朵可听见的声波转换成作为电信号的模拟信号,并且将这个模拟信号供应给A/D转换设备4102。A/D转换设备4102将模拟信号转换成数字信号,并且将这个数字信号供应给信号处理设备4103。信号处理设备4103编码输入数字信号和生成编码声信号,并且将这个编码声信号输出到RF调制设备4104。RF调制设备4104调制编码声信号和生成调制编码声信号,并且将这个调制编码声信号供应给天线4105。天线4105发送该调制编码声信号作为无线电波。
因此,根据本实施例的通信设备,可以在无线电通信过程中获得像上述第1到第14实施例所示那样的效果,并且,可以用少量的位有效编码声信号。
(第18实施例) 现在参照附图描述本发明的第18实施例。图43是示出根据本发明第18实施例的通信设备的配置的方块图。本实施例的特征是图43中的信号处理设备4203被配置成如上述第1到第14实施例所示的声音解码设备之一。
如图43所示,根据本发明第18实施例的通信设备4200包括天线4201、RF解调设备4202、信号处理设备4203、D/A转换设备4204和输出设备4205。
天线4201接收作为无线电波的数字编码声信号,生成作为电信号的数字接收编码声信号,并且将这个数字接收编码声信号供应给RF解调设备4202。RF解调设备4202解调来自天线4201的接收编码声信号和生成解调编码声信号,并且将这个解调编码声信号供应给信号处理设备4203。
信号处理设备4203接收来自RF解调设备4202的数字解调编码声信号,进行解码处理和生成数字解码声信号,并且将这个数字解码声信号供应给D/A转换设备4204。D/A转换设备4204转换来自信号处理设备4203的数字解码声信号和生成模拟解码语音信号,并且将这个模拟解码语音信号供应给输出设备4205。输出设备4205将作为电信号的模拟解码语音信号转换成空气振动,并且像声波那样输出这些空气振动,以便人的耳朵可听见。
因此,根据本施例的通信设备,可以在无线电通信过程中获得像上述第1到第14实施例所示那样的效果,并且,可以解码用少量的位有效编码的声信号,从而输出良好的声信号。
本发明可应用于使用音频信号的接收设备、接收解码设备、或语音信号解码设备。本发明还可应用于移动台设备或基站设备。
本发明不局限于上述的实施例,并且,在不偏离本发明范围的情况下,可以进行各种各样的改变和改进。例如,在上面的实施例中,已经描述了将本发明作为信号处理设备来实现的情况,但是,本发明不局限于此,并且,也可以将这种信号处理方法作为软件来实现。
例如,事先将执行上述信号处理方法的程序存储在ROM(只读存储器)中,和由CPU(中央处理单元)执行这个程序也是可以的。
将执行上述信号处理方法的程序存储在计算机可读存储媒体中,将存储在存储媒体中的程序记录在计算机的RAM(随机访问存储器)中,和按照那个程序操作计算机也是可以的。
在上面的描述中,已经描述了MDCT用作从时域变换到频域的方法,但是,本发明不局限于此,只要是正交的,可以应用任何变换方法。例如,也可以应用离散付里叶变换、离散余弦变换或小波变换方法。
本发明可应用于使用音频信号的接收设备、接收解码设备、或语音信号解码设备。本发明还可应用于移动台设备或基站设备。
从上面的描述中可清楚看出,根据本发明的编码设备,解码设备、编码方法和解码方法,通过利用从基本层编码信息中获得的信息进行增强层编码,即使在语音占优势和在背景中叠加了音乐或环境声音的信号的情况下,也可以以低位速率进行高质编码。
本申请基于2002年4月26日提出的日本专利申请第2002-127541号和2002年9月12日提出的日本专利申请第2002-267436号,特此全文引用,以供参考。
工业可应用性 本发明适用于编码和解码语音信号的设备和通信设备。
权利要求
1.一种编码设备,包括
向下取样部分,用于降低输入信号的取样速率;
基本层编码部分,用于对降低了取样速率的输入信号进行编码来获取第一编码信息;
解码部分,用于对所述第一编码信息进行解码来生成解码信号;
向上取样部分,用于将所述解码信号的取样速率升高到与所述输入信号的取样速率相同的速率;
减法部分,用于从所述输入信号减去升高了所述取样速率的解码信号来获取相减信号;
增强层编码部分,用于利用在所述解码部分的解码处理中生成的参数,或者将所述参数变换成用于总频带的参数,对所述相减信号进行编码来获取第二编码信息;和
多路复用部分,用于对所述第一编码信息和所述第二编码信息进行多路复用。
2.根据权利要求1所述的编码设备,其中,所述增强层编码部分利用在所述解码部分生成的解码信号的功率,进行所述相减信号的归一化。
3.根据权利要求1所述的编码设备,还包括滤波器构成部分,用于通过所述参数来构成滤波器,
其中,所述增强层编码部分根据所述滤波器或者所述滤波器的谱特性,至少进行以下的处理中的一个来获取第二编码信息所述相减信号的归一化、矢量量化的位分配的确定、和矢量搜索的加权的确定。
4.根据权利要求3所述的编码设备,其中,所述增强层编码部分进行限制,以使所述位分配或者所述矢量搜索的加权不超过预先规定的上限值。
5.根据权利要求3所述的编码设备,其中,所述滤波器构成部分利用所述参数中的LPC系数,表示总频带的谱包络作为所述谱特性。
6.根据权利要求3所述的编码设备,其中,所述滤波器构成部分利用所述参数中的音调周期或者音调增益,表示总频带的谱精细结构作为所述谱特性。
7.根据权利要求3所述的编码设备,还包括变换部分,对与所述第一编码信息的频带对应的所述滤波器的谱特性进行变换。
8.根据权利要求7所述的编码设备,其中,所述变换部分对所述滤波器的谱特性进行变换,以使所述第一编码信息的频带的量化精度比其它的频带低。
9.一种解码设备,包括
基本层解码部分,用于对第一编码信息进行解码来获取第一解码信号;
增强层解码部分,用于对第二编码信息进行解码来获取第二解码信号;
向上取样部分,用于将所述第一解码信号的取样速率升高到与所述第二解码信号的取样速率相同的速率;和
加法部分,用于相加升高了所述取样速率的第一解码信号和所述第二解码信号。
10.根据权利要求9所述的解码设备,还包括滤波器构成部分,用于通过所述参数来构成滤波器,
其中,所述增强层解码部分根据所述滤波器或者所述滤波器的谱特性,至少进行以下的处理中的一个,对第二编码信息进行解码来获取第二解码信号相减信号的归一化和矢量量化的位分配的确定。
11.根据权利要求9所述的解码设备,其中,所述增强层解码部分进行限制,以使所述位分配不超过预先规定的上限值。
12.根据权利要求9所述的解码设备,其中,所述滤波器构成部分利用所述参数中的LPC系数,表示总频带的谱包络作为所述谱特性。
13.根据权利要求9所述的解码设备,其中,所述滤波器构成部分利用所述参数中的音调周期或者音调增益,表示总频带的谱精细结构作为所述谱特性。
14.根据权利要求9所述的解码设备,其中,还包括变换部分,对与所述第一编码信息的频带对应的所述滤波器的谱特性进行变换。
15.根据权利要求14所述的解码设备,其中,所述变换部分对所述滤波器的谱特性进行变换,以使所述第一编码信息的频带的量化精度比其它的频带低。
16.一种编码方法,包括
降低输入信号的取样速率的步骤;
对降低了取样速率的输入信号进行编码来获取第一编码信息的步骤;
根据所述第一编码信息生成解码信号的步骤;
将所述解码信号的取样速率升高到与所述输入信号的取样速率相同的速率的步骤;
利用在生成所述解码信号的处理中获得的参数,或者将所述参数变换成用于总频带的参数,对所述输入信号和升高了所述取样速率的解码信号之间的差值进行编码,获取第二编码信息的步骤;和
多路复用所述第一编码信息和所述第二编码信息的步骤。
17.一种解码方法,包括
对第一编码信息进行解码来获取第一解码信号的步骤;
对第二编码信息进行解码来获取第二解码信号的步骤;
将所述第一解码信号的取样速率升高到与所述第二解码信号的取样速率相同的速率的步骤;和
相加升高了所述取样速率的第一解码信号和所述第二解码信号的步骤。
全文摘要
向下取样器(101)将输入信号的取样速率从取样速率FH降低到取样速率FL。基本层编码器(102)编码取样速率FL的声信号。局部解码器(103)解码从基本层编码器(102)输出的编码信息。向上取样器(104)将解码信号的取样速率升高到FH。减法器(106)从取样速率FH的声信号中减去解码信号。增强层编码器(107)利用从局部解码器(103)输出的解码所得参数编码从减法器(106)输出的信号。
文档编号G10L19/00GK101131820SQ200710152908
公开日2008年2月27日 申请日期2003年4月28日 优先权日2002年4月26日
发明者押切正浩 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1