数字音频信号的增强的编码/解码的制作方法

文档序号:2824855阅读:183来源:国知局
专利名称:数字音频信号的增强的编码/解码的制作方法
技术领域
本发明涉及一种声音数据的处理。
背景技术
该处理特别适合于诸如音频信号(语音、音乐等)的数字信号的传输和/或存储。本发明更特别地适用于层级(hierarchical)编码(或“可缩放”编码),其生成所谓的“层级”二进制流,因为其包括核心比特率以及一个或多个增强(improvement)层。48、 56和64千比特/秒(Icbit/s)的G. 722标准是比特率可缩放的编解码器的示例,而UIT-T G. 729. 1和MPEG-4CELP编解码器是在比特率和带宽方面可缩放的编解码器的示例。下面详细描述层级编码,其具有通过将有关要编码的音频信号的信息分配到层级化子集中而提供可变的比特率的能力,使得可以从音频重现(rendition)质量的角度以重要性的顺序使用该信息。所考虑的用于确定顺序的标准是所编码的音频信号的质量优化 (或者更少恶化)的标准。层级编码特别适用于异质网络或者呈现随时间变化的可用比特率的那些网络上的传输,或者适应于去往呈现变化的能力的终端的传输。可以如下描述层级(或“可缩放”)的音频编码的基本概念。二进制流包括基本层以及一个或多个增强层。通过称为“核心编解码器”的固定比特率编解码器确保编码的最低质量来产生基本层。必须由解码器接收该层,以保持可接受的质量水平。增强层用于提高质量。然而,可能发生它们不全由解码器接收。层级编码的主要益处是其接着允许通过简单的“二进制流的截断”来进行比特率的适配。层的数目(即二进制流的可能的截断的数目)定义编码的粒度。如果二进制流包括很少的层(在2至4的量级上),则称为“高粒度”,如果其允许例如1至21Ait/S的量级的增加,则称为“精细粒度”。下文更具体地描述在电话波段(tel印honic band)以及加宽波段中的一个或多个增强层中的、具有CELP类型的核心编码器的、比特率和带宽可缩放编码的技术。在具有精细粒度的从8至321ibit/s的标准UIT-T G. 729. 1中给出这种系统的示例。下面总结 G. 729. 1编码/解码算法。关于G. 729. 1编码器的回顾G. 729. 1编码器是UIT-T G. 729编码器的扩展。其需要修改的G. 729核心层级编码器,产生具有8至321Ait/S比特率的用于会话服务的、带宽从窄波段(50-4000HZ)至加宽波段(50-7000HZ)的信号。该编解码器与使用G. 7 编解码器的现有的IP上传送语音 (voice over IP)设备兼容。

图1中以框图示出了 G. 729. 1编码器。以16kHz采样的加宽波段输入信号Swb首先被QMF( “正交镜像滤波器”)滤波分解为两个子波段。通过低通滤波LP(块100)和抽取(decimation)(块101)获得低波段(0-4000Hz),并且通过高通滤波HP (块102)和抽取 (块10 获得高波段(4000-8000HZ)。滤波器LP和HP的长度是64。在8和121cbit/S的窄波段CELP编码(块10 之前,通过消除低于50Hz的分量的高通滤波器(块104)预处理低波段,以获得信号S『该高通滤波考虑有用波段被限定为覆盖区间50-7000HZ的事实。窄波段CELP编码是级联CELP编码,其包括没有预处理滤波器的修改的G. 729解码作为第一级、以及附加的固定CELP库作为第二级。首先预处理(块106)高波段,以补偿由于高通滤波器(块102)与抽取(块103) 一起导致的混淆。接着通过消除高波段的3000与4000Hz之间的分量(即原始信号中的 7000与8000Hz之间的分量)的低通滤波器(块107)对高波段进行滤波,以获得信号%。 下面执行参数波段扩展(块108)。根据图1的G. 729. 1编码器的重要特征如下。基于CELP编码器(块105)的输出计算低波段的误差信号C^b (块109),并且在块110中执行(在G. 729. 1标准中用于“时域混淆消除”类型的TDAC的)预测变换编码。参照图1,尤其可以看出,TDAC编码既被应用到低波段上的误差信号,还被应用到高波段上的经滤波的信号。可以通过块111将附加参数传输到同类解码器,该块111执行“帧删除隐蔽”(简称为“FEC” )处理,如果存在,以重建删除的帧为目的。由编码块105、108、110和111产生的各种二进制流最终在复用块112中被复用和构建为层级二进制串。按照20毫秒(ms)的采样(或帧)的块执行编码,即每帧320个采样。G. 729. 1编解码因此具有作为三个编码步骤的架构,包括-级联CELP编码,-通过TDBffE(“时域带宽扩展”)类型的模块108的参数波段扩展,以及-在MDCT(“修改的离散余弦变换”)类型的变换之后应用的预测TDAC变换编码。关于G. 729. 1解码器的回顾图2中示出了 G. 729. 1解码器。描述每20ms帧的比特在块200中解复用。由CELP解码器(块201)使用8和121cbit/S的层的二进制流,以产生窄波段合成 (0-4000HZ)。二进制流的与141Ait/S的层关联的那部分由波段扩展模块(块20 解码。 二进制流的与高于141Ait/S的比特率关联的那部分由TDAC模块(块203)解码。通过块 204和207以及增强(块20 和低波段的后处理(块206)执行对前回波和后回波的处理。通过集成反向混淆(块观)的合成QMF滤波器(块209、210、211、212和213)的群(bank)获得以16kHz采样的加宽波段输出信号I6。下面详细描述变换编码层。关于G. 729. 1编码器中的基于TDAC变换的编码器的回顾图3中示出了 G. 729. 1编码器中的TDAC类型的变换编码。滤波器Wlb (z)(块300)是具有增益补偿的感知加权滤波器(perceptual weighting filter),其被应用于低波段误差信号屯。接着计算(块301和302) MDCT变换, 以获得-经感知滤波的、差信号的MDCT频谱Di,以及-高波段的原始信号的MDCT频谱^。这些MDCT变换(块301和303)被应用到以8kHz采样的20ms的信号(160个系数)。来自合并(fusion)块303的频谱Y(k)因此包括h 160(即320)个系数。其可以被如下定义
= [D; (0) D:⑴…D: (159) Shb (0) Shb (1)…S冊(159) j。此频谱被划分为18个子波段,子波段j被分配系数为nb_COef(j)的数目。下面在表1中具体给出了子波段的划分。因此,子波段j 包括系数 Y (k),其中 sb_bound(j)彡 k < sb_bound (j+1)。注意,对应于7000Ηζ-8000Ηζ频段的系数280-319未被编码;它们在解码器处被设定为0,因为编解码器的通波段是从50至7000Hz。
权利要求
1.一种用于将数字音频输入信号层级地编码为若干频率子波段的方法,所述编码包括所述输入信号的根据第一比特率的核心编码以及残留信号的更高比特率的至少一个增强编码,所述核心编码使用根据能量标准的二进制分配(506),其特征在于,所述方法包括用于所述增强编码的以下步骤-针对通过所述增强编码处理的频段的至少一部分计算频率掩蔽阈值(511); -将每个频率子波段的感知重要性确定(511、512)为所计算的掩蔽阈值的函数以及为所述核心编码所分配的比特数的函数;-在通过所述增强编码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的二进制分配(512);以及-根据比特的分配编码所述残留信号(513)。
2.如权利要求1所述的方法,其特征在于,确定感知重要性的步骤包括-第一步骤(511),针对所述增强编码的至少一个频率子波段将第一感知重要性定义为所述子波段的频率掩蔽阈值、所述频率子波段的频谱包络的编码的量化值、以及所确定的归一化因子的函数;-第二步骤(512),从所述第一感知重要性中减去为所述核心编码所分配的比特数与所述子波段中的系数的数目的比。
3.如权利要求1所述的方法,其特征在于,将所述感知重要性进一步确定为对先前的核心编码的增强编码所分配的比特的函数,所述增强编码具有根据能量标准的二进制分配。
4.如权利要求1所述的方法,其特征在于,通过用于所计算的频谱包络的表达与涉及子波段的中心频率的扩展函数之间的卷积,为所述子波段确定所述掩蔽阈值。
5.如权利要求1所述的方法,其特征在于,其还包括获得关于要被编码的信号是声调还是非声调的信息项的步骤,并且仅在所述信号是非声调的情况下执行计算所述掩蔽阈值的步骤以及将感知重要性确定为该掩蔽阈值的函数的步骤。
6.如权利要求1所述的方法,其特征在于,所述增强编码是扩展编码器中的、TDAC类型的增强编码,所述扩展编码器的核心编码是G. 729. 1标准化编码器类型。
7.一种用于将数字音频输入信号层级地解码为若干频率子波段的方法,所述解码包括根据第一比特率接收的核心解码以及残留信号的更高比特率的至少一个增强解码,所述核心解码使用根据能量标准的二进制分配,其特征在于所述方法包括用于所述增强解码的以下步骤-针对通过所述增强解码处理的频率子波段的至少一部分计算频率掩蔽阈值(605); -将每个频率子波段的感知重要性确定(604)为所计算的掩蔽阈值的函数以及为所述核心解码所分配的比特数的函数;-在通过所述增强解码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的分配(604、605);以及-根据比特的分配解码(611)所述残留信号。
8.如权利要求7所述的解码方法,其特征在于,确定感知重要性的步骤包括-第一步骤(60 ,针对所述增强解码的至少一个频率子波段将第一感知重要性定义为所述子波段中的频率掩蔽阈值、所述频率子波段的频谱包络的解码的量化值、以及所确定的归一化因子的函数,-第二步骤(604),从所述第一感知重要性中减去为所述核心解码所分配的比特数与所述子波段中可能系数的数目的比。
9.一种将数字音频输入信号编码为若干频率子波段的层级编码器,包括所述输入信号的根据第一比特率的核心编码器以及残留信号的更高比特率的至少一个增强编码器,所述核心编码器使用根据能量标准的二进制分配(506),其特征在于所述增强编码器包括-用于针对通过所述增强编码器处理的频段的至少一部分计算频率掩蔽阈值的模块 (511);-用于将每个频率子波段的感知重要性确定(512)为所计算的掩蔽阈值的函数以及为所述核心编码器所分配的比特数的函数的模块;-用于在通过所述增强编码器处理的频率子波段中对比特进行作为所确定的感知重要性的函数的二进制分配(512)的模块;以及-用于根据比特的分配编码所述残留信号(513)的模块。
10.一种将数字音频信号解码为若干频率子波段的层级解码器,包括根据第一比特率接收的信号的核心解码器以及残留信号的更高比特率的至少一个增强解码器,所述核心解码器使用根据能量标准的二进制分配,其特征在于所述增强解码器包括-用于针对通过所述增强解码器处理的频率子波段的至少一部分计算频率掩蔽阈值 (605)的模块;-用于将每个频率子波段的感知重要性确定(604)为所计算的掩蔽阈值的函数以及为所述核心解码器所分配的比特数的函数的模块;-用于在通过所述增强解码器处理的频率子波段中对比特进行作为所确定的感知重要性的函数的分配(604)的模块;以及-用于根据比特的分配解码(611)所述残留信号的模块。
11.一种包括代码指令的计算机程序,当所述代码指令被处理器执行时,实现如权利要求1至6中的任一项所述的编码方法的步骤。
12.一种包括代码指令的计算机程序,当所述代码指令被处理器执行时,实现如权利要求7至8中的任一项所述的解码方法的步骤。
全文摘要
本发明涉及一种用于将数字音频输入信号层级地编码为若干频率子波段的方法,所述编码包括所述输入信号的根据第一吞吐量的核心编码以及残留信号的更高吞吐量的至少一个增强编码,所述核心编码使用根据能量标准的二进制分配(506)。所述方法在于包括用于所述增强编码的以下步骤针对通过所述增强编码处理的频段的至少一部分计算基于频率的掩蔽阈值(511);将每个频率子波段的感知重要性确定(512)为所计算的掩蔽阈值的函数以及为所述核心编码所分配的比特数的函数;在通过所述增强编码处理的频率子波段中,对比特进行作为所确定的感知重要性的函数的二进制分配(512);以及根据比特的分配编码所述残留信号(513)。本发明还涉及合适的解码方法、编码器和解码器。
文档编号G10L19/02GK102576536SQ201080039675
公开日2012年7月11日 申请日期2010年6月25日 优先权日2009年7月7日
发明者B.科维西, D.维雷特, P.伯塞特, S.拉格特 申请人:法国电信公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1