基于频谱包络模板的带宽扩展音频编解码方法及装置与流程

文档序号:20912018发布日期:2020-05-29 13:06阅读:245来源:国知局
基于频谱包络模板的带宽扩展音频编解码方法及装置与流程

本发明的实施例涉及数字音频编解码技术,尤其涉及一种用于带宽扩展的音频编码方法及装置,用于带宽扩展的音频解码方法及装置,以及生成谱包络模板的方法及装置。



背景技术:

传统的感觉音频编码技术(dra、aac和mp3等)的立体声典型工作码率是96-128kbps,且在64kbps/立体声以下时编码质量存在明显的主观感觉失真。调频广播应用的典型编码码率为48kbps-64kbps/立体声,这时传统感觉音频编码技术的主观声音质量已不能满足调频广播要求。

如图1所示,提出了数字音频信号的带宽扩展(bandwidthextension,简称bwe)编码技术。如图1所示,一个全频带单声道音频信号的低频部分采用传统的感觉音频编码(如aac或dra),而高频部分采用bwe进行参数编码,从而实现了一种低码率音频编码的方法。

目前的带宽扩展编码技术有很多,性能也参差不齐。已经公开且用于国际标准中带宽扩展编码技术主要由如下两种编码算法:

第一种带宽扩展编码技术是iso/iec14496-3mpeg-4中描述的频谱带复制(spectralbandwidthreplication,简称sbr)编码。图2示出了sbr编码的具体原理框图。sbr是频域处理的算法,其编码原理为:每帧信号通过64子带的正交镜像滤波器组(quadraturemirrorfilter,简称qmf)获得64个均匀的子频带,每个子频带包含32个样点,根据当前信号的瞬态特性划分一个合理的时频栅格,每个栅格计算一个能量信息并进行霍夫曼(huffman)编码。该算法同时包括音调性检查并传输个别的单个正弦信号参数信息。

图3示出了sbr解码的具体原理框图。sbr解码原理为:经过核心解码器(aac)输出的解码pcm通过32子带的qmf获得32个均匀的子频带,每个子频带包含32个样点,根据sbr解复用输出的控制参数进行高频生成,然后根据控制参数以及包络数据对高频进行调整,然后将低频32子带qmf的输出以及经调整后高频子带qmf的输出一起进入到64带qmf合成,最后输出全频带pcm音频信号。

sbr中用低频子带k生成高频子带m的简要示意图如图4所示。在sbr中,低频子带k生成高频子带m的公式为:

x[m][n]=x[k][n]+bw(k)·a0·x[k][n-1]+(bw(k))2·a1·x[k][n-2](1)

其中:a0和a1是预测系数;bw(k)为弯曲因子,范围是0-0.98,具体值由控制参数决定,其含义是当高频的音调性强时,bw(k)偏向于0;当高频的音调性弱、甚至是类噪时,bw(k)偏向于0.98。

从上述公式(1)可以看到:

当bw(k)=0时,高频子带m就是由低频子带k直接拷贝生成;

当bw(k)=0.98时,高频子带m就是由低频子带k的预测残差生成。

因此,sbr技术在高频生成时的主要问题是,sbr的高频细节就是低频拷贝或者低频残差拷贝获得,这种技术在音频信号的低频和高频差别很大时,会出现较大的问题,因为sbr高频的细节恢复比较粗糙,所以在整个高频部分的还原上难以获得较高的质量。

第二种带宽扩展编码技术是在3gppamr-wb+编码方法中包含的一种简单的带宽扩展技术。它是一种时域处理的算法,主要编码原理是:将输入信号分为同样带宽的低频和高频两部分时域信号,低频(lf)部分通过线性预测编码(linearpredictioncoding,简称“lpc”)分析滤波处理得到低频信号的残差信号,然后经过高频lpc合成滤波来模拟高频细节信号;然后通过与实际shf(n)的实际高频信号比较,得到高频包络(能量)的增益矢量(每子帧一个增益值),最后通过低频高频和低频连接点的增益的一致性进一步修正增益矢量,然后编码此修正增益矢量。因此传输给解码端的包括修正增益矢量和高频lpc系数。amr-wb+的高频解码过程基本是编码的反过程。

amr-wb+中高频生成方法的简要示意图如图5所示。图中fs是指经过重采样后的信号采样率。amr-wb+中高频生成的简要过程为:经过重采样后频率为fs的信号经过低通滤波2倍下采样后得到采样率为fs/2的低频信号;该低频信号经过预测后得到低频残差信号;将该残差信号的谱反转后激励高频的预测滤波器,生成高频信号。

amr-wb+的带宽扩展技术在高频生成的起始频带固定,只能是fs/4,降低了带宽扩展技术的灵活性。对于大多数信号来说,越靠近低频,音调性越强,越靠近高频,音调性越弱,甚至是类噪性的,可是通过图5可以看出,带宽扩展中最高频的信号部分是由核心编码器中最低频的信号部分生成,所以对于大部分信号,这种拷贝使得经amr-wb+的带宽扩展后的信号的高频部分有强烈的音调性,使主观质量大大降低。

在sbr带宽扩展编解码算法中,高频信号细节的重建时通过低频部分拷贝得到,或者对低频部分采用简单的2阶滤波得到;由于没有考虑所替换的高频部分内容,这种方法得到的高频细节包络形状或者与低频部分相同;或者滤波后接近白噪声的平坦频谱。

另外,amr-wb+的带宽扩展技术则通过高频部分的lpc方式获得高频部分的谱包络,但是lpc的计算占用一定的运算复杂度,同时预测系数的编码需要占用较多的比特率(由于bwe技术一般应用于低码率音频编码,此时lpc系数编码所占用的比特率就有可能造成低频部比特率不足而造成低频量化失真过大,影响整体主观声音质量)。



技术实现要素:

为缓解或解决上述问题中的至少一个方面,提出本发明。

本发明提出了一种利用高频谱包络模板库来模拟高频部分的谱包络。这种方法比简单直接搬移低频部分(拷贝)获得高频部分细节的方法得到更准确的谱包络。另外,这种方法在低码率情况下,与lpc方法比较可以用较少的信息描述高频谱包络;同时也可以在码率增加时通过较大的模板库提供与lpc相当或更好的高频谱包络还原,并且复杂度也比lpc方法低。

根据本发明的实施例的一个方面,本发明提出一种用于带宽扩展的音频编码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:

形成多个高频谱包络模板,每一个谱包络模板赋予标号;

对所述高频部分划分栅格,获得要进行编码的栅格的栅格谱包络,所述栅格谱包络对应至少一个栅格;

将谱包络模板与所述栅格谱包络进行形状匹配,确定与所述栅格谱包络的形状匹配的谱包络模板;和

向解码端传送代表所述确定的包络模块的标号信息。

可选的,通过如下方式中的至少一种构造高频谱包络模板:(1)简单几何图形构造;(2)矢量量化;(3)对高频部分包络拟合;(4)lpc预测滤波。

可选的,所述多个高频谱包络模块分为至少一个组,每一组模块包括至少两层,相邻上下两层中,下层模块为上层模块的具体化。

根据本发明的实施例的另一方面,提出了一种用于带宽扩展的音频解码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:

基于解码端接收到的代表所述确定的高频谱包络模板的标号信息,确定谱包络模板;

将从低频部分选择的拷贝频谱拷贝到高频部分;

对拷贝到高频部分的频谱信号部分,在对应栅格范围内利用确定的谱包络模板进行包络整形。

可选的,上述方法还包括步骤:对已经进行包络整形或者即将进行包络整形的、对应栅格范围内的频谱信号进行增益调整。

可选的,基于解码端接收到的关于所述拷贝频谱的起始谱线号,或者起始谱线号与终止谱线号,选择所述拷贝频谱。

可选的,在“在对应栅格范围内利用确定的谱包络模板进行包络整形”之前,所述方法还包括步骤:对要进行包络整形的频谱信号进行平坦化处理,或者对要进行包络整形的频谱信号进行平坦化处理和归一化处理。

根据本发明的实施例的又一方面,提出了一种用于带宽扩展的音频编码装置,所述音频具有低频部分与高频部分,所述装置包括:

谱包络模板形成模块,用于形成多个高频谱包络模板,且每一个谱包络模板赋予标号;

栅格谱包络获取模块,用于对所述高频部分划分栅格,以获得要进行编码的栅格的栅格谱包络,所述栅格谱包络对应至少一个栅格;

模板匹配模块,用于将谱包络模板与所述栅格谱包络进行形状匹配,确定与所述栅格谱包络的形状匹配的谱包络模板;和

发送模块,用于向解码端传送代表所述确定的包络模块的标号信息。

可选的,所述谱包络模板形成模块通过如下方式中的至少一种构造高频谱包络模板:(1)简单几何图形构造;(2)矢量量化;(3)对高频部分包络拟合;(4)lpc预测滤波。

根据本发明的实施例的再一方面,提出了一种用于带宽扩展的音频解码装置,所述音频具有低频部分与高频部分,所述装置包括:

谱包络模板确定模块,用于基于解码端接收到的代表所述确定的高频谱包络模板的标号信息,确定谱包络模板;

拷贝模块,用于将从低频部分选择的拷贝频谱拷贝到高频部分;

包络整形模块,用于对拷贝到高频部分的频谱信号部分,在对应栅格范围内利用确定的谱包络模板进行包络整形。

可选的,所述装置还包括:增益调整模块,用于对已经进行包络整形或者即将进行包络整形的、对应栅格范围内的频谱信号进行增益调整。

可选的,所述拷贝模块基于解码端接收到的关于所述拷贝频谱的起始谱线号,或者起始谱线号与终止谱线号,选择所述拷贝频谱。

可选的,所述装置还包括:平坦化处理模块,用于在包络整形模块“在对应栅格范围内利用确定的谱包络模板进行包络整形”之前,对要进行包络整形的频谱信号进行平坦化处理,或者对进行包络整形的频谱信号进行平坦化处理和归一化处理。

本发明的实施例也涉及一种在音频编码中生成谱包络模板的方法,包括步骤:

对高频部分进行时频划分以形成时频栅格;和

基于至少一个栅格所对应的栅格谱包络构造高频谱包络模板。

可选的,通过如下方式中的至少一种构造高频谱包络模板:(1)简单几何图形构造;(2)矢量量化;(3)对高频部分包络拟合;(4)lpc预测滤波。

本发明的实施例还涉及一种在音频编码中生成谱包络模板的装置,包括:时频栅格形成模块,用于对高频部分进行时频划分以形成时频栅格;和谱包络模板形成模块,用于基于至少一个栅格所对应的栅格谱包络构造高频谱包络模板。可选的,所述谱包络模板包括水平直线段、右侧高的斜线段、左侧高的斜线段、折线段、弧线段中的至少一种。

附图说明

以下描述与附图可以更好地帮助理解本发明所公布的各种实施例中的这些和其他特点、优点,其中:

图1为现有技术中基于带宽扩展的低码率音频编码框架的示意图;

图2为现有技术中sbr编码的示意性原理框图;

图3为现有技术中sbr解码的示意性原理框图;

图4为sbr中用低频子带k生成高频子带m的简要示意图;

图5为现有技术中amr-wb+中高频生成方法的简要示意图;

图6为根据本发明的一个示例性实施例的用于带宽扩展的音频编码方法的流程图;

图7为根据本发明的一个示例性实施例的应用高频谱包络模板的bwe编码的示意性框图;

图8为根据本发明的一个示例性实施例的用于带宽扩展的音频解码方法的流程图;

图9为根据本发明的一个示例性实施例的应用高频谱包络模板的bwe解码的示意性框图;

图10a-10h为根据本发明的一个示例性实施例的谱包络模板的示意图;

图11示意性示出了bwe中高频部分应用谱包络模块的生成过程。

具体实施方式

下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。在说明书中,相同或相似的附图标号指示相同或相似的部件。下述参照附图对本发明实施方式的说明旨在对本发明的总体发明构思进行解释,而不应当理解为对本发明的一种限制。

如图6所示,本发明提出了一种用于带宽扩展的音频编码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:

形成多个高频谱包络模板,每一个谱包络模板赋予标号;

对所述高频部分划分栅格,获得要进行编码的栅格的栅格谱包络,所述栅格谱包络对应至少一个栅格;

将谱包络模板与所述栅格谱包络进行形状匹配,确定与所述栅格谱包络的形状匹配的谱包络模板;和

向解码端传送代表所述确定的包络模块的标号信息。

在本发明中,在编码端,可以根据信号瞬态特性及所给码率要求进行时频栅格划分,然后计算每个栅格的谱包络或者形成几个栅格一起的栅格谱包络。

谱包络模板所赋予的标号起到识别谱包络模板的作用。在存在多个谱包络模板形成模板库的情况下,标号或者代表标号的信息可以用于从模板库中获取或者检索出对应的谱包络模板。该标号或代表其的信息可以作为bwe的参数信息。

简而言之,在本发明中,在编码端,根据信号瞬态特性及所给码率要求进行时频栅格划分,然后获取栅格谱包络;之后可以在谱包络模板库中找到与对应的栅格谱包络具有对应形状或者形状相似的谱包络模板,并将该匹配模板的标号编码传输给解码端。

进一步的,上述的编码方法还包括步骤:在低频部分中确定至少一个拷贝频谱(例如参见图11,其中低频部分的fs-fl段),拷贝频谱具有对应的低频起始谱线号(例如参见图11,fs)与低频终止谱线号(例如参见图11,fl)。

在图11所示的示例中,所述低频终止谱线号为低频部分的最高谱线号。不过,需要指出的是,可以基于不同的高频部分的栅格谱包络,在低频部分确定不同的起始谱线号与终止谱线号。

相应的,上述编码方法还包括步骤:将所述低频起始谱线号传送给所述解码端(对应于例如图11中的情形,低频终止谱线号默认为fl),或者将所述低频起始谱线号与所述低频终止谱线号传送给所述解码端。

在bwe编码中,对于高频部分,有可能需要复制一次拷贝频谱,也可能需要复制多次拷贝频谱,因此,有时需要预先对要编码的高频部分进行划分。相应的,上述编码方法还包括步骤:将要编码的高频部分划分为n个频段,n为自然数,n个频段中至少一个频带的带宽与对应拷贝频谱的带宽相同。在高频部分重建过程中,会舍弃一部分(高频部分中的高频段),对于要舍弃的高频段,自然不需要拷贝频谱;而且,不同的频段可能需要对应不同的拷贝频谱,因此,并不要求每一个频段的带宽都与一个拷贝频谱的带宽相同。

鉴于在解码端,还可能对于拷贝频谱进行增益调整,因此,上述编码方法还可还包括步骤:将与所述栅格谱包络的包络数据对应的信息传送给解码端。

下面说明高频谱包络模板或者模板库的构造方法。

高频谱包络模板可以在统计高频部分的谱包络的形状的基础上,通过简单的几何结构来构造。这种利用简单几何图形构造模板的方法比较简单且基本符合实际频谱形状要求,有两个好处,一是库的构造简单,二是编码段库的模板选择简单。

下面示例性说明利用简单几何图形构造bwe高频部分生成用谱包络模板的方法。

通过对(sbr中)qmf带划分的时频栅格(或者arm-wb+高频部分的频率栅格)频谱包络分析,按照比较容易按照几何图形构造出一个谱包络模板形状的简单实施例:包括8个模板,如图10a-10h,可以用3比特来编码(000,001,010,011,100,101,110,111)。

也可以分成2层,其中第一次为3个模板(一条线段),第二层5个模板(两条线段)。第一层以粗略的方式表示高频谱包络;第二层给出更精细的高频谱包络形状。

需要指出的是,在示出的实施例中,每一个栅格对应一个谱包络模板,但是本发明不限于此,每一个谱包络模板也可覆盖多个栅格。

高频谱包络模板还可通过在划分的时频栅格上进行多种算法来实现,包括:

(1)矢量量化方法:也可称为直接矢量量化方法,所要处理的输入对象就是时频栅格上的谱系数组成一个矢量,但是当栅格谱系数过多时,为了降低复杂度需要降低矢量的元素个数,可以通过l(例如4)个谱系数构成矢量的一个元素,同样对于时频栅格中时间方向上有多个样点时,通常也会降低为1个,从而最终构成一维矢量。针对输入的矢量信号,利用矢量量化中构造码书的过程,可以对矢量空间进行n个区域(胞腔)的聚类,并得到每个区域的质心来表示划分到这个区域的谱形状模板,因此获得n个谱包络模板库。

(2)对高频部分包络进行拟合方法:例如通过对时频栅格上的谱包络进行拟合方法,获得拟合参数,然后对拟合参数利用(1)中矢量量化码书构造过程构造出n个谱包络模板库(库中每个码书表示一组拟合参数,来描述一种谱包络形状)。

(3)lpc预测滤波方法:首先对时频栅格上的谱系数先用lpc方法获得包络形状,以lpc参数方式表示包络信息,然后应用(1)中矢量量化方法对lpc参数进行n个分区和码书构造,形成n个谱包络模板库(库中每个码书表示一组lpc参数,来描述一种谱包络形状)。

通常模板库包括n(通常n是2的整数幂,即n=2^m,m为整数)个谱包络形状,并对形状进行标号,便于检索和编码传输。

另外,模板库可以设计成分层的方式,层越深,谱包络越精细。可以将模板库分为至少一个组,每一组模块包括至少两层,相邻上下两层中,下层模块为上层模块的具体化。例如,在低码率的情况下,可以使用上层模块(对应于较粗的模板,例如图10b,模块为倾斜向下),而在高码率的情况下,可以使用下层模块(例如图10d或图10e,模块可以分为图10d的形式或者图10e的形式)。这样便于不同音频编码码率采用不同层来描述当前帧的高频谱包络,获得码率自适应的最佳高频谱包络还原。

基于以上,本发明提出了一种在音频编码中生成谱包络模板的方法,包括步骤:对高频部分进行时频划分以形成时频栅格;和基于至少一个栅格所对应的栅格谱包络构造高频谱包络模板。

相应的,本发明也提出了一种在音频编码中生成谱包络模板的装置,包括:时频栅格形成模块,用于对高频部分进行时频划分以形成时频栅格;和谱包络模板形成模块,用于基于至少一个栅格所对应的栅格谱包络构造高频谱包络模板。

需要指出的是,在本发明中,为了生成谱包络模板,可以对各种音频的多个高频部分进行分析,选择具有代表性的高频部分进行划分以形成时频栅格,然后获得一个栅格或者多个栅格对应的谱包络,基于该谱包络来构造谱包络模板。

如图8所示,本发明也涉及一种用于带宽扩展的音频解码方法,所述音频具有低频部分与高频部分,所述方法包括步骤:

基于解码端接收到的代表所述确定的高频谱包络模板的标号信息,确定谱包络模板;

将从低频部分选择的拷贝频谱拷贝到高频部分;和

对拷贝到高频部分的频谱信号部分,在对应栅格范围内利用确定的谱包络模板进行包络整形。

可选的,上述的解码方法还包括步骤:对已经进行包络整形或者即将进行包络整形的、对应栅格范围内的频谱信号进行增益调整。

可选的,上述解码方法中,基于解码端接收到的关于所述拷贝频谱的起始谱线号,或者起始谱线号与终止谱线号,选择所述拷贝频谱。

可选的,在“在对应栅格范围内利用确定的谱包络模板进行包络整形”之前,所述解码方法还包括步骤:对要进行包络整形的频谱信号进行平坦化处理。

简而言之,在解码端,首先根据谱包络模板标号或者对应的信息从模板库中找到相应的谱包络模板,然后从低频频谱拷贝到高频部分,最后通过谱包络模板对谱系数进行包络调整,从而重建音频信号的高频部分细节。在解码端,拷贝步骤之后,还可以进行去相关处理(即得到频谱平坦的信号)和归一化处理(去掉增益),或者进行去相关处理(即得到频谱平坦的信号)。在解码端,在进行了包络调整或者包络整形之后,如有必要,还可以进行增益调整。

下面参照图11示例性描述bwe中高频生成的编解码过程。

在bwe编码中高频生成参数的计算步骤:

(1)针对bwe要编码的高频部分(fl至fh之间的频谱部分),在低频部分(aac或dra等编码,0至fl之间的频谱部分)寻找一段同样长度的频谱信号,寻找方法可以是对两段频谱系数进行相关运算,选取相关度最大的部分并记录其起始谱线号fs和终止谱线号(通常在实际应用中终止谱线号为低频部分的最高谱线号fl,这样可以不用传输终止谱线号,而仅传输起始的谱线号即可,从而可降低bwe参数编码部分所用总比特数)。

(2)对于将要编码的高频部分的某栅格(位于bwe的高频部分,图11中所示),首先分析其频谱形状,并和模板库(8个几何模板)中每个模板进行比较,选择最相似的模板,例如图10b的形状(001编码的模板)。

(3)将(1)中低频部分的起始点fs(用n个比特表示)和(2)中每个栅格模板的编码标号(001等)组成bwe参数信息,并传送给解码端。

在bwe解码端中高频生成的计算步骤:

(1)bwe解码端首先从编码帧(码流)中解析出bwe编码参数,用于重建高频部分。

(2)从bwe编码参数中进一步解析出高频生成所需的参数:频谱拷贝所需的低频起始点fs及各个栅格的参数(包括本栅格的模板编码号等)。

(3)针对要恢复(重建)的每个栅格高频部分,对这个栅格的模板形状编码信息解码可以得到所使用的包络形状(图11中的栅格编码信息为001,解码得到图10b的模板,如图中红色部分所示)。

(4)根据所给低频起始点fs(以及可能包括终止谱线号,或者低频部分的最高谱线号),从低频部分拷贝作为高频部分初始信号,可以看到图11中要拷贝两次来覆盖整个高频部分,分别为拷贝1和拷贝2。

(5)对从低频部分拷贝得到的高频部分初始信号进一步处理,成为具有平坦频谱的信号,便于后面应用包络形状进行栅格内频谱包络调整。可以应用lpc方法对拷贝过来的高频信号进行滤波,获得残差信号,残差信号具有较为平坦的频谱曲线,参考示例栅格部分平坦化后的频谱(从示例栅格内拷贝1的频谱形状处理为平坦的频谱形状,实际频谱一般不会这样平坦)。

(6)对(5)得到的栅格高频信号部分应用模板进行本栅格频谱包络整形,获得图中虚线包络形状,可以看到重建的本栅格的谱包络与原始谱包络形状比较相似。

(7)最后,还可进行增益调整,确保本栅格高频部分的能量和编码端原始高频部分的能量一致(红色虚线,即处于图中大概同样的纵坐标高度)。

相应的,虽然没有示出,本发明也涉及一种用于带宽扩展的音频编码装置,所述音频具有低频部分与高频部分,所述装置包括:谱包络模板形成模块,用于形成多个高频谱包络模板,且每一个谱包络模板赋予标号;栅格谱包络获取模块,用于对所述高频部分划分栅格,以获得要进行编码的栅格的栅格谱包络,所述栅格谱包络对应至少一个栅格;模板匹配模块,用于将谱包络模板与所述栅格谱包络进行形状匹配,确定与所述栅格谱包络的形状匹配的谱包络模板;和发送模块,用于向解码端传送代表所述确定的包络模块的标号信息。

相应的,虽然没有示出,本发明也涉及一种用于带宽扩展的音频解码装置,所述音频具有低频部分与高频部分,所述装置包括:谱包络模板确定模块,用于基于解码端接收到的代表所述确定的高频谱包络模板的标号的标号信息,确定谱包络模板;拷贝模块,用于将从低频部分选择的拷贝频谱拷贝到高频部分;包络整形模块,用于对拷贝到高频部分的频谱信号部分,在对应栅格范围内利用确定的谱包络模板进行包络整形。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行变化、要素组合,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1