用于使用基于时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法与流程

文档序号:14685975发布日期:2018-06-14 22:26阅读:227来源:国知局

根据本发明的实施例创造用于基于经编码的音频信息提供经解码的音频信息的音频解码器。

根据本发明的一些实施例创造用于基于经编码的音频信息提供经解码的音频信息的方法。

根据本发明的一些实施例创造用于执行所述方法中的一个的计算机程序。

根据本发明的一些实施例涉及用于变换域编解码器的时域隐藏。



背景技术:

近年来,对音频内容的数字传输及储存的需求日益增加。然而,音频内容通常在不可靠声道上传输,这带来包含一个或多个音频帧(例如,以经编码的表示的形式,如(例如)经编码的频域表示或经编码的时域表示)的数据单元(例如,封包)丢失的风险。在一些情形下,将可能请求丢失的音频帧(或包含一个或多个丢失的音频帧的数据单元,如封包)的重复(重新发送)。然而,此通常将带来大量延迟,且将因此需要音频帧的扩展(extensive)缓冲。在其他情况下,几乎不可能请求丢失的音频帧的重复。

为了获得良好的或至少可接受的音频品质,考虑到音频帧丢失而未提供扩展缓冲(这将消耗大量存储器且还将大体上使音频编码的实时能力降级)的情况,期望具有用以处理一个或多个音频帧的丢失的概念。特别地,期望具有甚至在音频帧丢失的情况下带来良好的音频品质或至少可接受的音频品质的概念。

过去,已发展一些错误隐藏概念,这些错误隐藏概念可应用于不同的音频编码概念中。

在下文中,将描述传统的音频编码概念。

在3gpp标准TS26.290中,解释利用错误隐藏的变换编码激励解码(TCX解码)。在下文中,将提供一些解释,这些解释基于参考文献[1]中的章节“TCXmodedecodingandsignalsynthesis”。

图7及图8中示出根据国际标准3gppTS26.290的TCX解码器,其中图7和图8示出TCX解码器的方块图。然而,图7示出在正常操作中或部分封包丢失的情况下与TCX解码有关的那些功能方块。相反,图8示出在TCX-256封包擦除隐藏的情况下的TCX解码的有关处理。

不同而言,图7及图8示出包括遵循以下情况的TCX解码器的方块图:

情况1(图8):当TCX帧长度为256个样本且有关封包丢失(即,BFI_TCX=(1))时的TCX-256中的封包擦除隐藏;以及

情况2(图7):正常TCX解码,可能具有部分封包丢失。

在下文中,将关于图7及图8提供一些解释。

如所提及,图7示出在正常操作中或在部分封包丢失的情况下执行TCX解码的TCX解码器的方块图。根据图7的TCX解码器700接收TCX特定参数710,且基于该TCX特定参数提供经解码的音频信息712、714。

音频解码器700包含多路解复用器“DEMUXTCX720”,该多路解复用器用于接收TCX特定参数710及信息“BFI_TCX”。多路解复用器720分离TCX特定参数710,并提供经编码的激励信息722、经编码的噪声填入(fill-in)信息724及经编码的全局增益信息726。音频解码器700包含激励解码器730,该激励解码器用于接收经编码的激励信息722、经编码的噪声填入信息724及经编码的全局增益信息726,以及一些额外信息(如,例如,比特率旗标“bit_rate_flag”、信息“BFI_TCX”及TCX帧长度信息。激励解码器730基于上述信息提供时域激励信号728(也以“x”指定)。激励解码器730包含激励信息处理器732,该激励信息处理器对经编码的激励信息722进行解复用并对代数向量量化参数进行解码。激励信息处理器732提供中间激励信号734,该中间激励信号通常是以频域表示,且以Y指定。激励编码器730还包含噪声注入器736,该噪声注入器用于在非量化子带中注入噪声,以从中间激励信号734导出噪声填充的激励信号738。噪声填充的激励信号738通常处于频域中,且以Z指定。噪声注入器736从噪声填入水平解码器740接收噪声强度信息742。激励解码器还包含适应性低频去加重744,该适应性低频去加重用于基于噪声填充的激励信号738执行低频去加重操作,以获得处理后的激励信号746,该处理后的激励信号仍处于频域中,且以X’指定。激励解码器730还包含频域至时域的变换器748,该频域至时域的变换器用于接收处理后的激励信号746,并基于该处理后的激励信号提供时域激励信号750,该时域激励信号与由频域激励参数的集合(例如,处理后的激励信号746的频域激励参数的集合)表示的某个时间部分相关联。激励解码器730还包含缩放器752,该缩放器用于对时域激励信号750进行缩放以获得经缩放的时域激励信号754。缩放器752从全局增益解码器758接收全局增益信息756,其中作为回复,全局增益解码器758接收经编码的全局增益信息726。激励解码器730还包含重叠-相加合成760,该重叠-相加合成接收与多个时间部分相关联的经缩放的时域激励信号754。重叠-相加合成760基于经缩放的时域激励信号754执行重叠及相加操作(该重叠及相加操作可包括开窗操作),以获得较长时间周期(比提供单独时域激励信号750、754的时间周期长)内的时间上组合的时域激励信号728。

音频解码器700还包含LPC合成770,该LPC合成接收由重叠-相加合成760提供的时域激励信号728及定义LPC合成滤波函数772的一个或多个LPC系数。LPC合成770可例如包含第一滤波器774,该第一滤波器可例如对时域激励信号728进行合成滤波,以获得经解码的音频信号712。选择性地,LPC合成770还可包含第二合成滤波器772,该第二合成滤波器用于使用另一合成滤波函数对第一滤波器774的输出信号进行合成滤波,以获得经解码的音频信号714。

在下文中,将在TCX-256封包擦除隐藏的情况下描述TCX解码。图8示出在此情况下的TCX解码器的方块图。

封包擦除隐藏800接收音高(pitch)信息810,该音高信息也以“pitch_tcx”指定,且该音高信息是从在先经解码的TCX帧获得。例如,在激励解码器730中(在“正常”解码期间),可使用主(dominant)音高估计器747从处理后的激励信号746获得音高信息810。此外,封包擦除隐藏800接收LPC参数812,该LPC参数可表示LPC合成滤波函数。LPC参数812可例如与LPC参数772相同。因此,封包擦除隐藏800可用于基于音高信息810及LPC参数812提供错误隐藏信号814,该错误隐藏信号可被视为错误隐藏音频信息。封包擦除隐藏800包含激励缓冲器820,该激励缓冲器可例如缓冲在先激励。激励缓冲器820可例如利用ACELP的适应性码本,并可提供激励信号822。封包擦除隐藏800可进一步包含第一滤波器824,该第一滤波器的滤波函数可如图8中所示而定义。因此,第一滤波器824可基于LPC参数812对激励信号822进行滤波,以获得激励信号822的滤波后的版本826。封包擦除隐藏还包含振幅限制器828,该振幅限制器可基于目标信息或水平信息rmswsyn对滤波后的激励信号826的振幅进行限制。此外,封包擦除隐藏800可包含第二滤波器832,该第二滤波器可用于从振幅限制器822接收振幅受限的滤波后的激励信号830,并基于该振幅受限的滤波后的激励信号提供错误隐藏信号814。第二滤波器832的滤波函数可例如如图8中所示而定义。

在下文中,将描述关于解码及错误隐藏的一些细节。

在情况1(TCX-256中的封包擦除隐藏)下,无信息可用于对256样本TCX帧进行解码。通过对延迟了T的过去激励进行处理而找到TCX合成,其中T=pitch_tcx为通过大致上等效于的非线性滤波而在先前解码的TCX帧中估计的音高滞后。使用非线性滤波器而非以避免合成中的卡嗒声(click)。此滤波被分解为3个步骤:

步骤1:通过滤波,以将延迟了T的激励映射至TCX目标域;

步骤2:施加限制器(量级限于±rmswsyn)

步骤3:通过滤波,以找到合成。请注意,缓冲器OVLP_TCX在此情况下被设定为零。

代数VQ参数的解码

在情况2下,TCX解码涉及对描述经缩放的频谱X'中的每个量化方块的代数VQ参数进行解码,其中X'如3gppTS26.290的第5.3.5.7章节的第2步中所述。唤起(recall)X'具有维度N,其中对于TCX-256、TCX-512及TCX-1024,N分别等于288、576及1152,且每个方块B′k具有维度8。因此对于TCX-256、TCX-512及TCX-1024,方块B′k的数目K分别为36、72及144。用于每个方块B′k的代数VQ参数描述于第5.3.5.7章节的第5步中。对于每个方块B′k,由编码器发送三组二进制索引:

a)码本索引nk,如第5.3.5.7章节的第5步中所述以一元码传输;

b)所谓的基本码本中的选定的格点c的Ik,该基本码本指示必须将何置换施加于特定首部(参见第5.3.5.7章节的第5步)以获得格点c;

c)以及,若量化方块(格点)并未处于基本码本中,则在章节中的第5步的子步骤V1中计算的Voronoi扩展索引向量k的8个索引;自Voronoi扩展索引,可如3gppTS26.290的参考文献[1]中计算扩展向量z。索引向量k的每个分量中的比特数由扩展阶r给出,该扩展阶可从索引nk的一元码值获得。Voronoi扩展的比例因数M由M=2r给出。

然后,从比例因数M、Voronoi扩展向量z(RE8中的格点)及基本码本中的格点c(也为RE8中的格点),每个量化的经缩放的方块可计算为:

B ^ k = M c + z ]]>

当不存在Voronoi扩展(即,nk<5,M=1且z=0)时,基本码本为来自3gppTS26.290的参考文献[1]的码本Q0、Q2、Q3或Q4。然后无需比特以传输向量k。否则,当因为足够大而使用Voronoi扩展时,则仅将来自参考文献[1]的Q3或Q4用作基本码本。Q3或Q4的选择隐含于码本索引值nk中,如第5.3.5.7章节的第5步中所述。

主音高值的估计

执行主音高的估计,以便在待被解码的下一帧对应于TCX-256且有关封包丢失时可适当地对该下一帧进行外插。此估计基于TCX目标的频谱中的最大量级的峰值对应于主音高的假定。对最大M的搜索限于低于Fs/64kHz的频率

M=maxi=1..N/32(X′2i)2+(X′2i+1)2

且最小索引1≤imax≤N/32,以便也找到(X′2i)2+(X′2i+1)2=M。然后,主音高以样本数估计为Test=N/imax(此值可并非整数)。唤起针对TCX-256中的封包擦除隐藏而计算主音高。为避免缓冲问题(激励缓冲器限于256个样本),若Test>256个样本,则将pitch_tcx设定为256;否则,若Test≤256,则通过将pitch_tcx设定为如下以避免256个样本中的多音高周期:

其中表示朝向-∞舍入至最近的整数。

在下文中,将简要地论述一些进一步的传统概念。

在ISO_IEC_DIS_23003-3(参考文献[3])中,在统一语音及音频编解码器的上下文中解释应用MDCT的TCX解码。

在AAC现有技术水平(对照,例如,参考文献[4])中,仅描述内插模式。根据参考文献[4],AAC核心解码器包括隐藏函数,该隐藏函数将解码器的延迟增加一帧。

在欧洲专利EP1207519B1(参考文献[5])中,描述该专利以提供一种语音解码器及错误补偿方法,该语音解码器及错误补偿方法能够针对检测到错误的帧中的经解码的语音而实现进一步的改良。根据该专利,语音编码参数包括模式信息,该模式信息表达语音的每个短分段(帧)的特征。语言编码器根据模式信息适应性地计算用于语音解码的滞后参数及增益参数。此外,语音解码器根据模式信息适应性地控制适应性激励增益与固定增益激励增益的比率。此外,根据该专利的概念包含根据检测到无错误的正常解码单元中的经解码的增益参数的值而适应性地控制用于语音解码的适应性激励增益参数及固定激励增益参数,该适应性地控制在解码单元(其编码的数据被检测为含有错误)之后立即进行。

鉴于现有技术,需要提供更好的听觉印象的错误隐藏的额外改良。



技术实现要素:

根据本发明的实施例创造一种用于基于经编码的音频信息提供经解码的音频信息的音频解码器。该音频解码器包含错误隐藏,该错误隐藏用于使用时域激励信号提供用于对以频域表示编码的音频帧之后的音频帧的丢失(或多于一个帧丢失)进行隐藏的错误隐藏音频信息。

根据本发明的此实施例基于这样的发现:即使丢失的音频帧之前的音频帧是以频域表示而被编码的,也可通过基于时域激励信号提供错误隐藏音频信息而获得改良的错误隐藏。换言之,已认识到,当与在频域中执行的错误隐藏相比时,若基于时域激励信号执行错误隐藏,则错误隐藏的品质通常更好,以便即使丢失的音频帧之前的音频内容是在频域中(即,以频域表示)而被编码的,也值得使用时域激励信号来切换至时域错误隐藏。此例如对于单音信号且主要对于语音是真实的。

因此,即使丢失的音频帧之前的音频帧是在频域中(即,以频域表示)而被编码的,本发明也允许获得良好的错误隐藏。

在优选的实施例中,频域表示包含多个频谱值的经编码的表示及用于对频谱值进行缩放的多个比例因数的经编码的表示,或音频解码器用于从LPC参数的经编码的表示导出用于对频谱值进行缩放的多个比例因数。可通过使用FDNS(频域噪声成形)来进行该导出。然而,已发现,即使丢失的音频帧之前的音频帧最初是以包含实质上不同信息的频域表示(即,用于对频谱值进行缩放的多个比例因数的经编码的表示中的多个频谱值的经编码的表示)而被编码的,也值得导出时域激励信号(该时域激励信号可充当用于LPC合成的激励)。例如,在TCX的情况下,我们不发送比例因数(从编码器至解码器)但发送LPC,且然后在解码器中我们将LPC变换成用于MDCT频率仓(bins)的比例因数表示。不同而言,在TCX的情况下,我们发送LPC系数,且然后在解码器中我们将这些LPC系数变换成用于USAC中或AMR-WB+中的TCX的比例因数表示,在USAC中或在AMR-WB+中完全不存在比例因数。

在优选的实施例中,音频解码器包含频域解码器核心,该频域解码器核心用于将基于比例因数的缩放施加于从频域表示导出的多个频谱值。在此情况下,错误隐藏用于使用从频域表示导出的时域激励信号,提供用于对以包含多个经编码的比例因数的频域表示编码的音频帧之后的音频帧的丢失进行隐藏的错误隐藏音频信息。根据本发明的此实施例基于这样的发现:当与直接在频域中执行的错误隐藏相比时,时域激励信号从以上所提及的频域表示的导出通常提供更好的错误隐藏结果。例如,基于在先帧的合成创建激励信号,则无论在先帧为频域(MDCT、FFT…)或时域帧皆无关系。然而,若在先帧为频域,则可观察到特定的优点。此外,应注意,例如对于类语音的单音信号实现特别良好的结果。作为另一示例,比例因数可作为例如使用多项式表示的LPC系数传输,然后该多项式表示在解码器侧转换成比例因数。

在优选的实施例中,音频解码器包含频域解码器核心,该频域解码器核心用于从频域表示导出时域音频信号表示,而未将时域激励信号用作用于以频域表示编码的音频帧的中间量。换言之,已发现,即使丢失的音频帧之前的音频帧是在不使用任何时域激励信号作为中间量(且因此并不基于LPC合成)的“真实的”频率模式中而被编码的,对于错误隐藏,时域激励信号的使用也是有利的。

在优选的实施例中,错误隐藏用于基于丢失的音频帧之前的以频域表示编码的音频帧获得时域激励信号。在此情况下,错误隐藏用于使用所述时域激励信号提供用于对丢失的音频帧进行隐藏的错误隐藏音频信息。换言之,已认识到,用于错误隐藏的时域激励信号应从丢失的音频帧之前的以频域表示编码的音频帧导出,因为从丢失的音频帧之前的以频域表示编码的音频帧导出的此时域激励信号提供了丢失的音频帧之前的音频帧的音频内容的良好表示,以便可以以适度的努力及良好的准确度执行错误隐藏。

在优选的实施例中,错误隐藏用于基于丢失的音频帧之前的以频域表示编码的音频帧执行LPC分析,以获得线性预测编码参数的集合及时域激励信号,该时域激励信号表示丢失的音频帧之前的以频域表示编码的音频帧的音频内容。已发现,即使丢失的音频帧之前的音频帧是以频域表示(该频域表示不含有任何线性预测编码参数且无时域激励信号的表示)而被编码的,也值得努力执行LPC分析,以导出线性预测编码参数及时域激励信号,因为可基于所述时域激励信号而针对许多输入音频信号获得良好品质的错误隐藏音频信息。可选地,错误隐藏可用于基于丢失的音频帧之前的以频域表示编码的音频帧执行LPC分析,以获得时域激励信号,该时域激励信号表示丢失的音频帧之前的以频域表示编码的音频帧的音频内容。进一步可选地,音频解码器可用于使用线性预测编码参数估计而获得线性预测编码参数的集合,或音频解码器可用于使用变换基于比例因数的集合而获得线性预测编码参数的集合。不同而言,可使用LPC参数估计而获得LPC参数。可通过基于以频域表示编码的音频帧的windowing/autocorr/levinsondurbin或通过自在先比例因数直接至LPC表示的变换来进行该获得。

在优选的实施例中,错误隐藏用于获得描述丢失的音频帧之前的在频域中编码的音频帧的音高的音高(或滞后)信息,并依据该音高信息提供错误隐藏音频信息。通过考虑音高信息,可实现错误隐藏音频信息(该错误隐藏音频信息通常为覆盖至少一个丢失的音频帧的持续时间的错误隐藏音频信号)极好地适于实际音频内容。

在优选的实施例中,错误隐藏用于基于从丢失的音频帧之前的以频域表示编码的音频帧导出的时域激励信号获得音高信息。已发现,音高信息自时域激励信号的导出带来高准确度。此外,已发现,若音高信息极好地适于时域激励信号,则该导出为有利的,因为音高信息用于时域激励信号的修改。通过从时域激励信号导出音高信息,可实现此密切关系。

在优选的实施例中,错误隐藏用于估计时域激励信号的交叉相关,以确定粗略的音高信息。此外,错误隐藏可用于使用围绕由该粗略的音高信息确定的音高的闭回路搜索而细化粗略的音高信息。因此,可以以适度的计算工作量实现高度准确的音高信息。

在优选的实施例中,音频解码器,错误隐藏可用于基于经编码的音频信息的边信息获得音高信息。

在优选的实施例中,错误隐藏可用于基于可用于先前解码的音频帧的音高信息获得音高信息。

在优选的实施例中,错误隐藏用于基于对时域信号或对残差信号执行的音高搜索而获得音高信息。

不同而言,音高可作为旁侧信息传输,或若存在例如LTP,则该音高也可来自在先帧。若音高信息在编码器处是可用的,则其也可在比特流中传输。我们可选择性地直接在时域信号上或在残差上进行音高搜索,在残差(时域激励信号)上给出通常更好的结果。

在优选的实施例中,错误隐藏用于将从丢失的音频帧之前的以频域表示编码的音频帧导出的时域激励信号的音高周期复制一次或多次,以便获得用于错误隐藏音频信号的合成的激励信号。通过将时域激励信号复制一次或多次,可实现以良好的准确度获得错误隐藏音频信息的确定性(即,大体上周期性)分量,且该确定性分量为丢失的音频帧之前的音频帧的音频内容的确定性(例如大体上周期性)分量的良好延续。

在优选的实施例中,错误隐藏用于使用采样率相依滤波器对从丢失的音频帧之前的以频域表示编码的音频帧的频域表示导出的时域激励信号的音高周期进行低通滤波,该采样率相依滤波器的带宽取决于以频域表示编码的音频帧的采样率。因此,时域激励信号可适于可用的音频带宽,该可用的音频带宽导致错误隐藏音频信息的良好的听觉印象。例如,优选地仅在第一丢失帧上进行低通,且优选地,只要信号并非100%稳定的,我们也进行低通。然而,应注意,低通滤波为选择性的,且可仅在第一音高周期上执行。例如,滤波器可为采样率相依的,以便截止频率不依赖于带宽。

在优选的实施例中,错误隐藏用于预测在丢失帧的结束处的音高,以使时域激励信号或该时域激励信号的一个或多个副本适于预测的音高。因此,可考虑丢失的音频帧期间的预期的音高变化。因此,避免(或至少减少,因为该音高仅为预测的音高而非真实的音高)了在错误隐藏音频信息与一个或多个丢失的音频帧之后的适当解码的帧的音频信息之间的过渡处的伪声(artifact)。例如,调适自最后良好的音高开始至预测的音高为止。通过脉冲再同步[7]来进行该调适。

在优选的实施例中,错误隐藏用于对外插的时域激励信号及噪声信号进行组合,以便获得用于LPC合成的输入信号。在此情况下,错误隐藏用于执行LPC合成,其中LPC合成用于依据线性预测编码参数对LPC合成的输入信号进行滤波,以便获得错误隐藏音频信息。因此,可考虑音频内容的确定性(例如,近似周期性)分量及音频内容的类噪声分量两者。因此,实现了错误隐藏音频信息包含“自然的”听觉印象。

在优选的实施例中,错误隐藏用于使用时域中的相关来计算外插的时域激励信号的增益,该外插的时域激励信号用以获得用于LPC合成的输入信号,该相关是基于丢失的音频帧之前的在频域中编码的音频帧的时域表示而被执行的,其中依据基于时域激励信号而获得的音高信息来设定相关滞后。换言之,在丢失的音频帧之前的音频帧内确定周期性分量的强度,且周期性分量的此确定的强度用以获得错误隐藏音频信息。然而,已发现,以上提及的周期性分量的强度的计算提供特别良好的结果,因为考虑了丢失的音频帧之前的音频帧的实际时域音频信号。可选地,在激励域中或直接在时域中的相关可用以获得音高信息。然而,也存在不同的可能性,此取决于使用哪一个实施例。在实施例中,音高信息可仅为从最后帧的ltp获得的音高,或作为边信息传输的音高,或所计算的音高。

在优选的实施例中,错误隐藏用于对噪声信号进行高通滤波,该噪声信号与外插的时域激励信号组合。已发现,对噪声信号(该噪声信号通常被输入至LPC合成)进行高通滤波导致自然的听觉印象。例如,高通特性可随着帧丢失的量而改变,在一定量的帧丢失之后可不再存在高通。高通特性也可取决于解码器运行的采样率。例如,高通为采样率相依的,且滤波特性可随时间(随连续的帧丢失)而改变。高通特性也可选择性地随连续的帧丢失而改变,以便在一定量的帧丢失之后不再存在滤波以仅获取满带成形的噪声以获取最接近于背景噪声的良好舒适噪声。

在优选的实施例中,错误隐藏用于使用预加重滤波器选择性地改变噪声信号(562)的频谱形状,其中若丢失的音频帧之前的以频域表示编码的音频帧为有声的(voiced)音频帧或包含起始(onset),则将噪声信号与外插的时域激励信号进行组合。已发现,可通过此概念改良错误隐藏音频信息的听觉印象。例如,在一些情况下较佳地减少增益及形状,在一些地方较佳地增大增益及形状。

在优选的实施例中,错误隐藏用于依据时域中的相关计算噪声信号的增益,基于丢失的音频帧之前的以频域表示编码的音频帧的时域表示执行该相关。已发现,噪声信号的增益的此确定提供特别准确的结果,因为可考虑与丢失的音频帧之前的音频帧相关联的实际时域音频信号。使用此概念,可能能够获取隐藏帧的能量,该能量接近于在先良好帧的能量。例如,可通过测量结果(输入信号的激励——所生成的基于音高的激励)的能量来生成用于噪声信号的增益。

在优选的实施例中,错误隐藏用于对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号进行修改,以便获得错误隐藏音频信息。已发现,时域激励信号的修改允许使时域激励信号适于期望的时间演进。例如,时域激励信号的修改允许使错误隐藏音频信息中的音频内容的确定性(例如,大体上周期性)分量“衰退”(fadeout)。此外,时域激励信号的修改还允许使时域激励信号适于(估计的或预期的)音高变化。此允许随时间而调整错误隐藏音频信息的特性。

在优选的实施例中,错误隐藏用于使用基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号的一个或多个修改后的副本,以便获得错误隐藏信息。可以以适度的努力获得时域激励信号的修改后的副本,且可使用单一算法执行修改。因此,可以以适度的努力实现错误隐藏音频信息的期望特性。

在优选的实施例中,错误隐藏用于对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行修改,以随时间减少错误隐藏音频信息的周期性分量。因此,可认为,丢失的音频帧之前的音频帧的音频内容与一个或多个丢失的音频帧的音频内容之间的相关随时间而下降。同样,可避免由错误隐藏音频信息的周期性分量的长期保留引起不自然的听觉印象。

在优选的实施例中,错误隐藏用于对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放,以修改时域激励信号。已发现,可以以少许努力执行缩放操作,其中经缩放的时域激励信号通常提供良好的错误隐藏音频信息。

在优选的实施例中,错误隐藏用于逐渐地减少被施加用以对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益。因此,在错误隐藏音频信息内可实现周期性分量的衰退。

在优选的实施例中,错误隐藏用于依据丢失的音频帧之前的一个或多个音频帧的一个或多个参数,和/或依据连续丢失的音频帧的数目,调整用以逐渐地减少被施加用以对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益的速度。因此,可能调整使确定性(例如,至少近似周期性)分量在错误隐藏音频信息中衰退的速度。衰退速度可适于音频内容的特定特性,该特定特性可通常从丢失的音频帧之前的一个或多个音频帧的一个或多个参数看出。可选地或此外,当确定用以使错误隐藏音频信息的确定性(例如,至少近似周期性)分量衰退的速度时,可考虑连续丢失的音频帧的数目,此有助于使错误隐藏适于特定情形。例如,可使音调部分的增益及噪声部分的增益单独地衰退。用于音调部分的增益可在一定量的帧丢失之后收敛至零,而噪声的增益可收敛至被确定用以达到某个舒适噪声的增益。

在优选的实施例中,错误隐藏用于依据时域激励信号的音高周期的长度,调整用以逐渐地减少被施加用于对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益的速度,以便与具有较大长度的音高周期的信号相比,对于具有较短长度的音高周期的信号,输入至LPC合成的时域激励信号衰退得更快。因此,可避免以高强度过于频繁地重复具有音高周期的较短长度的信号,因为此将通常导致不自然的听觉印象。因此,可改良错误隐藏音频信息的整体品质。

在优选的实施例中,错误隐藏用于依据音高分析或音高预测的结果,调整用以逐渐地减少被施加用以对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益的速度,以便与具有较小的每时间单位音高变化的信号相比,对于具有较大的每时间单位音高变化的信号,输入至LPC合成的时域激励信号的确定性分量衰退得更快,和/或以便与音高预测成功的信号相比,对于音高预测失败的信号,输入至LPC合成的时域激励信号的确定性分量衰退得更快。因此,当与存在音高的较小不确定性的信号相比时,对于存在音高的大不确定性的信号,衰退可进行得更快。然而,通过使确定性分量对于包含音高的相对大的不确定性的信号衰退得更快,可避免或至少大体上减少可闻的伪声。

在优选的实施例中,错误隐藏用于依据一个或多个丢失的音频帧的时间内的音高的预测,对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行时间缩放(time-scale)。因此,时域激励信号可适于变化的音高,以便错误隐藏音频信息包含更自然的听觉印象。

在优选的实施例中,错误隐藏用于提供一段时间的错误隐藏音频信息,该时间比一个或多个丢失的音频帧的持续时间更长。因此,可能基于错误隐藏音频信息执行重叠及相加操作,此有助于减少块状的伪声。

在优选的实施例中,错误隐藏用于执行错误隐藏音频信息与一个或多个丢失的音频帧之后的一个或多个适当接收的音频帧的时域表示的重叠及相加。因此,可能避免(或至少减少)块状的伪声。

在优选的实施例中,错误隐藏用于基于丢失的音频帧或丢失的窗口之前的至少三个部分重叠的帧或窗口导出错误隐藏音频信息。因此,甚至对于多于两个帧(或窗口)重叠(其中此重叠可有助于减少延迟)的编码模式,也可以以良好的准确度获得错误隐藏音频信息。

根据本发明的另一实施例创造用于基于经编码的音频信息提供经解码的音频信息的方法。方法包含使用时域激励信号提供用于对以频域表示编码的音频帧之后的音频帧的丢失进行隐藏的错误隐藏音频信息。此方法基于与以上提及的音频解码器相同的考虑。

根据本发明的又一实施例创造一种计算机程序,当该计算机程序在计算机上运行时,该计算机程序用于执行所述方法。

根据本发明的另一实施例创造用于基于经编码的音频信息提供经解码的音频信息的音频解码器。音频解码器包含错误隐藏,该错误隐藏用于提供用于对音频帧的丢失进行隐藏的错误隐藏音频信息。错误隐藏用于修改基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号,以便获得错误隐藏音频信息。

根据本发明的此实施例基于可基于时域激励信号获得具有良好的音频品质的错误隐藏的想法,其中基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号的修改允许错误隐藏音频信息适于丢失帧期间的音频内容的预期(或预测)的变化。因此,可避免伪声及(特别地)不自然的听觉印象,该不自然的听觉印象将由时域激励信号的不变的使用而引起。因此,实现错误隐藏音频信息的改良的提供,以便可利用改良的结果对丢失的音频帧进行隐藏。

在优选的实施例中,错误隐藏用于使用针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号的一个或多个修改后的副本,以便获得错误隐藏信息。通过使用针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号的一个或多个修改后的副本,可以以少许计算工作量实现错误隐藏音频信息的良好品质。

在优选的实施例中,错误隐藏用于修改针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本,以随时间减少错误隐藏音频信息的周期性分量。通过随时间而减少错误隐藏音频信息的周期性分量,可避免确定性(例如,近似周期性)声音的不自然地长期保留,此有助于使错误隐藏音频信息听起来自然。

在优选的实施例中,错误隐藏用于对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放,以修改时域激励信号。时域激励信号的缩放构成用以随时间而改变错误隐藏音频信息的特别有效的方式。

在优选的实施例中,错误隐藏用于逐渐地减少被施加用以对针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益。已发现,逐渐地减少被施加用以对针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益,允许获得用于错误隐藏音频信息的提供的时域激励信号,以便确定性分量(例如,至少近似周期性分量)被衰退。例如,可存在不仅一个增益。例如,我们可具有用于音调部分(也被称为近似周期性部分)的一个增益,及用于噪声部分的一个增益。可以以不同的速度因数单独地衰减两个激励(或激励分量),且然后两个所得激励(或激励分量)可在馈入LPC用于合成之前而被组合。在我们不具有任何背景噪声估计的情况下,用于噪声及用于音调部分的衰退因数可为类似的,且然后我们可仅将一个衰退施加于两个激励与该两个激励的自有增益相乘且组合在一起的结果上。

因此,可避免错误隐藏音频信息包含时间上扩展的确定性(例如,至少近似周期性)音频分量,这将通常提供不自然的听觉印象。

在优选的实施例中,错误隐藏用于依据丢失的音频帧之前的一个或多个音频帧的一个或多个参数,和/或依据连续丢失的音频帧的数目,调整用以逐渐地减少被施加用以对针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益的速度。因此,以适度的计算工作量,错误隐藏音频信息中的确定性(例如,至少近似周期性)分量的衰退速度可适于特定情形。因为用于错误隐藏音频信息的提供的时域激励信号通常为针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号的经缩放的版本(使用以上提及的增益而被缩放),所述增益(用以导出用于错误隐藏音频信息的提供的时域激励信号)的变化构成用以使错误隐藏音频信息适于特定需求的简单但有效的方法。然而,也可以以少许努力来控制衰退速度。

在优选的实施例中,错误隐藏用于依据时域激励信号的音高周期的长度,调整用以逐渐地减少被施加用以对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益的速度,以便与具有较大长度的音高周期的信号相比,对于具有较短长度的音高周期的信号,输入至LPC合成的时域激励信号衰退得更快。因此,对于具有音高周期的较短长度的信号,衰退执行得更快,这避免将音高周期复制过多次(这将通常导致不自然的听觉印象)。

在优选的实施例中,错误隐藏用于依据音高分析或音高预测的结果,调整用以逐渐地减少被施加用以对针对丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行缩放的增益的速度,以便与具有较小的每时间单位音高变化的信号相比时,对于具有较大的每时间单位音高变化的信号,输入至LPC合成的时域激励信号的确定性分量衰退得更快,和/或以便与音高预测成功的信号相比,对于音高预测失败的信号,输入至LPC合成的时域激励信号的确定性分量衰退得更快。因此,确定性(例如,至少近似周期性)分量对于存在音高的较大不确定性的信号衰退得更快(其中,较大的每时间单位音高变化或甚至音高预测的失败指示音高的相对大的不确定性)。因此,可避免伪声,该伪声将起因于在实际音高不确定的情形下的高度确定性错误隐藏音频信息的提供。

在优选的实施例中,错误隐藏用于依据一个或多个丢失的音频帧的时间内的音高的预测,对针对(或基于)丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号或该时域激励信号的一个或多个副本进行时间缩放。因此,用于错误隐藏音频信息的提供的时域激励信号被修改(当与针对(或基于)丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号相比时),以便时域激励信号的音高遵循对丢失的音频帧的时间周期的要求。因此,可改良可由错误隐藏音频信息实现的听觉印象。

在优选的实施例中,错误隐藏用于获得已用以对丢失的音频帧之前的一个或多个音频帧进行解码的时域激励信号,且修改已用以对丢失的音频帧之前的一个或多个音频帧进行解码的所述时域激励信号,以获得修改后的时域激励信号。在此情况下,时域隐藏用于基于修改后的时域音频信号提供错误隐藏音频信息。因此,可能重新使用已用以对丢失的音频帧之前的一个或多个音频帧进行解码的时域激励信号。因此,若时域激励信号已被获取用于丢失的音频帧之前的一个或多个音频帧的解码,则计算工作量可保持极小。

在优选的实施例中,错误隐藏用于获得音高信息,该音高信息已用以对丢失的音频帧之前的一个或多个音频帧进行解码。在此情况下,错误隐藏还用于依据所述音高信息提供错误隐藏音频信息。因此,可重新使用先前使用的音高信息,这避免了用于音高信息的新计算的计算工作量。因此,错误隐藏为特别计算有效的。例如,在ACELP的情况下,我们具有每帧4个音高滞后及增益。我们可使用最后两个帧以能够预测在帧的结束处的我们必须隐藏的音高。

然后,与导出每帧仅一个或两个音高(我们可具有多于两个但这将在品质上对于不多的增益增添许多复杂性)的在先描述的频域编解码器进行比较。在适用于例如ACELP–FD–丢失的切换式编解码器的情况下,则我们具有更好的音高精度,因为音高在比特流中传输且基于原始输入信号(而非基于如在解码器中进行的经解码的信号)。在例如高比特率的情况下,我们也可发送每频域编码的帧一个音高滞后及增益信息,或LTP信息。

在优选的实施例中,音频解码器,错误隐藏可用于基于经编码的音频信息的边信息获得音高信息。

在优选的实施例中,错误隐藏可用于基于可用于先前解码的音频帧的音高信息获得音高信息。

在优选的实施例中,错误隐藏用于基于对时域信号或对残差信号执行的音高搜索而获得音高信息。

不同而言,音高可作为边信息传输,或若存在例如LTP,则该音高也可来自在先帧。若音高信息在编码器处是可用的,则其也可在比特流中传输。我们可选择性地直接在时域信号上或在残差上进行音高搜索,在残差(时域激励信号)上给出通常更好的结果。

在优选的实施例中,错误隐藏用于获得线性预测系数的集合,该线性预测系数的集合已用以对丢失的音频帧之前的一个或多个音频帧进行解码。在此情况下,错误隐藏用于依据所述线性预测系数的集合提供错误隐藏音频信息。因此,通过重新使用先前生成的(或先前解码的)信息(如例如先前使用的线性预测系数的集合)提高错误隐藏的效率。因此,避免了不必要的高计算复杂性。

在优选的实施例中,错误隐藏用于基于线性预测系数的集合对新的线性预测系数的集合进行外插,该线性预测系数的集合已用以对丢失的音频帧之前的一个或多个音频帧进行解码。在此情况下,错误隐藏用于使用新的线性预测系数的集合以提供错误隐藏信息。通过使用外插从先前使用的线性预测系数的集合导出用以提供错误隐藏音频信息的新的线性预测系数的集合,可避免线性预测系数的完全重新计算,这有助于使计算工作量保持合理地小。此外,通过基于先前使用的线性预测系数的集合执行外插,可确保新的线性预测系数的集合至少类似于先前使用的线性预测系数的集合,这有助于避免在提供错误隐藏信息时的不连续性。例如,在一定量的帧丢失之后,我们倾向于估计背景噪声LPC形状。此收敛的速度可例如取决于信号特性。

在优选的实施例中,错误隐藏用于获得关于丢失的音频帧之前的一个或多个音频帧中的确定性信号分量的强度的信息。在此情况下,错误隐藏用于将关于丢失的音频帧之前的一个或多个音频帧中的确定性信号分量的强度的信息与阈值进行比较,以决定是将时域激励信号的确定性分量输入至LPC合成(基于线性预测系数的合成),还是仅将时域激励信号的噪声分量输入至LPC合成。因此,在丢失的音频帧之前的一个或多个帧内仅存在小的确定性信号贡献的情况下,可能省略错误隐藏音频信息的确定性(例如,至少近似周期性)分量的提供。已发现,此有助于获得良好的听觉印象。

在优选的实施例中,错误隐藏用于获得描述丢失的音频帧之前的音频帧的音高的音高信息,并依据音高信息提供错误隐藏音频信息。因此,可能使错误隐藏信息的音高适于丢失的音频帧之前的音频帧的音高。因此,避免不连续性且可实现自然的听觉印象。

在优选的实施例中,错误隐藏用于基于与丢失的音频帧之前的音频帧相关联的时域激励信号获得音高信息。已发现,基于时域激励信号而获得的音高信息为特别可靠的,且也极好地适于时域激励信号的处理。

在优选的实施例中,错误隐藏用于估计时域激励信号(或可选地时域音频信号)的交叉相关,以确定粗略的音高信息,且使用围绕由粗略的音高信息确定(或描述)的音高的闭回路搜索而细化粗略的音高信息。已发现,此概念允许以适度的计算工作量获得极精确的音高信息。换言之,在一些编解码器中,我们直接在时域信号上进行音高搜索,而在一些其他编解码器中,我们在时域激励信号上进行音高搜索。

在优选的实施例中,错误隐藏用于基于先前计算的音高信息且基于时域激励信号的交叉相关的估计而获得用于错误隐藏音频信息的提供的音高信息,该先前计算的音高信息用于丢失的音频帧之前的一个或多个音频帧的解码,该时域激励信号被修改以便获得用于错误隐藏音频信息的提供的修改后的时域激励信号。已发现,考虑先前计算的音高信息及基于时域激励信号(使用交叉相关)而获得的音高信息两者改良音高信息的可靠性,且因此有助于避免伪声和/或不连续性。

在优选的实施例中,错误隐藏用于依据先前计算的音高信息从交叉相关的多个峰值中选择交叉相关的峰值作为表示音高的峰值,以便选取表示与由先前计算的音高信息表示的音高最接近的音高的峰值。因此,可克服交叉相关的可能的歧义,该可能的歧义可例如导致多个峰值。先前计算的音高信息借此用以选择交叉相关的“适当”峰值,这有助于大体上提高可靠性。另一方面,主要针对音高确定来考虑实际时域激励信号,这提供良好的准确度(该良好的准确度大体上比可仅基于先前计算的音高信息而获得的准确度更好)。

在优选的实施例中,音频解码器,错误隐藏可用于基于经编码的音频信息的边信息获得音高信息。

在优选的实施例中,错误隐藏可用于基于可用于先前解码的音频帧的音高信息获得音高信息。

在优选的实施例中,错误隐藏用于基于对时域信号或对残差信号执行的音高搜索而获得音高信息。

不同而言,音高可作为边信息传输,或若存在例如LTP,则该音高也可来自在先帧。若音高信息在编码器处是可用的,则其也可在比特流中传输。我们可选择性地直接在时域信号上或在残差上进行音高搜索,在残差(时域激励信号)上给出通常更好的结果。

在优选的实施例中,错误隐藏用于将与丢失的音频帧之前的音频帧相关联的时域激励信号的音高周期复制一次或多次,以便获得用于错误隐藏音频信息的合成的激励信号(或至少该激励信号的确定性分量)。通过将与丢失的音频帧之前的音频帧相关联的时域激励信号的音高周期复制一次或多次,且通过使用相对简单的修改算法来修改所述一个或多个副本,可以以少许计算工作量获得用于错误隐藏音频信息的合成的激励信号(或至少该激励信号的确定性分量)。然而,重新使用与丢失的音频帧之前的音频帧相关联的时域激励信号(通过复制所述时域激励信号)避免了可闻的不连续性。

在优选的实施例中,错误隐藏用于使用采样率相依滤波器对与丢失的音频帧之前的音频帧相关联的时域激励信号的音高周期进行低通滤波,该采样率相依滤波器的带宽取决于以频域表示编码的音频帧的采样率。因此,时域激励信号适于音频解码器的信号带宽,这导致音频内容的良好再现。关于细节及选择性的改良,参考例如以上解释。

例如,优选地仅在第一丢失帧上进行低通,且优选地,只要信号并非无声的,我们也进行低通。然而,应注意,低通滤波为选择性的。此外,滤波器可为采样率相依的,以便截止频率不依赖于带宽。

在优选的实施例中,错误隐藏用于预测在丢失帧的结束处的音高。在此情况下,错误隐藏用于使时域激励信号或该时域激励信号的一个或多个副本适于预测的音高。通过修改时域激励信号,以便相对于与丢失的音频帧之前的音频帧相关联的时域激励信号,修改实际上用于错误隐藏音频信息的提供的时域激励信号,可考虑丢失的音频帧期间的预期(或预测)的音高变化,以便错误隐藏音频信息极好地适于音频内容的实际演进(或至少适于预期的或预测的演进)。例如,调适自最后良好的音高开始至预测的音高为止。通过脉冲再同步[7]来进行该调适。

在优选的实施例中,错误隐藏用于对外插的时域激励信号及噪声信号进行组合,以便获得用于LPC合成的输入信号。在此情况下,错误隐藏用于执行LPC合成,其中LPC合成用于依据线性预测编码参数对LPC合成的输入信号进行滤波,以便获得错误隐藏音频信息。通过将外插的时域激励信号(该外插的时域激励信号通常为针对丢失的音频帧之前的一个或多个音频帧而导出的时域激励信号的修改后的版本)及噪声信号进行组合,在错误隐藏中可考虑音频内容的确定性(例如,近似周期性)分量及噪声分量两者。因此,可实现错误隐藏音频信息提供类似于由丢失帧之前的帧提供的听觉印象的听觉印象。

同样,通过将时域激励信号及噪声信号进行组合,以便获得用于LPC合成的输入信号(该输入信号可被视为组合的时域激励信号),可能改变用于LPC合成的输入音频信号的确定性分量的百分比同时维持(LPC合成的输入信号的,或甚至LPC合成的输出信号的)能量。因此,可能改变错误隐藏音频信息的特性(例如,音调特性)而大体上不改变错误隐藏音频信号的能量或响度,以便可能修改时域激励信号而不引起不可接受的可闻失真。

根据本发明的实施例创造一种用于基于经编码的音频信息提供经解码的音频信息的方法。方法包含提供用于对音频帧的丢失进行隐藏的错误隐藏音频信息。提供错误隐藏音频信息包含对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号进行修改,以便获得错误隐藏音频信息。

此方法基于与以上描述的音频解码器的相同的考虑。

根据本发明的又一实施例创造一种计算机程序,当该计算机程序在计算机上运行时,该计算机程序用于执行该方法。

附图说明

随后将参考随附的附图来描述本发明的实施例,其中:

图1示出根据本发明的实施例的音频解码器的方块示意图;

图2示出根据本发明的另一实施例的音频解码器的方块示意图;

图3示出根据本发明的另一实施例的音频解码器的方块示意图;

图4示出根据本发明的另一实施例的音频解码器的方块示意图;

图5示出用于变换编码器的时域隐藏的方块示意图;

图6示出用于切换式编解码器的时域隐藏的方块示意图;

图7示出在正常操作中或在部分封包丢失的情况下执行TCX解码的TCX解码器的方块图;

图8示出在TCX-256封包擦除隐藏的情况下执行TCX解码的TCX解码器的方块示意图;

图9示出根据本发明的实施例的用于基于经编码的音频信息提供经解码的音频信息的方法的流程图;以及

图10示出根据本发明的另一实施例的用于基于经编码的音频信息提供经解码的音频信息的方法的流程图;

图11示出根据本发明的另一实施例的音频解码器的方块示意图。

具体实施方式

1.根据图1的音频解码器

图1示出根据本发明的实施例的音频解码器100的方块示意图。音频解码器100接收经编码的音频信息110,该经编码的音频信息可例如包含以频域表示编码的音频帧。可例如经由不可靠声道接收经编码的音频信息,从而帧丢失时有发生。音频解码器100进一步基于经编码的音频信息110提供经解码的音频信息112。

音频解码器100可包含解码/处理120,该解码/处理在不存在帧丢失的情况下基于经编码的音频信息提供经解码的音频信息。

音频解码器100进一步包含错误隐藏130,该错误隐藏提供错误隐藏音频信息。错误隐藏130用于使用时域激励信号提供用于对以频域表示编码的音频帧之后的音频帧的丢失进行隐藏的错误隐藏音频信息132。

换言之,解码/处理120可提供用于以频域表示的形式(即,以经编码的表示的形式)编码的音频帧的经解码的音频信息122,该音频帧的经编码的值描述不同频率仓中的强度。不同而言,解码/处理120可例如包含频域音频解码器,该频域音频解码器从经编码的音频信息110导出频谱值的集合并执行频域至时域的变换以导出时域表示,该时域表示构成经解码的音频信息122或在存在额外后处理的情况下该时域表示形成用于经解码的音频信息122的提供的基础。

然而,错误隐藏130不执行频域中的错误隐藏而使用时域激励信号,该时域激励信号可例如用来激励合成滤波器,如例如LPC合成滤波器,该合成滤波器基于时域激励信号且还基于LPC滤波系数(线性预测编码滤波系数)提供音频信号的时域表示(例如,错误隐藏音频信息)。

因此,错误隐藏130提供用于丢失的音频帧的错误隐藏音频信息132,该错误隐藏音频信息可例如为时域音频信号,其中由错误隐藏130使用的时域激励信号可基于一个或多个在先的、适当接收的音频帧(在丢失的音频帧之前)或从该一个或多个在先的、适当接收的音频帧导出,该音频帧以频域表示的形式而被编码。总之,音频解码器100可执行错误隐藏(即,提供错误隐藏音频信息132),该错误隐藏基于经编码的音频信息减少由于音频帧的丢失的音频品质的降级,在该经编码的音频信息中至少一些音频帧以频域表示而被编码。已发现,即使以频域表示编码的适当接收的音频帧之后的帧丢失,使用时域激励信号执行错误隐藏当与频域中(例如,使用在丢失的音频帧之前的以频域表示编码的音频帧的频域表示)执行的错误隐藏相比时,带来改良的音频品质。此归因于这样的事实:可使用时域激励信号实现在与丢失的音频帧之前的适当接收的音频帧相关联的经解码的音频信息和与丢失的音频帧相关联的错误隐藏音频信息之间的平滑过渡,因为通常基于时域激励信号执行的信号合成有助于避免不连续性。因此,即使以频域表示编码的适当接收的音频帧之后的音频帧丢失,也可使用音频解码器100实现良好的(或至少可接受的)听觉印象。例如,时域方法带来对单音信号(如语音)的改良,因为该时域方法更接近于在语音编解码器隐藏的情况下所进行的操作。LPC的使用有助于避免不连续性且给出帧的更好的成形。

此外,应注意,可由下文中所述的任何特征及功能单独地或以组合方式对音频解码器100进行补充。

2.根据图2的音频解码器

图2示出根据本发明的实施例的音频解码器200的方块示意图。音频解码器200用于接收经编码的音频信息210,并基于该经编码的音频信息提供经解码的音频信息220。经编码的音频信息210可例如采用以时域表示编码的、以频域表示编码的或以时域表示及频域表示编码的音频帧序列的形式。不同而言,经编码的音频信息210的所有帧可以以频域表示而被编码,或经编码的音频信息210的所有帧可以以时域表示而被编码(例如,以经编码的时域激励信号及经编码的信号合成参数(如,例如,LPC参数)的形式)。可选地,例如,若音频解码器200为可在不同解码模式之间切换的切换式音频解码器,经编码的音频信息的一些帧可以以频域表示而被编码,且经编码的音频信息的一些其他帧可以以时域表示而被编码。经解码的音频信息220可例如为一个或多个音频声道的时域表示。

音频解码器200可通常包含解码/处理220,该解码/处理可例如提供用于被适当接收的音频帧的经解码的音频信息232。换言之,解码/处理230可基于以频域表示编码的一个或多个经编码的音频帧执行频域解码(例如,AAC型解码等)。可选地或此外,解码/处理230可用于基于以时域表示(或,换言之,以线性预测域表示)编码的一个或多个经编码的音频帧执行时域解码(或线性预测域解码),如,例如,TCX激励线性预测解码(TCX=变换编码激励)或ACELP解码(代数码本激励线性预测解码)。选择性地,解码/处理230可用于在不同解码模式之间切换。

音频解码器200进一步包含错误隐藏240,该错误隐藏用于提供用于一个或多个丢失的音频帧的错误隐藏音频信息242。错误隐藏240用于提供用于对音频帧的丢失(或甚至多个音频帧的丢失)进行隐藏的错误隐藏音频信息242。错误隐藏240用于修改基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号,以便获得错误隐藏音频信息242。不同而言,错误隐藏240可获得(或导出)用于(或基于)丢失的音频帧之前的一个或多个经编码的音频帧的时域激励信号,且可修改针对(或基于)丢失的音频帧之前的一个或多个适当接收的音频帧而获得的所述时域激励信号,以获得(通过修改)用于提供错误隐藏音频信息242的时域激励信号。换言之,可将修改后的时域激励信号用作用于与丢失的音频帧(或甚至与多个丢失的音频帧)相关联的错误隐藏音频信息的合成(例如,LPC合成)的输入(或用作输入的分量)。通过基于(基于丢失的音频帧之前的一个或多个适当接收的音频帧而获得的)时域激励信号提供错误隐藏音频信息242,可避免可闻的不连续性。另一方面,通过修改针对(或从)丢失的音频帧之前的一个或多个音频帧导出的时域激励信号,且通过基于修改后的时域激励信号提供错误隐藏音频信息,可能考虑音频内容的变化的特性(例如,音高变化),且也可能避免不自然的听觉印象(例如,通过使确定性(例如,至少近似周期性)信号分量“衰退”)。因此,可实现错误隐藏音频信息242包含与经解码的音频信息232的一些相似性,基于丢失的音频帧之前的适当解码的音频帧获得该经解码的音频信息,且通过稍微修改时域激励信号仍可实现错误隐藏音频信息242包含与经解码的音频信息232相比时的稍有不同的音频内容,该经解码的音频信息与丢失的音频帧之前的音频帧相关联。用于提供(与丢失的音频帧相关联的)错误隐藏音频信息的时域激励信号的修改可例如包含振幅缩放(amplitudescaling)或时间缩放(timescaling)。然而,其他类型的修改(或甚至振幅缩放及时间缩放的组合)是可能的,其中优选地,应保留通过错误隐藏而获得(作为输入信息)的时域激励信号与修改后的时域激励信号之间的某种程度的关系。

总之,音频解码器200允许提供错误隐藏音频信息242,以便甚至在一个或多个音频帧丢失的情况下错误隐藏音频信息也提供良好的听觉印象。基于时域激励信号执行错误隐藏,其中通过修改基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号,考虑在丢失的音频帧期间的音频内容的信号特性的变化。

此外,应注意,可由本文所述的任何特征及功能单独地或以组合方式对音频解码器200进行补充。

3.根据图3的音频解码器

图3示出根据本发明的另一实施例的音频解码器300的方块示意图。

音频解码器300用于接收经编码的音频信息310,并基于该经编码的音频信息提供经解码的音频信息312。音频解码器300包含比特流分析器320,该比特流分析器也可被指定为“比特流解格式化器(deformatter)”或“比特流解析器”。比特流分析器320接收经编码的音频信息310,并基于该经编码的音频信息提供频域表示322及可能额外的控制信息324。频域表示322可例如包含经编码的频谱值326、经编码的比例因数328及(选择性地)额外边信息330,该额外边信息可例如控制特定处理步骤,如,例如,噪声填充、中间处理或后处理。音频解码器300还包含频谱值解码340,该频谱值解码用于接收经编码的频谱值326,并基于该经编码的频谱值提供经解码的频谱值342的集合。音频解码器300还可包含比例因数解码350,该比例因数解码可用于接收经编码的比例因数328,并基于该经编码的比例因数提供经解码的比例因数352的集合。

可选地,为了进行比例因数解码,可例如在经编码的音频信息包含经编码的LPC信息而非比例因数信息的情况下使用LPC至比例因数的转换354。然而,在一些编码模式中(例如,在USAC音频解码器的TCX解码模式中或在EVS音频解码器中),LPC系数的集合可用以在音频解码器之侧导出比例因数的集合。可由LPC至比例因数的转换354实现此功能。

音频解码器300还可包含缩放器360,该缩放器可用于将经缩放的因数352的集合施加于频谱值342的集合,以获得经缩放的解码的频谱值362的集合。例如,可使用第一比例因数对包含多个经解码的频谱值342的第一频带进行缩放,且可使用第二比例因数对包含多个经解码的频谱值342的第二频带进行缩放。因此,获得经缩放的解码的频谱值362的集合。音频解码器300可进一步包含选择性的处理366,该选择性的处理可将一些处理施加于经缩放的解码的频谱值362。例如,选择性的处理366可包含噪声填充或一些其他操作。

音频解码器300还包含频域至时域的变换370,该频域至时域的变换用于接收经缩放的解码的频谱值362或该经缩放的解码的频谱值的处理后的版本368,且提供与经缩放的解码的频谱值362的集合相关联的时域表示372。例如,频域至时域的变换370可提供时域表示372,该时域表示与音频内容的帧或子帧相关联。例如,频域至时域的变换可接收MDCT系数(其可被视为经缩放的解码的频谱值)的集合,并基于该MDCT系数的集合提供时域样本块,该时域样本可形成时域表示372。

音频解码器300可选择性地包含后处理376,该后处理可接收时域表示372并稍微修改时域表示372,以获得时域表示372的后处理的版本378。

音频解码器300还包含错误隐藏380,该错误隐藏可例如从频域至时域的变换370接收时域表示372,且该错误隐藏可例如提供用于一个或多个丢失的音频帧的错误隐藏音频信息382。换言之,若音频帧丢失,使得例如无经编码的频谱值326可用于所述音频帧(或音频子帧),则错误隐藏380可基于与丢失的音频帧之前的一个或多个音频帧相关联的时域表示372提供错误隐藏音频信息。错误隐藏音频信息可通常为音频内容的时域表示。

应注意,错误隐藏380可例如执行以上所述的错误隐藏130的功能。同样,错误隐藏380可例如包含参考图5所述的错误隐藏500的功能。然而,一般而言,错误隐藏380可包含关于本文中的错误隐藏所述的任何特征及功能。

关于错误隐藏,应注意,并未在帧解码的同时发生错误隐藏。例如,若帧n为良好的则我们进行正常解码,且最后我们保存在我们必须隐藏下一帧时将有帮助的一些变量,然后若n+1丢失则我们调用隐藏函数,该隐藏函数给出来自在先良好帧的变量。我们还将更新一些变量以对下一帧丢失有所帮助或帮助下一良好帧的恢复。

音频解码器300还包含信号组合390,该信号组合用于接收时域表示372(或在存在后处理376的情况下接收后处理的时域表示378)。此外,信号组合390可接收错误隐藏音频信息382,该错误隐藏音频信息通常也为针对丢失的音频帧而提供的错误隐藏音频信号的时域表示。信号组合390可例如组合与后续音频帧相关联的时域表示。在存在后续适当解码的音频帧的情况下,信号组合390可组合(例如,重叠及相加)与这些后续适当解码的音频帧相关联的时域表示。然而,若音频帧丢失,则信号组合390可组合(例如,重叠及相加)与丢失的音频帧之前的适当解码的音频帧相关联的时域表示和与丢失的音频帧相关联的错误隐藏音频信息,以具有在适当接收的音频帧与丢失的音频帧之间的平滑过渡。类似地,信号组合390可用于组合(例如,重叠及相加)与丢失的音频帧相关联的错误隐藏音频信息和与丢失的音频帧之后的另一适当解码的音频帧相关联的时域表示(或在多个连续的音频帧丢失的情况下,与另一丢失的音频帧相关联的另一错误隐藏音频信息)。

因此,信号组合390可提供经解码的音频信息312,以便针对适当解码的音频帧提供时域表示372或该时域表示的后处理的版本378,且以便针对丢失的音频帧提供错误隐藏音频信息382,其中重叠及相加操作通常在后续音频帧的音频信息之间执行(不管该音频信息是由频域至时域的变换370或由错误隐藏380提供)。因为一些编解码器在需被隐藏的重叠及相加部分上具有一些混迭(aliasing),选择性地我们可在我们已创建来执行重叠相加的半个帧上创建一些人工混迭。

应注意,音频解码器300的功能类似于根据图1的音频解码器100的功能,其中在图3中示出额外细节。此外,应注意,根据图3的音频解码器300可由本文所述的任何特征及功能进行补充。特别地,可由本文中关于错误隐藏所述的任何特征及功能对错误隐藏380进行补充。

4.根据图4的音频解码器400

图4示出根据本发明的另一实施例的音频解码器400。音频解码器400用于接收经编码的音频信息,并基于该经编码的音频信息提供经解码的音频信息412。音频解码器400可例如用于接收经编码的音频信息410,其中使用不同编码模式对不同音频帧进行编码。例如,音频解码器400可被视为多模式音频解码器或“切换式”音频解码器。例如,可使用频域表示对音频帧中的一些进行编码,其中经编码的音频信息包含频谱值(例如,FFT值或MDCT值)的经编码的表示及表示不同频带的缩放的比例因数。此外,经编码的音频信息410还可包含音频帧的“时域表示”或多个音频帧的“线性预测编码域表示”。“线性预测编码域表示”(也被简要地指定为“LPC表示”)可例如包含激励信号的经编码的表示及LPC参数(线性预测编码参数)的经编码的表示,其中线性预测编码参数描述例如线性预测编码合成滤波器,该线性预测编码合成滤波器用以基于时域激励信号重建音频信号。

在下文中,将描述音频解码器400的一些细节。

音频解码器400包含比特流分析器420,该比特流分析器可例如分析经编码的音频信息410,且从经编码的音频信息410提取频域表示422,该频域表示包含例如经编码的频谱值、经编码的比例因数及(选择性地)额外边信息。比特流分析器420还可用于提取线性预测编码域表示424,该线性预测编码域表示可例如包含经编码的激励426及经编码的线性预测系数428(该经编码的线性预测系数也可被视为经编码的线性预测参数)。此外,比特流分析器可选择性地从经编码的音频信息提取额外边信息,该额外边信息可用于控制额外处理步骤。

音频解码器400包含频域解码路径430,该频域解码路径可例如大体上与根据图3的音频解码器300的解码路径相同。换言之,频域解码路径430可包含频谱值解码340、比例因数解码350、缩放器360、选择性的处理366、频域至时域的变换370、选择性的后处理376及错误隐藏380,如以上参考图3所述。

音频解码器400还可包含线性预测域解码路径440(其也可被视为时域解码路径,因为在时域中执行LPC合成)。线性预测域解码路径包含激励解码450,该激励解码接收由比特流分析器420提供的经编码的激励426,并基于该经编码的激励提供经解码的激励452(该经解码的激励可采用经解码的时域激励信号的形式)。例如,激励解码450可接收经编码的变换编码的激励信息,并可基于该经编码的变换编码的激励信息提供经解码的时域激励信号。因此,激励解码450可例如执行由参考图7所述的激励解码器730执行的功能。然而,可选地或此外,激励解码450可接收经编码的ACELP激励,并可基于所述经编码的ACELP激励信息提供经解码的时域激励信号452。

应注意,存在用于激励解码的不同选项。参考例如定义CELP编码概念、ACELP编码概念、CELP编码概念及ACELP编码概念的修改以及TCX编码概念的有关标准及出版物。

线性预测域解码路径440选择性地包含处理454,其中从时域激励信号452导出处理后的时域激励信号456。

线性预测域解码路径440还包含线性预测系数解码460,该线性预测系数解码用于接收经编码的线性预测系数,并基于该经编码的线性预测系数提供经解码的线性预测系数462。线性预测系数解码460可使用线性预测系数的不同表示作为输入信息428,并可提供经解码的线性预测系数的不同表示作为输出信息462。关于细节,参考描述线性预测系数的编码和/或解码的不同标准文件。

线性预测域解码路径440选择性地包含处理464,该处理可处理经解码的线性预测系数并提供该经解码的线性预测系数的处理后的版本466。

线性预测域解码路径440还包含LPC合成(线性预测编码合成)470,该LPC合成用于接收经解码的激励452或该经解码的激励的处理后的版本456以及经解码的线性预测系数462或该经解码的线性预测系数的处理后的版本466,并提供经解码的时域音频信号472。例如,LPC合成470可用于将由经解码的线性预测系数462(或该经解码的线性预测系数的处理后的版本466)定义的滤波施加至经解码的时域激励信号452或该经解码的时域激励信号的处理后的版本,以便通过对时域激励信号452(或456)进行滤波(合成滤波)获得经解码的时域音频信号472。线性预测域解码路径440可选择性地包含后处理474,该后处理可用以细化或调整经解码的时域音频信号472的特性。

线性预测域解码路径440还包含错误隐藏480,该错误隐藏用于接收经解码的线性预测系数462(或该经解码的线性预测系数的处理后的版本466)及经解码的时域激励信号452(或该经解码的时域激励信号的处理后的版本456)。错误隐藏480可选择性地接收额外信息,如例如音高信息。错误隐藏480可因此在经编码的音频信息410的帧(或子帧)丢失的情况下提供错误隐藏音频信息,该错误隐藏音频信息可以为时域音频信号的形式。因此,错误隐藏480可提供错误隐藏音频信息482,以便错误隐藏音频信息482的特性大体上适于丢失的音频帧之前的最后适当解码的音频帧的特性。应注意,错误隐藏480可包含关于错误隐藏240所述的任何特征及功能。另外,应注意,错误隐藏480还可包含关于图6的时域隐藏所述的任何特征及功能。

音频解码器400还包含信号组合器(或信号组合490),该信号组合器用于接收经解码的时域音频信号372(或该经解码的时域音频信号的后处理的版本378)、由错误隐藏380提供的错误隐藏音频信息382、经解码的时域音频信号472(或该经解码的时域音频信号的后处理版本476)及由错误隐藏480提供的错误隐藏音频信息482。信号组合器490可用于组合所述信号372(或378)、382、472(或476)及482,以获得经解码的音频信息412。特别地,可由信号组合器490施加重叠及相加操作。因此,信号组合器490可提供后续音频帧之间的平滑过渡,由不同实体(例如,由不同解码路径430、440)为该后续帧提供时域音频信号。然而,若由相同实体(例如,频域至时域的变换370或LPC合成470)为后续帧提供时域音频信号,则信号组合器490也可提供平滑过渡。因为一些编解码器在需被隐藏的重叠及相加部分上具有一些混迭,选择性地我们可在我们已创建来执行重叠相加的半个帧上创建一些人工混迭。换言之,可选择性地使用人工时域混迭补偿(TDAC)。

另外,信号组合器490可提供到达帧及来自帧的平滑过渡,针对该帧提供错误隐藏音频信息(该错误隐藏音频信息通常也为时域音频信号)。

简而言之,音频解码器400允许对在频域中编码的音频帧及在线性预测域中编码的音频帧进行解码。特别地,可能依据信号特性(例如,使用由音频编码器提供的发信号信息)在频域解码路径的使用与线性预测域解码路径的使用之间切换。不同类型的错误隐藏可用于在帧丢失的情况下提供错误隐藏音频信息,取决于最后适当解码的音频帧是在频域中(或等效地以频域表示)还是在时域中(或等效地以时域表示,或等效地在线性预测域中,或等效地以线性预测域表示)被编码。

5.根据图5的时域隐藏

图5示出根据本发明的实施例的错误隐藏的方块示意图。根据图5的错误隐藏整体被指定为500。

错误隐藏500用于接收时域音频信号510,并基于该时域音频信号提供错误隐藏音频信息512,该错误隐藏音频信息可例如采用时域音频信号的形式。

应注意,错误隐藏500可例如代替错误隐藏130,以便错误隐藏音频信息512可对应于错误隐藏音频信息132。此外,应注意,错误隐藏500可代替错误隐藏380,以便时域音频信号510可对应于时域音频信号372(或对应于时域音频信号378),且以便错误隐藏音频信息512可对应于错误隐藏音频信息382。

错误隐藏500包含预加重520,该预加重可被视为选择性的。预加重接收时域音频信号,且基于该时域音频信号提供预加重的时域音频信号522。

错误隐藏500还包含LPC分析530,该LPC分析用于接收时域音频信号510或该时域音频信号的预加重的版本522,且获得LPC信息532,该LPC信息可包含LPC参数532的集合。例如,LPC信息可包含LPC滤波系数的集合(或LPC滤波系数的集合的表示)及时域激励信号(该时域激励信号适于根据LPC滤波系数配置的LPC合成滤波器的激励,以至少近似地重建LPC分析的输入信号)。

错误隐藏500还包含音高搜索540,该音高搜索用于例如基于先前解码的音频帧获得音高信息542。

错误隐藏500还包含外插550,该外插可用于基于LPC分析的结果(例如,基于由LPC分析确定的时域激励信号)且可能基于音高搜索的结果获得外插的时域激励信号。

错误隐藏500还包含噪声生成560,该噪声生成提供噪声信号562。错误隐藏500还包含组合器/衰退器570,该组合器/衰退器用于接收外插的时域激励信号552及噪声信号562,并基于该外插的时域激励信号及该噪声信号提供组合的时域激励信号572。组合器/衰退器570可用于对外插的时域激励信号552及噪声信号562进行组合,其中可执行衰退,以便外插的时域激励信号552(该外插的时域激励信号确定LPC合成的输入信号的确定性分量)的相对贡献随时间而减少,而噪声信号562的相对贡献随时间而增加。然而,组合器/衰退器的不同功能也是可能的。同样,参考以下描述。

错误隐藏500还包含LPC合成580,该LPC合成接收组合的时域激励信号572并基于该组合的时域激励信号提供时域音频信号582。例如,LPC合成还可接收描述被施加于组合的时域激励信号572的LPC成形滤波器的LPC滤波系数,以导出时域音频信号582。LPC合成580可例如使用基于一个或多个先前解码的音频帧而获得的(例如,由LPC分析530提供的)LPC系数。

错误隐藏500还包含去加重584,该去加重可被视为选择性的。去加重584可提供去加重的错误隐藏时域音频信号586。

错误隐藏500还选择性地包含重叠及相加590,该重叠及相加执行与后续帧(或子帧)相关联的时域音频信号的重叠及相加操作。然而,应注意,重叠及相加590应被视为选择性的,因为错误隐藏还可使用已在音频解码器环境中提供的信号组合。例如,在一些实施例中,重叠及相加590可由音频解码器300中的信号组合390替代。

在下文中,将描述关于错误隐藏500的一些进一步的细节。

根据图5的错误隐藏500涵盖如AAC_LC或AAC_ELD的变换域编解码器的上下文。不同而言,错误隐藏500极好地适于在此变换域编解码器中(且特别地,在此变换域音频解码器中)的使用。在仅变换编解码器的情况下(例如,在不存在线性预测域解码路径的情况下)将来自最后帧的输出信号用作起始点。例如,可将时域音频信号372用作错误隐藏的起始点。优选地,无激励信号是可用的,仅来自(一个或多个)在先帧的输出时域信号(如,例如,时域音频信号372)是可用的。

在下文中,将更详细地描述错误隐藏500的子单元及功能。

5.1.LPC分析

在根据图5的实施例中,在激励域中进行所有隐藏以获取连续帧之间的更平滑的过渡。因此,有必要首先找到(或,更一般而言,获得)适当的LPC参数的集合。在根据图5的实施例中,在过去预加重的时域信号522上进行LPC分析530。LPC参数(或LPC滤波系数)用以(例如,基于时域音频信号510或基于预加重的时域音频信号522)执行过去合成信号的LPC分析,以获取激励信号(例如,时域激励信号)。

5.2.音高搜索

存在用以获取用于构建新信号(例如,错误隐藏音频信息)的音高的不同方法。

在使用LTP滤波器(长期预测滤波器)(如AAC-LTP)的编解码器的上下文中,若最后帧为具有LTP的AAC,则我们使用此最后接收的LTP音高滞后及对应增益用于生成谐波部分。在此情况下,增益用以决定是否构建信号中的谐波部分。例如,若LTP增益比0.6(或任何其他预定值)高,则使用LTP信息来构建谐波部分。

若不存在可得自在先帧的任何音高信息,则存在例如将在下文中描述的两种解决方案。

例如,可能在编码器处进行音高搜索并在比特流中传输音高滞后及增益。此类似于LTP,但不施加任何滤波(在干净的声道中也无LTP滤波)。

可选地,可能在解码器中执行音高搜索。在FFT域中进行TCX情况下的AMR-WB音高搜索。在ELD中,例如,若使用MDCT域,则将遗漏该阶段。因此,音高搜索优选地直接在激励域中进行。此给出比在合成域中进行音高搜索更好的结果。首先通过归一化的交叉相关以开回路来进行激励域中的音高搜索。然后,选择性地,我们通过以某个差量围绕开回路音高进行闭回路搜索来细化音高搜索。由于ELD开窗限制,可找到错误的音高,因此我们也验证所找到的音高为正确的或否则丢弃该音高。

总之,当提供错误隐藏音频信息时,可考虑丢失的音频帧之前的最后适当解码的音频帧的音高。在一些情况下,存在可得自在先帧(即,丢失的音频帧之前的最后帧)的解码的音高信息。在此情况下,可重新使用此音高(可能利用一些外插及随时间的音高变化的考虑)。我们还可选择性地重新使用多于一个过去帧的音高,以试图对我们在我们的隐藏帧的结束处需要的音高进行外插。

同样,若存在描述确定性(例如,至少近似周期性)信号分量的强度(或相对强度)的可用信息(例如,被指定为长期预测增益),则此值可用以决定是否应将确定性(或谐波)分量包括至错误隐藏音频信息中。换言之,通过将所述值(例如,LTP增益)与预定阈值进行比较,可决定是否应考虑从先前解码的音频帧导出的时域激励信号用于错误隐藏音频信息的提供。

若不存在可得自在先帧(或,更确切地,得自在先帧的解码)的音高信息,则存在不同的选项。可将音高信息从音频编码器传输至音频解码器,这将简化音频解码器但产生比特率开销。可选地,可在音频解码器中(例如,在激励域中,即,基于时域激励信号)确定音高信息。例如,可估计从在先的、适当解码的音频帧导出的时域激励信号,以识别待被用于提供错误隐藏音频信息的音高信息。

5.3.激励的外插或谐波部分的创建

从在先帧获得的(刚刚针对丢失帧计算的或针对多个帧丢失已保存在在先丢失帧中的)激励(例如,时域激励信号)用以通过将最后音高周期复制获取一个半帧所需的次数,构建激励中的(例如,LPC合成的输入信号中的)谐波部分(也被指定为确定性分量或近似周期性分量)。为节省复杂性,我们还可仅针对第一丢失帧创建一个半帧,且然后对将用于后续帧丢失的处理移位半个帧并各自创建仅一个帧。然后我们始终可以访问重叠的半个帧。

在良好帧(即,适当解码的帧)之后的第一丢失帧的情况下,利用采样率相依滤波器对第一音高周期(例如,基于丢失的音频帧之前的最后适当解码的音频帧而获得的时域激励信号的第一音高周期)进行低通滤波(因为ELD涵盖实际上宽广的采样率组合——自AAC-ELD核心至具有SBR的AAC-ELD或AAC-ELD双重速率SBR)。

语音信号中的音高几乎始终在变化。因此,以上呈现的隐藏倾向于在恢复处产生一些问题(或至少失真),因为隐藏信号的结束处(即,错误隐藏音频信息的结束处)的音高通常不匹配第一良好帧的音高。因此,选择性地,在一些实施例中,试图预测隐藏帧的结束处的音高以匹配恢复帧的开始处的音高。例如,预测丢失帧(该丢失帧被视为隐藏帧)的结束处的音高,其中预测的目标是将丢失帧(隐藏帧)的结束处的音高设定为近似于一个或多个丢失帧之后的第一适当解码的帧(该第一适当解码的帧也被称为“恢复帧”)的开始处的音高。此可在帧丢失期间或在第一良好帧期间(即,在第一适当接收的帧期间)进行。为获取甚至更好的结果,可能选择性地重新使用一些传统工具且调适该传统工具,该传统工具诸如音高预测及脉冲再同步。关于细节,参考例如参考文献[6]及[7]。

若在频域编解码器中使用长期预测(LTP),则可能将滞后用作关于音高的起始信息。然而,在一些实施例中,还期望具有更好的粒度以能够更好地追踪音高曲线。因此,优选地在最后良好(适当解码的)帧的开始处且在该最后良好帧的结束处进行音高搜索。为使信号适于移动的音高,期望使用现有技术水平中存在的脉冲再同步。

5.4.音高的增益

在一些实施例中,优选地在先前获得的激励上施加增益以便达到期望水平。“音高的增益”(例如,时域激励信号的确定性分量的增益,即,施加至自先前解码的音频帧导出的时域激励信号以便获得LPC合成的输入信号的增益)可例如通过在最后良好(例如,适当解码的)帧的结束处于时域中进行归一化的相关来获得。相关的长度可等效于两个子帧长度,或可适应性地改变。延迟等效于用于谐波部分的创建的音高滞后。我们还可选择性地仅对第一丢失帧执行增益计算,且然后仅对于后续的连续帧丢失施加衰退(减少的增益)。

“音高的增益”将确定将被创建的音调的量(或确定性、至少近似周期性信号分量的量)。然而,期望增添一些成形的噪声以并非具有仅人工音调。若我们获取极低的音高的增益,则我们构造仅由成形的噪声组成的信号。

总之,在一些情况下,依据增益对例如基于先前解码的音频帧而获得的时域激励信号进行缩放(例如,以获得用于LPC分析的输入信号)。因此,因为时域激励信号确定确定性(至少近似周期性)信号分量,增益可确定错误隐藏音频信息中的所述确定性(至少近似周期性)信号分量的相对强度。另外,错误隐藏音频信息可基于噪声,该噪声也由LPC合成成形,以便错误隐藏音频信息的总能量至少在一些程度上适于丢失的音频帧之前的适当解码的音频帧,且理想地也适于一个或多个丢失的音频帧之后的适当解码的音频帧。

5.5.噪声部分的创建

“创新”由随机噪声生成器创建。此噪声选择性地被进一步高通滤波,且选择性地针对有声的及起始帧而被预加重。至于谐波部分的低通,此滤波器(例如,高通滤波器)为采样率相依的。此噪声(其例如由噪声生成560提供)将由LPC(例如,由LPC合成580)成形,以尽可能地接近背景噪声。高通特性也选择性地随连续的帧丢失而改变,以便断言一定量的帧丢失,不再存在滤波以仅获取满带成形的噪声来获取最接近于背景噪声的舒适噪声。

创新增益(其可例如确定组合/衰退570中的噪声562的增益,即,被使用以将噪声信号562包括至LPC合成的输入信号572中的增益)是例如通过移除音高(例如,使用基于丢失的音频帧之前的最后适当解码的音频帧而获得的时域激励信号的“音高的增益”缩放的经缩放的版本)的先前计算的贡献(若存在)且在最后良好帧的结束处进行相关而被计算的。至于音高增益,此可选择性地仅对第一丢失帧进行且然后衰退,但在此情况下,该衰退可变为导致完全静音的0,或变为存在于背景中的估计噪声水平。相关的长度为例如等效于两个子帧长度,且延迟等效于用于谐波部分的创建的音高滞后。

选择性地,若音高的增益并非一,则也将此增益乘以(1-“音高的增益”)以在噪声上施加同样多的增益以达到能量遗漏。选择性地,也将此增益乘以噪声因数。此噪声因数来自例如在先有效帧(例如,来自丢失的音频帧之前的最后适当解码的音频帧)。

5.6.衰退

衰退主要用于多个帧丢失。然而,衰退也可用于仅单个音频帧丢失的情况。

在多个帧丢失的情况下,并不重新计算LPC参数。或者,保留最后计算的LPC参数,或者通过收敛至背景形状来进行LPC隐藏。在此情况下,信号的周期性收敛至零。例如,基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号502仍使用随时间逐渐减少的增益,而噪声信号562保持恒定或利用随时间逐渐增加的增益而被缩放,以便与噪声信号562的相对权重相比时,时域激励信号552的相对权重随时间减少。因此,LPC合成580的输入信号572变得越来越“类噪声”。因此,“周期性”(或,更确切地,LPC合成580的输出信号582的确定性或至少近似周期性分量)随时间减少。

信号572的周期性和/或信号582的周期性收敛至0时所依据的收敛速度取决于最后正确接收的(或适当解码的)帧的参数和/或连续擦除的帧的数目,且由衰减因数α控制。因数α进一步取决于LP滤波器的稳定性。选择性地,可能随着音高长度按比率改变因数α。若音高(例如,与音高相关联的周期长度)实际上长,则我们使α保持“正常”,但若音高实际上短,则通常必须将过去激励的相同部分复制多次。此将迅速地听起来过于人工,且因此优选地使此信号衰退得更快。

进一步选择性地,若音高预测输出是可用的,则我们可考虑该音高预测输出。若音高被预测,则此意味着音高在在先帧中已改变,且然后我们丢失越多的帧我们距真实越远。因此,优选地在此情况下将音调部分的衰退加速一比特。

若音高预测因为音高改变得过多而失败,则此意味着音高值实际上并非可靠的或信号实际上为不可预测的。因此,再一次,优选地衰退得更快(例如,使基于一个或多个丢失的音频帧之前的一个或多个适当解码的音频帧而获得的时域激励信号552衰退得更快)。

5.7.LPC合成

为回至时域,优选地对两个激励(音调部分及噪声部分)的总和执行LPC合成580,之后进行去加重。不同而言,优选地以基于丢失的音频帧(音调部分)之前的一个或多个适当解码的音频帧而获得的时域激励信号552与噪声信号562(噪声部分)的加权组合为基础执行LPC合成580。如以上所提及,当与通过LPC分析530获得的时域激励信号532相比时(除了描述用于LPC合成580的LPC合成滤波器的特性的LPC系数之外),可修改时域激励信号552。例如,时域激励信号552可为通过LPC分析530获得的时域激励信号532的经时间缩放的副本,其中时间缩放可用以使时域激励信号552的音高适于期望音高。

5.8.重叠及相加

在仅变换编解码器的情况下,为获取最好的重叠-相加,我们针对多于隐藏帧的半个帧创建人工信号,且我们在该人工信号上创建人工混迭。然而,可应用不同的重叠-相加概念。

在规则的AAC或TCX的上下文中,将重叠及相加应用于来自隐藏的额外半个帧与第一良好帧的第一部分(对于比如AAC-LD更低延迟的窗口可为一半或更少)之间。

在ELD(额外低延迟)的特殊情况下,对于第一丢失帧,优选地运行三次分析以获取来自最后三个窗口的适当贡献,且然后对于第一隐藏帧及所有之后的帧再运行一次分析。然后,进行一个ELD合成以回到时域中,其中所有适当存储器用于MDCT域中的之后的帧。

总之,LPC合成580的输入信号572(和/或时域激励信号552)可被提供达一段持续时间,该持续时间比丢失的音频帧的持续时间长。因此,LPC合成580的输出信号582也可被提供达比丢失的音频帧更长的时间周期。因此,可在错误隐藏音频信息(因此可获得该错误隐藏音频信息达比丢失的音频帧的时间扩展更长的时间周期)与针对一个或多个丢失的音频帧之后的适当解码的音频帧提供的经解码的音频信息之间执行重叠及相加。

简而言之,错误隐藏500极好地适于音频帧在频域中被编码的情况。尽管音频帧在频域中被编码,基于时域激励信号执行错误隐藏音频信息的提供。将不同的修改应用于基于丢失的音频帧之前的一个或多个适当解码的音频帧而获得的时域激励信号。例如,通过LPC分析530提供的时域激励信号适于音高变化,例如,使用时间缩放。此外,通过LPC分析530提供的时域激励信号也通过缩放(增益的施加)而被修改,其中可由缩放器/衰退器570执行确定性(或音调或至少近似周期性)分量的衰退,以便LPC合成580的输入信号572包含从通过LPC分析获得的时域激励信号导出的分量及基于噪声信号562的噪声分量二者。然而,通常关于通过LPC分析530提供的时域激励信号来修改(例如,时间缩放和/或振幅缩放)LPC合成580的输入信号572的确定性分量。

因此,时域激励信号可适于需求,且避免不自然的听觉印象。

6.根据图6的时域隐藏

图6示出可用于切换式编解码器的时域隐藏的方块示意图。例如,根据图6的时域隐藏600可例如代替错误隐藏240或代替错误隐藏480。

此外,应注意的是,根据图6的实施例涵盖使用组合的时域及频域的切换式编解码器(诸如USAC(MPEG-D/MPEG-H)或EVS(3GPP))的上下文(可用于该上下文内)。换言之,时域隐藏600可用于存在频域解码与时间解码(或,等效地,基于的线性预测系数的解码)之间的切换的音频解码器中。

然而,应注意,根据图6的错误隐藏600还可用于仅在时域(或等效地,在线性预测系数域中)中执行解码的音频解码器中。

在切换式编解码器的情况下(且甚至在仅在线性预测系数域中执行解码的编解码器的情况下),我们通常已具有来自在先帧(例如,丢失的音频帧之前的适当解码的音频帧)的激励信号(例如,时域激励信号)。否则(例如,若时域激励信号不可用),则可能如根据图5的实施例中所解释地进行,即,执行LPC分析。若在先帧为类ACELP的,则我们也已具有最后帧中的子帧的音高信息。若最后帧为具有LTP(长期预测)的TCX(变换编码激励),则我们也具有来自长期预测的滞后信息。且若最后帧在频域中而无长期预测(LTP),则优选地直接在激励域中(例如,基于通过LPC分析提供的时域激励信号)进行音高搜索。

若解码器已使用时域中的一些LPC参数,则我们重新使用这些LPC参数并对新的LPC参数的集合进行外插。若DTX(不连续传输)存在于编解码器中,则LPC参数的外插基于过去LPC,例如最后三个帧的均值及(选择性地)在DTX噪声估计期间导出的LPC形状。

所有隐藏皆在激励域中进行以获取连续帧之间的更平滑的过渡。

在下文中,将更详细地描述根据图6的错误隐藏600。

错误隐藏600接收过去激励610及过去音高信息640。此外,错误隐藏600提供错误隐藏音频信息612。

应注意,由错误隐藏600接收的过去激励610可例如对应于LPC分析530的输出532。此外,过去音高信息640可例如对应于音高搜索540的输出信息542。

错误隐藏600进一步包含外插650,该外插可对应于外插550,以便参考以上论述。

此外,错误隐藏包含噪声生成器660,该噪声生成器可对应于噪声生成器560,以便参考以上论述。

外插650提供外插的时域激励信号652,该外插的时域激励信号可对应于外插的时域激励信号552。噪声生成器660提供噪声信号662,该噪声信号对应于噪声信号562。

错误隐藏600还包含组合器/衰退器670,该组合器/衰退器接收外插的时域激励信号652及噪声信号662,并基于该外插的时域激励信号及该噪声信号提供用于LPC合成680的输入信号672,其中LPC合成680可对应于LPC合成580,以便以上解释也适用。LPC合成680提供时域音频信号682,该时域音频信号可对应于时域音频信号582。错误隐藏还包含(选择性地)去加重684,该去加重可对应于去加重584并提供去加重的错误隐藏时域音频信号686。错误隐藏600选择性地包含重叠及相加690,该重叠及相加可对应于重叠及相加590。然而,以上关于重叠及相加590的解释也适用于重叠及相加690。换言之,重叠及相加690也可由音频解码器的整个重叠及相加替代,从而LPC合成的输出信号682或去加重的输出信号686可被视为错误隐藏音频信息。

总之,错误隐藏600实质上不同于错误隐藏500,因为错误隐藏600直接从一个或多个先前解码的音频帧直接获得过去激励信息610及过去音高信息640,而无需执行LPC分析和/或音高分析。然而,应注意,错误隐藏600可选择性地包含LPC分析和/或音高分析(音高搜索)。

在下文中,将更详细地描述错误隐藏600的一些细节。然而,应注意,特定细节应被视为示例,而非必要特征。

6.1.音高搜索的过去音高

存在用以获取用于构建新信号的音高的不同方法。

在使用LTP滤波器的编解码器(如AAC-LTP)的上下文中,若(丢失帧之前的)最后帧为具有LTP的AAC,则我们具有来自最后LTP音高滞后的音高信息及对应增益。在此情况下,我们使用增益来决定我们是否想要构建信号中的谐波部分。例如,若LTP增益比0.6高,则我们使用LTP信息来构建谐波部分。

若我们不具有可得自在先帧的任何音高信息,则存在例如两种其他的解决方案。

一种解决方案将在编码器处进行音高搜索并在比特流中传输音高滞后及增益。此类似于长期预测(LTP),但我们不施加任何滤波(在干净的声道中也无LTP滤波)。

另一解决方案将在解码器中执行音高搜索。在FFT域中进行在TCX情况下的AMR-WB音高搜索。在例如TCX中,我们使用MDCT域,然后我们遗漏该阶段。因此,在优选的实施例中,直接在激励域中(例如,基于用作LPC合成的输入或用以导出用于LPC合成的输入的时域激励信号)进行音高搜索。此通常给出比在合成域中(例如,基于全解码的时域音频信号)进行音高搜索更好的结果。

首先通过归一化的交叉相关以开回路来进行激励域中(例如,基于时域激励信号)的音高搜索。然后,选择性地,可通过以某个差量围绕开回路音高进行闭回路搜索来细化音高搜索。

在优选的实施例中,我们并非简单地考虑相关的一个最大值。若我们具有来自非易出错的在先帧的音高信息,则我们选择对应于归一化的交叉相关域中的五个最高值中的一个但最接近于在先帧音高的音高。然后,还验证所找到的最大值并非由于窗口限制的错误最大值。

总之,存在用以确定音高的不同概念,其中考虑过去音高(即,与先前解码的音频帧相关联的音高)为计算上有效的。可选地,可将音高信息从音频编码器传输至音频解码器。作为另一可选方案,可在音频解码器之侧执行音高搜索,其中优选地基于时域激励信号(即,在激励域中)执行音高确定。可执行包含开回路搜索及闭回路搜索的两级音高搜索,以便获得特别可靠且精确的音高信息。可选地或此外,可使用来自先前解码的音频帧的音高信息,以便确保音高搜索提供可靠的结果。

6.2.激励的外插或谐波部分的创建

从在先帧获得的(刚刚针对丢失帧计算的或针对多个帧丢失已保存在在先丢失帧中的)激励(例如,以时域激励信号的形式)用以通过将最后音高周期(例如,时域激励信号610的部分,该时域激励信号的持续时间等于音高的周期持续时间)复制获取(例如)一个半(丢失)帧所需的次数,来构建激励(例如,外插的时域激励信号662)中的谐波部分。

为获取甚至更好的结果,选择性地可能重新使用从现有技术水平已知的一些工具且调适这些工具。关于细节,参考例如参考文献[6]及[7]。

已发现,语音信号中的音高几乎始终在变化。因此,已发现,以上呈现的隐藏倾向于在恢复处产生一些问题,因为隐藏信号的结束处的音高通常不匹配第一良好帧的音高。因此,选择性地,试图预测隐藏帧的结束处的音高以匹配恢复帧的开始处的音高。将例如通过外插650执行此功能。

若使用TCX中的LTP,则可将滞后用作关于音高的起始信息。然而,期望具有更好的粒度以能够更好地追踪音高曲线。因此,选择性地在最后良好帧的开始处且在该最后良好帧的结束处进行音高搜索。为使信号适于移动的音高,可使用现有技术水平中存在的脉冲再同步。

总之,外插(例如,与丢失帧之前的最后适当解码的音频帧相关联或基于该最后适当解码的音频帧而获得的时域激励信号的外插)可包含与在先音频帧相关联的所述时域激励信号的时间部分的复制,其中可依据丢失的音频帧期间的(预期的)音高变化的计算或估计修改该复制的时间部分。不同的概念可用于确定音高变化。

6.3.音高的增益

在根据图6的实施例中,将增益施加于先前获得的激励上以便达到期望水平。音高的增益是例如通过在最后良好帧的结束处于时域中进行归一化的相关而被获得的。例如,相关的长度可等效于两个子帧长度,且延迟可等效于用于谐波部分的创建的(例如,用于复制时域激励信号的)音高滞后。已发现,在时域中进行增益计算给出比在激励域中进行增益计算可靠得多的增益。LPC正在改变每个帧,且然后将在在先帧上计算的增益施加于将由其他LPC集合处理的激励信号上,将不会在时域中给出预期的能量。

音高的增益确定将被创建的音调的量,但还将增添一些成形的噪声以不仅具有人工音调。若获得极低的音高的增益,则可构造仅由成形的噪声组成的信号。

总之,被施加用以对基于在先帧而获得的时域激励信号(或针对先前解码的帧而获得的时域激励信号,或与先前解码的帧相关联的时域激励信号)进行缩放的增益被调整,以确定在LPC合成680的输入信号内及因此在错误隐藏音频信息内的音调(或确定性或至少近似周期性)分量的加权。可基于相关确定所述增益,该相关被施加至通过先前解码的帧的解码而获得的时域音频信号(其中可使用在解码过程中执行的LPC合成来获得所述时域音频信号)。

6.4.噪声部分的创建

创新由随机噪声生成器660创建。此噪声被进一步地高通滤波,且选择性地针对有声的及起始帧而被预加重。可选择性地针对有声的及起始帧而执行的高通滤波及预加重在图6中并未明确地示出,但可例如在噪声生成器660内或在组合器/衰退器670内执行。

噪声将由LPC成形(例如,在与通过外插650获得的时域激励信号652组合之后)以变得尽可能接近背景噪声。

例如,可通过移除音高的先前计算的贡献(若存在)且在最后良好帧的结束处进行相关来计算创新增益。相关的长度可等效于两个子帧长度,且延迟可等效于用于谐波部分的创建的音高滞后。

选择性地,若音高的增益并非一,则此增益还可乘以(1-音高的增益)以在噪声上施加同样多的增益以达到能量遗漏。选择性地,此增益也乘以噪声因数。此噪声因数可来自在先有效帧。

总之,使用LPC合成680(及可能地,去加重684)通过将由噪声生成器660提供的噪声进行成形来获得错误隐藏音频信息的噪声分量。另外,可施加额外的高通滤波和/或预加重。可基于丢失的音频帧之前的最后适当解码的音频帧计算对LPC合成680的输入信号672的噪声贡献的增益(也被指定为“创新增益”),其中确定性(或至少近似周期性)分量可从丢失的音频帧之前的音频帧移除,且其中然后可执行相关以确定在丢失的音频帧之前的音频帧的经解码的时域信号内的噪声分量的强度(或增益)。

选择性地,可将一些额外修改施加于噪声分量的增益。

6.5.衰退

衰退主要用于多个帧丢失。然而,衰退也可用于仅单个音频帧丢失的情况。

在多个帧丢失的情况下,并不重新计算LPC参数。或者保留最后计算的LPC参数或如以上所解释执行LPC隐藏。

信号的周期性收敛至零。收敛速度取决于最后正确接收的(正确解码的)帧的参数及连继擦除(或丢失)的帧的数目,且由衰减因数α控制。因数α进一步取决于LP滤波器的稳定性。选择性地,可随着音高长度按比率改变因数α。例如,若音高实际上长,则α可保持正常,但若音高实际上短,则可能期望(或必须)将过去激励的相同部分复制多次。因为已发现此将迅速地听起来过于人工,因此使信号衰退得更快。

此外,选择性地,可能考虑音高预测输出。若音高被预测,则意味着音高在在先帧中已改变,且然后帧丢失得越多我们距真实越远。因此,在此情况下期望将音调部分的衰退加速一比特。

若音高预测因为音高改变得过多而失败,则此意味着音高值实际上并不可靠或信号为实际上不可预测的。因此,再次我们应衰退得更快。

总之,外插的时域激励信号652对LPC合成680的输入信号672的贡献通常随时间而被减少。可例如通过随时间减少被施加至外插的时域激励信号652的增益值来实现此。依据一个或多个音频帧的一个或多个参数(和/或依据连续丢失的音频帧的数目)调整用以逐渐地减少增益的速度,该增益被施加用以对基于丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号552(或该时域激励信号的一个或多个副本)进行缩放。特别地,音高长度和/或音高随时间改变的速率,和/或音高预测是失败或是成功的问题可用以调整所述速度。

6.6.LPC合成

为回至时域,对两个激励(音调部分652及噪声部分662)的总和(或通常,加权组合)执行LPC合成680,之后进行去加重684。

换言之,外插的时域激励信号652及噪声信号662的加权(衰退)组合的结果形成组合的时域激励信号且被输入至LPC合成680,该LPC合成可例如依据描述合成滤波器的LPC系数基于所述组合的时域激励信号672来执行合成滤波。

6.7.重叠及相加

因为在隐藏期间不知道将出现的下一帧的模式(例如,ACELP、TCX或FD)为何,优选地预先准备不同的重叠。为获取最好的重叠及相加,若下一帧在变换域(TCX或FD)中,则可例如创建人工信号(例如,错误隐藏音频信息)用于多于隐藏(丢失)帧的半个帧。此外,可在该人工信号上创建人工混迭(其中人工混迭可例如适于MDCT重叠及相加)。

为获取良好的重叠及相加且时域(ACELP)中的未来帧无不连续性,我们如以上所做但不进行混迭,以能够施加长重叠相加窗口,或若我们想要使用正方形窗口,则在合成缓冲的结束处计算零输入响应(ZIR)。

总之,在切换式音频解码器(该切换式音频解码器可例如在ACELP解码、TCX解码与频域解码(FD解码)之间切换)中,可在主要针对丢失的音频帧且也针对丢失的音频帧之后的某个时间部分而提供的错误隐藏音频信息与针对一个或多个丢失的音频帧序列之后的第一适当解码的音频帧而提供的经解码的音频信息之间执行重叠及相加。为了甚至针对在后续音频帧之间的过渡处带来时域混迭的解码模式而获得适当的重叠及相加,可提供混迭消除信息(例如,被指定为人工混迭)。因此,错误隐藏音频信息与基于丢失的音频帧之后的第一适当解码的音频帧而获得的时域音频信息之间的重叠及相加导致混迭的消除。

若一个或多个丢失的音频帧序列之后的第一适当解码的音频帧以ACELP模式而被编码,则可计算特定的重叠信息,该计算可基于LPC滤波器的零输入响应(ZIR)。

总之,错误隐藏600极好地适合于在切换式音频编解码器中的使用。然而,错误隐藏600还可用于仅对以TCX模式或ACELP模式编码的音频内容进行解码的音频编解码器中。

6.8.结论

应注意,通过以上提及的概念实现特别良好的错误隐藏,以对时域激励信号进行外插,以使用衰退(例如,交叉衰退)将外插的结果与噪声信号组合且基于交叉衰退的结果执行LPC合成。

7.根据图11的音频解码器

图11示出根据本发明的实施例的音频解码器1100的方块示意图。

应注意,音频解码器1100可为切换式音频解码器的部分。例如,音频解码器1100可替换音频解码器400中的线性预测域解码路径440。

音频解码器1100用于接收经编码的音频信息1110,且基于该经编码的音频信息提供经解码的音频信息1112。经编码的音频信息1110可例如对应于经编码的音频信息410,且经解码的音频信息1112可例如对应于经解码的音频信息412。

音频解码器1100包含比特流分析器1120,该比特流分析器用于从经编码的音频信息1110提取频谱系数的集合的经编码的表示1122及线性预测编码系数1124的经编码的表示。然而,比特流分析器1120可选择性地从经编码的音频信息1110提取额外信息。

音频解码器1100还包含频谱值解码1130,该频谱值解码用于基于经编码的频谱系数1122提供经解码的频谱值1132的集合。可使用用于对频谱系数进行解码的任何已知解码概念。

音频解码器1100还包含线性预测编码系数至比例因数的转换1140,该线性预测编码系数至比例因数的转换用于基于线性预测编码系数的经编码的表示1124提供比例因数1142的集合。例如,线性预测编码系数至比例因数的转换1142可执行在USAC标准中描述的功能。例如,线性预测编码系数的经编码的表示1124可包含多项式表示,该多项式表示由线性预测编码系数至比例因数的转换1142解码并转换成比例因数的集合。

音频解码器1100还包含标量(scalar)1150,该标量用于将比例因数1142施加于经解码的频谱值1132,以获得经缩放的解码的频谱值1152。此外,音频解码器1100选择性地包含处理1160,该处理可例如对应于以上所述的处理366,其中处理后的经缩放的解码的频谱值1162通过选择性的处理1160获得。音频解码器1100还包含频域至时域的变换1170,该频域至时域的变换用于接收经缩放的解码的频谱值1152(该经缩放的解码的频谱值可对应于经缩放的解码的频谱值362)或处理后的经缩放的解码的频谱值1162(该处理后的经缩放的解码的频谱值可对应于处理后的经缩放的解码的频谱值368),且基于该经缩放的解码的频谱值及该处理后的经缩放的解码的频谱值提供时域表示1172,该时域表示可对应于以上所述的时域表示372。音频解码器1100还包含选择性的第一后处理1174,及选择性的第二后处理1178,该选择性的第一后处理及该选择性的第二后处理可例如至少部分地对应于以上提及的选择性的后处理376。因此,音频解码器1110获得(选择性地)时域音频表示1172的后处理的版本1179。

音频解码器1100还包含错误隐藏方块1180,该错误隐藏方块用于接收时域音频表示1172或该时域音频表示的后处理的版本,以及线性预测编码系数(以被编码的形式或以被解码的形式),且基于该时域音频表示或该时域音频表示的后处理的版本及该线性预测编码系数提供错误隐藏音频信息1182。

错误隐藏方块1180用于使用时域激励信号提供用于对以频域表示编码的音频帧之后的音频帧的丢失进行隐藏的错误隐藏音频信息1182,且因此类似于错误隐藏380且类似于错误隐藏480,且还类似于错误隐藏500且类似于错误隐藏600。

然而,错误隐藏方块1180包含LPC分析1184,该LPC分析大体上与LPC分析530相同。然而,LPC分析1184可选择性地使用LPC系数1124以促进分析(当与LPC分析530相比时)。LPC分析1134提供时域激励信号1186,该时域激励信号大体上与时域激励信号532相同(且也与时域激励信号610相同)。此外,错误隐藏方块1180包含错误隐藏1188,该错误隐藏可例如执行错误隐藏500的方块540、550、560、570、580、584的功能,或该错误隐藏可例如执行错误隐藏600的方块640、650、660、670、680、684的功能。然而,错误隐藏方块1180稍微不同于错误隐藏500且也稍微不同于错误隐藏600。例如,错误隐藏方块1180(包含LPC分析1184)不同于错误隐藏500,因为(用于LPC合成580的)LPC系数并非由LPC分析530确定,而是(选择性地)从比特流接收。此外,包含LPC分析1184的错误隐藏方块1188不同于错误隐藏600,因为“过去激励”610是通过LPC分析1184而获得,而非直接可用的。

音频解码器1100还包含信号组合1190,该信号组合用于接收时域音频表示1172或该时域音频表示的后处理的版本,以及(自然地,用于后续音频帧的)错误隐藏音频信息1182,且优选地使用重叠及相加操作来组合所述信号,以获得经解码的音频信息1112。

关于进一步细节,参考以上解释。

8.根据图9的方法

图9示出用于基于经编码的音频信息提供经解码的音频信息的方法的流程图。根据图9的方法900包含使用时域激励信号提供用于对以频域表示编码的音频帧之后的音频帧的丢失进行隐藏的错误隐藏音频信息(910)。根据图9的方法900基于与根据图1的音频解码器相同的考虑。此外,应注意,可由本文所述的任何特征及功能单独地或以组合方式对方法900进行补充。

9.根据图10的方法

图10示出用于基于经编码的音频信息提供经解码的音频信息的方法的流程图。方法1000包含提供用于对音频帧的丢失进行隐藏的错误隐藏音频信息(1010),其中针对(或基于)丢失的音频帧之前的一个或多个音频帧而获得的时域激励信号被修改以便获得错误隐藏音频信息。

根据图10的方法1000基于与以上提及的根据图2的音频解码器相同的考虑。

此外,应注意,根据图10的方法可由本文所述的任何特征及功能单独地或以组合方式进行补充。

10.附加备注

在以上所述的实施例中,可以以不同方式处置多个帧丢失。例如,若两个或更多帧丢失,则用于第二丢失帧的时域激励信号的周期性部分可从与第一丢失帧相关联的时域激励信号的音调部分的副本导出(或等于该副本)。可选地,用于第二丢失帧的时域激励信号可基于在先丢失帧的合成信号的LPC分析。例如,在编解码器中,LPC可改变每个丢失帧,然后使得针对每个丢失帧重新进行分析是有意义的。

11.可选的实施方式

尽管已在装置的上下文中描述了一些方面,但显然,这些方面还表示对应方法的描述,其中区块或装置对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的方面还表示对应区块或对应装置的项目或特征的描述。可由(或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中,可由此装置执行最重要方法步骤中的某一步或多步。

依据某些实施要求,本发明的实施例可以以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的数字存储介质,例如软盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存,执行实施方案,电子可读控制信号与(或能够与)可编程计算机系统协作,从而执行各个方法。因此,数字存储介质可是计算机可读的。

根据本发明的一些实施例包含具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文中所描述的方法中的一个。

大体而言,本发明的实施例可被实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行所述方法中的一个。程序代码可(例如)储存于机器可读载体上。

其他实施例包含储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。

换言之,因此,本发明方法的实施例为具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文中所描述的方法中的一个。

因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),其包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常为有形的及/或非暂时性的。

因此,本发明方法之另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)被配置为通过数据通信连接(例如,通过因特网)进行传送。

另一实施例包含处理装置(例如,计算机或可编程逻辑装置),其用于或适于执行本文中所描述的方法中的一个。

另一实施例包含一种计算机,其具有安装于其上的用于执行本文中所描述的方法中的一个的计算机程序。

根据本发明的另一实施例包含用于将用于执行本文中所描述的方法中的一个的计算机程序传输(例如,电子地或光学地)至接收器的装置或系统。接收器可(例如)为计算机、移动装置、存储器装置或类似。装置或系统可(例如)包含用于将计算机程序传输至接收器的文件服务器。

在一些实施例中,可编程逻辑装置(例如,现场可编程门阵列)可用于执行本文中所描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作,以执行本文中所描述的方法中的一个。大体而言,优选地由任何硬件装置执行方法。

可使用硬件设备,或使用计算机,或使用硬件设备及计算机的组合来实施本文所述的装置。

可使用硬件设备,或使用计算机,或使用硬件设备及计算机的组合来执行本文所述的方法。

上文所描述的实施例仅仅说明本发明的原理。应理解的是,本文中所描述的配置及细节的修改及变化对于本领域的其他技术人员是显而易见的。因此,其仅受到所附的专利权利要求的范围的限制,而不受本文中以实施例的描述及解释方式所呈现的特定细节的限制。

12.结论

总之,虽然在领域中已描述了用于变换域编解码器的一些隐藏,根据本发明的实施例胜过传统的编解码器(或解码器)。根据本发明的实施例将域变化用于隐藏(频域至时域或激励域)。因此,根据本发明的实施例创造用于变换域解码器的高品质语音隐藏。

变换编码模式类似于USAC中的编码模式(对照,例如参考文献[3])。变换编码模式使用改进的离散余弦变换(MDCT)作为变换,且通过在频域中应用加权的LPC频谱包络而实现频谱噪声成形(也被称为FDNS“频域噪声成形”)。不同而言,根据本发明的实施例可用于音频解码器中,该音频解码器使用USAC标准中所述的解码概念。然而,本文揭示的错误隐藏概念还可用于类似“AAC”或在任何AAC族编解码器(或解码器)中的音频解码器。

根据本发明的概念应用于诸如USAC的切换式编解码器且应用于纯频域编解码器。在两者的情况下,皆在时域中或在激励域中执行隐藏。

在下文中,将描述时域隐藏的(或激励域隐藏的)一些优点及特征。

如例如参考图7及图8所述的传统的TCX隐藏(也被称为噪声替代)并不能很好地适于类语音信号或甚至音调信号。根据本发明的实施例创造用于在时域(或线性预测编码解码器的激励域)中应用的变换域编解码器的新隐藏。该新隐藏类似于类ACELP隐藏且提高隐藏品质。已发现,音高信息对于类ACELP隐藏为有利的(或甚至在一些情况下为必要的)。因此,根据本发明的实施例用于找到用于在频域中编码的在先帧的可靠音高值。

以上例如基于根据图5及图6的实施例已解释了不同部分及细节。

总之,根据本发明的实施例创造胜过传统解决方案的错误隐藏。

参考文献

[1]3GPP,“Audiocodecprocessingfunctions;ExtendedAdaptiveMulti-Rate–Wideband(AMR-WB+)codec;Transcodingfunctions,”2009,3GPPTS26.290.

[2]“MDCT-BASEDCODERFORHIGHLYADAPTIVESPEECHANDAUDIOCODING”;GuillaumeFuchs&al.;EUSIPCO2009.

[3]ISO_IEC_DIS_23003-3_(E);Informationtechnology-MPEGaudiotechnologies-Part3:Unifiedspeechandaudiocoding.

[4]3GPP,“GeneralAudioCodecaudioprocessingfunctions;EnhancedaacPlusgeneralaudiocodec;Additionaldecodertools,”2009,3GPPTS26.402.

[5]“Audiodecoderandcodingerrorcompensatingmethod,”2000,EP1207519B1

[6]“ApparatusandmethodforimprovedconcealmentoftheadaptivecodebookinACELP-likeconcealmentemployingimprovedpitchlagestimation,”2014,PCT/EP2014/062589

[7]“ApparatusandmethodforimprovedconcealmentoftheadaptivecodebookinACELP-likeconcealmentemployingimprovedpulseresynchronization,”2014,PCT/EP2014/062578

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1