混合隐藏方法:音频编解码器中频域和时域报文丢失隐藏的组合与流程

文档序号:16507486发布日期:2019-01-05 09:07阅读:444来源:国知局
混合隐藏方法:音频编解码器中频域和时域报文丢失隐藏的组合与流程

根据本发明的实施例创建用于基于时域隐藏分量和频域隐藏分量来提供隐藏经编码的音频信息中的音频帧的丢失的错误隐藏音频信息的错误隐藏单元。

根据本发明的实施例创建用于基于经编码的音频信息提供解码的音频信息的音频解码器,该解码器包括所述错误隐藏单元。

根据本发明的实施例创建音频编码器,用于提供经编码的音频信息以及如果需要则提供用于隐藏功能的其它信息。

根据本发明的一些实施例创建用于基于时域隐藏分量和频域隐藏分量来提供用于隐藏经编码的音频信息中的音频帧的丢失的错误隐藏音频信息的方法。

根据本发明的一些实施例创建用于执行所述方法之一的计算机程序。



背景技术:

近年来,对音频内容的数字传输和存储的需求不断增加。但是,音频内容通常在不可靠的信道上传输,这带来了包括一个或多个音频帧(例如,以经编码表示的形式,比如,例如,经编码的频域表示或经编码的时域表示)的数据单元(例如,报文)丢失的风险。在一些情况下,有可能请求重复(重新发送)丢失的音频帧(或数据单元,比如包括一个或多个丢失的音频帧的报文)。但是,这通常会带来很大的延迟,并且将因此需要对音频帧进行广泛的缓冲。在其它情况下,几乎不可能请求重复丢失的音频帧。

考虑在不提供广泛缓冲的情况下音频帧丢失的情况(提供广泛缓冲将消耗大量存储器并且还会显著地降低音频编码的实时能力),为了获得良好的或者至少可接受的音频质量,期望具有处理一个或多个音频帧的丢失的概念。特别地,期望具有即使在音频帧丢失的情况下,也带来良好的音频质量或者至少可接受的音频质量的概念。

值得注意的是,帧丢失意味着帧没有被正确地解码(特别地,未及时解码以进行输出)。当帧完全未被检测到,或者当帧到达太晚时,或者在检测到位错误(由于这个原因,在帧不可用的意义上,帧是丢失的,并且应该被隐藏)的情况下,会发生帧丢失。对于这些故障(其可以被保持为“帧丢失”类的一部分),导致的结果是不可能解码帧并且必须执行错误隐藏操作。

过去,已经开发了一些错误隐藏概念,这些概念可以在不同的音频编码概念中被采用。

高级音频编解码器(aac)中的传统隐藏技术是噪声替换[1]。它在频域中操作并且适用于噪声和音乐项目。

尽管如此,已经认识到,对于语音片段,频域噪声替换经常产生相位不连续性,这最终导致时域中令人讨厌的“咔哒声(click)”伪像。

因此,类acelp时域方法可以用于由分类器确定的语音片段(例如,[2]或[3]中的td-tcxplc)。

时域隐藏的一个问题是在全频范围上人为生成的谐度(harmonicity)。可以产生令人讨厌的“蜂鸣(beep)”伪像。

时域隐藏的另一个缺点是,与无差错解码或利用噪声替换隐藏相比,它的计算复杂度高。

需要一种解决方案来克服现有技术的损害。



技术实现要素:

根据本发明,提供了一种用于提供用于隐藏经编码的音频信息中的音频帧的丢失的错误隐藏音频信息的错误隐藏单元。错误隐藏单元被配置为使用频域隐藏提供第一频率范围的第一错误隐藏音频信息分量。错误隐藏单元还被配置为使用时域隐藏提供第二频率范围的第二错误隐藏音频信息分量,该第二频率范围包括比第一频率范围更低的频率。错误隐藏单元还被配置为组合第一错误隐藏音频信息分量和第二错误隐藏音频信息分量,以获得错误隐藏音频信息(其中还可以可选地提供关于错误隐藏的附加信息)。

通过对高频(主要是噪声)使用频域隐藏和对低频(主要是语音)使用时域隐藏,人工生成的噪声的强谐度(这通过在全频范围内使用时域隐藏而被隐含)被避免,并且上面提到的咔哒声伪像(通过在全频范围内使用频域隐藏所隐含的)和蜂鸣声伪像(通过在全频范围内使用时域隐藏所隐含的)也可以被避免或减少。

此外,还减少了计算复杂度(当在全频范围内使用时域隐藏时所隐含的)。

特别地,解决了在全频范围上人工生成的谐度的问题。如果信号仅在较低频率中具有强谐波(对于语音项目,这通常高达约4khz),其中背景噪声在较高频率中,那么所生成的高达奈奎斯特(nyquist)频率的谐波将产生令人讨厌的“蜂鸣”伪像。利用本发明,这个问题被极大地减少,或者在大多数情况下被解决。

根据本发明的一个方面,错误隐藏单元被配置为使得第一错误隐藏音频信息分量表示给定的丢失的音频帧的高频部分,并且使得第二错误隐藏音频信息分量表示给定的丢失的音频帧的低频部分,使得与给定的丢失的音频帧相关联的错误隐藏音频信息使用频域隐藏和时域隐藏两者被获得。

根据本发明的一个方面,错误隐藏单元被配置为使用丢失的音频帧之前的正确解码的音频帧的高频部分的变换域表示来得到第一错误隐藏音频信息分量,和/或错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧的低频部分使用时域信号合成来得到第二错误隐藏音频信息分量。

根据本发明的一个方面,错误隐藏单元被配置为使用丢失的音频帧之前的正确解码的音频帧的高频部分的变换域表示的经缩放或未经缩放的副本,来获得丢失的音频帧的高频部分的变换域表示,并将丢失的音频帧的高频部分的变换域表示转换为时域,以获得作为第一错误隐藏音频信息分量的时域信号分量。

根据本发明的一个方面,错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧的低频部分来获得一个或多个合成刺激参数和一个或多个合成滤波参数,并且使用信号合成来获得第二错误隐藏音频信息分量,其中信号合成的刺激参数和滤波参数是基于所获得的合成刺激参数和所获得的合成滤波参数得到的或者等于所获得的合成刺激参数和所获得的合成滤波参数。

根据本发明的一个方面,错误隐藏单元被配置为执行控制以确定和/或自适应地改变第一频率范围和/或第二频率范围。

因此,用户或控制应用可以选择优选的频率范围。此外,可以根据解码的信号修改隐藏。

根据本发明的一个方面,错误隐藏单元被配置为基于在一个或多个经编码的音频帧的特性和一个或多个正确解码的音频帧的特性之间选择的特性来执行控制。

因此,可以使频率范围适应信号的特性。

根据本发明的一个方面,错误隐藏单元被配置为获得关于一个或多个正确解码的音频帧的谐度的信息,并且基于关于谐度的信息执行控制。附加地或替代地,错误隐藏单元被配置为获得关于一个或多个正确解码的音频帧的频谱倾斜的信息,并且基于关于频谱倾斜的信息执行控制。

因此,可以执行特殊操作。例如,在谐波的能量倾斜在频率上恒定的情况下,可以优选地执行全频率时域隐藏(根本没有频域隐藏)。在信号不包含谐度的情况下,全谱频域隐藏(根本没有时域隐藏)可以是优选的。

根据本发明的一个方面,与第二频率范围(主要是语音)中的谐度相比,可以使第一频率范围(主要是噪声)中的谐度相对较小。

根据本发明的一个方面,错误隐藏单元被配置为确定直到哪个频率,在丢失的音频帧之前的正确解码的音频帧包括比谐度阈值更强的谐度,并且根据其选择第一频率范围和第二频率范围。

通过使用与阈值的比较,可以例如将噪声与语音区分开,并且确定要使用时域隐藏来隐藏的频率和要使用频域隐藏来隐藏的频率。

根据本发明的一个方面,错误隐藏单元被配置为确定或估计频率边界(在该频率边界处,在丢失的音频帧之前的正确解码的音频帧的频谱倾斜从较小的频谱倾斜变为较大的频谱倾斜),并且根据其选择第一频率范围和第二频率范围。

有可能想要在小频谱倾斜的情况下发生相当(或至少普遍)平坦的频率响应,而在大频谱倾斜的情况下,信号或者在低频带比高频带具有多得多的能量或者反之。

换句话说,小的(或较小的)频谱倾斜可以意味着频率响应是“相当”平坦的,而对于大的(或较大的)频谱倾斜,信号或者在低频带比高频带具有更多(多得多)的能量(例如,每个频谱仓或每个频率间隔),或者反之。

还可以执行基本(非复杂)频谱倾斜估计以获得可以是(例如,可以由线表示的)一阶函数的频带的能量的趋势。在这种情况下,可以检测能量(例如,平均带能量)低于某个(预定)阈值的区域。

在低频带几乎没有能量但高频带具有能量的情况下,那么在一些实施例中可以仅使用fd(例如,频域隐藏)。

根据本发明的一个方面,错误隐藏单元被配置为调整第一(通常较高)频率范围和第二(通常较低)频率范围,使得第一频率范围覆盖包括类噪声的频谱结构的频谱区域,并且使得第二频率范围覆盖包括谐波频谱结构的频谱区域。

因此,可以对语音和噪声使用不同的隐藏技术。

根据本发明的一个方面,错误隐藏单元被配置为执行控制,以便根据谐波和噪声之间的能量关系调节第一频率范围的较低频率端和/或第二频率范围的较高频率端。

通过分析谐波和噪声之间的能量关系,可以以良好的确定性确定待使用时域隐藏处理的频率和待使用频域隐藏处理的频率。

根据本发明的一个方面,错误隐藏单元被配置为执行控制,以便选择性地禁止时域隐藏和频域隐藏中的至少一个和/或仅执行时域隐藏或仅执行频域隐藏,以获得错误隐藏音频信息。

这个属性允许执行特殊操作。例如,当谐波的能量倾斜在频率上恒定时,可以选择性地抑制频域隐藏。当信号不包含谐度(主要是噪声)时,可以抑制时域隐藏。

根据本发明的一个方面,错误隐藏单元被配置为确定或估计丢失的音频帧之前的正确解码的音频帧的频谱倾斜的变化是否小于给定频率范围内的预定频谱倾斜阈值,并且仅当发现丢失的音频帧之前的正确解码的音频帧的频谱倾斜的变化小于预定的频谱倾斜阈值时,才使用时域隐藏来获得错误隐藏音频信息。

因此,可以具有通过观察频谱倾斜的演变来确定是否仅利用时域隐藏来操作的简单技术。

根据本发明的一个方面,错误隐藏单元被配置为确定或估计丢失的音频帧之前的正确解码的音频帧的谐度是否小于预定的谐度阈值,并且仅当发现丢失的音频帧之前的正确解码的音频帧的谐度小于预定的谐度阈值时,才使用频域隐藏来获得错误隐藏音频信息。

因此,可以提供仅通过观察谐度的演变来确定是否利用频域隐藏来操作的解决方案。

根据本发明的一个方面,错误隐藏单元被配置为基于丢失的音频帧之前的正确解码的音频帧的音高和/或根据丢失的音频帧之前的正确解码的音频帧中的音高的时间演变,和/或根据丢失的音频帧之前的正确解码的音频帧与丢失的音频帧之后的正确解码的音频帧之间的音高的插值来调节隐藏帧的音高。

如果知道每个帧的音高,则可以基于过去的音高值改变隐藏帧内部的音高。

根据本发明的一个方面,错误隐藏单元被配置为基于编码器发送的信息执行控制。

根据本发明的一个方面,错误隐藏单元还被配置为使用重叠和相加(ola)机制来组合第一错误隐藏音频信息分量和第二错误隐藏音频信息分量。

因此,可以容易地在第一分量和第二分量之间执行错误隐藏音频信息的两个分量之间的组合。

根据本发明的一个方面,错误隐藏单元被配置为基于通过频域错误隐藏获得的频谱域表示来执行逆修正离散余弦变换(imdct),以便获得第一错误隐藏音频信息分量的时域表示。

因此,可以在频域隐藏和时域隐藏之间提供有用的接口。

根据本发明的一个方面,错误隐藏单元被配置为提供第二错误隐藏音频信息分量,使得第二错误隐藏音频信息分量包括比丢失的音频帧长至少25%的时间持续,以允许重叠和相加。根据本发明的一个方面,错误隐藏单元可以被配置为执行imdct两次以获得时域中的两个连续帧。

为了组合低频和高频部分或路径,ola机制在时域中执行。对于类aac的编解码器,这意味着必须针对一个隐藏帧更新多于一个帧(通常为一个半帧)。这是因为ola的分析和合成方法具有半帧延迟。当使用逆修正离散余弦变换(imdct)时,imdct仅产生一帧:因此需要另外的半帧。因此,可以调用imdct两次以获得时域中的两个连续帧。

值得注意的是,如果帧长度由aac的预定数量的样本(例如,1024个样本)组成,则在编码器处mdct变换包括首先应用两倍于帧长度的窗口。在解码器处,在mdct之后并且在重叠和相加操作之前,样本的数量也是两倍(例如,2048)。这些样本包含混叠。在这种情况下,是在与先前帧的重叠和相加之后,对于左边部分混叠被消除(1024个样本)。后者对应于将由解码器用完的帧。

根据本发明的一个方面,错误隐藏单元被配置为在频域隐藏的下游执行第一错误隐藏音频信息分量的高通滤波。

因此,可以以良好的可靠性获得隐藏信息的高频分量。

根据本发明的一个方面,错误隐藏单元被配置为执行高通滤波,其截止频率在6khz和10khz之间,优选地在7khz和9khz之间,更优选地在7.5khz和8.5khz之间,甚至更优选地在7.9khz和8.1khz之间,并且甚至更优选地在8khz。

已经证明该频率特别适于区分噪声和语音。

根据本发明的一个方面,错误隐藏单元被配置为信号自适应地调整高通滤波的较低频率边界,从而改变第一频率范围的带宽。

因此,可以(在任何情况下)从语音频率切割噪声频率。由于获得这种精确切割的滤波器(hp和lp)通常过于复杂,因此在实践中截止频率是明确定义的(即使衰减对于在其上或在其下的频率可能也不是完美的)。

根据本发明的一个方面,错误隐藏单元被配置为对丢失的音频帧之前的音频帧的时域表示进行下采样,以便获得丢失的音频帧之前的音频帧的下采样时域表示,该下采样时域表示仅表示丢失的音频帧之前的音频帧的低频部分,并且使用丢失的音频帧之前的音频帧的下采样时域表示来执行时域隐藏,并且对由时域隐藏提供的隐藏音频信息或其后处理版本进行上采样,以便获得第二错误隐藏音频信息分量,使得时域隐藏使用比完全表示丢失的音频帧之前的音频帧所需的采样频率更小的采样频率来执行。然后,可以将上采样的第二错误隐藏音频信息分量与第一错误隐藏音频信息分量组合。

通过在下采样环境中操作,时域隐藏具有减少的计算复杂度。

根据本发明的一个方面,错误隐藏单元被配置为信号自适应地调整下采样时域表示的采样率,从而改变第二频率范围的带宽。

因此,可以将下采样时域表示的采样率改变为适当的频率,特别是当信号的条件变化时(例如,当特定信号需要增加采样率时)。因此,例如,为了将噪声与语音分离的目的,可以获得优选的采样率。

根据本发明的一个方面,错误隐藏单元被配置为使用阻尼因子执行淡出。

因此,可以优雅地降低随后的隐藏帧以减小这些帧的强度。

通常,当存在多于一个帧的丢失时,我们进行淡出。大多数时候我们已经在第一帧丢失时应用了某种淡出,但最重要的部分是,如果我们有错误突发(原始帧中多帧丢失),恰好地淡出到静音或背景噪声。

根据本发明的另一方面,错误隐藏单元被配置为使用阻尼因子缩放丢失的音频帧之前的音频帧的频谱表示,以便得到第一错误隐藏音频信息分量。

已经注意到的是,这种策略允许实现特别适于本发明的优雅降级。

根据本发明的一个方面,错误隐藏被配置为对时域隐藏的输出信号或其上采样版本进行低通滤波,以便获得第二错误隐藏音频信息分量。

以这种方式,可以实现容易但可靠的方式来获得第二错误隐藏音频信息分量处于低频范围。

本发明还针对用于基于经编码的音频信息提供解码的音频信息的音频解码器,该音频解码器包括根据上述任何方面的错误隐藏单元。

根据本发明的一个方面,音频解码器被配置为基于音频帧的频谱域表示的编码表示来获得音频帧的频谱域表示,并且其中音频解码器被配置为执行频谱域到时域转换,以便获得音频帧的解码时间表示。错误隐藏被配置为使用丢失的音频帧之前的正确解码的音频帧的频谱域表示或其一部分来执行频域隐藏。错误隐藏被配置为使用丢失的音频帧之前的正确解码的音频帧的解码的时域表示来执行时域隐藏。

本发明还涉及用于提供用于隐藏经编码的音频信息中的音频帧的丢失的错误隐藏音频信息的错误隐藏方法,该方法包括:

-使用频域隐藏提供第一频率范围的第一错误隐藏音频信息分量,

-使用时域隐藏提供第二频率范围的第二错误隐藏音频信息分量,第二频率范围包括比第一频率范围更低的频率,以及

-组合第一错误隐藏音频信息分量和第二错误隐藏音频信息分量,以获得错误隐藏音频信息。

本发明的方法还可以包括信号自适应地控制第一和第二频率范围。该方法还可以包括自适应地切换到其中仅使用时域隐藏或仅使用频域隐藏来获得至少一个丢失的音频帧的错误隐藏音频信息的模式。

本发明还涉及用于当计算机程序在计算机上运行时执行本发明的方法和/或用于控制本发明的错误隐藏单元和/或本发明的解码器的计算机程序。

本发明还涉及用于基于输入音频信息提供经编码的音频表示的音频编码器。该音频编码器包括:被配置为基于输入音频信息提供经编码的频域表示的频域编码器,和/或被配置为基于输入音频信息提供经编码的线性预测域表示的线性预测域编码器;以及被配置为确定交叉频率信息的交叉频率确定器,该交叉频率信息定义要在音频解码器侧使用的时域错误隐藏和频域错误隐藏之间的交叉频率。该音频编码器被配置为将经编码的频域表示和/或经编码的线性预测域表示以及交叉频率信息包括到经编码的音频表示中。

因此,不必在解码器侧识别第一和第二频率范围。编码器可以容易地提供该信息。

但是,音频编码器可以例如依赖于用于如音频解码器那样确定交叉频率的相同概念(其中可以使用输入音频信号而不是解码的音频信息)。

本发明还涉及用于基于输入音频信息提供经编码的音频表示的方法。该方法包括:

-频域编码步骤,以基于输入音频信息提供经编码的频域表示,和/或线性预测域编码步骤,以基于输入音频信息提供经编码的线性预测域表示;以及

-交叉频率确定步骤,以确定交叉频率信息,该交叉频率信息定义要在音频解码器侧使用的时域错误隐藏和频域错误隐藏之间的交叉频率。

编码步骤被配置为将经编码的频域表示和/或经编码的线性预测域表示以及还有交叉频率信息包括到经编码的音频表示中。

本发明还涉及经编码的音频表示,包括:表示音频内容的经编码的频域表示,和/或表示音频内容的经编码的线性预测域表示;以及交叉频率信息,其定义要在音频解码器侧使用的时域错误隐藏和频域错误隐藏之间的交叉频率。

因此,可以简单地发送包括(例如,在其比特流中)与第一和第二频率范围或第一和第二频率范围之间的边界有关的信息的音频数据。因此,接收经编码的音频表示的解码器可以简单地使fd隐藏和td隐藏的频率范围适于由编码器提供的指令。

本发明还涉及包括如上所述的音频编码器和如上所述的音频解码器的系统。控制可以被配置为基于由音频编码器提供的交叉频率信息来确定第一和第二频率范围。

因此,解码器可以自适应地修改td和fd隐藏的频率范围以适应由编码器提供的命令。

附图说明

随后将参考附图描述本发明的实施例,其中:

图1示出根据本发明的隐藏单元的示意框图;

图2示出根据本发明实施例的音频解码器的示意框图;

图3示出根据本发明另一个实施例的音频解码器的示意框图;

图4由图4a和图4b形成,并且示出根据本发明另一个实施例的音频解码器的示意框图;

图5示出时域隐藏的示意框图;

图6示出时域隐藏的示意框图;

图7示出图示频域隐藏的操作的示意图;

图8a示出根据本发明实施例的隐藏的示意框图;

图8b示出根据本发明另一个实施例的隐藏的示意框图;

图9示出本发明的隐藏方法的流程图;

图10示出本发明的隐藏方法的流程图;

图11示出本发明关于窗口化以及重叠和相加操作的操作的详细说明;

图12-18示出信号图的比较示例;

图19示出根据本发明实施例的音频编码器的示意框图;

图20示出本发明的编码方法的流程图;

具体实施方式

在本节中,参考附图讨论本发明的实施例。

5.1根据图1的错误隐藏单元

图1示出根据本发明的错误隐藏单元100的示意框图。

错误隐藏单元100提供用于隐藏经编码的音频信息中的音频帧的丢失错的误隐藏音频信息102。错误隐藏单元100由音频信息,诸如正确解码的音频帧101(意图是正确解码的音频帧过去已经被解码)输入。

错误隐藏单元100被配置为使用频域隐藏(例如,使用频域隐藏单元105)提供第一频率范围的第一错误隐藏音频信息分量103。错误隐藏单元100还被配置为使用时域隐藏(例如,使用时域隐藏单元106)提供第二频率范围的第二错误隐藏音频信息分量104。第二频率范围包括比第一频率范围更低的频率。错误隐藏单元100还被配置为组合(例如,使用组合器107)第一错误隐藏音频信息分量103和第二错误隐藏音频信息分量104,以获得错误隐藏音频信息102。

第一错误隐藏音频信息分量103可以用作表示给定的丢失的音频帧的高频部分(或相对较高频率部分)。第二错误隐藏音频信息分量104可以用作表示给定的丢失的音频帧的低频部分(或相对较低频率部分)。使用频域隐藏单元105和时域隐藏单元106两者获得与丢失的音频帧相关联的错误隐藏音频信息102。

5.1.1时域错误隐藏

这里提供的一些信息涉及如可以由时域隐藏单元106实施的时域隐藏。

由此,时域隐藏可以例如被配置为修改基于丢失的音频帧之前的一个或多个音频帧获得的时域激励信号,以便获得错误隐藏音频信息的第二错误隐藏音频信息分量。但是,在一些简单的实施例中,可以使用时域激励信号而无需修改。换句话说,时域隐藏可以获得(或得到)用于(或基于)丢失的音频帧之前的一个或多个编码音频帧的时域激励信号,并且可以修改所获得的用于(或基于)丢失的音频帧之前的一个或多个正确接收的音频帧的所述时域激励信号,从而(通过修改)获得用于提供错误隐藏音频信息的第二错误隐藏音频信息分量的时域激励信号。换句话说,修改后的时域激励信号(或未修改的时域激励信号)可以用作用于合成(例如,lpc合成)与丢失的音频帧(或甚至与多个丢失的音频帧)相关联的错误隐藏音频信息的输入(或用作输入的分量)。通过在基于丢失的音频帧之前的一个或多个正确接收到的音频帧获得的时域激励信号的基础上提供错误隐藏音频信息的第二错误隐藏音频信息分量,可以避免可听见的不连续性。另一方面,通过(可选地)修改为丢失的音频帧之前的一个或多个音频帧得到的(或来自其的)时域激励信号,并且通过基于(可选地)修改后的时域激励信号提供错误隐藏音频信息,可以考虑音频内容的变化特性(例如,音高变化),并且还可以(例如,通过“淡出”确定性的(例如,至少近似周期性的)信号分量)避免不自然的听觉印象。因此,可以实现错误隐藏音频信息包括与基于丢失的音频帧之前的正确解码的音频帧获得的解码的音频信息的某些相似性,并且通过稍微修改时域激励信号仍然可以实现错误隐藏音频信息包括当与和丢失的音频帧之前的音频帧相关联的解码音频信息相比时稍微不同的音频内容。用于供给(与丢失的音频帧相关联的)错误隐藏音频信息的第二错误隐藏音频信息分量的时域激励信号的修改可以例如包括振幅缩放或时间缩放。但是,其它类型的修改(或者甚至是振幅缩放和时间缩放的组合)是可能的,其中优选地,通过错误隐藏获得的时域激励信号(作为输入信息)和修改后的时域激励信号之间的某种相关性应该保留。

总之,音频解码器允许提供错误隐藏音频信息,使得即使在一个或多个音频帧丢失的情况下,错误隐藏音频信息也提供良好的听觉印象。错误隐藏基于时域激励信号来执行,其中可以通过修改基于丢失的音频帧之前的一个或多个音频帧获得的时域激励信号来考虑丢失的音频帧期间音频内容的信号特性的变化。

5.1.2频域错误隐藏

这里提供的一些信息涉及如可以由频域隐藏单元105实施的频域隐藏。但是,在本发明的错误隐藏单元中,下面讨论的频域错误隐藏是在有限的频率范围内执行的。

但是,应该注意的是,这里描述的频域隐藏应该仅被视为示例,其中也可以应用不同的或更高级的概念。换句话说,这里描述的概念用在一些特定编解码器中,但不需要应用于所有频域解码器。

在一些实现中,频域隐藏功能可以将解码器的延迟增加一帧(例如,如果频域隐藏使用内插)。在一些实现中(或在一些解码器中),频域隐藏在恰好最终频率到时间转换之前对频谱数据起作用。在单个帧被损坏的情况下,隐藏可以例如在最后(或其中最后一个)好帧(正确解码的音频帧)和第一个好帧之间内插,以为丢失的帧创建频谱数据。但是,一些解码器可能不能执行内插。在这种情况下,可以使用更简单的频域隐藏,比如,例如,复制或外推先前解码的频谱值。先前帧可以通过频率到时间的转换来处理,因此这里要替换的丢失帧是先前帧,最后的好帧是先前帧之前的帧,并且第一个好帧是实际的帧。如果多个帧被损坏,则隐藏首先基于从最后好帧稍微修改后的频谱值实现淡出。只要有好帧可用,隐藏就在新的频谱数据中淡出。

在下文中,实际帧是帧号n,要内插的损坏帧是帧n-1,并且倒数第二个帧具有编号n-2。窗口序列的确定和损坏帧的窗口形状如下表所示:

表1:内插窗口序列和窗口形状(如用于一些aac系列解码器和usac)

计算帧n-2和n的比例因子带能量。如果这些帧中的一个中的窗口序列是eight_short_sequence并且帧n-1的最终窗口序列是长变换窗口之一,则通过将短块频谱系数的频率线索引映射到长块表示来计算长块比例因子带的比例因子带能量。通过重用较旧帧n-2的频谱乘以每个频谱系数的因子来构建新的内插频谱。在帧n-2中的短窗口序列和帧n中的长窗口序列的情况下发生例外,这里实际帧n的频谱被内插因子修改。该因子在每个比例因子带的范围内是恒定的并且从帧n-2和n的比例因子带能量差值得出。最后,内插频谱系数的符号将随机翻转。

完全淡出需要5帧。来自最后好帧的频谱系数被复制并且被衰减以下的因子:

fadeoutfac=2-(nfadeoutfrome/2)

其中nfadeoutframe作为自从最后一个好帧开始的帧计数器。

在5帧淡出之后,隐藏切换到静音,这意味着整个频谱将被设置为0。

解码器在再次接收到好帧时淡入。淡入过程也需要5帧,并且乘以频谱的因子是:

fadeinfac=2-(5-nfadeinframe)/2

其中nfadeinframe是自从隐藏多个帧之后的第一个好帧开始的帧计数器。

最近,引入了新的解决方案。对于这些系统,现在可以在恰好最后先前好帧的解码之后复制频率仓,并且然后独立地应用比如tns和/或噪声填充的其它处理。

在evs或eld中也可以使用不同的解决方案。

5.2.根据图2的音频解码器

图2示出根据本发明实施例的音频解码器200的示意框图。音频解码器200接收经编码的音频信息210,其可以例如包括以频域表示编码的音频帧。原则上,经编码的音频信息210经由不可靠的信道接收,导致不时地发生帧丢失。也可能太晚接收到或检测到帧,或者检测到位错误。这些事件具有帧丢失的效果:帧不可用于解码。响应于这些故障之一,解码器可以以隐藏模式作用。音频解码器200进一步基于经编码的音频信息210提供解码的音频信息212。

音频解码器200可以包括解码/处理220,其在没有帧丢失的情况下基于经编码的音频信息提供解码的音频信息222。

音频解码器200还包括错误隐藏230(其可以由错误隐藏单元100实施),错误隐藏230提供错误隐藏音频信息232。错误隐藏230被配置为提供用于隐藏音频帧的丢失的错误隐藏音频信息232。

换句话说,解码/处理220可以为音频帧提供解码的音频信息222,音频帧以频域表示的形式被编码,即,以经编码的表示的形式被编码,经编码的表示的编码值描述不同频率仓中的强度。换句话说,解码/处理220可以例如包括频域音频解码器,该频域音频解码器从经编码的音频信息210得出一组频谱值并执行频域到时域变换,从而得到时域表示,该时域表示构成解码的音频信息222或者在有附加的后处理的情况下形成提供解码的音频信息222的基础。

此外,应该注意的是,音频解码器200可以或者单独地或者组合地采用以下描述的任何特征和功能进行补充。

5.3.根据图3的音频解码器

图3示出根据本发明实施例的音频解码器300的示意框图。

音频解码器300被配置为接收经编码的音频信息310并基于其提供解码的音频信息312。音频解码器300包括比特流分析器320(其也可以被指定为“比特流去格式化器”或“比特流解析器”)。比特流分析器320接收经编码的音频信息310,并基于其提供频域表示322和可能的附加控制信息324。频域表示322可以例如包括经编码的频谱值326、经编码的比例因子(或者,lpc表示)328以及可选的附加边信息330,边信息330可以例如控制特定处理步骤,比如,例如,噪声填充、中间处理或后处理。音频解码器300还包括频谱值解码340,其被配置为接收经编码的频谱值326,并且基于其提供一组解码的频谱值342。音频解码器300还可以包括比例因子解码350,其可以被配置为接收经编码的比例因子328并且基于其提供一组解码的比例因子352。

作为比例因子解码的替代,可以使用lpc到比例因子转换354,例如,在经编码的音频信息包括经编码的lpc信息而不是比例因子信息的情况下。但是,在一些编码模式中(例如,在usac音频解码器的tcx解码模式中或在evs音频解码器中),可以使用一组lpc系数来在音频解码器侧得出一组比例因子。该功能可以由lpc到比例因子转换354实现。

音频解码器300还可以包括缩放器360,缩放器360可以被配置为将该组比例因子352应用于该组频谱值342,从而获得一组经缩放的解码频谱值362。例如,可以使用第一比例因子来缩放包括多个解码的频谱值342的第一频带,并且可以使用第二比例因子来缩放包括多个解码的频谱值342的第二频带。因此,获得该组经缩放的解码频谱值362。音频解码器300还可以包括可选处理366,其可以对经缩放的解码频谱值362应用一些处理。例如,可选处理366可以包括噪声填充或一些其它操作。

音频解码器300还可以包括频域到时域变换370,其被配置为接收经缩放的解码频谱值362或其处理后的版本368,并提供与一组经缩放的解码频谱值362相关联的时域表示372。例如,频域到时域变换370可以提供与音频内容的帧或子帧相关联的时域表示372。例如,频域到时域变换可以接收一组mdct系数(其可以被认为是经缩放的解码频谱值)并且基于其提供可以形成时域表示372的时域样本块。

音频解码器300可以可选地包括后处理376,后处理376可以接收时域表示372并稍微修改时域表示372,从而获得时域表示372的后处理版本378。

音频解码器300还包括错误隐藏380,错误隐藏380接收来自频域到时域变换370的时域表示372和经缩放的解码频谱值362(或其处理后的版本368)。此外,错误隐藏380为一个或多个丢失的音频帧提供错误隐藏音频信息382。换句话说,如果音频帧丢失,导致例如没有经编码的频谱值326可用于所述音频帧(或音频子帧),则错误隐藏380可以基于与丢失的音频帧之前的一个或多个音频帧相关联的时域表示372和经缩放的解码频谱值362(或其处理后的版本368)来提供错误隐藏音频信息。错误隐藏音频信息通常可以是音频内容的时域表示。

应当注意的是,错误隐藏380可以例如执行上述错误隐藏单元100和/或错误隐藏230的功能。

关于错误隐藏,应该注意的是,错误隐藏不会在帧解码的同时发生。例如,如果帧n是好的,那么我们进行正常解码,并且最后我们保存某个变量,这将在如果我们必须隐藏下一帧时有帮助,然后如果帧n+1丢失,我们调用隐藏函数给出来自先前个好帧的变量。我们还将更新一些变量以对下一个帧丢失有所帮助或恢复到下一个好帧。

音频解码器300还包括信号组合390,信号组合390被配置为接收时域表示372(或者在存在后处理376的情况下接收后处理的时域表示378)。此外,信号组合390可以接收错误隐藏音频信息382,其通常也是为丢失的音频帧提供的错误隐藏音频信号的时域表示。信号组合390可以例如组合与后续音频帧相关联的时域表示。在存在后续正确解码的音频帧的情况下,信号组合390可以组合(例如,重叠和相加)与这些后续正确解码的音频帧相关联的时域表示。但是,如果音频帧丢失,则信号组合390可以组合(例如,重叠和相加)与丢失的音频帧之前的正确解码的音频帧相关联的时域表示和与丢失的音频帧相关联的错误隐藏音频信息,从而在正确接收到的音频帧和丢失的音频帧之间具有平滑过渡。类似地,信号组合390可以被配置为组合(例如,重叠和相加)与丢失的音频帧相关联的错误隐藏音频信息和与丢失的音频帧之后的另一个正确解码的音频帧相关联的时域表示(或者在多个连续音频帧丢失的情况下,与另一个丢失的音频帧相关联的另一个错误隐藏音频信息)。

因此,信号组合390可以提供解码的音频信息312,使得为正确解码的音频帧提供时域表示372或其后处理版本378,并且使得为丢失的音频帧提供错误隐藏音频信息382,其中重叠和相加操作通常在后续音频帧的音频信息(不管它是由频域到时域变换370还是由错误隐藏380提供的)之间执行。由于一些编解码器在需要被消除的重叠和相加部分上具有一些混叠,因此可选地我们可以在我们已创建用来执行重叠相加的半帧上创建一些人工混叠。

应当注意的是,音频解码器300的功能类似于根据图2的音频解码器200的功能。此外,应该注意的是,根据图3的音频解码器300可以由本文描述的任何特征和功能进行补充。特别地,错误隐藏380可以由本文关于错误隐藏描述的任何特征和功能进行补充。

5.4.根据图4的音频解码器400

图4示出根据本发明另一个实施例的音频解码器400。

音频解码器400被配置为接收经编码的音频信息并基于其提供解码的音频信息412。音频解码器400可以例如被配置为接收经编码的音频信息410,其中不同的音频帧使用不同的编码模式被编码。例如,音频解码器400可以被认为是多模式音频解码器或“切换”音频解码器。例如,可以使用频域表示来编码音频帧中的一些音频帧,其中经编码的音频信息包括频谱值的编码表示(例如,fft值或dct值)和表示不同频带的缩放的比例因子。此外,经编码的音频信息410还可以包括音频帧的“时域表示”,或多个音频帧的“线性预测-编码域表示”。“线性预测-编码域表示”(也简称为“lpc表示”)可以例如包括激励信号的编码表示和lpc参数(线性预测编码参数)的编码表示,其中线性预测编码参数描述例如用于基于时域激励信号重建音频信号的线性预测编码合成滤波器。

在下文中,将描述音频解码器400的一些细节。

音频解码器400包括比特流分析器420,比特流分析器420可以例如分析经编码的音频信息410并从经编码的音频信息410中提取包括例如经编码的频谱值、经编码的比例因子和可选的附加边信息的频域表示422。比特流分析器420还可以被配置为提取线性预测编码域表示424,线性预测编码域表示424可以例如包括经编码的激励426和经编码的线性预测系数428(其也可以被认为是经编码的线性预测参数)。此外,比特流分析器可以可选地从经编码的音频信息中提取可以用于控制附加处理步骤的附加边信息。

音频解码器400包括频域解码路径430,频域解码路径430可以例如与根据图3的音频解码器300的解码路径基本相同。换句话说,频域解码路径430可以包括频谱值解码340、比例因子解码350、缩放器360、可选的处理366、频域到时域变换370、可选的后处理376和错误隐藏380,如以上参考图3所述。

音频解码器400还可以包括线性预测域解码路径440(其也可以被认为是时域解码路径,因为lpc合成是在时域中执行的)。线性预测域解码路径包括激励解码450,激励解码450接收由比特流分析器420提供的经编码的激励426,并且基于其提供解码的激励452(其可以采取解码的时域激励信号的形式)。例如,激励解码450可以接收经编码的变换编码激励信息,并且可以基于其提供解码的时域激励信号。但是,替代地或附加地,激励解码450可以接收经编码的acelp激励,并且可以基于所述经编码的acelp激励信息提供解码的时域激励信号452。

应该注意的是,对于激励解码存在不同的选项。参考例如定义celp编码概念、acelp编码概念、celp编码概念和acelp编码概念的修改以及tcx编码概念的相关标准和公开。

线性预测域解码路径440可选地包括处理454,其中处理后的时域激励信号456从时域激励信号452得到。

线性预测域解码路径440还包括线性预测系数解码460,线性预测系数解码460被配置为接收经编码的线性预测系数并且基于其提供解码的线性预测系数462。线性预测系数解码460可以使用线性预测系数的不同表示作为输入信息428,并且可以提供解码的线性预测系数的不同表示作为输出信息462。对于细节,参考其中描述线性预测系数的编码和/或解码的不同标准文档。

线性预测域解码路径440可选地包括处理464,处理464可以处理解码的线性预测系数并提供其处理后的版本466。

线性预测域解码路径440还包括lpc合成(线性预测编码合成)470,其被配置为接收解码的激励452或其处理后的版本456,以及解码的线性预测系数462,或其处理后的版本466,并且提供解码的时域音频信号472。例如,lpc合成470可以被配置为向解码的时域激励信号452或其处理后的版本应用滤波,该滤波由解码的线性预测系数462(或其处理后的版本466)定义,使得通过对时域激励信号452(或456)进行滤波(合成滤波)来获得解码的时域音频信号472。线性预测域解码路径440可以可选地包括后处理474,后处理474可以用于细化或调整解码的时域音频信号472的特性。

线性预测域解码路径440还包括错误隐藏480,错误隐藏480被配置为接收解码的线性预测系数462(或其处理后的版本466)和解码的时域激励信号452(或其处理后的版本456)。错误隐藏480可以可选地接收附加信息,比如,例如音高信息。因此,在经编码的音频信息410的帧(或子帧)丢失的情况下,错误隐藏480可以提供可以是时域音频信号的形式的错误隐藏音频信息。因此,错误隐藏480可以提供错误隐藏音频信息482,使得错误隐藏音频信息482的特性基本上适于丢失的音频帧之前的最后正确解码的音频帧的特性。应当注意的是,错误隐藏480可以包括关于错误隐藏100和/或230和/或380描述的任何特征和功能。此外,应该注意的是,错误隐藏480还可以包括关于图6的时域隐藏描述的任何特征和功能。

音频解码器400还包括信号组合器(或信号组合490),其被配置为接收解码的时域音频信号372(或其后处理版本378)、由错误隐藏380提供的错误隐藏音频信息382、解码的时域音频信号472(或其后处理版本476)和由错误隐藏480提供的错误隐藏音频信息482。信号组合器490可以被配置为组合所述信号372(或378)、382、472(或476)和482,从而获得解码的音频信息412。特别地,信号组合器490可以应用重叠和相加操作。因此,信号组合器490可以在其时域音频信号由不同实体(例如,由不同解码路径430、440)提供的后续音频帧之间提供平滑过渡。但是,如果时域音频信号由后续帧的相同实体(例如,频域到时域变换370或lpc合成470)提供,则信号组合器490也可以提供平滑过渡。由于一些编解码器在需要被消除的重叠和相加部分上具有一些混叠,因此可选地我们可以在我们已创建用于执行重叠相加的半帧上创建一些人工混叠。换句话说,可以可选地使用人工时域混叠补偿(tdac)。

而且,信号组合器490可以提供到和来自为其提供错误隐藏音频信息(通常也是时域音频信号)的帧的平滑过渡。

总而言之,音频解码器400允许解码在频域中编码的音频帧和在线性预测域中编码的音频帧。特别地,可以根据信号特性(例如,使用由音频编码器提供的信令信息)在频域解码路径的使用和线性预测域解码路径的使用之间切换。取决于最后正确解码的音频帧是在频域中(或等效地,以频域表示)被编码,或在时域中(或等效地,以时域表示或等效地,在线性预测域中,或等效地,以线性预测域表示)被编码,可以使用不同类型的错误隐藏来在帧丢失的情况下提供错误隐藏音频信息。

5.5.根据图5的时域隐藏

图5示出根据本发明实施例的时域错误隐藏的示意框图。根据图5的错误隐藏被整体指定为500并且可以实施图1的时域隐藏106。但是,可以在时域隐藏的输入处使用的下采样(例如,应用于信号510)以及可以在时域隐藏的输出处使用的上采样,以及低通滤波也可以被应用,虽然为了简洁起见未在图5中示出。

时域错误隐藏500被配置为接收时域音频信号510(可以是信号101的低频范围)并且基于其提供采取可以用于提供第二错误隐藏音频信息分量的时域音频信号(例如,信号104)形式的错误隐藏音频信息分量512。

错误隐藏500包括预加重520,预加重520可以被认为是可选的。预加重接收时域音频信号,并且基于其提供预加重的时域音频信号522。

错误隐藏500还包括lpc分析530,lpc分析530被配置为接收时域音频信号510或其预加重版本522,并获得可以包括一组lpc参数532的lpc信息532。例如,lpc信息可以包括一组lpc滤波器系数(或其表示)和时域激励信号(其适于激励根据lpc滤波器系数配置的lpc合成滤波器,以至少近似地重建lpc分析的输入信号)。

错误隐藏500还包括音高搜索540,音高搜索540被配置为例如基于先前解码的音频帧来获得音高信息542。

错误隐藏500还包括外推550,外推550可以被配置为基于lpc分析的结果(例如,基于由lpc分析确定的时域激励信号)并且可能基于音高搜索的结果获得外推的时域激励信号。

错误隐藏500还包括噪声生成560,噪声生成560提供噪声信号562。错误隐藏500还包括组合器/淡化器(fader)570,其被配置为接收外推的时域激励信号552和噪声信号562,并且基于其提供组合的时域激励信号572。组合器/淡化器570可以被配置为组合外推的时域激励信号552和噪声信号562,其中可以执行淡化(fading),使得外推的时域激励信号552(其确定lpc合成的输入信号的确定性分量)的相对贡献随着时间而减小,而噪声信号562的相对贡献随着时间而增加。但是,组合器/淡化器的不同功能也是可能的。另外,参考了以下描述。

错误隐藏500还包括lpc合成580,其接收组合的时域激励信号572并且基于其提供时域音频信号582。例如,lpc合成还可以接收描述lpc整形滤波器的lpc滤波器系数,其被应用于组合的时域激励信号572以得出时域音频信号582。lpc合成580可以例如使用基于一个或多个先前解码的音频帧获得的lpc系数(例如,由lpc分析530提供)。

错误隐藏500还包括去加重584,去加重584可以被认为是可选的。去加重584可以提供去加重的错误隐藏时域音频信号586。

错误隐藏500还可选地包括重叠和相加590,其执行与后续帧(或子帧)相关联的时域音频信号的重叠和相加操作。但是,应该注意的是,重叠和相加590应该被认为是可选的,因为错误隐藏也可以使用已经在音频解码器环境中提供的信号组合。

在下文中,将描述关于错误隐藏500的一些进一步的细节。

根据图5的错误隐藏500覆盖了如aac_lc或aac_eld的变换域编解码器的上下文。换句话说,错误隐藏500很好地适于在这种变换域编解码器中(并且特别地在这样的变换域音频解码器中)使用。在仅变换编解码器的情况下(例如,在没有线性预测域解码路径的情况下),来自最后帧的输出信号被用作起始点。例如,时域音频信号372可以用作错误隐藏的起始点。优选地,没有激励信号可用,仅来自(一个或多个)先前帧的输出时域信号(比如,例如,时域音频信号372)可用。

在下文中,将更详细地描述错误隐藏500的子单元和功能。

5.5.1.lpc分析

在根据图5的实施例中,隐藏的全部都在激励域中完成,以在连续帧之间获得更平滑的过渡。因此,首先必须找到(或更一般地,获得)一组正确的lpc参数。在根据图5的实施例中,对过去的预加重时域信号522进行lpc分析530。lpc参数(或lpc滤波器系数)用于执行过去合成信号的lpc分析(例如,基于时域音频信号510,或者基于预加重的时域音频信号522)以得到激励信号(例如,时域激励信号)。

5.5.2.音高搜索

有不同的方法来得到待用于构建新信号(例如,错误隐藏音频信息)的音高。

在使用ltp滤波器(长期预测滤波器)的编解码器的上下文中,比如aac-ltp,如果最后帧是带有ltp的aac,我们使用该最后接收到的ltp音高滞后和对应的增益来生成谐波部分。在这种情况下,增益用于决定是否在信号中构建谐波部分。例如,如果ltp增益高于0.6(或任何其它预定值),则ltp信息用于构建谐波部分。

如果没有来自先前帧的任何音高信息可用,则存在例如两种解决方案,这两种解决方案将在下面描述。

例如,可以在编码器处进行音高搜索,并在比特流中发送音高滞后和增益。这类似于ltp,但没有应用任何滤波(在干净信道中也没有ltp滤波)。

替代地,可以在解码器中执行音高搜索。tcx情况下的amr-wb音高搜索在fft域中完成。例如,在eld中,如果使用了mdct域,那么将错过该阶段。因此,音高搜索优选地直接在激励域中完成。这比在合成域中进行音高搜索给出更好的结果。激励域中的音高搜索首先通过归一化互相关利用开环完成。然后,可选地,我们通过围绕开环音高以特定增量进行闭环搜索来细化音高搜索。由于eld窗口化限制,可能找到错误的音高,因此我们还验证找到的音高是正确的或者如果不是正确的则丢弃它。

总之,当提供错误隐藏音频信息时,可以考虑丢失的音频帧之前的最后正确解码的音频帧的音高。在一些情况下,存在从先前帧(即,丢失的音频帧之前的最后帧)的解码可获得的音高信息。在这种情况下,可以重用该音高(可能带有一些外推并考虑音高随着时间的变化)。我们也可以可选地重用多于一个过去的帧的音高来尝试外推或预测我们在我们的隐藏帧结束时所需的音高。

此外,如果存在描述确定性(例如,至少近似周期性)信号分量的强度(或相对强度)的可用的信息(例如,指定为长期预测增益),则该值可以用于决定是否应该将确定性(或谐波)分量包括在错误隐藏音频信息中。换句话说,通过将所述值(例如,ltp增益)与预定阈值进行比较,可以决定是否应该考虑从先前解码的音频帧得到的时域激励信号来用于提供错误隐藏音频信息。

如果没有从先前帧(或者更准确地说,从先前帧的解码)可获得的音高信息,则存在不同的选项。音高信息可以从音频编码器发送到音频解码器,这将简化音频解码器但产生比特率开销。替代地,可以在音频解码器中,例如,在激励域中,即,基于时域激励信号确定音高信息。例如,可以评估从先前正确解码的音频帧得到的时域激励信号,以识别要用于提供错误隐藏音频信息的音高信息。

5.5.3.激励的外推或谐波部分的创建

从先前帧获得的(或者仅针对丢失帧计算的或者对于多帧丢失已经存储在先前丢失帧中的)激励(例如,时域激励信号)用于通过将最后音高循环复制如所需的次数以得到一个半帧来构建激励中(例如,lpc合成的输入信号中)的谐波部分(也被指定为确定性分量或近似周期性分量)。为了节省复杂度,我们也可以仅为第一个丢失帧创建一个半帧,并且然后将后续帧丢失的处理移位半个帧并且每个只创建一个帧。然后我们始终可以访问重叠的半帧。

在好帧(即,正确解码的帧)之后的第一个丢失帧的情况下,(例如,基于丢失的音频帧之前的最后正确解码的音频帧获得的时域激励信号的)第一个音高循环利用采样率相关的滤波器进行低通滤波(因为eld覆盖了非常广泛的采样率组合-从aac-eld核心到具有sbr的aac-eld或aac-eld双速率sbr)。

语音信号中的音高几乎始终在变化。因此,上面呈现的隐藏往往在恢复时产生一些问题(或至少是失真),因为隐藏信号结束处(即,在错误隐藏音频信息结束处)的音高通常与第一好帧的音高不匹配。因此,可选地,在一些实施例中,尝试预测在隐藏帧的结束处的音高以匹配在恢复帧的开始处的音高。例如,预测在丢失帧(其被认为是隐藏帧)的结束处的音高,其中预测的目标是将丢失帧(隐藏帧)的结束处的音高设置为近似在一个或多个丢失帧之后的第一个正确解码的帧的开始处的音高(其中第一个正确解码的帧也被称为“恢复帧”)。这可以在帧丢失期间或在第一个好帧期间(即,在第一个正确接收到的帧期间)完成。为了得到甚至更好的结果,可以选择性地重用一些传统工具并对它们进行适应,诸如音高预测和脉冲再同步。有关细节,参考例如参考文献[4]和[5]。

如果在频域编解码器中使用长期预测(ltp),则可以使用滞后作为关于音高的起始信息。但是,在一些实施例中,还期望具有更好的粒度以能够更好地跟踪音高轮廓。因此,优选地在最后好(正确解码的)帧的开始和结束处完成音高搜索。为了使信号适应移动的音高,可期望使用现有技术中存在的脉冲再同步。

5.5.4.音高的增益

在一些实施例中,优选地对先前获得的激励应用增益以便达到期望的水平。“音高的增益”(例如,时域激励信号的确定性分量的增益,即,应用于从先前解码的音频帧得出的时域激励信号以便获得lpc合成的输入信号的增益)可以例如通过在最后好(例如,正确解码的)帧结束处进行时域中的归一化相关来获得。相关的长度可以等于两个子帧的长度,或者可以自适应地改变。延迟等于用于创建谐波部分的音高滞后。我们还可以可选地仅对第一个丢失的帧执行增益计算,并且然后仅对随后的连续帧丢失应用淡出(减小的增益)。

“音高的增益”将确定将要创建的音高量(或确定性,至少近似周期性信号分量的量)。但是,可期望增加一些整形的噪声以不仅仅具有人工音调。如果我们得到非常低的音高的增益,那么我们构造仅由整形噪声组成的信号。

总之,在一些情况下,例如基于先前解码的音频帧获得的时域激励信号根据增益进行缩放(例如,以获得用于lpc分析的输入信号)。因此,由于时域激励信号确定确定性(至少近似周期性)信号分量,因此增益可以确定错误隐藏音频信息中的所述确定性(至少近似周期性)信号分量的相对强度。此外,错误隐藏音频信息可以基于噪声,该噪声也通过lpc合成被整形,使得错误隐藏音频信息的总能量至少在某种程度上适于丢失的音频帧之前的正确解码的音频帧,并且理想地,还适于一个或多个丢失的音频帧之后的正确解码的音频帧。

5.5.5.噪声部分的创建

“创新”由随机噪声生成器创建。该噪声可选地进一步被高通滤波并且可选地对于有声(voiced)和初始(onset)帧进行预加重。如对于谐波部分的低通,该滤波器(例如,高通滤波器)是采样率相关的。该噪声(例如,由噪声生成560提供)将由lpc(例如,由lpc合成580)整形以尽可能地接近背景噪声。高通特性也可选地在连续帧丢失帧上改变,使得在一定量的帧丢失之后不再有滤波以仅得到全带整形的噪声以得到接近背景噪声的舒适噪声。

创新增益(其可以例如确定组合/淡化570中的噪声562的增益,即,将噪声信号562包括在lpc合成的输入信号572中所使用的增益)例如是通过去除先前计算出的音高的贡献(如果它存在的话)(例如,使用基于丢失的音频帧之前的最后正确解码的音频帧获得的时域激励信号的“音高的增益”进行缩放的经缩放版本)并在最后好帧的结束处进行相关而计算出的。如对于音高增益,这可以可选地仅对第一个丢失帧进行并且然后淡出,但是在这种情况下,淡出可以或者变为导致完全静音的0,或者变为背景中呈现的估计噪声水平。相关的长度例如等于两个子帧的长度,并且延迟等于用于创建谐波部分的音高滞后。

可选地,如果音高的增益不是1,则该增益也乘以(1-“音高的增益”)以对噪声应用尽可能多的增益以达到能量缺失。可选地,该增益也乘以噪声的因子。该噪声的因子来自例如先前的有效帧(例如,来自丢失的音频帧之前的最后正确解码的音频帧)。

5.5.6.淡出

淡出主要用于多帧丢失。但是,在仅丢失单个音频帧的情况下,也可以使用淡出。

在多帧丢失的情况下,不重新计算lpc参数。或者,保持最后计算出的一个,或者通过收敛到背景形状来完成lpc隐藏。在这种情况下,信号的周期性收敛为零。例如,基于丢失的音频帧之前的一个或多个音频帧获得的时域激励信号552仍然使用随着时间逐渐减小的增益,而噪声信号562保持恒定或者利用随着时间逐渐增加的增益进行缩放,使得与噪声信号562的相对权重相比,时域激励信号552的相对权重随着时间而减小。因此,lpc合成580的输入信号572变得越来越“似噪声”。因此,“周期性”(或更确切地说,lpc合成580的输出信号582的确定性或至少近似周期性分量)随着时间而减小。

信号572的周期性和/或信号582的周期性根据其收敛到0的收敛速度取决于最后正确接收到(或正确解码)的帧的参数和/或连续擦除的帧的数量,并且受衰减因子α控制。因子α还取决于lp滤波器的稳定性。可选地,可以与音高长度成比率地更改因子α。如果音高(例如,与音高相关联的周期长度)确实长,那么我们使α保持“正常”,但如果音高确实短,那么通常需要将过去激励的相同部分复制许多次。这将很快地听起来过于人为,因此优选地使该信号更快地淡出。

进一步可选地,如果可用,我们可以考虑音高预测输出。如果预测音高,则这意味着音高已经在先前帧中变化,并且然后我们丢失的帧越多,我们离真实越远。因此,在这种情况下,优选地使音调部分的淡出加快一点。

如果由于音高变化太大而导致音高预测失败,则这意味着或者音高值不是真正可靠的或者信号是真正不可预测的。因此,再次优选地更快地淡出(例如,使基于在一个或多个丢失的音频帧之前的一个或多个正确解码的音频帧获得的时域激励信号552更快地淡出)。

5.5.7.lpc合成

返回到时域,优选地对两个激励(音调部分和噪声部分)的总和执行lpc合成580,然后进行去加重。换句话说,优选地基于基于丢失的音频帧(音调部分)之前的一个或多个正确解码的音频帧获得的时域激励信号552和噪声信号562(噪声部分)的加权组合来执行lpc合成580。如以上所提到的,当与通过lpc分析530获得的时域激励信号532相比,可以修改时域激励信号552(除了描述用于lpc合成580的lpc合成滤波器的特性的lpc系数之外)。例如,时域激励信号552可以是由lpc分析530获得的时域激励信号532的时间缩放副本,其中时间缩放可以用于使时域激励信号552的音高适应期望的音高。

5.5.8.重叠和相加

在仅变换编解码器的情况下,为了得到最佳重叠-相加,我们创建比隐藏帧多半个帧的人工信号,并且我们在其上创建人工混叠。但是,可以应用不同的重叠-相加概念。

在常规aac或tcx的上下文中,在来自隐藏的额外半帧和第一个好帧的第一部分(对于如aac-ld的较低延迟窗口可以是半个或更少的帧)之间应用重叠和相加。

在eld(超低延迟)的特殊情况下,对于第一个丢失的帧,优选地运行三次分析以得到最后三个窗口的正确贡献,并且然后对于第一个隐藏帧以及所有后续的隐藏帧,再运行一次分析。然后进行一次eld合成以返回时域,其中所有合适的存储器用于mdct域中的后续帧。

总之,lpc合成580的输入信号572(和/或时域激励信号552)可以被提供给长于丢失的音频帧的持续时间的时间持续。因此,lpc合成580的输出信号582也可以被提供给比丢失的音频帧长的时间段。因此,可以在错误隐藏音频信息(其因此被获得用于比丢失的音频帧的时间扩展更长的时间段)和为一个或多个丢失的音频帧之后的正确解码的音频帧提供的解码的音频信息之间执行重叠和相加。

5.6根据图6的时域隐藏

图6示出可以用于切换编解码器的时域隐藏的示意框图。例如,根据图6的时域隐藏600可以例如取代例如在图3或图4的错误隐藏380中的时域错误隐藏106。

在切换编解码器的情况下(并且甚至在编解码器仅在线性预测系数域中执行解码的情况下),我们通常已经具有来自先前帧(例如,丢失的音频帧之前的正确解码的音频帧)的激励信号(例如,时域激励信号)。否则(例如,如果时域激励信号不可用),可以如根据图5的实施例中所解释的那样进行,即,执行lpc分析。如果先前帧是类acelp,我们也已经具有最后帧中的子帧的音高信息。如果最后帧是具有ltp(长期预测)的tcx(变换编码激励),则我们也具有来自长期预测的滞后信息。并且如果最后帧在频域中而没有长期预测(ltp),则音高搜索优选地直接在激励域中进行(例如,基于由lpc分析提供的时域激励信号)。

如果解码器已经在时域中使用一些lpc参数,那么我们将重用它们并且外推一组新的lpc参数。lpc参数的外推基于过去的lpc,例如最后三帧的平均值和(可选地)如果在编解码器中存在dtx(不连续传输)的dtx噪声估计期间得出的lpc形状。

隐藏的全部都在激励域中完成,以在连续帧之间得到更平滑的过渡。

在下文中,将更详细地描述根据图6的错误隐藏600。

错误隐藏600接收过去激励610和过去音高信息640。此外,错误隐藏500提供错误隐藏音频信息612。

应当注意的是,由错误隐藏600接收到的过去激励610可以例如对应于lpc分析530的输出532。此外,过去音高信息640可以例如对应于音高搜索540的输出信息542。

错误隐藏600还包括可以对应于外推550的外推650,使得可以参考上述讨论。

此外,错误隐藏包括噪声生成器660,其可以对应于噪声生成器560,使得可以参考上述讨论。

外推650提供外推时域激励信号652,其可以对应于外推时域激励信号552。噪声生成器660提供噪声信号662,其对应于噪声信号562。

错误隐藏600还包括组合器/淡化器670,其接收外推时域激励信号652和噪声信号662,并且基于其提供用于lpc合成680的输入信号672,其中lpc合成580可以对应于lpc合成580,使得上述说明也适用。lpc合成680提供时域音频信号682,其可以对应于时域音频信号582。错误隐藏还(可选地)包括去加重684,其可以对应于去加重584并且提供去加重的错误隐藏时域音频信号685。错误隐藏600可选地包括重叠和相加690,其可以对应于重叠和相加590。但是,关于重叠和相加590的上述解释也适用于重叠和相加690。换句话说,重叠和相加690也可以由音频解码器的整体重叠和相加代替,使得lpc合成的输出信号682或者去加重的输出信号686可以被认为是错误隐藏音频信息。

总之,错误隐藏600与错误隐藏500基本上不同之处在于错误隐藏600直接从一个或多个先前解码的音频帧直接获得过去激励信息610和过去音高信息640,而不需要执行lpc分析和/或音高分析。但是,应该注意的是,错误隐藏600可以可选地包括lpc分析和/或音高分析(音高搜索)。

在下文中,将更详细地描述错误隐藏600的一些细节。但是,应该注意的是,具体细节应该被认为是示例,而不是必要特征。

5.6.1.音高搜索的过去音高

存在不同的方法来得到要用于建立新信号的音高。

在使用ltp滤波器(比如aac-ltp)的编解码器的上下文中,如果(在丢失帧之前的)最后帧是具有ltp的aac,则我们具有来自最后ltp音高滞后的音高信息和对应的增益。在这种情况下,我们使用增益来决定是否我们想要在信号中建立谐波部分。例如,如果ltp增益高于0.6,则我们使用ltp信息来建立谐波部分。

如果我们没有来自先前帧的任何可用的音高信息,则存在例如两种其它解决方案。

一种解决方案是在编码器处进行音高搜索,并在比特流中发送音高滞后和增益。这类似于长期预测(ltp),但我们没有应用任何滤波(在干净信道中也没有ltp滤波)。

另一种解决方案是在解码器中执行音高搜索。tcx情况下的amr-wb音高搜索在fft域中完成。例如,在tcx中,我们使用mdct域,那么我们错过该阶段。因此,在优选实施例中,音高搜索直接在激励域中进行(例如,基于用作lpc合成的输入或者用于得出用于lpc合成的输入的时域激励信号)。这通常比在合成域中进行音高搜索(例如,基于完全解码的时域音频信号)给出更好的结果。

激励域中的音高搜索(例如,基于时域激励信号)首先通过归一化互相关利用开环进行。然后,可选地,可以通过围绕开环音高以特定增量进行闭环搜索来细化音高搜索。

在优选实现中,我们不简单地考虑相关的一个最大值。如果我们具有来自非错误倾向的先前帧的音高信息,则我们选择对应于归一化互相关域中的五个最高值之一但最接近先前帧音高的音高。然后,还验证找到的最大值不是由于窗口限制而导致的错误的最大值。

总之,存在确定音高的不同概念,其中考虑过去音高(即,与先前解码的音频帧相关联的音高)在计算上是高效的。替代地,音高信息可以从音频编码器发送到音频解码器。作为另一个替代,可以在音频解码器侧执行音高搜索,其中音高确定优选地基于时域激励信号(即,在激励域中)执行。可以执行包括开环搜索和闭环搜索的两级音高搜索,以便获得特别可靠的和精确的音高信息。替代地或附加地,可以使用来自先前解码的音频帧的音高信息,以便确保音高搜索提供可靠的结果。

5.8.2.激励的外推或谐波部分的创建

从先前帧获得的(或者仅针对丢失帧计算的或者对于多帧丢失已经存储在先前丢失帧中的)激励(例如,以时域激励信号的形式)用于通过将最后音高循环(例如,其时间持续等于音高的周期持续时间的时域激励信号610的一部分)复制如所需的次数以得到例如一个半的(丢失)帧来构建激励中(例如,外推的时域激励信号662)的谐波部分。

为了得到更好的结果,可选地,可以重用现有技术中已知的一些工具并对它们进行适应。可以参考例如参考文献[4]和/或参考文献[5]。

已经发现语音信号中的音高几乎始终在变化。因此,已经发现,以上呈现的隐藏往往在恢复时产生一些问题,因为隐藏信号结束处的音高通常不与第一好帧的音高匹配。因此,可选地,尝试预测隐藏帧结束处的音高以匹配恢复帧开始处的音高。该功能将例如通过外推650来执行。

如果使用tcx中的ltp,则滞后可以用作关于音高的起始信息。但是,期望具有更好的粒度以能够更好地跟踪音高轮廓。因此,可选地在最后好帧的开始处和结束处进行音高搜索。为了使信号适应移动的音高,可以使用现有技术中存在的脉冲再同步。

总之,外推(例如,与丢失帧之前的最后正确解码的音频帧相关联的或基于其获得的时域激励信号的外推)可以包括复制与先前音频帧相关联的所述时域激励信号的时间部分,其中复制的时间部分可以根据丢失的音频帧期间的(预期)音高变化的计算或估计来修改。可以使用不同的概念来确定音高变化。

5.6.3.音高的增益

在根据图6的实施例中,对先前获得的激励应用增益以便达到期望的水平。例如,通过在最后好帧结束处在时域中进行归一化相关来获得音高的增益。例如,相关的长度可以等于两个子帧长度,并且延迟可以等于用于创建谐波部分(例如,用于复制时域激励信号)的音高滞后。已经发现,在时域中进行增益计算比在激励域中进行增益计算得到更可靠的增益。lpc每一帧地改变,并且然后将对先前帧计算出的增益应用于将由另一个lpc集处理的激励信号,将不会在时域中给出预期的能量。

音高的增益确定将创建的音高量,但是一些整形的噪声也将被添加,以不仅仅具有人工音调。如果获得非常低的音高增益,则可以构造仅由整形噪声组成的信号。

总之,应用于缩放基于先前帧获得的时域激励信号(或者对于先前解码的帧获得的时域激励信号,或者与先前解码的帧相关联的时域激励信号)的增益被调整,从而确定lpc合成680的输入信号内以及因此错误隐藏音频信息内的音高(或确定性或至少近似周期性)分量的加权。可以基于应用于通过先前解码的帧的解码而获得的时域音频信号的相关来确定所述增益(其中,所述时域音频信号可以使用在解码过程中执行的lpc合成来获得)。

5.6.4.噪声部分的创建

创新由随机噪声生成器660创建。该噪声被进一步高通滤波并且可选地对于有声和初始帧进行预加重。可以针对有声和初始帧选择性地执行的高通滤波和预加重未在图6中明确示出,但是可以例如在噪声生成器660内或在组合器/淡化器670内执行。

通过lpc将噪声整形(例如,在与通过外推650获得的时域激励信号652组合之后)以尽可能地接近背景噪声。

例如,可以通过去除先前计算出的音高的贡献(如果存在的话)并且在最后好帧的结束处进行相关来计算创新增益。相关的长度可以等于两个子帧长度,并且延迟可以等于用于创建谐波部分的音高滞后。

可选地,如果音高的增益不是1,则该增益也可以乘以(1-音高的增益)以对噪声应用尽可能多的增益以达到能量缺失。可选地,该增益也乘以噪声的因子。该噪声的因子可以来自先前的有效帧。

总之,通过使用lpc合成680(并且可能地,去加重684)对由噪声生成器660提供的噪声进行整形来获得错误隐藏音频信息的噪声分量。此外,可以应用附加的高通滤波和/或预加重。可以基于丢失的音频帧之前的最后正确解码的音频帧来计算对lpc合成680的输入信号672的噪声贡献的增益(也被称为“创新增益”),其中确定性(或至少近似周期性)分量可以从丢失的音频帧之前的音频帧中去除,并且其中然后可以执行相关以确定丢失的音频帧之前的音频帧的解码的时域信号内的噪声分量的强度(或增益)。

可选地,可以对噪声分量的增益应用一些附加修改。

5.6.5.淡出

淡出主要用于多帧丢失。但是,在仅丢失单个音频帧的情况下也可以使用淡出。

在多帧丢失的情况下,不重新计算lpc参数。如上所述,或者保持最后计算的一个或者执行lpc隐藏。

信号的周期性收敛为零。收敛的速度取决于最后正确接收到(或正确解码的)帧的参数和连续擦除(或丢失)的帧的数量,并受衰减因子α控制。因子α还取决于lp滤波器的稳定性。可选地,可以与音高长度成比率地更改因子α。例如,如果音高确实长,则α可以保持正常,但是如果音高确实短,则可能期望(或必须)将过去激励的相同部分复制许多次。由于已经发现这将很快听起来过于人为,因此使信号更快地淡出。

此外,可选地,可以考虑音高预测输出。如果预测音高,则这意味着音高已经在先前帧中变化,并且然后丢失的帧越多,我们离真实越远。因此,在这种情况下,期望使音调部分的淡出加快一点。

如果由于音高变化太大而导致音高预测失败,则这意味着或者音高值不是真正可靠的或者信号是真正不可预测的。因此,再次我们应该更快地淡出。

总之,外推的时域激励信号652对lpc合成680的输入信号672的贡献通常随着时间而减小。这可以例如通过随着时间减小应用于外推的时域激励信号652的增益值来实现。用于逐渐减小应用于缩放基于丢失的音频帧之前的一个或多个音频帧获得的时域激励信号652(或其一个或多个副本)的增益的速度根据该一个或多个音频帧的一个或多个参数(和/或根据多个连续丢失的音频帧)来调整。特别地,音高长度和/或音高随着时间变化的速率和/或音高预测失败或成功的问题可以用于调整所述速度。

5.6.6.lpc合成

返回到时域,对两个激励(音调部分652和噪声部分662)的总和(或者一般地,加权组合)执行lpc合成680,然后进行去加重684。

换句话说,外推的时域激励信号652和噪声信号662的加权(淡化)组合的结果形成组合的时域激励信号并且被输入到lpc合成680中,lpc合成680可以例如基于所述组合的时域激励信号672根据描述合成滤波器的lpc系数执行合成滤波。

5.6.7.重叠和相加

由于在隐藏期间不知道到来的下一帧的模式是什么(例如,acelp、tcx或fd),因此优选地提前准备不同的重叠。为了获得最佳重叠和相加,如果下一帧在变换域(tcx或fd)中,则例如可以为比隐藏(丢失)帧多的半帧创建人工信号(例如,错误隐藏音频信息)。此外,可以在其上创建人工混叠(其中人工混叠可以例如适于mdct重叠和相加)。

为了得到良好的重叠和相加以及时域中的未来帧没有非连续性(acelp),我们如上所述进行但没有混叠,以便能够应用长重叠相加窗口或者如果我们想要使用方形窗口,则在合成缓冲器的结束处计算零输入响应(zir)。

总之,在切换音频解码器(其可以例如在acelp解码、tcx解码和频域解码(fd解码)之间切换)中,可以在主要为丢失的音频帧但也为丢失的音频帧之后的某个时间部分提供的错误隐藏音频信息和为一个或多个丢失的音频帧的序列之后的第一个正确解码的音频帧提供的解码的音频信息之间执行重叠和相加。为了获得甚至用于在后续音频帧之间的过渡处带来时域混叠的解码模式的正确的重叠和相加,可以提供混叠消除信息(例如,被指定为人工混叠)。因此,错误隐藏音频信息和基于丢失的音频帧之后的第一个正确解码的音频帧获得的时域音频信息之间的重叠和相加导致混叠的消除。

如果在acelp模式中编码一个或多个丢失的音频帧的序列之后的第一个正确解码的音频帧,则可以计算具体重叠信息,其可以基于lpc滤波器的零输入响应(zir)。

总之,错误隐藏600非常适合于在切换音频编解码器中使用。但是,错误隐藏600也可以用在仅解码以tcx模式或以acelp模式编码的音频内容的音频编解码器中。

5.6.8结论

应当注意的是,特别好的错误隐藏通过以上提到的外推时域激励信号、使用淡化(例如,交叉淡化)将外推的结果与噪声信号组合并且基于交叉淡化的结果执行lpc合成的概念来实现。

5.7根据图7的频域隐藏

在图7中描绘频域隐藏。在步骤701中,确定(例如,基于crc或类似策略)当前音频信息是否包含正确解码的帧。如果确定的结果是肯定的,则在702处将正确解码的帧的频谱值用作正确的音频信息。频谱被记录703在缓冲器中以供进一步使用(例如,用于因此被隐藏的将来未正确解码的帧)。

如果确定的结果是否定的,则在步骤704处,使用先前正确解码的音频帧的先前记录的频谱表示705(在先前循环中的步骤703处保存在缓冲器中)来替换损坏的(并且丢弃的)音频帧。

特别地,复制器和缩放器707复制和缩放先前正确解码的音频帧的先前记录的正确频谱表示705的频率范围705a、705b、...中的频率仓(或频谱仓)的频谱值,以获得要替换损坏的音频帧使用的频率仓(或频谱仓)706a、706b、…的值。

根据频带携带的具体信息,每个频谱值可以乘以相应的系数。此外,在连续隐藏的情况下,可以使用0和1之间的阻尼因子708来阻尼信号以迭代地降低信号的强度。而且,可以可选地在频谱值706中添加噪声。

5.8.a)根据图8a的隐藏

图8a示出根据本发明实施例的错误隐藏的示意框图。根据图8a的错误隐藏单元整体上被指定为800,并且可以实施以上讨论的错误隐藏单元100、230、380中的任何一个。错误隐藏单元800提供错误隐藏音频信息802(其可以实施以上讨论的实施例的信息102、232或382),用于隐藏经编码的音频信息中的音频帧的丢失。

错误隐藏单元800可以由频谱803(例如,最后正确解码的音频帧频谱的频谱,或者更一般地,先前正确解码的音频帧频谱的频谱或其滤波版本)和帧的时域表示804(例如,音频帧的最后或先前正确解码的时域表示,或者最后或先前pcm缓冲的值)输入。

错误隐藏单元800包括可以在第一频率范围(或其中)操作的第一部分或路径(由正确解码的音频帧的频谱803输入),以及可以在第二频率范围(或其中)操作的第二部分或路径(由正确解码的音频帧的时域表示804输入)。第一频率范围可以包括比第二频率范围的频率更高的频率。

图14示出第一频率范围1401的示例和第二频率范围1402的示例。

频域隐藏805可以应用于第一部分或路径(第一频率范围)。例如,可以使用aac-eld音频编解码器内部的噪声替换。该机制使用最后好帧的复制频谱,并在应用逆修正离散余弦变换(imdct)以返回到时域之前添加噪声。隐藏的频谱可以经由imdct变换到时域。

由错误隐藏单元800提供的错误隐藏音频信息802被获得作为由第一部分提供的第一错误隐藏音频信息分量807'和由第二部分提供的第二错误隐藏音频信息分量811'的组合。在一些实施例中,第一分量807'可以用作表示丢失的音频帧的高频部分,而第二分量811'可以用作表示丢失的音频帧的低频部分。

错误隐藏单元800的第一部分可以用于使用丢失的音频帧之前的正确解码的音频帧的高频部分的变换域表示来得出第一分量807'。错误隐藏单元800的第二部分可以用于基于丢失的音频帧之前的正确解码的音频帧的低频部分使用时域信号合成来得出第二分量811'。

优选地,错误隐藏单元800的第一部分和第二部分彼此并行(和/或同时或准同时)操作。

在第一部分中,频域错误隐藏805提供第一错误隐藏音频信息805'(频谱域表示)。

逆修正离散余弦变换(imdct)806可以用于提供由频域错误隐藏805获得的频谱域表示805'的时域表示806',以便基于第一错误隐藏音频信息获得时域表示806'。

如下所述,可以执行两次imdct以在时域中得到两个连续帧。

在第一部分或路径中,高通滤波器807可以用于滤波第一错误隐藏音频信息805'的时域表示806'并提供高频滤波版本807'。特别地,高通滤波器807可以位于频域隐藏805的下游(例如,在imdct805之前或之后)。在其它实施例中,高通滤波器807(或可以“截止”一些低频频谱仓的附加高通滤波器)可以位于频域隐藏805之前。

高通滤波器807可以被调谐到例如在6khz和10khz之间,优选地在7khz和9khz之间,更优选地在7.5khz和8.5khz之间,甚至更优选地在7.9khz和8.1khz之间,并且甚至更优选地在8khz的截止频率。

根据一些实施例,可以信号自适应地调整高通滤波器807的较低频率边界,从而改变第一频率范围的带宽。

在错误隐藏单元800的第二部分(其被配置为至少部分地以比第一频率范围的频率低的频率操作)中,时域错误隐藏809提供第二错误隐藏音频信息809'。

在第二部分中,在时域错误隐藏809的上游,下采样808提供正确解码的音频帧的时域表示804的下采样版本808'。下采样808允许获得丢失的音频帧之前的音频帧804的下采样时域表示808'。该下采样时域表示808'表示音频帧804的低频部分。

在第二部分中,在时域错误隐藏809的下游,上采样810提供第二错误隐藏音频信息809'的上采样版本810'。因此,可以对由时域隐藏809提供的隐藏音频信息809'或其后处理版本进行上采样,以便获得第二错误隐藏音频信息分量811'。

因此,时域隐藏809优选地使用比完全表示正确解码的音频帧804所需的采样频率小的采样频率来执行。

根据实施例,可以信号自适应地调整下采样时域表示808'的采样率,从而改变第二频率范围的带宽。

可以提供低通滤波器811以对时域隐藏的输出信号809'(或上采样810的输出信号810')进行滤波,以便获得第二错误隐藏音频信息分量811'。

根据本发明,第一错误隐藏音频信息分量(如由高通滤波器807输出的,或在其它实施例中由imdct806或频域隐藏805输出的)和第二错误隐藏音频信息分量(如由低通滤波器811输出的,或在其它实施例中由上采样810或时域隐藏809输出的)可以使用重叠和相加(ola)机制812彼此组成(或组合)。

因此,获得错误隐藏音频信息802(其可以实施以上讨论的实施例的信息102、232或382)。

5.8.b)根据图8b的隐藏

图8b示出错误隐藏单元800的变型800b(图8a的实施例的所有特征可以应用于本变型,并且因此不再重复它们的属性)。提供控制(例如,控制器)813以确定和/或信号自适应地改变第一和/或第二频率范围。

控制813可以基于在一个或多个经编码的音频帧的特性和一个或多个正确解码的音频帧的特性之间选择的特性,诸如最后频谱803和最后pcm缓冲的值804。控制813也可以基于这些输入的聚合数据(积分值、平均值、统计值等)。

在一些实施例中,可以提供选择814(例如,通过诸如键盘、图形用户界面、鼠标、控制杆之类的适当输入部件获得)。选择可以由用户或由在处理器中运行的计算机程序输入。

控制813可以(在提供的情况下)控制下采样器808、和/或上采样器810、和/或低通滤波器811、和/或高通滤波器807。在一些实施例中,控制813控制第一频率范围和第二频率范围之间的截止频率。

在一些实施例中,控制813可以获得关于一个或多个正确解码的音频帧的谐度的信息,并且基于关于谐度的信息执行频率范围的控制。替代地或附加地,控制813可以获得关于一个或多个正确解码的音频帧的频谱倾斜的信息,并且基于关于频谱倾斜的信息来执行控制。

在一些实施例中,控制813可以选择第一频率范围和第二频率范围,使得当与第二频率范围中的谐度相比时,第一频率范围中的谐度相对较小。

可以实施本发明,使得控制813确定直到哪个频率,在丢失的音频帧之前的正确解码的音频帧包括比谐度阈值更强的谐度,并且根据其选择第一频率范围和第二频率范围。

根据一些实现,控制813可以确定或估计频率边界,在该频率边界处,在丢失的音频帧之前的正确解码的音频帧的频谱倾斜从较小的频谱倾斜变为较大的频谱倾斜,并且根据该频率边界选择第一频率范围和第二频率范围。

在一些实施例中,控制813确定或估计在丢失的音频帧之前的正确解码的音频帧的频谱倾斜的变化是否小于给定频率范围内的预定频谱倾斜阈值。仅当发现丢失的音频帧之前的正确解码的音频帧的频谱倾斜的变化小于预定频谱倾斜阈值时,才使用时域隐藏809获得错误隐藏音频信息802。

根据一些实施例,控制813可以调整第一频率范围和第二频率范围,使得第一频率范围覆盖包括类噪声频谱结构的频谱区域,并且使得第二频率范围覆盖包括谐波频谱结构的频谱区域。

在一些实现中,控制813可以根据谐波和噪声之间的能量关系来调节第一频率范围的较低频率端和/或第二频率范围的较高频率端。

根据本发明的一些优选方面,控制813选择性地禁止时域隐藏809和频域隐藏805中的至少一个和/或仅执行时域隐藏809或仅执行频域隐藏805以获得错误隐藏音频信息。

在一些实施例中,控制813确定或估计丢失的音频帧之前的正确解码的音频帧的谐度是否小于预定谐度阈值。仅当发现丢失的音频帧之前的正确解码的音频帧的谐度小于预定谐度阈值时,才可以使用频域隐藏805获得错误隐藏音频信息。

在一些实施例中,控制813基于丢失的音频帧之前的正确解码的音频帧的音高和/或根据丢失的音频帧之前的正确解码的音频帧中的音高的时间演变和/或根据丢失的音频帧之前的正确解码的音频帧和丢失的音频帧之后的正确解码的音频帧之间的音高的内插来调节隐藏帧的音高。

在一些实施例中,控制813接收由编码器发送的数据(例如,交叉频率或与其相关的数据)。因此,控制813可以修改其它块(例如,块807、808、810、811)的参数,以使第一和第二频率范围适应由编码器发送的值。

5.9.根据图9的方法

图9示出用于提供错误隐藏音频信息(例如,在前面的示例中用102、232、382和802指示的)以隐藏经编码的音频信息中的音频帧的丢失的错误隐藏方法的流程图900。该方法包括:

-在910处,使用频域隐藏(例如,105或805)提供第一频率范围的第一错误隐藏音频信息分量(例如,103或807'),

-在920处(其可以与步骤910同时或几乎同时,并且可以旨在与步骤910并行),使用时域隐藏(例如,106、500、600或809)提供第二频率范围的第二错误隐藏音频信息分量(例如,104或811'),第二频率范围包括(至少一些)比第一频率范围更低的频率,以及

-在930处,组合(例如,107或812)第一错误隐藏音频信息分量和第二错误隐藏音频信息分量,以获得错误隐藏音频信息(例如,102、232、382或802)。

5.10.根据图10的方法

图10示出作为图9的变型的流程图1000,其中图8b的控制813或类似控制用于确定和/或信号自适应地改变第一和/或第二频率范围。关于图9的方法,该变型包括步骤905,其中第一和第二频率范围例如基于用户选择814或值(例如,倾斜值或谐度值)与阈值的比较来确定。

值得注意的是,步骤905可以通过考虑控制813的操作模式(其可以是上面讨论的那些模式中的一些)来执行。例如,可以在特定数据字段中从编码器发送数据(例如,交叉频率)。在步骤910和920处,第一和第二频率范围(至少部分地)由编码器控制。

5.11.根据图19的编码器

图19示出根据一些实施例的可以用于实施本发明的音频编码器1900。

音频编码器1900基于输入音频信息1902提供经编码的音频信息1904。值得注意的是,经编码的音频表示1904可以包含经编码的音频信息210、310、410。

在一个实施例中,音频编码器1900可以包括被配置为基于输入音频信息1902提供经编码的频域表示1908的频域编码器1906。经编码的频域表示1908可以包括频谱值1910和可以对应于信息422的比例因子1912。经编码的频域表示1908可以实施经编码的音频信息210、310、410(或其一部分)。

在一个实施例中,音频编码器1900可以包括(作为频域编码器的替代或作为频域编码器的替换)被配置为基于输入音频信息1902提供经编码的线性预测域表示1922的线性预测域编码器1920。经编码的线性预测域表示1922可以包含激励1924和线性预测1926,其可以对应于经编码的激励426和经编码的线性预测系数428。经编码的线性预测域表示1922可以实施经编码的音频信息210、310、410(或其一部分)。

音频编码器1900可以包括被配置为确定交叉频率信息1932的交叉频率确定器1930。交叉频率信息1932可以定义交叉频率。交叉频率可以用于区分要在音频解码器(例如,100、200、300、400、800b)侧使用的时域错误隐藏(例如,106、809、920)和频域错误隐藏(例如,105、805、910)。

音频编码器1900可以被配置为(例如,通过使用比特流组合器1940)将经编码的频域表示1908和/或经编码的线性预测域表示1922以及还有交叉频率信息1930包括到经编码的音频表示1904中。

当在音频解码器侧评估时,交叉频率信息1930可以具有向诸如错误隐藏单元800b的错误隐藏单元的控制813提供命令和/或指令的作用。

在不重复控制813的特征的情况下,可以简单地说明交叉频率信息930可以具有针对控制813所讨论的相同功能。换句话说,交叉频率信息可以用于确定交叉频率,即,线性预测域隐藏和频域隐藏之间的频率边界。因此,当接收和使用交叉频率信息时,可以极大地简化控制813,因为在这种情况下控制将不再负责确定交叉频率。相反,控制可以仅需要根据音频解码器从经编码的音频表示中提取的交叉频率信息来调整滤波器807、811。

在一些实施例中,控制可以被理解为细分成两个不同的(远程)单元:确定交叉频率信息1930(其又确定交叉频率)的编码器侧交叉频率确定器,以及接收交叉频率信息并基于其通过适当地设置解码器错误隐藏单元800b的部件来操作的解码器侧控制器813。例如,控制器813可以(在提供的情况下)控制下采样器808、和/或上采样器810、和/或低通滤波器811、和/或高通滤波器807。

因此,在一个实施例中,系统被形成有:

-音频编码器1900,其可以发送经编码的音频信息,该经编码的音频信息包括与第一频率范围和第二频率范围相关联的信息1932(例如,如本文所述的交叉频率信息);

-音频解码器,包括:

ο错误隐藏单元800b,被配置为:

·使用频域隐藏提供第一频率范围的第一错误隐藏音频信息分量807';以及

·使用时域隐藏809提供第二频率范围的第二错误隐藏音频信息分量811',第二频率范围包括比第一频率范围更低的频率,

ο其中错误隐藏单元被配置为基于由编码器1900发送的信息1932执行控制(813),

ο其中错误隐藏单元800b还被配置为组合第一错误隐藏音频信息分量807'和第二错误隐藏音频信息分量811',以获得错误隐藏音频信息802。

根据实施例(其可以例如使用编码器1900和/或隐藏单元800b来执行),本发明提供了用于基于输入音频信息(例如,1902)提供经编码的音频表示(例如,1904)的方法2000(图20),该方法包括:

-基于输入音频信息提供经编码的频域表示(例如,1908)的频域编码步骤2002(例如,由方框1906执行)和/或基于输入音频信息提供经编码的线性预测域表示(例如,1922)的线性预测域编码步骤(例如,由方框1920执行);以及

-确定交叉频率信息(例如,1932)的交叉频率确定步骤2004(例如,由方框1930执行),该交叉频率信息定义要在音频解码器侧使用的时域错误隐藏(例如,由方框809执行)和频域错误隐藏(例如,由方框805执行)之间的交叉频率;

-其中编码步骤被配置为将经编码的频域表示和/或经编码的线性预测域表示以及还有交叉频率信息包括到经编码的音频表示中。

此外,经编码的音频表示可以(可选地)与其中包括的交叉频率信息一起被提供和/或发送(步骤2006)到接收器(解码器),该接收器(解码器)可以解码信息并且在帧丢失的情况下可以执行隐蔽。例如,解码器的隐藏单元(例如,800b)可以执行图10的方法1000的步骤910-930,而方法1000的步骤905由方法2000的步骤2004实施(或者其中步骤905的功能在音频编码器侧执行,并且其中步骤905由评估包括在经编码的音频表示中的交叉频率信息代替)。

本发明还涉及经编码的音频表示(例如,1904),包括:

-表示音频内容的经编码的频域表示(例如,1908),和/或表示音频内容的经编码的线性预测域表示(例如,1922);以及

-交叉频率信息(例如,1932),其定义要在音频解码器侧使用的时域错误隐藏和频域错误隐藏之间的交叉频率。

5.12淡出

除了上面的公开之外,错误隐藏单元还可以淡化隐藏帧。参考图1、图8a和图8b,可以在fd隐藏105或805处操作淡出(例如,通过以图7的阻尼因子708缩放频率范围705a、705b中的频率仓的值)以阻尼第一错误隐藏分量105或807'。通过以适当的阻尼因子缩放值以阻尼第二错误隐藏分量104或811'也可以在td隐藏809处操作淡出(参见以上组合器/淡化器570或部分5.5.6)。

作为附加或作为替代,也可以缩放错误隐藏音频信息102或802。

6.本发明的操作

这里提供了本发明的操作的示例。在音频解码器(例如,音频解码器200、300或400)中,一些数据帧可能丢失。因此,错误隐藏单元(例如,100、230、380、800、800b)用于对于每个丢失的数据帧使用先前正确解码的音频帧来隐藏丢失的数据帧。

错误隐藏单元(例如,100、230、380、800、800b)如下操作:

-在第一部分或路径中(例如,用于获得在第一频率范围处的第一错误隐藏音频信息分量807'),使用先前正确解码的音频帧的频谱表示(例如,803)执行丢失信号的频域高频错误隐藏;

-并行地和/或同时地(或基本上同时地),在第二部分或路径中(用于获得在第二频率范围处的第二错误隐藏音频信息分量),对先前正确解码的音频帧(例如,pcm缓冲的值)的时域表示(例如,804)执行时域隐藏。

可以假设(例如,对于高通滤波器807和低通滤波器811),截止频率fsout/4被定义(例如,被预定义、被预选、或例如以类似反馈的方式被诸如控制813的控制器控制),使得第一频率范围的大部分频率超过fsout/4,并且第二频率范围的大部分频率低于fsout/4(核心采样率)。fsout可以被设置为可以例如在46khz和50khz之间,优选地在47khz和49khz之间,并且更优选地为48khz的值。

fsout(例如48khz)通常(但不一定)高于16khz(核心采样率)。

在错误隐藏单元(例如,100、230、380、800、800b)的第二(低频)部分中,可以执行以下操作:

-在下采样808处,将正确解码的音频帧的时域表示804下采样到期望的核心采样率(这里是16khz);

-在809处执行时域隐藏以提供合成信号809';

-在上采样810处,合成信号809'被上采样以提供以输出采样率(fsout)的信号810';

-最后,利用低通滤波器811对信号810'进行滤波,低通滤波器811优选地具有是核心采样率(例如,16khz)的一半的截止频率(这里是8khz)。

在错误隐藏单元的第一(高频)部分中,可以执行以下操作:

-频域隐藏805隐藏(正确解码的帧的)输入频谱的高频部分;

-由频域隐藏805输出的频谱805'被变换到时域(例如,经由imdct806)作为合成信号806';

-优选地利用高通滤波器807对合成信号806'进行滤波,高通滤波器807具有是核心采样率(16khz)的一半的截止频率(8khz)。

为了将较高频率分量(例如,103或807')与较低频率分量(例如,104或811')组合,在时域中使用重叠和相加(ola)机制(例如,812)。对于似aac的编解码器,必须针对一个隐藏帧更新多于一个帧(通常为一个半帧)。这是因为ola的分析和合成方法具有半帧延迟。需要附加的半帧。因此,imdct806被调用两次以得到时域中的两个连续帧。可以参考图11的图形1100,该图示出了隐藏帧1101和丢失帧1102之间的关系。最后,将低频和高频部分相加并应用ola机制。

特别地,使用图8b中所示的装备或实现图10的方法,可以例如基于先前正确解码的(一个或多个)音频帧的谐度和/或倾斜执行第一和第二频率范围的选择或动态地调节时域(td)隐藏和频域(fd)隐藏之间的交叉频率。

例如,在具有背景噪声的女性语音项目的情况下,可以将信号下采样到5khz,并且时域隐藏将对信号的最重要部分进行良好的隐藏。然后将利用频域隐藏方法合成噪声部分。与固定交叉(或固定下采样因子)相比,这将降低复杂度并消除令人讨厌的“蜂鸣”伪像(参见下面讨论的图)。

如果音高对于每个帧都是已知的,则与任何频域音调隐藏相比,可以利用时域隐藏的一个关键优势:可以基于过去的音高值改变隐藏帧内部的音高(在延迟要求允许的情况下,也可以使用将来的帧用于内插)。

图12示出具有无差错信号的图1200,横坐标表示时间并且纵坐标表示频率。

图13示出图1300,其中时域隐藏被应用于容易错误的信号的整个频带。由td隐藏生成的线示出了在容易错误的信号的全频范围上人工生成的谐度。

图14示出了图示本发明的结果的图1400:噪声(在第一频率范围1401中,这里超过2.5khz)已经利用频域隐藏(例如,105或805)被隐藏并且语音(在第二频率范围1402中,这里低于2.5khz)已经利用时域隐藏(例如,106、500、600或809)被隐藏。与图13的比较可以理解,已经避免了噪声频率范围上的人工生成的谐度。

如果谐波的能量倾斜在频率内是恒定的,那么进行全频td隐藏并且根本没有fd隐藏是有意义的,或者,如果信号不包含谐度,那么反之亦真。

如从图15的图1500中可以看到的,频域隐藏往往产生相位不连续性,而如从图16的图1600中可以看到的,应用于全频范围的时域隐藏保持信号相位并产生完美的无伪像输出。

图17的图1700示出了在容易错误的信号的整个频带上的fd隐藏。图18的图1800示出了在容易错误的信号的整个频带上的td隐藏。在这种情况下,fd隐藏保持信号特性,而全频上的td隐藏将产生令人讨厌的“蜂鸣”伪像或者在频谱中产生可注意到的一些大洞。

特别地,可以使用图8所示的装备或实现图10的方法在图15-18中所示的操作之间进行切换。诸如控制器813的控制器可以例如通过分析信号(能量、倾斜、谐度等等)操作确定,以当信号具有强谐波时,到达图16所示的操作(仅td隐藏)。类似地,当噪声占优势时,控制器813也可以操作确定以到达图17中所示的操作(仅fd隐藏)。

6.1.基于实验结果的结论

aac[1]音频编解码器中的传统隐藏技术是噪声替换。它在频域中工作并且非常适合于噪声和音乐项目。已经认识到,对于语音片段,噪声替换经常产生相位不连续性,这最终导致时域中令人讨厌的咔哒声伪像。因此,似acelp的时域方法可以用于由分类器确定的语音片段(比如[2][3]中的td-tcxplc)。

时域隐藏的一个问题是在全频范围上的人工生成的谐度。如果信号仅在较低频率中具有强谐波,(对于语音项目这通常在4khz附近),从而较高频率由背景噪声组成,则所生成的直到奈奎斯特的谐波将产生令人讨厌的“蜂鸣”伪像。时域方法的另一个缺点是,与无差错解码或利用噪声替换的隐藏相比,它的计算复杂度高。

为了降低计算复杂度,所要求保护的方法使用两种方法的组合:

在较低频率部分中的时域隐藏,其中语音信号具有其最高影响;

在较高频率部分中的频域隐藏,其中语音信号具有噪声特性。

6.1.1低频部分(核心)

首先,最后pcm缓冲被下采样到期望的核心采样率(这里为16khz),

执行时域隐藏算法以得到一个半合成帧。稍后需要附加的半帧用于重叠-相加(ola)机制。

合成信号被上采样到输出采样率(fs_out)并利用具有fs_out/2的截止频率的低通滤波器进行滤波。

6.1.2高频部分

对于高频部分,可以应用任何频域隐藏。这里,将使用aac-eld音频编解码器内部的噪声替换。该机制使用最后好帧的复制频谱,并在应用imdct以返回时域之前添加噪声。

隐藏的频谱经由imdct被变换到时域。

最后,利用具有fs_out/2的截止频率的高通滤波器对具有最后pcm缓冲的合成信号进行滤波。

6.1.2完全部分

为了组合低频和高频部分,重叠和相加机制在时域中进行。对于似aac的编解码器,这意味着必须为一个隐藏帧更新多于一个帧(通常是一个半帧)。这是因为ola的分析和合成方法具有半帧延迟。imdct仅产生一帧,因此需要附加的半帧。因此,imdct被调用两次以得到时域中的两个连续帧。

将低频和高频部分相加并应用重叠相加机制。

6.1.3可选的扩展

可以基于最后好帧的谐度和倾斜动态调节td和fd隐藏之间的交叉频率。例如,在具有背景噪声的女性语音项目的情况下,可以将信号下采样到5khz,并且时域隐藏将对信号的最重要部分进行良好的隐藏。然后将利用频域隐藏方法合成噪声部分。与固定交叉(或固定下采样因子)相比,这将降低复杂度,并消除令人讨厌的“蜂鸣”伪像(参见图12-14)。

6.1.4实验结论

图13示出了全频范围上的td隐藏;图14示出了混合隐藏:0至2.5khz(参考1402)利用td隐藏并且较高频率(参考1401)利用fd隐藏。

但是,如果谐波的能量倾斜在频率内是恒定的(并且检测到一个清晰的音高或谐度),则进行全频td隐藏并且根本没有fd隐藏是有意义的,或者,如果信号不包含谐度,则反之亦真。

fd隐藏(图15)产生相位不连续,而应用于全频率范围的td隐藏(图16)使信号保持相位并产生近似(在一些情况下甚至完美)的无伪像输出(完美的无伪像输出可以利用真实的音高信号来实现)。fd隐藏(图17)保持信号特性,从而在全频范围上的td隐藏(图18)产生令人讨厌的“蜂鸣”伪像。

如果音高对于每个帧都是已知的,则与任何频域音调隐藏相比,可以利用时域隐藏的一个关键优势,我们可以基于过去的音高值改变隐藏帧内部的音高(在延迟要求允许的情况下我们也可以使用将来的帧用于内插)。

7.附加说明

实施例涉及混合隐藏方法,该混合隐藏方法包括用于音频编解码器的频域和时域隐藏的组合。换句话说,实施例涉及用于音频编解码器的频域和时域中的混合隐藏方法。

aac系列音频编解码器中的传统报文丢失隐藏技术是噪声替换。它在频域(fdplc-频域报文丢失隐藏)中工作并且非常适合于噪声和音乐项目。已经发现,对于语音片段,它经常产生相位不连续性,这最终导致令人讨厌的咔哒声伪像。为了克服该问题,似acelp的时域方法tdplc(时域报文丢失隐藏)被用于类语音的片段。为了避免tdplc的计算复杂度和高频伪像,所描述的方法使用两种隐藏方法的自适应组合:tdplc用于较低频率,fdplc用于较高频率。

根据本发明的实施例可以与以下概念中的任何概念组合使用:eld、xld、drm、mpeg-h。

8.实现替代方案

虽然已经在装置的上下文中描述了一些方面,但是显然这些方面也表示对应方法的描述,其中方框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应方框或项目或特征的描述。一些或所有方法步骤可以由(或使用)硬件装置执行,比如,例如微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的某个或某些方法步骤可以由这样的装置来执行。

根据某些实现要求,本发明的实施例可以用硬件或软件实现。实现可以使用具有存储在其上的电子可读控制信号的数字存储介质来执行,例如软盘、dvd、蓝光、cd、rom、prom、eprom、eeprom或闪存,电子可读控制信号与可编程计算机系统协作(或能够与其协作),使得执行相应的方法。因此,数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体,这些电子可读控制信号能够与可编程计算机系统协作,使得执行本文所述的方法之一。

通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,该程序代码可操作用于当计算机程序产品在计算机上运行时执行这些方法之一。程序代码可以例如存储在机器可读载体上。

其它实施例包括存储在机器可读载体上的用于执行本文所述的方法之一的计算机程序。

换句话说,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于当计算机程序在计算机上运行时执行本文所述的方法之一。

因此,本发明方法的另一个实施例是数据载体(或数字存储介质或计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬态的。

因此,本发明方法的另一个实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由互联网)传输。

另一个实施例包括被配置为或适于执行本文所述的方法之一的处理部件,例如计算机或可编程逻辑设备。

另一个实施例包括具有安装在其上用于执行本文所述方法之一的计算机程序的计算机。

根据本发明的另一个实施例包括一种装置或系统,该装置或系统被配置为将用于执行本文所述方法之一的计算机程序(例如,电子地或光学地)传送到接收器。接收器可以是例如计算机、移动设备、存储器设备等。该装置或系统可以例如包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可以用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文所述方法之一。通常,这些方法优选地由任何硬件装置执行。

本文描述的装置可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合来实现。

本文描述的方法可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合来执行。

上述实施例仅用于说明本发明的原理。应该理解的是,本文所述的布置和细节的修改和变型对于本领域技术人员而言将是显而易见的。因此,意图仅受即将出现的专利权利要求的范围的限制,而不受通过本文实施例的描述和解释所呈现的具体细节的限制。

9.参考书目

[1]3gppts26.402;enhancedaacplusgeneralaudiocodec;additionaldecodertools(release11)",

[2]j.lecomte等人,"enhancedtimedomainpacketlossconcealmentinswitchedspeech/audiocodec"提交给ieeeicassp,布里斯班,澳大利亚,2015年4月.

[3]wo2015063045a1

[4]"apparatusandmethodforimprovedconcealmentoftheadaptivecodebookinacelp-likeconcealmentemployingimprovedpitchlagestimation",2014,pct/ep2014/062589

[5]"apparatusandmethodforimprovedconcealmentoftheadaptivecodebookinacelp-likeconcealmentemployingimprovedpulse"synchronization",2014,pct/ep2014/062578

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1