用于控制多声道音频帧丢失隐藏的方法和装置与流程

文档序号:26102444发布日期:2021-07-30 18:13阅读:176来源:国知局
用于控制多声道音频帧丢失隐藏的方法和装置与流程

本申请涉及用于针对立体声或多声道音频编码和解码来控制分组丢失隐藏的方法和装置。



背景技术:

尽管电信网络的容量在不断增加,但限制每个通信信道的需要带宽仍然有极大兴趣。在移动网络中,用于每次呼叫的传输带宽越小,移动设备和基站的功耗就越低。这对于移动运营商转化成对能源和成本的节约,而最终用户将体验更长的电池寿命和更长的通话时间。进一步地,由于每个用户消耗的带宽更少,移动网络可并行为更大数量的用户提供服务。

通过现代音乐播放系统和电影院,大多数听众习惯于高质量沉浸式音频。在移动电信服务中,对无线电资源的约束和处理延迟已使质量保持在较低水平,并且大多数语音服务仍然仅传递单声道声音。最近,在需要单声道之外的沉浸式声音再现的虚拟/混合/增强现实的环境中,用于通信服务的立体声和多声道声音获得了动力。在电信网络的带宽约束内渲染高质量空间声音仍然是挑战。另外,声音再现还需要应对变化的信道条件,其中偶尔的数据分组可能例如由于网络拥塞或小区覆盖范围差而丢失。

在典型的立体声录音中,声道对表现出高度的相似性或相关性。立体声编码方案[1]的一些实施例可以通过采用参数编码来利用该相关性,其中单个声道被高质量地编码并且被补充有允许全立体图像的重建的参数描述。将声道对减少成单个声道的过程通常被称为下混合,所产生的声道通常被称为下混合声道。下混合过程通常通过在混合声道之前对准声道间时间差(itd)和声道间相位差(ipd)来尝试维持能量。为了维持输入信号的能量平衡,还可以测量声道间电平差(ild)。然后,itd、ipd和ild被编码,并且可以在解码器处重建立体声声道对时被用在反向的上混合过程中。itd、ipd和ild参数描述声道对的相关分量,而立体声声道对也可以包括不能从下混合中重建的非相关分量。这个非相关分量可以用声道间相干参数(icc)来表示。非相关分量可以在立体声解码器处通过使解码的下混合声道通过去相关滤波器来被合成,去相关滤波器输出与解码的下混合具有低相关性的信号。去相关分量的强度可以用icc参数来控制。

尽管参数立体声再现在低比特率下给出了良好的质量,但是由于参数模型的限制,质量随着比特率的增加而趋于饱和。为了克服该问题,可以对非相关分量进行编码。该编码是通过在编码器中模拟立体声重建并从输入声道中减去重建信号来实现的,从而产生残差信号。如果下混合变换是可逆的,则对于立体声声道的情况,残差信号可以仅由单个声道表示。通常,残差信号编码的目标是在心理声学上更相关的较低频率,而较高频率可以用去相关器方法来合成。图2是描绘用于包括残差编码器的参数立体声编解码器的常规设置的实施例的框图。在图2中,编码器接收输入信号,在立体声处理和下混合块210中执行上述的处理,经由单声道编码器220对单声道输出进行编码,经由残差编码器230对残差信号进行编码,并且对itd、ipd、ild和icc参数进行编码。解码器接收已编码单声道输出、已编码残差信号和已编码参数。解码器经由残差解码器250对残差信号进行解码,并经由单声道解码器260对单声道信号进行解码。参数合成块270接收已解码单声道信号和已解码残差信号,并基于参数来输出立体声声道ch1和ch2。

类似的原理适用于诸如5.1和7.1.4之类的多声道音频以及诸如高保真立体声(ambisonics)或空间音频对象编码之类的空间音频表示。通过利用声道之间的相关性并将减少的声道集与用于在解码器处的声道重建或空间音频渲染的元数据或参数捆绑在一起,可以减少声道数量。

为了克服传输错误和丢失数据包的问题,电信服务使用分组丢失隐藏(plc)技术。在数据分组由于连接不良、网络拥塞等被丢失或损坏的情况下,在接收机侧的丢失或损坏数据分组的丢失信息可以由解码器用合成信号代替,以隐藏丢失或损坏数据分组。plc技术的一些实施例通常与解码器密切相关,其中内部状态可以被用于产生信号延续或外推以掩盖分组丢失。对于具有用于不同信号类型的若干操作模式的多模式编解码器,通常有若干种plc技术可被实施以处理丢失或损坏数据分组的隐藏。

对于基于线性预测(lp)的语音编码模式,可以使用的技术是基于使用所估计的帧结束音高信息和前一帧的音高周期的复制来调整声门脉冲位置[2]。取决于连续丢失帧的数量和最后一个好帧的稳定性,长时预测器(ltp)的增益随速度收敛到零[2]。基于频域(fd)的编码模式通常被设计为处理一般或复杂的信号,诸如音乐。对于这种信号,可取决于最后接收的帧的特性来使用不同的技术。这种分析可以包括检测到的音调分量的数量和信号的周期性。如果帧丢失发生在高度周期信号(诸如活动语音或单一器乐)期间,则类似于基于lp的plc的时域plc可能适于实施。在这种情况下,fdplc可通过基于最后接收的帧来估计lp参数和激励信号来模拟lp解码器[2]。如果丢失帧发生在非周期或类噪声信号期间,则最后接收的帧可在频谱域中被重复,其中系数与随机符号信号相乘以减少重复信号的金属声音。对于平稳音调信号,已经在一些实施例中发现使用基于检测到的音调分量的预测和外推的方法是有利的。关于上述技术的更多细节可以在[2]中找到。

在频域中操作的一种隐藏方法是相位ecu[3]。它可以被实现为在先前已解码和重建的时间信号的缓冲器上操作的独立工具。它的框架是基于正弦分析和合成范式。在该技术中,最后一个好帧的正弦分量被提取并进行相移。当帧丢失时,在dft域中从过去的解码合成中获得正弦频率。首先,通过找到幅度谱平面的峰值来识别对应的频率区(bin)。然后,使用峰值频率区来估计峰值的分数频率。峰值频率区和对应的分数频率可以被存储以用于创建丢失帧的替换。使用分数频率来对与峰值连同相邻值对应的频率区进行相移。对于帧的剩余频率区,过去的合成的幅度被保留,而相位可以被随机化。突发错误也可以被处理,以使得估计信号可以通过使它收敛到零来被平滑地静音。相位ecu的更多详细信息可以在[3]中找到。

有许多不同的术语用于分组丢失隐藏技术,包括帧错误隐藏(fec)、帧丢失隐藏(flc)和错误隐藏单元(ecu)。

上述的plc技术是被设计用于单声道音频编解码器的技术。对于立体声或多声道解码器,用于错误隐藏的一个解决方案可以是在每个声道上应用任一种上述的plc技术。然而,该解决方案不提供对信号的空间特性的任何控制。使用该解决方案很可能将创建非相关信号,这会给出听起来不自然或太宽的立体声或多声道输出。对于图2中描绘的立体声情况,这转化成对下混合信号和对残差信号分量分别使用单声道plc。

残差信号分量的错误隐藏可能特别敏感,因为残差分量可以被添加到在空间上未被掩蔽的副信号(sidesignal)。不连续性导致副信号的特性发生巨大变化,并且因此在被听见时很容易被检测和发现是扰乱的。



技术实现要素:

根据本发明构思的一些实施例,提供了一种在解码设备中对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的方法。该方法包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该方法还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该方法还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该方法还包括:使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧,并向参数多声道音频合成组件提供变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧。该方法还包括执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

将用于频谱的峰值的相位演变错误隐藏方法与来自通过去相关器后的错误隐藏下混合信号的噪声频谱相结合的潜在优势在于:该操作通过对峰值进行相位调整来避免了周期信号分量中的不连续性。另外,噪声频谱与下混合信号保持期望的关系,例如期望的相关性水平。另一个潜在优势是该操作在帧丢失期间将残差信号的能级保持在稳定水平。

根据本发明构思的其他实施例,一种装置被配置为对所接收的多通道音频信号的丢失或损坏多通道音频帧进行近似。该装置包括至少一个处理器和与处理器通信耦合的存储器,所述存储器包括可由处理器执行的指令,这些指令使得处理器执行操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧,并向参数多声道音频合成组件提供变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧。该操作还包括执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

根据本发明构思的其他实施例,一种解码器被配置为执行操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧,并向参数多声道音频合成组件提供经换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧。该操作还包括执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

根据本发明构思的其他实施例,一种计算机程序产品包括存储计算机程序代码的非暂时性计算机可读介质,该计算机程序代码在由至少一个处理器执行时使得至少一个处理器:生成下混合错误隐藏帧;将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧;对变换后下混合隐藏帧去相关以生成去相关隐藏帧;获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱;使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧;向参数多声道音频合成组件提供变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧;以及执行合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

根据本发明构思的一些其他实施例,提供了一种在包括处理器的解码设备中对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的方法,该方法包括由处理器执行的以下操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧。该操作还包括获得多声道音频替换参数集。该操作还包括执行变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、和来自先前接收的多声道音频信号帧的多声道音频参数的逆频域变换,以生成变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧、和多声道音频时域参数。该操作还包括向参数多声道音频合成组件提供变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧和多声道音频时域参数,以生成合成多声道音频替换帧。

根据本发明构思的一些其他实施例,一种计算机程序产品包括存储计算机程序代码的非暂时性计算机可读介质,该计算机程序代码在由至少一个处理器执行时使得至少一个处理器:生成下混合错误隐藏帧;将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧;对变换后下混合隐藏帧去相关以生成去相关隐藏帧;获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱;使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧;获得多声道音频时域替换参数集;执行变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧的逆频域变换,以生成变换后下混合错误隐藏时域帧和能量被调整的去相关残差隐藏时域帧;以及向参数多声道音频合成组件提供变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧、和多声道音频时域替换参数,以生成合成多声道音频替换帧。

根据本发明构思的一些其他实施例,提供了一种被配置为对所接收的多通道音频信号的丢失或损坏多通道音频帧进行近似的装置。该装置包括至少一个处理器和与处理器通信耦合的存储器,所述存储器包括可由处理器执行的指令,这些指令使得处理器执行操作。该操作包括:生成下混合错误隐藏帧,并将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧。该操作还包括对变换后下混合隐藏帧去相关以生成去相关隐藏帧。该操作还包括获得先前接收的多声道音频信号的已存储残差信号的残差信号频谱。该操作还包括使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧。该操作还包括获得多声道音频替换参数集。该操作还包括执行变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、和来自先前接收的多声道音频信号帧的多声道音频参数的逆频域变换,以生成变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧、和多声道音频时域参数。该操作还包括向参数多声道音频合成组件提供变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧和多声道音频时域参数,以生成合成多声道音频替换帧。

附图说明

附图被包括以提供对本公开的进一步理解并被并入且构成本申请的一部分,附图示出了本发明构思的某些非限制性实施例。在附图中:

图1是示出根据一些实施例的丢失隐藏系统的环境的示例的框图;

图2是示出根据一些实施例的参数立体声编解码器的组件的框图;

图3是示出根据一些实施例的被组合的正弦分量和噪声频谱的图;

图4是示出根据一些实施例的立体声参数编码器的框图;

图5是示出根据一些实施例的立体声参数解码器的框图;

图6是示出根据本发明构思的一些实施例的生成残差信号的操作的框图;

图7是示出根据本发明构思的一些实施例的生成替换多声道音频帧的操作的框图;

图8是示出根据本发明构思的一些实施例的解码器的操作的流程图;

图9是示出根据本发明构思的一些实施例的解码器生成残差信号的操作的流程图;

图10a和图10b是根据本发明构思的一些实施例的所生成的残差信号的所生成的频谱的图示;

图11是示出根据本发明构思的一些实施例的解码器的框图;

图12-图18是示出根据本发明构思的一些实施例的解码器的操作的流程图;

图19是示出根据本发明构思的一些实施例的近似相位调整的框图。

具体实施方式

现在将在下文中参考附图更全面地描述本发明构思,其中示出了本发明构思的实施例的示例。然而,本发明构思可以被体现在许多不同的形式中并且不应被解释为限于本文所阐述的实施例。相反,提供这些实施例使得本公开将是彻底和完整的,并将向本领域技术人员充分传达本发明构思的范围。还应注意,这些实施例并不相互排斥。来自一个实施例的组件可以被默认假设在另一个实施例中存在/使用。

以下描述呈现了所公开主题的各种实施例。这些实施例被呈现为教导示例,并且不应被解释为限制所公开主题的范围。例如,在不脱离所描述的主题的范围的情况下,可以修改、省略或扩展所描述的实施例的某些细节。

图1示出了解码器100的操作环境的示例,解码器100可以被用于解码如本文所描述的多声道比特流。解码器100可以是媒体播放器、移动设备、机顶设备、台式计算机等的一部分。解码器100接收编码比特流。比特流可以从编码器、从存储设备104、经由网络102从云上设备等被发送。在操作期间,解码器100接收并处理如本文所描述的比特流的帧。解码器100输出多声道音频信号,并将多声道音频信号发送到多声道音频播放器106,多声道音频播放器106具有至少一个扬声器以用于播放多声道音频信号。存储设备104可以是诸如商店或流媒体音乐服务的存储库之类的多声道音频信号的存储库的一部分、单独的存储组件、移动设备的组件等。多声道音频播放器可以是蓝牙扬声器、具有至少一个扬声器的设备、移动设备、流媒体音乐服务等。

图11是示出根据本发明构思的一些实施例的解码器100的元件的框图,解码器100被配置为解码多声道音频帧并对丢失或损坏帧提供隐藏。如图所示,解码器100可以包括网络接口电路1105(也被称为网络接口),网络接口电路1105被配置为提供与其他设备/实体/功能/等的通信。解码器100还可以包括被耦合到网络接口电路1105的处理器电路1101(也被称为处理器)和被耦合到处理器电路的存储器电路1103(也称为存储器)。存储器电路1103可以包括计算机可读程序代码,该计算机可读程序代码在由处理器电路1101执行时使得处理器电路执行根据本文所公开的实施例的操作。

根据其他实施例,处理器电路1101可以被定义为包括存储器,以便不需要单独的存储器电路。如本文所讨论的,解码器100的操作可以由处理器1101和/或网络接口1105执行。例如,处理器1101可以控制网络接口1105以向多声道音频播放器106发送通信和/或通过网络接口102从一个或多个其他网络节点/实体/服务器(诸如编码器节点、存储库服务器等)接收通信。此外,模块可以被存储在存储器1103中,并且这些模块可以提供指令,以便当模块的指令被处理器1101执行时,处理器1101执行相应的操作。

在一个实施例中,可以使用在图2中示出的多声道编码器和解码器系统的多声道解码器。更详细地,可以参考图4描述编码器。在下面的描述中,将使用两个声道来描述实施例。这些实施例可以与多于两个声道一起使用。多声道编码器以被称为帧的段来处理输入左右声道(在图2中表示为ch1和ch2,在图4中表示为l和r)。对于给定帧m,两个输入声道可以被写成

其中,l表示左声道,r表示右声道,n=0,1,2,…,n表示帧m中的样本数,n是帧的长度。在实施例中,可以在编码器中以重叠方式提取帧,以使得解码器可以使用重叠相加策略来重建多声道音频信号。输入声道用合适的窗口函数w(n)进行窗口化,并被变换到离散傅立叶变换(dft)域。注意,在此处可以使用其他频域表示,诸如正交镜像滤波器(qmf)滤波器组、混合qmf滤波器组、或由mdct和mdst变换分量组成的奇数dft(odft)表示。

然后,在参数分析方框410中分析信号以提取itd、ipd和ild参数。此外,可以分析声道相干性,并可以导出icc参数。用于帧m的多声道音频参数集可以被表示为p(m),它包含在参数表示中使用的itd、ipd、ild和icc参数的完整集合。这些参数被参数编码器430编码,并被添加到比特流以被存储和/或被发送到解码器。

在产生下混合声道之前,在一个实施例中,补偿itd和ipd以减少抵消并最大化下混合的能量可以是有益的。itd补偿既可以在频率变换之前在时域中实现,也可以在频域中实现,但在本质上它是在一个或两个声道上执行时移以消除itd。相位对准可以以不同方式实现,但目的是对准相位,以使得抵消被最小化。这确保了下混合中的最大能量。itd和ipd调整可以在频带中进行,或者在全频谱上进行,并且优选地,应当使用量化itd和ipd参数来进行以确保可以在解码器级中使修改反转。

下面描述的实施例独立于ipd和itd参数分析和补偿的实现。换言之,这些实施例不依赖于如何分析或补偿ipd和itp。在这种实施例中,itd和ipd被调整的声道用星号表示:

然后,itd和ipd被调整的输入声道被参数分析和下混合块410进行下混合以产生中间/副表示,也称为下混合/副表示。执行下混合的一种方式是使用信号的和与差。

下混合信号xm(m,k)被下混合编码器420编码以被存储和/或被发送到解码器。该编码可以在频域中进行,但它也可以在时域中进行。在那种情况下,需要dft合成级来产生下混合信号的时域版本,该时域版本随后被提供给下混合编码器420。然而,到时域的变换可能引入与多声道音频参数的延迟失准,这会需要额外的处理。在一个实施例中,这通过引入附加延迟或通过对参数进行内插来解决,以确保下混合的解码器合成与多声道音频参数对准。

互补副信号xs(m,k)可以由局部参数合成块440根据下混合和所获得的多声道音频参数生成。副信号预测可以使用下混合信号来导出:

其中,p(·)是预测函数并可被实现为单一缩放因子α,该缩放因子可以最小化副信号与预测的副信号之间的均方误差(mse)。进一步地,预测可被应用到频带上并涉及用于每个频带b的预测参数。

如果频带b的系数被指定为列向量和xm,b(m),则最小mse预测器可以被推导为

然而,该表达式可被简化以产生更稳定的预测参数。预测参数αb可以被用作ild参数的可替代实现。在参考文献[4]的预测模式中描述了更多细节。

给定预测副信号,可以创建预测残差xr(m,k)[4]。

预测残差可以被输入到残差编码器450中。编码可以直接在dft域中进行或者可以在时域中进行。类似地,对于下混合编码器,时域编码器会需要dft合成,dft合成可能需要在解码器中对准信号。残差信号表示与下混合信号不相关的漫射分量。如果残差信号未被发送,则一个实施例中的解决方案可以是用来自已解码下混合信号的去相关版本的信号来在解码器中在立体声合成状态下替换用于残差信号的信号。该替换通常被用于低比特率,其中,比特预算太低而无法用任何有用的分辨率来表示残差信号。对于中间比特率,通常对残差的一部分进行编码。在这种情况下,较低的频率通常被编码,因为它们在感知上更相关。对于频谱的剩余部分,去相关器信号被用作解码器中残差信号的替换。该方法通常被称为混合编码模式[4]。下面在解码器描述中提供更多细节。

已编码下混合、已编码多声道音频参数、和已编码残差信号的表示被复用成比特流360,比特流360可以被发送到解码器或被存储在介质中以供将来解码。

在一个实施例中,在dft域中使用多声道解码器,如在图5至图7中示出。图5示出了解码器的实施例,其中图6的块在丢失帧的情况下生成残差信号。图7示出了图5和图6的块的组合的实施例。在下面的描述中,应使用图7的块。然而,应当注意,图7的解复用器710至少提供与图5的解复用器510相同的功能,图7的下混合解码器715至少提供与图5的下混合解码器520相同的功能,图7的立体声参数解码器725至少提供与图5的立体声参数530相同的功能,图7的去相关器730至少提供与图5的去相关器540相同的功能,图7的残差解码器735至少提供与图5的残差解码器550相同的功能,图7的参数合成块760至少提供与图5的参数合成块560相同的功能。类似地,图7的下混合plc720至少提供与图6的下混合plc610相同的功能,图7的去相关器730至少提供与图6的去相关器620相同的功能,图7的存储器740至少提供与图6的存储器630相同的功能,图7的频谱整形器745至少提供与图6的频谱整形器640相同的功能,图7的相位ecu750至少提供与图6的相位ecu650相同的功能,图7的信号组合器755至少提供与图6的信号组合器660相同的功能,并且图7的参数合成块760至少提供与图6的参数合成块670相同的功能。

现在转到图7,下混合解码器715提供重建的下混合信号该信号被分段成dft分析帧m,n=0,1,2,…,n-1表示在帧m内的样本数。分析帧通常以重叠方式被提取,这允许在dft合成阶段使用重叠相加策略。通过dft变换可以得到对应的dft频谱:

其中,w(n)表示合适的窗口函数。可以使用频率特性与由于重叠区域的长度而导致的算法延迟之间的折衷来设计窗口函数的形状。类似地,残差解码器635针对帧m和时间实例n=0,1,2,…nr产生重建的残差信号注意,帧长度nr可以与n不同,因为残差信号可以以不同的采样率来产生。由于残差编码可以仅针对较低的频率范围,因此,用较低的采样率来表示它以节省存储器和计算复杂度可以是有益的。获得残差信号的dft表示注意,如果残差信号在dft域中被上采样到与重建的下混合相同的采样率,则dft系数将需要用n/nr来缩放,并且会被零填充以匹配长度n。为了简化符号,并且由于本实施例不受使用不同采样率的影响,因此,为了更好地理解该方法,在下面的描述中采样率应是相等的,并且nr=n。因此,不应显示缩放或零填充。

应当注意,在下混合和/或残差信号在dft域中被编码的情况下,不需要借助dft的频率变换。在这种情况下,下混合和/或残差信号的解码提供了进一步处理所需的dft频谱。

在无错误帧(通常被称为好帧)中,多声道音频解码器使用已解码下混合信号连同已解码多声道音频参数一起并结合已解码残差信号来产生多声道合成。残差信号的dft频谱被存储在存储器740中,以使得变量始终保持最后接收帧的残差信号频谱。

在一些实施例中,可以存储频谱的相关子部分以节省存储器,例如,仅存储较低的频率区。在其他实施例中,残差信号可以被存储在时域中,并且只有在发生错误时才可以获得dft频谱。这可以降低峰值计算复杂度,因为错误隐藏操作通常比正确接收帧的解码具有更低的复杂度。在下面的描述中,残差信号在正常操作期间已经被变换到dft域,并且残差信号被存储为dft频谱。在其他实施例中,残差信号被存储在时域中。在这些实施例中,通过将残差信号变换到dft域来获得残差信号频谱。

已解码下混合被馈送到去相关器730以合成非相关信号分量d(m,n),并且所得到的信号被变换到dft域xd(m,k)。注意,去相关也可以在频域中进行。已解码下混合去相关分量xd(m,k)和残差信号与多声道音频参数p(m)一起被馈送到参数多声道合成块660以产生重建的多声道音频信号。当在dft域中已经应用了多声道合成后,左声道和右声道被变换到时域,并从立体声解码器输出。

转到图12,当解码器100检测到已编码多声道音频信号的丢失或损坏多声道音频帧(即,坏帧)时,解码器100可以执行的操作。当解码器检测到丢失或损坏帧即坏帧(由图7中的坏帧指示符(bfi)表示)时,执行plc技术。在操作1201中,下混合解码器715的plc被激活,并生成针对下混合的错误隐藏帧在操作1203中,对下混合错误隐藏帧进行频率变换以产生对应的dft频谱在操作1205中,变换后下混合错误隐藏帧可被输入到同一去相关器功能730中,该去相关器功能730被用于下混合以生成去相关隐藏帧decu(m,n),或被输入到不同的去相关器功能,然后进行频率变换以产生去相关下混合隐藏帧xd,ecu(m,k)。

去相关器功能可以在变换之前在时域中完成,采用全通滤波器、延迟或其组合的形式。它也可以在频率变换之后在频域中完成,在这种情况下,它会对帧进行操作,可能包括过去的帧。

在操作1207中,获得残差信号频谱。残差信号频谱可以从它先前已被存储的存储器中取回。在残差信号在dft变换操作之前被存储的情况下,通过对已存储残差信号执行dft操作来获得残差信号频谱。为了生成残差信号的隐藏帧,在操作1209中,生成能量被调整的去相关残差信号。在操作1209中,相位ecu750对如先前所述被存储在存储器740中的来自过去的合成的残差信号执行相位外推或相位演变策略中。还参见[3]。

转到图13,在操作1301中,相位外推或相位演变策略对残差信号频谱的峰值正弦曲线进行相移(参见图3的正弦分量),并在操作1303中,对非峰值正弦曲线的噪声频谱(参见图3的噪声频谱)的能量进行调整。这些操作的更多细节在图14中被提供。

转到图14,在操作1401中,残差信号频谱(也可以被称为“原型信号”)被首先输入到峰值检测器电路,峰值检测器电路在分数频率的尺度上检测峰值频率。可以检测到一组峰值:

f={fi},i=1,2,…npeaks,

这些峰值由它们的估计分数频率fi表示,并且其中npeaks是被检测到的峰值的数量。在此,分数频率被表示为dft区的分数,使得例如奈奎斯特频率被发现在f=n/2+1。然后在操作1403中,每个被检测到的峰值与表示被检测到的峰值的多个频率区相关联。频率区的数量可以通过将分数频率取整到最接近的整数并包括相邻区来找到,例如,在每一边的npeaks个峰值:

其中,[·]表示取整运算,gi是表示在频率fi处的峰值的区群组。数量npeaks是在设计系统时被确定的细调常数。较大的npeaks在每个峰值表示中提供更高的准确性,但也在可被建模的峰值之间引入更大的距离。npeaks的合适值可以是1或2。残差信号的隐藏频谱xr,ecu(m,k)是通过插入区群组而形成的,包括相位调整操作1405,其基于分数频率和前一帧的分析帧与当前帧会开始的位置之间的样本数。

nstep=n-noverlap

根据下面的相位调整,对每个峰值频率fi的相位调整被应用到每个对应的区群组gi:

δφi=2πnstepfi/n,

该相位调整被应用到残差信号的隐藏频谱的对应区:

在操作1407中,使用去相关隐藏帧xd,ecu(m,k)的谱系数来填充xr,ecu(m,k)的未被峰值区gi占据的剩余区(其可被称为噪声频谱或频谱的噪声分量)。为了确保系数具有合适的能级和整体频谱形状,可以调整能量以匹配残差频谱存储器的噪声频谱的能量。这可以通过在计算缓冲器中将所有峰值区gi设置为零并匹配剩余噪声频谱区的能量来完成。如图10a中所示,能量匹配可以以频带为基础来进行。

转到图15,在操作1501中,指定跨越区范围kstart(b)…kend(b)的频带b。在操作1503中,能量匹配增益因子gb可被计算为:

在操作1505中,使用能量匹配增益因子,用能量被调整的去相关残差隐藏帧来填充噪声频谱区k:

对于频带b,

注意,也可以将缩放应用于宽频带或窄频带或者甚至针对每个频率区。在对每个区进行缩放的情况下,残差存储器的幅度频谱被保持,同时应用来自去相关隐藏帧xd,ecu(m,k)的频谱的相位。例如,可以通过xd,ecu(m,k)的幅度调整以匹配的幅度或通过的相位调整以匹配xd,ecu(m,k)的相位,可以实现缩放。然而,以频带为基础执行缩放保留了一些可能期望的频谱精细结构。

在针对每个频率区进行缩放的情况的实施例中,应用来自去相关隐藏帧xd,ecu(m,k)的频谱的相位可以使用相位的近似值。这可以降低缩放的复杂性。能量匹配增益因子gk可以被计算为:

使用能量匹配增益因子,用能量被调整的去相关残差隐藏帧来填充噪声频谱区k:

gk的计算涉及平方根和除法,这在计算上可能很复杂。在实施例中,使用近似相位调整,它匹配相位目标的实分量和虚分量的绝对值的符号和阶数,以使得相位在相位目标的π/4内移动。该实施例可以跳过用能量匹配增益因子gk进行的增益缩放。xr,ecu(m,k)可以被写成:

xr,ecu(m,k)=a+jb

其中,在实分量和虚分量的绝对值的阶数相同的情况下,即

(c,d)是

否则,

近似相位调整在图19中被示出。在图19中,相位目标由在1900所图示的xd,ecu(m,k)给出。非相位调整的ecu合成在1904处被图示。在近似相位调整已被应用之后的ecu合成xd,ecu(m,k)在1902处被图示。近似相位调整可以以频带为基础和/或以每个频率区为基础而使用。

注意,如果未找到音调分量,即未检测到峰值,则整个隐藏帧将由被应用了频谱整形的去相关隐藏帧xr,ecu(m,k)组成。这在图17中被图示。转到图17,在操作1701中,解码器100在分数频率的尺度上检测在残差信号频谱中是否存在峰值信号。如果有峰值信号,则执行操作1703至1707。具体地,在操作1703中,将每个峰值频率与多个峰值频率区相关联。操作1703在操作上类似于操作1403。在操作1705中,对多个峰值频率区中的每一个应用相位调整。操作1705在操作上类似于操作1405。在操作1707中,使用去相关隐藏帧的谱系数来填充剩余区,并调整剩余区的能级以匹配残差频谱存储器的噪声频谱的能级。操作1707在操作上类似于操作1407。如果没有峰值信号,则执行操作1709,其使用去相关隐藏帧的谱系数来填充所有区,并调整区的能级以匹配残差频谱存储器的噪声频谱的能级。

为了完成错误隐藏帧的立体声合成,需要对丢失帧估计多声道参数。该隐藏可以用各种方法来完成,但被发现给出合理结果的一种方法是仅重复来自最后接收帧的立体声参数以产生多声道音频替换参数

隐藏残差频谱的最终频谱是通过在信号组合器755中将频谱峰值与能量被调整的噪声频谱进行组合而找到的。组合的示例在图10b中被图示。

返回图12,在操作1211中,下混合错误隐藏帧去相关下混合隐藏帧xd,ecu(m,k)和能量被调整的去相关残差隐藏帧xr,ecu(m,k)与多声道音频参数一起被馈送到参数合成块760以产生重建信号。在dft域中已应用了合成之后,在操作1213中,多声道信号被变换到时域(例如,左声道和右声道),并从立体声解码器输出。

例如,在图16的操作1601中,基于重建信号(即,替换帧)生成多声道音频信号。在操作1603中,向至少一个扬声器输出多声道音频信号以用于回放。

转到图5至图7,示出了dft和idft。idft用于将下混合解码和残差解码与dft分析阶段解耦。在其他实施例中,不使用idft。在上述的信号处理在时域中执行的其他实施例中,dft仅被用于提供去相关下混合隐藏帧xd,ecu(m,k)和残差信号频谱而idft被用于提供它们的时域对应项。

转到图8和图9,图示了描绘图12的残差信号的隐藏操作如何可以串行或并行地执行的流程图。在无错误帧的情况下,残差信号的dft谱被存储在存储器中,并在操作810中在每个无错误帧中被更新。该存储器随后被用于“丢失帧”的隐藏。当解码器检测到帧丢失/损坏或被通知帧丢失/损坏时,在操作820中,激活被设计用于下混合部分的plc算法,并生成下混合信号用于下混合的plc算法可以从上述的技术中选择。然后,在操作830中,可被馈送到去相关器,以提取非相关信号xd,ecu(m,k)。去相关也可以在时域中执行。此外,保存过去帧的下混合信号的下混合存储器可以被包括在去相关器的输入中。然后在操作840中,对残差存储器的正弦分量,来自最后一个好帧的残差进行相移。注意,操作830和840是彼此独立的,并且可以以其他方式执行。为了保持残差信号的形状接近最后一个好帧的残差,在操作850中,基于最后一个好帧的残差信号来对去相关器信号的频谱进行重整形。在操作860中,将最后一个好帧的残差信号的相移后正弦分量和重整形的去相关信号组合,并生成残差信号的隐藏帧xr,ecu(m,k)。在另一个实施例中,解码器可以与操作840并行地处理操作820和830。这在图9中被图示。

图10a和图10b示出如何对去相关器信号进行整形的示例。图10a示出了残差信号频谱(被标记为原型)和去相关器输出。图10b示出了用于如上所述被导出的残差信号的隐藏帧xr,ecu(m,k)。

如前所述,参数合成块660的输入可以替代地处于时域中。图18示出了解码器100在参数合成块660的输入在时域中并且参数合成块在时域中合成信号时的操作。操作1801至1811是与如上所述的图12的操作1201至1211相同的操作。在操作1813中,解码器100对去相关隐藏帧和残差信号的隐藏帧执行逆频域(ifd)变换。在操作1815中,产生的ifd变换信号和参数多声道音频时域替换参数被提供给多声道音频合成组件760,其在时域中生成输出声道。

实施例的列表:

1.一种在包括处理器的解码设备中对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的方法,该方法包括由处理器执行的以下操作:

生成下混合错误隐藏帧(610,720,820,1201);

将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧(1203);

对变换后下混合隐藏帧去相关以生成去相关隐藏帧(620,730,830,1205);

获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱(1207);

使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧(640-660,745-755,850-860,1209);

获得多声道音频替换参数集;

向参数多声道音频合成组件提供(1213)变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及多声道音频替换参数,以生成合成多声道音频帧;以及

执行(1215)合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

2.根据实施例1所述的方法,其中,通过重复来自先前接收的多声道音频信号帧的参数来获得多声道音频替换参数集。

3.根据实施例1-2中任一项所述的方法,还包括:

基于替换帧来生成(1601)多声道音频信号;以及

向至少一个扬声器输出(1603)多声道音频信号以用于回放。

4.根据实施例1-3中任一项所述的方法,其中,获得残差信号频谱包括从存储设备取回残差信号频谱。

5.根据实施例1-4中任一项所述的方法,其中,生成能量被调整的去相关残差信号隐藏帧包括:

对残差信号频谱的峰值正弦分量进行相移(650,750,840,1301);以及

调整(640,745,850,1303)已存储残差信号的残差信号频谱的非峰值正弦分量的噪声频谱的能量。

6.根据实施例1-4中任一项所述的方法,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测已存储残差信号的残差信号频谱的峰值频率(1401,1701);

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1403,1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1405,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1407,1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

7.根据实施例1-4中任一项所述的方法,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测在已存储残差信号的残差信号频谱中是否存在峰值频率(650,750,840,1701);

响应于检测到在残差信号频谱中没有峰值频率:

使用去相关隐藏帧的谱系数来填充(1709)残差信号隐藏频谱的每个区,并调整区的能级以匹配残差信号频谱的噪声频谱的能级;

响应于检测到在残差信号频谱中有峰值频率:

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

8.根据实施例6-7中任一项所述的方法,其中,调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级包括以频带为基础来匹配能级。

9.根据实施例7所述的方法,其中,频带b跨越(1501)区范围kstart(b)…kend(b),并且匹配能级包括:

计算(1503)能量匹配增益因子gb为

以及用能量被调整的去相关残差隐藏帧来填充(1505)剩余区,

对于频带b,

10.根据实施例1-9中任一项所述的方法,其中,能量被调整的去相关残差信号隐藏帧的生成与将下混合错误隐藏帧变换到频域中以及变换后下混合隐藏帧的去相关并行执行。

11.根据实施例1-10中任一项所述的方法,其中,将下混合错误隐藏帧变换到频域中和变换后下混合隐藏帧的去相关中的一个在将下混合错误隐藏帧变换到频域中和变换后下混合隐藏帧的去相关中的另一个之前被执行。

12.一种用于通信网络的解码器(100),解码器(100)包括:

处理器(1101);以及

与处理器耦合的存储器(1103),其中存储器包括指令,该指令在被处理器执行时使得处理器执行根据实施例1-11中任一项所述的操作。

13.一种计算机程序,包括计算机可执行指令,该计算机可执行指令被配置为当在设备中包括的处理器(1101)上执行时使得该设备执行根据实施例1-11中任一项所述的方法。

14.一种计算机程序产品,包括计算机可读存储介质(1103),该计算机可读存储介质(1103)具有计算机可执行指令,该计算机可执行指令被配置为当在设备中包括的处理器(1101)上执行时使得设备执行根据实施例1-11中任一项所述的方法。

15.一种装置,被配置为对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似,该装置包括:

至少一个处理器(1101);

与处理器通信耦合的存储器(1103),所述存储器包括可由处理器执行的指令,该指令使得处理器执行包括以下的操作:

生成下混合错误隐藏帧(610,720,820,1201);

将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧(1203);

对变换后下混合隐藏帧去相关以生成去相关隐藏帧(620,730,830,1205);

获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱(1207);

使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧(640-660,745-755,850-860,1209);

获得(1211)多声道音频替换参数集;

向参数多声道音频合成组件提供(1213)变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及多声道音频替换参数,以生成合成多声道音频帧;以及

执行(1215)合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

16.根据实施例15所述的装置,其中,通过重复来自先前接收的多声道音频信号帧的参数来获得多声道音频替换参数集。

17.根据实施例15-16中任一项所述的装置,还包括:

基于替换帧来生成(1601)多声道音频信号;以及

向至少一个扬声器输出(1603)多声道音频信号以用于回放。

18.根据实施例15-17中任一项所述的装置,其中,获得残差信号频谱包括从存储设备取回残差信号频谱。

19.根据实施例15-18中任一项所述的装置,其中,生成能量被调整的去相关残差信号隐藏帧包括:

对残差信号频谱的峰值正弦分量进行相移(650,750,840,1301);以及

调整(640、745、850、1303)已存储残差信号的残差信号频谱的非峰值正弦分量的噪声频谱的能量。

20.根据实施例15-18中任一项所述的装置,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测已存储残差信号的残差信号频谱(1401,1701)的峰值频率;

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1403,1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1405,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1407,1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

21.根据实施例15-18中任一项所述的装置,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测在已存储残差信号的残差信号频谱中是否存在峰值频率(650,750,840,1701);

响应于检测到在残差信号频谱中没有峰值频率:

使用去相关隐藏帧的谱系数来填充(1709)残差信号隐藏频谱的每个区,并调整区的能级以匹配残差信号频谱的噪声频谱的能级;

响应于检测到在残差信号频谱中有峰值频率:

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

22.根据实施例20-21中任一项所述的装置,其中,调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级包括以频带为基础来匹配能级。

23.根据实施例22所述的装置,其中,频带b跨越(1501)区范围kstart(b)…kend(b),并且匹配能级包括:

计算(1503)能量匹配增益因子gb为

以及用能量被调整的去相关残差隐藏帧来填充(1505)剩余区,

对于频带b,

24.一种音频解码器,包括根据实施例14-21中任一项所述的装置。

25.一种被配置为执行操作的解码器,该操作包括:

生成下混合错误隐藏帧(610,720,820,1201);

将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧(1203);

对变换后下混合隐藏帧去相关以生成去相关隐藏帧(620,730,830,1205);

获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱(1207);

使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧(640-660,745-755,850-860,1209);

获得(1211)多声道音频替换参数集;

向参数多声道音频合成组件提供(1213)变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧;以及

执行(1215)合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

26.根据实施例25所述的解码器,其中,通过重复来自先前接收的多声道音频信号帧的参数来获得多声道音频替换参数集。

27.一种计算机程序产品,包括存储计算机程序代码的非暂时性计算机可读介质,所述计算机程序代码在由至少一个处理器执行时使得至少一个处理器:

生成下混合错误隐藏帧(610,720,820,1201);

将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧(1203);

对变换后下混合隐藏帧去相关以生成去相关隐藏帧(620,730,830,1205);

获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱(1207);

使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧(640-660,745-755,850-860,1209);

获得(1211)多声道音频替换参数集;

向参数多声道音频合成组件提供(1213)变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、以及来自先前接收的多声道音频信号帧的多声道音频参数,以生成合成多声道音频帧;以及

执行(1215)合成多声道音频帧的逆频域变换以生成丢失或损坏多声道音频帧的替换帧。

28.根据实施例27所述的计算机程序产品,其中,通过重复来自先前接收的多声道音频信号帧的参数来获得多声道音频替换参数集。

29.根据实施例27-28中任一项所述的计算机程序产品,其中,所述非暂时性计算机可读介质存储其它计算机程序代码,其它计算机程序代码在被执行时使得至少一个处理器:

基于替换帧来生成(1601)多声道音频信号;以及

向至少一个扬声器输出(1603)多声道音频信号以用于回放。

30.根据实施例27-29中任一项所述的计算机程序产品,其中,获得残差信号频谱包括从存储设备取回残差信号频谱。

31.根据实施例27-20中任一项所述的计算机程序产品,其中,生成能量被调整的去相关残差信号隐藏帧包括:

对残差信号频谱的峰值正弦分量进行相移(650,750,840,1301);以及

调整(640,745,850,1303)已存储残差信号的残差信号频谱的非峰值正弦分量的噪声频谱的能量。

32.根据实施例27-30中任一项所述的计算机程序产品,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测已存储残差信号的残差信号频谱(1401,1701)的峰值频率;

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1403,1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1405,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1407,1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

33.根据实施例27-30中任一项所述的计算机程序产品,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测在已存储残差信号的残差信号频谱中是否存在峰值频率(650,750,840,1701);

响应于检测到在残差信号频谱中没有峰值频率:

使用去相关隐藏帧的谱系数来填充(1709)残差信号隐藏频谱的每个区,并调整区的能级以匹配残差信号频谱的噪声频谱的能级(xr,ecu(m,k)=gxd,ecu(m,k));

响应于检测到在残差信号频谱中有峰值频率:

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

34.根据实施例32-33中任一项所述的计算机程序产品,其中,调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级包括以频带为基础来匹配能级。

35.根据实施例34所述的计算机程序产品,其中,频带b跨越(1501)区范围kstart(b)…kend(b),并且匹配能级包括:

计算(1503)能量匹配增益因子gb为

以及用能量被调整的去相关残差隐藏帧来填充(1505)剩余区,

对于频带b,

36.一种在包括处理器的解码设备中对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的方法,该方法包括由处理器执行的以下操作:

生成下混合错误隐藏帧(610,720,820,1801);

将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧(1803);

对变换后下混合隐藏帧去相关以生成去相关隐藏帧(620,730,830,1805);

获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱(810,1807);

使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧(640-660,745-755,850-860,1809);

获得(1811)多声道音频替换参数集;

执行(1813)变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧、和来自先前接收的多声道音频信号帧的多声道音频参数的逆频域变换,以生成变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧、和多声道音频时域参数;以及

向参数多声道音频合成组件提供(1815)变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧和多声道音频时域参数,以生成合成多声道音频替换帧。

37.根据实施例36所述的方法,其中,通过重复来自先前接收的多声道音频信号帧的参数来获得多声道音频替换参数集。

38.根据实施例36-37中任一项所述的方法,还包括:

基于合成多声道音频替换帧来生成(1601)多声道音频信号;以及

向至少一个扬声器输出(1603)多声道音频信号以用于回放。

39.根据实施例36-38中任一项所述的方法,其中,生成能量被调整的去相关残差信号隐藏帧包括:

对残差信号频谱的峰值正弦分量进行相移(650,750,840,1301);以及

调整已存储残差信号的残差信号频谱的非峰值正弦分量的噪声频谱的能量(640,745,850,1303)。

40.根据实施例36-38中任一项所述的方法,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测已存储残差信号的残差信号频谱的峰值频率(1401,1701);

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1403,1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1405,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1407,1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

41.根据实施例36-38中任一项所述的方法,其中,生成能量被调整的去相关残差信号隐藏帧包括:

在分数频率的尺度上检测在已存储残差信号的残差信号频谱中是否存在峰值频率(650,750,840,1701);

响应于检测到在残差信号频谱中没有峰值频率:

使用去相关隐藏帧的谱系数来填充(1709)残差信号隐藏频谱的每个区,并调整区的能级以匹配残差信号频谱的噪声频谱的能级;

响应于检测到在残差信号频谱中有峰值频率:

将每个峰值频率与表示该峰值频率的多个峰值频率区相关联(1703);

根据相位调整对多个峰值频率区中的每一个应用相位调整(650,750,840,1705)以形成残差信号隐藏频谱;以及

使用去相关隐藏帧的谱系数来填充残差信号隐藏频谱的剩余区(1707),并调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级。

42.根据实施例40-41中任一项所述的方法,其中,调整剩余区的能级以匹配残差信号频谱的噪声频谱的能级包括通过以下操作来以频带为基础匹配能级:

指定(1501)频带b跨越区范围kstart(b)…kend(b);

计算(1503)能量匹配增益因子gb为

以及用能量被调整的去相关残差隐藏帧来填充(1507)剩余区,

对于频带b,

43.一种计算机程序产品,包括存储计算机程序代码的非暂时性计算机可读介质,该计算机程序代码在由至少一个处理器执行时使得至少一个处理器:

生成下混合错误隐藏帧(1801);

将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧(1803);

对变换后下混合隐藏帧去相关以生成去相关隐藏帧(1805);

获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱(1807);

使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧(1809);

获得多声道音频时域替换参数集;

执行(1813)变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧的逆频域变换,以生成变换后下混合错误隐藏时域帧和能量被调整的去相关残差隐藏时域帧;以及

向参数多声道音频合成组件提供(1815)变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧和多声道音频时域替换参数,以生成合成多声道音频替换帧。

44.根据实施例38所述的计算机程序产品,其中,通过重复来自先前接收的多声道音频信号帧的参数来获得多声道音频时域替换参数集。

45.一种被配置为对所接收的多声道音频信号的丢失或损坏多声道音频帧进行近似的装置,所述装置包括:

至少一个处理器(1101);

与处理器通信耦合的存储器(1103),所述存储器包括可由处理器执行的指令,该指令使得处理器执行操作,该操作包括:

生成下混合错误隐藏帧(1801);

将下混合错误隐藏帧变换到频域中以生成变换后下混合错误隐藏帧(1803);

对变换后下混合隐藏帧去相关以生成去相关隐藏帧(1805);

获得先前接收的多声道音频信号帧的已存储残差信号的残差信号频谱(1807);

使用残差信号频谱生成能量被调整的去相关残差信号隐藏帧(1809);

获得(1811)多声道音频时域替换参数集;

执行(1813)变换后下混合错误隐藏帧、能量被调整的去相关残差隐藏帧的逆频域变换,以生成变换后下混合错误隐藏时域帧和能量被调整的去相关残差隐藏时域帧;以及

向参数多声道音频合成组件提供(1815)变换后下混合错误隐藏时域帧、能量被调整的去相关残差隐藏时域帧和多声道音频时域替换参数,以生成合成多声道音频替换帧。

46.根据实施例39所述的装置,其中,通过重复来自先前接收的多声道音频信号帧的参数来获得多声道音频时域替换参数集。

下面提供对上述公开的缩写的说明。

缩写说明

dft离散傅立叶变换

lp线性预测

plc分组丢失隐藏

ecu错误隐藏单元

fec帧纠错/隐藏

mdct修正离散余弦变换

mdst修正离散正弦变换

odft奇数离散傅立叶变换

ltp长时预测器

itd声道间时间差

ipd声道间相位差

ild声道间电平差

icc声道间相干性

fd频域

td时域

flc帧丢失隐藏

bfi坏帧指示符

qmf正交镜像滤波器组

以下提供对上述公开中的参考文献的引用。

[1].c.faller,“parametricmultichannelaudiocoding:synthesisofcoherencecues(参数多声道音频编码:相干信号的合成)”,ieee音频、语音和语言处理期刊,第14卷,第一号,第299-310页,2006年1月。

[2].j.lecomte等,“packet-lossconcealmenttechnologyadvancesinevs(evs中的分组丢失隐藏技术进展)”,2015年ieee声学、语音和信号处理国际会议(icassp),昆士兰州布里斯班,2015年,第5708-5712页。

[3].s.bruhn、e.norvell、j.svedberg和s.sverrisson,“anovelsinusoidalapproachtoaudiosignalframelossconcealmentanditsapplicationinthenewevscodecstandard(一种新的音频信号帧丢失隐藏的正弦方法及其在新evs编解码器标准中的应用)”,2015年ieee国际声学、语音和信号处理会议(icassp),昆士兰州布里斯班,2015年,第5142-5146页。

[4].breebaart,j.、hotho,g.、koppens,j.、schuijers,e.,“background,concept,andarchitecturefortherecentmpegsurroundstandardonmultichannelaudiocompression(多声道音频压缩的最新mpeg环绕标准的背景、概念和架构)”,j.audioeng,soc.,第55卷,第5号,2007年5月。

下面讨论进一步的定义和实施例。

在本发明构思的各种实施例的以上描述中,应当理解,本文使用的术语仅用于描述特定实施例的目的,并不旨在限制本发明构思。除非另有定义,否则本文使用的所有术语(包括技术和科学术语)与本发明构思所属领域的普通技术人员通常理解的含义相同。还应当理解,诸如在常用词典中定义之类的术语应当被解释为具有与它们在本说明书和相关领域的上下文中的含义一致的含义,并且不会被理想化或过度地解释,除非在本文中明确定义。

当元件被称为与另一元件“连接”、“耦合”、“响应”或其变型时,它可以被直接连接到、耦合到、或响应于另一元件,或者可以存在中间元件。相反,当元件被称为与另一元件“直接连接”、“直接耦合”、“直接响应”或其变型时,不存在中间元件。相同的数字始终指代相同的元件。此外,这里使用的“耦合”、“连接”、“响应”或其变型可以包括无线耦合、连接或响应。如本文所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。为了简洁和/或清楚起见,可能不会详细描述众所周知的功能或构造。术语“和/或”包括一个或多个相关的所列项目的任何和所有组合。

应当理解,尽管在本文中可能使用术语“第一”、“第二”、“第三”等来描述各种元件/操作,但是这些元件/操作不应受这些术语的限制。这些术语仅用于将一个元素/操作与另一个元素/操作区分开。因此,在不脱离本发明构思的教导的情况下,一些实施例中的第一元件/操作在其他实施例中可被称为第二元件/操作。在整个说明书中,相同的附图标记或相同的附图标识表示相同或相似的元件。

如本文中所使用的,术语“包含”、“包含有”、“包含了”、“包括”、“包括了”、“包括有”、“有”、“具有”、“拥有”或其变型是开放式的,并且包括一个或多个所陈述的特征、整数、元素、步骤、组件、或功能,但不排除存在或增加一个或多个其他特征、整数、元素、步骤、组件、功能或其群组。此外,如本文所使用的,源自拉丁语短语“exempligratia”的常用缩写“e.g.(例如)”可被用于介绍或指定先前提及的项目的一个或多个一般示例,并且并不旨在限制这种项目。源自拉丁语短语“idest”的通用缩写“i.e.(即)”可用于从更一般的叙述中指定特定项目。

在本文中参考计算机实现的方法、装置(系统和/或设备)和/或计算机程序产品的框图和/或流程图图示来描述示例实施例。应当理解,框图和/或流程图图示的方框以及框图和/或流程图图示中方框的组合可以通过由一个或多个计算机电路执行的计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机电路、专用计算机电路的处理器电路和/或其他可编程数据处理电路以生产机器,以使得经由计算机的处理器和/或其他可编程数据处理装置来执行的指令变换和控制晶体管、被存储在存储器位置中的值、和在此类电路系统中的其他硬件组件,以实现在框图和/或一个或多个流程图方框中指定的功能/动作,从而创建用于实现在框图和/或(一个或多个)流程图方框中指定的功能/动作的手段(功能性)和/或结构。

这些计算机程序指令还可以被存储在有形计算机可读介质中,该有形计算机可读介质可以指导计算机或其他可编程数据处理装置以特定方式运行,以使得被存储在计算机可读介质中的指令产生制品,该制品包括实现在框图和/或一个或多个流程图方框中指定的功能/动作的指令。因此,本发明构思的实施例可以被体现在硬件和/或在诸如数字信号处理器之类的处理器上运行的软件(包括固件、常驻软件、微代码等)中,它们可以被统称为“电路系统”、“模块”或其变型。

还应当注意,在一些替代实现中,在框中标注的功能/动作可以不按照在流程图中标注的顺序发生。例如,取决于所涉及的功能/动作,被示为连续的两个方框实际上可以基本上并行地执行,或者方框有时可以以相反的顺序执行。此外,流程图和/或框图的给定方框的功能可以被分成多个方框,和/或流程图和/或框图的两个或更多方框的功能可以至少部分地被集成。最后,在不脱离本发明构思的范围的情况下,可以在所图示的方框之间添加/插入其他方框,和/或可以省略方框/操作。此外,虽然一些图包括在通信路径上的箭头以示出通信的主要方向,但是应当理解,通信可以在与所描绘箭头相反的方向上发生。

在实质上不脱离本发明构思的原理的情况下,可以对实施例进行各种变化和修改。所有这些变化和修改都旨在被包括在本发明构思的范围内。因此,上述公开的主题被认为是说明性的而非限制性的,并且实施例的示例旨在覆盖落入本发明构思的精神和范围内的所有这种修改、增强和其他实施例。因此,在法律允许的最大范围内,本发明构思的范围将由包括实施例及其等同的示例的本公开最广泛的可允许解释来确定,并且不应受前述详细描述的约束或限制。

下面提供了附加说明。

通常,在本文中使用的所有术语应根据其在相关技术领域中的普通含义来解释,除非清楚地给出不同的含义和/或从其使用的上下文中暗示不同的含义。除非明确声明,否则,对一/一个/该元件、装置、组件、部件、步骤等的所有引用应公开解释为是指该元件、装置、组件、部件、步骤等的至少一个实例。本文公开的任何方法的步骤并不必需以公开的确切顺序执行,除非一个步骤被明确描述为在另一个步骤之后或之前和/或其中暗示一个步骤必须在另一个步骤之后或之前。只要合适,本文公开的任何实施例的任何特征可以应用于任何其他实施例。同样,任何实施例的任何优点可适用于任何其他实施例,反之亦然。所公开实施例的其他目的、特征和优点将从以下描述中显而易见。

本文公开的任何适当的步骤、方法、特征、功能或益处可以通过一个或多个虚拟装置的一个或多个功能单元或模块来执行。每个虚拟装置可以包括多个这种功能单元。这些功能单元可以通过处理电路来实现,处理电路可以包括一个或多个微处理器或微控制器以及其他数字硬件,其他数字硬件可以包括数字信号处理器(dsp)、专用数字逻辑等。处理电路可以被配置为执行被存储在存储器中的程序代码,存储器可以包括一种或多种类型的存储器,诸如只读存储器(rom)、随机存取存储器(ram)、高速缓存存储器、闪存设备、光存储设备等。被存储在存储器中的程序代码包括用于执行一种或多种电信和/或数据通信协议的程序指令以及用于执行本文所述的一种或多种技术的指令。在一些实施方式中,处理电路可以用于使相应的功能单元执行根据本公开的一个或多个实施例的对应应功能。

术语“单元”在电子、电气设备和/或电子设备领域可以具有常规含义并且可以包括例如电气和/或电子电路、设备、模块、处理器、存储器、逻辑固态和/或用于执行相应任务、程序、计算、输出和/或显示功能等的离散设备、计算机程序或指令等等,诸如在本文中所描述的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1