压缩多声道音频的重排和比特率分配的制作方法_2

文档序号:9221724阅读:来源:国知局
明提供了一种更加易于实现的解决方案。
[0032]图1说明根据本说明书所述一项或多项实施方式,使用已优化的信号重排和比特 率分配进行多声道音频压缩的示例系统。
[0033]多声道音频信号105可被输入压缩优化引擎110,该引擎可包括信号重排单元115 和比特分配单元120。压缩优化引擎110可根据至少一项感知标准,通过125M(其中"M"是 一个任意数)输出子信号125A和125B,并通过130M输出相应的比特率130A和130B。随 后,音频编解码器140A和140B可通过140N(其中"N"是一个任意数)经由125M对子信号 125A和125B进行量化处理并经由130M对已分配的比特率130A和130B进行量化处理。
[0034] 图1中说明的示例系统包括压缩优化引擎110正在采用的信号重排和比特率分配 算法(例如,通过信号重排单元115和比特分配单元120),该引擎是独立于140N中音频编 解码器140A和140B的组件。此类安排允许应用不同的音频编解码器(例如140N中的音 频编解码器140A和140B)并且也相对易于实现。不过,应了解,在一项或多项其他实施方 式中,信号重排和比特率分配算法也可通过140N集成到一个或多个音频编解码器140A和 140B中,以补充或取代系统独立组件正在执行的算法。
[0035] 通过140N经音频编解码器140A和140B压缩后,已压缩的子信号可利用组合组件 150重新组合成为原始格式。在至少一项实施方式中,组合组件150可根据原始多声道音频 信号105的重排方式,重组已压缩的子信号。
[0036] 图2是根据本说明书所述一项或多项实施方式,使用优化的信号重排和比特率分 配进行多声道音频压缩的概括示例过程说明。
[0037] 在块200中,多声道音频信号可被重排为子信号(例如,在图1所示的示例系统 中,多声道音频信号105可通过125M被重排为子信号125A和125B)。在块205中,每个子 信号可获得一个比特率(例如,在图1所示的示例系统中,通过130M获得比特率130A和 130B)。信号重排和比特率分配可按照一项标准(例如,整体比特率失真性能)进行优化, 具体内容详见下文所述。
[0038] 在块210中,子信号可按照已分配的比特率,使用现有的音频编解码器进行量化 处理。然后所述过程移至块215。在块215中,已压缩的子信号可按照原始多声道信号的重 排方式组合成为原始格式。本说明书中包括图2所说明过程的其他详情。
[0039] 2?问题陈述
[0040] 如上所述,多声道音频压缩的传统方法通常包括根据经验法则的手动信号重排和 比特率分配,这种方法十分复杂,大多数非领域专业人士都难以操作。相较于此类传统方 法,本说明书所述之确定最优信号重排和比特率分配的方法和系统可提供更加出色的性能 和用户友好性,具体内容详见下文描述。
[0041] 以下描述中将使用多项数学惯例和符号。原始多声道音频信号被标记为s,包 括L个声道,分别为Sl,s2,. . .,\(其中"L"为任意数)。原始信号s可被重排为子信号gl,g2,. . .,gn(其中"n"为任意数),其中每个子信号是相应原始L个声道的子集,例如, 沿e4[{1,2,...,[}}。指标集{11;}形成一个重排,满足厶0/6 =
此外,Ik的基数记为IIk|。
[0042] 现有的音频编解码器可用于按照特定比特率压缩子信号,生成可用于重建子信号 的比特流。使用函数色=沁(gtA)表示利用编解码器qk按照比特率rk重建gk。音频信号 的压缩通常会产生损耗,这意味着^与gk并不相等。这种差异通常采用失真测度进行量 化。以下表达式考虑整体失真测度,将所有涉及的编解码器纳入考量
[0043] 重排多声道音频信号以实现最优压缩的问题在于找到gk(或相应的Ik)以及rk,在 比特率总量内实现整体失真最小化。从数学角度看,该问题可表示为
[0044]
[0045]
[0046]rk^ 0.
[0047] 如果希望尽量降低给定失真水平下的比特率,该问题可表示为
[0048]
[0049]
[0050] rk^ 0.
[0051] 该问题的表达式(2)与表达式(1)共轭,可利用类似方法加以解决。本说明书所 述发明重点关注采用方程式(1)表达的问题。
[0052] 为简化信号重排和比特率分配问题,并且提出解决方案,做出多个假设,进一步说 明如下。
[0053] 3.拟议解决方案
[0054] 根据至少一项实施方式,第一个假设是整体失真具有加性。特别的,
[0055]
[0056] 由于常用的音频压缩失真测度(例如,加权均方误差(MSE))具有加性,因此表达 式(3)表示的假设具有合理性。基于该假设,表达式(1)表示的原始问题可被拆分为更小 的问题,每个小问题可针对一个子信号加以优化。
[0057] 由于失真由特定音频编解码器的特性决定,因此难以分析,进而提出第二个假设。 因此,以下描述从信息论角度考虑了最优失真并将失真概括为更具现实意义的表达。
[0058] A?最优失真
[0059] 以下内容考虑了音频编解码器可实现的最优失真。在上文所述的之前环境中,此 类编解码器可应用于子信号中。为简单起见,以下表述减少了使用子信号的概念并考虑了 c声道信号(此处"c"为任意数)的最优压缩。
[0060] 根据信息论的观点,可推导出任意比特率压缩多声道音频信号的最小失真。多维 的高斯过程可用于建立多声道音频信号模型,该模型可代表之前环境中的任何子信号。对 于某些音频段,例如几十毫秒的音频段,此类假设可能成立。因此,本说明书所述的方法和 系统可逐帧应用于真实的音频信号。
[0061] 多维高斯过程的特点是其谱矩阵
[0062]
[0063] 在表示多维高斯过程的上述谱矩阵(4)中,对角元素是多维高斯过程中各 自声道的自功率谱密度(PSD),而非对角元素则是各自声道的互功率谱密度,其满足 Sii(co) = Sii(co) 〇
[0064] 如果所述MSE被视为失真测度,则在比特率r情况下可实现的最小失真符合采用 参数n的参数表达式:
[0068] 其中入k(S(?))代表该谱矩阵第k个特征值(实际为《的函数)。
[0069] 假设次~&上述表达式(6)中显示的计算可进一步简化。如果整体 失真水平足够低,则该假设成立。这取决于功率谱的动态范围,更加重要的是取决于感知加 权。换言之,由于感知加权得当,可缩小功率谱的动态范围,上述假设方可有效。基于该假 设,显而易见
[0070] . (7)
[0071] 在上述表达式(7)中,是关于多元高斯过程的熵率。换言 之 _]
. (8)
[0073] 随后,由上述表达式(8)显示的关系可得出
[0074]
(9)
[0075] 对于实际的音频编解码器,可假设失真遵循以下一般形式:
[_]
(1〇)
[0077] 其中f(r)是与编解码器相关的比特率函数。因此,最优比特率函数为
[0078] 应注意,在实际音频编码中,失真测度通常可解释上述描述中未涉及的感知效应。 根据感知标准修改输入信号,随后对已修改的信号进行简单的失真测度,进而可将众多感 知效应纳入考量。根据感知标准修改输入信号的其他详情,将在下述"示例应用"中加以说 明。
[0079] B.最优重排和比特率分配
[0080] 基于上述章节中更加广义的最优失真表达式,以下内容描述了根据本说明书所述 发明的一项或多项实施方式,确定多声道音频信号最优重排和比特率分配的其他详情。正 如下文的进一步说明,该方法的至少一项实施方式可解决以下问题:(1)给定信号重排时, 确定最优比特率分配,以及(2)确定最优信号重排。
[0081] 给定原始多声道音频信号的重排时,令Sk(?)表
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1