音频处理的制作方法

文档序号:2827117阅读:191来源:国知局
音频处理的制作方法
【专利摘要】用于空间合成的音频处理系统(100)包括上混平台(110),所述上混平台接收经解码的m声道下混信号(X)并基于其输出n声道上混信号(Y),其中2≤m<n。上混平台包括下混修改处理器(120),所述下混修改处理器接收m声道下混信号并输出通过下混信号的交叉混合和非线性处理获得的经修改的下混信号(d1,d2),并且还包括第一混合矩阵(130),所述第一混合矩阵接收下混信号和经修改的下混信号,形成只有下混信号声道和经修改的下混信号声道的n声道线性组合,并且将其输出为n声道上混信号。在实施例中,第一混合矩阵接受对由第一混合矩阵执行的线性组合中的至少一个增益进行控制的一个或更多个混合参数(g,α1,…)。所述增益是次数≤2的多项式。
【专利说明】音频处理
[0001] 相关申请的交叉引用
[0002] 本申请要求2012年2月24日提交的美国临时专利申请No. 61/603, 001和2012 年5月11日提交的美国临时专利申请No. 61/645,809的优先权,其全文内容通过参考被并 入于此。

【技术领域】
[0003] 在此公开的发明一般涉及多声道音频代码化(code),并且更精确地涉及用于参数 多声道音频编码和解码的技术。

【背景技术】
[0004] 已知参数立体声和多声道代码化方法在收听质量(listening quality)方面是可 扩展(scalable)和有效的,这使得它们在低比特率应用中尤其具有吸引力。参数代码化方 法典型地提供了优秀的代码化效率,但是在被实现时有时候可能包括大量的计算或高度的 结构复杂性(中间缓冲器,等等)。这类方法的示例可见EP 1410687B1。
[0005] 目前的立体声代码化方法可以从它们的带宽效率、计算效率和/或鲁棒性 (robustness)的角度来改善。对抗下混(downmix)信号中的缺陷的鲁棒性在依赖会暂时使 信号失真的核心代码化装置的应用中尤为相关。但是,在一些现有技术的系统中,下混信号 中的误差可以传播和增加。意图用于大范围的装置(其中多功能便携式消费装置可能具有 最有限的处理能力)的代码化方法也应该在计算上是节约的,使得不需要指定装置中可用 资源(无论是关于瞬间处理能力还是电池放电周期内的能量使用总量)的不合理的份额。 有吸引力的代码化方法还可使得能够有至少一种简单而有效的硬件方式的实现。决定这种 代码化方法将如何消耗可用的计算、存储和带宽资源(其中它们最有效地为感知的收听质 量作出贡献)是一件重要的任务,其可能包括耗时的收听测试。

【专利附图】

【附图说明】
[0006] 现在将参照附图描述本发明的实施例,其中:
[0007] 图1是用于执行空间合成(spatial synthesis)的音频处理系统的概括性框图;
[0008] 图2示出了图1中的系统的细节;
[0009] 图3与图1类似地示出了用于执行空间合成的音频处理系统;以及 [0010] 图4示出了用于执行空间分析的音频处理系统。
[0011] 所有附图都是示意性的,并且只一般性地示出了为了阐明本发明而必要的部分, 而其他的部分可以被省略或仅仅被暗示。除非另有说明,否则不同附图中的相同的附图标 记指的是相同的部分。

【具体实施方式】
[0012] I .综述
[0013] 本发明的示例性实施例提出了使得能够进行经参数代码化的多声道音频的分析 和合成的方法和装置。本发明的示例性实施例提供了空间合成方法、空间分析方法以及用 于执行这些方法的装置和计算机程序产品,其特征在独立权利要求中得到阐述。
[0014] 本发明的第一示例性实施例提供了用于执行空间合成的音频处理系统。该系统包 括适于接收经解码的m声道下混信号X以及基于该下混信号X输出η声道上混信号Y的上 混平台(upmix stage),其中2 < m < η。上混平台包括:
[0015] ?下混修改处理器,接收m声道下混信号并输出通过下混信号的交叉混合(cross mix)和非线性处理而获得的经修改的下混信号D ;以及
[0016] ?第一混合矩阵,接收下混信号与经修改的下混信号,形成只有下混信号声道和 经修改的下混信号声道的η声道线性组合,并将该线性组合输出作为η声道上混信号。
[0017] 根据本发明,除了下混信号和经修改的下混信号之外没有其他的信号对上混信号 作出贡献。混合矩阵直接对下混信号进行操作,而不是在可能具有中间非线性操作(例 如,与解相关有关的处理)的情况下级联混合矩阵。系统的这个结构以及下面将描述的参 数化允许在编码器中提供并行的预定义的下混。例如,下混信号不一定如典型地使用帧式 (frame-wise)信号自适应的下混的情况一样,通过级联的(和可能是树状结构的)参数提 取来获得。作为替代,根据本发明的实施例,下混和参数提取可作为不需要交换任何信息和 /或不需要被同步的并行的独立的处理来执行。另外,与其中从中间的估计的声道推导出输 出声道的现有技术的参数化方案相比,下面将描述的参数化在对抗下混信号中的缺陷方面 更有鲁棒性。作为另一个优点,该参数化可用廉价的硬件(例如,用有限数量的用于中间值 的缓冲空间)实现。
[0018] 第二示例性实施例提供了一种音频处理系统,该音频处理系统用于执行空间分析 并且适于例如通过广播、流动、传输或存储将由合成系统解码的经编码的音频数据来与第 一示例性实施例合作。该系统包括下混平台和参数提取器。根据本发明,下混平台和参数 提取器独立地操作。例如,即使参数提取器产生频率变化的混合参数,下混平台也可对音频 信号的时域表示进行操作。这是可能的,因为下混平台执行预定义类型的下混操作,该预定 义类型已被参数提取器所知或被传达给参数提取器。因为下混平台在时域中处理信号,所 以它可以在基本上无算法延迟的情况下操作。如果下混平台不施加要求能量守恒等的条件 的话尤其如此,其否则会必需其上实施该条件的面向块的实现方式,其中下混信号被生成 为非零长度的片段。然而,在运用时域下混的实施例中,(η声道)输入和(m声道)输出之 间的任何延迟可通过分配充足的处理资源而被减少至基本上为0。
[0019] 在示例性实施例中,下混信号是2声道立体声信号并且上混信号是5. 1声道信号 (η = 6)。
[0020] 在示例性实施例中,为了获得上混信号中的空间上的左、右声道(这些声道可被 看作是上混信号中的一组声道;它可以是上混信号中的声道的合适的子集)而施加的所有 增益是混合参数中的一个或更多个混合参数的多项式,其中每个多项式的次数小于或等于 2。这提供了基于混合参数的混合矩阵元素的廉价计算。与其中不能在有限数量的操作中 准确地计算出一些矩阵元素的参数化方案(例如矩阵元素是混合参数的三角函数)相比, 这方面的改善尤其显著。为该组声道使用作为低次多项式的增益的另一个优点是所述增益 将包含这样的项:每个项是至多两个混合参数的乘积。这意味着误差传播的风险低于增益 包含作为三个或更多个混合参数的乘积的项的情况。它还意味着具有其中三个或更多个 错误的混合参数结构性地合作的项的风险,如例如三个都大于它们的准确值的混合参数的 乘积中的情况一样。作为替代,根据本示例性实施例,有不同符号的误差相抵消的可能性增 大。在该示例性实施例的特定变体中,为了获得上混信号中的声道而施加的任何增益是至 多2次的多项式。
[0021] 在示例性实施例中,向下混信号中的声道施加的增益以与向经修改的下混信号中 的声道施加的增益不同的方式被编码。在该示例性实施例中,向下混信号中的声道施加的 增益是混合参数的2次多项式,而向经修改的下混信号中的声道施加的增益是混合参数的 〇次或1次多项式。通过这种方法,向经修改的下混信号施加的增益不是如该情况那样可控 制的,但是也将消耗更少量的带宽或存储空间。相反地,来自其中缺陷(例如,误差、伪迹) 会最能听得见的那些声道的贡献(contribution)被除了具有单个混合参数的项之外还包 含作为两个混合参数的乘积的项的增益所控制。这允许细粒度的可控性和高级的统计建 模。从而,带宽被更加有效地使用。
[0022] 在之前示例性实施例的进一步发展中,形成施加给经修改的下混信号中的声道的 增益的一部分的混合参数被均匀量化。
[0023] 在示例性实施例中,下混信号中和上混信号中空间对应的声道之间存在直接的关 系。空间对应的声道的示例可以为:(1)下混信号中的左声道和上混中的所有左声道(常 规左,前置左,中置左,左高度,左环绕,直接左环绕,后置左环绕,左宽);(2)下混信号中的 中置声道和上混中的中置声道。该直接关系可以引起下混信号中的声道的变化对上混信号 中的空间对应的声道具有独立地可控制的影响。更准确地说,从下混信号中的声道到上混 信号中的空间对应的声道的贡献通过按照下面的示例性公式改变独立的混合参数g而单 独地可控:
[0024]

【权利要求】
1. 一种用于执行空间合成的音频处理系统(100), 该音频处理系统包括上混平台(110),所述上混平台接收经解码的m声道下混信号(X) 并基于该经解码的m声道下混信号输出η声道上混信号(Y),其中2 < m < n,所述上混平 台包括: 下混修改处理器(120),接收m声道下混信号,并输出通过下混信号的交叉混合和非线 性处理获得的经修改的下混信号;D);以及 第一混合矩阵(130),接收下混信号和经修改的下混信号,形成只有下混信号声道和经 修改的下混信号声道的η声道线性组合并将该η声道线性组合输出为η声道上混信号。
2. 如权利要求1所述的音频处理系统,其中: 第一混合矩阵接受对由第一混合矩阵执行的线性组合中的至少一个增益进行控制的 一个或更多个混合参数(Ct ^ Ct 2、α 3、β 1、β 2、β 3、g、4、k2)。
3. 如权利要求2所述的音频处理系统,其中: 第一混合矩阵接受具有量化格式的混合参数; η声道上混信号包括作为下混信号和经修改的下混信号两者的线性组合而获得的一组 声道;并且 在由第一混合矩阵执行的线性组合中,为了获得所述一组声道而施加的所有增益是混 合参数中的一个或更多个混合参数的多项式,其中每个多项式的次数小于或等于2。
4. 如权利要求2所述的音频处理系统,其中: 第一混合矩阵接受具有量化格式的混合参数;并且 在由第一混合矩阵执行的线性组合中: 施加给下混信号中的声道的所有增益是混合参数中的一个或更多个混合参数的多项 式,其中每个多项式的次数等于2。
5. 如权利要求2至4中任一权利要求所述的音频处理系统,其中: 第一混合矩阵接受具有量化格式的混合参数;以及 施加给经修改的下混信号中的声道的所有增益是混合参数中的一个或更多个混合参 数的多项式,其中每个多项式的次数小于或等于1。
6. 如权利要求2所述的音频处理系统,其中从下混信号中的声道到上混信号中的空间 对应的声道的贡献能借助混合参数(g)单独地控制,并且到下混信号中的相同声道的任何 其他贡献能由均匀量化的混合参数(α ρ α 2、α 3、β ρ β 2、β 3)控制。
7. 如权利要求2至6中任一权利要求所述的音频处理系统,其中: 混合参数中的一个混合参数对两个增益参数(ki、k2)进行编码;并且 由第一混合矩阵执行的线性组合中的一个或更多个增益线性地依赖于这两个增益参 数中的一个。
8. 如权利要求2至7中任一权利要求所述的音频处理系统,其中: 上混平台被布置为对下混信号和上混信号的频域表示进行操作; 每个信号和每个混合参数被分割为时间帧并且包括多个频率子带,其中对于每个时间 帧所有信号共享第一单个子带配置,并且对于每个时间帧所有混合参数共享第二单个子带 配置;并且 第二子带配置限定混合参数的频率子带,所述混合参数对在由第一混合矩阵执行的所 述线性组合中施加给信号的相关联的频率子带的增益进行控制。
9. 如权利要求8所述的音频处理系统,其中混合参数中的至少一个的所有频率子带关 于均匀的分辨率被量化。
10. 如权利要求9所述的音频处理系统,其中所述均匀的分辨率为混合参数的所有频 率子带所共有。
11. 如权利要求8至10中任一权利要求所述的音频处理系统,还被配置为借助于第一 混合矩阵,以定性地均匀的方式为所有频率子带生成上混信号。
12. 如权利要求8至11中任一权利要求所述的音频处理系统,被布置为对下混信号和 上混信号的部分复数频域表示进行操作,其中所述部分复数频域表示中的每一个包括: -在上频率范围中:第一频谱成分,所述第一频谱成分代表在多维空间的第一子空间 中表达的对应信号的频谱内容,以及 -在下频率范围中:除了包括所述第一频谱成分外,还包括第二频谱成分,所述第二频 谱成分代表在所述多维空间的第二子空间中表达的对应信号的频谱内容,所述第二子空间 包括所述多维空间的不包括在第一子空间内的一部分。
13. 如权利要求12所述的音频处理系统,其中所述部分复数频域表示中的每一个在上 频率范围内被临界采样。
14. 如权利要求2至13中任一权利要求所述的音频处理系统,下混修改处理器包括: 第二混合矩阵(121),接收m声道下混信号,形成下混信号声道的线性组合,并且将该 线性组合输出为m声道中间信号(Z);以及 解相关器(122),接收m声道中间信号并输出包括m个经解相关的声道的经修改的下混 信号, 其中第二混合矩阵被配置为接受所述一个或更多个混合参数中的至少一个,所述至少 一个混合参数控制由第二混合矩阵执行的线性混合中的至少一个系数。
15. 如权利要求14所述的音频处理系统,其中解相关器包括m个相同地配置的子解相 关器(123、124),每个子解相关器与各自的信号声道相关联。
16. 如权利要求14或15所述的音频处理系统,其中解相关器包括至少一个具有实数值 系数的无限脉冲响应格型滤波器,所述无限脉冲响应格型滤波器接收中间信号的声道并且 输出经修改的下混信号的声道中的一个。
17. 如权利要求14至16中任一权利要求所述的音频处理系统,其中解相关器包括伪迹 伪迹衰减器(125),所述伪迹衰减器被配置为检测中间信号中的声音结尾,并且响应于其采 取校正动作。
18. 如之前权利要求中的任一权利要求所述的音频处理系统,还包括音频解码器 (140),所述音频解码器接收对下混信号进行编码的比特流(P),并基于其输出经解码的m 声道下混信号。
19. 一种空间合成方法,包括如下步骤: 在下混修改处理器中通过下混信号的交叉混合和非线性处理来修改m声道下混信号 (X)以获得经修改的下混信号(D);以及 在第一混合矩阵中形成下混信号和经修改的下混信号的η声道线性组合,并且将其输 出为η声道上混信号(Υ),其中2彡m < η。
20. -种用于执行空间分析的音频处理系统(400),该音频处理系统包括: 下混平台(410),接收η声道输入信号(Y),形成η声道信号中的声道的m声道线性组 合,并且将其输出为m声道输出信号(X),其中2 <m< η ;以及 参数提取器(420),接收η声道输入信号(Υ),并且输出对要由空间合成音频处理系统 执行的线性组合中的至少一个增益进行控制的一个或更多个混合参数(h、α2、a3、 β 2、β 3、g、ki、k2),所述线性组合至少包括所述m声道输出信号和由m声道输出信号的非线 性处理产生的信号, 其中下混平台和参数提取器独立地操作。
21. 如权利要求20所述的音频处理系统,其中下混平台和参数提取器都能够利用定量 地控制下混平台中所述m声道线性组合的形成的下混规范。
22. 如权利要求20或21所述的音频处理系统,其中下混平台被布置为对信号的时域表 示进行操作。
23. -种空间分析方法,包括如下步骤: 在下混平台中形成η声道输入信号(Y)中的声道的m声道线性组合,以获得m声道输 出信号(X),其中2彡m<n ;以及 在与下混平台独立操作的参数提取器中,提取对要在空间合成期间执行的线性组合中 的至少一个增益进行控制的一个或更多个混合参数(α ρ α 2、α 3、β ρ β 2、β 3、g、kp k2), 所述线性组合至少包括m声道输出信号和由m声道输出信号的非线性处理产生的信号。
24. -种计算机程序产品,包括具有用于执行权利要求19或23的方法的计算机可读指 令的计算机可读介质。
25. 如之前权利要求中的任一权利要求所述的方法或装置,其中m = 2且η = 6。
【文档编号】G10L19/008GK104160442SQ201380010478
【公开日】2014年11月19日 申请日期:2013年2月22日 优先权日:2012年2月24日
【发明者】K·克约尔林, H·普恩哈根, K·J·罗德恩, L·塞勒斯德姆, L·维尔莫斯 申请人:杜比国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1