用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法

文档序号:8516120阅读:478来源:国知局
用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法
【技术领域】
[0001] 本发明涉及音频信号编码、音频信号译码及音频信号处理,且具体地,涉及用于反 向兼容多重分辨率空间音频对象编码(SAOC)的编码器、译码器及方法。
【背景技术】
[0002] 在现代数字音频系统中,主要倾向是允许在接收器侧上对所传输内容的音频对象 的相关修改。这些修改包括音频信号的所选择部分的增益修改及/或在经由空间分布的扬 声器的多通道播放状况下专用音频对象的空间复位。此情形可通过将音频内容的不同部分 单独地递送至不同扬声器来达成。
[0003] 换言之,在音频处理、音频传输及音频存储的技术中,存在增加的需要以允许关于 面向对象式音频内容播放的用户互动且还存在需求以利用多通道播放的扩展可能性以单 独地呈现音频内容或其部分以便改善听取印象。通过此情形,多信道音频内容的使用带来 对使用者的显著改良。举例而言,可获得三维听取印象,其带来娱乐应用中改善的使用者满 意度。然而,多信道音频内容还在专业环境中(例如,在电话会议应用)中有用,这是因为 发话人可懂得可通过使用多信道音频播放来改进。另一可能应用系将音乐片段提供给收听 者以单独地调整不同部分(也称为「音频对象」)或曲目(诸如,人声部分或不同乐器)的 播放层级及/或空间位置。使用者出于个人口味、为了易于转译来自音乐片段的一个或多 个部分、教育用途、伴唱机、排演等原因而可执行此调整。
[0004] 例如以脉码调变(PCM)数据或甚至经压缩音频格式的形式的所有数字多信道或 多对象音频内容的直接离散传输需要极高比特率。然而,也需要以比特率有效的方式来传 输并储存音频数据。因此,希望接受音频质量与比特率要求之间的合理取舍以便避免由多 信道/多对象应用引起的额外资源负载。
[0005] 最近,在音频编码的领域中,多信道/多对象音频信号的比特率有效传输/储存的 参数技术已通过例如动画专家组(MPEG)等引入。一个实例系作为信道导向式方法[MPS、 BCC]的MPEG环绕立体声(MPS),或作为面向对象式方法[JSC、SA0C、SA0C1、SA0C2]的MPEG 空间音频对象编码(SA0C)。另一面向对象式方法称为「消息源分离」[ISS1、ISS2、ISS3、 ISS4、ISS5、ISS6]。这些技术旨在在信道/对象及描述所传输/所储存音频场景及/或音 频场景中音频源对象的额外旁侧信息的下降混合基础上重建所要输出音频场景或所要音 频源对象。
[0006] 这些系统中信道/对象相关旁侧信息的估计及应用以时间频率选择性方式来进 行。因此,这些系统使用时间频率变换,诸如离散傅立叶变换(DFT)、短时间傅立叶变换 (STFT)或类似于正交镜相滤波器(QMF)组的滤波器组等。这些系统的基本原理使用MPEG SAOC的实例描绘于图4中。
[0007] 在STFT的状况下,时间维度通过时间区块数字来表示,且频谱维度通过频谱系数 (「区间」)编号来捕获。在QMF的状况下,时间维度通过时隙编号来表示,且频谱维度通过 子频带编号来捕获。若QMF的频谱分辨率通过第二滤波器级的后续应用来改良,则整个滤 波器组被称为混合式QMF且精细分辨率子频带被称为混合式子频带。
[0008] 如上文已提及,在SAOC中,通用处理以时间频率选择性方式进行,且可在每一频 带内描述如下:
[0009] -N个输入音频对象信号Sl··· sN使用由元素 d u…dN,P组成的下降混合矩阵下降混 合至P个信道Xf Xp作为编码器处理的部分。此外,编码器提取旁侧信息,旁侧信息描述输 入音频对象的特性(旁侧信息估计器(SIE)模块)。对于MPEG SA0C,对象功率关于彼此的 关系是此旁侧信息的最基本形式。
[0010]-传输/存储下降混合信号及旁侧信息。为此目的,下降混合音频信号可例如使用 诸如MPEG-1/2层II或III (又名mp3)、MPEG-2/4进阶音频编码(AAC)等熟知感知音频编 码器来压缩。
[0011]-在接收端,译码器概念上试图使用所传输的旁侧信息自(经译码)下降混合信 号来复原原始对象信号(「对象分离」)。这些经近似对象信号... §N接着使用由图4 中的系数!"u··· rN,M描述的呈现矩阵(rendering matrix)经混合成通过M个音频输出信道 夕1 ...夕M表示的目标场景。所要目标场景在极端状况下可以是来自混合物的仅一个源信 号的呈现(源分离情境),但也可以是由所传输的对象组成的其他任意声学场景。举例而 言,输出可系单信道、2信道立体或5. 1多信道目标场景。
[0012] 基于时间频率的系统可利用具有静态时间及频率分辨率的时间频率(t/f)变换。 选定某固定的t/f分辨率栅格通常涉及时间分辨率与频率分辨率之间的取舍。
[0013] 可关于音频信号混合物中的典型对象信号的实例来论证固定的t/f分辨率的效 应。举例而言,音调声音的频谱展现具有基本频率及若干泛音的谐波相关的结构。这些信 号的能量集中于某频率区处。对于这些信号,所利用t/f表示的高频率分辨率对于分离窄 频音调频谱区与信号混合物是有益的。相反,类似于鼓声的瞬变信号常常具有独特时间结 构:实质能量仅存在历时短时间周期,且分布于广范围的频率上。对于这些信号,所利用的 t/f表不的高时间分辨率对于分离瞬变信号部分与信号混合物是有利的。
[0014] 从标准SAOC表示获得的频率分辨率限于参数频带的数目,从而在标准SAOC中具 有最大值28。参数频带获得自由64频带QMF分析组成的混合式QMF组,其中最低频带上的 额外混合式滤波级将这些频带进一步划分成至多4个复合子频带。所获得的频带经分组成 参数频带,从而仿真人类听觉系统的关键频带分辨率。分组允许将所需要的旁侧信息数据 速率减小至在实际应用中可经有效地进行处置的大小。
[0015] 当前音频对象编码方案给予SAOC处理的仅时间频率选择性的有限可变性。举例 而言,MPEG SA0C[SA0C] [SA0C1] [SA0C2]限于可通过使用所谓混合式镜面滤波器组(混合 式QMF)及其后续至参数频带的分组获得的时间频率分辨率。因此,标准SAOC中的对象复 原常常遭受混合式QMF的粗糙频率分辨率,从而导致来自其他音频对象的可听经调变串扰 (例如,语音的双重讲话人为效应或音乐中的听觉粗糙人为效应)。
[0016] 给定合理的低数据速率,现有系统产生合理的分离质量。主要问题是音调声音的 完全分离的不足频率分辨率。此情形经展现为其他对象的包围一对象的音调分量的「光 晕」。此情形感知地观测为粗糙度或类似于声码器的人为效应。此光晕的有害效应可通过增 加参数频率分辨率来减小。注意到,等于或高于512个频带(以44. IkHz采样率)的分辨 率足够产生测试信号中感知上显著改良的分离。此高参数分辨率情况下的问题是需要的旁 侧信息的量大幅度地增加至不切实际的量。此外,与现有标准SAOC系统的兼容性将丢失。
[0017] 因此高度重视的是,是否可提供教示如何克服目前技术的上述约束的概念。

【发明内容】

[0018] 本发明的目标是提供用于音频对象编码的这些改良的概念。本发明的目标通过以 下各者来解决:如权利要求1所述的译码器、如权利要求9所述的编码器、如权利要求14所 述经编码音频信号、如权利要求15所述的系统、如权利要求16所述的用于解码的方法、如 权利要求17所述的用于编码的方法,及如权利要求18所述的计算机程序。
[0019] 与目前技术SAOC相反,本发明的实施例提供一种频谱参数化,使得
[0020]
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1