音频装置及其方法

文档序号:9494029阅读:368来源:国知局
音频装置及其方法
【技术领域】
[0001] 本发明涉及音频装置及其方法,并且特别地但并非排他地涉及渲染对未知音频换 能器配置的适配。
【背景技术】
[0002] 在最近几十年中,音频应用的多样性和灵活性随着例如显著变化的音频渲染应用 的多样性而极大地增加。除了那之外,音频渲染设置用在种种声环境中且用于很多不同的 应用。
[0003] 在传统上,总是针对一个或多个规定的扬声器配置来开发空间声再现系统。作为 结果,空间体验取决于所使用的实际扬声器配置多么接近地匹配所定义的标称配置,并且 一般只针对实质上正确地,即根据规定的扬声器配置被建立的系统,来实现高质量空间体 验。
[0004] 然而使用具有一般相对高数量的扬声器的特定扬声器配置的要求是麻烦的和不 利的。实际上,由消费者在部署例如家庭影院环绕声系统时感觉到的明显的不方便是对将 要位于特定位置处的相对大数量的扬声器的需要。一般,实际环绕声扬声器设置将由于用 户发现将扬声器定位在最佳位置处是不实际的,例如由于在起居室中的可用扬声器位置上 的限制而从理想设置偏离。相应地,由这样的设置提供的体验且特别是空间体验是次优的。
[0005] 近年来,因此已经存在朝向消费者需求针对其扬声器的位置的不那么严格的要求 的强烈倾向。甚至,他们的主要要求是扬声器设置适合于他们的家庭环境,同时其当然期待 系统仍提供高质量的声音体验且特别是准确的空间体验。这些冲突的要求随着扬声器数目 的增加而变得更加突出。此外,由于朝向用从多个方向到收听者的声音来提供全三维声再 现的当前趋势,问题已变得更加相关。
[0006] 已经开发了音频编码格式以提供越来越有能力、多样化且灵活的音频服务,并且 特别地,已经开发了支持空间音频服务的音频编码格式。
[0007] 类似于MPEG、DTS以及杜比数码之类的众所周知的音频编码技术产生已编码多通 道音频信号,其将空间图像表现为围绕着在固定位置处的收听者的许多通道。针对与对应 于多通道信号的设置不同的扬声器设置,空间图像将是次优的。并且,基于通道的音频编码 系统通常不能应对不同数目的扬声器。
[0008] (IS0/IEC)MPEG-2提供了多通道音频编码工具,其中,比特流格式包括音频信号的 2通道和5多通道两者混频。当用(IS0/IEC)MPEG-1解码器对比特流进行解码时,再现2通 道后向兼容混音。当用MPEG-2解码器对比特流进行解码时,三个辅助数据通道被解码,其 在被与立体声通道组合(解矩阵)时导致音频信号的5通道混音。
[0009] (IS0/IEC MPEG-D)MPEG环绕声提供多通道音频编码工具,其允许将现有基于单声 道或立体声的编码器扩展至多通道音频应用。图1图示出MPEG环绕声系统的元件的示例。 使用通过原始多通道输入的分析而获得的空间参数,MPEG环绕声解码器可以通过单声道或 立体声信号的受控上混以获得多通道输出信号而重建空间图像。
[0010] 因为多通道输入信号的空间图像被参数化,MPEG环绕声允许通过不使用多通道扬 声器设置的渲染设备而允许同一多通道比特流的解码。示例是头戴式耳机上的虚拟环绕声 再现,其被称为MPEG环绕声双耳声解码过程。在此模式下,可以在使用正常头戴式耳机的 同时提供逼真的环绕声体验。另一示例是较高阶多通道输出(例如7. 1通道)到较低阶设置 (例如5. 1通道)的削减。
[0011] 如所提到的,随着越来越多的再现格式变得对主流消费者可用,在用于渲染空间 声音的渲染配置中的变化和灵活性在近年来明显增大了。这要求音频的灵活表现。与引 入MPEG环绕声编码解码器一起采取重要的步骤。尽管如此,仍然对特定的扬声器设置例如 ITU 5. 1扬声器设置产生并传输音频。没有规定在不同设置上和在非标准(即灵活的或用户 定义的)扬声器设置上的再现。实际上,期望使音频编码和变现越来越地独立于特定的预定 和标称扬声器设置。越来越优选地,对各种各样不同的扬声器设置的灵活适配可在解码器 /渲染侧处被执行。
[0012] 为了提供音频的更灵活的表现,MPEG标准化了称为"空间音频对象编码"(IS0/IEC MPEG-D SA0C)的格式。与多通道音频编码系统(例如DTS、杜比数码和MPEG环绕声)相反, SAOC提供对个体音频对象而不是音频通道的有效编码。虽然在MPEG环绕声中,每个扬声器 通道可被考虑为起源于声对象的不同混合,SAOC允许在如图2所示的多通道混合中的个体 声对象的位置的交互式操纵。
[0013] 类似于MPEG环绕声,SAOC也创建单声道或立体声下混。此外,对象参数被计算并 包括。在解码器侧,用户可操纵这些参数以控制个体对象的各种特征(例如位置、级别、均 衡),或甚至应用效果例如混响。图3图示使用户能够控制包含在SAOC比特流中的个体对 象的交互式接口。借助于植染矩阵,个体的声对象被映射到扬声器通道。
[0014] SAOC允许更灵活的方法,且特别是通过除了仅仅再现通道之外传输音频对象而允 许更多基于渲染的可适配性。这允许解码器侧将音频对象放置在空间中的任意位置处,假 定空间被扬声器充分覆盖。这样,在所传输的音频和再现或渲染设置之间没有关系,因此可 使用任意扬声器设置。这对于例如在典型起居室中的家庭影院设置(其中扬声器几乎从不 在意图位置处)是有利的。在SAOC中,在解码器处决定对象被放置在声场景中的哪里(例如 借助于如图3所示的接口),这可能不是从艺术观点通常所期望的。SAOC标准提供了在比特 流中传输默认渲染矩阵的方式,消除了解码器责任。然而,所提供的方法依赖于固定再现设 置或未规定的语法。因此,SAOC不提供标准手段来独立于扬声器设置完全传输音频场景。 而且,SAOC未很好地被配备到扩散信号成分的忠实渲染。虽然存在包括所谓的多通道背景 对象(MBO)以捕获扩散声音的可能性,这个目的被约束到一个特定的扬声器配置。
[0015] 3D音频的音频格式的另一规范由DTS有限公司(数字影院系统)开发。DTS有限公 司开发了多维音频(MDAtm)-一一种基于开放对象的音频创建和创作平台,以加速下一代内 容创建。MDA平台支持通道和音频对象两者,并适配于任何扬声器数量和配置。MDA格式允 许遗留多通道下混连同个体声对象一起的传输。此外,对象定位数据被包括。生成MDA音 频流的原理在图4中图示。
[0016] 在MDA方法中,声对象单独地在扩展流中被接收到,且这些可从多通道下混被提 取。因而产生的多通道下混连同单独可得到的对象一起被渲染。
[0017] 对象可由所谓的符尾组成。这些符尾基本上是被分组(下混的)的轨或对象。因 此,对象可由被封装进符尾内的多个子对象组成。在MDA中,多通道基准混合可与一系列音 频对象一起被传输。MDA传输每个对象的3D位置数据。可然后使用3D位置数据提取对象。 替代地,可传输描述在对象和基准混合之间的关系的逆混合矩阵。
[0018] 从MDA描述中,可能通过将角度和距离分配到每个对象来传输声场景信息,指示 对象应相对于例如默认的正向方向放置在哪里。因此,为每个对象传输位置信息。这对点 源是有用的,但不能描述宽源(像例如合唱队或喝彩)或扩散声场(例如背景)。当所有点源 从基准混合被提取时,背景多通道混合保留。类似于SA0C,在MDA中的残余物固定到特定的 扬声器设置。
[0019] 因此,SAOC和MDA方法都合并可个体地在解码器侧被操纵的个体音频对象的传 输。在这两种方法之间的差异是,SAOC通过提供相对于下混表征对象的参数(即,使得在解 码器侧处从下混产生音频对象)来提供关于音频对象的信息,而MDA提供音频对象作为完全 和单独的音频对象(即可在解码器侧处与下混独立地产生)。对于这两种方法,可为音频对 象传递位置数据。
[0020] 目前,在IS0/IEC MPEG内,准备标准MPEG-H 3D Audio以便于3D Audio的传输和 渲染。MPEG-H 3D Audio旨在连同HEVC视频编码和MMT (MPEG媒体传输)系统层一起成为 MPEG-H套件的部分。图5图示意图的MPEG 3D Audio系统的当前高级别方框图。
[0021] 除了传统的基于通道的格式以外,该方法旨在也支持基于对象和基于场景的格 式。系统的重要方面是,它的质量应针对增加的比特率的透明度而按比例调整,即随着数据 速率增加,由编码和解码引起的降级应继续减小,直到它是微不足道的为止。然而,这样的 要求对在过去相当大量地使用的参数编码技术(即MPEG-4 HE-AAC v2、MPEG环绕声、MPEG-D SAOC和MPEG-D USAC)往往是成问题的。特别是,个体彳目号的彳目息损失的补偿往往不被参数 数据安全补偿,甚至在非常高的比特率下也是如此。实际上,质量将被参数模型的内在质量 限制。
[0022] MPEG-H 3D Audio此外试图提供因而产生的独立于再现设置的比特流。所设想的 再现可能性包括多达22. 2个通道的灵活的扬声器设置以及在头戴式耳机和紧密地间隔开 的扬声器之上的虚拟环绕声。
[0023] 总之,大部分现有的声再现系统在扬声器设置方面只允许适度量的灵活性。因为 几乎每个现有的系统都根据关于扬声器(例如或多或少等距地围绕收听者定位的扬声器, 或布置在收听者的前方的一条线上的扬声器,或头戴式耳机)的一般配置,或关于内容的属 性(例如由少量单独可定位源组成或由高度扩散声场景组成)的某个基本假设来开发,每个 系统只能够传送用针对可出现在渲染环境中(例如在用户的家里)的有限范围的扬声器配 置的最佳体验。允许灵活的扬声器设置的新的一类声音渲染系统因此是期望的。
[0024] 因此,当前采取各种活动以便开发更加灵活的音频系统。特别地,采取用以开发被 已知为IS0/IEC MPEG-H 3D音频标准的音频标准的音频标准化活动,目的是提供单个高效 的格式,其针对头戴式耳机和灵活的扬声器设置的向消费者提供沉浸式音频体验。
[0025] 该活动确认了大多数消费者不能和/或不愿意(例如由于房间的物理限制)遵守 常规标准的标准化扬声器设置要求。替代地,其将其扬声器放置在其家庭环境中的其能够 适合它们的任何地方,这一般地导致次优的声音体验。给定这只不过是日常现实的事实, MPEG-H 3D Audio的倡议目的在于在给定消费者的优选扬声器设置的情况下为消费者提供 最佳体验。因此,不是假设扬声器处于任何特定位置处并因此要求用户使扬声器设置适配 于音频标准的要求,而是该倡议设法开发一种适配于用户已经建立的任何特定扬声器配置 的首频系统。
[0026] MPEG-H 3D Audio征集提案的参考渲染器是矢量基幅值平移(VBAP)的使用。这 是一种良好地确立的技术,其通过在成对扬声器(或包括处于不同高度处的扬声器的设置 中的三元组)之间应用源/通道的重新平移来修正与标准化扬声器配置(例如5. 1、7. 1或 22. 2)的偏差。
[0027] VBAP由于其在许多情况下提供合理的解决方案而一般地被视为用于修正非标准 扬声器放置的参考技术。然而,还已变得清楚的是存在对该技术可以有效地处理的扬声器 位置的偏差的限制。例如,由于VBAP依赖于幅值平移,所以其在具有扬声器之间、尤其是前 扬声器与后扬声器之间的大间隙的使用情况中并未给出非常令人满意的结果。并且,其完 全不能处理具有环绕声内容以及仅仅前扬声器的使用情况。其中VBAP给出次优结果的另 一特定使用情况是当可用扬声器的子集在小的区域内聚集,诸如围绕着TV聚集(或者可能 甚至集成在其中)时。相应地,改善的渲染和适配方法将是期望的。
[0028] 因此,改善的音频渲染方法将是有利的,特别是允许增大的灵活性、便利的实施方 式和/或操作、允许扬声器的更灵活定位、改善对不同扬声器配置的适配性和/或改善的性 能的方法将是有利的。

【发明内容】

[0029] 相应地,本发明设法优选地单个地或以任何组合方式缓解、减轻或消除上面提到 的缺点中的一个或多个。
[0030] 根据本发明的一方面,提供了一种音频装置,包括:接收器,其用于接收音频数据 和多个音频换能器的音频换能器位置数据;渲染器,其用于通过从音频数据生成用于所述 多个音频换能器的音频换能器驱动信号来渲染音频数据;聚类器,其用于响应于音频换能 器位置数据和根据空间距离度量的所述多个音频换能器的音频换能器之间的距离而将所 述多个音频换能器聚类成一组音频换能器集群;以及渲染控制器,其被布置成响应于所述 聚类而适配渲染。
[0031] 本发明可在许多情形中提供改善的渲染。在许多实际应用中,可实现基本上改善 的用户体验。该方法允许增加被用于渲染音频的音频换能器(具体地扬声器)的定位方面的 灵活性和自由度。在许多应用和实施例中,该方法可允许该渲染适配于特定音频换能器配 置。事实上,在许多实施例中,该方法可允许用户简单地将扬声器定位于期望位置处(可能 与总体方针相关联,例如以尝试围绕收听场所),并且该系统可自动地适配于特定配置。
[0032] 该方法可提供高度的灵活性。事实上,聚类方法可提供对特定配置的特别 (ad-hoc)适配。例如,该方法不需要例如每个集群中的音频换能器的尺寸的预定判定。事 实上,在典型的实施例和情形中,每个集群中的音频换能器的数目在聚类之前将是未知的。 并且,每个集群中的音频换能器的数目通常对于(至少某些)不同的集群而言将是不同的。
[0033] 某些集群可包括仅仅单个音频换能器(例如如果该单个音频换能器距离所有其它 音频换能器太远而使距离不能满足用于聚类的给定要求)。
[0034] 该聚类可设法将具有空间相干性的音频换能器聚类成相同集群。给定集群中的音 频换能器可具有给定空间关系,诸如最大距离或最大近邻距离。
[0035] 渲染控制器可适配渲染。该适配可以是用于一个或多个集群的渲染算法/模式的 选择和/或可以是渲染算法/模式的参数的适配/配置/修改。
[0036] 渲染的适配可以响应于聚类的结果,诸如音频换能器到集群的分配、集群的数目、 集群中的音频换能器的参数(例如,所有音频换能器之间或最近邻音频换能器之间的最大 距离)。
[0037] 可根据空间距离度量来确定音频换能器之间的距离(事实上,在某些实施例中,包 括例如最近邻的确定等所有距离)。
[0038] 空间距离度量在许多实施例中可以是欧几里德或角距离。
[0039] 在某些实施例中,空间距离度量可以是三维空间距离度量,诸如三维欧几里德距 离。
[0040] 在某些实施例中,空间距离度量可以是二维空间距离度量,诸如二维欧几里德距 离。例如,空间距离度量可以是被投射到平面上的矢量的欧几里德距离。例如,可将两个扬 声器的位置之间的矢量投射到水平平面上,并且可将该距离确定为投射矢量的欧几里德长 度。
[0041] 在某些实施例中,空间距离度量可以是一维空间距离度量,诸如角距离(例如对应 于两个音频换能器的极坐标表示的角度值方面的差)。
[0042] 音频换能器信号可以是用于音频换能器的驱动信号。音频换能器信号在被馈送到 音频换能器之前可被进一步处理,例如通过滤波或放大。等价地,音频换能器可以是有源换 能器,包括用于对所提供驱动信号进行放大和/或滤波的功能。可针对所述多个音频换能
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1