音频处理装置及其方法

文档序号：9439630阅读：384来源：国知局

音频处理装置及其方法
【技术领域】
[0001]本发明涉及音频处理装置及其方法，且更特别地但不排他地涉及包括不同类型的音频成分的空间音频的渲染。
【背景技术】
[0002]在最近几十年中，音频应用的多样性和灵活性随着例如显著变化的音频渲染应用的多样性而极大地增加。除了那之外，音频渲染设置用在种种声环境中且用于很多不同的应用。
[0003]在传统上，总是针对一个或多个规定的扬声器配置来开发空间声再现系统。作为结果，空间体验取决于所使用的实际扬声器配置多么接近地匹配所定义的标称配置，并且一般只针对实质上正确地，即根据规定的扬声器配置被建立的系统，来实现高质量空间体验。
[0004]然而使用具有一般相对高数量的扬声器的特定扬声器配置的要求是麻烦的和不利的。实际上，由消费者在部署例如家庭影院环绕声系统时感觉到的明显的不方便是对将要位于特定位置处的相对大数量的扬声器的需要。一般，实际环绕声扬声器设置将由于用户发现将扬声器定位在最佳位置处是不实际的而从理想设置偏离。相应地，由这样的设置提供的体验且特别是空间体验是次优的。
[0005]在近年来，因此有朝着消费者要求对他们的扬声器的位置的较不严格的需要的强烈趋势。甚至更加如此的是，他们的主要要求是扬声器设置适合他们的家庭环境，而同时他们当然预期系统仍然提供高质量声体验。当扬声器的数量增加时，这些冲突要求变得更突出。此外，由于朝着提供具有从多个方向到达收听者的声音的全三维声再现的当前趋势，问题变得更相关。
[0006]开发了音频编码格式以提供越来越有能力的、多变的和灵活的音频服务，且特别是，开发了支持空间音频服务的音频编码格式。
[0007]熟知的音频编码技术例如DTS和杜比数码产生将空间图像表示为围绕在固定位置处的收听者放置的多个通道的编码多通道音频信号。对于与对应于多通道信号的设置不同的扬声器设置，空间图像将是次优的。此外，基于通道的音频编码系统一般不能够对付不同数量的扬声器。
[0008](IS0/IEC) MPEG-2提供多通道音频编码工具，其中比特流格式包括音频信号的2通道和5多通道混合。当使用(IS0/IEC) MPEG-1解码器对比特流解码时，2通道后向兼容的混合被再现。当使用MPEG-2解码器对比特流解码时，三个辅助数据通道被解码，这三个辅助数据通道在与立体声通道组合(解矩阵)时导致音频信号的5通道混合。
[0009](IS0/IEC MPEG-D) MPEG环绕声提供允许现有的基于单声道或立体声的编码器扩展到多通道音频应用的多通道音频编码工具。图1图示MPEG环绕声系统的元件的例子。使用通过原始多通道输入的分析得到的空间参数，MPEG环绕声解码器可通过单声道或立体声信号的受控上混而重新创建空间图像，以得到多通道输出信号。
[0010]因为多通道输入信号的空间图像被参数化，MPEG环绕声允许通过不使用多通道扬声器设置的渲染设备对同一多通道比特流的解码。例子是在头戴式耳机上虚拟环绕声再现，这被称为MPEG环绕声双耳声解码过程。在这个模式中，当使用常规头戴式耳机时可提供逼真环绕声体验。另一例子是更高阶多通道输出(例如7.1通道)到更低阶设置(例如5.1通道)的削减。
[0011]如所提到的，随着越来越多的再现格式变得对主流消费者可用，在用于渲染空间声音的渲染配置中的变化和灵活性在近年来明显增大了。这要求音频的灵活表现。与引入MPEG环绕声编码解码器一起采取重要的步骤。尽管如此，仍然对特定的扬声器设置例如ITU 5.1扬声器设置产生并传输音频。没有规定在不同设置上和在非标准(即灵活的或用户定义的)扬声器设置上的再现。实际上，期望使音频编码和变现越来越地独立于特定的预定和标称扬声器设置。越来越优选地，对各种各样不同的扬声器设置的灵活适应可在解码器/渲染侧处被执行。
[0012]为了提供音频的更灵活的表现，MPEG标准化了称为“空间音频对象编码”(IS0/IECMPEG-D SAOC)的格式。与多通道音频编码系统(例如DTS、杜比数码和MPEG环绕声)相反，SAOC提供对个体音频对象而不是音频通道的有效编码。虽然在MPEG环绕声中，每个扬声器通道可被考虑为起源于声对象的不同混合，SAOC允许在如图2所示的多通道混合中的个体声对象的位置的交互式操纵。
[0013]类似于MPEG环绕声，SAOC也创建单声道或立体声下混。此外，对象参数被计算并包括。在解码器侧，用户可操纵这些参数以控制个体对象的各种特征(例如位置、级别、均衡)，或甚至应用效果例如混响。图3图示使用户能够控制包含在SAOC比特流中的个体对象的交互式接口。借助于清染矩阵，个体的声对象被映射到扬声器通道。
[0014]SAOC允许更灵活的方法，且特别是通过除了仅仅再现通道之外传输音频对象而允许更多基于渲染的可适应性。这允许解码器侧将音频对象放置在空间中的任意位置处，假定空间被扬声器充分覆盖。这样，在所传输的音频和再现或渲染设置之间没有关系，因此可使用任意扬声器设置。这对于例如在典型起居室中的家庭影院设置(其中扬声器几乎从不在意图位置处)是有利的。在SAOC中，在解码器处决定对象被放置在声场景中的哪里(例如借助于如图3所示的接口)，这常常不是从艺术观点所期望的。SAOC标准提供了在比特流中传输默认渲染矩阵的方式，消除了解码器责任。然而，所提供的方法依赖于固定再现设置或未规定的语法。因此，SAOC不提供标准手段来独立于扬声器设置完全传输音频场景。而且，SAOC未很好地被配备到扩散信号成分的忠实渲染。虽然存在包括所谓的多通道背景对象(MBO)以捕获扩散声音的可能性，这个目的被约束到一个特定的扬声器配置。
[0015]3D音频的音频格式的另一规范由DTS有限公司(数字影院系统)开发。DTS有限公司开发了多维音频(MDA?)—一一种基于开放对象的音频创建和创作平台，以加速下一代内容创建。MDA平台支持通道和音频对象两者，并适应于任何扬声器数量和配置。MDA格式允许遗留多通道下混连同个体声对象一起的传输。此外，对象定位数据被包括。生成MDA音频流的原理在图4中图示。
[0016]在MDA方法中，声对象单独地在扩展流中被接收到，且这些可从多通道下混被提取。因而产生的多通道下混连同单独可得到的对象一起被渲染。
[0017]对象可由所谓的符尾组成。这些符尾基本上是被分组(下混的)的轨或对象。因此，对象可由被封装进符尾内的多个子对象组成。在MDA中，多通道基准混合可与一系列音频对象一起被传输。MDA传输每个对象的3D位置数据。可然后使用3D位置数据提取对象。替代地，可传输描述在对象和基准混合之间的关系的逆混合矩阵。
[0018]从MDA描述中，可能通过将角度和距离分配到每个对象来传输声场景信息，指示对象应相对于例如默认的正向方向放置在哪里。因此，为每个对象传输位置信息。这对点源是有用的，但不能描述宽源(像例如合唱队或喝彩)或扩散声场(例如背景)。当所有点源从基准混合被提取时，背景多通道混合保留。类似于SA0C，在MDA中的残余物固定到特定的扬声器设置。
[0019]因此，SAOC和MDA方法都合并可个体地在解码器侧被操纵的个体音频对象的传输。在这两种方法之间的差异是，SAOC通过提供相对于下混表征对象的参数(S卩，使得在解码器侧处从下混产生音频对象)来提供关于音频对象的信息，而MDA提供音频对象作为完全和单独的音频对象(即可在解码器侧处与下混独立地产生)。对于这两种方法，可为音频对象传递位置数据。
[0020]目前，在IS0/IEC MPEG内，准备标准MPEG 3D音频以便于3D音频的传输和渲染。MPEG-3D音频旨在连同HEVC视频编码和MMT (MPEG媒体传输)系统层一起成为MPEG-H套件的部分。图5图示意图的MPEG 3D音频系统的当前高级别方框图。
[0021]除了传统的基于通道的格式以外，该方法旨在也支持基于对象和基于场景的格式。系统的重要方面是，它的质量应针对增加的比特率的透明度而按比例调整，即随着数据速率增加，由编码和解码引起的降级应继续减小，直到它是微不足道的为止。然而，这样的要求对在过去相当大量地使用的参数编码技术(即HE-AAC v2、MPEG环绕声、SAOC、USACMi往是成问题的。特别是，个体信号的信息损失的补偿往往不被参数数据安全补偿，甚至在非常高的比特率下也是如此。实际上，质量将被参数模型的内在质量限制。
[0022]MPEG-3D音频此外试图提供因而产生的独立于再现设置的比特流。所设想的再现可能性包括多达22.2个通道的灵活的扬声器设置以及在头戴式耳机和紧密地间隔开的扬声器之上的虚拟环绕声。
[0023]US2013/101122 Al公开了基于对象的音频内容产生/播放装置，其使基于对象的音频内容能够使用WFS方案和多通道环绕声方案中的至少一个来播放，而不考虑听众的再现环境。
[0024]W02013/006338 A2公开了包括新的扬声器布局(通道配置)和相关空间描述格式的系统。W02013/006338 A2目的在于提供支持多种渲染技术的自适应音频系统和格式。音频流连同描述“混合器的意图”(包括(多个)音频对象的期望位置)的元数据一起被传输。
[0025]US2010/223552 Al公开了配置成捕获和/或产生由多个声源产生的声事件的系统。特别是，该系统可配置成使得可在个体的基础上控制与声源的单独声源相关的声对象的声产生的捕获、处理和/或输出。
[0026]总之，大部分现有的声再现系统在扬声器设置方面只允许适度量的灵活性。因为几乎每个现有的系统都根据关于扬声器(例如或多或少等距地围绕收听者定位的扬声器，或布置在收听者的前方的一条线上的扬声器，或头戴式耳机)的一般配置，或关于内容的性质(例如由少量单独可定位源组成或由高度扩散声场景组成)的某个基本假设来开发，每个系统只能够传送用针对可出现在渲染环境中(例如在用户的家里)的有限范围的扬声器配置的最佳体验。允许灵活的扬声器设置的新的一类声音渲染系统因此是期望的。这个灵活性可包括各种元素，其包括不仅扬声器的位置，而且扬声器的数量及它们的个体特性(例如带宽、最大输出功率、方向性等)。
[0027]因此，改进的音频渲染方法将是有利的，且特别是允许增加的灵活性、方便的实施方式和/或操作、允许扬声器的更灵活定位、对不同的扬声器配置的提高的适应和/或提高的性能的方法将是有利的。

【发明内容】

[0028]相应地，本发明试图优选地减轻、缓和或消除单独地或以任何组合的一个或多个上面提到的缺点。
[0029]根据本发明的方面，提供了音频处理装置，其包括:用于接收音频数据和渲染配置数据的接收器，音频数据包括多个音频成分的音频数据且渲染配置数据包括一组音频换能器的音频换能器位置数据；用于从音频数据产生用于这组音频换能器的音频换能器信号的渲染器，渲染器能够根据多个渲染模式渲染音频成分；布置成响应于音频换能器位置数据而从多个渲染模式选择用于渲染器的渲染模式的渲染控制器；以及其中渲染器布置成针对这组音频换能器的不同子集使用不同的渲染模式，并针对这组音频换能器的每个不同子集独立地选择渲染模式。
[0030]本发明还在很多情形中提供改进的渲染。在很多实际应用中，可实现实质上提高的用户体验。该方法允许在用于渲染音频的音频换能器(特别是扬声器)的定位中的增加的灵活性和自由度。例如，该方法可允许未被最佳地定位(例如根据预定或默认的配置设置)的音频换能器的提高的适应和优化，而同时允许被定位的音频换能器实质上最佳地被充分利用。
[0031]不同的音频成分可以特别地都是同一摄影棚或音频场景的部分。音频成分可以是空间音频成分，例如通过具有例如由相关元数据提供的相关隐式位置信息或显式位置信息。渲染模式可以是空间渲染模式。
[0032]音频换能器信号可以是音频换能器的驱动信号。音频换能器信号可在被馈送到音频换能器之前例如通过滤波或放大被进一步处理。等同地，音频换能器可以是包括用于放大和/或滤波所提供的驱动信号的功能的有源换能器。可为多个音频换能器的每个音频换能器产生音频换能器信号。
[0033]渲染控制器可布置为就针对子集选择不同渲染模式的意义上针对不同子集独立地选

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：W.P.J.德布鲁伊恩;A.S.赫马;A.W.J.奧门;
技术所有人：皇家飞利浦有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。