双耳音频处理的制作方法

文档序号：8927382阅读：1068来源：国知局

双耳音频处理的制作方法
【技术领域】
[0001] 本发明设及双耳擅染（binauralrendering),并且尤其但不完全设及用于音频处理应用的头部相关的双耳传递函数数据的通信和处理。
【背景技术】
[0002] 随着数字信号表示和通信已日益取代模拟表示和通信，各种源信号的数字编码在过去数十年已变得越来越重要。例如，诸如语音和音乐之类的音频内容越来越多地W数字内容编码为基础。此外，随着例如环绕立体声和家庭影院设置成为流行，音频消费已日益成为一种包络（enveloping)S维体验。
[0003] 已研制音频编码格式来提供日益有能力的、多样的和灵活的音频服务，并且尤其已研制支持空间音频服务的音频编码格式。
[0004] 如同DTS和Do化yDigital之类的众所周知的音频编码技术产生编码的多通道音频信号，其将空间图像表示为围绕着收听者被放置在固定位置上的许多通道。对于与对应于多通道信号的设置不同的扬声器设置来说，空间图像将是次最优的。并且，基于通道的音频编码系统通常不能应付不同数量的扬声器。
[0005] (IS0/IECMPEG-D)M阳GSurround(环绕）提供一种多通道音频编码工具，其允许现有的基于单声道或基于立体声的编码器被扩展至多通道音频应用。图1举例说明MPEG Surround系统的元素的示例。使用通过原始的多通道输入的分析而获得的空间参数，MPEG Surround解码器通过单声道或立体声信号的受控上混（upmix)W获得多通道输出信号而能够重新创建空间图像。
[0006] 由于多通道输入信号的空间图像被参数化，所WMPEGSurround允许利用不使用多通道扬声器设置的擅染设备来解码同一个多通道比特流。示例是在耳机上的虚拟环绕立体声再现，其被称为MPEGSurround双耳解码处理。在该种模式中，在使用普通耳机的同时能够提供逼真的环绕立体声体验。另一示例是较高阶多通道输出例如7. 1通道至较低阶设置例如5. 1通道的修剪（pruning)。
[0007] 实际上，随着越来越多的再现格式变得可用于主流消费者，用于擅染空间声音的擅染配置的变化和灵活性近年来已显著增加。该要求音频的灵活表示。随着MPEGSurround 编解码器的引入，已采取重要的步骤。然而，仍然针对例如ITU5. 1扬声器设置之类的特定扬声器设置来产生和发送音频。没有规定通过不同的设置和通过非标准（即，灵活的或用户定义的)扬声器设置的再现。实际上，具有使得音频编码和表示日益独立于特定的预定和标称的扬声器设置的愿望。日益优选的是；能够在解码器/擅染侧上执行针对多种多样的不同的扬声器设置的灵活适配（adaptation)。
[0008] 为了提供更灵活的音频的表示，MPEG标准化了称为"SpatialAudio化ject Coding(空间音频对象编码）"（IS(VIECMPEG-DSAOC)的格式。与诸如DTS、Do化yDigital 和MPEGSurround之类的多通道音频编码系统形成对比，SAOC提供个别音频对象而非音频通道的有效编码。而在MPEGSurround中，每一个扬声器通道能够被视为源自声音对象的不同混合，SAOC使得在解码器侧上可利用的个别声音对象用于如图2所示的交互操纵。在SA0C中，多个声音对象和参数化数据一起被编码到单声道或立体声缩混（downmix)中，该允许声音对象在擅染侧上被提取，从而允许个别音频对象可用于例如由终端用户进行的操纵。
[0009] 实际上，与MPEGSurround相类似，SA0C也创建单声道或立体声缩混。另外，计算和包括对象参数。在解码器侧上，用户可W操纵该些参数来控制个别对象的不同特征诸如位置、水平、均衡乃至应用诸如混响之类的效果。图3举例说明使得用户能够控制在SA0C 比特流中包含的个别对象的交互界面。借助于擅染矩阵，个别声音对象被映射到扬声器通道上。
[0010] 除了仅再现通道之外，SA0C还通过发送音频对象而允许更灵活的方案并且尤其允许更多的基于擅染的适应性（adapt油ility)。假定空间被扬声器充分覆盖，则该允许解码器侧将音频对象放置在空间中的任意位置上。该样，在所发送的音频与再现或擅染设置之间没有关系，因此能够使用任意的扬声器设置。该对于例如其中扬声器几乎从不位于预定位置上的典型起居室中的家庭影院设置而言是有利的。在SA0C中，在解码器侧上决定在声音场景中该些对象被放置在什么地方，该从艺术的角度来看时常不是所希望的。SA0C标准确实提供在比特流中发送默认擅染矩阵的方式，该消除解码器责任。然而，所提供的方法依赖于固定的再现设置或依赖于未指明语法。因而，SA0C没有提供规范的手段来完全发送音频场景而与扬声器设置无关。并且，SA0C不太适合于（notwellequipped)弥散性信号分量的忠实擅染。虽然具有包括所谓的MultichannelBackground化ject(多通道背景对象）（MB0)来捕获漫声的可能性，但是该个对象被束缚于一个特定的扬声器配置。
[0011] 由3DAudioAlliance(音频联盟）（3DAA)正在研制用于3D音频的音频格式的另一规范，其中3DAA是工业联盟。3DAA致力于研制"将有助于从当前的扬声器馈送范例至灵活的基于对象的方案的转变"的用于3D音频的传输的标准。在3DAA中，将定义允许将遗留的多通道缩混连同个别声音对象一起传输的比特流格式。另外，包括对象定位数据。在图4中举例说明生成3DAA音频流的原理。
[0012] 在3DAA方案中，单独地在扩展流中接收声音对象，并且可W从多通道缩混中提取该些声音对象。由此产生的多声道缩混与个别可用的对象一起进行擅染。
[0013] 该些对象可W由所谓的词干（stem)组成。该些词干基本上是分组(缩混）的轨道 (track)或对象。因此，对象可W由包装在词干中的多个子对象组成。在3DAA中，利用音频对象的选择，能够发送多通道参考混合（referencemix)。3DAA发送针对每一个对象的3D 位置数据。该些对象随后能够使用3D位置数据来提取。可供选择地，可W发送逆的混合矩阵，其描述该些对象与参考混合之间的关系。
[0014] 根据3DAA的描述，通过给每一个对象分配角度和距离，很可能发送声音场景信息，其指示相对于例如默认的前进方向应该将该对象放置在什么地方。因而，针对每一个对象，发送位置信息。该对于点源来说是有用的，但是其无法描述广源（widesource)(例如，如同合唱或欢呼)或弥漫性声场(诸如周围环境)。当从参考混合中提取所有的点源时，周围的多声道混合保留。与SA0C相类似，3DAA中的残留物被固定于特定的扬声器设置。
[00巧]因而，SA0C和3DAA方案二者并入能够在解码器侧上个别操纵的个别音频对象的传输。该两种方案之间的不同在于；SA0C通过相对于缩混提供表征音频对象的参数来提供有关该些音频对象的信息（即，W致在解码器侧上从缩混中生成该些音频对象)，而3DAA提供音频对象作为完整的且独立的音频对象（即，能够在解码器侧上独立于缩混来生成该些音频对象)。对于两种方案，可W针对该些音频对象来传送位置数据。
[0016] 其中通过使用针对收听者的耳朵的个别信号的声源的虚拟定位来创建空间体验的双耳处理正变得越来越普遍。虚拟环绕是擅染声音的一种方法，W致音频源被感知为源自特定的方向，从而创建收听物理环绕声音设置(例如，5. 1扬声器）或环境(音乐会）的错觉。利用适当的双耳擅染处理，能够计算为了收听者感知来自任何方向的声音而在耳膜处所需的信号，并且该些信号被擅染，W致它们提供所希望的效果。如图5所示，该些信号随后在耳膜处利用或耳机或串音消除方法(适合于通过紧密间隔开的扬声器的擅染）来重新创建。
[0017] 紧接着图5的直接擅染，能够用于擅染虚拟环绕的特定技术包括MPEGSurround 和SpatialAudioObjectCoding(空间音频对象编码及即将到来的有关MPEG中的3D 音频的工作项。该些技术提供计算有效的虚拟环绕擅染。
[0018] 双耳擅染W双耳滤波器为基础，其中该些滤波器由于头部W及诸如肩部之类的反射表面的不同声学属性而因人而异。例如，双耳滤波器能够用于创建在不同位置上模拟多个源的双耳记录。该能够通过将每一个声源与对应于该声源的位置的化adRelated ImpulseResponse(头部相关的脉冲响应）（皿IR)的配对（pair)进行卷积来实现。
[0019] 通过在放置于人耳中或靠近人耳放置的麦克风上在2D或3D空间中在特定的位置上从声源中测量例如脉冲响应，能够确定适当的双耳滤波器。通常，例如使用人头的模型进行该样的测量，或者实际上在一些情况中通过将麦克风附着靠近人的耳膜可W进行该些测量。双耳滤波器能够用于创建在不同位置上模拟多个源的双耳记录。例如，该能够通过将每一个声源与在该声源的希望位置上测量的位置的脉冲响应的配对进行卷积（convoIve) 来实现。为了创建声源围绕收听者移动的错觉，需要具有足够的空间分辨率例如10度的大量的双耳滤波器。
[0020] 双耳滤波函数可W被表示为例如化adRelatedImpulseResponse(皿IR)或者等效地被表示为化adRelatedTransfer化nction(头部相关的传递函数）（HRTF)或 BinauralRoomImpulseResponse(双耳房间脉冲响应XBRIR)或BinauralRoomTransfer 化nction(双耳房间传递函数）（BRTF)。从给定位置至收听者的耳朵(或耳膜)的(例如，估计的或假定的）传递函数被称为头部相关的双耳传递函数。可W例如在频域中或在时域中给出该个函数，在频域的情况下该个函数通常被称为HRTF或BRTF，而在时域的情况下该个函数通常被称为皿IR或BRIR。在一些情形中，头部相关的双耳传递函数被确定为包括声学环境、并且具体地在其中进行该些测量的房间的方位（aspect)或属性因素，而在其他的示例中仅考虑用户特性。第一类型的函数的示例是BRIR和BRTF，而后一种类型的函数的示例是皿IR和HRTF。
[0021] 相应地，底层（underlying)头部相关的双耳传递函数能够采用包括皿IR、HRTF等等的许多不同的方式来表示。此外，对于该些主要表示之中的每一个，具有大量的不同方式来表示特定函数

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.G.H.科彭斯;A.W.J.奥门;E.G.P.舒伊杰斯;
技术所有人：皇家飞利浦有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。