双耳音频处理的制作方法

文档序号:8927382阅读:1068来源:国知局
双耳音频处理的制作方法
【技术领域】
[0001] 本发明设及双耳擅染(binauralrendering),并且尤其但不完全设及用于音频处 理应用的头部相关的双耳传递函数数据的通信和处理。
【背景技术】
[0002] 随着数字信号表示和通信已日益取代模拟表示和通信,各种源信号的数字编码在 过去数十年已变得越来越重要。例如,诸如语音和音乐之类的音频内容越来越多地W数字 内容编码为基础。此外,随着例如环绕立体声和家庭影院设置成为流行,音频消费已日益成 为一种包络(enveloping)S维体验。
[0003] 已研制音频编码格式来提供日益有能力的、多样的和灵活的音频服务,并且尤其 已研制支持空间音频服务的音频编码格式。
[0004] 如同DTS和Do化yDigital之类的众所周知的音频编码技术产生编码的多通道音 频信号,其将空间图像表示为围绕着收听者被放置在固定位置上的许多通道。对于与对应 于多通道信号的设置不同的扬声器设置来说,空间图像将是次最优的。并且,基于通道的音 频编码系统通常不能应付不同数量的扬声器。
[0005] (IS0/IECMPEG-D)M阳GSurround(环绕)提供一种多通道音频编码工具,其允许 现有的基于单声道或基于立体声的编码器被扩展至多通道音频应用。图1举例说明MPEG Surround系统的元素的示例。使用通过原始的多通道输入的分析而获得的空间参数,MPEG Surround解码器通过单声道或立体声信号的受控上混(upmix)W获得多通道输出信号而 能够重新创建空间图像。
[0006] 由于多通道输入信号的空间图像被参数化,所WMPEGSurround允许利用不使用 多通道扬声器设置的擅染设备来解码同一个多通道比特流。示例是在耳机上的虚拟环绕立 体声再现,其被称为MPEGSurround双耳解码处理。在该种模式中,在使用普通耳机的同时 能够提供逼真的环绕立体声体验。另一示例是较高阶多通道输出例如7. 1通道至较低阶设 置例如5. 1通道的修剪(pruning)。
[0007] 实际上,随着越来越多的再现格式变得可用于主流消费者,用于擅染空间声音的 擅染配置的变化和灵活性近年来已显著增加。该要求音频的灵活表示。随着MPEGSurround 编解码器的引入,已采取重要的步骤。然而,仍然针对例如ITU5. 1扬声器设置之类的特定 扬声器设置来产生和发送音频。没有规定通过不同的设置和通过非标准(即,灵活的或用户 定义的)扬声器设置的再现。实际上,具有使得音频编码和表示日益独立于特定的预定和标 称的扬声器设置的愿望。日益优选的是;能够在解码器/擅染侧上执行针对多种多样的不 同的扬声器设置的灵活适配(adaptation)。
[0008] 为了提供更灵活的音频的表示,MPEG标准化了称为"SpatialAudio化ject Coding(空间音频对象编码)"(IS(VIECMPEG-DSAOC)的格式。与诸如DTS、Do化yDigital 和MPEGSurround之类的多通道音频编码系统形成对比,SAOC提供个别音频对象而非音频 通道的有效编码。而在MPEGSurround中,每一个扬声器通道能够被视为源自声音对象的 不同混合,SAOC使得在解码器侧上可利用的个别声音对象用于如图2所示的交互操纵。在SA0C中,多个声音对象和参数化数据一起被编码到单声道或立体声缩混(downmix)中,该 允许声音对象在擅染侧上被提取,从而允许个别音频对象可用于例如由终端用户进行的操 纵。
[0009] 实际上,与MPEGSurround相类似,SA0C也创建单声道或立体声缩混。另外,计算 和包括对象参数。在解码器侧上,用户可W操纵该些参数来控制个别对象的不同特征诸如 位置、水平、均衡乃至应用诸如混响之类的效果。图3举例说明使得用户能够控制在SA0C 比特流中包含的个别对象的交互界面。借助于擅染矩阵,个别声音对象被映射到扬声器通 道上。
[0010] 除了仅再现通道之外,SA0C还通过发送音频对象而允许更灵活的方案并且尤其允 许更多的基于擅染的适应性(adapt油ility)。假定空间被扬声器充分覆盖,则该允许解码 器侧将音频对象放置在空间中的任意位置上。该样,在所发送的音频与再现或擅染设置之 间没有关系,因此能够使用任意的扬声器设置。该对于例如其中扬声器几乎从不位于预定 位置上的典型起居室中的家庭影院设置而言是有利的。在SA0C中,在解码器侧上决定在声 音场景中该些对象被放置在什么地方,该从艺术的角度来看时常不是所希望的。SA0C标准 确实提供在比特流中发送默认擅染矩阵的方式,该消除解码器责任。然而,所提供的方法依 赖于固定的再现设置或依赖于未指明语法。因而,SA0C没有提供规范的手段来完全发送音 频场景而与扬声器设置无关。并且,SA0C不太适合于(notwellequipped)弥散性信号分 量的忠实擅染。虽然具有包括所谓的MultichannelBackground化ject(多通道背景对 象)(MB0)来捕获漫声的可能性,但是该个对象被束缚于一个特定的扬声器配置。
[0011] 由3DAudioAlliance(音频联盟)(3DAA)正在研制用于3D音频的音频格式的 另一规范,其中3DAA是工业联盟。3DAA致力于研制"将有助于从当前的扬声器馈送范例至 灵活的基于对象的方案的转变"的用于3D音频的传输的标准。在3DAA中,将定义允许将遗 留的多通道缩混连同个别声音对象一起传输的比特流格式。另外,包括对象定位数据。在 图4中举例说明生成3DAA音频流的原理。
[0012] 在3DAA方案中,单独地在扩展流中接收声音对象,并且可W从多通道缩混中提取 该些声音对象。由此产生的多声道缩混与个别可用的对象一起进行擅染。
[0013] 该些对象可W由所谓的词干(stem)组成。该些词干基本上是分组(缩混)的轨道 (track)或对象。因此,对象可W由包装在词干中的多个子对象组成。在3DAA中,利用音频 对象的选择,能够发送多通道参考混合(referencemix)。3DAA发送针对每一个对象的3D 位置数据。该些对象随后能够使用3D位置数据来提取。可供选择地,可W发送逆的混合矩 阵,其描述该些对象与参考混合之间的关系。
[0014] 根据3DAA的描述,通过给每一个对象分配角度和距离,很可能发送声音场景信 息,其指示相对于例如默认的前进方向应该将该对象放置在什么地方。因而,针对每一个对 象,发送位置信息。该对于点源来说是有用的,但是其无法描述广源(widesource)(例如, 如同合唱或欢呼)或弥漫性声场(诸如周围环境)。当从参考混合中提取所有的点源时,周围 的多声道混合保留。与SA0C相类似,3DAA中的残留物被固定于特定的扬声器设置。
[00巧]因而,SA0C和3DAA方案二者并入能够在解码器侧上个别操纵的个别音频对象的 传输。该两种方案之间的不同在于;SA0C通过相对于缩混提供表征音频对象的参数来提供 有关该些音频对象的信息(即,W致在解码器侧上从缩混中生成该些音频对象),而3DAA提 供音频对象作为完整的且独立的音频对象(即,能够在解码器侧上独立于缩混来生成该些 音频对象)。对于两种方案,可W针对该些音频对象来传送位置数据。
[0016] 其中通过使用针对收听者的耳朵的个别信号的声源的虚拟定位来创建空间体验 的双耳处理正变得越来越普遍。虚拟环绕是擅染声音的一种方法,W致音频源被感知为源 自特定的方向,从而创建收听物理环绕声音设置(例如,5. 1扬声器)或环境(音乐会)的错 觉。利用适当的双耳擅染处理,能够计算为了收听者感知来自任何方向的声音而在耳膜处 所需的信号,并且该些信号被擅染,W致它们提供所希望的效果。如图5所示,该些信号随 后在耳膜处利用或耳机或串音消除方法(适合于通过紧密间隔开的扬声器的擅染)来重新 创建。
[0017] 紧接着图5的直接擅染,能够用于擅染虚拟环绕的特定技术包括MPEGSurround 和SpatialAudioObjectCoding(空间音频对象编码及即将到来的有关MPEG中的3D 音频的工作项。该些技术提供计算有效的虚拟环绕擅染。
[0018] 双耳擅染W双耳滤波器为基础,其中该些滤波器由于头部W及诸如肩部之类的 反射表面的不同声学属性而因人而异。例如,双耳滤波器能够用于创建在不同位置上模 拟多个源的双耳记录。该能够通过将每一个声源与对应于该声源的位置的化adRelated ImpulseResponse(头部相关的脉冲响应)(皿IR)的配对(pair)进行卷积来实现。
[0019] 通过在放置于人耳中或靠近人耳放置的麦克风上在2D或3D空间中在特定的位置 上从声源中测量例如脉冲响应,能够确定适当的双耳滤波器。通常,例如使用人头的模型进 行该样的测量,或者实际上在一些情况中通过将麦克风附着靠近人的耳膜可W进行该些测 量。双耳滤波器能够用于创建在不同位置上模拟多个源的双耳记录。例如,该能够通过将 每一个声源与在该声源的希望位置上测量的位置的脉冲响应的配对进行卷积(convoIve) 来实现。为了创建声源围绕收听者移动的错觉,需要具有足够的空间分辨率例如10度的大 量的双耳滤波器。
[0020] 双耳滤波函数可W被表示为例如化adRelatedImpulseResponse(皿IR)或 者等效地被表示为化adRelatedTransfer化nction(头部相关的传递函数)(HRTF)或 BinauralRoomImpulseResponse(双耳房间脉冲响应XBRIR)或BinauralRoomTransfer 化nction(双耳房间传递函数)(BRTF)。从给定位置至收听者的耳朵(或耳膜)的(例如,估 计的或假定的)传递函数被称为头部相关的双耳传递函数。可W例如在频域中或在时域中 给出该个函数,在频域的情况下该个函数通常被称为HRTF或BRTF,而在时域的情况下该个 函数通常被称为皿IR或BRIR。在一些情形中,头部相关的双耳传递函数被确定为包括声学 环境、并且具体地在其中进行该些测量的房间的方位(aspect)或属性因素,而在其他的示 例中仅考虑用户特性。第一类型的函数的示例是BRIR和BRTF,而后一种类型的函数的示例 是皿IR和HRTF。
[0021] 相应地,底层(underlying)头部相关的双耳传递函数能够采用包括皿IR、HRTF等 等的许多不同的方式来表示。此外,对于该些主要表示之中的每一个,具有大量的不同方式 来表示特定函数
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1