双耳音频处理的制作方法

文档序号:9204584阅读:1021来源:国知局
双耳音频处理的制作方法
【技术领域】
[0001]本发明涉及双耳音频处理,并且具体地但非排他性地涉及用于音频处理应用的头部相关双耳传递函数数据的通信和处理。
【背景技术】
[0002]由于数字信号表示和通信已经日益代替模拟表示和通信,因而各种源信号的数字编码在过去几十年间已经变得日益重要。例如,诸如语音和音乐之类的音频内容日益基于数字内容编码。而且,随着例如环绕声和家庭影院设置变得流行,音频消费已经日益变为包络性三维体验。
[0003]已经研发音频编码格式以提供日益能够实现的变化且灵活的音频服务,并且具体而言,已经研发支持空间音频服务的音频编码格式。
[0004]像DTS和Dolby Digital那样的公知音频编码技术产生编码多通道音频信号,其将空间图像表示为放置在固定位置处的听众周围的许多通道。对于与对应于多通道信号的设置不同的扬声器设置而言,空间图像将是次优的。而且,基于通道的音频编码系统典型地不能够应对不同数目的扬声器。
[0005](IS0/IEC MPEG-D) MPEG Surround提供一种多通道音频编码工具,其允许现有的基于单声道或立体声的编码器扩展到多通道音频应用。图1图示了 MPEG Surround系统的元件的示例。使用通过原始多通道输入的分析所获得的空间参数,MPEG Surround解码器可以通过单声道或立体声信号的受控上混合而重新创建空间图像以获得多通道输出信号。
[0006]由于多通道输入信号的空间图像被参数化,因而MPEG Surround允许通过不使用多通道扬声器设置的渲染设备对相同多通道位流进行解码。示例是头戴式耳机上的虚拟环绕再现,其被称为MPEG Surround双耳解码过程。在该模式中,可以在使用常规头戴式耳机时提供现实环绕体验。另一示例是较高阶多通道输出(例如7.1通道)到较低阶设置(例如5.1通道)的修剪。
[0007]实际上,随着越来越多的再现格式变得可用于主流消费者,用于渲染空间声音的渲染配置中的变化和灵活性近年来已经显著增加。这要求音频的灵活表示。随着MPEGSurround编解码器的引入,已经采取重要步骤。不管怎样,对于特定扬声器设置,例如ITU5.1扬声器设置,仍然产生并发射音频。未指定不同设置和非标准(即灵活或用户定义的)扬声器设置之上的再现。实际上,存在独立于具体预定和标称的扬声器设置而日益做出音频编码和表示的期望。日益优选的是,可以在解码器/渲染侧处执行对各种不同扬声器设置的灵活适配。
[0008]为了提供音频的更灵活表示,MPEG对被称为“空间音频对象编码”(IS0/IECMPEG-D SA0C)的格式进行标准化。与诸如DTS、Dolby Digital和MPEG Surround之类的多通道音频编码系统相反,SAOC提供对各个音频对象而不是音频通道的高效编码。而在MPEGSurround中,每个扬声器通道可以被认为是起源于声音对象的不同混合,SAOC使各个声音对象在解码器侧处可用于交互式操纵,如图2中所示。在SAOC中,连同允许在渲染侧处提取声音对象的参数数据一起,将多个声音对象编码到单声道或立体声下混合中,从而允许各个音频对象可用于例如通过终端用户的操纵。
[0009]实际上,类似于MPEG Surround,SAOC也创建单声道或立体声下混合。另外,计算并且包括对象参数。在解码器侧处,用户可以操纵这些参数以控制诸如位置、等级、均衡之类的各个对象的各种特征,或者甚至应用诸如混响之类的效果。图3图示了使得用户能够控制SAOC位流中所包含的各个对象的交互式接口。借助于渲染矩阵,将各个声音对象映射到扬声器通道上。
[0010]SAOC允许更灵活的方法,并且特别地通过发射除仅再现通道之外的音频对象而允许更多基于渲染的适应性。假设空间由扬声器充足地覆盖,则这允许解码器侧将音频对象放置在空间中的任意位置。这样,在所发射的音频与再现或渲染设置之间不存在关系,因此可以使用任意扬声器设置。对于例如其中扬声器几乎绝不处于预期位置的典型起居室中的家庭影院设置而言,这是有利的。在SAOC中,在解码器侧处决定对象放置在声音场景中的何处,从艺术观点来看,这通常不是所期望的。SAOC标准的确提供在位流中发射默认渲染矩阵的方式,这消除了解码器责任。然而,所提供的方法要么依赖于固定的再现设置要么依赖于未指定的语法。因此,SAOC不提供规范措施以独立于扬声器设置完全地发射音频场景。而且,SAOC未针对扩散信号分量的忠实渲染良好地装备。虽然存在包括所谓的多通道背景对象(MBO)以采集扩散声音的可能性,但是该对象与一个特定扬声器配置相关。
[0011]用于3D音频的音频格式的另一规范正由作为产业联盟的3D音频联盟(3DAA)研发。3DAA致力于研发用于3D音频的传输的标准,其“将促进从当前扬声器馈送范例到灵活的基于对象的方法的转变”。在3DAA中,限定位流格式,其允许传统多通道下混合连同各个声音对象一起传输。另外,包括对象定位数据。图4中图示了生成3DAA音频流的原理。
[0012]在3DAA方法中,在扩展流中单独地接收声音对象,并且这些可以从多通道下混合提取。连同单独可用的对象一起,渲染所得多通道下混合。
[0013]对象可以包括所谓的符尾(stem)。这些符尾基本上是成组的(下混合的)音轨(track)或对象。因此,对象可以包括包装到符尾中的多个子对象。在3DAA中,可以利用音频对象的选择发射多通道参考混合。3DAA发射用于每个对象的3D位置数据。然后,可以使用3D位置数据提取对象。可替换地,可以发射逆混合矩阵,这描述对象与参考混合之间的关系O
[0014]根据对3DAA的描述,声音场景信息可能通过向每个对象分配角度和距离来发射,这指示对象应当相对于例如默认正向放置在何处。因此,针对每个对象发射位置信息。这对于点源是有用的,但是未能描述宽源(比如例如合唱或鼓掌)或扩散声场(诸如环境)。当从参考混合提取所有点源时,剩余环境多通道混合。类似于SA0C,3DAA中的残余部分固定到特定扬声器设置。
[0015]因此,SAOC和3DAA方法二者并入可以在解码器侧处单独操纵的各个音频对象的传输。两种方法之间的差异在于,SAOC通过提供相对于下混合表征对象的参数而提供关于音频对象的信息(即使得在解码器侧处从下混合生成音频对象),而3DAA将音频对象提供为完全且分离的音频对象(即其可以在解码器侧处从下混合独立地生成)。对于这两种方法而言,可以针对音频对象传送位置数据。
[0016]其中通过使用用于听众耳朵的各个信号对声源进行虚拟定位来创建空间体验的双耳处理正变得日益广泛。虚拟环绕是一种渲染声音使得音频源被感知为来源于特定方向,从而创建倾听物理环绕声音设置(例如5.1扬声器)或环境(音乐会)的错觉的方法。利用适当的双耳渲染处理,可以计算为了使听众感知到声音来自任何期望方向而在耳鼓处所要求的信号,并且可以渲染信号使得其提供期望的效果。如图5中所示,然后使用要么头戴式耳机要么串扰相消方法(适合于在紧密间隔的扬声器之上进行渲染)在耳鼓处重新创建这些信号。
[0017]接近于图5的直接植染,可以用于植染虚拟环绕的特定技术包括MPEG Surround和空间音频对象编码,以及MPEG中的3D音频上即将到来的工作项目。这些技术提供在计算上高效的虚拟环绕渲染。
[0018]双耳渲染基于头部相关双耳传递函数,其由于头部、耳朵和诸如肩膀之类的反射表面的声学性质而因人而异地变化。例如,双耳滤波器可以用于创建模拟各种位置处的多个源的双耳记录。这可以通过每个声源与对应于声源的位置的头部相关脉冲响应(HRIR)对的卷积来实现。
[0019]通过在放置于人耳中或其附近的麦克风处测量例如来自2D或3D空间中的特定位置处的声源的响应,可以确定适当的双耳滤波器。典型地,例如使用人头部的模型做出这样的测量,或实际上在一些情况中可以通过靠近人的耳鼓附连麦克风来做出测量。双耳滤波器可以用于创建模拟各种位置处的多个源的双耳记录。这可以例如通过每个声源与针对声源的期望位置的所测量的脉冲响应对的卷积来实现。为了创建声源在听众周围移动的错觉,要求大量双耳滤波器具有足够的空间分辨率,例如10度。
[0020]头部相关双耳传递函数可以例如表示为头部相关脉冲响应(HRIR)、或等价地头部相关传递函数(HRTF)、或双耳房间脉冲响应(BRIR)、或双耳房间传递函数(BRTF)。从给定位置到听众耳朵(或耳鼓)的(例如所估计或假定的)传递函数被称为头部相关双耳传递函数。该函数可以例如在频率域中给定,在该情况中,其典型地被称为HRTF或BRTF ;或者该函数可以在时间域中给定,在该情况中,其典型地被称为HRIR或BRIR。在一些场景中,头部相关双耳传递函数被确定为包括声学环境并且特别地在其中做出测量的房间的方面或性质,而在其它示例中,仅考虑用户特性。第一类型的函数的示例是BRIR和BRTF。
[0021]在许多场景中,期望的是允许诸如要使用的特定头部相关双耳传递函数之类的期望双耳渲染的参数的通信和分布。
[0022]音频工程学会(AES) sc-02技术委员会最近已经宣布开始关于文件格式的标准化的新工程以交换以头部相关双耳传递函数形式的双耳倾听参数。格式将是可缩放的以匹配可用的渲染过程。格式将被设计为包括来自不同头部相关双耳传递函数数据库的源材料。挑战在于,这样的头部相关双耳传递函数可以如何最好地支持、使用和分布在音频系统中。
[0023]因此,将期望用于支持双耳处理并且特别地用于传送双耳渲染的数据的经改进的方法。具体而言,允许双耳渲染数据的经改进的表示和通信、降低的数据速率、降低的开销、经促进的实现方式和/或经改进的性能的方法将是有利的。

【发明内容】

[0024]因此,本发明力图优选地单个或以任何组合减轻、缓解或消除以上提到的缺点中的一个或多个。
[0025]根据本发明的方面,提供了一种用于处理音频信号的装置,所述装置包括:用于接收输入数据的接收器,所述输入数据包括至少描述包括早期部分和混响部分的头部相关双耳传递函数的数据,所述数据包括:指示头部相关双耳传递函数的早期部分的早期部分数据,指示头部相关双耳传递函数的混响部分的混响数据,指示早期部分与混响部分之间的时间偏移的同步指示;用于通过向音频信号应用双耳处理而生成第一音频分量的早期部分电路,双耳处理至少部分地由早期部分数据确定;用于通过向音频信号应用混响处理而生成第二音频分量的混响器,混响处理至少部分地由混响数据确定;用于生成至少双耳信号的第一耳朵信号的组合器,所述组合器被布置为组合第一音频分量和第二音频分量;以及用于响应于同步指示而使第一音频分量和第二音频分量同步的同步器。
[0026]本发明可以提供特别高效的操作。可以实现头部相关双耳传递函数的非常高效的表示和/或基于头部相关双耳传递函数的处理。所述方法可以导致降低的数据速率和/或降低的复杂性处理和/或双耳渲染。
[0027]实际上,不是使用导致高数据速率和复杂处理的头部相关双耳传递函数的简单长表示,而是头部相关双耳传递函数可以分为至少两个部分。可以针对头部相关双耳传递函数的不同部分的特性单独地优化表示和处理。具体而言,可以针对确定各个部分中的头部相关双耳传递函数的各个物理特性和/或与每一个部分相关联的感知特性来优化表示和处理。
[0028]例如,可以针对直接音频传播路径优化早期部分
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1