在包括环绕扬声器和/或高度扬声器的再现环境中呈现音频对象的制作方法

文档序号:11935928阅读:351来源:国知局
在包括环绕扬声器和/或高度扬声器的再现环境中呈现音频对象的制作方法与工艺

本申请要求于2014年9月12日提交的西班牙专利申请第P201431322号以及于2014年11月13日提交的美国临时专利申请第62/079,265号的优先权,上述每个申请的全部内容通过引用并入本文。

技术领域

本公开内容涉及音频再现数据的创作和呈现。具体地,本公开内容涉及创作和呈现用于诸如影院声音再现系统的再现环境的音频再现数据。



背景技术:

自从在1927年将声音引入电影之后,用于捕捉影片音轨的艺术意图的技术以及在影院环境中对其进行重放的技术已得到稳定发展。在20世纪30年代,唱片上的同步声音让位给胶片上的可变区域声音,出于剧院声学的考虑,这在20世纪40年代进一步被改进,并且改进了扬声器设计以及早期引入多轨录音和可改变位置的重放(使用控制音来移动声音)。在20世纪50年代和60年代,胶片的磁条使得能够在剧院中重放多声道、在高级剧院中引入环绕声道和多达五个屏幕声道。

在20世纪70年代,杜比在后期制作和影片中引入了降噪以及对具有3个屏幕声道和单环绕声道的混音进行编码和分发的成本经济的手段。在20世纪80年代,通过杜比声谱记录(SR)降噪和认证计划(如THX),进一步改进了影院声音的质量。在20世纪90年代,杜比将数字声音引入电影院,该数字声音具有5.1声道格式,提供分立的左、中央和右屏幕声道、左右环绕阵列以及用于低频效果的低音炮声道。2010年推出的杜比环绕7.1通过将现有的左右环绕声道分为四个“区域”来增加了环绕声道的数目。

随着声道数目的增加以及扬声器布局从平面二维(2D)阵列转换为包括高度扬声器的三维(3D)阵列,创作和呈现声音的任务变得越来越复杂。改进的方法和设备将是所期望的。



技术实现要素:

本公开内容中描述的主题的一些方面可以在以下工具中实现:该工具用于呈现包括不参考任何特定再现环境而创建的音频对象的音频再现数据。如本文中使用的术语“音频对象”可以指音频对象信号流和相关联的音频对象元数据。元数据可以至少指示音频对象的位置。然而,元数据还可以指示去相关数据(decorrelation data)、呈现约束数据、内容类型数据(例如对话,效果等)、增益数据、轨迹数据等。一些音频对象可以是静态的,而其他音频对象可以具有时变元数据:这样的音频对象可以移动,可以改变大小以及/或者可以具有随时间变化的其他属性。

当在再现环境中监测或重放音频对象时,可以至少根据音频对象位置数据来呈现音频对象。呈现处理可以包括:计算用于一组输出声道中的每个声道的一组音频对象增益值。每个输出声道可以对应于再现环境的一个或更多个再现扬声器。因此,呈现处理可以包括:至少部分地基于音频对象元数据将音频对象呈现为一个或更多个扬声器馈送信号。扬声器馈送信号可以对应于再现环境内的再现扬声器位置。

如本文中详细描述的,在一些实施方式中,方法可以包括:接收包括音频对象的音频数据。音频对象可以包括音频对象信号和相关联的音频对象元数据。音频对象元数据可以至少包括音频对象位置数据。该方法可以包括:接收再现环境数据,该再现环境数据可以包括对再现环境中的再现扬声器的数目的指示以及对再现环境内的再现扬声器位置的指示。该方法可以包括:至少部分地基于音频对象元数据将音频对象呈现在一个或更多个扬声器馈送信号中。每个扬声器馈送信号可以与再现环境内的再现扬声器中的至少一个再现扬声器对应。

呈现可以涉及:至少部分地基于音频对象的音频对象位置数据来确定将呈现扬声器馈送信号的多个再现扬声器。呈现可以涉及:至少部分地基于将呈现扬声器馈送信号的多个再现扬声器中的至少一个再现扬声器是否是环绕扬声器或者高度扬声器,来确定要应用至与音频对象对应的音频对象信号的去相关量。去相关可以包括:将音频信号与该音频信号的去相关版本进行混合。

根据一些实现方式,如果确定了将呈现扬声器馈送信号的所述多个再现扬声器中没有再现扬声器是环绕扬声器或者高度扬声器,则要应用的去相关量的确定可以涉及:确定去相关将不被应用。在一些示例中,要应用的去相关量的确定可以至少部分地基于与该音频对象对应的音频对象位置数据。

在一些实现方式中,与音频对象中的至少一些音频对象相关联的音频对象元数据可以包括与要应用的去相关量有关的信息。可替代地或者附加地,要应用的去相关量的确定可以至少部分地基于用户定义的参数。

至少一些音频对象可以是静态音频对象。然而,至少一些音频对象可以是具有时变元数据(如时变的位置数据)的动态音频对象。

在一些示例中,再现环境可以是影院声音系统环境或者家庭影院环境。再现环境可以例如包括杜比环绕5.1配置或者杜比环绕7.1配置。在再现环境包括杜比环绕5.1配置的一些实现方式中,要应用的去相关量的确定可以涉及:确定该音频对象的呈现是否将涉及跨左前/左环绕扬声器对或者右前/右环绕扬声器对的声像移位。在再现环境包括杜比环绕7.1配置的一些实现方式中,要应用的去相关量的确定涉及:确定该音频对象的呈现是否将涉及跨左前/左侧环绕扬声器对、左侧环绕/左后环绕扬声器对、右前/右侧环绕扬声器对或者右侧环绕/右后环绕扬声器对的声像移位。

本公开内容的至少一些方面可以在包括接口系统和逻辑系统的装置中实现。逻辑系统可以包括下述中至少之一:通用的单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立的门或晶体管逻辑、或者分立的硬件部件。接口系统可以包括网络接口。在一些实施方式中,装置可以包括存储器系统。接口系统可以包括逻辑系统与存储器系统的至少一部分(例如,存储器系统的至少一个存储器设备)之间的接口。

逻辑系统可以能够经由接口系统接收包括音频对象的音频数据。音频对象可以包括音频对象信号和相关联的音频对象元数据。音频对象元数据可以至少包括音频对象位置数据。

逻辑系统能够接收再现环境数据,该再现环境数据包括对再现环境中的再现扬声器的数目的指示以及对再现环境内的再现扬声器位置的指示。逻辑系统可以能够至少部分地基于音频对象元数据将音频对象呈现在一个或更多个扬声器馈送信号中。每个扬声器馈送信号可以与再现环境内的再现扬声器中的至少一个再现扬声器对应。

呈现可以涉及:至少部分地基于音频对象的音频对象位置数据来确定将呈现扬声器馈送信号的多个再现扬声器。呈现可以涉及:至少部分地基于将呈现扬声器馈送信号的多个再现扬声器中的至少一个再现扬声器是否是环绕扬声器或者高度扬声器,来确定要应用至与音频对象对应的音频对象信号的去相关量。

在一些实施方式中,如果确定了将呈现扬声器馈送信号的所述多个再现扬声器中没有再现扬声器是环绕扬声器或者高度扬声器,则要应用的去相关量的确定可以涉及:确定去相关将不被应用。在一些示例中,要应用的去相关量的确定可以至少部分地基于与该音频对象对应的音频对象位置数据。在一些实现方式中,与音频对象中的至少一些音频对象相关联的音频对象元数据可以包括与要应用的去相关量有关的信息。可替代地或者附加地,要应用的去相关量的确定可以至少部分地基于用户定义的参数。去相关可以包括:将音频信号与该音频信号的去相关版本进行混合。

至少一些音频对象可以是静态音频对象。然而,至少一些音频对象可以是具有时变元数据(如时变的位置数据)的动态音频对象。

在一些示例中,再现环境可以是影院声音系统环境或者家庭影院环境。再现环境可以包括杜比环绕5.1配置或者杜比环绕7.1配置。在再现环境包括杜比环绕5.1配置的一些实现方式中,要应用的去相关量的确定可以涉及:确定该音频对象的呈现是否将涉及跨左前/左环绕扬声器对或者右前/右环绕扬声器对的声像移位。在再现环境包括杜比环绕7.1配置的一些实现方式中,要应用的去相关量的确定涉及:确定该音频对象的呈现是否将涉及跨左前/左侧环绕扬声器对、左侧环绕/左后环绕扬声器对、右前/右侧环绕扬声器对或者右侧环绕/右后环绕扬声器对的声像移位。

本文中描述的方法中的一些或全部可以由一个或更多个设备根据存储在非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括存储器设备,如本文中描述的存储器设备,所述存储器设备包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。例如,软件可以包括用于控制一个或更多个设备的指令,该一个或更多个设备用于接收包括一个或更多个音频对象的音频数据。音频对象可以包括音频对象信号和相关联的音频对象元数据。音频对象元数据可以至少包括音频对象位置数据。

软件可以包括用于接收再现环境数据的指令,该再现环境数据包括对再现环境中的再现扬声器的数目的指示以及对再现环境内的再现扬声器位置的指示,并且用于至少部分地基于音频对象元数据将音频对象呈现在一个或更多个扬声器馈送信号中,其中,每个扬声器馈送信号可以与再现环境内的再现扬声器中的至少一个再现扬声器对应。该呈现可以涉及:至少部分地基于音频对象的音频对象位置数据来确定将呈现扬声器馈送信号的多个再现扬声器,以及至少部分地基于将呈现扬声器馈送信号的多个再现扬声器中的至少一个再现扬声器是否是环绕扬声器或者高度扬声器,来确定要应用至与音频对象对应的音频对象信号的去相关量。去相关可以包括:将音频信号与该音频信号的去相关版本进行混合。

如果确定了将呈现扬声器馈送信号的所述多个再现扬声器中没有再现扬声器是环绕扬声器或者高度扬声器,则要应用的去相关量的确定可以涉及:确定去相关将不被应用。在一些示例中,要应用的去相关量的确定可以至少部分地基于与该音频对象对应的音频对象位置数据。在一些实现方式中,与音频对象中的至少一些音频对象相关联的音频对象元数据可以包括与要应用的去相关量有关的信息。可替代地或者附加地,要应用的去相关量的确定可以至少部分地基于用户定义的参数。去相关可以包括:将音频信号与该音频信号的去相关版本进行混合。

至少一些音频对象可以是静态音频对象。然而,至少一些音频对象可以是具有时变元数据(如时变的位置数据)的动态音频对象。

在一些示例中,再现环境可以是影院声音系统环境或者家庭影院环境。再现环境可以包括杜比环绕5.1配置或者杜比环绕7.1配置。在再现环境包括杜比环绕5.1配置的一些实现方式中,要应用的去相关量的确定可以涉及:确定该音频对象的呈现是否将涉及跨左前/左环绕扬声器对或者右前/右环绕扬声器对的声像移位。在再现环境包括杜比环绕7.1配置的一些实现方式中,要应用的去相关量的确定涉及:确定该音频对象的呈现是否将涉及跨左前/左侧环绕扬声器对、左侧环绕/左后环绕扬声器对、右前/右侧环绕扬声器对或者右侧环绕/右后环绕扬声器对的声像移位。

在附图和以下描述中阐述了本说明书中描述的主题的一个或更多个实现方式的细节。其他特征、方面和优点将从说明书、附图和权利要求书中变得明显。注意,以下附图的相对大小可能未按比例绘制。

附图说明

图1示出了具有杜比环绕5.1配置的再现环境的示例。

图2示出了具有杜比环绕7.1配置的再现环境的示例。

图3A和图3B示出了包括高度扬声器配置的家庭影院重放环境的两个示例。

图4A示出了描绘虚拟再现环境中的不同高度处的扬声器区域的图形用户界面(GUI)的示例。

图4B示出了另一再现环境的示例。

图5A和图5B示出了在再现环境中进行左/右声像移位和前/后声像移位的示例。

图6是提供能够实现本文所描述的各种方法的装置的部件的示例的框图。

图7是提供音频处理操作的示例的流程图。

图8提供了在再现环境中对扬声器对选择性地应用去相关的示例。

图9是提供创作和/或呈现装置的部件的示例的框图。

在各个附图中,相同的附图标记和指定表示相同的元件。

具体实施方式

以下描述涉及为了描述本发明的一些创新方面的目的的某些实施方式,以及可以实施这些创新方面的背景环境的示例。然而,本文的教导可以以各种不同的方式来应用。例如,虽然就特定再现环境描述了各种实现方式,但是本文的教导可以广泛地适用于其他已知的再现环境以及未来可能引入的再现环境。此外,所描述的实现方式可以被实现在各种创作和/或呈现工具中,这些创作和/或呈现工具可以以各种硬件、软件、固件等实现。因此,本公开内容的教导不旨在局限于图中示出的和/或本文中描述的实现方式,而是具有广泛的适用性。

图1示出了具有杜比环绕5.1配置的再现环境的示例。杜比环绕5.1是在20世纪90年代开发的,但这种配置仍然广泛部署在影院声音系统环境中。投影仪105可以被配置成将例如电影的视频图像投影在屏幕150上。音频再现数据可以与视频图像同步并且由声音处理器110来处理。功率放大器115可以向再现环境100的扬声器提供扬声器馈送信号。

杜比环绕5.1配置包括左环绕阵列120和右环绕阵列125,每个环绕阵列包括由单个声道成组驱动的一组扬声器。杜比环绕5.1配置还包括用于左屏幕声道130、中央屏幕声道135和右屏幕声道140的单独声道。为低频效果(LFE)而设置了用于低音炮145的单独声道。

在2010年,杜比通过引入杜比环绕7.1来提供对数字影院声音的增强。图2示出了具有杜比环绕7.1配置的再现环境的示例。数字投影仪205可以被配置成接收数字视频数据,并且将视频图像投影在屏幕150上。音频再现数据可以由声音处理器210处理。功率放大器215可以向再现环境200的扬声器提供扬声器馈送信号。

杜比环绕7.1配置包括左侧环绕阵列220和右侧环绕阵列225,每个环绕阵列可以由单个声道驱动。与杜比环绕5.1相似,杜比环绕7.1配置包括用于左屏幕声道230、中央屏幕声道235、右屏幕声道240和低音炮245的单独声道。然而,杜比环绕7.1通过将杜比环绕5.1的左环绕声道和右环绕声道分为四个区域来增加环绕声道的数目,这四个区域除了左侧环绕阵列220和右侧环绕阵列225之外,还包括用于左后环绕扬声器224和右后环绕扬声器226的单独声道。再现环境200内的环绕区域的数目的增加可以显著改进声音的定位。

在创建更具沉浸感环境的努力中,一些再现环境可以被配置有由更多数目的声道驱动的更多数目的扬声器。此外,一些再现环境可以包括部署在各种高度的扬声器,其中一些扬声器可以处于再现环境的就座区域的上方。

图3A和图3B示出了包括高度扬声器配置的家庭影院播放环境的两个示例。在这些示例中,重放环境300a和300b包括杜比环绕5.1配置的主要特征,所述主要特征包括左环绕扬声器322、右环绕扬声器327、左扬声器332、右扬声器342、中央扬声器337和低音炮145。然而,重放环境300包括用于高度扬声器的杜比环绕5.1配置的扩展,该扩展可以被称为杜比环绕5.1.2配置。

图3A示出了具有安装在家庭影院重放环境的天花板360上的高度扬声器的重放环境的示例。在本示例中,重放环境300a包括处于左上中(Ltm)位置的高度扬声器352和处于右上中(Rtm)位置的高度扬声器357。在图3B所示的示例中,左扬声器332和右扬声器342是被配置成反射来自天花板360的声音的杜比高度扬声器。如果适当地配置,反射声音可以被听众365感知,就好像声源源自天花板360一样。然而,扬声器的数目和配置仅通过举例的方式来提供。一些目前的家庭影院设置了多达34个扬声器位置,并且预期的家庭影院实现方式可以允许更多的扬声器位置。

因此,现代趋势是不仅包括更多的扬声器和更多的声道,而且包括不同高度处的扬声器。随着声道数目的增加以及扬声器布局从2D阵列转换成3D阵列,声音的定位和呈现任务变得越来越困难。因此,本申请受让人开发了增加3D音频声音系统的功能和/或减少创作复杂度的各种工具以及相关的用户界面。

图4A示出了描绘虚拟再现环境中的不同高度处的扬声器区域的图形用户界面(GUI)的示例。可以例如根据来自逻辑系统的指令、根据从用户输入设备接收的信号等将GUI 400显示在显示设备上。下面参照图10来描述一些这样的设备。

本文中参照虚拟再现环境(如虚拟再现环境404)所使用的术语“扬声器区域”通常指可以具有或者可以不具有与实际再现环境的再现扬声器的一一对应关系的逻辑构造。例如,“扬声器区域位置”可以对应于或者可以不对应于电影再现环境的特定再现扬声器位置。相反,术语“扬声器区域位置”通常指虚拟再现环境的区域。在一些实现方式中,例如,通过使用虚拟化技术,虚拟再现环境的扬声器区域可以对应于虚拟扬声器,该虚拟化技术诸如杜比耳机注册商标(有时被称为移动环绕注册商标),该杜比耳机使用一套双声道立体声耳机来实时创建虚拟环绕声环境。在GUI 400中,在第一高度处有七个扬声器区域402a,在第二高度处有两个扬声器区域402b,使得在虚拟再现环境404中总共有九个扬声器区域。在本示例中,扬声器区域1至3在虚拟再现环境404中的前方区域405中。前方区域405可以对应于例如屏幕150所在的影院再现环境的区域,对应于电视屏幕所在的家庭的区域,等等。

此处,扬声器区域4通常对应于左区域410中的扬声器,并且扬声器区域5对应于虚拟再现环境404的右区域415中的扬声器。扬声器区域6对应于左后区域412,并且扬声器区域7对应于虚拟再现环境404的右后区域414。扬声器区域8对应于上部区域420a中的扬声器,并且扬声器区域9对应于上部区域420b中的扬声器,其可以是虚拟天花板区域,例如图5D和图5E中所示的虚拟天花板的区域520。因此,图4A中所示的扬声器区域的位置1至9可以对应于或者可以不对应于实际再现环境的再现扬声器的位置。此外,其他实施方式可以包括更多或更少的扬声器区域和/或高度。

在各种实现方式中,用户界面如GUI 400可以用作创作工具和/或呈现工具的一部分。在一些实现方式中,创作工具和/或呈现工具可以经由存储在一个或更多个非暂态介质上的软件来实现。创作工具和/或呈现工具可以(至少部分地)由硬件、固件等(如下面参照图10描述的逻辑系统和其他设备)来实现。在一些创作实现方式中,相关联的创作工具可以用于创建相关联的音频数据的元数据。元数据可以例如包括指示音频对象在三维空间中的位置和/或轨迹的数据、扬声器区域约束数据等。可以相对于虚拟再现环境404的扬声器区域402而不是相对于实际再现环境的特定扬声器布局来创建元数据。呈现工具可以接收音频数据和相关联的元数据,并且可以计算用于再现环境的音频增益和扬声器馈送信号。这种音频增益和扬声器馈送信号可以根据幅度声像移位处理(amplitude panning process)来计算,该幅度声像移位处理可以产生声音来自再现环境中的位置P的感觉。例如,可以根据以下等式将扬声器馈送信号提供给再现环境的再现扬声器1至N:

xi(t)=gix(t),i=1,…N (等式1)

在等式1中,xi(t)表示要施加到扬声器i的扬声器馈送信号,gi表示对应声道的增益因子,x(t)表示音频信号,t表示时间。增益因子可以例如根据V.Pulkki的Compensating Displacement of Amplitude-Panned Virtual Sources(关于虚拟、合成和娱乐音频的美国声频工程学会(AES)国际会议)的第3-4页第2节中所描述的幅度声像移位方法来确定,上述文献通过引用并入本文。在一些实现方式中,增益可以与频率相关。在一些实现方式中,可以通过将x(t)替换为x(t-Δt)来引入时间延迟。

在一些呈现实现方式中,参考扬声器区域402创建的音频再现数据可以被映射到宽范围的再现环境中的扬声器位置,所述再现环境可以是杜比环绕5.1配置、杜比环绕7.1配置、滨崎(Hamasaki)22.2配置或者其它配置。例如,参照图2,呈现工具可以将用于扬声器区域4和5的音频再现数据映射到具有杜比环绕7.1配置的再现环境的左侧环绕阵列220和右侧环绕阵列225。用于扬声器区域1、2和3的音频再现数据可以分别被映射到左屏幕声道230、右屏幕声道240和中央屏幕声道235。用于扬声器区域6和7的音频再现数据可以被映射到左后环绕扬声器224和右后环绕扬声器226。

图4B示出了另一再现环境的示例。在一些实施方式中,呈现工具可以将用于扬声器区域1、2和3的音频再现数据映射到再现环境450的相应的屏幕扬声器455。呈现工具可以将用于扬声器区域4和5的音频再现数据映射到左侧环绕阵列460和右侧环绕阵列465,并且可以将用于扬声器区域8和9的音频再现数据映射到左侧高架扬声器470a和右侧高架扬声器470b。可以将用于扬声器区域6和7的音频再现数据映射到左后环绕扬声器480a和右后环绕扬声器480b。

在一些创作实现方式中,创作工具可以用于创建音频对象的元数据。如上所述,术语“音频对象”可以指音频数据信号流和相关联的元数据。元数据可以指示音频对象的3D位置、音频对象的表观大小、呈现约束以及内容类型(例如对话、效果)等。根据实现方式,元数据可以包括其他类型的数据,如增益数据、轨迹数据等。一些音频对象可以是静态的,而其他音频对象可以移动。可以根据相关联的元数据来创作或呈现音频对象细节,该元数据可以指示在给定时间点音频对象在三维空间中的位置。当在再现环境中监测或重放音频对象时,可以根据再现环境的再现扬声器布局根据音频对象的位置和大小元数据来呈现音频对象。

图5A和图5B示出了在再现环境中进行左/右声像移位(panning)和前/后声像移位的示例。再现环境500内的扬声器的位置、扬声器的数目等仅通过举例的方式示出。与本公开内容的其他附图一样,图5A和图5B的元件不一定按比例绘制。所示元件之间的相对距离、角度等仅通过图示的方式来说明。

在本示例中,再现环境500包括左扬声器505、右扬声器510、左环绕扬声器515、右环绕扬声器520、左高度扬声器525和右高度扬声器530。聆听者的头部535面向再现环境500的前方区域。可替代的实现方式还可以包括中央扬声器501。

在本示例中,左扬声器505、右扬声器510、左环绕扬声器515和右环绕扬声器520都被定位在xy平面中。在本示例中,左扬声器505和右扬声器510沿x轴定位,而左扬声器505和左环绕扬声器515沿y轴定位。此处,左高度扬声器525和右高度扬声器530被定位在聆听者的头部535的上方距xy平面的高度z处。在本示例中,左高度扬声器525和右高度扬声器530被安装在再现环境500的天花板上。

在图5A所示的示例中,左扬声器505和右扬声器510正在产生与音频对象545对应的声音,该音频对象545位于再现环境500中的位置P处。在本示例中,位置P在聆听者的头部535的前方并且稍微偏右。此处,P也沿x轴定位。

例如,呈现工具可能已经接收到音频对象545的音频数据和相关联的音频对象元数据,包括音频对象位置数据,并且可能已经根据幅度声像移位处理计算了左扬声器505和右扬声器510的音频增益和扬声器馈送信号,以产生与音频对象545对应的声源在位置P处的感觉。这样的声源在本文中可以被称为“幻影图像(phantom image)”或“幻影源”。

以数学形式,呈现或声像移位操作可以描述如下:

si(t)=∑jgi,j(t)xj(t) (等式2)

在等式2中,gi,j(t)表示一组时变声像移位增益,x(t)表示一组音频对象信号,si(t)表示得到的一组扬声器馈送信号。在该公式中,索引i对应于扬声器,索引j是音频对象索引。在一些示例中,声像移位增益gi,j(t)可以表示如下:

在等式3中,P表示具有扬声器位置Pi的一组扬声器,Mj(t)表示时变音频对象元数据,表示声像移位法则,在本文中也称为声像移位算法或声像移位方法。宽范围的声像移位方法是本领域普通技术人员已知的,其包括但不限于正弦-余弦声像移位法则、正切声像移位法则和正弦声像移位法则NS。此外,针对2维和3维声像移位已经提出了多声道声像移位法则,例如基于矢量的幅度声像移位(VBAP)。

聆听者的大脑可以使用幅度的差异以及声谱和定时线索以定位声源。为了确定声源的左/右位置,如图5A的示例中所示,聆听者的听觉系统可以分析耳间时间差(ITD)和耳间声级差(ILD)。

此处,例如,来自左扬声器505的声音到达聆听者的左耳540a比到达聆听者的右耳540b早。聆听者的听觉系统和大脑可以根据低频(例如,低于800Hz)的相位延迟并且根据高频(例如,1600Hz以上)的群延迟来评估ITD。一些人可以辨别10微秒或更短的耳间时间差。

头影(head shadow)或声影(acoustic shadow)是由于声音被头部阻挡而使声音的振幅减小的区域。声音可能必须穿过和绕过头部行进以到达耳朵。在图5A所示的示例中,至少部分地因为聆听者的头部535遮蔽了聆听者的左耳540a,所以来自右扬声器510的声音在聆听者的右耳540b处比在聆听者的左耳540a处具有更高的水平。由头影引起的ILD通常是与频率相关的:ILD效应通常随着频率增加而增加。

头影效应不仅可以导致总强度的显著衰减,而且可以引起滤波效应。这些头部遮挡的滤波效应可以是声音定位的基本要素。聆听者的大脑可以评估由聆听者的左耳和右耳听到的声音的相对幅度、音色和相位,并且可以根据这种差异来确定声源的表观位置。一些聆听者可能能够对聆听者前方的声源以大约1度的精度来确定声源的表观位置。声像移位算法可以利用前述听觉效果以产生对聆听者前方的音频对象位置的高效呈现,例如针对音频对象位置和/或沿再现环境500的x轴的移动。

然而,对于沿聆听者侧面的声源,聆听者通常具有低得多的声音定位精度水平:对侧向声源的通常的声音定位精度在大约15度的范围内。这种较低的精度至少部分地由相对缺乏双耳线索(如ITD和ILD)引起。因此,对定位在聆听者侧面(或者沿着侧向轨迹移动)的音频对象的成功声像移位可比对位于聆听者前面的音频对象进行声像移位更具挑战性。例如,所感知的幻影源位置可能是不明确的,或者可能与预期的源位置非常不同。

对定位到聆听者侧面的音频对象进行声像移位可能造成另外的挑战。参照图5B,示出了左扬声器505和左环绕扬声器515呈现与具有位置P'的音频对象545相对应的声音。聆听者的头部535被示出为在位置A与B之间移动。来自左扬声器505和左环绕扬声器515的实线箭头表示当聆听者的头部535处于位置A时到达聆听者的左耳540a的声音,而虚线箭头表示当聆听者的头部535在位置B时到达聆听者的左耳540a的声音。

在本示例中,位置A对应于再现环境500的“甜区(sweet spot)”,其中来自左扬声器505的声波和来自左环绕扬声器515的声波两者行进大致相同的距离到达聆听者的左耳540a,该距离在图5B中表示为D1。因为相应的声音从左扬声器505和左环绕扬声器515行进到聆听者的左耳540a所需的时间基本相同,所以当聆听者的头部535位于甜区中时,左扬声器505和左环绕扬声器515是“延迟对准的(delay aligned)”,并且不产生音频失真(artifact)。

然而,当聆听者的头部535移动到位置B时,来自左扬声器505的声波行进距离D2以到达聆听者的左耳540a,而来自左环绕扬声器515的声波行进距离D3以到达聆听者的左耳540a。在本示例中,D2充分大于D3,使得当在位置B时,聆听者的头部535不再处于甜区。当聆听者的头部535处于位置B或者扬声器未被延迟对准的另一位置时,在例如图5B所示的对音频对象进行前/后声像移位期间,会发生音频信号的频率内容中的“梳状”失真(在本文中也称为梳状滤波器的槽和峰)。这样的梳状失真可能使幻影源(例如与位置P'处的音频对象545对应的幻影源)的被感知的音色劣化,并且还可能导致整个音频场景的空间感的崩塌。

在再现环境中用于前/后声像移位的甜区经常相当小。因此,即使聆听者头部的取向和位置的小变化也可能导致这种梳状滤波器的槽和峰在频率上移位。例如,如果图5B中的聆听者在其座位上前后摇摆,使得聆听者的头部535在位置A与B之间来回移动,则当聆听者的头部535处于位置A时,梳状滤波器的槽和峰将消失,然后当听者的头部535移到位置B和离开位置B时,重新出现并且在频率上偏移。

如果聆听者的头部上下移动,则可能发生类似的现象。参照图5B,如果音频对象545的位置P'足够高(在本示例中,具有足够的z分量),声像移位操作可以包括计算左扬声器505、左环绕扬声器515和左高度扬声器525的音频增益和扬声器馈送信号。如果聆听者的头部535上下移动(例如,沿着z轴或基本上沿着z轴),则音频失真(如梳状滤波器的槽和峰)可能产生,并且可能在频率上偏移。

本文中公开的一些实施方式提供了对上述问题的解决方案。根据一些这样的实现方式,可以根据在声像移位处理期间为其提供扬声器馈送信号的扬声器是否是环绕扬声器来选择性地应用去相关。在一些实施方式中,可以根据这样的扬声器是否是高度扬声器来选择性地应用去相关。一些实现方式可以减少或甚至消除音频失真(如梳状滤波器的槽和峰)。一些这样的实现方式可以增加再现环境的“甜区”的大小。

所公开的实现方式具有另外的潜在益处。对呈现内容的下混(例如,从杜比5.1到立体声)会导致跨前扬声器和环绕扬声器而声像移位的音频对象的幅度或“水平”增加。这种效果源于如下事实:声像移位算法通常是保能量的(energy-preserving),使得声像移位增益的平方和等于1。在本文中公开的一些实施方式中,由于给定音频对象的扬声器信号的相关性降低,与下混呈现信号相关联的增益积累将减小。

幻影源的感知的响度取决于声像移位增益,并且因此取决于感知的位置。这种依赖于位置的响度的原因也是由于以下事实:大多数声像移位算法是能量保持的。然而,特别是在低频处的声学总和表现得更像是电学求和,而不是声学求和,因为多个扬声器到聆听者耳朵的延迟基本上相同,并且没有或者几乎没有发生头影效应。最终结果是,跨扬声器声像移位的幻影图像将通常被感知为比以下情况时更响:相同的源在实际扬声器之一处或实际扬声器之一附近处声像移位时。在本文中公开的一些实施方式中,移动对象的感知的响度在空间轨迹上可以更加一致。

图6是提供能够实现本文中描述的各种方法的装置的部件的示例的框图。例如,设备600可以是剧院声音系统、家庭声音系统等(或者可以是其一部分)。在一些示例中,该设备可以被实现在另一装置的部件中。

在本示例中,设备600包括接口系统605和逻辑系统610。例如,逻辑系统610可以包括通用的单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立的门或晶体管逻辑、和/或分立的硬件部件。

在本示例中,装置600包括存储器系统615。存储器系统615可以包括一个或更多个适当类型的非暂态存储介质,如闪存、硬盘驱动器等。接口系统605可以包括网络接口、逻辑系统与存储器系统之间的接口、和/或外部设备接口(如通用串行总线(USB)接口)。

在本示例中,逻辑系统610能够经由接口系统605接收音频数据和其他信息。在一些实现方式中,逻辑系统610可以包括(或者可以实现)呈现设备。因此,逻辑系统610能够实现本文中公开的方法中的一些或全部。

在一些实现方式中,逻辑系统610能够根据存储在一个或更多个非暂态介质中的软件来执行本文中描述的方法中的至少一些方法。非暂态介质可以包括与逻辑系统610相关联的存储器,如随机存取存储器(RAM)和/或只读存储器(ROM)。非暂态介质可以包括存储器系统615的存储器。

图7是提供音频处理操作的示例的流程图。例如,图7的框(以及本文中提供的其他流程图的框)可以由图6的逻辑系统610或者类似设备来执行。与本文中公开的其他方法一样,图7中概述的方法可以包括比所示的框更多或更少的框。此外,本文中公开的方法的框不一定按照所指示的顺序来执行。

此处,框705包括接收包含音频对象的音频数据。音频对象可以包括音频对象信号以及相关联的音频对象元数据。音频对象元数据可以至少包括音频对象位置数据。框705可以包括经由接口系统(如图6的接口系统605)来接收音频数据。因此,可以参照图6的一个或更多个元件的实现方式来描述图7的框。

在一些示例中,框705中接收的音频对象中的至少一些可以是静态音频对象。然而,至少一些音频对象可以是具有时变音频对象元数据的动态音频对象,例如指示时变音频对象位置数据的音频对象元数据。

框710可以包括接收再现环境数据,该再现环境数据包括对再现环境中的再现扬声器的数目的指示,以及对再现环境内的再现扬声器位置的指示。在一些示例中,再现环境数据可以连同音频数据一起被接收。然而,在一些实现方式中,可以以另一种方式来接收再现环境数据。例如,可以从存储器(如图6的存储器系统615的存储器)来检索再现环境数据。

在一些情况下,对再现扬声器位置的指示可以对应于再现环境中的再现扬声器的预期布局。在一些示例中,再现环境可以是影院声音系统环境。然而,在可替代的示例中,再现环境可以是家庭影院环境或其它类型的再现环境。在一些实现方式中,可以根据工业标准如杜比标准配置、滨崎配置等来配置再现环境。例如,对再现扬声器位置的指示可以对应于例如杜比环绕5.1配置、杜比环绕5.1.2配置(如以上参照图3A和3B所讨论的用于高度扬声器的杜比环绕5.1配置的扩展)、杜比环绕7.1配置、杜比环绕7.1.2配置或者其它再现环境配置的左、右、中央、环绕和/或高度扬声器位置。在一些实现方式中,对再现扬声器位置的指示可以包括坐标和/或其他位置信息。

框715包括呈现处理。在本示例中,框715包括至少部分地基于音频对象元数据将音频对象呈现到一个或更多个扬声器馈送信号中。每个扬声器馈送信号可以对应于再现环境内的至少一个再现扬声器。例如,在一些实现方式中,单个再现扬声器位置(例如,“左环绕”)可以对应于再现环境的多个再现扬声器。一些示例在图1和图2中示出,并且如上所述。

在图7所示的示例中,框715的呈现处理包括至少部分地基于音频对象的音频对象位置数据来确定将呈现扬声器馈送信号的多个再现扬声器。在本示例中,框715包括至少部分地基于将呈现扬声器馈送信号的多个再现扬声器中的至少一个再现扬声器是否是环绕扬声器或者高度扬声器来确定要应用至与音频对象对应的音频对象信号的去相关量(amount of decorrelation)。

去相关处理可以是任何合适的去相关处理。例如,在一些实现方式中,去相关处理可以包括对一个或更多个音频信号应用时间延迟、滤波器等。去相关可以包括将音频信号与音频信号的去相关版本进行混合。

如果在框715中确定在将呈现扬声器馈送信号的多个再现扬声器中没有一个再现扬声器是环绕扬声器或者高度扬声器,则对于要应用的去相关量的确定可以包括确定不应用去相关。例如,如果确定将对其生成扬声器馈送信号的再现扬声器是左(前)扬声器和中央(前)扬声器,则在一些实现方式中将不应用去相关(或者基本上不应用去相关)。

如上所述,对于左/右声像移位,头影和其他听觉效果通常将使得能够准确呈现音频对象的位置。因此,在一些这样的实现方式中,将对左/右声像移位不应用去相关(或者基本上不应用去相关)。相反,相关的扬声器信号将被提供给再现扬声器。因此,在这种情况下,本文中公开的改进的呈现器和传统呈现器可以产生相同(或者基本上相同)的扬声器馈送信号。

然而,如果确定在呈现处理期间将对其产生扬声器馈送信号的至少一个再现扬声器是环绕扬声器或者高度扬声器,将对于音频对象信号应用至少一些量的去相关。例如,如果呈现处理将包括生成用于左环绕扬声器的扬声器馈送信号,则将应用一些量的去相关。因此,在一些这样的实现方式中,去相关将被应用于前/后声像移位。经去相关的扬声器信号将被提供给再现扬声器。对扬声器信号进行去相关可以使得对延迟失准的敏感度降低。因此,可以减少或者甚至完全消除由于前扬声器和环绕扬声器之间的到达时间差而引起的梳状失真。甜区的大小可以增加。在一些实施方式中,移动的音频对象的感知响度在空间轨迹上可以更加一致。

如果在框715中确定将应用一些量的去相关,则去相关量可以至少部分地基于与音频对象对应的音频对象位置数据。根据一些实施方式,例如,如果音频对象位置数据指示与任何再现扬声器位置一致的位置,则不应用去相关(或者基本上不应用去相关)。在一些示例中,音频对象将仅由具有与该音频对象的位置一致的位置的再现扬声器来再现。因此,在这种情况下,本文中公开的改进的呈现器和传统呈现器可以产生相同(或者基本上相同)的扬声器馈送信号。

在一些实施方式中,要应用的去相关量可以基于其他因素。例如,与至少一些音频对象相关联的音频对象元数据可以包括与要应用的去相关量有关的信息。在一些实现方式中,要应用的去相关量可以至少部分地基于用户定义的参数。

图8提供了选择性地对再现环境中的扬声器对(speaker pairs)应用去相关的示例。在本示例中,再现环境是杜比环绕7.1配置。此处,示出了围绕扬声器对的虚线椭圆,如果涉及呈现处理,则将为这些扬声器对提供经去相关的扬声器馈送信号。因此,在本示例中,确定要应用的去相关量包括确定呈现音频对象是否涉及跨左前/左侧环绕扬声器对、左侧环绕/左后环绕扬声器对、右前/右侧环绕扬声器对、或者右侧环绕/右后环绕扬声器对的声像移位。

在可替代的示例中,再现环境可以具有杜比环绕5.1配置。确定要应用的去相关量可以包括确定呈现音频对象是否涉及跨左前/左环绕扬声器对或者右前/右环绕扬声器对的声像移位。

根据一些实施方式,可以根据以下公式来执行呈现处理:

在等式4中,g′i,j(t)和hi,j(t)表示一组时变声像移位增益,x(t)表示一组音频对象信号,表示去相关运算符,并且si(t)表示得到的一组扬声器馈送信号。与在上面的等式2中一样,索引i对应于扬声器,索引j是音频对象索引。可以观察到,如果和/或hi,j(t)等于零,则等式4产生与等式2相同的结果。因此,在这种情况下,在本示例中,所得到的扬声器馈送信号将与传统声像移位算法得到的扬声器馈送信号相同。

在一些实现方式中,去相关运算符对输入信号的影响可以表示如下:

<x(t)y(t)>=0 (等式5)

<x2(t)>=<y2(t)> (等式6)

在等式5和6中,x(t)表示输入信号,y(t)表示对应的输出信号,尖括号(<>)指示封闭表达式的期望值。

根据一些这样的实现方式,由使用去相关处理的每个扬声器再现的对象的能量与等式2的“传统声像移位器”的能量相同或者基本相同。该条件可以表示如下:

此外,在一些实现方式中,当扬声器信号被下混时,去相关器的贡献抵消。该条件可以表示如下:

0=Σihi,j (等式8)

在一些实施方式中,在前/后方向上的扬声器对之间的相关(或者去相关)的量可以是可控的。例如,可以将扬声器对之间的相关(或者去相关)的量设为参数ρ,例如如下:

在等式9中,s1和s2表示扬声器对中的两个扬声器。因此,这样的实现方式可以在等式2的传统声像移位器(例如,其中ρ=1,hi,j=0)与涉及选择性地应用去相关的所公开的声像移位器实现方式中的一些声像移位器实现方式(例如,其中ρ<1)之间提供无缝转换。

假设在两个扬声器s1、s2之间对信号x(t)进行成对声像移位(pair-wise panning),则当对增益g'和h使用以下公式时,满足所有准则:

图9是提供创作和/或呈现装置的部件的示例的框图。在本示例中,设备900包括接口系统905。接口系统905可以包括网络接口,如无线网络接口。可替代地或者附加地,接口系统905可包括通用串行总线(USB)接口或其它此类接口。

装置900包括逻辑系统910。逻辑系统910可以包括处理器,如通用的单芯片或多芯片处理器。逻辑系统910可以包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立的门或晶体管逻辑、或者分立的硬件部件、或其组合。逻辑系统910可以被配置成控制装置900的其他部件。尽管在图9中未示出装置900的部件之间的接口,但是逻辑系统910可以配置有用于与其他部件通信的接口。其他部件可以被配置成或者可以不被配置成在适当时彼此通信。

逻辑系统910可以被配置成执行音频创作和/或再现功能,包括但不限于本文中描述的音频呈现功能的类型。在一些这样的实现方式中,逻辑系统910可以被配置成(至少部分地)根据存储在一个或更多个非暂态介质中的软件来操作。非暂态介质可以包括与逻辑系统910相关联的存储器,如随机存取存储器(RAM)和/或只读存储器(ROM)。非暂态介质可以包括存储器系统915的存储器。存储器系统915可以包括一个或更多个适当类型的非暂态存储介质,如闪存、硬盘驱动器等。

取决于装置900的表现形式,显示系统930可以包括一个或更多个适当类型的显示器。例如,显示系统930可以包括液晶显示器、等离子体显示器、双稳态显示器等。

用户输入系统935可以包括被配置成接受来自用户的输入的一个或更多个装置。在一些实现方式中,用户输入系统935可以包括覆盖显示系统930的显示器的触摸屏。用户输入系统935可以包括鼠标、轨迹球、手势检测系统、操纵杆、一个或更多个GUI和/或呈现在显示系统930上的菜单、按钮、键盘、开关等。在一些实现方式中,用户输入系统935可以包括麦克风925:用户可以经由麦克风925为装置900提供语音命令。逻辑系统可以被配置成用于语音识别,以及用于根据这样的语音命令来控制装置900的至少一些操作。

电力系统940可以包括一个或更多个适当的能量存储装置,如镍镉电池或锂离子电池。电力系统940可以被配置成从电源插座接收电力。

对于本领域普通技术人员来说,对本公开内容中描述的实现方式的各种修改是显而易见的。在不脱离本公开内容的精神或范围的情况下,本文中限定的一般原理可以应用于其他实现方式。因此,权利要求并不旨在局限于本文所示的实现方式,而是旨在符合与本公开内容、本文中公开的原理和新颖特征一致的最宽范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1