处理空间音频的方法,系统及制品与流程

文档序号:11456673阅读:329来源:国知局
处理空间音频的方法,系统及制品与流程

优先权主张

本专利申请案主张2015年1月2日申请的临时申请案第62/099,395号及2015年7月23日申请的美国申请案第14/807,760号(两者标题均为“具有用户可配置的声聚焦的多声道声渲染(multi-channelsoundreproductionwithuserconfigurablesoundfocus)”)的优先权,且特此以全文引用的方式明确地并入本文中,犹如完全在本文中阐明一般。

本发明大体来说涉及音频系统,且,更特定来说,涉及一种可动态地配置的多声道音频系统。



背景技术:

常规多声道记录通常在播放环境中假定固定扩音器位置;且因此,一些常规多声道音响系统基于标准扩音器配置处理并存储音频信号。标准多声道扩音器配置包含常规l-r立体声、5.1环绕立体声及7.1环绕立体声以及其它音响。然而,在用户的声学空间(例如,起居室、汽车或其类似者)中,扩音器位置与由标准指定的那些扩音器位置不匹配并不少见。此外,如果用户想要动态地配置扩音器设置或聚焦于声源或方向,那么应考虑实际设置及/或用户或装置选择以用于恰当的音频渲染。举例来说,如果一个扩音器出于例如电池不足问题或非标准位置的某种原因而为非理想的,那么音频播放系统应获得此信息并实时反映此些差异以用于恰当的音频渲染。

存在用以使用经编码声源形成虚拟扩音器位置以补偿扩音器位置不匹配的一些已知方法,但这些方法可引起不可避免的声源位置不匹配,这是因为所述方法中的一些方法试图重新映射经处理的输出以形成虚拟扩音器。



技术实现要素:

为了解决前述缺点,本文中所揭示的技术可处理经方向性编码音频以考虑收听者播放环境的实体特性,例如实际扩音器位置。本发明技术还可处理经方向性编码音频以准许对音频场景中来自特定方向的声音进行聚焦/散焦。所揭示技术的优点在于:可在播放时更准确地渲染所记录音频场景,而不管输出扩音器设置(即,扩音器的物理配置及布局)。另一优点在于:技术可准许用户动态地配置音频数据以使得其更好地符合用户的特定扩音器布局及/或用户的对音频场景中的特定对象或区域的所要聚焦。

根据所揭示技术的方面,一种处理音频的方法包含:接收对应于场景的音频数据。所述音频数据包含指示所述场景中的一或多个声源的一或多个方向的空间信息。基于识别播放环境的一或多个空间特性的输入数据而修改所述音频数据。

根据另一方面,一种系统包含经配置以接收对应于场景的音频数据的接口。所述音频数据包含指示场景中的一或多个声源的一或多个方向的空间信息。所述系统还包含处理器,所述处理器经配置以基于识别播放环境的一或多个空间特性的输入数据而修改所述音频数据。

根据又一方面,一种系统包含用于接收对应于场景的音频数据的装置,其中所述音频数据包含指示场景中的一或多个声源的一或多个方向的空间信息;以及用于基于识别播放环境的一或多个空间特性的输入数据而修改音频数据的装置。

根据又一方面,一种体现可由一或多个处理器执行的指令集的计算机可读媒体存储用于接收对应于场景的音频数据的程序代码,其中所述音频数据包含指示场景中的一或多个声源的一或多个方向的空间信息。所述计算机可读媒体还存储用于基于识别播放环境的一或多个空间特性的输入数据而修改音频数据的程序代码。

前述概述并不界定对所附权利要求书的限制。在检查以下各图及详细描述后,所属领域的技术人员即将显而易见或将变得显而易见其它方面、特征及优点。意欲将所有此些额外特征、方面及优点包含于此描述内且受随附权利要求书保护。

附图说明

应理解,图式仅用于说明的目的且并不界定对所附权利要求书的限制。此外,诸图中的组件未必按比例绘制。在诸图中,相似参考数字贯穿不同视图指明对应零件。

图1为说明实例音频输出空间的概念图,其中将音频掩蔽窗应用于经方向性编码音频数据以补偿不匹配的扩音器位置。

图2为说明示范性掩蔽窗函数的曲线图。

图3为说明经划分成26个扇段的另一实例音频输出空间的概念图。

图4为说明实例音频输出空间的概念图,其中音频空间的区由用户启用且音频空间的其它区经禁用。

图5为说明实例音频输出空间的概念图,其中音频空间的两个区由用户启用且音频空间的其它区经禁用。

图6a到b为说明不同操作情境期间的实例多声道音频空间的概念图,其中各种音频场景区由用户选择性地启用或禁用。

图7a到b为说明不同操作情境期间的实例立体声音频空间的概念图,其中各种音频场景区由用户选择性地启用或禁用。

图8为说明手持式装置周围的实例音频场景空间的概念图,其中对应于手持式装置的后置摄像机的音频区经启用。

图9为说明手持式装置周围的实例音频场景空间的概念图,其中对应于手持式装置的前置摄像机的音频区经启用。

图10为根据本文中所揭示技术的用于对音频进行塑形的示范性系统的框图。

图11为说明根据本文中所揭示技术的对音频进行塑形的方法的流程图。

图12为可操作以执行多声道音频产生及方向性编码所接收音频的实例系统的图。

图13为可操作以实施图12的系统的装置的实例的多个视图的图。

图14a为相对于图12的系统的麦克风对的平面波传播的实例远场模型的图。

图14b为可对应于图12的系统的麦克风的实例麦克风置放的图。

图15为可包含于图12的系统中的麦克风的替代示范性布置的图。

图16为说明用于校准播放系统的扩音器的实际位置以使得可根据本文中所描述的技术对音频数据进行塑形以考虑实际扬声器位置的技术的概念图。

具体实施方式

参看图式且并有图式的以下详细描述描述并说明音频处理技术的一或多个特定实例。充分详细地展示及描述并非为了限制而提供而仅用以举例说明及教示所揭示内容而提供的这些技术,以使得所属领域的技术人员能够实践所揭示技术。因此,在适于避免混淆技术的情况下,描述可省略所属领域的技术人员已知的某些信息。

词“示范性”贯穿本申请案用于意指“用作实例、例子或说明”。本文中描述为“示范性”的任何系统、方法、装置、技术、特征或其类似者未必应被解释为较其它特征较佳或有利。

本文中所揭示的音频处理技术的优点在于:可经由图形用户接口(gui)自定义音频捕获以考虑任意或非标准扩音器布局。因此,可对基于标准声道捕获的数字音频数据进行“塑形”以考虑非标准扩音器配置。可如实渲染声音的空间印象而不管距所推荐标准位置的扩音器偏移。在本创新之前,对于自定义音频捕获及/或播放,并不存在此类灵活性及稳健性。已知的音频捕获及/或播放是针对固定标准扩音器位置,例如,环绕立体声5.1、环绕立体声7.1、立体声、单声道或其类似者。

用户可能想要在播放时尽可能类似地渲染所记录音频场景,而不管其输出扩音器设置(即,扩音器的物理配置及布局)。所揭示音频处理技术准许用户动态地配置音频数据以使得其分别更好地符合用户的特定扩音器布局。

另外,所揭示音频处理技术结合透明方向性音频场景渲染提供对来自特定方向的声音进行聚焦/散焦的能力。所揭示音频处理技术可在(例如)成对/基于矢量的振幅平移(panning)的上下文内提供所记录声源与所渲染源位置之间的透明匹配。因此,所揭示技术提供用户可调整的声音聚焦/散焦能力,同时维持对所渲染音频场景内的声音的方向性感知。

所揭示技术还可在播放/渲染时动态地执行位置声音编码以使得音响系统可基于实际位置及可用扩音器的数目、基于关于此等扩音器的先验位置信息而达成互易性。

本文中参考二维音频空间(场景)描述音频处理技术。然而,可通过沿z轴添加一或多个麦克风(用于捕获处理程序)及扩音器(用于播放)而将所揭示技术扩展到三维音频场景。

图1为说明表示向一或多个收听者播放音频的播放环境的实例音频输出空间100(输出场景)的概念图。在所展示的实例中,使用五个输出音频声道,其中在实际扩音器108a到108e上播放音频。示范性配置为环绕立体声系统5.1,其中扩音器108a对应于左(l)声道,扩音器108b对应于中心(c)声道,扩音器108c对应于右(r)声道,扩音器108d对应于环绕声右(sr)声道,扩音器108e对应于环绕声左(sl)声道。然而,如图1中所展示,用户的真实扩音器108a到108e的实际位置偏离标准扩音器位置110a到110e。在实例中,标准扩音器位置110a到110e对应于通过环绕立体声5.1指定的那些位置。

如概念上所说明,由音响系统(图1中未展示)将音频掩蔽窗106a到106e应用于经方向性编码音频数据以补偿不匹配的扩音器位置。为了完成掩蔽,将音频空间100划分成五个用户可配置的扇段102a到102e。通过扇段边界104a到104e描绘扇段102a到102e。边界位置可为用户界定的,如下文结合图4及10到11进一步描述。因此,用户可通过界定每一扇段的边界来界定每一扇段的区。尽管可使用任何合适方法或测量来界定边界及扇段,但出于说明的目的,可将边界界定为从空间的中心发出的径向线,其中单位圆角界定边界104a到104e中的每一者的位置。举例来说,扇段5106e的边界104a、104e分别位于0度及90度。边界及扇段为可用以描述播放环境的空间特性的数据或信息的实例。

每一扇段102a到102e可对应于各别扩音器108a到108e的实际位置。在一些情况中,扩音器可居中定位于边界之间在其各别扇段内。

此处所描述的音频处理技术可适用于具有任何合适数目个扇段的音频空间,且扇段的大小及形状可变化,且其大小或形状可能均匀或可能不均匀。

掩蔽窗106a到106e可为应用于经方向性编码输入音频数据以根据播放音频空间100的扩音器配置对输出音频进行“塑形”的增益函数。每一掩蔽窗函数可使用基于频率区间的掩蔽及时间-频域平滑化。

针对每一所捕获音频帧,按照频率区间估计到达方向(doa),从而产生经方向性编码音频帧。可将每一帧的方向信息(doa)连同描述帧的其它音频数据(例如,频谱信息)一起保留。下文结合图12到15描述用于估计输入音频的doa的技术。基于输入音频的所估计doa,计算每一输出声道108a到108e的掩蔽窗增益。一般来说,针对每一音频帧计算m个掩蔽增益(对应于m个音频输出声道),其中m为整数。

在图1的实例音频空间100中,m=5,且因此,针对音频的每一帧计算五个掩蔽增益。以另一实例说明,考虑m=2,其可为表示立体声输出的音频空间。因此,针对每一音频帧,基于每一频率区间之doa,计算两个掩蔽增益,一个掩蔽增益用于左声道且另一个掩蔽增益用于右声道。尽管本说明中描绘双声道及五声道音频场景,但本文中所描述的音频处理技术可适用于具有任何合适数目(m)个声道的场景。

图2为说明示范性掩蔽窗函数201的曲线图200。掩蔽窗函数201为分段余弦函数。曲线图x轴202表示doa,且曲线图y轴203表示增益。在所展示的实例中,增益在0与1(单位一)之间变化。

实例函数201说明仅启用一个音频扇段且扇段边界为225度及315度的状况。掩蔽窗经设计成扇段的中心(270度)具有单位增益。移动远离中心,增益可在“滚降开始”角度(其为为调谐参数的度数值)之前维持为单位一204。

掩蔽函数的结束具有零增益。这些结束的位置可通过使用“滚降结束”角度来调谐。

介于单位一增益与零增益之间的窗的部分可为分段余弦函数(在图2中参考为206a到206b)。为了计算具有按音频帧的所估计doa角度θ(以度为单位)应用的增益的音频输出,可使用以下广义函数:

其中“增益”为掩蔽窗函数输出(音频输出信号),“滚降结束”等于滚降结束(例如,参见图2)时介于零增益与单位一增益之间的度数,且p2为通过帧表示的输入音频信号的振幅。

参看图1,掩蔽窗函数可经配置以使得每一实际扩音器位置108a到108e处的增益为单位一,且在每一扇段边界104a到104e处,增益为1/sqrt(2)以确保边界处的平滑音频过渡。边界处的增益为可调谐的。

可使用其它合适的掩蔽窗函数,包含基于成对平移规则的那些函数,如紧接着在下文所描述。

针对成对平移规则,大体上遵循关于平移的正弦定律。

举例来说,参看图1,在左声道108a与中心声道108b之间,存在30度角距离,且从左扩音器位置测量声源doa角θ产生:

其中left2为左声道扩音器108a的输出且center2为中心声道扬声器108b的输出,且p2为输入音频振幅。

可使用各别角距离及doa角对每一对扩音器执行类似计算。一旦进行每一对的此些计算,便将其加总在一起以获得每声道的最终输出。举例来说,针对图1的左扬声器108a,可执行以下计算:

其中n等于扬声器对的数目且leftfinal为左声道输出。

还可通过取决于收听者与特定扩音器之间的直线距离而引入每声道超过一个增益因子来考虑从收听者到每一扩音器的距离不匹配。

举例来说,为了考虑图1的收听者与左声道扬声器108a之间的实际距离,可使用以下等式:

leftfinal=gainleft·leftfinal(等式5)

其中distancemax可为收听者与扩音器108a之间的标准的预期距离,且distanceleft为收听者与扩音器108a之间的实际距离。在图100的实例空间100中,收听者可位于图的中心中。

可替代地将基于矢量的平移规则用于掩蔽窗,例如在2013年3月14日申请的标题为“合作音响系统(collaborativesoundsystem)”的美国专利申请案第13/831,515号中所描述的彼规则。

图3为说明经划分成26个扇段的第二实例音频输出空间300的概念图。在此状况下,扇段的数目n等于26。音频空间300是通过26个等大小的扇段302(通过边界304划定)表示。在输出场景300中,通过实际扩音器306a到306e播放音频,每一实际扩音器输出环绕立体声5.1的各别声道。扩音器306a到306e的位置可能与环绕立体声5.1的所推荐扩音器位置308a到308e不匹配,如所展示。

可记录来自输入音频场景的音频且接着如上文结合图1到2所描述将其关于实际扩音器位置306a到306e后处理成多声道音频输出(在图3的实例中,五个声道)。举例来说,将扇段1中具有doa的音频帧指派给由扩音器306a输出的中心声道。取决于所使用的平移规则或掩蔽窗函数且基于扇段2中占优势声源的doa角,将扇段2中具有doa的音频帧指派给中心声道306a及左声道306b。取决于所使用的平移规则或掩蔽窗函数且基于扇段3中占优势声源的doa角,将扇段3中出现的具有doa的音频帧指派给中心声道306a及左声道306b。将扇段4中具有所估计doa的音频帧指派给左声道306b,等等。

在具有任意数目(n)个扇段的情况下,处理技术可处置任何数目(m)个扩音器,其中m≤n,而不失一般性。

扇段302不需要具有相等角距离及大小,如图3中所描绘。

图4为说明实例音频输出空间400的概念图,其中音频空间400的区401由用户启用且音频空间400的其它区403经禁用。在此实例中,不仅取决于音频的doa而通过掩蔽窗函数或平移规则(如图1到3中所说明)对经方向性编码音频进行塑形,而且基于音频空间400的用户所选择区对经方向性编码音频进一步进行塑形。此情形准许用户将音频播放聚焦于音频空间中的所要区上。

所述区可对应于内部定位有声源且经受由音频系统记录的音频场景中的区域及方向。

实例音频空间400描绘具有两个声道扇段(左声道扇段405及右声道扇段407)的场景,所述声道扇段具有概念上在90度与270度之间延行以划分扇段405、407的扇段边界406。左扩音器408a提供左声道音频输出,且右扩音器408b提供左声道音频输出。此声道布置可表示立体声输出。

存在通过边界404a到404d分离的四个用户可选择区402a到402d。用户可选择区402a到402d的数目、边界位置及大小可由用户经由图形用户接口(gui)来配置,所述图形用户接口可以单位圆方式显示音频场景,例如图1、2及4中所说明。如实例中所展示,第一可选择区402a在225°与315°之间延伸;第二可选择区402b在120°与225°之间延伸;第三可选择区402c在60°与120°之间延伸;且第四可选择区402d在315°与60°之间延伸。可使用任何合适数目个声道扇段及用户可选择区。

实例空间400展示第一区402a经选择(经启用),且其它三个区402b到402d经禁用。

为了完成图4中所描绘的音频处理,由用户经由gui输入两种类型的参数。这些参数为:

扇段边界及区边界—这些边界可为按扇段边界及区边界所位于的单位圆的度数计的键入角。这些边界可由用户在音频记录期间或在音频播放期间实时改变。

区启用—关于是否启用特定区的信息。用户可在记录期间或在播放期间实时选择或不选择区。

基于来自gui的区启用信息,针对经启用扇段中的每一者产生掩蔽窗。确定哪些扇段或其部分经启用需要将经启用区映射到扇段。此情形取决于扇段边界及区边界。在已知来自gui的用户配置的情况下,可根据以下方法做出经启用区属于某一声道扇段还是其组合的决策。参看图4的音频空间400说明所述方法。因此,如下文所论述,方法决定经启用区401属于左声道扇段405、右声道扇段407还是两者的组合。

示范性方法如下进行。首先针对每一角度以1度为步长将区启用信息转换成0及1。举例来说,考虑以下状况:其中,通过如图4中所展示的扇段边界406配置仅启用图4的顶部区401。

如下产生360×1矩阵:

如果角度为经启用区的部分,那么所述角度下的矩阵=1

如果角度并非经启用区的部分,那么所述角度下的矩阵=0。

以此方式,基于经启用区信息产生0及1的360×1矩阵。所述矩阵可存储于音频处理系统中且供一或多个软件程序用于执行方法。

接着,针对每一声道扇段405、407,需要获得掩蔽窗的开始点及结束点。为了对右声道扇段407进行此操作,方法从90度边界开始且向上递增1度地搜索矩阵,直到其命中(hit)存储于矩阵中的第一个1为止。在实例空间400中,第一个1可见于矩阵中225度的角度。方法将此点视为用于右声道扇段的掩蔽窗的开始点。接下来,方法继续依序搜索矩阵中的0,直到其到达270度的第二扇段边界(所述边界为右声道扇段边界)为止。将出现第一个0的角度视为用于右声道的掩蔽窗的结束。如果直到270度边界之后矩阵中仍未出现0,那么将左声道扇段的开始点(在此状况下为315度)视为右声道扇段掩蔽窗的结束点。

以类似方式,执行左声道掩蔽窗的开始点及结束点。可从270度的扇段边界开始,逆时针方向地执行对左声道扇段的依序矩阵搜索以获得1的第一次命中及0的第一次命中,直到到达90度边界为止。

如果经启用区401共享扇段边界(如同在图4中的情形),那么方法将所连接扇段视为一个扇段。在此状况下,最外经启用区边界变成扇段边界。因此,根据方法,扇段边界在某一情况下可重叠。举例来说,在图4的音频输出场景400中,出于计算左声道掩蔽窗的目的,将左声道扇段边界扩展到225度而非270度。相反地,出于计算右声道掩蔽窗的目的,将右声道扇段边界扩展到315度而非270度。

接下来,在确定扇段边界的情况下,使用掩蔽窗计算每频率区间每帧的增益,如上文结合图1到3所论述。在图4的实例音频空间中,可针对具有介于225°与315°之间的doaθ的音频帧计算以0度为中心的左声道掩蔽函数;且可针对具有介于225°与315°之间的相关联doaθ的音频帧计算以180度为中心的右声道掩蔽函数。

图5为说明实例音频输出空间500的概念图,其中音频空间500的两个不相交区502a、502b由用户启用且音频空间的其它区504a、504b经禁用。经用户启用区通过边界503a到503d界定。此处存在属于左声道扇段405的两个经用户启用区502a、502b及属于右声道扇段407的一个区502a。gui可用以键入关于区及扇段边界以及区启用的信息,如结合图4所描述。上文结合图4所描述的矩阵搜索方法可用以确定左声道掩蔽窗及右声道掩蔽窗两者的开始点及结束点。

在此状况下,如上文结合图4所论述般产生右声道掩蔽窗。针对左声道,产生两个掩蔽窗,每一经启用区502a到502b一个掩蔽窗。接着将应用于左声道的累积掩蔽窗增益计算为,

gainleft=gain1+gain2(等式7)

gain1—根据第一经启用区502a的增益,如使用左声道掩蔽窗函数计算。

gain2—根据第二经启用区502b的增益,如使用左声道掩蔽窗函数计算。

在此情境中,针对任一给定doa,两个左声道增益中的一者或两者始终为零。

针对图4及5的上述描述假定立体声输出。然而,这些图中所描绘的音频处理技术可应用于m个输出声道(例如,扇段),例如,可根据类似于上文所论述的那些技术的技术产生五声道或七声道环绕立体声输出。差异为:代替计算两个掩蔽窗增益(左声道及右声道各一个掩蔽窗增益),计算五个或七个掩蔽窗增益,对应声道中的每一者一个掩蔽窗增益。

图6a到b为说明八个不同操作情境600a到600h期间的实例多声道音频场景空间600的概念图,其中各个区608、610、612、614由用户选择性地启用或禁用。用于根据本文中所描述的方法记录及处理音频的装置602居中定位于空间600内。装置可为具有用于显示gui的屏幕607及多个麦克风604a到604c的例如蜂窝式电话或智能电话的手持式装置。gui可供用户用以输入关于扇段、扇段边界、区、区边界及区启用选择的信息。

在通过图6a到b描绘的实例中,装置602可根据由装置602的用户设置的配置划分音频场景600。在所展示的实例中,将音频场景600划分成五个声道扇段,如通过扇段边界606a到606e指示。扇段配置对应于五声道环绕立体声系统,其具有中心(c)声道扩音器620a、右(r)声道扩音器620b、环绕声右(sr)声道扩音器620c、环绕声左(sl)声道扩音器620d、左(l)声道扩音器620e。可使用其它扇段(扩音器)配置,例如七声道输出。

根据结合图1到5及10到11所描述的技术,通过一或多个掩蔽窗函数处理经用户启用区(经聚焦区域)。掩蔽窗中的每一者可对对应扇段扩音器的位置给予单位一增益且可给予恰当滚降(例如,图2的分段余弦函数)以抑制来自属于其它扩音器声道扇段的经禁用区或方向的声音。

在第一操作情境600a中,左侧区608(黑暗阴影)经启用以用于音频捕获/播放,且其它区610到614(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,将位于经启用区608中的声源聚焦,同时抑制经禁用区中的声源。

在第二操作情境600b中,左侧区608及右侧区612(均为黑暗阴影)经启用以用于音频捕获/播放,且其它区610、614(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,将位于经启用区608、612中的声源聚焦,同时抑制经禁用区610、614中的声源。

在第三操作情境600c中,顶部区610及底部区614(黑暗阴影)经启用以用于音频捕获/播放,且其它区608、612(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4到5所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,将位于经启用区610、614中的声源聚焦,同时抑制经禁用区608、612中的声源。

在第四操作情境600d中,左侧区608、顶部区610及右侧区612(黑暗阴影)经启用以用于音频捕获/播放,且剩余区614(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,将位于经启用区608到612中的声源聚焦,同时抑制经禁用区614中的声源。

应以类似于先前所描述的情境600a到600d的方式来理解图6b的剩余操作情境600e到600h,其中实心阴影区描绘经启用区且线阴影区描绘禁用区。

图7a到b为说明八个不同操作情境700a到700h期间的实例立体声音频场景空间700的概念图,其中各个区608到614由用户选择性地启用或禁用。用于根据本文中所描述的方法记录及处理音频的装置602居中定位于空间700内。装置gui可供用户用以输入关于扇段、扇段边界、区、区边界及区启用选择的信息。

在通过图7描绘的实例中,装置602根据经由装置gui配置的用户边界选择将音频空间700划分成两个声道扇段(立体声输出),如通过扇段边界712指示。扇段分别对应于左(l)声道扩音器720及右(r)声道扩音器722。

根据结合图1到4及10到11所描述的技术,通过一或多个掩蔽窗处理经用户启用区(经聚焦区域)。掩蔽窗中的每一者可对对应扇段扩音器的位置给予单位一增益且可给予恰当滚降(例如,图2的分段余弦函数)以抑制来自属于其它扩音器声道扇段的经禁用区或方向的声音。

在第一操作情境700a中,左侧区608(黑暗阴影)经启用以用于音频捕获/播放,且其它区610到614(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,可将位于经启用区608中的声源聚焦,同时抑制经禁用区610到614中的那些声源。

在第二操作情境700b中,左侧区608及右侧区612(黑暗阴影)经启用以用于音频捕获/播放,且其它区610、614(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,将位于经启用区608、612中的声源聚焦,同时抑制经禁用区610、614中的声源。

在第三操作情境700c中,顶部区610及底部区614(黑暗阴影)经启用以用于音频捕获/播放,且其它区608、612(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4到5所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,将位于经启用区610、614中的声源聚焦,同时抑制经禁用区608、612中的声源。

在第四操作情境700d中,左侧区608、顶部区610及右侧区612(黑暗阴影)经启用以用于音频捕获/播放,且剩余区614(线阴影)经禁用。可(例如)由用户经由gui输入来完成启用/禁用选择,如参看图4所描述。结合图4所描述的方法可用以确定此情境中欲应用于所记录音频的掩蔽窗函数的开始点及结束点。接着可将掩蔽窗应用于音频,如结合图1到3所描述。以此方式,将位于经启用区608到612中的声源聚焦,同时抑制经禁用区614中的声源。

将以类似于先前所描述的情境700a到700d的方式理解图7b的剩余操作情境700e到700h,其中实心阴影区描绘经启用区且线阴影区描绘禁用区。

依据保留区域化提示进行经改进场景渲染可能为有可能的,其中立体声向下混频另外供图7的场景700中所展示的装置602使用。

可将上文所描述的方法扩展到立体声向下混频,其限制条件为:用于立体声脉冲响应的数据库足够密集以足够围绕装置602进行360度取样。由于本文中所揭示的技术可针对任何种类的扩音器设置产生多声道音频输出,因此可将此音频输出用作到立体声向下混频的输入。通过向下混频计算各自在所指明扩音器位置处的对应立体声回应。

图8为说明手持式装置802周围的实例音频场景800的概念图,其中对应于手持式装置802的后置摄像机808的音频区经启用。装置802可为蜂窝式电话或智能电话,或任何其它移动装置。在此实例中,装置802充当记录用于立体声输出的音频的方向性编码的音频捕获装置。方向性编码是基于摄像机操作。

装置802包含用于捕获场景中的音频的多个麦克风806及用于显示gui的显示屏幕804,gui经配置以允许用户操作摄像机808,包含例如变焦功能的摄像机特征。摄像机808可为静态摄像机或视频摄像机。

在场景800中,边界818界定具有左(l)声道扩音器820的左声道扇段及具有右(r)声道扩音器822的右声道扇段。在音频捕获/播放期间,装置802应用掩蔽窗函数821、823,如结合图1到3所描述。可取决于摄像机808的操作而启用或禁用可选择区810、812、814及816。在所展示的实例中,当摄像机808经启动时,顶部区812经启用(实心阴影),而其它区810、814及816经禁用(线阴影)。此情形聚焦摄像机前方的场景上的音频记录且抑制其它区中的声音。结合图4所描述的方法可用以将经启用区映射到左声道扇段及右声道扇段。

如图9中所展示,装置802可由用户在后置摄像机808与前置摄像机902之间切换。因此,音频的塑形是基于捕获装置802的操作模式。基于后置/前置摄像机选择,装置802在顶部区812与底部区816之间切换经聚焦音频区。图9为说明装置802周围的实例音频输出空间900的概念图,其中对应于手持式装置82的前置摄像机902的音频区816由于前置摄像机902经启动而经启用。

前置摄像机及后置摄像机808、902两者可具有变焦特征。装置802可经配置以使得顶部区812及底部区816的角宽度可取决于摄像机变焦操作。举例来说,当后置摄像机808经启动时,按比例放大可使得经启用顶部区812的角宽度减小,以使得音频记录更狭窄地聚焦于变焦操作的对象上。相反地,当摄像机808经按比例缩小时,经启用顶部区812的角宽度可增加。替代地/另外,取决于摄像机变焦操作,可将额外增益应用于音频声道。通过应用额外增益,随着变焦增加,立体声音频变得更像具有居中定位的影像的单声道。针对前置摄像机902,同样可包含相同的音频变焦功能。

图10为根据本文中所揭示技术的用于对音频输出进行塑形的示范性系统1000的框图。系统1000包含耦合到一或多个音频扬声器1008的装置1001。装置1001可为音频捕获装置、音频渲染装置或两种类型装置的组合。举例来说,装置1001可为机顶盒、影院音响系统、汽车音响系统、移动装置(例如,蜂窝式电话或智能电话)、视频摄像机、静态摄像机、两种类型的摄像机的组合或其类似者。装置1001包含与gui1004及音频播放模块1006通信的音频处理器1002。音频处理器1002包含掩蔽产生器1005。音频处理器1002根据上文结合图1到5所描述的方法及技术接收及处理经方向性编码(空间)音频数据1010。掩蔽产生器1005可根据本文中所描述的方法产生一或多个掩蔽窗函数及此些函数的音频输出。

经方向性编码音频1010可由装置1001产生或由其它记录装置或系统提供。装置可包含用于存储经方向性编码音频1010的存储器(未展示)。

gui1004可呈现于包含于装置1001中的显示器(未展示)上。gui1004可准许用户执行如本文中所描述的功能及控制操作(包含键入数据,例如扇段边界、区边界及经启用区选择),以及音频处理器1002及播放模块1006的控制操作。因此,gui1004基于用户输入(例如,手势、捏合、触摸或其类似者)而准许使用本文中所描述方法进行自定义音频塑形。gui1004还可提供用户接口以控制其它装置操作,例如摄像机操作,包含结合图8到9所描述的那些操作。

播放模块1006从音频处理器1002接收经处理的音频数据且将其渲染成适合于由扬声器1008输出的形式。模块1006可包含一或多个音频d/a转换器、滤波器、音频放大器及其类似者。

图11为说明根据本文中所揭示技术的对数字音频数据进行塑形的方法1050的流程图。方法1050大体上描述图10中所展示的音频处理器1002的操作。在方框1052中,接收经方向性编码音频。所接收音频数据包含用于在合适声音渲染系统上播放音频的信息,及关于音频场景中的声源的位置的信息。可使用结合图12到15所描述的技术方向性地编码音频。经方向性编码或空间音频可包含识别所接收每一音频帧的doa的信息。

在方框1054中,接收音频扇段边界。可由用户经由gui(例如,gui1004)输入音频扇段边界。扇段边界可指示单位圆上的角位置,如(例如)图1到2中所说明。

在方框1056中,接收一或多个经启用区选择。经启用区选择可由用户经由gui(例如,gui1004)输入。经启用区可指示单位圆上的角位置,如结合图4到5所描述。替代地,经启用区选择可基于装置的操作模式(例如,如图8到9中所展示),其中经启用区取决于启用装置的前置摄像机还是后置摄像机,或摄像机的变焦设置。

在方框1058中,根据结合图1到3所描述的方法,基于扇段边界产生一或多个掩蔽窗函数。

在方框1060中,基于经启用区(如结合图4到5所描述)将掩蔽窗应用于所接收的经方向性编码音频以产生经聚焦或经塑形音频输出。接着可渲染经聚焦音频输出数据以用于经由扩音器、耳机或任何其它合适渲染构件播放。

参看图12,展示可操作以执行多声道音频产生及确定声源到达方向(doa)的系统1100的特定说明性实例。系统1100可用以产生经方向性编码音频数据1010。因此,系统1100可与装置1002或本文中所描述的其它装置602、802、1604中的任一者组合或结合其一起使用。

系统1100包含装置1102。装置1102可包含或耦合到多个麦克风(例如,多麦克风阵列)。举例来说,多麦克风阵列可包含第一麦克风1104a、第二麦克风1104b及第三麦克风1104c。尽管图12说明三个麦克风,但装置1102可耦合到大于三个麦克风。装置1102输出经方向性编码或空间音频数据作为音频信号1110。

多麦克风阵列可与空间选择性滤波器一起用以针对一或多个来源方向中的每一者产生单声道声音。更重要地,多麦克风阵列还可用以支持以二维或三维方式进行的空间、方向性音频编码。可通过如本文中所描述的多麦克风阵列支持的空间音频编码方法的实例包含5.1环绕声、7.1环绕声、杜比(dolby)环绕声、杜比定向逻辑环绕声(dolbypro-logic)或任何其它相位振幅矩阵立体声格式;杜比数字、dts或任何离散多声道格式;以及波场合成。五声道编码的一个实例包含左声道、右声道、中心声道、左环绕声声道及右环绕声声道。

尽管图12说明耦合到三个麦克风的装置1102,但装置1102可耦合到或可包含多于三个麦克风。装置1102可包含或耦合到显示器1106、耳机或显示器1106与耳机两者。装置1102可包含音频分析器1114及gui数据1150。

在操作期间,音频分析器1114可从麦克风(例如,麦克风1104a到1104c)接收第一多个输入信号(例如,输入信号1108)。举例来说,音频分析器1114可从第一麦克风1104a接收第一输入信号1108a,可从第二麦克风1104b接收第二输入信号1108b,且可从第三麦克风1104c接收第三输入信号1108c。输入信号1108可对应于音频场景中的一或多个声源。举例来说,用户118可能在海滩上正握持装置1102(例如,移动装置)。输入信号1108可对应于波浪声、风声、交通声、人声、狗声等。

音频分析器1114可产生图形用户接口(gui)1120。举例来说,用户118可通过选择显示器1106处所显示的特定图标或通过讲出语音命令来启动音频产生应用程序或音频处理应用程序。音频分析器1114可响应于接收到对特定图示的选择或响应于接收到语音命令而产生gui1120。gui1120可为交互式的。举例来说,gui1120可包含一或多个可选择选项(例如,可选择选项1140)。用户1118可选择可选择选项中的至少一者且音频分析器1114可基于所述选择从输入信号1108产生音频信号1110。举例来说,可选择选项1140可包含噪声抑制选项,可对应于特定声道图标,可包含删除选项,可包含方向选项,可包含特定增益选项,可包含数个声道选项,可包含耳机选项,或其组合。gui1120可与本文中所揭示的其它gui(例如,图10的gui104)组合或结合所述其它gui操作。

音频分析器1114可将gui1120提供到显示器1106。用户1118可选择可选择选项1140。举例来说,音频分析器1114可经由输入装置(例如,鼠标、键盘、触摸屏等)从用户1118接收选择1130。在一个配置中,音频分析器1114可将音频信号1110作为经方向性编码音频1010提供及/或将其提供到耳机。用户1118可使用耳机来监视音频信号1110。举例来说,用户1118可侦测音频信号1110的静态噪声水平且可选择对应于噪声抑制选项的可选择选项1140以减少随后产生的音频信号1110的静态噪声水平。

音频分析器1114可使用2013年3月15日申请的标题为“用于映射源位置的系统及方法(systemsandmethodsformappingasourcelocation)”的美国专利申请案第13/833,867号(下文中称作“'867专利申请案”)中所描述的技术来确定输入信号1108的到达方向信息及产生输入信号1108的角度图表示。

举例来说,例如由音频分析器1114执行的产生经方向性编码多声道信号(例如,音频信号1110)的方法可包含:针对所接收多声道输入信号(例如,输入信号1108)的多个不同频率分量中的每一者,计算所接收多声道信号的第一对声道(例如,第一输入信号1108a与第二输入信号1108b)中的每一者的频率分量的相位之间的差,以获得多个相位差。方法还可包含:针对多个候选方向中的每一者,估计候选方向与基于多个相位差的矢量之间的误差。多个相位差可指示所观察的相位差。音频分析器1114可确定对应于候选方向的候选相位差。所估计误差可指示所观察的相位差与候选相位差之间的差。此方法还可包含:从多个候选方向当中,选择对应于所估计误差当中的最小者的候选方向。在此方法中,所述第一对声道中的每一者是基于由第一对麦克风(例如,麦克风1104a及1104c)中的对应麦克风产生的信号(例如,第一输入信号1108a、第二输入信号1108b或第三输入信号1108c),且不同频率分量中的至少一者具有小于第一对的麦克风之间的距离的两倍的波长。

可假定:在所发出声场的近场区及远场区中,所发出声场的波前分别为球形的及平面的。可将近场定义为距声音接收器(例如,包含麦克风1104a到1104c的麦克风阵列)达小于一个波长的空间区。在此定义下,到区的边界的距离与频率成反比地变化。举例来说,在两百、七百或两千赫兹的频率下,到波长边界的距离分别为约170厘米、49厘米及17厘米。考虑以下情形可为有用的:近场/远场边界位于距麦克风阵列特定距离处(例如,距阵列中的麦克风或距阵列的形心达50厘米,或距阵列中的麦克风或距阵列的形心达1米或1.5米)。

除确定传入音频的doa之外,音频分析器1114还可对输入信号1108执行进一步处理以产生音频信号1110。举例来说,音频分析器1114可使用2012年10月31日申请的标题为“通话期间的三维声音压缩及空中传输(three-dimensionalsoundcompressionandover-the-airtransmissionduringacall)”的美国专利申请案第13/664,687号(下文中称作“'687专利申请案”)的参看至少图10到17所描述的技术来处理输入信号1108。在此状况下,音频分析器1114可从输入信号1108产生数个不同方向声道(例如,音频信号1110),例如,以对输入信号1108进行向上混频(upmix)。举例来说,输入信号1108可对应于与第一数目个(例如,三个)麦克风(例如,麦克风1104a到1104c)相关联的第一数目个声道。音频信号1110可对应于第二数目个声道且第二数目可高于第一数目。举例来说,针对5.1环绕立体声方案,音频信号1110可对应于五个声道。音频分析器1114可对输入信号1108进行向上混频以产生音频信号110,以使得可使用具有第二数目个扬声器的扬声器阵列中的不同扬声器来播放音频信号1110中的每一信号(或声道)。音频分析器1114可在对应方向上应用空间滤波(例如,一或多个波束成形器)以获得经向上混频的声道(例如,音频信号1110)。音频分析器1114可将多声道编码方案应用于经向上混频的声道(例如,杜比环绕声的版本)。

此外,音频分析器1114可另外通过在对应方向上应用空间滤波来处理输入信号1108以获得经向下混频的声道(例如,音频信号1110)。举例来说,输入信号1108可对应于第三数目个麦克风且第三数目可大于第二数目。

在一些配置中,音频分析器1114还可通过将波束成形器1190应用于输入信号1108以产生音频信号1110的每一特定音频信号(或声道)。波束成形器1190可对应于与特定音频信号(或声道)相关联的特定方向。举例来说,音频分析器1114可将第一波束成形器(例如,波束成形器1190)应用于对应于第一方向(例如,中心)的输入信号1108以产生音频信号1110的第一音频信号(例如,中心声道),可将第二波束成形器(例如,波束成形器1190)应用于对应于第二方向(例如,右方)的输入信号1108以产生音频信号1110的第二音频信号(例如,右声道),等等。

音频分析器1114可通过基于接收到选择1130而对输入信号1108进行滤波以产生经滤波的信号。在此实例中,音频分析器1114可处理(例如,向上混频或向下混频)经滤波的信号以产生音频信号1110。

gui数据1150可包含gui1120、输入信号1108、音频信号1110或其组合。音频分析器1114可将gui数据1150存储于耦合到装置1102或包含于装置1102中的存储器中。音频信号1110可经压缩且与输入信号1108相比较来说可占据较少存储器。举例来说,如果用户118预期经由特定数目个扬声器播放所捕获音频,那么用户1118可基于声道数目选项产生对应于特定数目个扬声器(或声道)的音频信号1110,可包含存储于存储器中的gui数据1150中的音频信号1110,且可能并不将输入信号1108存储于存储器中(例如,删除对应于输入信号1108的存储器或将所述存储器标记用于删除)以节省存储器使用量。

因此,系统1100可使得用户能够选择图形用户接口的特定可选择选项以从经由多个麦克风接收的输入信号以互动方式产生多声道音频信号。用户可接收关于所产生的音频信号的反馈。举例来说,用户可经由耳机或扩音器听见音频信号,或可经由gui接收反馈。用户可基于反馈挑选gui的可选择选项以改变产生音频信号的方式。因此,可改进所产生音频信号的用户体验及质量。

参看图13,展示装置1102的多个视图。所述视图包含正视图1220、后视图1230及侧视图1240。正视图1220可对应于装置1102的包含显示器1106的第一侧。第一侧可包含第一麦克风1104a、第二麦克风1104b、第三麦克风1104c、听筒1208、第一扩音器1210a及第二扩音器1210b。

后视图1230可对应于装置1102的与第一侧对置的第二侧。第二侧可包含摄像机1206、第四麦克风1204d及第五麦克风1204e。侧视图1240可对应于装置1102的连接第一侧及第二侧的第三侧。

装置1102(或图12的音频分析器1114)可经配置以通过以下步骤来确定源信号的到达方向(doa):针对每一频率区间测量麦克风声道(例如,第一输入信号1108a与第二输入信号1108b)之间的差(例如,相位差)以获得方向的指示(或估计),及在所有频率区间上对方向指示取平均值以确定所估计方向在所有频率区间上是否一致。可用于追踪的频率区间的范围可受对应麦克风对(例如,第一麦克风1104a及第二麦克风1104b)的空间混迭频率约束。可将范围的上限界定为源信号的波长为麦克风1104a到1104b之间的距离d的两倍时所处的频率。

如上文所论述,音频分析器1114可使用'867专利申请案中所描述的技术来确定对应于麦克风1104a到1104c及麦克风1204d到1204e的输入信号1108的到达方向信息及产生输入信号1108的角度图表示。

举例来说,可通过增加可靠频率区间的数目来获得估计针对同时多个声音事件的音频信号的每一帧的三维到达方向(doa)的稳健性。可适当地将如本文中所描述的成对一维(1-d)方法并入到任何麦克风几何布置中。

音频分析器1114可使用可用频率区间(高到奈奎斯特频率且低到较低频率)来追踪声音的来源(例如,通过支持具有较大麦克风间距离的麦克风对的使用)。并非限于使用单一对用于追踪,而是可实施此类方法以选择所有可用对当中的最佳对。此类方法可用以甚至在远场情境(高达3米到5米或更大的距离)中也支持来源追踪,及提供更高doa分辨率。其它可能特征包含获得有效来源的确切2-d表示。

音频分析器1114可计算多声道输入信号(例如,输入信号1108)的一对声道之间的差。举例来说,多声道信号的每一声道可基于由对应麦克风(例如,麦克风1104a到1104c、1204d到1204e中的一者)产生的信号(例如,输入信号1108中的第一输入信号)。针对多个(k个)候选方向当中的每一者,音频分析器1114可计算基于所计算差的对应方向性误差。基于k个方向性误差,音频分析器1114可选择候选方向。

音频分析器1114可将多声道输入信号(例如,输入信号1108)处理为一系列片段或“帧”。片段长度的范围可为从约五或十毫秒到约四十或五十毫秒,且片段可为重叠的(例如,其中邻近片段重叠达25%或50%)或不重叠的。在特定实例中,将多声道信号(例如,输入信号1108)划分成一系列不重叠片段或帧,每一者具有10毫秒的长度。在另一特定实例中,每一帧具有二十毫秒的长度。如由音频分析器1114处理的片段还可为如通过不同操作处理的较大片段的片段(即,“子帧”),或反之亦然。

输入声道(例如,第一输入信号1108a与第二输入信号1108b)之间的差的实例包含增益差或比率、到达时间差及相位差。举例来说,音频分析器1114可将一对输入信号(例如,第一输入信号1108a与第二输入信号1108b)的声道之间的差计算为声道的对应增益值之间的差或比率(例如,量值或能量的差)。

音频分析器1114可计算多声道信号(例如,输入信号1108)的片段在时域中(例如,针对所述信号的多个子频带中的每一者)或在频域中(例如,针对所述信号在变换域(例如,快速傅立叶变换(fft)、离散余弦变换(dct)或经修改的dct(mdct)域)中的多个频率分量中的每一者)的增益的度量。此些增益度量的实例包含但不限于以下各者:总量值(例如,样本值的绝对值总和)、平均量值(例如,每样本)、均方根(rms)振幅、中位量值、峰值量值、峰值能量、总能量(例如,样本值的平方和)及平均能量(例如,每样本)。

为了用增益差技术获得准确结果,可相对于彼此校准两个麦克风声道(例如,第一输入信号1108a与第二输入信号1108b)的响应。音频分析器1114可将低通滤波器应用于多声道信号(例如,输入信号1108)以使得增益度量的计算限于多声道信号(例如,输入信号1108)的音频频率分量。

音频分析器1114可将增益之间的差计算为多声道信号(例如,输入信号1108)的每一声道在对数域中的对应增益度量值(例如,以分贝为单位的值)之间的差,或等效地,计算为线性域中的增益度量值之间的比率。针对经校准的麦克风对(例如,麦克风1104a到1104b),可采用零增益差来指示来源距每一麦克风等距(即,位于所述对的边射方向上),可采用具有大的正值的增益差来指示来源较接近于一个麦克风(即,位于所述对的一个端射方向上),且可采用具有大的负值的增益差来指示所述来源较接近于另一麦克风(即,位于所述对的另一端射方向上)。

在另一实例中,音频分析器1114可对输入声道(例如,第一输入信号1108a及第二输入信号1108b)执行交叉相关以例如通过基于多声道信号(例如,输入信号1108)的声道之间的迟滞(lag)计算到达时间差来确定差。

在又一实例中,音频分析器1114可将一对(例如,第一输入信号1108a与第二输入信号1108b)的声道之间的差计算为每一声道(例如,信号的特定频率分量下)的相位之间的差。如本文中所描述,可对多个频率分量当中的每一者执行此计算。

针对通过一对麦克风(例如,麦克风1104a到1104b)直接从相对于所述麦克风对(例如,麦克风1104a到1104b)的轴线的特定到达方向(doa)上的点源接收的信号,相位延迟可针对每一频率分量而不同且还可取决于麦克风1104a到1104b之间的间距。音频分析器1114可将特定频率分量(或“频率区间”)下的相位延迟的所观察值计算为复数fft系数的虚数项对复数fft系数的实数项的比率的反正切(inversetangent,也称为arctangent)。

参看图14a,展示平面波传播的远场模型的图且大体上将其指明为1300a。在图14b中,展示麦克风置放的实例的图且大体上将其指明为1300b。麦克风置放1300b可对应于图12的麦克风1104a到1104c及图13的第四麦克风1204d的置放。

音频分析器1114可使用'867专利申请案中所揭示的技术来确定对应于麦克风1104a到1104c及1204d的输入信号1108的到达方向信息及产生输入信号1108的角度图表示。

举例来说,远场模型1300a说明:特定频率f下用于至少一个麦克风(例如,麦克风1104a到1104b)的来源s01的相位延迟值在远场(即,平面波)假定下可与来源doa有关,如其中d表示麦克风1104a到1104b之间的距离(以米为单位),θ表示相对于正交于阵列轴线的方向的到达角(以弧度为单位),f表示频率(以赫兹(hz)为单位),且c表示声速(以米/秒为单位)。可将本文中所描述的doa估计原理扩展到线性阵列中的多个麦克风对(例如,如图14b中所展示)。针对无混响的单一点源的状况,相位延迟对频率的比率将在所有频率上具有相同值相对于麦克风对(例如,麦克风1104a到1104b)来说的doaθ为界定空间中的锥体的表面的一维测量值(例如,使得锥体的轴线为阵列的轴线)。

话音信号在时间-频率域中可为稀疏的。如果输入信号1108的来源在频域中不相交,那么音频分析器1114可同时追踪两个来源。如果来源在时域中不相交,那么音频分析器1114可在相同频率下追踪两个来源。装置1102的麦克风阵列可包含至少等于欲在任一时间加以区分的不同来源方向的数目的数目个麦克风。麦克风(例如,图12的麦克风1104a到1104c及麦克风1204d到1204e)可为全向性的(例如,对于蜂窝式电话或专用会议装置来说)或方向性的(例如,对于例如机顶盒的装置来说)。

音频分析器1114可计算针对所接收多声道输入信号(例如,输入信号1108)的帧的doa估计。音频分析器1114可在每一频率区间下计算每一候选角相对于所观察角的误差,其通过相位延迟指示。彼频率区间下的目标角可为具有最小(或最少)误差的候选者。在实例中,可跨越频率区间对误差进行加总以获得关于候选者的可能性的度量。在另一实例中,可将跨越所有频率区间最频繁出现的目标doa候选者中的一或多者识别为针对给定帧的doa估计(或若干个估计)。

音频分析器1114可获得实质上瞬时追踪结果(例如,具有小于1个帧的延迟)。延迟可取决于fft大小及重叠程度。举例来说,针对具有50%重叠及16千赫(khz)的取样频率的512点fft,所得256样本延迟可对应于十六毫秒。音频分析器1114可支持高达二到三米或甚至高达五米的来源-阵列距离的来源方向的差异化。

还可将误差视为方差(即,个别误差偏离预期值的程度)。将时域接收信号转换成频域(例如,通过应用fft)具有对每一频率区间中的频谱取平均值的效应。如果音频分析器1114使用子频带表示(例如,梅尔(mel)标度或巴克(bark)标度),那么此取平均值可为更有效的。另外,音频分析器1114可对doa估计执行时域平滑化(例如,通过应用回归平滑器,例如一阶无限脉冲响应滤波器)。音频分析器1114可降低误差计算操作的计算复杂性(例如,通过使用搜索策略,例如二进制树,及/或应用已知信息,例如来自一或多个先前帧的doa候选者选择)。

即使可依据相位延迟来测量方向信息,但音频分析器1114可获得指示来源doa的结果。因此,音频分析器1114可依据doa而非依据相位延迟计算k个doa候选者的清单(inventory)中的每一者在频率f下的方向性误差。

参看图15,展示麦克风的特定替代布置且大体上将其指明为1400。布置1400可对应于图12的系统1100的麦克风。在此麦克风布置1400的情况下,音频分析器1114可使用'687专利申请案中所描述的技术从对应于麦克风1104a到1104c及1204d的输入信号1108产生音频信号1110。

举例来说,图12的音频分析器1114可使用布置1400来使用四麦克风(例如,麦克风1104a到1104c及麦克风1204d)设置近似对空间译码的一阶捕获。可通过如本文中所描述的多麦克风阵列支持的空间音频编码方法的实例还可包含最初可意欲与特定麦克风(例如,环绕声b格式或高级环绕声格式)一起使用的方法。举例来说,环绕声编码方案的经处理的多声道输出可包含关于测量点的三维泰勒扩展,可使用三维定位的麦克风阵列(例如,对应于布置1400)来将其近似至少高达一阶。在更多麦克风的情况下,可增加近似阶数。根据实例,第二麦克风1104b可在z方向上与第一麦克风1104a分离达距离δz。第三麦克风1104c可在y方向上与第一麦克风1104a分离达距离δy。第四麦克风1204d可在x方向上与第一麦克风1104a分离达距离δx。

总之,可基于用户选择1130处理使用麦克风1104a到1104c及/或1204d到1204e捕获的音频信号或/及对其进行滤波(如参看图12到15所描述),以获得音频帧的doa,且接着还根据参看图1到11所描述的技术对其“进行塑形”。可在环绕立体声系统、耳机或其它设置中播放经塑形的音频信号以产生身临其境的音响体验。

图16为说明用于通过扩音器1602a到1602g在播放系统中的实际位置来校准音响渲染系统以使得可根据本文中所描述的技术对音频进行塑形以考虑实际扬声器位置的技术的概念图。场景1600中所展示的系统为环绕立体声7.1系统。可使用以下方法校准具有不同数目个扩音器的其它系统。

用于在记录位点与收听空间1600之间进行透明空间渲染的校准方法如下进行:

1.经由左声道扬声器1602a发送左声道校准信号。校准信号可为预先定义的音调。

2.通过用户1606所握持的用户装置1604获得左扩音器1602a的doa,且通过装置1604记录信号延迟以估计装置1604与扬声器1602a之间的距离。装置1102及结合图12到15所描述的技术可包含于装置1604中以使得可确定扩音器1602a的doa。

3.对其它声道1602b到1602g重复步骤1到2。

4.将关于每一扩音器1602a到1602g的doa及距离信息传递到环绕立体声记录(ssr)系统。举例来说,可将扩音器距离及doa(位置)信息提供到装置602、802、1001、1102中的任一者,所述装置中的任一者可包含于装置1604中。

5.当用户通过(例如)装置1604处理、存储或播放所记录音频剪辑时,可通过此扩音器位置信息实时处理所述音频剪辑。实时处理可在音频渲染阶段中或在记录阶段进行。

应注意,通过此程序,音响系统可依据方向性渲染听觉场景,所述方向性具有由用户用相同装置记录的实际音响场景的高得多的方向保真度。

在常规系统中,校准仅旨在补偿扩音器位置不匹配且其在实际源位置与经补偿的源位置之间引起不可避免的非线性映射失真。不同于常规音响系统,本文中所描述的系统1600及技术以互逆(reciprocal)方式解决此问题,且因此,不存在非线性源位置映射不匹配。此情形改进所记录音频场景与所渲染音频场景之间的透明性。

应理解,取决于实例,本文中所描述的诸方法中的任一者的某些动作或事件可以不同顺序执行,可添加、合并或完全省去某些动作或事件(例如,并非所有所描述动作或事件为实践方法所必要的)。此外,在某些实例中,可(例如)经由多线程处理、中断处理或多个处理器同时地而非依序地执行动作或事件。另外,虽然出于清晰的目的将本发明的某些方面描述为由单一模块或组件执行,但应理解,本发明的技术可由与音响系统相关联的组件或模块的任何合适组合来执行。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何合适组合来实施。如果以软件实施,那么功能可作为一或多个指令或程序代码存储于计算机可读媒体上且由基于硬件的处理单元执行。计算机可读媒体可包含任何计算机可读存储媒体,包含数据存储媒体,其可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、程序代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

以实例说明且并非限制,此些计算机可读存储媒体可包括ram、rom、eeprom、cd-rom或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用于以指令或数据结构的形式存储所要程序代码且可由计算机存取的任何其它媒体。如本文中所使用的磁盘及光盘包含光盘(cd)、激光光盘、光学光盘、数字通用光盘(dvd)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。上述各者的组合还应包含于计算机可读媒体的范围内。

指令或程序代码可由一或多个处理器执行,例如一或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、场可编程逻辑阵列(fpga)或其它等效集成或离散逻辑电路系统。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供于经配置以用于编码及解码或并入于组合式编码解码器中的专用硬件及/或软件模块内。此外,技术可完全实施于一或多个电路(包含逻辑电路及/或逻辑组件)中。

本发明的技术可在广泛多种装置或设备(包含无线手机、个人计算机、机顶盒、会议系统、集成电路(ic)或ic组(例如,芯片组))中实施。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,而未必需要由不同硬件单元实现。确切来说,如上文所描述,各种单元可组合于硬件单元中或通过互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合结合合适软件及/或固体提供。

已描述各种技术。这些及其它技术在以下权利要求书的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1