分布式音频捕获和混合控制的制作方法

文档序号:14254479阅读:239来源:国知局
分布式音频捕获和混合控制的制作方法

本申请涉及用于分布式音频捕获和混合的装置和方法。本发明进一步涉及但不限于用于针对音频信号的空间处理的分布式音频捕获和混合以实现音频信号的空间再现的装置和方法。



背景技术:

当多个源在空间场中移动时,捕获来自这些源的音频信号并混合那些音频信号需要大量的手动工作。例如,将被呈现给听众并且产生有效的音频氛围的音频信号源的捕获和混合需要对装备和训练进行重大投资,音频信号源比如是在诸如剧院或演讲厅之类的音频环境内的扬声器或艺术家。

通常实现的系统会是专业制作人员利用接近的麦克风例如用户佩戴的领夹式麦克风或者被附接到挑杆的麦克风来捕获靠近扬声器或其他源的音频信号,然后将该所捕获的音频信号与一个或多个合适的空间(或环境或音频场)音频信号手动混合,使得所产生的声音来自预期的方向。

空间捕获装置或全向内容捕获(occ)装置应该能够捕获高质量的音频信号,同时能够跟踪接近的麦克风。

此外,这种系统的控制很复杂并且要求用户具有输入和输出配置的重要知识。例如,使用户能够在分布式捕获系统中可视化外部声源和外部捕获装置可能很困难。此外,当前的系统不能可视化它们是什么类型的外部捕获装置,如何选择不同的过滤参数,如何将外部捕获装置链接到实际的混音器音频通道,以及如何将不同的定位器标签关联到这些外部捕获装置和相关联的源。

此外,在当前系统中存在的固有问题在于外部捕获装置音频信号与定位器标签相关联。这样的标签通常被设计了有效期或到期时间。然而,控制系统和用户界面控制目前不处理有效期或到期时间的到期。换句话说,目前还没有提出确定如何处理标签有效期控制的方法,也没有提出确定在标签有效期到期的情况下做什么或是确定如何处理在特定时段内无法产生信号的外部捕获装置音频流的方法。

最后,当前系统捕获来自空间音频设备麦克风阵列和外部捕获装置麦克风的音频信号输入。当前系统没有提供一种简单的方法来使得用户能够区分音频通道,音频通道提供音频输入,该音频输入将在立体声渲染之前进行空间音频(spac)处理,并且只需要立体声渲染(外部源)。换句话说,目前没有定义能够实现spac麦克风配置或者实现针对用于多个设备的操作和支持的不同麦克风配置的支持。



技术实现要素:

根据第一方面,提供了一种装置,包括:定位器,所述定位器被配置为确定至少一个媒体源的位置;用户界面,所述用户界面被配置为生成与所述至少一个媒体源相关联的至少一个用户界面元素;所述用户界面还被配置为接收与所述用户界面元素相关联的至少一个用户界面输入;媒体源控制器,所述媒体源控制器被配置为基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制;以及媒体源处理器,所述媒体源处理器被配置为基于所述媒体源位置估计来控制媒体源处理。

所述定位器可以包括以下中的至少一个:基于无线电的定位的定位器,所述基于无线电的定位的定位器被配置为确定根据基于无线电的定位的媒体源位置估计;视觉定位器,所述视觉定位器被配置为确定基于视觉的媒体源位置估计;以及音频定位器,所述音频定位器被配置为确定基于音频的媒体源位置估计。

所述用户界面可以被配置为生成标识位于基于所跟踪的媒体源位置估计的位置处的媒体源的视觉表示。

所述用户界面可以被配置为生成源类型选择菜单以使输入能够标识所述至少一个媒体源类型,其中,标识位于基于所跟踪的媒体源位置估计的位置处的所述媒体源的所述视觉表示可以基于来自所述源类型选择菜单的选择项被确定。

所述用户界面可以被配置为生成跟踪控制选择菜单;以及输入至少一个媒体源跟踪简档,其中所述媒体源控制器可以被配置为基于来自所述跟踪控制选择菜单的所述选择项来管理对媒体源位置估计的跟踪。

所述用户界面可以被配置为生成使所述用户能够在所述视觉表示上为标签位置定义位置的标签位置视觉表示;并且其中,所述媒体源控制器可以被配置为基于由在所述视觉表示上为所述标签位置选择的位置所定义的位置偏移来管理对媒体源位置估计的跟踪。

所述用户界面可以被配置为:生成包括多个音频通道的混音台视觉表示;和生成将来自所述混音台视觉表示的音频通道链接到与所述至少一个媒体源相关联的用户界面视觉表示的视觉表示。

所述用户界面可以被配置为生成:生成至少一个仪表视觉表示;以及将所述至少一个仪表视觉表示与和所述至少一个媒体源相关联的所述视觉表示相关联。

所述用户界面可以被配置为:以第一突出显示效果突出显示与关联到所述至少一个媒体源的所述至少一个用户界面视觉表示相关联的所述混音台视觉表示的任何音频通道;以及以第二突出显示效果突出显示与输出通道相关联的混音台视觉表示的任何音频通道。

所述用户界面可以被配置为生成用户界面控件以实现渲染输出格式的定义,其中,媒体源处理器可以被配置为进一步基于所述渲染输出格式定义来基于跟踪的媒体源位置估计而控制媒体源处理。

所述用户界面可以被配置为生成能够定义空间处理操作的用户界面控件,其中,所述媒体源处理器被配置为可以进一步基于所述空间处理定义来基于所跟踪的媒体源位置估计而控制媒体源处理。

所述媒体源控制器可以进一步被配置为:监视与用于提供根据基于无线电的定位的媒体源位置估计的标签相关联的到期计时器;确定到期计时器的即将到期/到期;确定到期时间策略;以及将所述到期时间策略应用于对与所述标签相关联的所述媒体源位置估计的跟踪的管理。

被配置为基于至少一个用户界面输入来管理对与所确定的至少一个媒体源相关联的至少一个参数的控制的媒体源控制器还可以被配置为:确定重新初始化标签策略;确定与标签相关联的到期时间的重新初始化;将所述重新初始化标签策略应用于对与所述标签相关联的所述媒体源位置估计的跟踪的管理。

所述媒体源控制器可以被配置为实时地基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制。

所述装置可以进一步包括被布置成几何形状的多个麦克风,使得所述装置被配置为从围绕所形成的几何形状的预定方向捕获声音。

所述媒体源可以与被配置为从所述媒体源生成至少一个远程音频信号的至少一个远程麦克风相关联,其中,所述装置可以被配置为接收所述远程音频信号。

所述媒体源可以与被配置为从所述媒体源生成远程音频信号的至少一个远程麦克风相关联,其中,所述装置可以被配置为将所述音频源位置发送到另一装置,所述另一装置被配置为接收所述远程音频信号。

根据第二方面,提供了一种方法,包括:确定至少一个媒体源的位置;生成与所述至少一个媒体源相关联的至少一个用户界面元素;接收与所述用户界面元素相关联的至少一个用户界面输入;基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制;以及基于媒体源位置估计来控制媒体源处理。

确定至少一个媒体源位置可以包括以下中的至少一个:确定根据基于无线电的定位的媒体源位置估计;确定基于视觉的媒体源位置估计;以及确定基于音频的媒体源位置估计。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括:生成标识位于基于所跟踪的媒体源位置估计的位置处的媒体源的视觉表示。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括生成使输入能够标识所述至少一个媒体源类型的源类型选择菜单,其中,生成标识位于基于所跟踪的媒体源位置估计的位置处的所述媒体源的所述视觉表示可以包括基于来自所述源类型选择菜单的选择项来生成所述视觉表示。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括生成跟踪控制选择菜单,接收与所述用户界面元素相关联的至少一个用户界面输入可以包括输入至少一个媒体源跟踪简档,以及基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制可以包括基于来自所述跟踪控制选择菜单的选择项来管理对媒体源位置估计的跟踪。

生成与至少一个媒体源相关联的至少一个用户界面元素可以包括生成使用户能够在视觉表示上为标签位置定义位置的标签位置视觉表示;以及基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制可以包括基于由在所述视觉表示上为所述标签位置选择的位置定义的位置偏移来管理对媒体源位置估计的跟踪。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括:生成包括多个音频通道的混音台视觉表示;和生成将来自所述混音台视觉表示的音频通道链接到与所述至少一个媒体源相关联的用户界面视觉表示的视觉表示。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括:生成至少一个仪表视觉表示,并且将所述至少一个仪表视觉表示关联到与所述至少一个媒体源关联的所述视觉表示。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括:以第一突出显示效果突出显示与关联到所述至少一个媒体源的所述至少一个用户界面视觉表示相关联的所述混音台视觉表示的任何音频通道;以及以第二突出显示效果突出显示与输出通道相关联的混音台视觉表示的任何音频通道。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括生成能够定义渲染输出格式的用户界面控件,其中,基于媒体源位置估计来控制媒体源处理可以包括基于所述渲染输出格式定义来控制媒体源处理。

生成与所述至少一个媒体源相关联的至少一个用户界面元素可以包括生成能够定义空间处理操作的用户界面控件,其中,基于媒体源位置估计来控制所述媒体源处理可以包括基于所述空间处理定义来控制媒体源处理。

管理与所确定的至少一个媒体源相关联的至少一个参数的控制进一步可以包括:监视与用于提供根据基于无线电的定位的媒体源位置估计的标签相关联的到期计时器;确定到期计时器的即将到期/到期;确定到期时间策略;以及将所述到期时间策略应用于对与所述标签相关联的所述媒体源位置估计的跟踪的管理。

管理与所确定的至少一个媒体源相关联的至少一个参数的控制可以进一步包括:确定重新初始化标签策略;确定与标签相关联的到期时间的重新初始化;将所述重新初始化标签策略应用于对与所述标签相关联的所述媒体源位置估计的跟踪的管理。

管理与所确定的至少一个媒体源相关联的至少一个参数的控制可以进一步包括实时地基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制。

所述方法可以进一步包括:提供被布置成几何形状的多个麦克风,使得所述装置被配置为从围绕所形成的几何形状的预定方向捕获声音。

所述媒体源可以与被配置为从所述媒体源生成至少一个远程音频信号的至少一个远程麦克风相关联,所述方法可以包括接收所述远程音频信号。

所述媒体源可以与被配置为从所述媒体源生成远程音频信号的至少一个远程麦克风相关联,其中,所述方法可以包括将所述音频源位置发送到另一装置,所述另一装置被配置为接收所述远程音频信号。

根据第三方面,提供了一种装置,包括:用于确定至少一个媒体源的位置的部件;用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件;用于接收与所述用户界面元素相关联的至少一个用户界面输入的部件;用于基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制的部件;以及用于基于媒体源位置估计来控制媒体源处理的部件。

所述用于确定至少一个媒体源的位置的部件可以包括以下中的至少一个:用于确定根据基于无线电的定位的媒体源位置估计的部件;用于确定基于视觉的媒体源位置估计的部件;以及用于确定基于音频的媒体源位置估计的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括用于生成标识位于基于所跟踪的媒体源位置估计的位置处的媒体源的视觉表示的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括用于生成使输入能够标识所述至少一个媒体源类型的源类型选择菜单的部件,其中,用于生成标识位于基于所跟踪的媒体源位置估计的位置处的所述媒体源的所述视觉表示的部件可以包括用于基于来自所述源类型选择菜单的选择项来生成所述视觉表示的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括用于生成跟踪控制选择菜单的部件,用于接收与所述用户界面元素相关联的至少一个用户界面输入的部件可以包括输入至少一个媒体源跟踪简档,以及用于基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制的部件可以包括用于基于来自所述跟踪控制选择菜单的选择项来管理对媒体源位置估计的跟踪的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括用于生成使所述用户能够在所述视觉表示上为标签位置定义位置的标签位置视觉表示的部件;以及用于基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制的部件可以包括用于基于由在所述视觉表示上为所述标签位置选择的位置所定义的位置偏移来管理对媒体源位置估计的跟踪的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括:用于生成包括多个音频通道的混音台视觉表示的部件;以及用于生成将来自所述混音台视觉表示的音频通道链接到与所述至少一个媒体源相关联的用户界面视觉表示的视觉表示的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括:用于生成至少一个仪表视觉表示的部件;以及用于将所述至少一个仪表视觉表示关联到与所述至少一个媒体源相关联的所述视觉表示的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括:用于以第一突出显示效果突出显示与关联到所述至少一个媒体源的所述至少一个用户界面视觉表示相关联的所述混音台视觉表示的任何音频通道的部件;以及用于以第二突出显示效果突出显示与输出通道相关联的混音台视觉表示的任何音频通道的部件。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括用于生成能够定义渲染输出格式的用户界面控件的部件,其中,用于基于媒体源位置估计来控制媒体源处理的部件可以包括基于所述渲染输出格式定义来控制媒体源处理。

所述用于生成与所述至少一个媒体源相关联的至少一个用户界面元素的部件可以包括用于能够定义空间处理操作的用户界面控件的部件,其中,用于基于媒体源位置估计来控制媒体源处理的部件可以包括用于基于所述空间处理定义来控制媒体源处理的部件。

所述用于管理与所确定的至少一个媒体源相关联的至少一个参数的控制的部件可以进一步包括:用于监视与用于提供根据基于无线电的定位的媒体源位置估计的标签相关联的到期计时器的部件;用于确定到期计时器的即将到期/到期的部件;用于确定到期时间策略的部件;以及用于将所述到期时间策略应用于对与所述标签相关联的所述媒体源位置估计的跟踪的管理的部件。

所述用于管理与所确定的至少一个媒体源相关联的至少一个参数的控制的部件可以进一步包括:用于确定重新初始化标签策略的部件;用于确定与标签相关联的到期时间的重新初始化的部件;用于将所述重新初始化标签策略应用于对与所述标签相关联的所述媒体源位置估计的跟踪的管理的部件。

所述用于管理与所确定的至少一个媒体源相关联的至少一个参数的控制的部件可以进一步包括用于实时地基于所述至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制的部件。

所述装置可以进一步包括:以几何形状布置的多个麦克风,使得所述装置被配置为从围绕所形成的几何形状的预定方向捕获声音。

所述媒体源可以与被配置为从所述媒体源生成至少一个远程音频信号的至少一个远程麦克风相关联,所述方法可以包括用于接收所述远程音频信号的部件。

所述媒体源可以与被配置为从所述媒体源生成远程音频信号的至少一个远程麦克风相关联,其中,所述装置可以包括用于将所述音频源位置发送到另一装置的部件,所述另一装置被配置为接收所述远程音频信号。

存储在介质上的计算机程序产品可以致使装置执行如本文所述的方法。

电子设备可以包括如本文所述的装置。

芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请,现在将通过示例的方式参考附图,在附图中:

图1示意性地示出了可以实现一些实施例的示例跟踪管理、融合和媒体操控系统;

图2a至图2d示出了根据一些实施例的用于表示外部捕获装置和occ装置的示例用户界面可视化;

图3和图4示出了根据一些实施例的用于表示外部捕获装置和occ装置以及映射的音频混音器控制的示例用户界面可视化;

图5示出了根据一些实施例的具有根据音频信号是否将被进行空间音频处理而被突出显示的被映射的音频混音器控制的示例用户界面可视化;

图6示出了根据一些实施例的用于表示音频源的手动定位的示例用户界面可视化;

图7示出了根据一些实施例的用于表示三维中的音频源的手动定位的进一步的示例用户界面可视化;

图8示出了示例标签到期操控操作的流程图;

图9示意性地示出了根据一些实施例的适合于实现空间音频捕获和渲染的捕获和渲染装置;和

图10示意性地示出了适合于实现在图9中所示的捕获和/或渲染装置的示例设备。

具体实施方式

以下进一步详细描述用于提供从多个源有效捕获音频信号并且混合那些音频信号的合适的装置和可能的机制。在下面的示例中,描述了音频信号和音频捕获信号。然而应当理解,在一些实施例中,该装置可以是被配置为捕获音频信号或接收音频信号和其他信息信号的任何合适的电子设备或装置的一部分。

如前所述,关于音频背景或环境音频场信号捕获和混合音频源的传统方法将是专业制作人员利用外部或接近的麦克风(例如,用户佩戴的领夹式麦克风或附接到挑杆的麦克风)来捕获靠近音频源的音频信号,并且进一步利用全向对象捕获麦克风来捕获环境音频信号。然后,可以手动地将这些信号或音频轨道进行混合来产生输出音频信号,使得所产生的声音以来自预期(但不一定是原始的)方向的音频源为特征。

如所期望的那样,这需要大量的时间、精力和专业知识才能正确进行。此外,为了覆盖一个大型的场地,需要多个全方位捕获点来创建对事件的全盘覆盖。

这里描述的概念被体现在控制器和合适的用户界面中,该控制器和合适的用户界面可以使得有可能更有效和高效地捕获和重新混合外部或接近的音频信号以及空间或环境音频信号。

因此,例如在一些实施例中提供了用户界面(ui),该用户界面允许或实现对所确定的位置(基于无线电的定位,例如诸如haip的室内定位)标签的选择并且进一步自动、半自动或手动地实现待添加源的可视标识符或表示以便标识源。例如,该表示可以将源或外部捕获装置标识为与人、吉他或其他乐器等相关联。此外,在一些实施例中,ui允许或实现应用预设过滤器或处理以便容易地提供更好的高性能音频输出。例如,预设可以被标识为“运动”、“音乐会”、“记者”并且可以与该ui内的音频源相关联。所选择的预设可以进一步控制定位器和位置跟踪器怎样尝试跟踪标签或源。例如,可以按照标签采样延迟来控制定位器和位置跟踪器,对标签或位置信号求平均,允许快速(或者仅仅慢速)的跟踪移动。此外,在一些实施例中,ui可以提供混音台的视觉表示,并且进一步将源的视觉表示与混音台音频通道的表示之间的链接可视化。在一些实施例中,ui进一步提供并指示与vu计的表示对混音器磁道的表示的链接。

因此,在一些实施例中,现场摇滚音乐会可以实现这样的实施例并且使得用户能够对混合进行快速改变。在这种情况下,以直观的方式将可能的移动声源可视地链接到混音台是相关的。在进一步的音乐情况中,为了接收身临其境的音频体验,表示空间音频馈送中的移动的声音变化应该是平滑的,并且因此使得ui能够选择不允许快速移动的位置,甚至潜在地会牺牲精度。

尽管关于音乐源位置描述了以下示例,但是应理解到,该概念可以应用于其他基于定位器的实施例。例如,定位器标签可被放置在高尔夫球内以渲染高尔夫击球的轨迹。然而,这样的实施例中的位置跟踪过滤需要被设置为快速跟踪,并且因此被配置为接收尽可能多的原始分组而无需信号的附加处理的任何初始平滑。在这样的实施例中,可以应用后处理来平滑轨迹。

通常,定位器(基于无线电的定位,例如室内定位,诸如haip等)标签被配置为在一定的时间之后到期。这个时间可以通过按压标签上的物理按钮来延长。然而,一些被进一步详细描述的实施例可以被配置为克服在表演期间与到期标签相关联的问题,或者与由于某种原因(阻塞等)而没有被适度地接收的信号相关联的问题。在这样的实施例中,定位器或定位器跟踪器可以被配置为监视到期时间(或者从标签无线读取时间)。在这样的实施例中,当标签耗尽时,控制器可以被配置为控制音频混合和渲染以在丢失定位精度之前淡出音频。备选地或附加地,当丢失定位精度时,音频可被定位到诸如前中心之类的特定位置,其中,该位置被选择为使得它对于各种声源位置将导致在美学上令人愉悦的声音场景。在一些实施例中,定位器跟踪器可以被配置为将音频波束成形技术应用到来自空间音频捕获装置(occ)的音频上,以专注于最后已知位置或者将相机引导至该位置,并且尝试使用基于音频的/或视觉的对象跟踪。在一些实施例中,控制器可以向外部捕获装置发信号以通知表演者重新初始化定位器标签并且重置到期时间。

此外,不管标签类型如何,都需要节省电力,因此并不始终保持标签可操作。这里描述的实施例和方法也可以被应用于任何类型的标签,到期时间在标签中可以是已知的,并且需要应对到期时间无法估计或出乎意料的意外情况。

在一些实施例中,可以将类似的到期时间或超时方法应用于任何合适的基于内容分析的跟踪(例如,利用视觉分析)。因此,基于视觉分析的位置跟踪可以在某些指定的照明条件下提供鲁棒的结果。因此,可以在持续的基础上监视视觉分析的鲁棒性,并且当其表现出具有小于阈值的置信度量时,源位置可以被固定或者使其静止以避免错误移动被表示在外部声源中。

因此,例如在音乐表演中,佩戴近距离麦克风和定位标签的表演者可以不再发送位置。对于音乐表演而言,重要的是估计的位置不会快速变化,并且因此音频可以被渲染到最后已知位置,直到替代跟踪系统(如果可用的话)将能够跟踪源并平滑地将位置插入到新的正确位置。然而,当标签突然激活并发送数据时,位置也可以被顺利地恢复。替代在最后已知位置渲染音频,在丢失跟踪的时间期间可以将源移动到预定义的其他位置,诸如前中心。当跟踪被修复时,源可以以逐步的方式被再次移动到其实际位置。在一些实施例中,系统将在位置跟踪的修复之后等待,直到源在丢失跟踪期间足够靠近位置为止,然后才将源移动到其实际位置。例如,如果在丢失位置跟踪期间源位于前中心,那么系统可以在修复的位置跟踪之后进行等待,直到源足够靠近该前中心位置为止,并且然后将该位置从前中心位置逐步移动到实际位置并开始动态更新该位置。

在竞选辩论的捕获或者流传输的另一个示例中,每个人有5分钟的时间来陈述他们对限定问题的答案。在这样的实施例中,一旦达到剩余的预定时间段(例如仅剩30秒的时间),标签就可以开始闪烁,并且一旦定位时间结束,音频最终淡出。在一些实施例中,参与者可以通过按压来自标签的按钮而请求新的时隙。如果获得允许,则标签可能会闪烁。

在一些实施例中,该概念可以通过能够支持不同的occ(空间捕获设备)和外部捕获装置配置的用户界面来体现。因此,在一些实施例中提供了一种ui,其使得能够选择作为原始麦克风输入的通道,换言之,需要空间处理(spac)和立体声渲染。类似地,该ui可以被配置为使得能够选择仅需要立体声渲染的通道。

在这种需要spac的音频信号或通道的实施例中,ui可以进一步提供一种视觉表示,其使得能够定义相对的麦克风位置和方向以驱动spac处理操作。在一些实施例中,ui可以使渲染器能够将音频信号渲染为定义的格式,例如4.0、5.1、7.1,并且将这些传递给立体声渲染器。在一些实施例中,ui能够实现以选择的格式手动定位输出位置。

因此,例如使用分布式捕获系统,该系统具有来自会场的一组新的音频装备。可以很容易地用建议的ui来映射通道。

此外,在一些示例中,ui用新的或未配置的occ(新的空间音频捕获装置)来控制音频混音器。因此,occ可以被配置为使用这样的ui来进行最佳的spac分析。

例如,该概念可以被体现为捕获系统,该捕获系统被配置为捕获外部或接近的(扬声器、仪器或其他源)音频信号和空间(音频场)音频信号。

此外,该概念通过当前捕获或全向内容捕获(occ)装置或设备来体现。

尽管以下示例中的捕获和渲染系统被示出为是分离的,但是应当理解的是,它们可以用同一装置来实现,或者可以被分布在一系列物理上分离但可通信的装置上。例如,诸如诺基亚ozo设备的当前捕获设备可以配备有用于分析外部麦克风源的附加接口,并且可以被配置为执行捕获部分。捕获部分的输出可以是空间音频捕获格式(例如,作为5.1通道缩混)、被时延补偿以匹配空间音频时间的领夹式源以及诸如源的分类和在其中发现源的空间之类的其他信息。

在一些实施例中,由阵列麦克风捕获的原始空间音频(而不是被处理为5.1的空间音频)可以被发送到混音器和渲染器,并且混音器/渲染器对这些信号执行空间处理。

这里描述的回放装置可以是一组具有运动跟踪器的耳机,以及能够呈现立体声音频渲染的软件。通过头部跟踪,空间音频可以以与地球有关的固定方位被渲染,而不是与人的头部一起旋转。

备选地,回放装置可以利用例如以5.1或7.1配置的一组扬声器来进行音频回放。

此外,应当理解,以下捕获和渲染装置的至少一些元素可以在诸如被称为“云”的分布式计算系统内实现。

关于图9示出了根据一些实施例的系统,该系统包括适合于实现音频捕获、渲染以及回放的本地捕获装置101、103和105、单个全向内容捕获(occ)装置141、混音器/渲染器151装置以及内容回放161装置。

在这个示例中只示出了三个本地捕获装置101、103和105,其被配置为生成三个本地音频信号,然而可以采用多于或少于3个的本地捕获装置。

第一本地捕获装置101可以包括用于声源1的第一外部(或领夹式)麦克风113。外部麦克风是“接近的”音频源捕获装置的示例,并且在一些实施例中可以是悬臂式麦克风或类似的相邻麦克风捕获系统。

虽然下面的示例关于外部麦克风被描述为领夹式麦克风,但是该概念可以扩展到在全向内容捕获(occ)装置外部或与之分离的任何麦克风。因此,外部麦克风可以是领夹式麦克风、手持麦克风、安装的麦克风或诸如此类的麦克风。外部麦克风可以由人佩戴/携带,或者被安装为用于乐器的近距离麦克风,或者是在设计者希望精确捕获的一些相关位置中的麦克风。外部麦克风113在一些实施例中可以是麦克风阵列。

领夹式麦克风通常包括佩戴在耳朵周围或靠近嘴部的小麦克风。对于诸如乐器之类的其它声源,可以通过领夹式麦克风或乐器的内部麦克风系统(例如,在电吉他的情况下的拾音麦克风)来提供音频信号。

外部麦克风113可以被配置为将所捕获的音频信号输出到音频混音器和渲染器151(并且在一些实施例中输出到音频混音器155)。外部麦克风113可以被连接到发送器单元(未示出),该发送器单元将音频信号无线地发送到接收器单元(未示出)。

此外,第一本地捕获装置101包括位置标签111。位置标签111可以被配置为提供标识第一捕获装置101和外部麦克风113的位置或位置的信息。

需要注意的是,人们所佩戴的麦克风可以在声学空间中自由移动,并且支持可佩戴麦克风的位置感测的系统必须得支持用户或麦克风位置的连续感测。因此,位置标签111可以被配置为将标签信号输出到位置定位器143。

在如图9中所示的示例中,第二本地捕获装置103包括用于声源2的第二外部麦克风123以及用于标识第二本地捕获装置103和第二外部麦克风123的位置或位置的位置标签121。

此外,第三本地捕获装置105包括用于声源3的第三外部麦克风133以及用于标识第三本地捕获装置105和第三外部麦克风133的位置或位置的位置标签131。

在以下示例中,定位系统和标签可以采用高精度室内定位(haip)或其他合适的室内定位技术。在诺基亚开发的haip技术中采用了低功耗蓝牙技术。定位技术也可以基于诸如wifi之类的其他无线电系统或一些专有技术。示例中的室内定位系统是基于在143中正在使用天线阵列的到达方向估计。可以存在定位系统的各种实现,并且可以存在此处描述的基于无线电的位置或定位系统的示例。在一些实施例中,位置或定位系统可以被配置为输出位置(例如但不限于在方位平面或方位角域中)和基于距离的位置估计。

例如,gps是基于无线电的系统,其中,可以非常精确地确定飞行时间。这在一定程度上可以在使用wifi信令的室内环境中得到再现。

然而,所描述的系统可以直接提供角度信息,角度信息又可以在音频解决方案中非常方便地被使用。

在一些示例实施例中,通过使用多个麦克风和/或多个相机的输出信号,可以确定位置或者可以辅助通过标签的定位。

尽管以下示例描述了基于无线电的定位或位置确定,但是应当理解,这可以在外部位置来实施。例如,本文描述的这种装置和方法可以用于开放顶部的场所,诸如体育场、音乐会、基本上封闭的场地/场所、半室内、半室外位置等。

捕获装置101包括全向内容捕获(occ)装置141。全向内容捕获(occ)装置141是“音频场”捕获装置的示例。在一些实施例中,全向内容捕获(occ)装置141可以包括方向或全向麦克风阵列145。全向内容捕获(occ)装置141可以被配置为将捕获的音频信号输出到混音器/渲染器装置151(并且在一些实施例中输出到音频混音器155)。

此外,全向内容捕获(occ)装置141包括源定位器143。源定位器143可以被配置为从与音频源相关联的位置标签111、121、131接收信息,并且标识本地捕获装置101、103和105相对于全向内容捕获装置141的位置或位置。源定位器143可以被配置为将空间捕获麦克风的位置确定输出到混音器/渲染器装置151(并且在一些实施例中输出到位置跟踪器或位置服务器153)。在这里讨论的一些实施例中,源定位器从外部捕获装置内或与之相关联的定位标签接收信息。除了这些定位标签信号之外,源定位器还可以使用视频内容分析和/或声源定位来帮助标识相对于occ装置141的源位置。

如更详细所示的,源定位器143和麦克风阵列145被同轴定位。换句话说,源定位器143和麦克风阵列145的相对位置和方位是已知的并且是被定义的。

在一些实施例中,源定位器143是位置确定器。位置确定器被配置为从外部捕获装置接收室内定位的定位器标签,并且进一步确定occ装置141的位置和/或方位,以便能够从标签信息确定位置或位置。例如,这可以在存在多个occ装置141的情况下被使用,并且因此可以相对于绝对坐标系来定义外部源。在以下示例中,定位系统和标签可以采用高精度室内定位(haip)或其他合适的室内定位技术,因此是haip标签。在诺基亚开发的haip技术中利用了低功耗蓝牙技术。定位技术也可以基于诸如wifi之类的其他无线电系统或一些专有技术。示例中的定位系统是基于正在使用天线阵列的到达方向估计。

在一些实施例中,全向内容捕获(occ)装置141可以实现移动设备内的至少一些功能。

因此,全向内容捕获(occ)装置141被配置为捕获空间音频,其在被渲染到收听者时使收听者能够体验声场,就好像它们存在于空间音频捕获装置的位置中一样。

在这样的实施例中,包括外部麦克风的本地捕获装置被配置为(例如,从关键人的声音或乐器)捕获高质量的近距离音频信号。

混音器/渲染器151可以包括位置跟踪器(或位置服务器)153。位置跟踪器153可以被配置为从全向内容捕获(occ)装置141(并且在一些实施例中从源定位器143)接收相对位置并且被配置为将参数输出到音频混音器155。

因此,在一些实施例中,occ装置的位置或位置被确定。空间音频捕获设备的位置(在时间0)可以被表示为

(xs(0),ys(0))。

在一些实施例中可以实现校准阶段或操作(换言之,定义0时刻),其中,一个或多个外部捕获装置在位置定位器的范围内的某个距离处被定位在麦克风阵列的前面。外部捕获(领夹式)麦克风的这个位置可以表示为

(xl(0),yl(0))。

此外,在一些实施例中,该校准阶段可以确定定位坐标系中的空间音频捕获设备的“前方向”。这可以通过首先由矢量

(xl(0)-xs(0),yl(0)-ys(0))

来定义阵列前方向而执行。

该矢量可以使位置跟踪器能够确定相对于occ和麦克风阵列的方位角α和距离d。

例如,在时间t给定外部(领夹式)麦克风位置(xl(t),yl(t))。

相对于阵列的方向由矢量(xl(t)-xs(0),yl(t)-ys(0))定义。

然后,方位角α可以被确定为

α=atan2(yl(t)-ys(0),xl(t)-xs(0))-atan2(yl(0)-ys(0),xl(0)-xs(0))。

其中,atan2(y,x)是给出正x轴与点(x,y)之间的角度的“四象限反正切”。因此,第一项给出正x轴(原点在xs(0)和ys(0))和点(xl(t),yl(t))之间的角度,第二项是x轴和初始位置(xl(0),yl(0))之间的角度。方位角可以通过从第二角度减去第一角度来获得。

距离d可以被获得为

在一些实施例中,由于定位位置数据可能是有噪声的,所以通过在数秒(例如30秒)的时间窗口上记录音频捕获设备和外部(领夹式)麦克风的定位标签的位置,然后通过对记录的位置进行平均以获得在以上等式中使用的输入,由此可以获得位置(xl(0),yl(0))和(xs(0)和ys(0))。

在一些实施例中,校准阶段可以由occ装置进行初始化,occ装置被配置为输出语音或其他指令以指示(一个或多个)用户在阵列前方停留30秒的时间段,并且在该时间段结束后给出声音指示。

尽管在上面所示出的示例示出了定位器145在二维中生成位置或位置信息,但是应该理解这可以被推广到三维,其中位置跟踪器可以确定仰角或者仰角偏移以及方位角和距离。

在一些实施例中,可以使用其他位置定位或跟踪部件来定位和跟踪移动源。其他跟踪部件的示例可以包括惯性传感器、雷达、超声波传感、激光雷达或激光测距仪等等。

在一些实施例中,使用视觉分析和/或音频源定位来辅助定位。

例如,可以执行视觉分析以定位和跟踪预定义的声源,声源诸如为人和乐器。视觉分析可以在与空间音频一起被捕获的全景视频上被应用。因此,该分析可以基于人的视觉标识来标识和跟踪携带外部麦克风的人的位置。视觉跟踪的优点在于,即使在声源静音的情况下,并因此在难以依赖基于音频的跟踪时,也可以使用视觉跟踪。视觉跟踪可以是基于对每个全景视频帧执行或运行在合适的数据集(诸如包含行人的图像的数据集)上训练的检测器。在一些其他实施例中,可以实现诸如卡尔曼过滤和粒子过滤的跟踪技术以通过视频帧获得人的正确轨迹。然后,可以将人相对于全景视频的正面方向的位置用作该源的到达方向,该位置与空间音频捕获设备的正面方向是一致的。在一些实施例中,可以使用基于领夹式麦克风的外观的视觉标记或检测器来帮助或改善视觉跟踪方法的精确性。

在一些实施例中,视觉分析不仅可以提供关于声源的2d位置(即,全景视频帧内的坐标)的信息,还可以提供关于距离的信息,该距离与检测到的声源的大小成比例,假定针对该声源类别的“标准”大小是已知的。例如,可以基于平均身高来估计“任何”人的距离。备选地,通过假设系统知道具体声源的大小,可以实现更精确的距离估计。例如,系统可以知道需要被跟踪的每个人的身高,或者用需要被跟踪的每个人的身高来训练。

在一些实施例中,3d或距离信息可以通过使用深度传感设备来实现。例如,可以使用“kinect”系统、飞行时间相机、立体相机或相机阵列来生成可以被分析的图像,并且可以根据来自多个图像的图像视差创建深度或3d视觉场景。这些图像可以由相机生成。

音频源位置确定和跟踪可以在一些实施例中被用来对源进行跟踪。例如,可以使用到达时间差(tdoa)方法来估计源方向。在一些实施例中,源位置确定可以使用转向波束成形器以及基于粒子过滤器的跟踪算法来实现。

在一些实施例中,可以使用音频自定位来跟踪源。

在无线电技术和连接解决方案中存在这样的技术,其可以进一步支持设备之间的高精度同步,这可以通过消除音频相关性分析中的时间偏移不确定性来简化距离测量。这些技术已被提出用于多通道音频回放系统的未来wifi标准化。

在一些实施例中,来自定位、视觉分析和音频源定位的位置估计可以被一起使用,例如,可以对由每一种提供的估计进行平均以获得改善的位置确定和跟踪精度。此外,为了最小化视觉分析的计算负荷(其通常远比音频或定位信号的分析“重”),视觉分析可以只被应用在整个全景帧的部分上,该部分对应于音频和/或定位分析子系统已经估计出到存在声源的空间位置。

在一些实施例中,位置或位置估计可以组合来自多个源的信息,并且多个估计的组合具有为提出的系统提供最精确的位置信息的可能性。然而有益之处在于,即使以较低的分辨率,系统也可以被配置为使用位置感测技术的子集来产生位置估计。

混音器/渲染器151可以进一步包括音频混音器155。音频混音器155可以被配置为从外部麦克风113、123和133以及全向内容捕获(occ)装置141的麦克风阵列145接收音频信号,并且基于来自位置跟踪器153的参数(空间参数和其他参数)来混合这些音频信号。因此,音频混音器155可以被配置为调整与每个音频信号相关联的增益、空间位置、频谱或其他参数,以便向听众提供更逼真的沉浸式体验。另外,有可能产生更多点状的听觉对象,从而增加参与度、可理解性或对源进行定位的能力。音频混音器155还可以接收来自回放设备161(并且在一些实施例中来自捕获和回放配置控制器163)的附加输入,这可以修改来自源的音频信号的混合。

在一些实施例中,音频混频器可以包括被配置为接收外部麦克风和occ麦克风阵列的输出的可变延迟补偿器。可变延迟补偿器可以被配置为接收位置估计并且确定occ麦克风阵列音频信号和外部麦克风音频信号之间的任何潜在的定时不匹配或者不同步,并且确定修复信号之间的同步所需的定时延迟。在一些实施例中,可变延迟补偿器可以被配置为在将信号输出到渲染器157之前将延迟应用于信号之一。

定时延迟可以被认为是关于音频信号的正的时间延迟或负的时间延迟。例如,用x表示第一(occ)音频信号,用y表示另一(外部捕获装置)音频信号。可变延迟补偿器被配置为试图找到延迟τ,使得x(n)=y(n-τ)。这里,延迟τ可以是正或负。

在一些实施例中,可变延迟补偿器可以包括时间延迟估计器。时间延迟估计器可以被配置为接收occ音频信号的至少一部分(例如,5.1通道格式空间编码通道的中央通道)。此外,时间延迟估计器被配置为接收来自外部捕获装置麦克风113、123、133的输出。此外,在一些实施例中,时间延迟估计器可以被配置为接收来自位置跟踪器153的输入。

由于外部麦克风可以改变其位置(例如,因为佩戴麦克风的人在说话的同时移动),所以occ定位器145可以被配置为随着时间跟踪外部麦克风(相对于occ装置)的位置或位置。此外,外部麦克风相对于occ装置的时变位置致使音频信号之间的时变延迟。

在一些实施例中,来自位置跟踪器143的位置或位置差异估计可被用作初始延迟估计。更具体地说,如果外部捕获装置与occ装置的距离是d,则可以计算初始延迟估计。在确定延迟估计中使用的任何音频相关可以被计算,使得相关中心与初始延迟值对应。

在一些实施例中,混频器包括可变延迟线。可变延迟线可以被配置为从外部麦克风接收音频信号,并且将音频信号延迟由时间延迟估计器估计的延迟值。换言之,当“最佳”延迟已知时,由外部(领夹式)麦克风捕获的信号被延迟相应的量。

在一些实施例中,混音器/渲染器装置151可以进一步包括渲染器157。在图9中所示的示例中,渲染器是立体声音频渲染器,其被配置为接收混合音频信号的输出并且生成适合于输出到回放装置161的经渲染的音频信号。例如,在一些实施例中,音频混音器155被配置为以第一多通道(诸如5.1通道或7.1通道格式)输出混合的音频信号,并且渲染器157将多通道音频信号格式渲染成立体声音频格式。渲染器157可以被配置为从定义用于回放装置161的输出格式的回放装置161(并且在一些实施例中,从捕获和回放配置控制器163)接收输入。然后,渲染器157可以被配置为将渲染器音频信号输出到回放装置161(并且在一些实施例中输出到回放输出165)。

因此,音频渲染器157可以被配置为接收混合或处理的音频信号以生成可以例如被传递到耳机或其他合适的回放输出装置的音频信号。然而,输出的混合音频信号可以被传递到任何其他合适的音频系统以用于回放(例如,5.1通道音频放大器)。

在一些实施例中,音频渲染器157可以被配置为对音频信号执行空间音频处理。

首先,可以关于单个通道(单通道)来描述混合和渲染,单通道可以是来自occ装置的多通道信号之一或外部麦克风之一。多通道信号组中的每个通道可以以类似的方式进行处理,其中对外部麦克风音频信号和occ装置多通道信号的处理具有以下差异:

1)外部麦克风音频信号具有时变位置数据(到达方向和距离),而occ信号从固定位置被渲染。

2)合成的“直接”和“环境”分量之间的比率可以用于控制对外部麦克风源的距离感知,而occ信号用固定的比率被渲染。

3)外部麦克风信号的增益可由用户调节,而occ信号的增益保持不变。

在一些实施例中,回放装置161包括捕获和回放配置控制器163。捕获和回放配置控制器163可以使回放装置的用户能够对由混音器155和渲染器157生成的音频体验进行个性化,并且还使混音器/渲染器151能够以用于回放装置161的原生格式来生成音频信号。因此,捕获和回放配置控制器163可以将控制和配置参数输出到混音器/渲染器151。

回放装置161可以进一步包括合适的回放输出165。

在这样的实施例中,occ装置或空间音频捕获装置包括以允许全向音频场景捕获的方式定位的麦克风阵列。

此外,多个外部音频源可以为感兴趣的声音源提供不妥协的音频捕获质量。

如之前所描述的,与分布式捕获系统相关联的一个问题是外部捕获装置或音频源的跟踪的控制和可视化。

图1示出了适于用诸如关于图1所示的分布式音频捕获系统来实现的示例位置跟踪系统。

跟踪系统包括一系列跟踪输入。例如,跟踪系统可以包括基于无线电(例如,高精度室内定位-haip)的跟踪器171。在一些实施例中,基于定位的跟踪器171可以被实现为occ的一部分,并且可以被配置为确定被实现为外部捕获装置的一部分(或者与外部捕获装置相关联,并因此与外部音频源相关联)的定位标签的估计位置。这些估计可以被传递给跟踪管理器183。

跟踪系统可以进一步包括基于视觉的跟踪器173。在一些实施例中,基于视觉的跟踪器173可以被实现为occ的一部分,并且可以被配置为通过分析来自相机(例如,occ所采用的相机)的至少一个图像来确定外部捕获装置的估计位置。这些估计可以被传递给跟踪管理器183。

此外,跟踪系统可以进一步包括基于音频的跟踪器175。在一些实施例中,基于音频的跟踪器175可以被实现为occ的一部分,并且可以被配置为通过分析来自麦克风阵列(例如,occ所采用的麦克风阵列)的音频信号来确定外部捕获装置的估计位置。例如,这种基于音频的源定位可以基于到达时间差技术。这些估计可以被传递给跟踪管理器183。

如图1中所示,跟踪系统可以进一步包括任何其他合适的跟踪器(基于xyz的跟踪器177)。在一些实施例中,基于xyz的跟踪器177可以被实现为occ的一部分,并且可以被配置为确定外部捕获装置的估计位置。这些估计也可以被传递给跟踪管理器183。

跟踪管理器183可以被配置为从跟踪器171、173、175和177接收位置或位置估计信息,并且处理该信息(并且在一些实施例中是处理定位标签状态)以便跟踪源的位置。跟踪管理器183是媒体源控制器的示例,媒体源控制器被配置为基于至少一个用户界面输入来管理与所确定的至少一个媒体源相关联的至少一个参数的控制。在一些实施例中,跟踪管理器可以被实现为此处所述的跟踪器服务器的一部分。在一些实施例中,跟踪管理器183被配置为通过对来自跟踪器的位置估计进行组合或平均来生成改善的位置估计。例如,该组合可以包括对用于跟踪器的位置估计值进行低通过滤以减少位置估计误差。跟踪管理器183还可以控制将要如何执行位置估计的跟踪。

跟踪管理器183可以被配置为将跟踪的位置估计输出到跟踪关联的媒体操控器185。

跟踪关联的媒体操控器185可被配置为确定哪些类型的处理(例如,用于处理的规则集合)将被应用到来自外部捕获装置的音频信号。然后,这些规则集合可以被传递给媒体混音器和渲染器189。

然后,媒体混音器和渲染器189可以将基于跟踪的处理应用到来自外部捕获装置的音频信号。媒体混音器和渲染器是被配置为基于媒体源位置估计来控制媒体源处理的媒体源处理器的示例。

在一些实施例中,跟踪系统还包括跟踪系统界面181。在一些实施例中,跟踪系统界面181可以被配置为从跟踪管理器183接收跟踪信息(和标签状态信息),并且生成跟踪系统的合适的视觉(或音频)表示并将其显示给用户。此外,在一些实施例中,跟踪系统界面181可以被配置为接收与所显示的ui元素相关联的用户界面输入,并且使用这些输入来控制跟踪器和跟踪管理183。跟踪系统界面181可以被认为是被配置为生成与至少一个媒体源相关联的至少一个用户界面元素的用户界面的示例。此外,跟踪系统界面181可以被认为是进一步被配置为接收与用户界面元素相关联的至少一个用户界面输入的用户界面的示例。用户界面可以如本文所描述的是图形用户界面,但是在一些实施例中,可以通过诸如rf信号或音频信号之类的其他手段来提供指示。例如,在定位标签到期的以下示例中,用户界面可以是指示标签时间即将到期的音频信号或光输出。

关于图2a,示出了根据一些实施例的表示外部捕获装置或声源和occ装置的用户界面可视化的示例。在该示例中,ui可视化示出了occ241的视觉表示,并且在位置范围(由范围圆圈示出)内示出了任何所标识的声源201、203和205的位置。通过来自occ表示241的方位和范围位置处的简单菱形视觉表示示出了所标识的声源的位置。

关于图2b,示出了根据一些实施例的表示外部捕获装置或声源和occ装置的用户界面可视化的进一步的示例。在这个示例中,ui可视化示出了occ241的视觉表示,并且在位置范围内(由范围圆圈示出)示出了任何所标识的声源的位置。在该示例中,声源中的两个声源被自动识别,并且示出了代替菱形表示201、203的合适的视觉表示251、253。自动识别可以通过音频、视觉分析来执行,或者在一些实施例中由定位标签标识符来发信号告知。此外,如图2b中所示,在一些实施例中,ui被配置为生成用户选择菜单255,其中用户可以手动标识源。例如,用户选择菜单255可以包括源类型的列表257。在一些实施例中选择了源类型之后,ui被配置为用合适的源类型视觉表示来代替菱形表示。

关于图2c,示出了根据一些实施例的表示外部捕获装置或声源和occ装置的用户界面可视化的另一示例。在这个示例中,ui可视化示出了occ241的视觉表示,并且在位置范围内(由范围圆圈示出)示出了任何所标识的声源的位置。在这个示例中,声源中的两个声源被自动识别,并且示出代替菱形表示201、203的合适的视觉表示251、253。在一些实施例中,源的标识还使得能够自动选择和定义源位置估计的跟踪过滤。在一些实施例中,ui还被配置为生成过滤简档菜单261,其中用户可以手动标识和定义与源相关联的位置估计的跟踪过滤。例如,用户选择菜单261可以包括过滤简档类型的列表。在一些实施例中,在选择了过滤简档类型(例如音乐、采访、体育等)之后,ui被配置为用合适的简档类型视觉表示来代替菱形表示。所选择的简档文件可以生成可以被传递给跟踪管理器的参数,以按照跟踪更新延迟、对该位置估计进行平均并且定义源是具有最大速度还是最小速度(换句话说,随时间只实现快或只实现慢的位置估计移动)来控制源的跟踪。

例如,在一些实施例中,定位器系统使用定位信号的过滤来确定精确的位置信息。然而,对于不同的使用情况,位置估计要求可能不同,并且系统应该能够选择适当的过滤方法和/或甚至能够手动调整高级设置。

因此,过滤简档类型可以通过改变以下中的一个或多个来控制位置估计的过滤:

-过滤器长度(手动的更长、更慢)

-极值移除

-平均值/中值选择

-允许分组丢弃

-原始数据输出

-平稳过渡

-允许/禁止移动阈值

-从一组预定义的运动模型中选择用于过滤器参数,其中,运动模型可以包括步行/跑步/跳舞/有氧运动等。

关于图2d,示出了根据一些实施例的表示外部捕获装置或声源和occ装置的用户界面可视化的另一示例。在该示例中,为了能够对源的仰角和方位角的跟踪特性进行微调,用户界面能够显示外部捕获装置或佩戴外部捕获装置的人的大视觉表示,并且能够进一步显示定位器标签相对于外部捕获装置的大致位置。例如,图2d示出了大的“歌手”源视觉表示271以及被大的“歌手”源视觉表示保持的标签表示272。图2d还示出了信息摘要273窗口,其示出了源类型和跟踪过滤器类型的信息。用户可以将标签放置在所识别的(或所指派的)对象上的位置(头部、手部、肩部等)处,以便能够定义任何偏移并改善跟踪功能。

关于图3,示出了根据一些实施例的表示外部捕获装置或声音源和occ装置的用户界面可视化的另一示例。在该示例中,可视化可以由跟踪部分301形成,跟踪部分301示出了针对所标识的音频源的跟踪位置估计。例如,示出了若干视觉表示,其中第一歌手视觉表示311和第二歌手视觉表示313被标记。

此外,用户界面示出了包括一系列控制界面的混音台控制部分303,每个控制界面可以通过源视觉表示与混音台控制通道之一之间的视觉表示链接进行关联。因此,例如,第一歌手视觉表示311被视觉链接到第一音频混音台通道321,而第二歌手视觉表示313被视觉链接到第六第一音频混音台通道323。在一些实施例中,混音台通道的排序可以是用户可调节的。此外,在一些实施例中,用户可以使用用户界面将通道指派给源,或者它们可以被自动地指派。

关于图4,在图3中所示的视觉表示通过用户界面被改变,用户界面被配置为显示包括与源相关联的vu仪表的可视表示的进一步覆盖,以便于容易地对源进行监视。因此,第一歌手视觉表示311具有关联的vu仪表331,第二歌手视觉表示313具有关联的vu仪表333。

关于图5,由ui生成的混音台控制部分303的视觉表示可以进一步包括突出显示效果,突出显示效果被配置为标识哪些源是原始麦克风信号(并因此需要spac和立体声渲染),以及哪些是扬声器信号(并因此只需要渲染)。例如,在图5中,第一音频混音台通道501、第三音频混音台通道503和第四音频混音台通道505被突出显示为原始麦克风源。换句话说,启用用于原始麦克风信号的spac处理。

关于图6,示出了用于表示用于突出显示扬声器通道音频信号的音频源的定义和手动定位的另一用户界面可视化。因此,对于需要立体声渲染的扬声器信号,ui可以生成包括预定义的位置格式输出列表的输出选择菜单601。此外,在一些实施例中,ui可以启用手动定位选项,手动定位选项生成将要被显示的手动定位603窗口,有可能在该窗口上手动输入扬声器输出位置。例如,如图6中所示,可以存在左前607、中心611和右后609的位置,其可以被用来确定输出渲染。

图7示出了用于表示用于原始麦克风信号的音频源的定义和手动定位的又一个用户界面可视化。这样的可视化651通过选择设备尺寸以及麦克风位置和/或麦克风方向和/或麦克风类型来示出预设或手动的调节。

关于图8,示出了关于用于在诸如位置标签时间到期之类的情况下控制跟踪的一些实施例的操作概要。

位置(定位)标签可以被配置为在一定时间后到期。通过按压标签上的物理按钮,可以重新初始化或延长此时间。为了防止在演奏期间或者在由于某种原因(阻塞等)暂时未接收到位置信号时标签到期,可以将跟踪器管理器配置为执行以下操作。

首先,跟踪器管理器可以被配置为监视任何所标识的标签和相关联的到期时间。

到期时间可以通过以下方式中的一种或多种方式进行监视。首先,可以直接从标签读取到期时间,或者将其包含在由标签发送的标签属性中。在一些实施例中,到期时间被定义为预设的到期时间,并且信号流与计时器相关联。

在图8中通过步骤801示出了对到期时间的监视。

在一些实施例中,标签到期时间可能不被延长(即,标签是临时标签)。

此外,在一些实施例中,可以向用户提供标识标签时间何时即将耗尽的指示(振动、声音等)。

在一些实施例中,跟踪器监视器可以确定标签时间接近到期或已经到期。

在图8中通过步骤803示出了确定接近到期或已经到期的操作。

在一些实施例中,跟踪器管理器可以被配置为定义到期时间策略。因此,例如可以从用户界面列表中选择可用选项。示例的可选到期时间策略可以是

1)在标签时间耗尽之前淡出音频。

2)保持最后已知位置并继续在那里渲染音频。

3)保持最后已知位置,并尝试备选的定位方法:音频、视觉。利用音频,通过将近距离麦克风信号用作要搜索的引导方法/种子,可以从空间音频捕获系统的音频场景中识别源。然后,通过空间音频捕获系统有可能用可接受的精度导出到达方向。在我们的智能音频混音系统中,视觉跟踪被用于补充定位并提供源的额外数据。在某些情况下,视觉跟踪系统可以暂时代替定位位置估计并继续对源进行跟踪。

4)应用音频波束成形技术,以将空间音频捕获设备的音频捕获集中于源的最后已知位置。

在图8中通过步骤806示出了策略的定义。

跟踪管理器可以将该策略应用于标签处理。

在图8中通过步骤807示出了该策略应用于标签。

在一些实施例中,跟踪器管理器可以重新初始化标签(例如,在按压标签按钮之后生成新的标签到期时间)。标签的初始化还可以致使跟踪器管理器执行以下中的至少一个(其可以由用户界面输入来定义或控制):

1)当重新建立连接时,开始渲染以更正位置

2)以设定的最大速度将朝向正确位置的路径平滑

3)保持以先前位置进行渲染,直到当前位置重叠为止,然后恢复跟踪

4)缓慢地控制相关联的音频的淡入。

在图8中通过步骤809示出了标签的初始化的操作。

在使用基于视觉或音频分析的外部声源跟踪的同时,可以应用与定位标签的重新初始化一起解释的操作。这对于变化照明或照明条件差的情况尤为重要。

关于图10,示出了可用作外部捕获装置101、103或105或occ捕获装置141,或混音器/渲染器151或回放装置161的至少一部分的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1200是移动设备、用户设备、平板电脑、计算机、音频回放装置等。

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如n个)麦克风。然而,应当理解,可以有任何合适的麦克风配置和任何合适数量的麦克风。在一些实施例中,麦克风阵列1201与装置分离,并且通过有线或无线耦合将音频信号发送到装置。如图9所示,在一些实施例中,麦克风阵列1201可以是麦克风113、123、133或麦克风阵列145。

麦克风可以是被配置为将声波转换成合适的电音频信号的换能器。在一些实施例中,麦克风可以是固态麦克风。换句话说,麦克风可以能够捕获音频信号并输出合适的数字格式信号。在一些其它实施例中,麦克风或麦克风阵列1201可以包括任何合适的麦克风或音频捕获部件,例如电容麦克风、电容式麦克风、静电麦克风、驻极体电容麦克风、动态麦克风、带状麦克风、碳麦克风、压电麦克风或微机电系统(mems)麦克风。在一些实施例中,麦克风可以将音频捕获信号输出到模数转换器(adc)1203。

设备1200可以进一步包括模数转换器1203。模数转换器1203可以被配置为从麦克风阵列1201中的每个麦克风接收音频信号,并将它们转换成适合于处理的格式。在麦克风是集成麦克风的一些实施例中,模数转换器不是必需的。模数转换器1203可以是任何合适的模数转换或处理部件。模数转换器1203可以被配置为将音频信号的数字表示输出到处理器1207或存储器1211。

在一些实施例中,设备1200包括至少一个处理器或中央处理单元1207。处理器1207可以被配置为执行各种程序代码。所实现的程序代码可以包括例如spac控制、位置确定和跟踪以及诸如本文所述的其他代码例程。

在一些实施例中,设备1200包括存储器1211。在一些实施例中,至少一个处理器1207被耦合到存储器1211。存储器1211可以是任何合适的存储部件。在一些实施例中,存储器1211包括程序代码部分,用于存储在处理器1207上可实现的程序代码。此外,在一些实施例中,存储器1211可以进一步包括用于存储数据的存储数据部分,例如存储根据此处描述的实施例已经被处理或待处理的数据。存储在程序代码部分中的所实现的程序代码和存储在存储数据部分中的数据可以在需要时经由存储器-处理器耦合由处理器1207获取。

在一些实施例中,设备1200包括用户界面1205。在一些实施例中,用户界面1205可以被耦合到处理器1207。在一些实施例中,处理器1207可以控制用户界面1205的操作,并且可以从用户界面1205接收输入。在一些实施例中,用户界面1205可以使用户能够例如经由小键盘向设备1200输入命令。在一些实施例中,用户界面205可以使用户能够从设备1200获得信息。例如,用户界面1205可以包括被配置为将信息从设备1200显示给用户的显示器。在一些实施例中,用户界面1205可以包括触摸屏或触摸界面,其既能够使信息被输入到设备1200,又能够将信息进一步显示给设备1200的用户。

在一些实现中,设备1200包括收发器1209。在这样的实施例中,收发器1209可以被耦合到处理器1207,并且可以被配置为例如经由无线通信网络来实现与其他装置或电子设备的通信。在一些实施例中,收发器1209或任何合适的收发器或发送器和/或接收器部件可以被配置为经由导线或有线耦合与其他的电子设备或装置进行通信。

例如,如图10所示,收发器1209可以被配置为与回放装置103通信。

收发器1209可以通过任何合适的已知通信协议与另一装置通信。例如,在一些实施例中,收发器209或收发器部件可以使用合适的通用移动电信系统(umts)协议,诸如例如ieee802.x之类的无线局域网(wlan)协议,诸如蓝牙之类的合适的短程射频通信协议或红外数据通信路径(irda)。

在一些实施例中,设备1200可以被用作渲染器装置。如此,收发器1209可以被配置为从捕获装置101接收音频信号和位置信息,并且可以通过使用执行合适代码的处理器1207来生成适当的音频信号渲染。设备1200可以包括数模转换器1213。数模转换器1213可以被耦合到处理器1207和/或存储器1211,并且可以被配置为将音频信号的数字表示(诸如在此处描述的音频信号的音频渲染之后来自处理器1207)转换为适合于经由音频子系统输出来呈现的合适模拟格式。在一些实施例中,数模转换器(dac)1213或信号处理部件可以是任何合适的dac技术。

此外,在一些实施例中,设备1200可以包括音频子系统输出1215。诸如图10中所示的示例可以是这样的情况,其中音频子系统输出1215是被配置为使得能够与耳机161耦合的输出插座。然而,音频子系统输出1215可以是任何合适的音频输出或到音频输出的连接。例如,音频子系统输出1215可以是到多通道扬声器系统的连接。

在一些实施例中,数模转换器1213和音频子系统1215可以在物理上分离的输出设备内实现。例如,dac1213和音频子系统1215可以被实现为经由收发器1209与设备1200通信的无绳耳机。

尽管示出设备1200具有音频捕获和音频渲染组件,但是应当理解,在一些实施例中,设备1200可以仅包括音频捕获或音频渲染设备元件。

通常,本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以用硬件来实现,而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管可以将本发明的各个方面图示和描述为框图、流程图,或者使用一些其他的图形表示来图示和描述,但是很好理解的是,本文中描述的这些框、装置、系统、技术或方法可以作为非限制性示例以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其一些组合来实现。

本发明的实施例可以由诸如处理器实体中的移动设备的数据处理器可执行的计算机软件来实现,或者通过硬件来实现,或者通过软件和硬件的组合来实现。进一步,在这方面应该注意的是,如附图中的逻辑流程的任何框可以表示程序步骤、或者互连逻辑电路、块和功能,或者程序步骤和逻辑电路、块和功能的组合。软件可以被存储在物理介质上,诸如存储器芯片、在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质,以及诸如例如dvd及其数据变体cd之类的光学介质。

存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适用于本地技术环境的任何类型,并且作为非限制性示例,数据处理器可以包括通用计算机、专用计算机、微处理器、数字信号处理器(dsp)、专用集成电路(asic)、门级电路以及基于多核处理器架构的处理器。

本发明的实施例可以在诸如集成电路模块的各种组件中实践。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级的设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。

通过使用已经建立的设计规则以及预先存储的设计模块库,诸如由加利福尼亚州山景城的synopsys公司和加利福尼亚州圣何塞的cadence设计公司提供的程序自动在半导体芯片上布线导体和定位组件。一旦对半导体电路的设计已经被完成,以标准化的电子格式(例如,opus,gdsii等)的所得设计就可以被发送到半导体制造厂或“工厂(fab)”以进行制造。

以上描述已经通过示例性而非限制性的示例提供了本发明的示例性实施例的全面的和信息性的描述。然而,当结合附图和所附权利要求阅读时,鉴于前面的描述,各种修改和适应对于相关领域的技术人员来说可以变得显而易见。然而,对于本发明的教导的所有这样和类似的修改仍然落入如所附权利要求所限定的本发明的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1