分布式音频麦克风阵列和定位器配置的制作方法

文档序号:14422302阅读:346来源:国知局
分布式音频麦克风阵列和定位器配置的制作方法

本申请涉及用于分布式音频捕获和混合的装置和方法。本发明进一步涉及但不限于用于音频信号的空间处理以实现音频信号的空间再现的用于分布式音频捕获和混合的装置和方法。



背景技术:

当多个源在空间场中移动时,捕获来自这些源的音频信号并混合这些音频信号需要大量的人力。例如,捕获和混合待呈现给听众并且产生有效的音频氛围的、在音频环境(诸如剧院或演讲厅)中的音频信号源(诸如演讲者或艺术家)要求对设备和训练进行极大投资。

通常实施的系统是专业制作人员利用近距麦克风(例如由用户佩戴的领夹式麦克风或者附接到扬声器杆的麦克风)来捕获靠近扬声器或其他源的音频信号,然后将该捕获到的音频信号与一个或多个合适的空间(或环境或音频场)音频信号人工混合,使得所产生的声音来自期望的方向。

空间捕获装置或全向内容捕获(occ)设备应当能够捕获高品质的音频信号,同时能够追踪近距麦克风。



技术实现要素:

根据第一方面,提供了一种装置,包括:多个麦克风,该多个麦克风以围绕第一轴的几何形状布置,使得装置被配置为捕获来自围绕形成的几何形状的预定方向的声音;定位器,被配置为接收至少一个远程位置信号,使得装置能够定位与生成远程定位信号的标签相关联的音频源,定位器包括天线元件的阵列,天线元件围绕第一轴布置;以及安装件,被配置为机械地耦合多个麦克风和定位器。

安装件可以被配置为在多个麦克风与定位器之间提供垂直于第一轴的偏移。

安装件可以是伸缩式安装件,伸缩式安装件配置为可调节地改变垂直于第一轴的偏移。

多个麦克风可以以围绕第一轴的第一环而被布置,定位器包括以围绕第一轴的第二环而被布置的天线元件,其中第一环位于第二环上方。

多个麦克风可以以围绕第一轴的第一环而被布置,定位器包括以围绕第一轴的第二环而被布置的天线元件,其中第一环位于第二环下方。

多个麦克风可以以围绕第一轴的第一环而被布置,定位器包括以围绕第一轴的第二环而被布置的天线元件,其中第一环位于第二环外部。

多个麦克风可以以围绕第一轴的第一环而被布置,定位器包括以围绕第一轴的第二环而被布置的天线元件,其中第一环位于第二环内部。

多个麦克风可以进一步被配置为具有第一参考定向,并且定位器进一步被配置为具有第二参考定向,其中安装件配置为限定第一参考定向与第二参考定向之间的定向偏移。

安装件可以配置为将第一参考定向与第二参考定向对齐。

定位器天线元件可以被配置为产生围绕第一轴的360度方位角覆盖。

定位器天线元件可以被配置为产生围绕第一轴的360度方位角覆盖。

标签可以与被配置为从音频源生成至少一个远程音频信号的至少一个远程麦克风相关联,其中装置可以被配置为接收远程音频信号。

标签可以与被配置为从音频源生成外部音频信号的至少一个外部麦克风相关联,其中装置可以被配置为向另一装置发送音频源,另一装置可以被配置为接收外部音频信号。

根据第二方面,提供了一种方法,包括:提供多个麦克风,该多个麦克风以围绕第一轴的几何形状布置,使得装置被配置为捕获来自所形成的几何形状周围的预定方向的声音;提供定位器,该定位器用于接收至少一个远程位置信号,并且定位与生成远程定位信号的标签相关联的音频源,定位器包括天线元件的阵列,天线元件围绕第一轴布置;以及提供安装件,该安装件配置为机械地耦合多个麦克风和定位器。

安装件可以被配置为在多个麦克风与定位器之间提供垂直于第一轴的偏移。

安装件可以是伸缩式安装件,伸缩式安装件被配置为可调节地改变垂直于第一轴的偏移。

该方法可以进一步包括以围绕第一轴的第一环而布置多个麦克风,定位器包括以围绕第一轴的第二环而布置的天线元件,其中第一环位于第二环上方。

该方法可以进一步包括以围绕第一轴的第一环而布置多个麦克风,定位器包括以围绕第一轴的第二环而布置的天线元件,其中第一环位于第二环下方。

该方法可以进一步包括以围绕第一轴的第一环而布置多个麦克风,定位器包括以围绕第一轴的第二环而布置的天线元件,,其中第一环位于第二环外部。

该方法可以进一步包括以围绕第一轴的第一环而布置多个麦克风,定位器包括以围绕第一轴的第二环而布置的天线元件,其中第一环位于第二环内部。

多个麦克风可以进一步被配置为具有第一参考定向,并且定位器进一步被配置为具有第二参考定向,其中方法可以包括使用安装件界定第一参考定向与第二参考定向之间的定向偏移。

该方法可以进一步包括使用安装件将第一参考定向与第二参考定向对齐。

该方法可以包括使用定位器天线元件产生围绕第一轴的360度方位角覆盖。

该方法可以包括使用多个麦克风产生围绕第一轴的360度方位角覆盖。

标签可以与被配置为从音频源生成至少一个远程音频信号的至少一个远程麦克风相关联,其中方法可以包括接收远程音频信号。

标签可以与被配置为从音频源生成外部音频信号的至少一个外部麦克风相关联,其中方法可以包括将向另一装置发送音频源的位置,另一装置可以被配置为接收外部音频信号。

根据第三方面,提供了一种装置,包括:用于将多个麦克风以围绕第一轴的几何形状布置的设备,使得麦克风被配置为捕获来自所形成几何形状周围的预定方向的声音;用于将定位器布置成接收至少一个远程位置信号的设备和用于定位与生成远程定位信号的标签相关联的音频源的设备,定位器包括天线元件的阵列,天线元件围绕第一轴布置;以及用于机械地耦合多个麦克风和定位器的设备。

用于机械地耦合多个麦克风和定位器的设备可以被配置为在多个麦克风与定位器之间提供垂直于第一轴的偏移。

用于机械地耦合多个麦克风和定位器的设备可以是伸缩式安装件,伸缩式安装件被配置为可调节地改变垂直于第一轴的偏移。

用于机械地耦合多个麦克风和定位器的设备还可以包括:用于以围绕第一轴的第一环而布置多个麦克风的设备;用于以围绕第一轴的第二环而布置天线元件的设备,其中第一环位于第二环上方。

用于机械地耦合多个麦克风和定位器的设备还可以包括:用于以围绕第一轴的第一环而布置多个麦克风的设备;用于以围绕第一轴的第二环而布置天线元件的设备,其中第一环位于第二环下方。

用于机械地耦合多个麦克风和定位器的设备还可以包括:用于以围绕第一轴的第一环而布置多个麦克风的设备;用于以围绕第一轴的第二环而布置天线元件的设备,其中第一环位于第二环外部。

用于机械地耦合多个麦克风和定位器的设备还可以包括:用于以围绕第一轴的第一环而布置多个麦克风的设备;用于以围绕第一轴的第二环而布置天线元件的设备,其中第一环位于第二环内部。

多个麦克风可以进一步被配置为具有第一参考定向,并且定位器进一步被配置为具有第二参考定向,其中用于机械地耦合多个麦克风和定位器的设备可以进一步包括用于使用安装件界定第一参考定向与第二参考定向之间的定向偏移的设备。

用于机械地耦合多个麦克风和定位器的设备可以进一步包括使用安装件将第一参考定向与第二参考定向对齐。

该装置可以包括用于使用定位器天线元件来布置定位器以产生围绕第一轴的360度方位角覆盖的设备。

该装置可以包括用于使用多个麦克风来布置多个麦克风以产生围绕第一轴的360度方位角覆盖的设备。

标签可以与被配置为从音频源生成至少一个远程音频信号的至少一个远程麦克风相关联,其中装置可以包括用于接收远程音频信号的设备。

标签可以与被配置为从音频源生成外部音频信号的至少一个外部麦克风相关联,其中该方法可以包括向另一装置发送音频源的位置,另一装置可以包括用于接收外部音频信号的设备。

存储在介质上的计算机程序产品可以使装置执行如本公开所述的方法。

电子设备可以包括如本公开所述的装置。

芯片组可以包括如本公开所述的装置。

本申请的实施例旨在解决与现有技术相关的问题。

附图说明

为了更好地理解本申请,现在将通过示例的方式来参考附图,附图中:

图1示意性示出了根据一些实施例的适合于实现空间音频捕获和渲染的捕获和渲染装置;

图2示出了根据一些实施例的包括3个定位器的第一示例性空间音频捕获和定位装置;

图3示出了根据一些实施例的包括4个定位器的第二示例性空间音频捕获和定位装置;

图4示意性示出了根据一些实施例的偏移(offset)空间音频捕获和定位器装置配置的高度和平面图;

图5示意性示出了根据一些实施例的本地麦克风和空间麦克风配置;并且

图6示意性示出了适合于实现图1所示的捕获和/或渲染装置的示例性设备。

具体实施方式

以下进一步详细描述用于提供有效捕获来自多个源的音频信号以及将那些音频信号混合的合适装置和可能机构。在以下实例中,描述了音频信号和音频捕获信号。然而,应当理解的是,在一些实施例中,该装置可以是配置为捕获音频信号或接收音频信号和其他信息信号的任何合适的电子设备或装置的一部分。

如前所述,相对于音频背景或环境音频场信号的捕获和混合音频源的传统方法是专业制作者使用近距话筒(例如由用户佩戴的领夹式麦克风或者连接到扬声器杆的麦克风)来捕获靠近音频源的音频信号,并进一步利用全向对象捕获麦克风来捕获环境音频信号。然后可以人工将这些信号或音轨混合以产生输出音频信号,使得所产生的声音具有来自期望(但不一定是原始)方向的音频源的特征。

如预期的那样,这需要大量的时间、精力和专业知识来正确进行。尽管已经描述了自动化或半自动化的混合,但是这样的混合通常被感知为是人为的,或者在听的时候没有提供期望的感知效果。因此,这样的混合存在问题,在于如何通过增加适当的效果或处理而使声源听起来更真实或更好。

本文描述的构想可以被认为是传统的空间音频捕获(spac)技术的增强。空间音频捕获技术可以将通过麦克风阵列捕获的音频信号处理成空间音频格式。换言之,产生具有空间感知能力的音频信号格式。

因此,该构想可以以可以捕获音频信号的形式来实施,使得当呈现给用户时,用户可以体验声场,就好像他们处于捕获装置的位置一样。可以为移动设备中的麦克风阵列实现空间音频捕获。另外,从空间音频捕获导出的音频处理可以用在诸如诺基亚ozo设备的存在捕获装置内。

在本文描述的实例中,音频信号被渲染为合适的双声道形式,其中可以使用渲染来形成空间感觉,例如通过头部相关传递函数(hrtf)对合适的音频信号进行滤波。

如关于本文实施例所描述的构想使得可以更有效和高效地捕获和重新混合近距环境音频信号。

该构想可以例如实施为配置为捕获近距(扬声器、乐器或其他源)音频信号和空间(音频场)音频信号的捕获系统。捕获系统可以进一步配置为对源和/或源所在的空间进行确定或分类。然后可以将该信息存储或传递到已经接收到音频信号的合适的渲染系统,并且信息(源和空间分类)可以使用该信息向用户生成音频信号的适当混合和渲染。此外,在一些实施例中,渲染系统可以使得用户能够输入合适的输入来控制混合,例如通过使用引起混合改变的头部追踪器或其他输入。

该构想进一步由广泛空间范围捕获装置或全向内容捕获(occ)设备来体现。

尽管以下实例中的捕获、混合/渲染和回放系统被示出为分开的,但是应当理解,它们可以用相同的装置来实现,或者可以分布在一系列物理上分开但可通信的装置上。例如,诸如诺基亚ozo设备的现场捕获装置可以配备有用于分析领夹式麦克风源的附加界面,并且可以配置为执行捕获部分。捕获部分的输出可以是空间音频捕获格式(例如,作为5.1声道缩混),被时延补偿以匹配空间音频时间的领夹式源以及诸如源和发现源的空间的分类之类的其他信息。

在一些实施例中,由阵列麦克风捕获的原始空间音频(而不是被处理为5.1的空间音频)可以传送给渲染器,并且渲染器执行如本文所述的空间处理。

本文描述的回放装置可以是一组具有运动追踪器的耳机以及能够呈现双声道音频渲染的软件。通过头部追踪器,空间音频可以相对地球以固定方向渲染,而不是与人的头部一起旋转。

此外,应当理解的是,以下捕获和渲染设备的至少一些元素可以在诸如被称为“云”的分布式计算系统内实现。

参考图1,示出了包括根据一些实施例适合于实现音频捕获、渲染和回放的本地捕获装置101、103和105,全向内容捕获(occ)装置141,混合器/渲染器151装置以及内容回放161装置的系统。

在以下实例中,仅示出三个本地捕获装置101、103和105,其配置为生成三个本地音频信号,但是可以使用多于或少于3个本地捕获装置。

第一本地捕获装置101可以包括用于声源1的第一外部(或者领夹式)麦克风113。外部麦克风是“近距”音频源捕获装置的实例,并且在一些实施例中可以是悬挂式麦克风或类似的相邻麦克风捕获系统。

虽然下面的实例是相对于作为领夹式麦克风的外部麦克风来描述的,但是该构想可以扩展到全向内容捕获(occ)装置外部的或与其分离的任何麦克风。因此,外部麦克风可以是领夹式麦克风、手持式麦克风、悬挂式麦克风或其他。外部麦克风可以由人佩戴/携带安装为用于乐器的近距麦克风,或者在设计者希望准确捕获的某些相关位置上的麦克风。外部麦克风113在一些实施例中可以是麦克风阵列。

领夹式麦克风通常包括戴在耳朵周围或靠近嘴部的小麦克风。对于诸如乐器之类的其他声源,音频信号可以由领夹式麦克风提供,也可以由乐器的内部麦克风系统(例如在电吉他的情况下为拾音麦克风)提供。

外部麦克风113可以被配置为将所捕获的音频信号输出到音频混合器和渲染器151(并且在一些实施例中为音频混合器155)。外部麦克风113可以连接到发射器单元(未示出),发射器单元向接收器单元(未示出)无线发送音频信号。

此外,第一本地捕获装置101包括方位标签111。方位标签111可以被配置为提供标识第一捕获装置101和外部麦克风113的方位或位置的信息。

应当注意的是,人们所佩戴的麦克风可以在声学空间中自由移动,并且支持可穿戴麦克风的位置感测的系统必须支持用户或麦克风位置的连续感测。方位标签111因此可以被配置为向方位定位器143输出标签信号。

在如图1所示的实例中,第二本地捕获装置103包括用于声源2的第二外部麦克风123以及用于标识第二本地捕获装置103和第二外部麦克风123的方位或位置的方位标签121。

此外,第三本地捕获装置105包括用于声源3的第三外部麦克风133以及用于标识第三本地捕获装置105和第三外部麦克风133的方位或位置的方位标签131。

在下面的实例中,定位系统和标签可以采用高精度室内定位(haip)或其他合适的室内定位技术。在诺基亚开发的haip技术中,采用了蓝牙低功耗技术。定位技术也可以基于其他无线电系统,如wifi或一些专有技术。实例中的室内定位系统基于在方位定位器143中正在使用天线阵列的到达估计方向。

定位系统可以具有各种实现方式,并且其实例为本文描述的基于无线电的位置或定位系统。在一些实施例中,位置或定位系统可以配置为输出位置(例如但不限于方位平面或方位角域)和基于距离的位置估计。

例如,gps是基于无线电的系统,其中可以非常精确地确定渡越时间(time-of-flight)。这在一定程度上可以在使用wifi信令的室内环境中再现。

所描述的系统可以直接提供角度信息,这又可以在音频解决方案中非常方便地使用。

在一些示例实施例中,可以通过使用多个麦克风和/或多个摄像机的输出信号来确定位置或者可以辅助通过标签的定位。

捕获装置101包括广泛空间范围捕获或全向内容捕获(occ)装置141。以下实例描述了使用全向内容捕获(occ)装置141的实施例是“音频场”捕获装置的示例。在一些实施例中,全向内容捕获(occ)装置141可以包括定向或全向麦克风阵列145。麦克风阵列可以包括以几何形状布置的多个麦克风,使得该装置配置为从所形成的几何形状的周围的预定方向捕获声音。预定方向可以基本上包括所有方向。全向内容捕获(occ)装置141可以配置为将所捕获的音频信号输出到混合/渲染装置151(并且在一些实施例中为音频混合器155)。

此外,全向内容捕获(occ)装置141包括源定位器143。源定位器143可以配置为从与音频源相关联的方位标签111、121、131接收信息并且标识本地捕获装置101、103和105相对于全向内容捕获装置141的方位或位置。源定位器143可以配置为将空间捕获麦克风的方位的这个确定输出到混合器/渲染装置151(并且在一些实施例中为方位追踪器或方位服务器153)。在本文讨论的一些实施例中,源定位器从外部捕获装置内的定位标签或与外部捕获装置相关联的定位标签接收信息。除了这些定位标签信号之外,源定位器可以使用视频内容分析和/或声源定位来帮助识别相对于occ装置141的源位置。

如更详细示出的,源定位器143和麦克风阵列145被同轴定位。换言之,源定位器143和麦克风阵列145的相对方位和定向是已知且被界定的。

在一些实施例中,源定位器143配置为接收来自外部捕获装置的位置定位器标签,并且进一步确定occ装置141的位置和/或定向,以便能够从标签信息确定与occ装置的位置相关的方位和位置。此外,当定位器和麦克风阵列同轴时,方位也可以计算为相对于介质捕获系统的相对方位。换言之,方位确定器是相对于定位定位器系统而言的。

这例如可以在存在多个occ装置141的情况下使用,并且因此可以相对于绝对坐标系来定义外部源。

在一些实施例中,全向内容捕获(occ)装置141可以实现移动设备内的至少一些功能。

全向内容捕获(occ)装置141因此被配置为捕获空间音频,其在被呈现给收听者时使收听者能够体验声场,就好像他们处于空间音频捕获设备的位置一样。

在这样的实施例中,包括外部麦克风的本地捕获装置配置为捕获高品质的近距音频信号(例如从关键人声或乐器)。

混合器/渲染装置151可以包括方位追踪器(或方位服务器)153。方位追踪器153可以被配置为从全向内容捕获(occ)装置141(并且在一些实施例中为源定位器143)接收相对方位并且配置为将参数输出到音频混合器155。

因此,在一些实施例中,确定了occ装置的方位或位置。空间音频捕获设备的位置可以表示为(在时间0)

(xs(0),ys(0))

在一些实施例中,可以实现校准阶段或操作(换言之,定义0时间实例),在该校准阶段或操作中,一个或多个外部捕获装置在位置定位器范围内定位在麦克风阵列的前方某个距离处。外部捕获(领夹式)麦克风的该方位可以表示为

(xl(0),yl(0))

此外,在一些实施例中,该校准阶段可以确定定位坐标系统中的空间音频捕获设备的“前向”。这可以通过首先利用以下矢量定义阵列前方来执行

(xl(0)-xs(0),yl(0)-ys(0))

该矢量可以使方位追踪器能够确定相对于occ和麦克风阵列的方位角α和距离d。

例如,假如在时间t时外部(领夹式)麦克风方位为

(xl(t),yl(t))

相对于阵列的方向由以下矢量定义

(xl(t)-xs(0),yl(t)-ys(0))

方位角α可以确定为

α=atan2(yl(t)-ys(0),xl(t)-xs(0))-atan2(yl(0)-ys(0),xl(0)-xs(0))

其中atan2(y,x)是给定正x轴与点(x,y)之间的角度的“四象限反正切”。因此,第一项给定正x轴(原点为xs(0)和ys(0))与点(xl(t),yl(t))之间的角度,第二项是x轴与初始方位(xl(0),yl(0))之间的角度。方位角可以通过从第二角度减去第一角度来获得。可以得到距离d为

在一些实施例中,由于定位位置数据可能是嘈杂的,所以可以通过以下方式来获得方位(xl(0),yl(0))和(xs(0),ys(0))的位置:记录音频捕获设备和外部(领夹式)麦克风的定位标签在几秒(例如30秒)的时间窗口内的方位,然后对记录的方位进行平均以获得以上等式中使用的输入。

在一些实施例中,校准阶段可以由occ装置初始化,该occ装置配置为输出语音或其他指令以指示一个或多个用户在阵列的前方停留30秒的时间,并且在该时间段已经结束之后给出声音指示。

尽管上面示出的实例示出了定位器145在二维中生成位置或者方位信息,但是应当理解,这可以推广到三维,其中方位追踪器可以确定仰角或者仰角偏移以及方位角和距离。

在一些实施例中,可以使用其他方位定位或追踪装置来定位和追踪移动源。其他追踪装置的实例可以包括惯性传感器、雷达、超声波感测器、激光雷达或激光测距仪等等。

在一些实施例中,使用视觉分析和/或音频源定位来辅助定位。

例如,可以进行视觉分析以定位和追踪预定义的声源,例如人和乐器。视觉分析可以应用于与空间音频一起被捕获的全景视频。因此,该分析可以基于人的视觉识别来标识和追踪携带外部麦克风的人的位置。视觉追踪的优点在于,即使在声源静音时以及因此在难以依靠基于音频的追踪时也可以使用。视觉追踪可以基于对每个全景视频帧执行或运行在合适的数据集(诸如包含行人的图像的数据集)上训练的检测器。在一些其他实施例中,可以实现诸如卡尔曼滤波和粒子滤波的追踪技术,以通过视频帧来获得人的正确轨迹。然后可以将人员相对于全景视频的前向(与空间音频捕获设备的前向一致)的位置用作该源的到达方向。在一些实施例中,基于领夹式麦克风的外观的视觉标记或检测器可以用于帮助或改善视觉追踪方法的准确性。

在一些实施例中,视觉分析不仅可以提供与声源的2d方位(即全景视频帧内的坐标)有关的信息,还可以提供与距离有关的信息,该距离与检测到的声源的大小成比例(假定该声源类别的“标准”尺寸是已知的)。例如,可以根据平均身高来估计“任何”人的距离。可替换地,通过假定系统知道特定声源的大小,可以实现更精确的距离估计。例如,系统可以知道每个需要追踪的人的身高或接受相关的训练。

在一些实施例中,3d或距离信息可以通过使用深度感测设备来实现。例如,可以使用“kinect”系统、tof(timeofflight)摄像机、立体摄像机或摄像机阵列来生成可以被分析的图像,并且可以根据来自多个图像的图像视差来创建深度或3d视觉场景。这些图像可以由摄像机产生。

音频源方位确定和追踪可以在一些实施例中用于追踪源。例如,可以使用到达时间差(tdoa)方法来估计源方向。在一些实施例中,可以使用转向波束形成器以及基于粒子滤波器的追踪算法来实现源方位确定。

在一些实施例中,可以使用音频自我定位来追踪源。

在无线电技术和连接解决方案中存在这样的技术,这些技术可以进一步支持设备之间的高精度同步,这通过消除音频相关性分析中的时间偏移不确定性来简化距离测量。这些技术已被提议用于多声道音频回放系统的未来wifi标准化。

在一些实施例中,通过定位、视觉分析和音频源定位进行的方位估计可以一起使用,例如,可以对由每种方式提供的估计进行平均以获得改善的位置确定和追踪准确性。此外,为了最小化视觉分析的计算负荷(其通常比音频或定位信号的分析“重”得多),视觉分析可以仅应用于整个全景框的一些部分,这些部分对应于其中音频和/或定位分析子系统估计存在声源的空间位置。

在一些实施例中,位置或方位估计可以组合来自多个源的信息,并且多个估计的组合具有为提出的系统提供最准确的方位信息的可能性。然而,有利的是,系统可以配置为使用方位感测技术的子集以便甚至在较低分辨率下产生方位估计。

混合器/渲染装置151还可以包括音频混合器155。音频混合器155可以配置为接收来自外部麦克风113、123和133以及全向内容捕获(occ)装置141的麦克风阵列145的音频信号,并且基于来自方位追踪器153的参数(空间和其他)来混合这些音频信号。音频混合器155因此可以配置为调整与每个音频信号相关联的增益和空间方位,以便向收听者提供更真实的沉浸式体验。另外,可以产生更多点状的听觉对象,从而增加了参与度和可理解性。音频混合器155还可以接收来自回放设备161(并且在一些实施例中为捕获和回放配置控制器163)(其可以修改来自源的音频信号的混合)的附加输入。

在一些实施例中,音频混合器可以包括配置为接收外部麦克风和occ麦克风阵列的输出的可变延迟补偿器。可变延迟补偿器可以配置为接收方位估计,并且确定occ麦克风阵列音频信号与外部麦克风音频信号之间的任何潜在的定时不匹配或者不同步,并且确定恢复信号之间的同步所需的定时延迟。在一些实施例中,可变延迟补偿器可以配置为在将信号输出到渲染器157之前将延迟应用于信号中的一个。

定时延迟可以认为是与音频信号有关的正的时间延迟或负的时间延迟。例如,由x表示第一个(occ)音频信号,由y表示另一个(外部捕获装置)音频信号。可变延迟补偿器配置为尝试找到延迟τ,使得x(n)=y(n-t)。这里,延迟τ可以是正值或负值。

可变延迟补偿器在一些实施例中可以包括时间延迟估计器。时间延迟估计器可以配置为接收occ音频信号的至少一部分(例如,5.1声道格式空间编码声道的中央声道)。此外,时间延迟估计器配置为接收来自外部捕获装置麦克风113、123、133的输出。此外,在一些实施例中,时间延迟估计器可以配置为从位置追踪器153接收输入。

由于外部麦克风可以改变其位置(例如因为佩戴麦克风的人在说话的同时移动),occ定位器145可以配置为追踪外部麦克风(相对于occ装置)随时间的位置或方位。此外,外部麦克风相对于occ装置的时变位置引起音频信号之间的时变延迟。

在一些实施例中,来自位置追踪器143的方位或位置差异估计可用作初始延迟估计。更具体而言,如果外部捕获装置与occ装置的距离是d,则可以计算初始延迟估计。可以计算用于确定延迟估计的任何音频相关性,使得相关中心对应于初始延迟值。

在一些实施例中,混合器包括可变延迟线。可变延迟线可以配置为从外部麦克风接收音频信号,并且将音频信号延迟由时间延迟估计器估计的延迟值。换言之,当已知“最佳”延迟时,由外部(领夹式)麦克风捕获的信号被延迟相应的量。

在一些实施例中,混合器/渲染装置151还可以包括渲染器157。在图1所示的实例中,渲染器是双声道音频渲染器,其配置为接收混合音频信号的输出并且生成适合于输出到回放装置161的渲染音频信号。例如,在一些实施例中,音频混合器155配置为以第一多声道(诸如5.1声道或7.1声道格式)输出混合音频信号,并且渲染器157将多声道音频信号格式渲染为双声道音频格式。渲染器157可以配置为从定义用于回放装置161的输出格式的回放装置161(并且在一些实施例中为捕获和回放配置控制器163)接收输入。渲染器157然后可以配置为将渲染器音频信号输出到回放装置161(并且在一些实施例中为回放输出165)。

音频渲染器157因此可以配置为接收混合或处理的音频信号以生成可以例如被传输到耳机或其他合适的回放输出装置的音频信号。然而,输出混合音频信号可以传输到用于回放的任何其他合适的音频系统(例如5.1声道音频放大器)。

在一些实施例中,音频渲染器157可以配置为对音频信号执行空间音频处理。

可以首先在单个(单)声道方面来描述混合和渲染,该单声道可以是来自occ装置的多声道信号之一或外部麦克风之一。多声道信号集中的每个声道可以以类似的方式处理,其中外部麦克风音频信号和occ装置多声道信号的处理具有以下差异:

1)外部麦克风音频信号具有时变位置数据(到达方向和距离),而occ信号是从固定位置渲染的。

2)合成的“直接”分量与“环境”分量之间的比率可以用于控制外部麦克风源的距离感知,而occ信号以固定的比率渲染。

3)外部麦克风信号的增益可由用户调节,而occ信号的增益保持不变。

在一些实施例中,回放装置161包括捕获和回放配置控制器163。捕获和回放配置控制器163可以使回放装置的用户能够对由混合器155和渲染器157生成的音频体验进行个性化,并且进一步使混合器/渲染器151能够以回放装置161的原生格式生成音频信号。捕获和回放配置控制器163因此可以将控制和配置参数输出到混合器/渲染器151。

回放装置161还可以包括合适的回放输出165。

在这样的实施例中,occ装置或空间音频捕获装置包括以允许全向音频场景捕获的方式定位的麦克风阵列。

此外,多个外部音频源可以为感兴趣的声音源提供不折损的音频捕获品质。

全向方位追踪系统(例如由可使用全向定位接收器或接收器阵列的定位器143实施的)的确定的或同轴的位置可以追踪外部音频源在3d中的方位或位置。这是通过给正在追踪的人或仪器附上标签来实现的。

此外,如以下进一步详细描述的,occ可以配置为,使得配置为执行方位追踪的定位器143以及配置为执行空间音频捕获的麦克风阵列145的确定的“同轴”安装或位置能够使得共用参考方向被定义。换言之,occ可以包括将定位器143和麦克风阵列145对齐的安装件或安装结构。这样的安装件使得能够以最小的转换直接使用方位追踪数据。安装件也可以称为其他装置,诸如“设备元件”、“部件”、“底盘”、“壳体构件”、“壳体部件”。在一些实施例中,安装件可以包括用于将多个麦克风和定位器耦合和对齐的机械耦合和电耦合装置。

混合器/渲染器151因此可以配置为对来自麦克风阵列的所有信号执行空间处理(spac)过程。这些处理的信号可以随后处理,以创建spac处理信号的双声道降混。

定位器143(诸如本文所示的全向定位实施方式)追踪外部麦克风在三维空间中的方位。使用到达方向(doa)和基于接收信号强度的距离估计来确定外部音频源的方位。方位信息流可以由定位器以信号通知,该方位或位置信息与时间对应的外部音频源信号相关联。

混合器155和渲染器157然后可以将外部声源混合并渲染为双声道音频混合的正确方位、仰角和距离。随后麦克风阵列双声道降混和外部音频源双声道降混可以被组合以呈现用于消耗的双声道音频表示。

在如本文所述的一些实施例中,定位器143和配置为执行空间音频捕获的occ麦克风阵列可以具有仰角偏移。这允许定位设备位于occ装置外部,这在紧凑性和易于制造方面提供了益处。

在本文中描述的另一些实施例中,用于指示外部麦克风的位置的标签本身可以位于与实际的外部麦克风方位相比已知的或界定的偏移处。例如,声乐表演者可以将方位标签作为从外部麦克风(例如领夹式麦克风)所处的嘴部偏移的挂坠或挂绳来佩戴。该偏移可以配置到捕获系统中,或者以信号发送到混合器和渲染器。

以这种方式,与基于全向性无线电的主动定位系统同轴地共定位的音频-视觉内容捕获系统可以提供开箱即用的分布式音频捕获系统。

图2和图3示出了示例occ装置。例如,图2示出了第一示例occ装置200。occ装置200包括具有麦克风阵列201的麦克风阵列部分202。麦克风阵列然后可以安装在固定或伸缩安装件203上,该安装件将麦克风阵列201相对于定位器部分212以“前向”或参考定向221定位。occ装置200还包括定位器部分212。图2中的定位器部分212示出了3天线定位接收器阵列的实例。每个阵列元件205、207、209定位和定向在相同的仰角平面上(例如以水平面为中心),并定位在彼此相距120度的方位角上,以提供具有某种重叠的360度覆盖。在图2所示的实例中,麦克风阵列的参考定向与定位接收器阵列元件之一的参考定向一致。然而,在一些实施例中,麦克风参考定向相对于定位接收器阵列元件之一的参考定向来定义。

因此,如图2所示,occ装置包括同轴定位的麦克风阵列202和(全向定位)定位器212。全向定位系统和介质捕获系统的同轴定位以及对齐参考轴实现开箱即用的可能性。由于本文所示的配置可以消除对任何校准或复杂设置的需要。

图3示出了与图2所示的实例类似的系统。第二示例occ装置300包括具有麦克风阵列301的麦克风阵列部分302。麦克风阵列然后可以安装在固定或伸缩安装件203上,该安装件将麦克风阵列301相对于定位器部分312以“前向”或参考定向321定位。occ装置300还包括定位器部分312。图3中的定位器部分312示出了4天线定位接收器阵列的实例。每个阵列元件305、307、309、311定位和定向在相同的仰角平面上(例如以水平面为中心),并定位在彼此相距90度的方位角上,以提供与图2所示实例相比具有进一步重叠的360度覆盖。在图3所示的实例中,麦克风阵列的参考定向与定位接收器阵列元件之一的参考定向一致。然而,在一些实施例中,麦克风参考定向相对于定位接收器阵列元件之一的参考定向来定义。更多定位器阵列元件的结果是occ装置的尺寸增加。

应当理解的是,定位器阵列和阵列元件的数量、位置和定向可以基于定位器阵列天线的设计和规格进行配置。合适的阵列设计可以在不同实例之间显著变化,并且可以基于预期的操作环境和待使用的期望的无线电系统。

图4示出了示例性occ装置的示意图的高度和平面。以类似于图2和3中所示实例的方式,occ装置400示出了示例性occ装置400,包括安装在固定或伸缩安装件403上的麦克风阵列部分402,该安装件将麦克风阵列402相对于定位器部分412以“前向”或参考定向321定位在共用(竖直)轴450上。

这种装置的优点是位置定位器阵列的定位和布置。对于分布式音频捕获使用场景,方位角特别重要,因为在大多数传统的音频捕获场景中,任何感兴趣的对象的高度不会显著移动。因此,定位器和麦克风同轴地消除了由于麦克风阵列和定位器(全向定位系统)之间的任何横向定位偏移而出现方位误差的任何可能性。

此外,通过在竖直平面中使用偏移,主要优点在于,具有使得定位器与麦克风阵列或介质捕获系统分离的主要优点。这允许定位系统与不同类型的介质捕获装置(例如用于空间音频捕获的不同麦克风阵列或不同规格的vr摄像机)耦合。

此外,在一些实施例中,解耦实现模块化的occ设计。例如,定位器系统中的天线阵列可以容易地替换或重新设计用于不同的使用场景。例如,对于需要更高精度的系统的情况,可以使用更大的天线阵列。

将定位器天线阵列定位在介质捕获(例如阵列麦克风)下方实现区域的更大覆盖,因为全向内容捕获装置中的盲点可以减少或移动到不太重要的区域。

尽管在图2至图4所示的实例中,麦克风阵列部分位于定位器(定位天线阵列)“上方”,但是应当理解,诸如麦克风阵列的多介质捕获部分可以位于定位器“下方”。因此,在其中occ装置安装在飞行或浮动平台(例如无人机内容捕获场景)上的一些实施例中,定位装置的位置可以移动到介质捕获装置“上方”或作为介质捕获装置的外围环。这样的设置因此被更好地优化以查看内容捕获。

图5示出了其中occ装置和外部捕获装置以介质捕获(麦克风)系统和定位器(全向定位)系统之间的高度偏移为特征的实例。

因此,在该实例中为键控扬声器550的音频源配置为以耳机中的麦克风552的形式佩戴外部捕获装置并且将标签定位在围绕颈部佩带的系索562中。外部声源麦克风552和相关联的系索562之间的高度偏移570可以是已知的并且作为外部麦克风的被追踪的方位的偏移而被传输。这个偏移可以基于诸如以下的几个实现因素而传输或不传输:外部麦克风与麦克风阵列502之间的距离、麦克风阵列502与occ500上的定位器512之间的高度偏移520、以及外部声源502与定位标签562之间的高度偏移570。

因此,每个感兴趣的外部音频源可以与(方位)定位器标签相关联,定位器标签发送指示其自身方位的无线电信号,其隐含地指示外部音频源的方位。与(方位)定位器对齐的麦克风阵列从其麦克风接收音频场景信号。麦克风阵列和外部音频源信号然后可以在音频混合器中组合和混合。渲染器可以进一步产生双声道音频输出,其能够与头部追踪器结合而被消耗。这样的设置允许用户在头部追踪器的帮助下消耗双声道音频并体验3d音频场景。

在一些实施例中,回放或配置装置可以提供捕获配置界面,该捕获配置界面使得该系统的操作者能够相对于实际音频源方位来配置相对于麦克风阵列和标签的定位系统的仰角偏移。回放配置界面允许内容消费者设置期望的参考方位。

在本发明的一些实施例中,该系统可以与视觉内容捕获结合使用。在这种情况下,视觉内容进一步与音频内容同步。另外,沉浸式视觉内容的头部追踪与双声道音频回放头部追踪器同步。

视觉内容流水线或音频内容流水线中的延迟差异可能导致非同步的回放体验。假设音频引导视觉内容播放,则回放配置界面可以装配为选择合适的音频延迟。这将确保同步的视听内容回放体验。

本文描述的实施例可以实时使用以及用于后期制作场景。在实时使用的情况下,位置(定位)数据通过合适的实时协议(例如udp)传输,并以非常小的延迟(几毫秒的量级)实时使用。

在后期制作实施例中,可以在捕获音频数据的同时接收标签位置(定位udp)数据并将其存储在文件中。在一些实施例中,这些装置可以为音频数据以及位置(定位)数据分别创建时间戳日志文件。当位置追踪器或位置服务器与音频记录服务器(混合器)使用网络时间协议或任何合适的方法使其时钟同步时,后一种选择可以易于使用。

参考图6,示出了可用作外部捕获装置101、103或105或occ捕获装置141或者混合器/渲染器151或回放装置161的至少一部分的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1200是移动设备、用户设备、平板电脑、计算机、音频回放设备等。

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如n个)麦克风。然而,应当理解的是,可以有任何合适的麦克风配置和任何合适数量的麦克风。在一些实施例中,麦克风阵列1201与装置分开,并且通过有线或无线耦合将音频信号发送到装置。如图1所示,麦克风阵列1201在一些实施例中可以是麦克风113、123、133或麦克风阵列145。

麦克风可以是配置为将声波转换为合适的电音频信号的换能器。在一些实施例中,麦克风可以是固态麦克风。换言之,麦克风可能能够捕获音频信号并输出合适的数字格式信号。在一些其他实施例中,麦克风或麦克风阵列1201可以包括任何合适的麦克风或音频捕获装置,例如电容式(condenser)麦克风、电容(capacitor)麦克风、静电麦克风、驻极体电容式麦克风、动态麦克风、带状麦克风、碳麦克风、压电麦克风或微电机系统(mems)麦克风。麦克风可以在一些实施例中将音频捕获信号输出到模数转换器(adc)1203。

设备1200还可以包括模数转换器1203。模数转换器1203可以配置为从麦克风阵列1201中的每个麦克风接收音频信号并且将它们转换为适合于处理。在麦克风是集成麦克风的一些实施例中,模数转换器不是必需的。模数转换器1203可以是任何合适的模数转换或处理装置。模数转换器1203可以配置为将音频信号的数字表示输出到处理器1207或存储器1211。

在一些实施例中,设备1200包括至少一个处理器或中央处理单元1207。处理器1207可以配置为执行各种程序代码。所实现的程序代码可以包括例如spac控制、方位确定和追踪以及诸如本文描述的其他代码例程。

在一些实施例中,设备1200包括存储器1211。在一些实施例中,至少一个处理器1207耦合到存储器1211。存储器1211可以是任何合适的存储装置。在一些实施例中,存储器1211包括用于存储在处理器1207上可实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1211还可以包括用于存储数据(例如根据本文所述实施例的已经处理或待处理的数据)的存储数据部分。存储在程序代码部分中的实现的程序代码和存储在存储数据部分中的数据可以在需要时借助于存储器-处理器耦合而由处理器1207进行检索。

在一些实施例中,设备1200包括用户界面1205。用户界面1205可以在一些实施例中耦合到处理器1207。在一些实施例中,处理器1207可以控制用户界面1205的操作并接收来自用户界面1205的输入。在一些实施例中,用户界面1205可以使用户能够例如经由小键盘向设备1200输入命令。在一些实施例中,用户界面205可以使得用户能够从设备1200获得信息。例如,用户界面1205可以包括配置为将来自设备1200的信息显示给用户的显示器。在一些实施例中,用户界面1205可以包括触摸屏或触摸界面,其既能够使信息输入到设备1200,又能够向设备1200的用户显示信息。

在一些实现中,设备1200包括收发器1209。在这样的实施例中,收发器1209可以耦合到处理器1207并且配置为例如经由无线通信网络来实现与其他装置或电子设备的通信。在一些实施例中,收发器1209或任何合适的收发器或发射器和/或接收器装置可以配置为经由有线或有线耦合而与其他电子设备或装置通信。

例如,如图6所示,收发器1209可以配置为与回放装置103通信。

收发器1209可以通过任何合适的已知通信协议与其他装置进行通信。例如,在一些实施例中,收发器209或收发器装置可以使用合适的通用移动电信系统(umts)协议、诸如ieee802.x的无线局域网(wlan)协议、lte、诸如蓝牙的合适的短程无线电频率通信协议、或者红外数据通信路径(irda)。

在一些实施例中,设备1200可以用作渲染设备。这样,收发器1209可以配置为接收来自捕获装置101的音频信号和方位信息,并且通过使用处理器1207执行合适的代码来生成适当的音频信号渲染。设备1200可以包括数模转换器1213。数模转换器1213可以耦合到处理器1207和/或存储器1211,并且配置为将音频信号的数字表示(例如来自处理器1207执行本文描述的音频信号的音频渲染之后)转换成适合于经由音频子系统输出部呈现的合适的模拟格式。在一些实施例中,数模转换器(dac)1213或信号处理装置可以是任何合适的dac技术。

此外,在一些实施例中,设备1200可以包括音频子系统输出部1215。诸如图6中所示的实例可以是其中音频子系统输出部1215是配置为实现与耳机161耦合的输出插孔的情况。然而,音频子系统输出部1215可以是任何合适的音频输出部或到音频输出部的连接。例如,音频子系统输出部1215可以是到多声道扬声器系统的连接。

在一些实施例中,数模转换器1213和音频子系统1215可以在物理上分离的输出设备内实现。例如,dac1213和音频子系统1215可以实现为经由收发器1209与设备1200通信的无绳耳机。

尽管示出的设备1200具有音频捕获和音频渲染部件,然而应当理解,在一些实施例中,设备1200可以仅包括音频捕获或音频渲染设备组件。

通常,本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以用硬件来实现,而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。虽然本发明的各个方面可图示和描述为框图、流程图或使用一些其他图形表示,但是很好理解的是,本文描述的这些框、设备、系统、技术或方法可以以非限制性实施例的方式实现为硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或他们的某种组合。

本发明的实施例可以由移动设备的数据处理器可执行的计算机软件来实现,诸如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合来实现。进一步在这方面,应当注意的是,图中的逻辑流程的任何框可以表示程序步骤,或者互连逻辑电路、方框和功能,或者程序步骤与逻辑电路、方框和功能的组合。软件可以存储在物理介质上,诸如存储器芯片、处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质以及诸如例如dvd及其数据变型cd之类的光学介质。

存储器可以是适合于本地技术环境的任何类型的存储器,并且可以使用任何合适的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性实例可以包括通用计算机、专用计算机、微处理器、数字信号处理器(dsp)、专用集成电路(asic)、门级电路以及基于多核处理器架构的处理器。

本发明的实施例可以在诸如集成电路模块的各种部件中实践。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级设计转换成易于在半导体衬底上蚀刻和形成的半导体电路设计。

诸如由加利福尼亚州mountainview的synopsys公司和加利福尼亚州sanjose的cadence设计公司提供的程序使用已建立的设计规则以及预先存储的设计模块库自动路由导体并将部件定位在半导体芯片上。一旦半导体电路的设计已经完成,以标准化的电子格式(例如opus、gdsii等)所得到的设计可以传送到半导体制造设施或“fab”以进行制造。

以上描述已经通过示例性而非限制性的实例提供了本发明的示例性实施例的全面的和信息性的描述。然而,当结合附图和所附权利要求阅读时,鉴于前面的描述,各种修改和改适对于相关领域的技术人员而言可以变得显而易见。然而,对于本发明的教导的所有这样的和类似的修改仍然落入如所附权利要求所限定的本发明范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1