多传感器声源定位的制作方法

文档序号:7936425阅读:364来源:国知局
专利名称:多传感器声源定位的制作方法
专利说明多传感器声源定位 背景 在诸如人机交互和智能房间等许多重要的应用中都采用使用传声器阵列的声源定位(SSL)。已经提出了大量的SSL算法,其准确度和计算复杂度都各不相同。例如,在诸如远程会议等宽带声源定位应用中,多种SSL技术是流行的。这包括可控波束形成器(SB)、高分辨率频谱估算、到达时延(TDOA)和基于学习的技术。
对于TDOA方法,大多数现有算法取传声器阵列中的每一对音频传感器并计算它们的互相关函数。为补偿环境中的混响和噪声,通常在相关函数前面使用加权函数。已经尝试了多种加权函数。其中之一是最大似然(ML)加权函数。
然而,这些现有TDOA算法被设计成找出音频传感器对的最优权重。在传声器阵列中存在超过一对传感器时,作出传感器对是独立的并且其似然可以相乘在一起的假设。该方法是有问题的,因为传感器对通常不是真正独立的。因此,这些现有的TDOA算法不表示具有超过一对音频传感器的传声器阵列的真正ML算法。
概述 本发明的多传感器声源定位(SSL)技术提供了用于具有超过一对音频传感器的传声器阵列的真正最大似然(ML)处理。该技术使用传声器阵列的每一音频传感器所输出的信号来估算声源的位置,该传声器阵列被放置成拾取从表现出混响和环境噪声的环境中的源所发出的声音。一般而言,这通过选择导致从声源到阵列的每一音频传感器的某一传播时间的声源位置来实现,该声源位置最大化同时产生从阵列中的所有传感器输入的音频传感器输出信号的似然。该似然包括为每一传感器估算对源信号的未知音频传感器响应的唯一项。
应当注意,尽管在背景部分描述的现有SSL技术的上述限制可由根据本发明的多传感器SSL技术的特定实现来解决,但这决不限于只解决任何或全部所述缺点的实现。相反,如将从以下描述中变得明显的,本技术具有广泛得多的应用。
应当注意,提供本概述以便用简化形式介绍下面在详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。除了刚才所描述的好处之外,从结合附图所考虑的以下详细描述中,本发明的其它优点将变得显而易见。



参考以下描述、所附权利要求书以及附图,将更好地理解本发明的具体特征、方面和优点,附图中 图1是描绘构成用于实现本发明的示例性系统的通用计算设备的图。
图2是概括地描述用于使用传声器阵列所输出的信号来估计声源的位置的技术的流程图。
图3是示出构成传声器阵列的音频传感器的输出的各信号分量的表征的框图。
图4A-B是概括地描述用于实现图2的多传感器声源定位的技术的实施例的连续流程图。
图5A-B是概括地描述图4A-B的多传感器声源定位的数学实现的连续流程图。
详细描述 在对本发明的各实施例的以下描述中,对附图进行了参考,附图构成了实施例的一部分且在其中作为说明示出了可在其中实践本发明的具体实施例。可以理解,可以使用其它实施例并且可以做出结构上的改变而不背离本发明的范围。
1.0计算环境 在提供本发明的多传感器SSL技术的各实施例的描述之前,将描述其中可以实现该技术的各部分的合适的计算环境的简要、概括的描述。本发明的多传感器SSL技术可用多种通用或专用计算系统环境或配置来操作。适合的公知计算系统、环境和/或配置的示例包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。
图1示出合适的计算系统环境的示例。该计算系统环境只是合适的计算环境的一个示例,而并非旨在对本发明的多传感器SSL技术的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。参考图1,用于实现本发明的多传感器SSL的示例性系统包括诸如计算设备100等计算设备。在其最基本的配置中,计算设备100通常包括至少一个处理单元102和存储器104。取决于计算设备的确切配置和类型,存储器104可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。该最基本配置在图1中由虚线106来示出。另外,设备100还可具有附加特征/功能。例如,设备100还可包含额外的存储(可移动和/或不可移动),其中包括但不限于磁盘、光盘或磁带。这样的附加存储在图1中由可移动存储108和不可移动存储110示出。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。存储器104、可移动存储108和不可移动存储110都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储所需信息并且可由设备100访问的任何其它介质。任何这样的计算机存储介质都可以是设备100的一部分。
设备100还可包含允许该设备与其它设备进行通信的通信连接112。通信连接112是通信介质的一个示例。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。
设备100还可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、照相机等输入设备114。还可以包括诸如显示器、扬声器、打印机等输出设备116。所有这些装置在本领域中都是众所周知的,因此不必在此详细讨论。
特别要注意,设备100包括具有多个音频传感器的传声器阵列118,每一个音频传感器都能够捕捉声音并产生表示所捕捉的声音的输出信号。音频传感器输出信号经由适当的接口(未示出)输入到设备100中。然而,应当注意,音频数据也可从任何计算机可读介质输入到设备100中,而不要求使用传声器阵列。
本发明的多传感器SSL技术可在诸如程序模块等由计算设备执行的计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明的多传感器SSL技术也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
现在已讨论了示例性操作环境,本说明书一节的其余部分将致力于描述实现本发明的多传感器SSL技术的程序模块。
2.0多传感器声源定位(SSL) 本发明的多传感器声源定位(SSL)技术使用具有多个音频传感器的传声器阵列所输出的信号来估计声源的位置,该传声器阵列被放置成拾取从展现出混响和环境噪声的环境中的源所发出的声音。参考图2,一般而言,本技术涉及首先输入来自阵列中的每一音频传感器的输出信号(200)。随后,选择导致从声源到音频传感器的某一传播时间的声源位置,该声源位置最大化同时产生所有所输入的音频传感器输出信号的似然(202)。所选择的位置随后被指定为所估计的声源位置(204)。
本发明的技术,尤其是如何选择上述声源位置将在以下部分更详细地描述,从现有方法的数学描述开始。
2.1现有方法 考虑P个音频传感器的阵列。给定源信号s(t),则在这些传感器处接收到的信号可被建模为 其中i=1,...,P是传感器的索引;τi是从源位置到第i个传感器位置的传播时间;αi是音频传感器响应因子,其包括信号的传播能量衰减、对应的传感器的增益、源和传感器的方向性和其它因子;ni(t)是第i个传感器所感觉到的噪声;

表示环境响应函数和源信号之间的卷积,其通常被称为混响。在频域中工作通常更高效,其中以上模型可被重写为 因此,如图3所示,对于阵列中的每一传感器,传感器的输出X(ω)300可被表征为由音频传感器响应于从声源发出的声音而产生的声源信号S(ω)302、由音频传感器响应于从声源发出的声音的混响而产生的混响噪声信号H(ω)308和由音频传感器响应于环境噪声而产生的环境噪声信号N(ω)310的组合,其中声源信号S(ω)302被包括延迟子分量e-jωτ304和幅度子分量α(ω)306的传感器响应来修正。
最直接的SSL技术是取每一对传感器并计算它们的互相关函数。例如,在传感器i和k处接收到的信号之间的相关是 Rik(τ)=∫xi(t)xk(t-τ)dt,(3) 最大化以上相关的τ是所估算的两个信号之间的时延。实际上,以上互相关函数可以在频域中更高效地计算为 其中*表示复共轭。如果将方程(2)代入方程(4),忽略混响项并假定噪声和源信号是独立的,则,最大化以上相关的τ是τi-τk,它是这两个传感器之间的实际延迟。在考虑超过两个传感器时,取所有可能的传感器对的总和来产生 惯例是通过假设测试来最大化以上相关,其中s是假设的源位置,该测试确定右边的τi。方程(6)也被称为传声器阵列的受控响应功率(SRP)。
为解决可影响SSL准确度的混响和噪声,已经发现在相关的前面增加加权函数能有很大帮助。方程(5)因此被重写成 已经尝试了多种加权函数。其中,已经发现被定义为 的基于试探的PHAT加权在真实的声学条件下表现很好。将方程(8)代入方程(7),得到 该算法被称为SRP-PHAT。注意,SRP-PHAT的计算是非常高效的,因为加权和求和的数量从方程(7)中的P2降为P。
听起来更理论的加权函数是最大似然(ML)公式,其假定高信噪比且没有混响。传感器对的加权函数被定义为 将方程(10)代入方程(7),得到基于ML的算法。已经知道该算法对于环境噪声是稳健的,但其在真实世界应用中的表现相对较差,因为在其推导期间未对混响建模。改进的版本明确地考虑了混响。混响被作为另一类型的噪声来对待 其中Nic(ω)是组合噪声或总噪声。随后将方程(11)代入方程(10)(用Nic(ω)替换Ni(ω)),得到新加权函数。使用某种进一步近似,方程(11)变成 其计算效率接近于SRP-PHAT。
2.2本发明的技术 注意,从方程(10)导出的算法不是真正的ML算法。这是因为方程(10)中的最优权重只是对于两个传感器来导出的。在使用了超过2个传感器时,方程(7)的采用假定传感器对是独立的并且其似然可以相乘在一起,而这是有问题的。本发明的多传感器SSL技术是在多个音频传感器的情况下的真正的ML算法,这将在下文描述。
如前所述,本发明的多传感器SSL涉及选择导致从声源到音频传感器的某一传播时间的声源位置,该声源位置最大化产生所输入的音频传感器输出信号的似然。实现该任务的技术的一个实施例在图4A-B中描述。该技术基于来自传声器阵列中的每一音频传感器的信号输出的作为各信号分量的组合的表征。这些分量包括音频传感器响应于从声源发出的声音而产生的、由包括延迟子分量和幅度子分量的传感器响应来修正的声源信号。另外,存在音频传感器响应于从声源发出的声音的混响而产生的混响噪声信号。此外,存在音频传感器响应于环境噪声而产生的环境噪声信号。
给定以上表征,本技术通过测量或估算音频传感器输出信号中的每一个的传感器响应幅度子分量、混响噪声和环境噪声来开始(400)。对于环境噪声,这可以基于声信号的无声时间段来估算。这些是传感器信号中不包含声源和混响噪声的信号分量的部分。对于混响噪声,这可以被估算为传感器输出信号减去所估算的环境噪声信号后的指定比例。该指定比例通常是可归因于环境中通常经历的声音混响的传感器输出信号的百分比,并且将取决于环境的情况。例如,该指定比例在环境吸声时较小,并且在声源预期位于传声器阵列附近时较小。
接着,确立一组候选声源位置(402)。候选位置中的每一个表示声源的可能位置。该上一个任务可以用各种方式来完成。例如,可以用围绕传声器阵列的规则模式来选择各个位置。在一个实现中,这通过以围绕位于该阵列的音频传感器所定义的平面中的一组半径递增的同心圆中的每一个的规则间隔来选择各个点来实现。如何确立候选位置的另一示例涉及在已知声源一般位于其中的、围绕阵列的环境区域中选择位置。例如,能够使用用于找出来自传声器阵列的声源的方向的常规方法。一旦确定了方向,则在该大致方向上在环境的区域中选择候选位置。
本技术通过选择先前未选择的候选声源位置来继续(404)。随后为每一音频传感器输出信号中估算传感器在所选择的候选位置是实际声源位置的情况下将展现的传感器响应延迟子分量(406)。注意,音频传感器的延迟子分量取决于从声源到传感器的传播时间,这稍后将更详细地描述。给定这一点并假定每一音频传感器的位置的先验知识,则可以计算声音从每一候选声源位置到每一音频传感器的传播时间。正是使用这一传播时间来估算传感器响应延迟子分量的。
给定对与每一音频传感器输出信号相关联的传感器响应子分量、混响噪声和环境噪声的测量或估算,则基于先前描述的音频传感器输出信号的表征,来估算将由每一音频传感器响应于从所选择的候选位置处的声源发出的声音而产生的声源信号(如果未被传感器响应修正的话)(408)。这些测量和估算的分量随后被用来为所选择的候选声源位置计算每一音频传感器的估算的传感器输出信号(410)。这也可以使用前述信号表征来完成。接着确定是否存在任何其余未选择的候选声源位置(412)。如果是,则重复动作404到412,直到考虑了所有候选位置并且为每一传感器和每一候选声源位置计算了估算的音频传感器输出信号为止。
一旦计算了估算的音频传感器输出信号,则接着查明哪一候选声源位置产生来自音频传感器的、与传感器的实际传感器输出信号最接近的一组估算的传感器输出信号(414)。产生最接近的组的位置被指定为上述所选择的最大化产生所输入的音频传感器输出信号的似然的声源位置(416)。
在数学上,上述技术可以描述如下。首先,方程(2)被重写成向量形式 X(ω)=S(ω)G(ω)+S(ω)H(ω)+N(ω),(13) 其中 X(ω)=[X1(ω),…,XP(ω)]T, H(ω)=[H1(ω),…,HP(ω)]T, N(ω)=[N1(ω),...,NP(ω)]T。
在各变量中,X(ω)表示所接收到的信号,并且是已知的。G(ω)可在SSL过程期间估算或假设,这将在以下详细描述。混响项S(ω)H(ω)是未知的,并将作为另一类型的噪声来对待。
为使以上模型在数学上易于处理,假定组合的总噪声 Nc(ω)=S(ω)H(ω)+N(ω),(14) 满足零均值、频率独立的联合高斯分布,即 其中ρ是常量;上标H表示厄密(Hermitian)转置,而Q(ω)是协方差矩阵,其可通过下式来估算 Q(ω)=E{Nc(ω)[Nc(ω)]H} =E{N(ω)NH(ω)}+|S(ω)|2E{H(ω)HH(ω)}(16) 在此,假设噪声和混响是不相关的。方程(16)中的第一项可直接从上述声信号的无声时间段来估算 其中k是无声的音频帧的索引。注意,在不同的传感器处接收到的背景噪声可能是相关的,如房间中的计算机风扇所产生的那些噪声。如果相信在不同的传感器处的噪声是独立的,则方程(16)的第一项可进一步被简化为对角矩阵 E{N(ω)NH(ω)}=diag(E{|N1(ω)|2},…,E{|NP(ω)|2}).(18) 方程(16)中的第二项与混响相关。这一般是未知的。作为近似,假定它是对角矩阵 |S(ω)|2E{H(ω)HH(ω)}≈diag(λ1,…,λP), (19) 其第i个对角元素是 λi=E{|Hi(ω)|2|S(ω)|2} ≈γ(|Xi(ω)|2-E{|Ni(ω)|2}) (20) 其中,0<γ<1是经验噪声参数。注意,在本发明的技术的测试实施例中,取决于环境的混响特性,γ被设为在大约0.1和大约0.5之间。还应注意,方程(20)假定混响能量是总共接收到的信号能量和环境噪声能量之差的一部分。同一假定也用在方程(11)中。还应注意,方程(19)是近似,因为在正常情况下在不同的传感器处接收到的混响信号是相关的,并且矩阵应具有非零的非对角元素。不幸的是,在实践中一般非常难以估算实际混响信号或这些非对角元素。在以下分析中,Q(ω)将被用来表示噪声协方差矩阵,因此即使其确实包含非零的非对角元素,推导也是适用的。
在可从已知信号计算或估算协方差矩阵Q(ω)时,所接收到的信号的似然可被写为 其中 且 J(ω)=[X(ω)-S(ω)G(ω)]HQ-1(ω)[X(ω)-S(ω)G(ω)].(23) 给定观测X(ω)、传感器响应矩阵G(ω)和噪声协方差矩阵Q(ω),本发明的SSL技术最大化以上似然。注意,传感器响应矩阵G(ω)需要关于声源来自何处的信息,因此优化通常是通过假设测试来解决的。即,作出关于声源位置的假设,这给出G(ω)。随后测量似然。产生最高似然的假设被确定为该SSL算法的输出。
取代最大化方程(21)中的似然,可以最小化以下负对数似然 J=∫ωJ(ω)dω.(24) 因为假定各频率上的概率是彼此独立的,所以可以通过改变未知变量S(ω)来单独最小化每一J(ω)。给定Q-1(ω)是厄密对称矩阵,Q-1(ω)=Q-H(ω),如果J(ω)对S(ω)求导并将该导数设为零,则得到 因此, 接着,将以上S(ω)代入J(ω) J(ω)=J1(ω)-J2(ω),(27) 其中 J1(ω)=XH(ω)Q-1(ω)X(ω)(28) 注意,在假设测试期间,J1(ω)与假设的位置不相关。因此,本发明的基于SSL技术的ML仅最大化 由于方程(26),J2可被重写为 分母[GH(ω)Q-1(ω)G(ω)]-1可被示为在MVDR波束形成之后的残留噪声功率。因此,该基于SSL的ML类似于使多个MVDR波束形成器沿多个假设方向执行波束形成,并将产生最高信噪比的方向选为输出方向。
接着,假定传感器中的噪声是独立的,因此,Q(ω)是对角矩阵 Q(ω)=diag(κ1,…,κP),(32) 其第i个对角元素是 κi=λi+E{|Ni(ω)|2} =γ|Xi(ω)|2+(1-γ)E{|Ni(ω)|2}(33) 方程(30)因此可被写为 在某些应用中,传感器响应因子αi(ω)可被精确地测量。对于未知应用,可以假定其是正实数并如下估算 |αi(ω)|2|S(ω)|2≈|Xi(ω)|2-κi, (35) 其中,两边表示在传感器i处接收到的没有组合噪声(噪声和混响)的信号的功率。因此, 将方程(36)代入方程(34),得到 注意,本发明的技术在附加的频率相关加权方面与方程(10)中的ML算法不同。其还具有更严格的推导并且是用于多个传感器对的真正的ML技术。
如前所示,本发明的技术涉及查明哪一候选声源位置产生来自音频传感器的、与实际传感器输出信号最接近的一组估算传感器输出信号。方程(34)和(37)表示可在最大化技术的上下文中找出最接近的组的两种方式。图5A-B示出用于实现该最大化技术的一个实施例。
该技术通过输入来自传声器阵列中的每一传感器的音频传感器输出信号来开始(500)并计算每一信号的频率变换(502)。任何适当的频率变换可用于该目的。另外,频率变换可限于只是已知是声源所表现的那些频率或频率范围。以此方式,处理成本被减为只处理感兴趣的频率。如在以上描述的估算SSL的一般过程中那样,确立一组候选声源位置(504)。接着,选择先前未选择的、经频率变换的音频传感器输出信号中的一个Xi(ω)。为每一感兴趣的频率ω估算所选择的输出信号Xi(ω)的期望环境噪声功率谱E{|Ni(ω)|2}(508)。另外,为感兴趣的每一频率ω计算所选择的信号Xi(ω)的音频传感器输出信号功率谱|Xi(ω)|2(510)。可任选地,为感兴趣的每一频率ω测量与所选择的信号Xi(ω)相关联的音频传感器的响应的幅度子分量αi(ω)(512)。注意,该动作的可任选本性在图5A中是由虚线框来指示的。随后确定是否有任何剩余的未选择的音频传感器输出信号Xi(ω)(514)。如果是,则重复动作(506)到(514)。
现在参考图5B,如果确定没有剩余的未选择的音频传感器输出信号,则选择先前未选择的候选声源位置中的一个(516)。随后计算从所选择的候选声源位置到与所选择的输出信号相关联的音频传感器的传播时间τi(518)。随后确定是否测量幅度子分量αi(ω)(520)。如果是,则计算方程(34)(522),并且如果否,则计算方程(37)(524)。在任一情况下,记录所得的J2的值(526)。随后确定是否有任何未选择的剩余的候选声源位置(528)。如果有剩余的位置,则重复动作(516)到(528)。如果没有要选择的剩余位置,则已经在每一候选声源位置计算了J2的值。给定这一点,产生最大J2值的候选声源位置被指定为所估计的声源位置(530)。
注意,在上述技术的许多实际应用中,传声器阵列的音频传感器的信号输出将是数字信号。在这种情况下,关于音频传感器输出信号的感兴趣的频率、每一信号的期望的环境噪声功率谱、每一信号的音频传感器输出信号功率谱、以及与每一信号相关联的音频传感器响应的幅度分量都是该数字信号所定义的频率槽。因此,方程(34)和(37)被计算为跨感兴趣的所有频率槽的和而非积分。
3.0其它实施例 还应当注意,可以按所需的任何组合来使用本说明书全文中的上述实施例的任一个或全部以形成另外的混合实施例。尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。
权利要求
1.一种用于使用具有多个音频传感器的传声器阵列所输出的信号来估计声源的位置的计算机实现的过程,所述传声器阵列被放置成拾取从表现出混响和环境噪声的环境中的源所发出的声音,所述过程包括使用计算机来执行以下过程动作
输入所述音频传感器的每一个的信号输出(200);
选择导致从所选位置到每一音频传感器的某一传播时间的位置作为所述声源的位置,该位置最大化同时产生来自所述阵列中的所有传感器的信号输出的似然,其中所述似然包括为所述阵列中的每一传感器估算对所述源信号的未知音频传感器响应的项;以及
将所选择的位置指定为估计的声源位置(204)。
2.如权利要求1所述的过程,其特征在于,选择导致从所选位置到每一音频传感器的某一传播时间的位置作为所述声源的位置,该位置最大化同时产生每一传感器的信号输出的似然,上述过程动作包括以下动作
将每一传感器输出信号表征为各信号分量的组合,所述信号分量包括
所述音频传感器响应于从所述声源发出的声音而产生的、由包括延迟子分量和幅度子分量的传感器响应来修正的声源信号,
所述音频传感器响应于从所述声源发出的声音的混响而产生的混响噪声信号,以及
所述音频传感器响应于环境噪声而产生的环境噪声信号。
测量或估算与每一音频传感器相关联的所述传感器响应幅度子分量、混响噪声信号和环境噪声信号;
为指定的一组候选声源位置中的每一个估算所述音频传感器中的每一个的所述传感器响应延迟子分量,其中每一候选声源位置表示所述声源的可能位置;
对每一候选声源位置,使用与每一音频传感器相关联的、所测量或估算的传感器响应幅度子分量、混响噪声信号、环境噪声信号和传感器响应延迟子分量,来计算将由每一音频传感器响应于从所述声源发出的声音而产生的、在未被该传感器的传感器响应修正的的情况下的估算的声源信号;
为每一候选声源位置,使用与每一音频传感器相关联的所测量或估算的声源信号、传感器响应幅度子分量、混响噪声信号、环境噪声信号、和传感器响应延迟子分量,来计算每一音频传感器的估算的传感器输出信号;
将每一音频传感器的所估算的传感器输出信号与对应的实际传感器输出信号进行比较,并确定哪一候选声源位置产生作为整体与各音频传感器的实际传感器输出信号最接近的一组估算的传感器输出信号;以及
将定与所述一组最接近的估算的传感器输出信号相关联的候选声源位置指定为所选择的声源位置。
3.如权利要求2所述的过程,其特征在于,测量或估算与每一音频传感器相关联的所述传感器响应幅度子分量、混响噪声信号和环境噪声信号的过程动作包括以下动作
测量所述传感器输出信号;以及
基于所测量的传感器信号的、不包含包括所述声源信号和所述混响噪声信号的信号分量的各部分来估算所述环境噪声信号。
4.如权利要求3所述的过程,其特征在于,测量或估算与每一音频传感器相关联的所述传感器响应幅度子分量、混响噪声信号和环境噪声信号的过程动作包括,将所述混响噪声信号估算为所测量的传感器输出信号减去所估算的环境噪声信号后的比例的动作。
5.如权利要求4所述的过程,其特征在于,将所述混响噪声信号估算为所测量的传感器输出信号减去所估算的环境噪声信号后的指定比例的动作包括,在估计声源的位置之前将所述指定比例确立为所述环境中的通常经历的声音的混响的百分比,以使得所述指定比例在所述环境吸声时较低的动作。
6.如权利要求4所述的过程,其特征在于,将所述混响噪声信号估算为所测量的传感器输出信号减去所估算的环境噪声信号之后的指定比例的动作包括,在估计声源的位置之前将所述指定比例确立为所述环境中的声音的混响的百分比,以使得在预期所述声源距所述传声器阵列较近时所述指定比例被设置得较低的动作。
7.如权利要求2所述的过程,其特征在于,音频传感器的传感器响应延迟子分量取决于从所述声源发出的声音到所述音频传感器的传播时间,并且其中为指定一组候选声源位置的每一个估算所述音频传感器的每一个的所述传感器响应延迟子分量的过程动作包括以下动作
在估算声源位置之前确立所述一组候选声源位置;
在估算声源位置之前确立每一音频传感器相对于所述候选声源位置的位置;
对于每一音频传感器和每一候选声源位置,计算在所述声源位于所述候选声源位置的情况下的、从所述声源发出的声音到所述音频传感器的传播时间;以及
使用对应于每一传感器和候选位置的、所计算的传播时间,来为所述指定的一组候选声源位置中的每一个估算所述音频传感器中的每一个的所述传感器响应延迟子分量。
8.如权利要求7所述的过程,其特征在于,确立所述一组候选声源位置的过程动作包括以围绕所述传声器阵列的规则模式来选择各个位置的动作。
9.如权利要求8所述的过程,其特征在于,以围绕所述传声器阵列的规则模式来选择各个位置的过程动作包括以围绕位于所述多个音频传感器所定义的平面中的一组半径递增的同心圆中的每一个的规则间隔来选择各个点的动作。
10.如权利要求7所述的过程,其特征在于,确立所述一组候选声源位置的过程动作包括在已知所述声源一般位于其中的环境区域中选择各个位置的动作。
11.如权利要求7所述的过程,其特征在于,确立所述一组候选声源位置的过程动作包括以下动作
确立自所述传声器阵列的、所述声源所位于的大致方向;
在所述大致方向上在环境区域中选择各个位置。
12.如权利要求2所述的过程,其特征在于,为每一候选声源位置所测量或估算的与每一音频传感器相关联的声源信号、传感器响应幅度子分量、混响噪声信号、环境噪声信号和传感器响应延迟子分量是在特定时间点测量或估算的,并且其中为每一候选声源位置计算每一音频传感器的所估算的传感器输出信号包括计算所述时间点的所估算的传感器输出信号,以使所选择的声源位置在所述时间点被认为是所述声源的位置的动作。
13.如权利要求2所述的过程,其特征在于,确定哪一候选声源位置产生作为整体与各音频传感器的实际传感器输出信号最接近的一组所估算的传感器输出信号的过程动作包括以下动作
对于每一候选声源位置,计算方程
其中ω表示感兴趣的频率,P是音频传感器i的总数,αi(ω)是音频传感器响应的幅度子分量,γ是指定的噪声参数,|Xi(ω)|2是传感器信号Xi(ω)的音频传感器输出信号功率谱,E{|Ni(ω)|2}是信号Xi(ω)的期望环境噪声功率谱,*表示复共轭,并且τi是在所述声源位于所述候选声源位置的情况下从所述声源发出的声音到音频传感器i的传播时间;以及
将最大化所述方程的候选声源位置指定为产生作为整体与各音频传感器的实际传感器输出信号最接近的一组所估算的传感器输出信号的声源位置。
14.如权利要求2所述的过程,其特征在于,确定哪一候选声源位置产生作为整体与各音频传感器的实际传感器输出信号最接近的一组所估算的传感器输出信号的过程动作包括以下动作
对于每一候选声源位置,计算方程
其中ω表示感兴趣的频率,P是音频传感器i的总数,γ是指定的噪声参数,|Xi(ω)|2是传感器信号Xi(ω)的音频传感器输出信号功率谱,E{|Ni(ω)|2}是信号Xi(ω)的期望环境噪声功率谱,并且τi是在所述声源位于所述候选声源位置的情况下从所述声源发出的声音到音频传感器i的传播时间;以及
将最大化所述方程的候选声源位置指定为产生作为整体与各音频传感器的实际传感器输出信号最接近的一组所估计的传感器输出信号的声源位置。
15.一种用于在表现出混响和环境噪声的环境中估计声源的位置的系统,包括
具有两个或更多音频传感器的传声器阵列(118),所述传声器阵列被放置成拾取从所述声源发出的声音;
通用计算设备(100);
包括可由所述计算设备执行的程序模块的计算机程序,其中所述计算设备由所述计算机程序的程序模块来指示以便
输入所述音频传感器的每一个的信号输出(500);
计算每一音频传感器输出信号的频率变换(502);
确立一组候选声源位置(504),其每一个都表示所述声源的可能位置;
对于每一候选声源位置和每一音频传感器,计算从所述候选声源位置到所述音频传感器的传播时间τi(518),其中i表示哪一音频传感器;
对于每一经频率变换的音频传感器输出信号的每一感兴趣的频率,
估算信号Xi(ω)的期望环境噪声功率谱E{|Ni(ω)|2}(508),其中ω表示哪一感兴趣的频率,并且其中所述期望环境噪声功率谱是期望与所述信号相关联的环境噪声功率谱,
计算信号Xi(ω)的音频传感器输出信号功率谱|Xi(ω)|2(510),
测量与信号Xi(ω)相关联的传感器的音频传感器响应的幅度子分量αi(ω)(512);
对于每一候选声源位置,计算方程
其中P是音频传感器的总数,*表示复共轭,并且γ是指定的噪声参数(522);以及
将最大化所述方程的候选声源位置指定为所估计的声源位置(530)。
16.如权利要求15所述的系统,其特征在于,所述传声器阵列的信号输出是数字信号,并且其中所述音频传感器输出信号的每一个的感兴趣的频率、每一信号的期望环境噪声功率谱、每一信号的音频传感器输出信号功率谱、以及与所述信号相关联的音频传感器响应的幅度子分量都是所述数字信号所定义的频率槽,并且其中所述方程被计算为跨所有频率槽的和而非跨所述频率的积分。
17.如权利要求15所述的系统,其特征在于,用于计算每一音频传感器输出信号的频率变换的程序模块包括用于将所述频率变换限制到只有已知是所述声源所表现的那些频率的子模块。
18.如权利要求15所述的系统,其特征在于,所述指定的噪声参数γ的值的范围在大约0.1和大约0.5之间。
19.一种用于在表现出混响和环境噪声的环境中估计声源的位置的系统,包括
具有两个或更多音频传感器的传声器阵列(118),所述传声器阵列被放置成拾取从所述声源发出的声音;
通用计算设备(100);
包括可由所述计算设备执行的程序模块的计算机程序,其中所述计算设备可由所述计算机程序的程序模块来指示以便
输入所述音频传感器的每一个的信号输出(500);
计算每一音频传感器输出信号的频率变换(502);
确立一组候选声源位置(504),其每一个都表示所述声源的可能位置;
对于每一候选声源位置和每一音频传感器,计算从所述候选声源位置到所述音频传感器的传播时间τi(518),其中i表示哪一音频传感器;
对于每一经频率变换的音频传感器输出信号的每一感兴趣的频率,
估算信号Xi(ω)的期望环境噪声功率谱E{|Ni(ω)|2}(508),其中ω表示感兴趣的频率,并且其中所述期望环境噪声功率谱是期望与所述信号相关联的环境噪声功率谱,
计算信号Xi(ω)的音频传感器输出信号功率谱|Xi(ω)|2(510),
对于每一候选声源位置,计算方程其中P是音频传感器的总数,并且γ是指定的噪声参数(524);以及
将最大化所述方程的候选声源位置指定为所估计的声源位置(530)。
20.如权利要求19所述的系统,其特征在于,所述传声器阵列的信号输出是数字信号,并且其中所述音频传感器输出信号的每一个的感兴趣的频率、每一信号的期望环境噪声功率谱、和每一信号的音频传感器输出信号功率谱都是所述数字信号所定义的频率槽,并且其中所述方程被计算为跨所有频率的和而非跨所述频率的积分。
全文摘要
呈现了多传感器声源定位(SSL)技术,其提供用于具有超过一对音频传感器的传声器阵列的真正最大似然(ML)处理。一般而言,这通过选择导致从声源到阵列的每一音频传感器的某一传播时间的声源位置来实现,该声源位置最大化同时产生从阵列中的所有传感器输入的音频传感器输出信号的似然。该似然包括为阵列中的每一传感器估算对源信号的未知音频传感器响应的唯一项。
文档编号H04R1/20GK101595739SQ200880003251
公开日2009年12月2日 申请日期2008年1月26日 优先权日2007年1月26日
发明者C·张, D·弗洛伦西奥, Z·张 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1