声源定位设备和方法

文档序号:6011718阅读:398来源:国知局
专利名称:声源定位设备和方法
技术领域
本发明涉及声源定位。更具体地,本发明的实施例涉及通过话筒阵列进行声源定位的设备和方法。
背景技术
声源定位的例子包含利用话筒阵列来定位声源。比如,在J. DiBiase的文章"Ahigh-accuracy, low-latency technique for talker localization in reverberantenvironments" , PhD thesis, Brown University, Providence RI, USA, May 2000 中提出了基于不同话筒的信号之间的时间差(相位差)进行声源定位的方法(SRP-PHAT算法)
发明内容

根据本发明一个实施例,提供了一种进行声源定位的方法。该方法包含基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量,所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差;评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度,所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差;和至少基于候选位置和相关的相似度估计声源的期望位置。根据本发明另一个实施例,提供一种进行声源定位的设备。该设备包含向量计算器,其基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量,所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差;相似度评价器,其评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度,所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差;和估计器,其至少基于候选位置和相关的相似度估计声源的期望位置。根据本发明另一个实施例,提供一种上面记录有用于使处理器进行声源定位的计算机程序指令的计算机可读介质。计算机程序指令包含用于基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量的装置,所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差;用于评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度的装置,所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差;和用于至少基于候选位置和相关的相似度估计声源的期望位置的装置。下面参考附图详细描述本发明的进一步特性和优点,以及本发明各个实施例的结构和操作。应当注意,本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。


在附图中通过例子图解本发明,但这些例子不对本发明产生限制,图中用类似的附图标记表示类似的元件,其中图I是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图;图2描述了三个心型指向话筒的示例阵列;图3描述了根据本发明一个实施例的进行声源定位的示例方法;图4是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图;图5描述了根据本发明一个实施例的进行声源定位的示例方法;图6是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图;图7描述了根据本发明一个实施例的进行声源定位的示例方法;
图8是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图;图9描述了根据本发明一个实施例的进行声源定位的示例方法;图10图示了通过把第一概率函数和第二概率函数相乘而获得的组合概率函数的示例;图11是图示用于实现本发明的各个方面的示例性系统的框图。
具体实施例方式下面参考附图描述本发明实施例。应当注意,出于清楚的目的,在附图和描述中省略了有关所属技术领域的技术人员知道但是与本发明无关的部分和过程的表示和说明。本领域的技术人员可以理解,本发明的各方面可以被实施为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以一般称为"电路"、"模块"或"系统"。此外,本发明的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上面体现有计算机可读程序代码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如"C"程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中 的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。图I是图示根据本发明一个实施例的用于进行声源定位的示例设备100的框图。设备100可以用于各种应用。在一个应用中,设备100可以检测会议中扬声器的位置信息。这个位置信息能够被用于在会议录制时分离扬声器,或者能够被用于会议的空间首频编码。如图I所示,设备100包含向量计算器101、相似度评价器102和估计器103。向量计算器101被配置成根据通过话筒阵列获得的短时间帧数据计算帧幅度差向量(FADV)。帧幅度差向量反映在记录短时间帧数据期间阵列话筒捕获的幅度之间的差。通常,由于从声源到阵列的不同话筒的距离之间的差异性,或者由于话筒对来自声源的声音信号的灵敏度之间的差异性,各话筒从相同声源捕获的声音信号的幅度是不同的。对于不同声源位置,话筒间幅度差的分布可以是不同的。比如,在单向话筒的阵列的情况下,或者在声源接近全向话筒的阵列的情况下,话筒间幅度差的分布能够显著不同。根据这个观察,话筒间幅度差的分布可以与不同声音位置,至少是那些表现出这种差异性的位置相关联。在这个方面,可以基于由声源引入的话筒间幅度差,根据这种关联来估计声源是否位于这些位置之一。下面会把单向话筒的阵列用作示例来描述本发明的实施例。单向话筒可以是心型指向话筒。图2描述了三个心型指向话筒201、202和203的示例阵列。图形204、205和206分别图示了心型指向话筒201、202和203的方向图。心型指向话筒201、202和203在平面中的取向分别为O度、-120度和-240度的方向。此外,每个对的两个话筒之间的距离可以是I. 15cm。为方便说明,这种心型指向话筒阵列被称为CMA0通常,声源的位置可以是指声源的到达方向(DOA)角或声源的地点(position)。在某些情况下,对于沿DOA方向的不同地点,话筒间幅度差的分布基本相似,因此可以使用DOA来度量位置。取决于具体应用,可以用声源在CMA所位于的平面(称为水平面)中的方位角来表示D0A。在这样的情况下,音频定位问题被简化为角检测问题。然而,通过添加一个面朝上的话筒,可以检测声源在水平面中的方位角和在垂直平面中的仰角。
在下文中,声源在水平面中的方位角被用作位置的示例。需要注意,各种话筒阵列可以应用于本发明的实施例,只要不同位置的话筒间幅度差的分布能够表现出显著的差异性。FADV反映话筒间幅度差。在下文中,FADV被表示成向量(V1, V2,…,vM),其中M表示话筒的数目,Vi表示第i个话筒捕获的幅度。本领域技术人员能够理解,其它格式可以被应用于FADV以反映话筒间幅度差。比如,向量(Vl,V2,…,vM)中的Vi可以表示相对于某个话筒捕获的幅度的幅度差。再例如,FADV可以被表示成向量(d^,dljM, d2j2,…,d2,M,…,(Vu),其中M表示话筒的数目,dy表示第i个话筒和第j个话筒捕获的幅度的差。可以从通过阵列预先记录的音频数据流中,或者从通过阵列实时记录的音频数据流中,提取短时间帧数据。此外,可以在短时间帧数据上乘上窗口。窗口可以是汉明窗口、汉宁窗口等等。假定短时间帧包含N个样本并且话筒数目为M,短时间帧数据能够被存储为具有M行和N列的矩阵X,其中X (n, m)对应于第m个话筒的第η个样本。
权利要求
1.一种进行声源定位的方法,包括 基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量,所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差; 评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度,所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差; 至少基于所述候选位置和相关的相似度估计声源的期望位置。
2.如权利要求I所述的方法,还包括 根据基于时间差的音频定位方法评价多个可能位置中的每个是所述期望位置的可能性,并且 其中所述估计包括基于所述候选位置、所述相似度、所述可能位置和所述可能性来估计所述期望位置。
3.如权利要求2所述的方法,还包括 基于所述可能位置及其可能性导出用于估计所有位置是所述期望位置的概率的第一概率函数; 基于所述候选位置及其相似度导出用于估计所有位置是所述期望位置的概率的第二概率函数;和 基于所述第一概率函数和所述第二概率函数计算用于估计所有位置是所述期望位置的概率的组合概率函数,并且 其中所述估计包括基于所述组合概率函数把具有最高组合概率的位置估计为所述期望位置。
4.如权利要求3所述的方法,其中所述估计包括从所述第一概率函数的一个或多个峰位置中,或者从具有较高可能性的一个或多个可能位置中,选择与具有最大组合概率的位置最接近的位置。
5.如权利要求3所述的方法,其中通过引入第一系数来导出所述第一概率函数,通过引入第二系数来导出第二概率函数,所述第一系数和所述第二系数使得所述组合概率函数对于所述相似度更加敏感。
6.如权利要求2所述的方法,还包括 基于所述可能位置及其可能性,或者基于所述候选位置及其相似度,导出用于估计所有位置是所述期望位置的概率的概率函数,并且 其中,所述估计包括从具有较高相似度的一个或多个所述候选位置中,或者从具有较高可能性的一个或多个所述可能位置中,基于所述概率函数选择具有最高概率的位置。
7.如权利要求2所述的方法,其中所述估计包括 找到一对具有较高相似度的所述候选位置和具有较高可能性的所述可能位置,所述一对候选位置和可能位置彼此最接近;和 选择所述一对候选位置和可能位置之一作为所述期望位置。
8.如权利要求I所述的方法,其中根据下面的方法之一来计算所述帧幅度差向量基于能量的方法和基于特征向量的方法。
9.如权利要求I所述的方法,其中根据下面的方法之一来计算所述帧幅度差向量基于时域样本值的方法和基于频域参数的方法。
10.如权利要求I所述的方法,其中根据下面的方法之一来计算所述帧幅度差向量 基于所述短时间帧数据中各个信道上的平均幅度来计算所述帧幅度差向量; 基于对协方差矩阵的特征向量分析来计算所述帧幅度差向量,所述协方差矩阵包含所述短时间帧数据中各个信道的时域样本值;和 基于所述短时间帧数据中各个信道的频域上的平均幅度来计算所述帧幅度差向量。
11.如权利要求I所述的方法,其中基于所述短时间帧数据中各个信道的谱参数的特征向量分析来计算所述帧幅度差向量。
12.如权利要求11所述的方法,其中所述谱参数是下面类型的参数之一FFT参数、梅尔倒频谱参数和子带能量。
13.如权利要求11所述的方法,其中所述谱参数是复谱参数或幅度谱参数。
14.如权利要求11所述的方法,其中通过对所述信道中的每个的多个子帧进行谱分析来获得所述信道的谱参数,并且其中所述信道的所有样本被组合成所述子帧。
15.如权利要求14所述的方法,其中获得作为第二协方差矩阵的和的第一协方差矩阵,其中每个所述第二协方差矩阵对应于所使用频率区间中的相应一个,并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数,并且 其中,基于对所述第一协方差矩阵的特征向量分析来计算所述帧幅度差向量。
16.如权利要求14所述的方法,其中通过对协方差矩阵的最大特征向量求平均来计算所述帧幅度差向量,其中每个所述协方差矩阵对应于所使用频率区间中的相应一个,并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数。
17.如权利要求11所述的方法,其中通过直接对每个所述信道的所有样本进行谱分析来获得所述信道的谱参数,并且 其中所述帧幅度差向量被计算为协方差矩阵的最大特征向量,其中所述协方差矩阵包含所有所述信道的所有所使用频率区间的谱参数。
18.如权利要求I所述的方法,其中基于所述短时间帧数据及其前面的短时间帧数据自适应地计算所述帧幅度差向量。
19.如权利要求18所述的方法,其中通过下述步骤自适应地计算所述帧幅度差向量 基于所述短时间帧数据计算当前帧幅度差向量,和 把所述当前帧幅度差向量和基于前面的短时间帧数据自适应地计算的历史帧幅度差向量平滑为所述帧幅度差向量,其中所述帧幅度差向量或所述当前帧幅度差向量被用作下一帧幅度差向量的历史帧幅度差向量。
20.如权利要求18所述的方法,其中根据基于特征向量的方法来计算所述帧幅度差向量,并且 其中通过下述步骤来获得用于基于短时间帧数据计算特征向量的最终协方差矩阵 基于所述短时间帧数据导出当前协方差矩阵,和 把所述当前协方差矩阵和基于前面的短时间帧数据的历史协方差矩阵平滑为所述最终协方差矩阵,其中用于基于所述短时间帧数据计算特征向量的所述最终协方差矩阵或所述当前协方差矩阵被用作下一最终协方差矩阵的历史协方差矩阵。
21.如权利要求I所述的方法,还包括通过经由所述阵列分别捕获来自所述候选位置的声音来获得所述多个参考帧幅度差向量。
22.如权利要求I所述的方法,还包括 基于所述阵列的所述话筒对来自所述候选位置的声音的灵敏度来计算所述多个参考帧幅度差向量。
23.如权利要求I所述的方法,其中所述阵列包括三个心型指向话筒,所述三个心型指向话筒在平面中的取向分别为O度、-120度和-240度的方向。
24.一种进行声源定位的设备,包括 向量计算器,其基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量,所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差; 相似度评价器,其评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度,所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差; 估计器,其至少基于所述候选位置和相关的相似度估计声源的期望位置。
25.如权利要求24所述的设备,还包括 可能性评价器,其根据基于时间差的音频定位方法评价多个可能位置中的每个是所述期望位置的可能性,并且 其中所述估计器进一步被配置成基于所述候选位置、所述相似度、所述可能位置和所述可能性来估计所述期望位置。
26.如权利要求25所述的设备,还包括 第一函数生成器,其基于所述可能位置及其可能性导出用于估计所有位置是所述期望位置的概率的第一概率函数; 第二函数生成器,其基于所述候选位置及其相似度导出用于估计所有位置是所述期望位置的概率的第二概率函数;和 第三函数生成器,其基于所述第一概率函数和所述第二概率函数计算用于估计所有位置是所述期望位置的概率的组合概率函数,并且 其中所述估计器进一步被配置成基于所述组合概率函数把具有最高组合概率的位置估计为所述期望位置。
27.如权利要求26所述的设备,其中所述估计器进一步被配置成从所述第一概率函数的一个或多个峰位置中,或者从具有较高可能性的一个或多个可能位置中,选择与具有最大组合概率的位置最接近的位置。
28.如权利要求26所述的设备,其中通过引入第一系数来导出所述第一概率函数,通过引入第二系数来导出第二概率函数,所述第一系数和所述第二系数使得所述组合概率函数对于所述相似度更加敏感。
29.如权利要求25所述的设备,还包括 函数生成器,其基于所述可能位置及其可能性,或者基于所述候选位置及其相似度,导出用于估计所有位置是所述期望位置的概率的概率函数,并且 其中,所述估计器进一步被配置成从具有较高相似度的一个或多个所述候选位置中,或者从具有较高可能性的一个或多个所述可能位置中,基于所述概率函数选择具有最高概率的位置。
30.如权利要求25所述的设备,其中所述估计器进一步被配置成找到一对具有较高相似度的所述候选位置和具有较高可能性的所述可能位置,所述一对候选位置和可能位置彼此最接近,以及选择所述一对候选位置和可能位置之一作为所述期望位置。
31.如权利要求24所述的设备,其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量基于能量的方法和基于特征向量的方法。
32.如权利要求24所述的设备,其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量基于时域样本值的方法和基于频域参数的方法。
33.如权利要求24所述的设备,其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量 基于所述短时间帧数据中各个信道上的平均幅度来计算所述帧幅度差向量; 基于对协方差矩阵的特征向量分析来计算所述帧幅度差向量,所述协方差矩阵包含所述短时间帧数据中各个信道的时域样本值;和 基于所述短时间帧数据中各个信道的频域上的平均幅度来计算所述帧幅度差向量。
34.如权利要求24所述的设备,其中所述向量计算器被配置成基于所述短时间帧数据中各个信道的谱参数的特征向量分析来计算所述帧幅度差向量。
35.如权利要求34所述的设备,其中所述谱参数是下面类型的参数之一FFT参数、梅尔倒频谱参数和子带能量。
36.如权利要求34所述的设备,其中所述谱参数是复谱参数或幅度谱参数。
37.如权利要求34所述的设备,其中所述向量计算器被配置成通过对所述信道中的每个的多个子帧进行谱分析来获得所述信道的谱参数,并且其中所述信道的所有样本被组合成所述子帧。
38.如权利要求37所述的设备,其中所述向量计算器被配置成获得作为第二协方差矩阵的和的第一协方差矩阵,其中每个所述第二协方差矩阵对应于所使用频率区间中的相应一个,并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数,并且 其中,所述向量计算器被配置成基于对所述第一协方差矩阵的特征向量分析来计算所述帧幅度差向量。
39.如权利要求37所述的设备,其中所述向量计算器被配置成通过对协方差矩阵的最大特征向量求平均来计算所述帧幅度差向量,其中每个所述协方差矩阵对应于所使用频率区间中的相应一个,并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数。
40.如权利要求34所述的设备,其中所述向量计算器被配置成通过直接对每个所述信道的所有样本进行谱分析来获得所述信道的谱参数,并且 其中所述向量计算器被配置成把所述帧幅度差向量计算为协方差矩阵的最大特征向量,其中所述协方差矩阵包含所有所述信道的所有所使用频率区间的谱参数。
41.如权利要求24所述的设备,其中所述向量计算器被配置成基于所述短时间帧数据及其前面的短时间帧数据自适应地计算所述帧幅度差向量。
42.如权利要求41所述的设备,其中所述向量计算器被配置成通过下述操作自适应地计算帧幅度差向量基于所述短时间帧数据计算当前帧幅度差向量,和 把所述当前帧幅度差向量和基于前面的短时间帧数据自适应地计算的历史帧幅度差向量平滑为所述帧幅度差向量,其中所述帧幅度差向量或所述当前帧幅度差向量被用作下一帧幅度差向量的历史帧幅度差向量。
43.如权利要求41所述的设备,其中所述向量计算器被配置成根据基于特征向量的方法来计算所述帧幅度差向量,并且 其中所述向量计算器被配置成通过下述操作来获得用于基于短时间帧数据计算特征向量的最终协方差矩阵 基于所述短时间帧数据导出当前协方差矩阵,和 把所述当前协方差矩阵和基于前面的短时间帧数据的历史协方差矩阵平滑为所述最终协方差矩阵,其中用于基于所述短时间帧数据计算特征向量的所述最终协方差矩阵或所述当前协方差矩阵被用作下一最终协方差矩阵的历史协方差矩阵。
44.如权利要求24所述的设备,还包括 参考向量计算器,其基于通过经由所述阵列分别捕获来自所述候选位置的声音而获得的音频数据来计算所述多个参考帧幅度差向量。
45.如权利要求24所述的设备,还包括 参考向量计算器,其基于所述阵列的所述话筒对来自所述候选位置的声音的灵敏度来计算所述多个参考帧幅度差向量。
46.如权利要求24所述的设备,其中所述阵列包括三个心型指向话筒,所述三个心型指向话筒在平面中的取向分别为O度、-120度和-240度的方向。
47.一种计算机可读介质,其上记录有使得处理器能够进行声源定位的计算机程序指令,所述计算机程序指令包括 用于基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量的装置,所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差; 用于评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度的装置,所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差; 用于至少基于所述候选位置和相关的相似度估计声源的期望位置的装置。
48.如权利要求47所述的计算机可读介质,其中所述计算机程序指令还包括 用于根据基于时间差的音频定位方法评价多个可能位置中的每个是所述期望位置的可能性的装置,并且 其中用于估计的装置包括用于基于所述候选位置、所述相似度、所述可能位置和所述可能性来估计所述期望位置的装置。
全文摘要
描述了声源定位设备和方法。基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量。帧幅度差向量反映在记录短时间帧数据期间阵列话筒捕获的幅度之间的差。评价帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度。每个参考帧幅度差向量反映在记录来自多个候选位置之一的声音期间阵列话筒捕获的幅度之间的差。至少基于候选位置和相关的相似度估计声源的期望位置。能够至少基于幅度差来进行声源定位。
文档编号G01S5/18GK102809742SQ20111015773
公开日2012年12月5日 申请日期2011年6月1日 优先权日2011年6月1日
发明者双志伟, 大卫·麦格拉思, 格伦·迪肯斯 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1