声源方向检测装置的制作方法

文档序号:6142913阅读:111来源:国知局
专利名称:声源方向检测装置的制作方法
技术领域
本发明涉及的声源方向检测装置,其特征在于,包括生成单元,对于设置在互相隔开的位置上的两个以上的麦克风所收集的每一个声信号,生成该声信号的至少一个频带中的频谱;检测音确定单元,根据所述频带的频谱,确定求出声源方向的检测音的频谱的时刻部分;以及检测单元,根据检测声源方向的时间单位即时间区间中的所述检测音确定单元确定的时刻部分的频谱在所述麦克风之间的一致程度,求出所述检测音到达所述麦克风的时间差,根据所述时间差、所述麦克风间的距离和音速来求出声源方向并输出,所述检测单元,在为了使所述时间差成为零而调整了来自所述两个以上的麦克风的频谱的时间轴的时候,在由所述检测音确定单元所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
根据上述结构,在检测单元中,频谱在麦克风之间共同存在的时刻部分在计算互相关值时利用的规定的时间区间中所占的比率比规定的阈值大的部分,只在该大的部分输出声源方向。即,为了使检测音到达2个以上麦克风的时间差成为零而调整了频谱的时间轴时,根据2个以上麦克风的共同时刻中存在的检测音的时刻部分的一致程度来求出声源方向,并且仅在共同存在的检测音的时刻部分多的情况下输出声源方向,从而能够避免因噪声的影响而输出错误的方向。求出错误的方向的原因是,因为噪声而被消除的时间区间变多时,声源方向的信赖性丢失,导致检测的准确性降低。
最好是有如下特征,所述检测单元,进一步在调整了来自所述两个以上的麦克风的频谱的时间轴的时候,仅在下列情况下,即对于所有声源方向的候补,由所述检测音确定单元所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
根据上述结构,仅在对于所有方向的候选,2个以上的麦克风共同存在的时刻部分多的情况下输出声源方向,从而,即使在所述共同存在的时刻部分少而不能输出声源方向的方向上存在声源的情况下,也能避免将其他的方向作为声源方向而错误地输出方向。
另外,本发明不仅可以作为包括所述特征单元的声源方向检测装置来实现,也可以将声源方向检测装置所包含的特征单元作为步骤的声源方向检测方法来实现,也可以将声源方向检测方法所包含的特征步骤作为使计算机执行的程序来实现。并且,也可以将该程序记录在CD-ROM(CompactDisc-Read Only Memory)等记录介质或通过因特网等通信网络来传送。
根据本发明的声源方向检测装置,为了使检测音到达2个以上麦克风的时间差成为零而调整了频谱的时间轴的时候,根据2个以上麦克风的共同时刻中存在的检测音的时刻部分的一致程度来求出声源方向,仅在共同存在的检测音的时刻部分多的情况下输出声源方向,从而能够避免由于噪声的影响输出错误的方向。求出错误方向的原因是,由于噪声而被消除的时间区间变多时,声源方向的信赖性丢失,导致检测的准确性降低。进而,仅在对于-90度到+90度为止的所有方向,2个以上的麦克风共同存在的时刻部分多的情况下输出声源方向,从而,即使在所述共同存在的时刻部分少而不能输出声源方向的方向上存在声源的情况下,也能避免将其他的方向作为声源方向而错误地输出方向。



图1是本发明的实施例1涉及的声源方向检测装置的外观图。
图2是示出了本发明的实施例1涉及的声源方向检测装置的全体结构的方框图。
图3是示出了本发明的实施例1涉及的声源方向检测装置的检测音确定部104(k)的方框图。
图4是示出了本发明的实施例1涉及的声源方向检测装置的检测音确定部104(k,j)的方框图。
图5是示出了本发明的实施例1涉及的声源方向检测装置的方向检测部105的方框图。
图6是示出了本发明的实施例1涉及的声源方向检测装置的方向检测部105的方向检测部400(1)的方框图。
图7A是模式性示出了对摩托车声音(检测音)以频率f进行频谱分析的结果的图。
图7B是模式性示出了对背景噪声(噪声)以频率f进行频谱分析的结果的图。
图8是示出本发明的实施例1涉及的声源方向检测装置的工作顺序的流程图。
图9是示出本发明的实施例1涉及的声源方向检测装置的、确定检测音的时刻部分的步骤S601(K)的工作顺序的流程图。
图10是示出本发明的实施例1涉及的声源方向检测装置的、确定检测音的时刻部分的步骤S601(K)中、确定检测音的时刻部分的步骤S601(k,j)的工作顺序的流程图。
图11是示出本发明的实施例1涉及的声源方向检测装置的、确定声源的方向的步骤S602的工作顺序的流程图。
图12是示出本发明的实施例1涉及的声源方向检测装置的、确定声源的方向的步骤S900(1)的、确定声源的方向的步骤S900(1,j)的工作顺序的流程图。
图13是示出了本发明的实施例1涉及的声源方向检测装置的、麦克风设置与声信号100的位置关系的图。
图14是示出了声信号100的声谱图的一个例子的图。
图15是示出了制作声信号100时利用的声音1100(检测音)的声谱图的一个例子的图。
图16是说明确定频谱的方法的一个例子的图。
图17A是说明确定频谱的方法的其他例子的图。
图17B是说明确定频谱的方法的其他例子的图。
图18是说明相似度总和的求出方法的一个例子的图。
图19是示出了从声信号100被提取的声音的声谱图的一个例子的图。
图20A是将求出相似度的总和的时间范围(规定的时间宽度)的、声信号的频谱的相位模式性示出的图。
图20B是将求出相似度的总和的时间范围(规定的时间宽度)的、声信号的频谱的相位模式性示出的图。
图21A是用于说明“时间偏离引起的相位偏离”的图。
图21B是用于说明“时间偏离引起的相位偏离”的图。
图22A是用于说明相位的时间变化成为逆时针方向的结构的图。
图22B是用于说明相位的时间变化成为逆时针方向的结构的图。
图22C是用于说明相位的时间变化成为逆时针方向的结构的图。
图23A是用于说明“时间偏离引起的相位偏离”的图。
图23B是用于说明“时间偏离引起的相位偏离”的图。
图24是说明比率判定部500(1,j)工作中的求出比率的方法的一个例子的图。
图25是说明比率判定部500(1,j)工作中的求出比率的方法的一个例子的图。
图26是说明比率判定部500(1,j)工作中的求出比率的方法的一个例子的图。
图27是示出了对于声源方向的互相关值的关系的一个例子的图。
图28是模式性示出了计算声源方向的方法的图。
图29是示出了本发明的实施例1涉及的声源方向检测装置中,确定了声源方向的结果的一个例子的图。
图30是示出了只有声音1100的理想声源方向的图。
图31是示出了不利用比率判定部500(1,j)的情况下,确定了声源方向的结果的一个例子的图。
图32是示出了在比率判定部500(1,j),对于所有方向没有满足比率的条件而确定了声源方向的情况下的结果的一个例子的图。
图33是示出了在对检测音确定部302(k,j)利用的第1阈值的值进行了优化的情况下,确定了声源方向的结果的一个例子的图。
图34是说明根据麦克风的各个组合所确定的声源方向,来确定声源方向的方法的一个例子的图。
图35是示出了根据3个麦克风求出声源位置的方法的一个例子的图。
图36是示出了根据3个麦克风计算比率的方法的一个例子的图。
图37是对制作频谱的相位成分的直方图的方法的一个例子进行说明的图。
图38A是示出频谱确定部300(k,j)确定的频谱的一个例子的图。
图38B是示出频谱确定部300(k,j)确定的频谱的相位成分的直方图的一个例子的图。
图39是示出从相似度的空间中确定相似度为阈值以上的频谱群的方法的一个例子的图。
图40是示出了本发明的实施例2涉及的声源方向检测装置的全体结构的方框图。
图41是示出了本发明的实施例2涉及的声源方向检测装置中、相位校正部2801(k)和检测音确定部2802(k)的方框图。
图42是示出了本发明的实施例2涉及的声源方向检测装置的检测音确定部2802(k,j)的方框图。
图43是示出了本发明的实施例2涉及的声源方向检测装置的工作顺序的流程图。
图44是示出本发明的实施例2涉及的声源方向检测装置中、校正相位偏离的步骤S3100(k,j)以及确定检测音的时刻部分的步骤S3101(k,j)的工作顺序的流程图。
图45是示出本发明的实施例2涉及的声源方向检测装置中、确定检测音的时刻部分的步骤S3101(k,j)的工作顺序的流程图。
图46是说明条件即相位以等速度且在1/f的时间间隔中旋转360度的图。
图47是说明对时间偏离引起的相位偏离进行校正的方法的一个例子的图。
图48是说明对时间偏离引起的相位偏离进行校正的方法的一个例子的图。
图49A是说明对时间偏离引起的相位偏离进行校正的方法的一个例子的图。
图49B是说明对时间偏离引起的相位偏离进行校正的方法的一个例子的图。
图50是说明对时间偏离引起的相位偏离进行校正的方法的一个例子的图。
图51是对制作频谱的相位成分的直方图的方法的一个例子进行说明的图。
图52是示出了本发明的实施例1涉及的其他噪声消除装置的全体结构的方框图。
图53是示出了在声信号2401的200Hz中的频谱的时间波形的图。
图54是示出了在制作声信号2401时利用的200Hz正弦波的频谱的时间波形的图。
图55是示出了本发明的实施例1涉及的噪声消除装置中,消除噪声的步骤S301(j)的工作顺序的流程图。
图56是示出了从声信号2401提取的200Hz中的频谱的时间波形的图。
图57是用于考察声信号的分析结果的的图。
图58是用于考察声信号的分析结果的的图。
图59是示出分析摩托车声音的结果的图。
图60A是模式性示出了规定的时间宽度中声信号的相位的图。
图60B是模式性示出了规定的时间宽度中声信号的相位的图。
符号说明 100、2401声信号 101a计算机 101、2800声源方向检测装置 102(k)(k=1~3)、4101(1)、4101(2)麦克风 103(k)(k=1~3)快速傅立叶变换分析部(FFT分析部) 104(k)(k=1~3)、104(k,j)(k=1~3,j=1~M)、113(j)、302(k,j)(k=1~3,j=1~M)、3002(k,j)(k=1~3,j=1~M)、2802(k)(k=1~3)、2802(k,j)(k=1~3,j=1~M)检测音确定部 105、400(1)、400(2)、400(3)、401、400(1,j)(j=1~M)方向检测部 106声源方向 110噪声消除装置 300(k,j)(k=1~3,j=1~M)、3000(k,j)(k=1~3,j=1~M)频谱确定部 301(k,j)(k=1~3,j=1~M)、3001(k,j)(k=1~3,j=1~M)相似度计算部 500(1,j)(j=1~M)比率判定部 501(1,j)(j=1~M)相关计算部 502(1,j)(j=1~M)方向确定部 503(1,j)(j=1~M)时间区间确定部 1100声音 1101~1103白噪声 1106离散傅立叶变换分析部(DFT分析部) 2408输出谱 2801(k)(k=1~3)、2801(k,j)(k=1~3,j=1~M)相位校正部 4100声源
具体实施例方式 下面参照附图来说明本发明的实施例。
(实施例1) 图1是本发明的实施例1涉及的声源方向检测装置的外观图。
声源方向检测装置包括连接有3个麦克风102(k)(k=1~3)的计算机101a。
图2~6是示出了本发明的实施例1涉及的音源方向检测装置的结构的方框图。
在图2中,声源方向检测装置101包括3个麦克风102(k)(k=1~3)、与各麦克风对应的3个快速傅立叶变换分析部(FFT分析部)103(k)(k=1~3)(相当于分析单元)、与各麦克风对应的3个检测音确定部104(k)(k=1~3)(相当于检测音确定单元)、以及方向检测部105(相当于检测单元)。FFT分析部103(k)(k=1~3)、检测音确定部104(k)(k=1~3)、以及方向检测部105,通过执行在计算机101a的处理器上用于实现各处理部功能的程序来实现。还有,各种数据被存储在计算机101a的存储器上。
麦克风102(k)(k=1~3)将声信号100作为输入来接收。
FFT分析部103(k)(k=1~3),针对对应的麦克风(k的值相同)作为输入而接收的声信号100进行快速傅立叶变换处理,求出含有声信号100的相位成分的频谱(与频率信号对应)。下面,将FFT分析部103(k)(k=1~3)求出的频谱的频带数量作为M,指定那些频带的编号用符号j(j=1~M)来表示。
如图3所示,检测音确定部104(k)(k=1~3)包括M个检测音确定部104(k,j)(j=1~M)。检测音确定部104(k)(k=1~3),针对对应的FFT分析部103(k)(k的值相同)求出的频谱,以频带j(j=1~M)为单位,用检测音确定部104(k,j)(k=1~3,j=1~M)来确定检测音的时刻部分。下面,对第j个频带是f(例如,中心频率为f)的情况进行说明。
检测音确定部104(k,j),利用从以1/f为时间间隔的时刻中所选择的多个时刻的频谱,求出所述多个时刻中作为分析对象的时刻的频谱和所述多个时刻中至少与所述时刻不同的多个时刻的频谱的相似度的总和。还有,检测音确定部104(k,j),通过确定所述相似度的总和为第1阈值以上的作为所述分析对象的时刻,从而确定检测音的时刻部分。
方向检测部105,确定求出声源方向的时间区间(在该时间区间可求出按时间平均化的声源的方向、),利用在该被确定的时间区间中的检测音确定部104(k)(k=1~3)确定的时刻部分的频谱,求出在由3个麦克风所得到的麦克风的组合中(麦克风102(1)和麦克风102(2)、麦克风102(2)和麦克风102(3)、麦克风102(1)和麦克风102(3)),与各个麦克风相对应的被确定的频谱共同存在的部分的频谱之间的一致程度。在这里作为一致程度利用互相关值。方向检测部105,针对各个麦克风的组合,根据互相关值的局部极大值(local maximum)求出到达时间差。方向检测部105,根据被求出的到达时间差和麦克风之间的间距来求出声源方向。方向检测部105,针对所有麦克风的组合,为了使到达时间差成为零而调整了来自2个麦克风的频谱的时间轴的时候,由检测音确定部被确定的时刻部分中所述麦克风之间共同时刻中存在的部分,在确定声源方向的时间区间中所占的比率大于规定的阈值的情况下,输出表示声源方向106的信息。
该例子中作为一致程度利用了互相关值,不过,作为一致程度也可以利用频谱间的差分误差。还有,这个例子中是从互相关值的局部极大值求出到达时间差,不过,也可以从以下值求出到达时间差互相关值的最大值、阈值以上的互相关值的局部极大值或者最大值、差分误差的局部极小值(local minimum)、差分误差的最小值、阈值以下的差分误差的局部极小值或者最小值。
图4是示出检测音确定部104(k,j)(k=1~3,j=1~M)的结构的方框图。检测音确定部104(k,j)(k=1~3,j=1~M)包括频谱确定部300(k,j)(k=1~3,j=1~M)、相似度计算部301(k,j)(k=1~3,j=1~M)、以及检测音确定部302(k,j)(k=1~3,j=1~M)。
图7A及图7B是说明本实施例中确定检测音的时刻部分的方法的要点的概念图。图7A是模式性示出了对摩托车声音(相当于检测音)以频率f进行频谱分析的结果的图。图7B是模式性示出了对背景噪声(相当于噪声)以频率f进行频谱分析的结果的图。两个图中横轴都是时间轴、纵轴都是频率轴。如图7A所示,由于摩托车声音的频率变化等的影响,频率波形的振幅的大小有所变化,但是,频率波形的相位的时间变化,按照与分析的频率f对应的周期即1/f的间隔,以等角速度从0度到360度为止变化,并且有规则地重复这样的变化。例如,100Hz的频率波形的相位在10ms间隔之间旋转360度,200Hz的频率波形的相位在5ms间隔之间旋转360度。另一方面,如图7B所示,背景噪声等白噪声的频率波形的相位的时间变化是不规则的。还有,因为混合音而失真的噪声部分,其相位的时间变化混乱,也是不规则的。如此,通过消除频率波形的相位的时间变化不规则、且由时间和频率所定义的区域,就可以消除噪声。该处理在频率分析之前的时间波形中,不管提取的声音是周期的还是非周期的,都可以同样处理。
频谱确定部300(k,j)确定求相似度时利用的频谱。相似度计算部301(k,j),利用频谱确定部300(k,j)确定的频谱来计算相似度的总和。检测音确定部302(k,j),将相似度计算部301(k,j)算出的相似度的总和在第1阈值以上的频谱的时刻部分,作为检测音的时刻部分来确定。
图5是示出方向检测部105结构的方框图。方向检测部105包括方向检测部400(1)、方向检测部400(2)、方向检测部400(3)、以及方向检测部401。
方向检测部400(1)利用检测音确定部104(1)确定的时刻部分的频谱和检测音确定部104(2)确定的时刻部分的频谱,求出输入到麦克风102(1)和麦克风102(2)上的声信号的声源的方向。
方向检测部400(2)利用检测音确定部104(2)确定的时刻部分的频谱和检测音确定部104(3)确定的时刻部分的频谱,求出输入到麦克风102(2)和麦克风102(3)上的声信号的声源的方向。
方向检测部400(3)利用检测音确定部104(1)确定的时刻部分的频谱和检测音确定部104(3、)确定的时刻部分的频谱,求出输入到麦克风102(1)和麦克风102(3)上的声信号的声源的方向。
方向检测部401,针对所有麦克风的组合,为了使到达时间差成为零而调整了来自2个麦克风的频谱的时间轴的时候,由检测音确定部所确定的时刻部分中所述麦克风之间共同时刻中存在的部分,在确定声源方向的时间区间中所占的比率大于规定的阈值的情况下,从方向检测部400(1)、方向检测部400(2)、方向检测部400(3)所求出的3个声源的方向中求出声源的方向,输出声源方向106。
图6是示出方向检测部400(1)的结构的方框图。方向检测部400(1)包括方向检测部400(1,j)(j=1~M)。方向检测部400(1,j)包括时间区间确定部503(1,j)、比率判定部500(1,j)、相关计算部501(1,j)、以及方向确定部502(1,j)。方向检测部400(2)和方向检测部400(3)的构成与方向检测部400(1)的构成相同,所以不重复说明。
时间区间确定部503(1,j)确定求出声源方向的时间区间(在这个时间区间中可求出按时间平均化的声源的方向)。
比率判定部500(1,j),利用检测音确定部104(1)确定的时刻部分的第j个频带的频谱、以及检测音确定部104(2)确定的时刻部分的第j个频带的频谱,判定与各麦克风对应的被确定的频谱共同存在的部分在计算互相关值时利用的时间区间确定部503(1,j)确定的时间区间中的比率是否比第2阈值还小。
相关计算部501(1,j),在比率判定部500(1,j)判定为所述比率是第2阈值以上时,计算互相关值,该互相关值是检测音确定部104(1)确定的时刻部分的第j个频带的频谱和时间区间确定部503(1,j)确定的时间区间中检测音确定部104(2)确定的时刻部分的第j个频带的频谱共同存在的部分的频谱之间的互相关值。
方向确定部502(1,j),根据相关计算部501(1,j)算出的互相关值的局部极大值求出到达时间差,根据求出的到达时间差和麦克风之间的间距来求出声源方向。但是,在此,比率判定部500(1,j)向方向确定部502(1,j)发送方向指定信号,以便针对与-90度到+90度为止的所有声源方向对应的互相关值,仅在所述比率是所述第2阈值以上的情况下确定声源的方向。方向确定部502(1,j)在接收了来自比率判定部500(1,j)的方向确定信号时,求出声源的方向。
其次,对如所述构成的声源方向检测装置101的工作进行说明。
图8~图12是示出声源方向检测装置101的工作顺序的流程图。
图13示出本实施例利用的3个麦克风的设置和声信号100的方向。在此说明的一个例子是,作为声信号100利用声音1100(相当于检测音)和白噪声(相当于噪声)(白噪声1101、白噪声1102、白噪声1103)的混合音(在计算机上混合制作的声音)。
在3个麦克风的布置中,将麦克风102(1)和麦克风102(2)的间距作为L=10cm,麦克风102(2)和麦克风102(3)的间距作为L=10cm,麦克风102(1)和麦克风102(3)的间距作为L=14cm。连接麦克风102(1)和麦克风102(2)的直线和连接麦克风102(2)和麦克风102(3)的直线垂直相交。
从与连接麦克风102(1)和麦克风102(2)的直线垂直相交的直线到麦克风102(1)侧为正的角度,声音1100(检测音)的声源方向是-30度的方向。而且,从与连接麦克风102(2)和麦克风102(3)的直线垂直相交的直线到麦克风102(2)侧作为正的角度,声音1100(检测音)的声源方向是+60度的方向。
从与连接麦克风102(1)和麦克风102(2)的直线垂直相交的直线到麦克风102(1)侧作为正的角度,白噪声1101(噪声)的声源方向是-50度的方向。从与连接麦克风102(1)和麦克风102(2)的直线垂直相交的直线到麦克风102(1)侧作为正的角度,白噪声1102(噪声)的声源方向是+30度的方向。从与连接麦克风102(1)和麦克风102(2)的直线垂直相交的直线到麦克风102(1)侧作为正的角度,白噪声1103(噪声)的声源方向是+50度的方向。
在此目的在于,从声信号100消除白噪声1101、白噪声1102以及白噪声1103,确定声音1100的声源的方向。
图14示出这个例子中麦克风102(1)的声信号100的声谱图的一个例子。横轴是时间轴(秒),纵轴是频率轴(Hz)。颜色的浓度显示频谱的大小,颜色越深表示频谱的大小越大。在此,表示的是在50Hz~1000Hz的频率范围内0秒~5秒的声谱图。其中省略了频谱的相位成分的表示。
图15示出在制作图14示出的声信号100时利用的声音1100的声谱图。表示方法与图14相同,所以不重复说明。
通过图14和图15,在声信号100中,可以仅观测声音1100的频谱的大小大的部分。并且,可以知道,白噪声(白噪声1101、白噪声1102以及白噪声1103相加的声音)的频谱的大小是比声音1100的频谱的大小大的值。
首先,FFT分析部103(k)(k=1~3),针对对应的麦克风102(k)(k的值相同)所输入的声信号100,实施快速傅立叶变换处理,求出包含声信号100的相位成分的频谱(步骤S600(k)(k=1~3))。此例子中,根据快速傅立叶变换处理求出在复空间上的频谱。此例子中的快速傅立叶变换处理,对采样频率=16000Hz的声信号100乘上时间窗宽度ΔT=64ms(1024pt)的汉宁窗(Hanning window),进行快速傅立叶变换处理。而且,在时间轴方向上进行1pt(0.0625ms)的时间位移的同时,求各时刻的频谱。图14中只示出了该处理结果的麦克风102(1)的频谱的大小。
其次,检测音确定部104(k)(k=1~3),针对对应的FFT分析部103(k)(k的值相同)求出的频谱,以频带j(j=1~M)为单位,用检测音确定部104(k,j)(k=1~3,j=1~M)来确定检测音的时刻部分(步骤S601(k),步骤S601(k,j)(k=1~3,j=1~M))。此后,只对关于第j个频带进行说明。这个例子中,第j个频带的频率为f。
检测音确定部104(k,j),利用从以1/f为时间间隔的时刻中所选择的多个时刻的频谱,确定所述多个时刻中作为分析对象的时刻的频谱和所述多个时刻中至少与所述时刻不同的多个时刻的频谱的相似度的总和为第1阈值以上的作为分析对象的时刻(步骤S601(k,j)(j=1~M))。在此说明的例子是频率f=500Hz的情况。
图16(b)模式性示出了图16(a)示出的声信号100中,包含频率f=500Hz的相位成分的频谱。图16(a)与图14相同,在图16(b)中,平行轴是时间轴(秒),垂直平面的两个轴表示频谱的实部和虚部。在这个例子中频率f=500Hz,所以1/f=2ms。
首先,频谱确定部300(k,j),确定从1/f时间间隔的时刻所选择的多个时刻的频谱(步骤S800(k,j))。
图16(b)中,从以1/f为时间间隔的时刻中被确定的多个时刻的频谱的位置,用白点来示出。在此,如图16(b)所示,从以1/f=2ms为时间间隔的时刻被选择的所有时刻的频谱被确定。即,以1/f=2ms为时间间隔的时刻的频谱被确定。
在此,在图17A和图17B示出其他的频谱的确定方法。表示的方法与图16(b)相同,故不重复说明。图17A示出了从1/f时间间隔的时刻,确定1/f×N(N=2)时间间隔的时刻的频谱的一个例子。而且,图17B示出了从1/f时间间隔的时刻,确定随机选择的时刻的频谱的一个例子。
在此,频谱确定部300(k,j),也确定相似度计算部301(k,j)在计算相似度的总和时利用的频谱的时间范围,关于时间范围的确定方法的说明,下面结合对相似度计算部301(k,j)的说明来说明。
其次,相似度计算部301(k,j),利用频谱确定部300(k,j)确定的频谱来计算相似度的总和(步骤S801(k,j))。在此,作为相似度利用相关值。
图18示出相似度的总和的求出方法的一个例子。在图18表示的方法中,不重复与图16(b)相同部分的说明。在图18中,将作为分析对象的时刻的频谱用黑点来表示,与作为分析对象的时刻不同的多个时刻中被确定的频谱用白点来表示。
在这个例子中,从作为分析对象的时刻(黑点的时刻)相隔±10ms以内的时刻(时间宽度为20ms)中存在的以1/f(=2ms)为时间间隔的时刻中,将除了作为分析对象时刻的时刻(白点的时刻)的频谱,确定为与分析对象的频谱求相似度的频谱。在此,将计算相似度的总和时利用的频谱的时间范围,设成从作为分析对象的时刻开始相隔±10ms以内的时刻(时间宽度为20ms),不过,该值是根据在此想提取的声信号即声音的特性,实验性地求出的值。
下面说明相似度的总和的计算方法。以下,将频谱的实部用 (数式1) xk(k=-K,...,-2,-1,0,1,2,...,K) 来表示,频谱的虚部用 (数式2) yk(k=-K,...,-2,-1,0,1,2,...,K) 来表示。在此符号k是指定频谱的编号。k=0的频谱表示作为分析对象的时刻的频谱。除零以外的k(k=-K,...,-2,-1,1,2,...K的)的频谱表示,用于与作为分析对象的时刻的频谱求出相似度的频谱(参考图18)。相似度的总和S用 (数式3) 来计算。
下面示出其他相似度的总和S的计算方法。在相关值的计算中,以总和的相似度数来规范化的方法 (数式4) 又加上与作为分析对象的时刻的频谱的相似度的方法 (数式5) 利用以频谱的大小规范化的相关值的方法 (数式6) 利用频谱的距离的倒数的方法 (数式7) 利用相位成分的距离的倒数的方法 (数式8) 等。
在此, (数式9) α 是为了使S不扩散到无限大,而预先规定的小的值。
最后,检测音确定部302(k,j),将相似度的总和S为第1阈值以上的作为分析对象的频谱的时刻部分,作为检测音的时刻部分来确定(步骤S802(k,j))。
第1阈值以A来表示时,检测音确定部302(k,j),确定满足 (数式10) S≥A 的条件的时刻的频谱。该例子中,将第1阈值A的值设为数式11。
(数式11) A=1010.0 该值是根据声信号100的声压级等实验性地求出的值。作为阈值A的设定方法可举出以下方法,按照提取的声音的动态范围和噪声的动态范围设定阈值A,以便只有噪声被消除。并且,设定阈值A的方法还有这些,按照应用程序,将阈值A设定为,允许想提取的声音(稍微失真)多少被消除,也要完全消除噪声的值;相反,将阈值A设定为,允许噪声不完全消除而完整地提取想提取的声音(包含稍微失真的声音)的值。在时间轴方向上进行1pt(0.0625ms)的时间位移的同时,对求出的所有时刻的频谱进行该处理。
图19示出从图14示出的声信号100所提取的声音1100的声谱图。表示方法与图14相同,所以不重复说明。图19与图14、图15比较可知,从声信号100中,消除了因白噪声(白噪声1101、白噪声1102、白噪声1103)和混合声而大大失真的噪声部分,而且提取了声音1100。
在此,对作为噪声被消除的声信号的频谱的相位进行考察。图20A和图20B,模式性地示出了在求相似度总和的时间范围(规定的时间宽)中的声信号的频谱的相位。横轴是时间,纵轴是相位。黑点表示作为分析对象的频谱的相位,白点表示与作为分析对象的频谱求相似度的频谱的相位。在此,示出以1/f为时间间隔的频谱的相位。如图20A所示,求出相似度的总和等于求出与以下直线的相似度的总和,该直线是对于通过作为分析对象的频谱的相位的时间,具有2πf的倾斜的直线(在1/f的时间间隔成为平行的值)。图20A中,因为求相似度的频谱的相位集中在直线的附近,相似度的总和比阈值A大,所以不会作为噪声被消除。而且,如图20B,对于通过作为分析对象的频谱的相位的时间具有2πf的倾斜的直线附近,几乎不存在求相似度的频谱时,相似度的总和为阈值A以下,所以作为噪声被消除。
根据所述结构,检测音确定部104(k)(k=1~3)确定相位成分失真的噪声部分(因为背景噪声等白噪声部分,或者混合声而失真的噪声部分),从而能够准确地确定检测音的时刻部分。
并且有这样的效果,通过利用不发生时间偏差引起的相位偏差的1/f时间间隔的时刻的频谱,来求相似度的总和,所以不需要校正相位偏差,能够减少计算量。即,以ψ(t)-(2πft)来定义的空间的相位的相似度,可以在以ψ(t)来定义的空间中求出。因此有这样的效果,相似度的计算方法变得简单,能够减少用于校正相位的的计算量。在此,对“时间偏差引起的相位偏差”进行说明。如同上述利用图7A的说明,假设作为提取对象的声信号的频率f的频谱,相位以等速度且在1/f的时间间隔之间旋转360度。因此,时间有变化时,相位也有变化。
图21A示出,进行频谱分析时叠加到声信号中的离散傅立叶变换(DFTDiscrete Fourier Transform)的波形。实部是余弦波形,虚部是负正弦波形。在此,对频率f的信号进行分析。在声信号为频率f的正弦波时,进行频谱分析时的频谱的相位的时间变化为如图21B所示是逆时针方向。此时,横轴是实部,纵轴是虚部。将逆时针方向的相位作为正时,相位在1/f的时间增加2π(弧度)。而且,也可以说相位针对时间变化以2πf的倾斜而变化。用图22A~图22C,说明相位的时间变化成为逆时针方向的结构。图22A示出声信号(频率f的正弦波)。在这里把声信号的振幅的大小作为1。图22B示出进行频谱分析时,叠加到声信号中的离散傅立叶变换的波形(频率f)。实线示出实部的余弦波形,虚线示出虚部的负正弦波形。图22C示出将图22A的声信号和图22B的离散傅立叶变换的波形叠加时的值的符号。通过图22C可知,时刻为(t1~t2)时,相位变为在图21B的第1象限,时刻为(t2~t3)时,相位变为在图21B的第2象限,时刻为(t3~t4)时,相位变为在图21B的第3象限,时刻为(t4~t5)时,相位变为在图21B的第4象限。由此可知,相位的时间变化成为逆时针方向。
在此进行补充,如图23A,将横轴作为虚部,将纵轴作为实部,在这样的特殊情况下,相位的增减倒转,相位对于时间变化以(-2πf)的倾斜来变化,不过,这里对图21B的轴进行了变更。而且,如图23B,对于进行频谱分析时叠加进去的波形,将实部作为余弦波形,将虚部作为正弦波形,在这样的特殊情况下,相位的增减倒转,相位对于时间变化以(-2πf)的倾斜来变化,不过,这里校正了实部和虚部的符号,以便符合图21A的频谱分析的结果,在这个前提下进行说明。
上述现象称为“时间偏差引起的相位偏差”。然而,因为在1/f的时间间隔之间相位转一周,可以认为1/f时间间隔的时刻的声信号的频谱具有相同的相位,所以没有必要校正相位的偏差。
而且,作为相似度利用相关值,从而可以不注重频谱的大小偏离就能判定相位偏差。因此,有这样的效果,即使对于频谱的大小小的声信号,也能确定相位成分失真的噪声部分。
其次,方向检测部105,利用被消除了检测音确定部104(k)(k=1~3)确定的时刻部分的噪声的频谱,在由3个麦克风而得到的麦克风的组合(麦克风102(1)和麦克风102(2)、麦克风102(2)和麦克风102(3)、麦克风102(1)和麦克风102(3))中,计算与各个麦克风对应的被确定的频谱共同存在的部分的频谱之间的互相关值。方向检测部105在各个麦克风的组合中,根据互相关值的局部极大值求出到达时间差,根据被求出的到达时间差和麦克风之间的间距求出声源方向,并且针对所有麦克风的组合,为了使到达时间差成为零而调整了来自2个麦克风的频谱的时间轴的时候,检测音确定部所确定的时刻部分中所述麦克风之间共同时刻中存在的部分,在确定声源方向的时间区间所占的比率大于规定的阈值的情况下,输出示出声源方向106的信息(步骤S602)。
首先,方向检测部105,求出由3个麦克风而得到的麦克风的组合中每一个组合的声源的方向(步骤S900(1),步骤S900(2),步骤S900(3))。在此,作为麦克风的组合,选择麦克风102(1)和麦克风102(2)的组合来进行说明(步骤S900(1))。对于其他的组合(与步骤S900(2)和步骤S900(3)对应),因为进行的处理相同,所以不重复说明。
首先,时间区间确定部503(1,j),确定求出声源方向的时间区间(在该时间区间可求出按时间平均化的声源的方向)(步骤S1003(1,j))。可以根据确定声源方向的声源的移动速度来决定所述时间区间。此时,移动速度快的情况下,需要设定短的时间区间。而且,设定大的时间区间时,用于求出声源方向的频谱的数据量增加,所以可以求出稳定的声源方向。因此,在可容许的范围内最好是设定长的时间区间。
其次,比率判定部500(1,j),用检测音确定部104(1)确定的时刻部分的第j个频带的频谱和检测音确定部104(2)确定的时刻部分的第j个频带的频谱进行判定,判定与各个麦克风对应的被确定的频谱共同存在的部分在互相关值的计算中利用的时间区间确定部503(1,j)确定的时间区间中所占的比率是否比第2的阈值小(步骤S1000(1,j))。
图24~图26示出判定方法的一个例子,判定与各个麦克风对应的被确定的频谱共同存在的部分在互相关值的计算中利用的时间区间中所占的比率,是否比第2的阈值小的方法。此例子中,设定第2的阈值=100%。
图24模式性示出了与麦克风102(1)对应的检测音确定部104(1)确定的时刻部分的第j个频带的频谱,和与麦克风102(2)对应的检测音确定部104(2)确定的时刻部分的第j个频带的频谱。横轴是时间轴,纵轴示出频谱的实部或者虚部的振幅值。斜线的部分表示噪声部分。在此,将互相关值的计算中利用的时间区间设为ΔTA。而且,麦克风之间的到达时间差设为τ。
图25示出了与图24中的与麦克风102(1)对应的频谱的时间轴相比较,将与麦克风102(2)对应的频谱的时间轴错开了到达时间差τ。表示的方法与图24一样,所以不重复说明。
图26是图25中的与麦克风102(1)对应的频谱和与麦克风102(2)对应的频谱共同存在的部分的时间区间的总和作为ΔTP来表示的图。在图26划有横线的部分的时间区间的总和是ΔTP。ΔTP是错开了到达时间差τ来调整时间轴的时候,频谱没有被消除,与麦克风102(1)对应的频谱和与麦克风102(2)对应的频谱在同一时刻共同留下的部分的时间区间的总和。
并且,比率判定部500(1,j)判定(ΔTP/ΔTA)×100%是否比第2阈值(=100%)还小。
其次,相关计算部501(1,j),在比率判定部500(1,j)判定为(ΔTP/ΔTA)×100%是第2阈值(=100%)以上的时候,计算检测音确定部104(1)确定的时刻部分的第j个频带的频谱和检测音确定部104(2)确定的时刻部分的第j个频带的频谱中,共同存在的部分的频谱之间的互相关值(步骤S1001(1,j))。另外,一边使到达时间差τ发生变化,一边按每个到达时间差τ计算互相关值。
在此,共同存在的部分的与麦克风102(1)对应的频谱的实部用数式12来表示, (数式12) xk1 与麦克风102(1)对应的频谱的虚部用数式13来表示, (数式13) yk1 共同存在的部分的,与麦克风102(2)对应的频谱的实部用数式14来表示, (数式14) xk2 与麦克风102(2)对应的频谱的虚部用数式15来表示, (数式15) yk2 在此符号k是指定频谱的时刻的编号。并且用以下数式计算互相关值H。
(数式16) 在此,示出如下其他互相关值H的计算方法。以总和的时刻的数K来规范化的方法 (数式17) ,以及以频谱的大小规范化的方法 (数式18) 等。
最后,方向确定部502(1,j),将与相关计算部501(1,j)算出的互相关值对应的声源的方向作为声源方向的候补,根据互相关值的局部极大值求出到达时间差,并根据求出的到达时间差和麦克风之间的间距求出声源方向。但是,在这里,比率判定部500(1,j),向方向确定部502(1,j)发送方向确定信号,以便针对与从-90度到+90度的所有声源的方向对应的互相关值,仅在所述比率是所述第2阈值以上的时候求出声源的方向。方向确定部502(1,j),在接收了来自比率判定部500(1,j)的方向确定信号的时候求出声源的方向(步骤S1002(1,j))。
在图27示出如下例子,设声源的方向在从-90度到+90度的范围内,以5度为单位使声源的方向发生变化的情况下的互相关值的一个例子。另外,如上所述,实际上是,一边使到达时间差τ发生变化,一边求出互相关值。横轴示出声源的方向(度),纵轴示出互相关值的对数值。此例子中,在-30度的方向上存在局部极大值。即表示,根据与互相关值的局部极大值对应的到达时间差和麦克风之间的间距所求出的声源方向是-30度。这表示,对于从-90度到+90度的范围中以5度为单位的所有方向,比率为第2阈值以上,互相关值已被算出。
以下示出根据到达时间差τ和麦克风之间的间距L来计算声源方向Θ的方法。图28是模式性示出计算声源方向的方法的图。在此,音速表示成C,声源方向表示成Θ时, (数式19) Θ=arcsin(τ×C/L) 的关系式成立,利用该关系可以由到达时间差求出声源4100的方向。在此,L是麦克风的间距(麦克风4101(1)和麦克风4101(2)的距离),τ是麦克风之间的到达时间差。
在图29示出在该例子中确定了声源的方向的结果。横轴是时间轴(秒),纵轴是频率轴(Hz)。颜色的浓度表示声源的方向,浅色是-90度的方向,深色是+90度的方向。空白部分是没有确定声源的方向的部分。图29的下方示出声源的方向和浓度的关系。在此,示出了50Hz~1000Hz的频率范围的0秒~5秒的声源的方向。
图30示出了只将声音1100作为声信号100输入并进行处理的情况下的理想的声源的方向。表示方法因为与图29相同,所以不重复说明。比较图30和图15可知,对频谱大小小的部分也示出了声源的方向。
图31示出了在方向检测部105中不利用比率判定部500(1,j)(j=1~M),没有考虑所述比率和第2阈值的关系的情况下的声源的方向。表示方法因为与图29相同,所以不重复说明。比较图31和图30可知,噪声部分的影响非常大,确定了与声音1100的声源方向不一样的方向。
根据图29和图30和图31可知,通过利用比率判定部500(1,j)(j=1~M)考虑所述比率和第2阈值的关系,可以大大减少噪声部分的影响,并求出声音1100的声源的方向。
图32示出方向检测部105的比率判定部500(1,j)(j=1~M)中没有设置以下条件的情况下的根据本发明的声源的方向,所述条件是,对于与所有声源的方向对应的互相关值,仅在所述比率是所述第2阈值以上的情况下求出声源的方向。表示方法因为与图29相同,所以不重复说明。比较图32和图31可知,利用比率判定部500(1,j)(j=1~M)考虑所述比率和第2阈值的关系,可以大大减少噪声部分的影响,并求出声音1100的声源的方向。
在此,比较图29和图31可知,在比率判定部500(1,j)中设定如下条件,可以大大减少噪声部分的影响,并求出声音1100的声源的方向,所述条件是对于与所有声源的方向对应的互相关值,仅在所述比率是所述第2阈值以上的情况下求出声源的方向(参考图29和图31中的被圆圈包围的部分)。
图33示出优化检测音确定部104(k)的检测音确定部302(k,j)利用的第1阈值的值,作为 (数式20) A=1011.5 的情况下的声源的方向。表示方法与图29相同,所以不重复说明。根据图33可知,在第1阈值的值被优化的情况下,可以进一步大大减少噪声部分的影响,并求出声音1100的声源的方向。
最后,方向检测部401,根据方向检测部400(1)求出的声源的方向、方向检测部400(2)求出的声源的方向、方向检测部400(3)求出的声源的方向,求出声源的方向(步骤S901)。此时,在方向检测部400(1)和方向检测部400(2)和方向检测部400(3)的所有方向检测部中,声源方向被求出的情况下,方向检测部401求出声源方向并输出。另外,作为其他方法,方向检测部401,可以利用由一部分方向检测部求出的声源方向来求出声源方向。而且,方向检测部401,在没有在所有方向检测部中求出声源方向的情况下,也可以利用由一部分方向检测部求出的声源方向来求出声源方向。
图34示出根据方向检测部400(1)求出的声源的方向、方向检测部400(2)求出的声源的方向、方向检测部400(3)求出的声源的方向求出声源方向的方法的一个例子。根据确定的3个声源的方向以及麦克风102(1)和麦克风102(2)和麦克风102(3)的布置,可以求出声音1100的声源的方向。
根据上述结构,方向检测部105,在与时间轴调整后的各个麦克风对应的频率信号中,将与各个麦克风对应的检测音确定单元确定的频率信号之间共同存在的时刻部分、在求出到达时间差的时间区间所占的比率比规定的阈值小的声源位置,从检测音的声源位置的候补中排除,从而可以避免因为噪声的影响而错误地确定声源位置的事情。
而且,比率判定部500(1,j),对于所有声源位置的候补,只要是有一个所述比率比所述规定的阈值小的情况下,通过不确定所述检测音的声源位置,从而即使在因噪声的影响不能求出到达时间差的声源位置是检测音的声源位置的情况下,也能避免确定其他候补即错误的声源位置。
而且,检测音确定部104(k)消除相位成分失真的噪声部分,确定声源的方向。由此,消除因为背景噪声等白噪声及混合音而失真的噪声部分之后,确定正确的声源的方向。
而且,确定检测音的时刻部分的时候,利用不发生时间偏差引起的相位偏差的1/f的时间间隔的时刻的频谱,来求出相似度的总和。因此有这样的效果,不需要校正相位偏差,可以减少计算量。在此,对“时间偏差引起的相位偏差”进行说明。如同上述利用图7A的说明,假设作为提取对象的声信号的频率f的频谱,相位以等速度且在1/f的时间间隔之间旋转360度。因此,时间有变化时,相位也有变化。上述现象称为“时间偏差引起的相位偏差”。然而,因为1/f时间间隔之间相位转一周,可以认为1/f时间间隔的时刻的声信号的频谱具有相同的相位,所以没有必要校正相位的偏差。
而且,确定检测音的时刻部分的时候,作为相似度使用相关值。从而,不注重频谱大小的偏差就能判定相位偏差。因此有这样的效果,即使对频谱大小小的声信号也能够确定相位成分失真的噪声部分。而且,与方向检测部的互相关值的尺度得以调整。
本发明的确定噪声部分的想法的基础如下,因背景噪声等白噪声或者混合音而失真的噪声部分,其相位成分失真,相似度的总和S比第1阈值A都小。
另外,作为检测音确定部确定求声源方向的检测音的频谱的时刻部分的方法,可以将检测音(S)和噪声(N)的频谱功率的比,即信噪比为0dB以上的时刻部分(检测音的频谱功率≥噪声的频谱功率)确定为检测音的时刻部分。而且,也可以从学习用数据求出输入音是检测音的概率分布和输入音是噪声的概率分布,并根据贝叶斯推算确定检测音的时刻部分。
而且,此例子中,确定求声源方向的检测音的频谱的时刻部分之后,确定了求声源方向的时间区间,不过,也可以开始就确定求声源方向的时间区间,并在该时间区间中确定求声源方向的检测音的频谱的时刻部分。
而且,在本实施例中设置了与3个麦克风一一对应的3个FFT分析部和3个检测音确定部,不过,可以共享1个FFT分析部和1个检测音确定部来处理各麦克风输入的声信号。
而且,本实施例中,按时间和频率为单位确定了声源的方向,不过,可以在时间轴方向上取声源的方向的直方图,把取最大值的声源方向确定为声源的方向,也可以在时间轴方向上对声源的方向进行平均化来确定声源的方向。
进而,本实施例中,按时间和频率为单位确定了声源的方向,不过,可以在频率轴方向上取声源的方向的直方图,把取最大值的声源方向确定为声源的方向,也可以在频率方向上对声源的方向进行平均化来确定声源的方向。
进而,在本实施例中将麦克风的数量设成3个,但只要是2个以上就可以。
而且,取代FFT分析部的快速傅立叶变换(FFT),可以利用离散傅立叶变换(DFTDiscrete Fourier Transform),余弦变换,离散小波变换,或者带通滤波器。
另外,检测音确定部104(k,j)(与频率f对应的处理)从1/f时间间隔的时刻确定了所有时刻的频谱,不过,也可以通过从1/f时间间隔的时刻确定任意时刻来确定频谱。而且,也可以按成为分析对象的每个时刻,变换频谱的确定方法。
另外,检测音确定部104(k)对FFT分析部103(k)求出的所有(M个)频带的频谱,消除了噪声并确定了声源的方向,不过,也可以选择一部分频带,在选择的频带中消除噪声并确定声源的方向。
而且也可以这样,FFT分析部从乘上ΔT宽度的时间窗的所述声信号求出所述频谱,所述检测音确定部,利用作为分析对象的时刻的所述频谱和多个时刻中每一时刻的所述频谱的相似度的总和来确定检测音的时刻部分,所述多个时刻是夹着作为分析对象的时刻离得比ΔT时间间隔更远的多个时刻。根据本结构,通过利用与夹着作为分析对象的时刻离得比ΔT时间间隔(求出频谱时的时间窗的宽度)更远的多个时刻的所述频谱的相似度的总和,从而能够消除因细分时间分辨率(ΔT)导致的来自周围频率的频率泄漏引起的噪声(失真)。
另外,这个例子中组合2个麦克风根据3组组合求出了3个声源方向,并根据该3个声源方向求出了声源位置,不过,也可以组合3个麦克风来求出声源位置。图35示出根据3个麦克风求出声源位置的方法。依照声源位置,声音1100(检测音)到达麦克风102(1)的时间T(1)、到达麦克风102(2)的时间T(2)、以及到达麦克风102(3)的时间T(3)会不同。因此,可以根据T(1)、T(2)、T(3)的时间差(到达时间差)和麦克风位置的关系,求出声源位置。图36示出在这个情况下求出比率的方法。表示方法与图26相同,所以不重复说明。但是,示出了将3个麦克风的到达时间差同时加起来的结果。还有只示出频谱的实部。如图36所示,错开时间轴来求出比率,错开的量是与声源位置对应的到达时间差。而且,从所述检测音的声源位置的候补中排除比率(ΔTP/ΔTA)×100%小于第2阈值的声源位置。进而,也可以是,对于所有声源位置的候补,只要有一个所述比率小于所述规定的阈值的情况下,就不确定所述检测音的声源位置。
(实施例1的变形例) 其次,对实施例1中示出的声源方向检测装置的变形例进行说明。
本变形例涉及的声源方向检测装置,具有与参照图2~图6进行说明的实施例1涉及的声源方向检测装置同样的结构。但是,检测音确定部104(k)(k=1~3)执行的处理不相同。
检测音确定部104(k)(k=1~3),针对对应的FFT分析部103(k)(k的值相同)求出的频谱,以每个频带j(j=1~M)为单位,利用检测音确定部104(k,j)(k=1~3,j=1~M)来确定检测音的时刻部分。下面,对第j个频带是f的情况(例如,中心频率为f)进行说明。
检测音确定部104(k,j),利用从1/f时间间隔的时刻被选择的多个时刻的频谱,制作所述频谱的相位成分的直方图,从而求出相似度的空间。检测音确定部104(k,j),将相似度为阈值以上的频谱群,确定为检测音的频谱。
相似度计算部301(k,j),通过制作频谱确定部300(k,j)确定的频谱的相位成分的直方图,从而求出相似度的空间。检测音确定部302(k,j),将从相似度计算部301(k,j)求出的相似度的空间中相似度为阈值以上的频谱的时刻,确定为检测音的时刻部分。
其次,说明如上述构成的声源方向检测装置101的工作。表示声源方向检测装置101的工作顺序的流程图与实施例1相同,已在图8~图12中示出。
以下的说明中,只说明声源方向检测装置101中检测音确定部104(k)(k=1~3)执行的处理。其他处理部执行的处理与实施例1相同,所以不重复说明。
检测音确定部104(k)(k=1~3),针对对应的FFT分析部103(k)(k的值相同)求出的频谱,以频带j(j=1~M)为单位,利用检测音确定部104(k,j)(k=1~3,j=1~M)来确定检测音的时刻部分(步骤S601(k),步骤S601(k,j)(k=1~3,j=1~M))。以后只对有关第j个频带进行说明。这个例子中第j个频带的频率为f。
检测音确定部104(k,j),利用从1/f时间间隔的时刻被选择的多个时刻的频谱,制作所述频谱的相位成分的直方图,从而求出相似度的空间。检测音确定部104(k,j),将相似度为阈值以上的频谱群,确定为检测音的频谱(步骤S601(k,j))。
相似度计算部301(k,j),利用频谱确定部300(k,j)确定的频谱,制作所述频谱的相位成分的直方图,从而求出相似度的空间(步骤S801(k,j))。下面说明求出相似度的空间的方法。
频谱确定部300(k,j)确定的频谱用数式1、数式2来表示。在此,用以下数式提取相位成分。
(数式21) θk=arctan(yk/xk)(k=-K,...,-2,-1,0,1,2,...,K) 图37示出了制作频谱的相位成分的直方图的方法的一个例子。在此,通过按照每个频带求出在规定时间宽度的频谱的出现频度,从而制作直方图,所述频带是指相位区间为Δψ(i)(i=1~4),相位对时间以2πf的倾斜来变化的频带。图37中用斜线表示的部分是Δψ(1)的区域。因为相位是以限制在0~2π的区间来表现的,所以成为间断的区域。在此,可以以Δψ(i)(i=1~4)为单位,计算包含在那些区域的频谱的数量,从而制作直方图。
图38A和图38B中分别示出,频谱确定部300(k,j)确定的频谱的一个例子和所述被确定的频谱的相位成分的直方图的一个例子。
图38A示出被确定的频谱。图38A的表示方法与图16(b)相同,所以不重复说明。在这个例子中,被确定的频谱中包括声音A(相当于检测音)和声音B(相当于检测音)和背景噪声(相当于噪声)的频谱。
图38B模式性地示出频谱的相位成分的直方图的一个例子。声音A的频谱群具有类似的相位(该例子中是100度的附近),声音B的频谱群具有类似的相位(该例子中是190度的附近)。因此,直方图的100度附近和190度附近形成峰顶。而且,背景噪声的频谱具有不同的相位,所以直方图没能形成峰顶。
最后,检测音确定部302(k,j)将从相似度计算部301(k,j)求出的相似度的空间(直方图)中相似度为阈值以上的频谱群,确定为检测音的频谱(步骤S802(k,j))。
图39示出了将从相似度的空间中相似度为阈值以上的频谱群,确定为检测音的频谱的方法的一个例子。图39的表示方法与图38B相同,所以不重复说明。在图39直方图中,将相似度为阈值以上的频谱群(该例子中是相位差为30度以内的相似的频谱),确定为检测音的频谱。这个例子中,100度附近的频谱群和190度附近的频谱群,被确定为检测音的频谱。这些分别对应于声音A和声音B。背景噪声的频谱具有不同的相位,所以相似度比阈值小。
如此,即使在包含多个频谱,如同声音A和声音B一样与不同的相位对应的多个频谱的情况下,也能消除背景噪声,辨别声音A和声音B的频谱来进行提取。
根据上述结构,制作频谱的相位成分的直方图来求出相似度的空间,并将相似度为阈值以上的频谱群,确定为检测音的频谱。从而有这样的效果,即使在包含多个频谱,如同声音A和声音B一样与不同的相位对应的频谱的情况下,也能消除背景噪声,辨别声音A和声音B的频谱,确定检测音的频谱。也就是,实施例1中有所说明,例如,如图18所示作为分析对象的20msec的时间宽度内,声音A和声音B的频谱混在一起的情况下,如果计算相似度,相似度会很低,会被看作是噪声。这是因为在局部进行了是否是噪声的判断。然而,利用频谱的相位成分的直方图的方法,不是在局部进行是否是噪声的判断。因此,在同样的状况下,也能将声音A和声音B的频谱确定为检测音的频谱。因而,能够正确确定声源的方向。
(实施例2) 其次,说明实施例2涉及的声源方向检测装置。实施例2涉及的声源方向检测装置与实施例1涉及的声源方向检测装置不同,校正声信号的频谱的相位成分,利用校正后的频谱来确定声源的方向。
图40~图42是示出本发明实施例2涉及的声源方向检测装置结构的方框图。在图40中,与图2相同的构成要素用同样的符号来表示,不重复说明。
在图40中,声源方向检测装置2800包括3个麦克风102(k)(k=1~3)、与各麦克风对应的3个FFT分析部103(k)(k=1~3)(相当于分析单元)、与各麦克风对应的3个相位校正部2801(k)(k=1~3)、与各麦克风对应的3个检测音确定部2802(k)(k=1~3)(相当于检测音确定单元)、以及方向检测部105(相当于检测单元)。
麦克风102(k)(k=1~3)将声信号100作为输入来接收。
FFT分析部103(k)(k=1~3),针对对应的麦克风(k的值相同)作为输入而接收的声信号100进行快速傅立叶变换处理,求出包含声信号100的相位成分的频谱(相当于频率信号)。下面,将FFT分析部103(k)(k=1~3)求出的频谱的频带个数作为M,指定那些频带的编号用符号j(j=1~M)来表示。下面,对第j个频带为f(例如,中心频率为f)的情况进行说明。这里的处理与实施例1相同。
相位校正部2801(k)(k=1~3),针对对应的FFT分析部103(k)(k的值相同)求出的频谱,以频带j(j=1~M)为单位,利用相位校正部2801(k,j)(k=1~3,j=1~M),根据相位以等速度且在1/f时间间隔之间旋转360度的条件,对多个时刻的频谱,校正由于时间偏差引起的相位偏差(参考图41)。即,将时刻t的频谱的相位ψ(t)(弧度)校正为ψ(t)-(2πft)。
检测音确定部2802(k)(k=1~3),利用对应的FFT分析部103(k)(k的值相同)求出的频谱和对应的相位校正部2801(k)(k的值相同)校正了相位偏差的频谱,以频带j(j=1~M)为单位,利用检测音确定部2802(k,j)(k=1~3,j=1~M),求出相位偏差被校正的作为分析对象的时刻的频谱和,相位偏差被校正的、至少与作为分析对象的时刻不同的多个时刻的频谱的相似度的总和。而且,检测音确定部2802(k)(k=1~3),求出相似度的总和为第1阈值以上的作为分析对象的时刻。检测音确定部2802(k)(k=1~3),将第1阈值以上的时刻的FFT分析部103(k)求出的频谱确定为检测音的频谱,从而消除噪声(参考图41)。
方向检测部105,利用检测音确定部2802(k)(k=1~3)确定的检测音的频谱,在由3个麦克风获得的麦克风的组合(麦克风102(1)和麦克风102(2)、麦克风102(2)和麦克风102(3)、麦克风102(1)和麦克风102(3))中,计算与各个麦克风对应的被确定的频谱共同存在的部分的频谱之间的一致程度(互相关值)。方向检测部105,在各个麦克风的组合中,根据互相关值的局部极大值求出到达时间差,根据被求出的到达时间差和麦克风之间的间距求出声源方向。方向检测部105,针对所有麦克风的组合,为了使到达时间差成为零而调整了来自2个麦克风的频谱的时间轴的时候,由检测音确定部被确定的时刻部分中所述麦克风之间共同时刻中存在的部分,在确定声源方向的时间区间所占的比率大于规定的阈值的情况下,输出示出声源方向106的信息(步骤S602)。另外,作为其他方法,方向检测部105可以利用由一部分方向检测部所求出的声源方向,来求出声源方向。而且,方向检测部105即使没有在所有的方向检测部中求出声源方向的情况下,也可以利用由一部分方向检测部所求出的声源方向,来求出声源方向。
这个例子中,作为一致程度使用了互相关值,但是作为一致程度使用频谱之间的差分误差也可以。还有,这个例子中是从互相关值的局部极大值求出到达时间差,不过,也可以从以下求出到达时间差互相关值的最大值、阈值以上的互相关值的局部极大值或者最大值、差分误差的最小值、阈值以下的差分误差的局部极小值或者最小值。
图42是示出检测音确定部2802(k,j)(k=1~3,j=1~M)的结构的方框图。检测音确定部2802(k,j)包括频谱确定部3000(k,j)(k=1~3,j=1~M)、相似度计算部3001(k,j)(k=1~3,j=1~M)、以及检测音确定部3002(k,j)(k=1~3,j=1~M)。
频谱确定部3000(k,j),根据相位校正部2801(k,j)校正了相位偏差的频谱,确定相似度计算部3001(k,j)计算相似度的总和时利用的频谱。
相似度计算部3001(k,j),利用频谱确定部3000(k,j)确定的相位偏差被校正了的频谱,来计算相似度的总和。
检测音确定部3002(k,j),根据FFT分析部103(k)求出的频谱确定相似度计算部3001(k,j)算出的相似度的总和在第1阈值以上的时刻的频谱。
其次,说明如上述所构成的声源方向检测装置2800的工作。
图43~图45是示出声源方向检测装置2800的工作顺序的流程图。
首先,FFT分析部103(k)(k=1~3),针对对应的麦克风102(k)(k的值相同)所输入的声信号100实施快速傅立叶变换处理,求出包含声信号100的相位成分的频谱(步骤S600(k)(k=1~3))。在这里,按照与实施例1相同的方法来求出频谱。
其次,相位校正部2801(k)(k=1~3),针对对应的FFT分析部103(k)(k的值相同)求出的频谱(频率是f),在相位以等速度且在1/f的时间间隔之间旋转360度的条件下,对多个时刻的频谱,校正由于时间偏差所引起的相位偏差(步骤S3100(k),步骤S3100(k,j)(k=1~3,j=1~M))。
在此,利用图46来说明相位以等速度且在1/f的时间间隔之间旋转360度这样的条件。横轴表示时间轴(秒),纵轴表示相位(度)。如图46所示,所述的条件是在1/f(秒)的时间间隔之间,相位从0度到360度为止直线性变化,且,每1/f(秒)的时间间隔重复所述的相位的变化(从0度到360度的直线性变化)。这里f的单位是Hz。
用图47~图50来说明对因为时间偏差而引起的相位偏差进行校正的方法的一个例子。图47(a)模式性地示出了FFT分析部103(k)求出的频谱,图47(b)模式性地示出了从图47(a)分离的频谱的相位成分,图47(c)模式性地示出了从图47(a)分离的频谱的大小成分。图47(a)、图47(b)、图47(c)的横轴是时间轴(秒)。图47(a)的表示方法与图16(b)相同,所以不重复说明。图47(b)的纵轴表示频谱的相位,以0度到360度之间的值来示出。图47(c)的纵轴表示频谱的大小。将频谱实部表示为 (数式22) xt 将频谱的虚部表示为 (数式23) yt 时,频谱的相位P和大小L如下。
(数式24) Pt=arctan(yt/xt) 以及 (数式25) 其中符号t表示频谱的时刻。
在此,利用图47(b)所示出的频谱的相位成分来校正时间偏差引起的相位偏差。
首先,决定标准的时刻。图48(a)的内容与图47(b)的内容相同,这个例子中,将图48(a)的黑点的时刻t0定为标准的时刻。
其次,决定校正相位的频谱的多个时刻。这个例子中,将图48(a)的5个白点的时刻(t1、t2、t3、t4、t5),定为校正相位的频谱的时刻。
在此,标准的时刻的频谱的相位表示如下, (数式26) 校正相位的5个时刻的频谱的相位表示如下。
(数式27) (i=1,2,3,4,5) 图48在(a)中以×标志来示出这些校正之前的相位。而且,对应的时刻的频谱的大小L如下。
(数式28) (i=0,1,2,3,4,5) 其次,在图49A和图49B示出校正时刻t2的频谱的相位的方法。图49A的内容与图48(a)的内容相同。而且,图49B与图46的内容相同,示出相位以等速度且在1/f的时间间隔之间旋转360度的条件。在这里,校正后的相位表示如下。
(数式29)

(i=0,1,2,3,4,5) 在图49B中,比较在所述条件下的作为标准时刻的时刻t0和时刻t2的相位偏差,时刻t2的相位只比时刻t0的相位大ΔP。于是,在图49A中,为了校正与标准时刻即时刻t0的相位Pt0的时间偏差所引起的相位偏差,从时刻t2的相位Pt2减去ΔP来求出P′t2。这就是校正后的时刻t2的相位。而且,时刻t0的相位是标准时刻的相位,所以校正后也是同样的值。具体而言,校正后的相位根据 (数式30) (数式31) (i=1,2,3,4,5) 来求出。但是,调整相位调整到在0度到360度的范围之内后求出。假定校正前的相位,在1/f的时间间隔之间旋转360度,则校正后的相位全部成为Pt0。
校正后的频谱的相位,在图48(b)的×标志来示出。图48(b)的表示方法与图48(a)相同,所以不重复说明。
最后,利用校正后的频谱的相位P′和校正前的频谱的大小L来求出校正后的频谱。在这里,设校正后的频谱实部表示为 (数式32)

(i=0,1,2,3,4,5), 校正后的频谱的虚部表示为 (数式33)

(i=0,1,2,3,4,5)。
图50表示求出校正后的频谱的方法的一个例子。图50(a)的内容与图48(b)的内容相同。图50(b)的内容与图47(c)的内容相同,在时间t0、t1、t2、t3、t4、t5的校正前的频谱的大小用×标志来表示。利用校正后的频谱的相位P′和校正前的频谱的大小L,根据 (数式34) (i=0,1,2,3,4,5) (数式35) (i=0,1,2,3,4,5) 求出校正后的频谱。
在图50(c)用×标志表示校正后的频谱。图50(c)的表示方法与图47(a)相同,所以不重复说明。校正后的频谱是,相位以等速度且在1/f的时间间隔之间旋转360度的条件下,被校正了因时间偏差所引起的相位偏差的频谱。
其次,检测音确定部2802(k)(k=1~3),利用对应的FFT分析部103(k)(k的值相同)求出的频谱和对应的相位校正部2801(k)(k的值相同)校正了相位偏差的频谱,以频带j(j=1~M)为单位,利用检测音确定部2802(k,j)(k=1~3,j=1~M),求出相位偏差被校正的作为分析对象的时刻的频谱,和相位偏差被校正的、至少与作为分析对象的时刻不同的多个时刻的频谱的相似度的总和。检测音确定部2802(k)(k=1~3),求出相似度的总和为第1阈值以上的作为分析对象的时刻,将第1阈值以上的时刻的FFT分析部103(k)求出的频谱确定为检测音的时刻部分的频谱,从而消除噪声(步骤S3101(k),步骤S3101(k,j)(k=1~3,j=1~M))。
首先,频谱确定部3000(k,j)(k=1~3,j=1~M),根据相位校正部2801(k,j)(k=1~3,j=1~M)求出的相位偏差被校正的频谱,确定相似度计算部3001(k,j)(k=1~3,j=1~M)计算相似度的总和时利用的频谱(步骤S3300(k,j)(k=1~3,j=1~M))。在这里,作为分析对象的时刻设为t0,与作为分析对象的时刻的校正后的频谱求出相似度的总和的校正后的频谱的时刻设为t1、t2、t3、t4、t5。在此用于求出相似度的总和的校正后的频谱的时刻及时间宽度,按照提取的声音的特性来决定。
其次,相似度计算部3001(k,j)(k=1~3,j=1~M),利用频谱确定部3000(k,j)(k=1~3,j=1~M)确定的校正后的频谱,算出相似度的总和(步骤S3301(k,j)(k=1~3,j=1~M))。下面说明相似度的总和的计算方法。这个例子中将作为分析对象的时刻设为t0,与作为分析对象的时刻的校正后的频谱求出相似度的总和的校正后的频谱的时刻设为t1、t2、t3、t4、t5。在这里,作为相似度使用相关值。相似度的总和S利用 (数式36) 计算。
在此,其他的相似度的总和S的计算方法示出如下。在相关值的计算中,总计相似度的数来进行规范化的方法如下, (数式37) 又加上作为分析对象的时刻的频谱的相似度的方法如下, (数式38) 利用以频谱的大小规范化的相关值的方法如下, (数式39) 利用频谱的距离的倒数的方法如下, (数式40) 利用相位成分的距离的倒数的方法 (数式41) 等。在此, (数式42) α 是为了使S不扩散到无限大而预先规定的小的值。
而且,将作为分析对象的时刻设为t2,与作为分析对象的时刻的校正后的频谱求出相似度的总和的校正后的频谱的时刻设为t0、t1、t3、t4、t5时,相似度总和的一个例子示出如下。
(数式43) 这个例子中,频谱确定部3000(k,j),根据相位校正部2801(k,j)求出的相位偏差被校正了的频谱,确定了相似度计算部3001(k,j)计算相似度的总和时利用的频谱,不过,作为其他的方法也可以这样,由频谱确定部3000(k,j)预先确定相位校正部2801(k,j)校正相位偏差的频谱,利用由相位校正部2801(k,j)已经确定的相位偏差被校正了的频谱,由相似度计算部3001(k,j)求出相似度的总和。
其次,检测音确定部3002(k,j)(k=1~3,j=1~M),将相似度的总和S为第1阈值以上的时刻的、对应的FFT分析部103(k)(k的值相同)求出的频谱,确定为检测音的时刻部分的频谱(步骤S3302(k,j)(k=1~3,j=1~M))。
根据对应的FFT分析部103(k)(k的值相同)求出的频谱,确定满足数式44的条件的时刻的频谱。
(数式44) S≥A 最后,方向检测部105用检测音确定部2802(k)(k=1~3)确定的检测音的频谱,在由3个麦克风所得到的麦克风的组合(麦克风102(1)和麦克风102(2)、麦克风102(2)和麦克风102(3)、麦克风102(1)和麦克风102(3))中,计算与各个麦克风对应的被确定的频谱共同存在的部分的频谱之间的互相关值。方向检测部105根据互相关值的局部极大值求出到达时间差,根据被求出的到达时间差和麦克风之间的间距确定声源方向,并输出表示声源方向106的信息(步骤S602)。这个例子中是根据互相关值的局部极大值求出到达时间差,不过,也可以根据以下值求出到达时间差互相关值的最大值、阈值以上的互相关值的局部极大值、差分误差的局部极小值、差分误差的最小值、阈值以下的差分误差的局部极小值。
根据上述结构,比率判定部500(1,j),针对与所有声源的方向对应的互相关值,仅在所述比率是所述第2阈值以上的时候确定声源方向。因此,即使在因为噪声的影响,不能算出与实际声源的方向对应的互相关值的情况下,也能避免错误地确定声源方向的事情。
还有,检测音确定部2802(k),确定相位成分失真的噪声部分(因为背景噪声等白噪声的部分或者混合音而失真的噪声的部分),从而能够准确地确定检测音的时刻部分。
而且,在确定检测音的时刻部分的时候,在相位校正部2801(k)可以校正时间偏差引起的相位偏差。因此,没有必要一定利用不发生时间偏差引起的相位偏差的1/f时间间隔的时刻的频谱。因此有这样的效果,对于比1/f时间间隔短的时间的声信号也能确定噪声。
而且,方向检测部,与各个麦克风对应的被确定的时刻部分的频谱共同存在的部分在计算互相关值时利用的时间区间中所占的比率,比第2阈值小的时候,从声源方向的候补中除去与该互相关值对应的方向。由此,可以消除误差大的声源方向的候补之后,确定声源的方向。
而且,确定检测音的时刻部分的时候,作为相似度使用相关值。因此,不注重频谱大小的偏差就能判定相位偏差。因此有这样的效果,即使对频谱大小小的声信号也能够确定相位成分失真的噪声部分。而且,可以与方向检测部的互相关值的尺度得以调整。
本发明的涉及确定噪声部分的想法的基础如下,因背景噪声等白噪声或者混合音而失真的噪声部分,相位成分失真,相似度的总和S比第1阈值A都小。
另外,在本实施例中设置了与3个麦克风一一对应的3个FFT分析部和3个检测音确定部,不过,可以共享1个FFT分析部和1个检测音确定部来处理各麦克风输入的声信号。
另外,本实施例中,按时间和频率为单位确定了声源的方向,不过,可以在时间轴方向上取声源的方向的直方图,把取最大值的声源方向确定为声源的方向,也可以在时间轴方向上对声源的方向进行平均化来确定声源的方向。
而且,本实施例中,按时间和频率为单位确定了声源的方向,不过,可以在频率轴方向上取声源的方向的直方图,把取最大值的声源方向确定为声源的方向,也可以在频率方向上对声源的方向进行平均化来确定声源的方向。
进而,在本实施例中将麦克风的数量设成3个,但只要是2个以上就可以。
而且,取代FFT分析部的快速傅立叶变换,可以利用离散傅立叶变换(DFTDiscrete Fourier Transform),余弦变换,离散小波变换,或者带通滤波器。
另外,在本实施例中,利用相位校正部2801(k)和检测音确定部2802(k),对FFT分析部103(k)求出的所有(M个)频带的频谱,消除噪声并确定了声源的方向,不过,也可以选择一部分频带,在选择的频带中消除噪声并确定声源的方向。
而且也可以这样,FFT分析部根据乘上ΔT宽度的时间窗的所述声信号求出所述频谱,所述检测音确定部,利用作为分析对象的时刻的所述频谱和多个时刻中每一时刻的所述频谱的相似度的总和来确定检测音的时刻部分,所述多个时刻是夹着作为分析对象的时刻离得比ΔT时间间隔更远的多个时刻。根据本结构,通过利用夹着作为分析对象的时刻离得比ΔT时间间隔(求出频谱时的时间窗的宽度)更远的多个时刻的所述频谱的相似度的总和,从而能够消除因细分时间分辨率(ΔT)时导致的来自周围频率的频率泄漏引起的噪声(失真)。
(实施例2的变形例) 其次,说明在实施例2中示出的声源方向检测装置的变形例。
本变形例涉及的声源方向检测装置,具有与参照图40~图42说明了的实施例2涉及的声源方向检测装置相同的结构。但是,检测音确定部2802(k)(k=1~3)执行的处理不相同。
检测音确定部2802(k)(k=1~3),利用对应的FFT分析部103(k)(k的值相同)求出的频谱和对应的相位校正部2801(k)(k的值相同)校正了相位偏差的频谱,以频带j(j=1~M)为单位利用检测音确定部2802(k,j)(k=1~3,j=1~M),利用相位偏差被校正的频谱,制作所述频谱的相位成分的直方图,从而求出相似度的空间。检测音确定部2802(k)(k=1~3),将相似度为阈值以上的频谱群,确定为检测音的频谱。
相似度计算部3001(k,j),制作频谱确定部3000(k,j)确定的相位偏差被校正的频谱的相位成分的直方图,从而求出相似度的空间。检测音确定部3002(k,j),从相似度计算部3001(k,j)求出的相似度的空间,将相似度为阈值以上的FFT分析部103(k)求出的频谱群,确定为检测音的频谱。
其次,说明如上述所构成的声源方向检测装置2800的工作。示出声源方向检测装置2800的处理顺序的流程图与实施例2相同,在图43~图45中示出。
以下的说明中,只对声源方向检测装置2800中检测音确定部2802(k)(k=1~3)执行的处理进行说明。其他的处理部执行的处理与实施例2相同,所以不重复说明。
检测音确定部2802(k,j),利用相位校正部2801(k,j)求出的相位偏差被校正的频谱,制作所述频谱的相位成分的直方图,从而求出相似度的空间。检测音确定部2802(k),将相似度为阈值以上的FFT分析部103(k)求出的频谱群确定为检测音的频谱,从而消除噪声(步骤S3101(k),步骤S3101(k,j)(k=1~3,j=1~M))。
相似度计算部301(k,j)(j=1~M),利用频谱确定部300(k,j)确定的相位被校正后的频谱,制作上述频谱的相位成分的直方图,从而求出相似度的空间(步骤S3301(k,j)(j=1~M))。
校正后的频谱的相位成分用数式26来表示。
图51示出制作频谱的相位成分的直方图的方法的一个例子。在此,通过按照每个频带求出规定时间宽度的频谱的出现频度,从而制作直方图,所述带域是指相位区间为Δψ(i)(i=1~4),相位对时间以2πf的倾斜来变化的带域,图51的以斜线来表示的部分是Δψ(1)的区域。在此,校正频谱的相位,以使对时间的2πf的倾斜成为零,所以与横轴成为平行的区域。在此,以Δψ(i)(i=1~4)为单位,计算包含在那些区域中的频谱的数量,从而制作直方图。
以下的处理与实施例1的变形例相同,所以不重复说明(参考图38B,图39)。
根据上述结构,制作频谱的相位成分的直方图来求出相似度的空间,将相似度为阈值以上的频谱群,确定为检测音的频谱,从而有这样的效果,即使在包含多个频谱,如同声音A和声音B一样与不同的相位对应的频谱的情况下,也能消除背景噪声(相当于噪声),辨别声音A(相当于检测音)和声音B(相当于检测音)的频谱,确定检测音的频谱。因而,能够正确确定声源的方向。
另外,作为检测音确定单元(检测音确定部),可以利用以下示出的噪声消除装置。
噪声消除装置的特点是,包括谱生成单元和检测音确定单元,所述谱生成单元,生成频谱,该频谱包含声信号的至少1个频率f的相位成分;所述检测音确定单元,消除以下作为分析对象的频谱,在规定的时间宽度所包含的所述频谱中,作为分析对象的频谱和从所述规定的时间宽度所包含的频谱中被任意选择的一定数量以上的频谱所构成的频谱的组合的相似度,不论对于哪个组合的相似度都不大于一定的值的所述作为分析对象的频谱,所述相似度是指在时刻t的频谱的相位为ψ(t)(弧度)时,以ψ(t)-(2πft)来定义的空间中的相位的相似度。
根据上述结构,确定相位成分失真的噪声部分(因为背景噪声等白噪声的部分或者混合音而失真的噪声的部分),从而能够准确地确定检测音的时刻部分。
最好是,所述谱生成单元的特征为,在所述声信号乘上规定的时间窗宽度的窗口函数,从被乘上该窗口函数之后的声信号生成所述频谱,所述规定的时间窗宽度比所述规定的时间宽度小。
根据这个结构,利用频谱求出相似度,该频谱是比求出频谱时利用的规定的时间窗宽度离得更远的时刻的频谱。由此,可以消除噪声,该噪声是因为细分频谱的时间分辨率时的影响导致的来自周围频率的频率泄漏而引起的噪声(失真)。
在此进行附加说明。在此,作为声信号2401利用了100Hz、200Hz、300Hz的正弦波的混合音的情况为例子进行说明。这个例子的目的在于,在混合音中的200Hz的正弦波中,消除来自100Hz和300Hz的正弦波的频率泄漏而引起的噪声(失真)。
图52是示出了该变形例涉及的噪声消除装置结构的方框图。
噪声消除装置110包括DFT分析部1106、以及检测音确定部113。DFT分析部1106以及检测音确定部113通过执行程序来实现,该程序是用于在计算机上实现各处理部的功能的程序。
DFT分析部1106是对被输入的声信号2401实施离散傅立叶变换处理,求出包含声信号2401的相位成分的频谱的处理部。下面,在DFT分析部1106被求出的频谱的频带的个数设为M,指定那些频带的编号用符号j来表示。
检测音确定部113,包含检测音确定部113(j)(j=1~M)。检测音确定部113是对DFT分析部1106求出的频谱,以频带j(j=1~M)为单位,利用检测音确定部113(j)(j=1~M)来消除噪声的处理部。下面,对第j个频带为f(例如,中心频率为f)的情况进行说明。检测音确定部113(j),利用从1/f时间间隔的时刻中被选择的多个时刻的频谱,求出所述多个时刻中作为分析对象的时刻的频谱和所述多个时刻中至少与所述时刻不同的多个时刻的频谱的相似度的总和。而且,检测音确定部113(j),确定该相似度的总和为一定的阂值以下的作为所述分析对象的时刻的频谱,并消除确定的频谱、从而消除噪声。并且,检测音确定部113通过归结噪声被消除的M个频带的频谱,从而制作输出谱2408。
检测音确定部113(j)(j=1~M)具有与图42所示的检测音确定部2802(k,j)同样的结构。
图53示出了在利用100Hz、200Hz、300Hz的正弦波的混合音的情况下,200Hz的频谱的时间波形的一个例子。图53(a)示出了200Hz的频谱的实部的时间波形,图53(b)示出了200Hz的频谱的虚部的时间波形。横轴是时间轴(秒),纵轴表示频谱的振幅。在这里示出了时间长为50ms的时间波形。
图54示出了制作图53所示的声信号2401时所利用的200Hz的正弦波的、在200Hz的频谱的时间波形。表示的方法与图53相同,所以不重复说明。
从图53和图54可知,在声信号2401中,因为来自100Hz和300Hz的正弦波的频率泄漏的影响,200Hz的正弦波存在失真部分(噪声部分)。
图55是示出噪声消除装置110的工作顺序的流程图。
首先,DFT分析部1106,将声信号2401作为输入来接收,对被输入的声信号2401实施离散傅立叶变换处理,求出包含声信号2401的相位成分的频谱(步骤S300)。作为在这个例子中的离散傅立叶变换处理的条件,对采样频率=16000Hz的声信号2401,利用时间窗的宽度ΔT=5ms(80pt)的汉宁窗来进行处理。而且,在时间轴方向上进行1pt(0.0625ms)的时间位移的同时,求出各时刻的频谱。图53示出了在该处理结果的频谱的时间波形。
其次,检测音确定部113,针对DFT分析部1106求出的频谱,以频带j(j=1~M)为单位,利用检测音确定部113(j)(j=1~M)来消除噪声(步骤S301(j)(j=1~M))。这个例子中,M=1,j=第1个频带的频率是f=200Hz。
检测音确定部113(j)(j=1),利用从1/f时间间隔的时刻中被选择的多个时刻的频谱,确定作为分析对象的时刻的频谱和至少与所述时刻不同的多个时刻的频谱的相似度的总和为一定的阈值以下的作为分析对象的时刻的频谱,并消除确定的频谱、从而消除噪声(步骤S301(1)(j=1))。
首先,检测音确定部113(1)(j=1)的频谱确定部,与实施例1所示的例子同样,确定从1/f时间间隔的时刻中被选择的多个时刻的频谱(步骤S400(1)(j=1))。
在此,与实施例1示出的例子不同的部分是,检测音确定部113(1)(j=1)的相似度计算部在计算相似度的总和时利用的频谱的时间范围。实施例1示出的例子中时间范围是20ms,时间宽度比求出频谱时利用的时间窗的宽度ΔT(64ms)要短。这个例子中,将时间范围设为100ms,时间宽度比求出频谱时利用的时间窗的宽度ΔT(=5ms)要长。
其次,检测音确定部113(1)(j=1)的相似度计算部,利用检测音确定部113(1)(j=1)的频谱确定部确定的所有频谱,计算相似度的总和(步骤S401(1)(j=1))。在这里的处理因为与实施例1示出的例子的处理相同,所以不重复说明。
最后,检测音确定部113(j)(j=1)的检测音确定部,确定相似度的总和S为阈值以下的作为分析对象的时刻的频谱,并消除确定的频谱、从而消除噪声(步骤S402(1)(j=1))。在这里的处理因为与实施例1示出的例子的处理相同,所以不重复说明。
图56示出了从图53示出的声信号2401中提取的200Hz的频谱的时间波形。表示方法中与图53相同的部分,不重复说明。在图56中,斜线部分的区域是作为噪声部分被消除的区域。图56与图53和图54比较可知,从声信号2401除去来自100Hz和300Hz的正弦波的频率泄漏引起的噪声(失真),提取了200Hz的正弦波。
根据实施例1及实施例1的变形例涉及的结构有这样的效果,利用夹着成为分析对象的时刻、且离得比ΔT时间间隔(求出频谱时的时间窗的宽度)更远的多个时刻的频谱和作为分析对象的时刻的频谱的相似度总和,从而可以消除因细分时间分辨率(ΔT)时的影响导致的来自周围频率的频率泄漏引起的噪声。
最好是,所述检测音确定单元具有如下特征,根据包含在所述规定的时间宽度中的频谱,确定1/f时间间隔的时刻的频谱,并利用所述确定的频谱求出相似度。
根据上述结构,在以ψ(t)定义的空间中,可以求出以ψ(t)-(2πft)定义的空间中的相位的相似度,所以相似度的计算方法变得简单,可以减少用于校正相位的计算量。
最好是,噪声消除装置具有如下特征,该噪声消除装置还包括将时间t的频谱的相位ψ(t)(弧度)校正为ψ(t)-(2πft)的相位校正单元,所述检测音确定单元利用所述相位被校正的所述频谱来求出所述相似度。
根据该结构,可以在比1/f的时间间隔更短的时间间隔下详细分析声信号。由此,对于比1/f的时间间隔还短的时间的声信号,也能消除噪声。
最好是具有如下特征,所述相似度是作为分析对象的频谱和构成所述频谱的组合的各频谱之间的各个相似度的总和。
根据这个结构,能够详细求出构成频谱的组合的各频谱的一个一个的相似度。
最好是具有如下特征,所述相似度是将时间t的频谱的相位设为ψ(t)(弧度)时以ψ(t)-(2πft)来定义的空间中的、每个相位区间的所述规定的时间宽度所包含的频谱的出现频度,并且,对于作为分析对象的频谱和用于求出所述出现频度的所有频谱的每一个的相似度,在求相似度的2个频谱存在于同一个相位区间时所述相似度设定为“1”,在存在于不同的相位区间时所述相似度设定为“0”,从而求出所述相似度的总和。
根据这个结构,即使在声信号中的相位包含不同的多个声音(检测音)的情况下,也可以消除相位成分失真的噪声部分,辨别多个声音的频谱并提取。
在此,对其他声信号的分析结果进行考察。图57示出分析f=200Hz的频率的结果。图58示出分析f=150Hz的频率的结果。图57和图58都是作为声信号用200Hz的正弦波和白噪声进行分析的结果。
图57(a)是作为声信号用200Hz的正弦波,对相位进行分析的结果。在这里没有进行相位的校正。根据该结果,在规定的时间宽度中,相位对时间以2π×200的倾斜来变化。在这里,对200Hz的频率进行分析,相位对时刻以2π×200的倾斜来变化的直线和声信号的相位的、在规定的时间宽度中的相似度变大。并且,与一定数量以上的声信号(规定的时间宽度中的所有声信号)的相似度比一定的值大。因此,作为声信号的200Hz的正弦波不被除去,而是被提取。在这里的相似度,例如,求出在规定的时间宽度中这个直线和声信号的相位的误差(该误差考虑了相位在0度和360度是同样的,且呈环面的情况),并取倒数就可以求出相似度。
图57(b)是作为声信号用200Hz的正弦波分析相位的结果。在这里进行相位的校正。根据该结果可知,在规定的时间宽度中,相位对时刻以Δψ的宽度(这个例子中是π/2)持有一定的值。据此,对于相位对时间以2π×200的倾斜变化的直线进行相位校正倾斜为零的直线与声信号的相位校正的相位,在规定的时间宽度中的相似度变大。并且,与一定数量以上的声信号(规定的时间宽度中的所有声信号)的相似度比一定的值大。因此,作为声信号的200Hz的正弦波不被除去,而是被提取。
图57(c)是作为声信号用白噪声,对相位进行分析的结果。分析的时间宽度及求出相似度的频谱的数值的下限值、相似度的阈值等的分析条件与图57(a)相同。在这里没有进行相位的校正。根据该结果可知,在规定的时间宽度中,相位对时间没有以2π×200的倾斜来变化。在这里,对200Hz的频率进行分析,相位对时刻以2π×200的倾斜来变化的直线和声信号的相位,在规定的时间宽度中的相似度变小。并且,与一定数量以上的声信号(规定的时间宽度中的所有声信号)的相似度成为一定的值以下。因此,可以消除白噪声。结合图57(a)的结果,可以提取200Hz的正弦波,并消除白噪声。
图57(d)是作为声信号用白噪声,对相位进行分析的结果。分析的时间宽度及求出相似度的频谱的数值的下限值、相似度的阈值等的分析条件与图57(b)相同。在这里进行了相位的校正。根据该结果可知,在规定的时间宽度中,相位对时刻以Δψ的宽度(这个例子中是π/2)不持有一定的值。并且,与一定数量以上的声信号(规定的时间宽度中的所有声信号)的相似度成为一定的值以下,可以消除白噪声。结合图57(b)的结果,可以提取200Hz的正弦波并消除白噪声。但是,在提取200Hz的正弦波的情况下,即使使Δψ的宽度变小成为π/3和π/4,也能消除白噪声。
图58(a)是作为声信号利用200Hz的正弦波,对相位进行了分析的结果。分析的时间宽度及求出相似度的频谱的数值的下限值、相似度的阈值等的分析条件与图57(a)相同。在这里没有进行相位的校正。根据该结果,在规定的时间宽度中,相位对时间以2π×200的倾斜来变化。在这里,对150Hz的频率进行分析,相位对时刻以2π×150的倾斜来变化的直线和声信号的相位,在规定的时间宽度中的相似度变小。因此,与一定数量以上的声信号(规定的时间宽度中的所有声信号)的相似度成为一定的值以下。因此,可以消除作为声信号的200Hz的正弦波在150Hz的频带中的频率泄漏。
而且,作为其他效果,在上述分析中将中心频率作为150Hz进行了频谱分析,但是成了含有200Hz的频谱分析。此时,对于中心频率150Hz的频谱,求出相位对时刻以2π×200的倾斜来变化的直线和声信号的相位、在规定的时间宽度中的相似度,如果提取了相似度比一定的值大的频谱,则可以提取200Hz的频谱。而且,可以根据中心频率150Hz的频谱,求出声信号中是否存在200Hz的频谱。
图58(b)是作为声信号利用200Hz的正弦波,对相位进行了分析的结果。分析的时间宽度及求出相似度的频谱的数值的下限值、相似度的阈值等的分析条件与图57(b)相同。在这里进行了相位的校正。在这里进行了150Hz的频率的分析。根据该结果可知,在规定的时间宽度中,相位对时刻以Δψ的宽度(这个例子中是π/2)不持有一定的值。因此,与一定数量以上的声信号(规定的时间宽度中的所有声信号)的相似度成为一定的值以下。因此,可以消除来自作为声信号的200Hz的正弦波在150Hz的频带的频率泄漏。
图58(c)是作为声信号利用白噪声,对相位进行了分析的结果。分析的时间宽度及求出相似度的频谱的数值的下限值、相似度的阈值等的分析条件与图57(a)相同。在这里没有进行相位的校正。根据该结果,在规定的时间宽度中,相位对时刻没有以2π×150的倾斜来变化。因此,声信号的相位之间的相似度成为一定的值以下,可以消除白噪声。
图58(d)是作为声信号利用白噪声,对相位进行了分析的结果。在这里进行了相位的校正。根据该结果可知,在规定的时间宽度中,相位对时间以Δψ的宽度(这个例子中是π/2)不持有一定的值。因此,与一定数量以上的声信号(规定的时间宽度中的所有声信号)的相似度成为一定的值以下,可以消除白噪声。
图59示出分析了摩托车声音的结果。图59(a)示出摩托车声音的声谱图,黑的部分是摩托车声音的部分。这里出现了摩托车通过时的多普勒频移(Doppler shift)。图59(b)、图59(c)、图59(d)都示出进行了相位校正时的相位的时间变化。分析的时间宽度及求出相似度的频谱的数值的下限值、相似度的阈值等的分析条件与图57(d)、图58(d)相同。
图59(b)是对作为摩托车声音的频谱部分的120Hz的频带进行了分析的结果,这里可知相位对时间以Δψ的宽度(这个例子中是π/2)持有一定的值。根据上述,相位对时间以2π×120的倾斜来变化的直线进行相位校正使倾斜为零的直线与声信号的相位被补正的相位,在规定的时间宽度中的相似度变大。结合图57(d),图58(d)的结果,则可以确定摩托车声音的频谱,消除白噪声。
图59(c)是对作为摩托车声音的其他频谱部分的140Hz的频带进行了分析的结果,这里可知相位对时间以Δψ的宽度(这个例子中是π/2)持有一定的值。根据上述,相位对时间以2π×140的倾斜来变化的直线进行相位校正使倾斜为零的直线与声信号的相位被校正的相位,在规定的时间宽度中的相似度变大。结合图57(d),图58(d)的结果,则可以确定摩托车声音的频谱,消除白噪声。
图59(d)是对作为噪声的频谱部分的80Hz的频带进行了分析的结果,这里可知相位对时间以Δψ的宽度(这个例子中是π/2)不持有一定的值。根据上述,相位对时间以2π×80的倾斜来变化的直线进行相位校正使倾斜为零的直线与声信号的相位被补正的相位,在规定的时间宽度中的相似度变小。因此,可以消除噪声的频谱。
在这里的Δψ的宽度,根据提取的摩托车声音的相位的时间特性被实验性地求出。该Δψ的宽度,在这个例子中在多普勒频移的摩托车声音和其他部分的摩托车声音中使用同样的值,设为π/2。而且,根据图57(d)、图58(d)的结果可知,即使使该Δψ的宽度变大成为2π/3,白噪声的相位不能成为一定的值,所以能够消除白噪声。
在此,作为噪声被消除的频谱和没有被消除而被提取的频谱的典型的模式进行说明。图60A及图60B模式性地示出了在规定的时间宽度的声信号的相位。横轴是时间,纵轴是相位。用圆点示出了相位被补正了的声信号的频谱的相位。用实线所包围的频谱之间属于同样的簇(cluster),是相似度比一定的值大的频谱的集合。用多变量分析也能求出这些簇。在同一个簇中存在一定的数量以上的频谱的簇的频谱,不会被消除而是被提取,关于只存在比一定的数量少的频谱的簇的频谱,因为一定的数量以上的频谱之间的相似度会成为一定的值以下,所以作为噪声而被消除。如图60A所示,在规定的时间宽度内只有一部分包含噪声部分时,可以只消除该部分的噪声。例如,如图60B所示,即使在有2个想要提取的声音时,也可以通过确定与规定时间宽度的40%以上的(在这里是7个以上)的频谱的相似度比一定的值大的频谱(消除一定的值以下的频谱),来提取2个声音。
另外,实施例1及实施例2中,作为检测音确定部可以利用以往的噪声消除部。例如,可以利用非专利文献1公开的噪声消除部。
在此公开的实施例的所有部分都是例示,应当认为并不是加以限制的内容。本发明的范围不在于上述的说明,是根据权利要求而表示的,并意味着包括与权利要求同等的意思以及在范围内的所有变更。
本发明涉及的声源方向检测装置,能够避免因噪声的影响而输出错误的方向。因此,将本发明的声源方向检测装置编入到例如车载用的以声音检测死角车辆(例如隐藏在交叉路口死角的摩托车)的装置中,就能够在实际环境即噪声下确定死角车辆的方向,可以将危险摩托车的存在告知驾驶人员。而且,将本发明的声源方向检测装置编入到例如电传会议装置中,就可以在噪声下确定讲话人的方向,把麦克风对准讲话人的方向收录声音,或者将摄像机对准讲话人。而且,本发明的声源方向检测装置编入到安全摄像机装置中,就可以在噪声下确定哀鸣声和异常声音的发生方向,并将摄像机对准该方向。
权利要求
1、一种声源方向检测装置,其特征在于,包括
生成单元,对于设置在互相隔开的位置上的两个以上的麦克风所收集的每一个声信号,生成该声信号的至少一个频带的频谱;
检测音确定单元,根据所述频带的频谱,确定求出声源方向的检测音的频谱的时刻部分;以及
检测单元,根据检测声源方向的时间单位即时间区间中的所述检测音确定单元确定的时刻部分的频谱在所述麦克风之间的一致程度,求出所述检测音到达所述麦克风的时间差,根据所述时间差、所述麦克风的距离和音速来求出声源方向并输出,
所述检测单元,在为了使所述时间差成为零而调整了来自所述两个以上的麦克风的频谱的时间轴时,由所述检测音确定单元所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
2、如权利要求1所述的声源方向检测装置,其特征在于,
所述检测单元,进一步在调整了来自所述两个以上的麦克风的频谱的时间轴时,仅在下列情况下输出声源方向,即仅在对于所有声源方向的候补,由所述检测音确定单元所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
3、一种声源方向检测方法,其特征在于,包括
生成步骤,对于设置在互相隔开的位置上的两个以上的麦克风所收集的每一个声信号,生成该声信号的至少一个频带的频谱;
检测音确定步骤,根据所述频带的频谱,确定求出声源方向的检测音的频谱的时刻部分;以及
检测步骤,根据检测声源方向的时间单位即时间区间中的由所述检测音确定步骤所确定的时刻部分的频谱在所述麦克风之间的一致程度,求出所述检测音到达所述麦克风的时间差,根据所述时间差、所述麦克风的距离和音速来求出声源方向并输出,
所述检测步骤,在为了使所述时间差成为零而调整了来自所述两个以上的麦克风的频谱的时间轴时,由所述检测音确定步骤所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
4、如权利要求3所述的声源方向检测方法,其特征在于,
所述检测步骤,进一步在调整了来自所述两个以上的麦克风的频谱的时间轴时,仅在下列情况下输出声源方向,即仅在对于所有声源方向的候补,由所述检测音确定步骤所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
5、一种程序,其特征在于,使计算机执行以下步骤
生成步骤,对于设置在互相隔开的位置上的两个以上的麦克风所收集的每一个声信号,生成该声信号的至少一个频带的频谱;
检测音确定步骤,根据所述频带的频谱,确定求出声源方向的检测音的频谱的时刻部分;以及
检测步骤,根据检测声源方向的时间单位即时间区间中的由所述检测音确定步骤所确定的时刻部分的频谱在所述麦克风之间的一致程度,求出所述检测音到达所述麦克风的时间差,根据所述时间差、所述麦克风的距离和音速来求出声源方向并输出,
所述检测步骤,在为了使所述时间差成为零而调整了来自所述两个以上的麦克风的频谱的时间轴时,由所述检测音确定步骤所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
6、如权利要求5所述的程序,其特征在于,
所述检测步骤,进一步在调整了来自所述两个以上的麦克风的频谱的时间轴时,仅在下列情况下输出声源方向,即仅在对于所有声源方向的候补,由所述检测音确定步骤所确定的时刻部分中所述麦克风之间的共同时刻中存在的部分,在检测所述声源方向的时间单位即时间区间中所占的比率大于规定的阈值的情况下,输出声源方向。
全文摘要
包括FFT分析部(103(1)~103(3)),对于设置在互相隔开的位置上的两个以上的麦克风所收集的每一个声信号,生成该声信号的至少1个频带的频谱;检测音确定部(104(1)~104(3)),根据所述频带的频谱,确定求出声源方向的检测音的频谱的时刻部分;以及方向检测部(105),根据检测声源方向的时间单位即时间区间中的所述检测音确定部(104(1)~104(3))确定的时刻部分的频谱在所述麦克风之间的一致程度,求出所述检测音到达所述麦克风的时间差,根据所述时间差、所述麦克风间的距离和音速来求出声源方向并输出。
文档编号G01S3/808GK101617245SQ200880004059
公开日2009年12月30日 申请日期2008年9月10日 优先权日2007年10月1日
发明者芳泽伸一, 中藤良久 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1