声音判定方法和声音判定装置的制作方法

文档序号:5821114阅读:194来源:国知局
专利名称:声音判定方法和声音判定装置的制作方法
技术领域
本发明涉及声音判定方法和声音判定装置,其根据由多个声音接收器从 多个声源接收到的声信号来判定是否存在特定的声信号,尤其涉及用于识别 来自距声音接收器最近的声源的声信号的声音判定方法和声音判定装置。
背景技术
随着目前计算机技术的发展,即使对于需要大量操作处理的声信号处理 来说,以实际的处理速度来执行处理过程变得可能。由此期望使用多个麦克 风的多信道声信号处理功能变得可用。上述应用的一个例子是噪声抑制技 术。在噪声抑制技术中,识别来自目标声源例如最近声源的声音,并且通过 如下操作,例如利用入射角或根据该入射角判定的到达每一个麦克风的声音到达时间差作为变量的延迟-和波束形成(delay-sum beamforming)方法或零 点波束形成(nullbeamforming)方法,加强来自识别声源的声音,并且通过 抑制来自除了识别声源之外的声源的声音,来加强目标声音并抑制其它声 音。此外,当作为目标的附近声源移动时,通常利用以入射角作为变量的延 迟-和波束形成方法得到能量分布,并且根据能量分布,估计位于具有最大能 量的角度处的声源,从而加强来自该角度的声音,并抑制来自不同于该角度 的其它角度的声音。此外,当声音不是连续地从该附近目标声源发出时,通常将所估测的环 境噪声的能量与当前能量之间的比率或差值用于检测从该附近目标声源发 出声音的时间间隔。此外,在美国专利No.6,243,322中,揭示了一种方法,其使用通过利用 入射角作为变量的延迟-和处理(用于延迟-和波束形成)得到的能量分布的 峰值与其它角度处的值之间的比率,来判定入射声音是来自附近目标声源还 是来自远距离的声源。发明内容然而,在存在噪声例如环境噪声或非稳态噪声的环境下,通过利用入射 角作为变量的延迟-和处理(用于延迟-和波束形成)得到的能量分布存在以 下问题出现多个峰或峰变宽,从而变得难以识别附近目标声源。此外,当来自附近目标声源的声音不是以恒定强度连续发出时,由于环 境噪声的缘故,能量分布峰变得不清楚,从而存在这样的问题,即检测来自 该目标声源的声音被发出的时间间隔变得更加困难。此外,在美国专利No.6,243,322所揭示的方法中,使用所有频带,包括 具有差S/N比的频带,因此在喧哗的环境中,存在以下问题,即来自附近声 源的声音所在角度的峰变得不清楚,从而难以精确地判定来自该附近声源的 声音。考虑到上述问题,本发明的主要目的是提供 一种声音判定方法和一种 声音判定装置,其中该方法通过计算由多个麦克风接收的声信号的相位差 谱,即使在喧哗的环境中也能够容易识别来自目标声源的声音的出现间隔, 并且在所计算出的相位差等于或小于特定阈值时,判定包括来自作为识别目 标的最近声源的声信号;该声音判定装置用于实施该声音判定方法。此外,本发明的另一个目的是提供一种声音判定方法和其装置,其在S/N 比等于或小于预定阈值时,通过判定不包括来自目标声源的声信号,提高了 识别来自目标声源的声音出现间隔的精确性。此外,本发明的另一个目的是提供一种声音判定方法和其装置,其通过 根据诸如S/N比、环境噪声、滤波器特性、声音特性等因素将用于判定的频 率分类,改善了判定来自目标声源的声音出现间隔的精确性。本发明第一方案的声音判定方法是使用声音判定装置的声音判定方法, 其根据由多个声音接收装置从多个声源接收到的模拟声信号,来判定是否存 在指定声信号,其中该声音判定装置将由各个声音接收装置接收到的各个声 信号转换成数字信号;将被转换成数字信号的各个声信号转换成频率轴上的 信号;计算被转换成频率轴上的信号的各个声信号之间在每一个频率处的相 位差;当所计算的相位差等于或小于预定阈值时,判定包括由所述声音接收 装置从最近声源接收到的声信号;并根据该判定结果执行输出。本发明第二方案的声音判定装置是这样一种声音判定装置,其根据由多个声音接收装置从多个声源接收的模拟声信号,来判定是否存在特定的声信 号,并包括用于将由所述各个声音接收装置接收到的各个声信号转换成数 字信号的装置;用于将被转换成数字信号的各个声信号转换成频率轴上的信 号的装置;用于计算相位差的装置,该相位差为被转换成频率轴上的信号的 各个声信号之间在每一个频率处的相位分量的差值;在所计算出的相位差等 于或小于预定阈值时,用于判定包括指定目标声信号的判定装置;以及用于 根据该判定结果执行输出的装置。本发明第三方案的声音判定装置是这样一种声音判定装置,其根据由多 个声音接收装置从多个声源接收到的模拟声信号,来判定是否存在由声音接 收装置从最近声源接收的声信号,并包括用于将由各个声音接收装置接收 到的各个声信号转换成数字信号的装置;用于根据被转换成数字信号的各个 声信号来产生具有预定时间长度的帧(frame)的装置;用于在所产生的帧单 元中将所述各个声信号转换成频率轴上的信号的装置;用于计算相位差的装 置,该相位差为被转换成频率轴上的信号的各个声信号之间在每一个频率处 的相位分量的差值;在所计算出的相位差等于或大于第一阈值时的频率的百 分比或个数等于或小于第二阈值时,用于判定在所产生的帧中包括来自最近 声源的声信号。本发明第四方案的声音判定装置是第二或第三方案的声音判定装置,并 进一步包括用于基于被转换成频率轴上信号的所述声信号的振幅分量来计 算信噪比的装置;其中在所计算出的信噪比等于或小于预定阈值时,不论相 位差为何,该判定装置判定不包括指定目标声信号。本发明第五方案的声音判定装置是第二至第四方案中的任一方案的声 音判定装置,其中多个声音接收装置被构建为使得所述多个声音接收装置之 间的相对位置能够改变;并进一步包括用于基于多个声音接收装置之间的距 离来计算由该判定装置在判定中要使用的阈值。本发明第六方案的声音判定装置是第二至第五方案中的任一方案的声 音判定装置,并进一步包括选择装置,该选择装置用于根据每一个频率处的 信噪比来选择由该判定装置在判定中要使用的频率,其中所述信噪比基于被 转换成频率轴上的信号的声信号的振幅分量得到。本发明第七方案的声音判定装置是第六方案的声音判定装置,并进一步包括在该判定装置根据相位差等于或大于第一阈值时的频率的个数执行判 定时,用于根据由该选择装置选择的频率个数来计算第二阈值的装置。本发明第八方案的声音判定装置是第二至第七方案中的任一方案的声 音判定装置,并进一步包括抗混叠滤波器,其在声信号被转换为数字信号之 前过滤声信号,以防止出现混叠错误;其中该判定装置从待用于判定的频率中消除比基于抗混叠滤波器特性得到的预定频率高的频率。本发明第九方案的声音判定装置是第二至第八方案中的任一方案的声 音判定装置,并进一步包括这样一种装置,其用于在指定声信号为语音时, 检测被转换成频率轴上的信号的声信号的振幅分量具有局部最小值时的频率,或是基于振幅分量得到的信噪比具有局部最小值时的频率;其中该判定 装置从用于判定的频率中消除所检测到的频率。本发明第十方案的声音判定装置是第二至第九方案中的任一方案的声 音判定装置,其中当指定声信号为语音时,该判定装置从待用于判定的频率 中消除语音基频(音质)不存在时的频率。在第一、第二和第三方案中,例如麦克风的多个声音接收装置将所接收 到的各个声信号转换成频率轴上的信号,计算所述各个声信号的相位差,并 在所计算出的相位差等于或小于预定阈值时,判定包括来自最近目标声源的 声信号。对于来自该最近目标声源的声信号,难以使其混合进反射声音或衍 射声音中,并且其相位差的变化较小,所以当大部分相位差等于或小于该预 定阈值时,可以判定来自该目标声源的声信号被包括。此外,由于诸如环境 噪声的远距离噪声的相位差较大,因此即使在喧哗的环境下,仍能够容易识 别来自该目标声源的声信号的出现间隔。当接收来自多个声源的声信号时, 一般而言,声源与声音接收装置之间 的距离越长,反射声音(其在到达该声音接收装置之前从例如墙壁的物体反 射)和衍射声音(其在到达该声音接收装置之前被衍射)越容易与从该声源 直接到达该声音接收装置的直接声音混合。与直接声音相比,反射声音和衍 射声音在到达之前行进的路径较长,因此当混合有反射声音和衍射声音的声 信号被转换成频率轴上信号时,由于所述路径的原因信号以不同的入射角到 达,所以相位差谱的值不稳定并且变化较大。此外,当该目标声源是最近声 源时,反射声音和衍射声音难以与来自最近声源的声信号相混合,所以该相位差谱变成具有很小变化的直线。因此,在本发明中,利用上述结构,能够 判定在相位差等于或小于该预定阈值时,来自该目标声源的声信号被包括, 并且由于来自例如环境噪声的远距离噪声的相位差较大,所以即使在喧哗环 境下也能够容易识别来自该目标声源的声信号,从而能够抑制噪声。在第四方案中,在信噪比(S/N比)等于或小于该预定阈值时,不管相 位差如何,都判定不包括来自该目标声源的声信号。例如,即使在环境噪声 的相位差偶然正确时,仍能够避免判定错误,从而能够提高识别该声信号的 精确性。在第五方案中,当能够改变所述声音接收装置之间的相对位置时,该阈 值动态地改变。通过计算该阈值并根据所述声音接收装置之间的距离来动态 地改变所计算出的阈值的设定,即使在结构被构建为使得声音接收装置之间 的相对位置可以改变时,仍能够不断最佳化该阈值并提高识别来自该目标声 源的声信号的精确性。在第六方案中,在消除具有低信噪比的频带之后,执行判定过程。通过 消除具有低信噪比的频带,能够提高识别来自目标声源的声信号的精确性。在第七方案中,当根据相位差等于或大于该第一阈值时的频率的个数来 执行判定时,基于由第六方案中的选择装置选择的频率个数,来计算第二阈 值。该第二阈值不是常数,而是基于所选择的频率个数而改变的变量。在第八方案中,当用于防止在被转换成数字信号的声信号中发生混叠错误的抗混叠滤波器的结果呈现为该相位差谱上的失真时,例如以8000 Hz的 采样频率执行取样时,通过消除3300 Hz或更大的频带来执行判定。在第九方案中,当识别作为嗓音的声信号时,考虑对于振幅分量具有局 部最小值和对于相位差变得容易被干扰的频率处的语音特性,从判定过程中 除去这些频率。这使得能够提高识别来自目标声源的声信号的精确性。在第十方案中,当识别作为语音的声信号时,在消去等于或小于基频的 频带之后执行声音判定过程,其中根据语音的频率特性可知在该基频处不存 在语音频谱。这使得能够提高识别来自目标声源的声信号的精确性。通过附图和以下的详细描述,将更充分明白本发明的上述和进一步的目 的和特征。


图1是显示第一个实施例的声音判定方法的实例示图; 图2是显示第一个实施例的声音判定装置的硬件结构的框图; 图3是显示第一个实施例的声音判定装置的功能实例框图; 图4是显示通过第一个实施例的声音判定装置执行的声音判定过程 的实例的流程图;图5是显示通过第一个实施例的声音判定装置执行的S/N比计算过 程的实例的流程图;图6是显示在通过第一个实施例的声音判定装置执行的声音判定过 程中频率与相位差之间关系的实例坐标图;图7是显示在通过第一个实施例的声音判定装置执行的声音判定过 程中频率与S/N比之间关系的实例坐标图;图8是显示在通过第一个实施例的声音判定装置执行的声音判定过 程中频率与相位差之间关系的实例坐标图;图9A、图9B是显示在第二个实施例的声音判定方法中声音特性的 实例坐标图;图IO是显示通过第二个实施例的声音判定装置执行的局部最小值检 测过程的实例的流程图;图11是显示在第二个实施例的声音判定方法中语音(voice)的基频 特性的坐标图;图12是显示通过第三个实施例的声音判定装置执行的第一阈值计算 过程的实例的流程图。
具体实施方式
根据附图以下将描述本发明的优选实施例。在以下描述的实施例中, 作为处理目标的声信号主要是人的讲话声音(语音)。 第一个实施例图1是显示本发明第一个实施例的声音判定方法的实例示图。在图1 中,附图标记1是应用到手机的声音判定装置,声音判定装置1由用户 携带并接收用户发出的语音作为声信号。此外,除了该用户的语音之外,声音判定装置1还接收各种环境噪声,例如他人的语音、机器噪声、音 乐声等。因此,声音判定装置1通过执行以下处理来抑制噪声从多个 声源接收到的各种声信号中识别目标声信号,然后加强所识别出的声信 号,并抑制其它的声信号。声音判定装置1的目标声信号是来自最接近 声音判定装置1的声源的声信号,或者换句话说是该用户的语音。图2是显示第一个实施例的声音判定装置1的硬件结构的实例框图。 声音判定装置l包括控制单元IO,例如CPU,其控制整个装置;存储单元11,例如ROM、 RAM,其存储数据,例如类似计算机程序的程序 和各种设定值;以及通信单元12,例如天线和其附件(通信接口)。此外,声音判定装置l包括多个声音接收单元13,例如接收声信号的麦克风;声音输出单元14,例如扬声器;以及声音转换单元15,其执行与 声音接收单元13和声音输出单元14相关的声信号的转换处理。由声音 转换单元15执行的转换处理是将从声音输出单元14输出的数字信号转 换为模拟信号的处理,以及将从声音接收单元13接收到的声信号从模拟 信号转换成数字信号的处理。此外,声音判定装置1包括操作单元16, 其接收操作控制,例如通过键盘输入的字母数字文本或各种命令;以及 显示单元17,例如显示各种信息的液晶显示器。此外,通过由控制单元 IO执行包括在计算机程序100中的各种步骤,手机操作为该声音判定装 置1。图3是显示第一个实施例的声音判定装置1的功能元件的实例的框 图。声音判定装置1包括多个声音接收单元13;抗混叠滤波器(anti-aliasing filter) 150,其起到LPF (Low Pass Filter,低通滤波器) 的作用,用于在将模拟声信号转换成数字信号时防止发生混叠错误;以 及A/D转换单元151,其执行模拟声信号到数字信号的A/D转换。抗混 叠滤波器150和A/D转换单元151是在声音转换单元15中实现的功能元 件。也可以将抗混叠滤波器150和A/D转换单元151安装在外部拾音装 置中,而不包括在声音判定装置1中作为声音转换单元15。此外,声音判定装置1包括帧产生单元110,其成为处理单元根 据数字信号产生具有预定时间长度的帧;FFT转换单元lll,其利用FFT(快速傅里叶变换)处理将声信号转换为频率轴上信号;相位差计算单元112,其计算通过多个声音接收单元13接收到的声信号之间的相位差;S/N比计算单元113,其计算声信号的S/N比;选择单元114,其选择预 期用于处理的频率;计数单元115,其计数具有大相位差的频率;声音判 定单元116,其识别来自最近目标声源的声信号;以及声信号处理单元117,其根据所识别出的声信号执行诸如噪声抑制处理。帧产生单元110、 FFT转换单元lll、相位差计算单元112、选择单元114、计数单元115、 声音判定单元116和声信号处理单元117是通过执行存储在存储器单元 11上的各种计算机程序而实现的软件功能元件,然而,它们也可以通过 使用诸如各种处理芯片的专用硬件来实现。接下来,将说明由第一个实施例的声音判定装置1执行的处理过程。 在以下说明中,将声音判定装置1说明成包括两个声音接收单元13。然 而,声音接收单元13并不限于两个,可以设置三个或更多个声音接收单 元13。图4是显示通过第一个实施例的声音判定装置1执行的声音判定 过程的实例的流程图。根据来自执行计算机程序100的控制单元10的控 制命令,声音判定装置1经由多个声音接收单元13接收声信号,如步骤 S101,然后通过抗混叠滤波器150 (其是LPF)过滤所述信号,在频率 8000 Hz处对接收为模拟信号的声信号进行采样,并将所述信号转换成数 字信号,如步骤S102。此外,在步骤S103,根据帧产生单元110基于来自控制单元10的 控制命令执行的过程,声音判定装置1根据已被转换成数字信号的所述 声信号产生具有预定时间长度的帧,如步骤S103。在步骤S103中,将 声信号放入到大约20 ms至40 ms预定时间长度的帧单元中。每一个帧具 有约10 ms至20 ms的溢出(overrun)。此外,语音识别领域中的典型 帧处理(例如使用窗口的开窗口处理)起到Hamming窗口或Harming窗 口的作用,并且对每一个帧执行预加重滤波处理。对以此方式产生的每 一个帧执行以下处理。在步骤S104,通过FFT转换单元111根据来自控制单元10的控制 命令执行的处理,声音判定装置1执行帧单元中声信号的FFT处理,并 将所述声信号转换成相位谱和振幅谱,其中所述相位谱和振幅谱是频率 轴上信号,如步骤S104,然后根据已被转换成频率轴上信号的帧单元中声信号的振幅分量,开始S/N计算过程以计算该S/N比(信噪比),如 步骤S105,并且经由通过相位差计算单元112执行的处理,计算各个声 信号的相位谱之间的差值作为相位差,如步骤S106。在步骤S014中, 例如对256个声信号样本执行FFT,并且计算128个频率的相位谱值之 间的差值作为相位差。在步骤S105中开始的S/N比计算过程与步骤S106 的过程同时被执行或稍后被执行。随后将详细说明S/N比计算过程。此外,基于来自控制单元IO的控制命令,经由该选择单元114执行 的处理,声音判定装置1从所有频率中选择预期用于处理的频率,如步 骤S107。在步骤S107中,选择这样的频率在所述频率处容易检测到 来自最近目标声源的声信号,以及在所述频率处难以接收到诸如环境噪 声的外部干扰引起的不利影响。更具体地,除去这样的频带,在所述频 率处相位差容易受到抗混叠滤波器150的电磁感应的干扰。取决于A/D 转换单元151的特性,要被除去的频带不同,然而,通常在高频3300至 3500 kHz或更高的频率处相位差变得容易受到干扰,因此将高于3300 Hz 的频率从用于处理的目标频率中排除。此外,获得通过S/N比计算过程 计算出的每个频率的S/N比,并以获得的最低S/N比的顺序,将预定数 量的频率或小于等于预设阈值的频率从用于处理的目标频率中排除。还 可以获得对每一个帧计算的S/N比,并且代替判定要消除的频率,而是 将S/N比变低处的频率预先设定为要除去的频率。根据步骤S107的处理, 预期用于处理的频率个数縮减到例如100个。基于来自该控制单元IO的控制命令,经由声音判定单元116执行的 处理,声音判定装置1获得通过S/N比计算过程计算出的S/N比,如步 骤S108,并判定所获得的S/N比是否等于或大于预设的Oth阈值,如步 骤S109。可以将例如5 dB的值用作Oth阈值。在步骤S109中,当S/N 比等于或大于Oth阈值时,可以判定存在包括来自最近声源的预期声信号 的可能性,并且当S/N比小于Oth阈值时,可以判定不包括预期声信号。在步骤S109中,当判定S/N比等于或大于Oth阈值时(步骤S109 为是),基于来自控制单元IO的控制命令,经由通过计数单元115执行 的处理,声音判定装置1对在步骤S107中选择的相位差的绝对值等于或 大于预设的第一阈值的频率进行计数,如步骤SllO。基于来自控制单元10的控制命令,经由声音判定单元116执行的处理,声音判定装置1根 据计数结果计算大于第一阈值的所选择的频率的百分比,如步骤Sll,,并判定所计算出的百分比是否等于或小于预设的第二阈值,如步骤S112。 将例如7i/2弧度的值用作第一阈值,将例如3%的值用作第二阈值。在选 择100个频率的情形下,判定是否存在3个或更少具有71/2弧度或更大弧 度相位差的频率。在步骤S112中,当所计算出的百分比小于预设的第二阈值时(步骤 S112为是),根据来自该控制单元IO的控制命令,经由该声音判定单元 116执行的过程,声音判定装置1判定由于直接声音具有较小的相位差而 在帧中包括来自最近声源的声信号,如步骤S113。此外,声信号处理单 元117根据步骤S113的判定结果来执行各种声信号处理和声音输出处 理。在步骤S109中,当判定S/N比小于Oth阈值时(步骤S109为否), 或在步骤S112中,当判定所计算出的百分比大于预设的第二阈值时(步 骤S112为否),基于来自控制单元10的控制命令,经由声音判定单元 116执行的处理,声音判定装置1判定帧中不包括来自最近声源的声信 号,在步骤S114。此外,声信号处理单元117根据步骤S113的判定结 果执行各种声信号处理和声音输出处理。声音判定装置1重复执行上述 的一系列过程,直到通过声音接收单元13接收声信号的过程结束。在上述声音判定过程的实例中,在步骤S111中,声音判定装置l根 据计数结果计算等于或大于第一阈值的所选频率的百分比,在步骤S112 中将所计算出的百分比与表示预设百分比的第二阈值进行比较,然而, 在步骤S112中还可以将在步骤S110中计算出的等于或大于第一阈值的 频率个数与作为第二阈值的值进行比较。当将频率个数作为第二阈值时, 该第二阈值不是常数,而变成基于在步骤S107中所选择的频率而改变的例如,作为参考值,当在步骤S107中选择的频率数个数是128时, 设定第二阈值以使其变成5个频率。以此作为条件,那么在步骤S107中, 当在128个频率中减去28个而使频率个数縮减到100个时,则如以下公 式1所示,第二阈值变成4。5X 100/128=3.906 — 4 公式1 同样,在相同条件下,在步骤S107中,当从所述128个频率中减去 56个频率时,频率个数縮减到72个,则如以下公式2所示,第二阈值变 成3。5X72/128=2.813 — 3 公式2当以此方式将频率个数用作第二阈值时,则在步骤S107中选择频率 之后,基于所选择的频率个数执行处理以计算第二阈值。图5是显示通过第一个实施例的声音判定装置1执行的S/N比计算 过程的实例的流程图。在利用图4描述的声音判定过程(如步骤S105) 中执行该S/N比计算过程。基于来自控制单元10的控制命令,经由S/N 计算单元113执行的处理,声音判定装置1计算帧样本(其为S/N比计 算目标)的振幅值的平方和,作为帧幂(framepower),如步骤S201, 然后读取预设的背景噪声水平,如步骤S202,并计算该帧的S/N比(信 噪比),其是计算得到的帧幂和所读取的背景噪声水平的比,如步骤S203。 当需要基于每一个频率的S/N比,经由选择单元114执行的处理来确定 要被消除的频率时,则不仅仅要计算整个频带的S/N比,也要计算每一 个频率的S/N比。表示每一个频率的背景噪声水平的背景噪声谱用于将 每一个频率的S/N比计算成帧的振幅谱与背景噪声谱的比。此外,基于来自控制单元10的控制命令,经由S/N比计算单元113 执行的处理,声音判定装置1比较帧幂和背景噪声水平,并判定帧幂与 背景噪声水平之间的差值是否等于或小于预定的第三阈值,如步骤S204, 当判定为等于或小于该第三阈值时(步骤S204为是),利用该帧幂的值 更新该背景噪声水平的值,如步骤S205。在步骤S204中,当帧幂与背 景噪声水平之间的差值等于或小于该第三阈值时,则认为该帧幂与背景 噪声水平之间的差值归因于背景噪声水平的变化,所以在步骤S205,利 用最新的帧幂更新该背景噪声水平。在步骤205,将背景噪声水平的值更 新为通过以恒定比组合背景噪声水平和帧幂而计算出的值。例如,更新 值被认为是原始背景噪声水平的0.9倍的值与目前帧幂的0.1倍的值之 和。在步骤S204,当判定帧幂与背景噪声水平之间的差值大于该第三阈值时(步骤S204为否),不执行步骤S205的更新过程。换句话说,当 帧幂和背景噪声水平之间的差值大于该第三阈值时,则认为帧幂和背景 噪声水平之间的差值归因于接收了不同于环境噪声的声信号。通过采用 在诸如语音识别、VAD (语音激活检测)、麦克风阵列处理等的领域中 使用的各种方法,可以估测背景噪声水平。声音判定装置1重复执行上 述的一系列过程,直到通过所述声音接收单元13接收声信号的过程结束。 图6是显示在由第一个实施例的声音判定装置1执行的声音判定过 程中频率与相位差之间关系的实例坐标图。图6是示出通过所述声音判 定过程计算的每一个频率的相位差的坐标图,并示出沿着水平轴显示的 频率和沿着垂直轴显示的相位差之间的关系。图中显示的频率范围是0 至4000 Hz,相位差范围是-兀至lJ+兀弧度。此外,在图6中,显示为+eth和-eth的值是在声音判定过程的说明中所说明的第一阈值。在声音判定过程的说明中,判定相位差的绝对值是否等于或大于该第一阈值,由于 相位差值可以是负值,因此也将该第一阈值设为正值和负值。由所述声音接收单元13从附近声源接收到的声信号主要是直接声音,所以相位差较小并且很少会有间断的相位干扰,然而,包括非稳态噪声的环境噪声 从不同的远距离声源和以不同路径(例如反射声音和折射声音)到达所述声音接收单元13,所以相位差变大并且间断的相位干扰增加。在图6 的高频端,相位差较大,并且观测到间断的相位差,然而这是由于抗混 叠滤波器150的影响造成的。在图6所示的例子中,在声音判定过程中, 通过选择单元114的处理来消除等于或大于3300 Hz的频带,并且由于 仅存在相位差的绝对值等于或大于该第一阈值的一个频率,因此判定来 自最近声源的声信号由于是直接声音而被包括。图7是显示在通过第一个实施例的声音判定装置1执行的声音判定 过程中的频率与S/N比之间关系的实例坐标图。图7为显示在S/N比计 算过程中计算出的每一个频率的S/N比的坐标图,并示出沿着水平轴的 频率和沿着垂直轴的S/N比。在坐标图中显示的频率范围是0至4000 Hz, S/N比的范围是O至100 dB。在声音判定过程中,在选择单元114的处 理中通过除去具有低S/N比(其由图7的圆形标记表示)的频带,来执 行声信号的判定。图8是显示在通过第一个实施例的声音判定装置1执行的声音判定 过程中的频率与相位差之间关系的实例坐标图。图8中所示的坐标图中的符号表示方法与图6相同。在图8中,在声音判定过程中,以虚线圆 (round dot)表示所选择的相位差的绝对值等于或大于第一阈值eth的频 率,并判定由虚线圆表示的频率的百分比或频率个数是否等于或小于第 二阈值。例如,当将第二阈值设定为3个频率时,则在图8所示的例子 中,判定不包括来自最近声源的声信号。在第一个实施例中,说明了该声音判定装置是手机的情形,然而, 本发明并不限于此,该声音判定装置可以是包括声音接收单元的通用计 算机,该声音接收单元不是必须放置并牢固于该声音判定装置内,该声 音接收单元可以是各种形式,例如通过有线或无线连接方式连接的外部 麦克风。此外,在第一个实施例中,说明当S/N比较低时不执行随后的声音 判定的情形,然而,本发明并不限于此,并且各种形式都是可能的,例 如不管S/N比如何,根据相位差为每一个帧判定是否包括来自最近声源 的声信号。第二个实施例第二个实施例是将第一个实施例中来自声源的预期声信号限制为人 的语音的一种实施方式。第二个实施例的声音判定方法以及声音判定装 置的结构和功能与第一个实施例相同,所以通过参考第一个实施例可以 发现关于它们的说明,因此在此省略了对它们的详细说明。在以下的说 明中,对于相同的元件采用与第一实施例相同的附图标记。在第二个实 施例中,将依据语音特性的进一步选择条件添加到在第一个实施例的声 音判定过程中由选择单元114所作的选择中。图9A、图9B是显示在第 二个实施例的声音判定方法中使用的语音特性的实例坐标图。图9A、图 9B示出了女性语音的特性,其中图9A显示基于频率转换处理的每一个 频率的振幅谱值,其中沿着水平轴显示的是频率,沿着垂直轴显示的是 振幅谱,并示出了频率与振幅谱之间关系的坐标图。在该坐标图中显示 的频率范围是0至4000 Hz。图9B显示在声音判定过程中计算出的每一 个频率的相位差,其中沿着水平轴显示的是频率,沿着垂直轴的显示是相位差,并示出了频率与相位差之间关系的坐标图。该坐标图中所显示的频率范围是0至4000Hz,相位差范围是-7i至+7r弧度。通过比较图9A 和图9B可以清楚看到,在振幅谱具有局部最小值的频率处,相位差变得 较大。当使用S/N比的值代替振幅谱时得到相同的结果。因此,当声音 判定装置1经由选择单元114选择频率时,通过消除S/N比或振幅谱具 有局部最小值处的频率,可以提高判定的精确性。图IO是显示通过第二个实施例的声音判定装置l执行的局部最小值 检测过程的实例流程图。如以上利用图9A、图9B所说明的检测局部最 小值的过程,根据来自执行计算机程序100的控制单元10的控制命令, 声音判定装置1检测这样的频率,在所述频率处已转换成频率轴上信号 的声信号的S/N比或振幅谱具有局部最小值,如步骤S301,并将所检测 到的局部最小值的频率信息和这些频率的附近频带存储为要被消除的频 率,如步骤S302。可以将通过S/N比计算过程计算出的值用作声信号的 S/N比的值和振幅谱。步骤S301中的检测过程是将用于判定的预期频率 的S/N比与之前和之后频率的S/N比进行比较,并且当S/N比小于之前 和之后频率的S/N比时,将该频率检测成S/N比具有局部最小值处的频 率。通过将包含目标频率的附近频率的S/N比的平均值作为该目标频率 的S/N比,能够消除微小的变化并以良好的精确性检测局部最小值。此 外,根据之前和之后的S/N比的变化可以检测该局部最小值。图11是显示在第二个实施例的声音判定方法中语音的基频特性的 坐标图。图11是显示女性和男性语音的基频分布图(例如,参考"Digital Voice Processing" , Sadaoki Furui, Tokai University Press, 1985年9月, 第18页),其中沿着水平轴显示的是频率,沿着垂直轴显示的是出现频 率。该基频表示语音谱的下限,所以在低于此基频的频率处不存在语音 谱部分。从图ll所示的嗓音的频率分布可以清楚看到,大部分嗓音被包 括在大于80 Hz的频带中。因此,当声音判定装置1通过选择单元114 选择频率时,通过消除例如80 Hz或更小的频率,能够提高判定的精确 性。如利用图9A、图9B、图10和图11所说明的,当将来自目标声源 的声音限制为人的语音时,在声音判定过程中,作为经由选择单元114从所有频率中选择用于处理的预期频率的频率选择方法,声音判定装置1 将在局部最小值检测过程中检测并存储的频率作为要被消除的频率予以 消除,并消除不存在基频的低频带的频率。通过如此操作,可以提高判 定的精确性。第三个实施例第三个实施例是使第一个实施例的声音接收单元的相对位置可以改 变的一种实施方式。第三个实施例的声音判定方法以及声音判定装置的 结构和功能与第一个实施例相同,因此通过参考第一个实施例可以发现 关于它们的说明,所以在此省略了对它们的详细说明。然而,例如在诸 如通过有线连接方式使外部麦克风连接至声音判定装置的情况下,可以 改变各个声音接收单元的相对位置。在以下说明中,对于相同的元件采 用与第一个实施例相同的附图标记。在声速为V(m/s)、声音接收单元13之间的距离(宽度)为W(m)和 采样频率为F(Hz)的情形下,优选地,通过以下尼奎斯特频率(Nyquist frequency)的公式3给出第一阈值0th (弧度)与至所述声音接收单元13 的入射角(p (弧度)之间的关系。eth二W'sincp'F'2兀/2V 公式3例如,当从状态V=340 m/s、 W=0.025 m、 F=8000 Hz、 0也=1/2兀弧 度变为W=0.030 m时,通过将第一阈值eth也变成根据以下公式4计算 出的值,能够优化该第一阈值。eth=(0.03x0.85x8000x27i)/(340x2)=3/57t 公式4当采样频率是8000Hz和声速是340 m/s时,优选地,声音接收单元 13之间的距离的上限值是340/8000=0.0425 m=4.25 cm,并且当距离大于 此上限值时,由于旁瓣(siddobe)而产生不利的效果。此外,根据测试 发现下限值优选是1.6cm,并且当距离小于此下限值时,变得难以获得精 确的相位差,从而由于误差而引起结果变大。图12是显示通过本发明第三个实施例的声音判定装置1执行的第一 阈值计算过程的实例的流程图。根据来自执行计算机程序100的控制单 元10的控制命令,声音判定装置1接收所述声音接收单元13之间的宽 度(距离)值,如步骤S401,然后根据接收到的距离计算第一阈值,如1步骤S402,并将所计算出的第一阈值存储为设定值,如步骤S403。在步 骤S401中接收到的距离可以是手动输入的值,或者可以是自动检测到的 值。基于以上述方式设定的第一阈值,执行各种处理例如声音判定处理。
权利要求
1、一种声音判定方法,其使用声音判定装置,该声音判定装置用于判定由多个声音接收单元从多个声源接收到的模拟声信号中是否包括指定的声信号,所述声音判定方法包括以下步骤由所述多个声音接收单元从所述多个声源接收模拟声信号;将由各个声音接收单元接收到的各个模拟声信号转换成数字信号;将被转换成数字信号的各个声信号转换成频率轴上的信号;计算被转换成频率轴上的信号的各个声信号之间在每一个频率处的相位差;当所计算出的相位差等于或小于预定阈值时,判定包括由声音接收单元从最近声源接收到的模拟声信号;以及根据上述判定结果执行输出。
2、 一种声音判定装置,其判定由多个声音接收单元从多个声源接收到 的模拟声信号中是否包括指定声信号,所述声音判定装置包括多个声音接收单元,其从多个声源接收模拟声信号; 第一转换单元,其将由各个声音接收单元接收到的各个模拟声信号转换 成数字信号;第二转换单元,其将被转换成数字信号的各个声信号转换成频率轴上的 信号;相位差计算单元,其计算相位差,该相位差为被转换成频率轴上的信号 的所述各个声信号之间在每一个频率处的相位分量的差值;判定单元,当所计算出的相位差等于或小于预定阈值时,所述判定单元 判定包括指定目标声信号;以及输出单元,其基于上述判定结果执行输出。
3、 一种声音判定装置,其判定由多个声音接收单元从多个声源接收到 的模拟声信号中是否包括由一声音接收单元从最近声源接收到的声信号,所 述声音判定装置包括多个声音接收单元,其从多个声源接收模拟声信号;第一转换单元,其将由各个声音接收单元接收到的各个模拟声信号转换成数字信号;帧产生单元,其根据被转换成数字信号的各个声信号产生具有预定时间长度的帧;第二转换单元,其将所产生的帧单元中的所述各个声信号转换成频率轴上的信号;相位差计算单元,其计算相位差,该相位差为被转换成频率轴上的信号 的所述各个声信号之间在每一个频率处的相位分量的差值;以及判定单元,当所计算出的相位差等于或大于第一阈值时的频率的百分比 或个数等于或小于第二阈值时,所述判定单元判定在所产生的帧中包括来自 最近声源的声信号。
4、 如权利要求2或3所述的声音判定装置,还包括S/N比计算单元,其根据被转换成频率轴上的信号的声信号的振幅分量 计算信噪比;其中当所计算出的信噪比等于或小于预定阈值时,不管所述相位差为何,所 述判定单元判定不包括所述指定目标声信号。
5、 如权利要求2或3所述的声音判定装置,其中将所述多个声音接收单元构建成使得所述多个声音接收单元之间的相 对位置可被改变;以及所述声音判定装置还包括阈值计算单元,其根据所述多个声音接收单元之间的距离,来计算由所 述判定单元在判定中要使用的阈值。
6、 如权利要求2或3所述的声音判定装置,还包括选择单元,其根据每一个频率处的信噪比来选择由所述判定单元在判定 中要使用的频率,其中所述信噪比基于被转换成频率轴上的信号的所述声信 号的振幅分量获得。
7、 如权利要求6所述的声音判定装置,还包括-第二阈值计算单元,当所述判定单元根据所述相位差等于或大于所述第 一阈值时的频率的个数来执行判定时,所述第二阈值计算单元根据由所述选 择单元选择的频率个数计算所述第二阈值。
8、 如权利要求2或3所述的声音判定装置,还包括 抗混叠滤波器,其在声信号转换为数字信号之前过滤所述声信号,以防止混叠错误;其中所述判定单元从待用于判定的频率中消除比基于所述抗混叠滤波器的 特性得到的预定频率高的频率。
9、 如权利要求2或3所述的声音判定装置,还包括检测单元,当指定声信号为语音时,所述检测单元检测被转换成频率轴 上的信号的所述声信号的振幅分量具有局部最小值时的频率,或者检测基于 所述振幅分量得到的所述信噪比具有局部最小值时的频率;其中所述判定单元从待用于判定的频率中消除所检测到的频率。
10、 如权利要求2或3所述的声音判定装置,其中当指定声信号为语音时,所述判定单元从待用于判定的频率中消除不存 在语音基频时的频率。
全文摘要
本发明提供一种声音判定方法和声音判定装置。该声音判定装置通过多个声音接收单元接收声信号,并产生具有预定时间长度的帧。该声音判定装置在帧单元中对所述声信号执行FFT,并将所述声信号转换成为频率轴上的信号的相位谱和振幅谱,然后将各个声信号之间在每一个频率处的差值计算成相位差,并选择作为处理目标的频率。该声音判定装置计算在所选择的频率的相位差的绝对值等于或大于第一阈值时的频率的百分比,并在所计算出的百分比等于或小于第二阈值时,判定在该帧内包括来自最近声源的声信号。
文档编号G01S11/14GK101236250SQ20071019604
公开日2008年8月6日 申请日期2007年11月30日 优先权日2007年1月30日
发明者早川昭二 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1