有语音的话音检测方法和装置的制造方法_2

文档序号:9925381阅读:来源:国知局
峰的高度;每帖包含5ms或W48曲Z采样速率的输入信号的240个采样。第二图中的 虚线示出了峰高阔值。当峰高超过阔值时,判定该帖包含有语音的话音。第=图示出了检测 判定。也就是说,第=图中的值1指示该帖包含有语音的话音,而值时旨示该帖不包含有语音 的话音。从第二图中可W看出,ACF的最大值针对语音和键盘打字二者均具有高峰。因此,从 第=图可W看出,存在许多关于键盘打字的声音的错误触发。
[0035] 因此,仅基于峰高的检测方法针对有语音的话音的可靠检测不够鲁棒。
[0036] 在有语音的话音信号中,可W期望ACF峰窄而尖,并且因此也有利于测量最突出的 峰的宽。图4示出了其中使用针对图3中的示例中的相同输入信号的示例。第一图示出了输 入信号的采样数据。第二图示出了针对每帖的归一化的ACF峰高。第S图示出了针对每帖的 最高峰的峰宽。y-轴表示ACF的箱的数量。可W从第S图中看出,在谈话突发期间与在键盘 打字期间相比峰宽更低。
[0037] 通过评估ACF中的峰的高度和宽度二者,有语音的话音检测器可W避免关于不是 有语音的话音但是仍在ACF中产生高峰的声音的错误触发。
[0038] 本实施例介绍了有语音的话音检测方法500,其中首先计算输入信号一部分的 ACF。然后检测计算的ACF的确定范围内的最高峰,并确定检测到的峰的峰宽和峰高。基于峰 宽和峰高,判定输入音频信号的一段是否包括有语音的话音。
[0039] 图5示出方法500。在第一步骤501中,计算输入信号的一部分的ACF。语音活动性检 测通常通过处理来自例如话音编解码器的具有特定长度的帖在流音频上运行。然而,ACF的 计算不依赖于接收每帖固定数量的采样,并且因此可W在帖长度变化或者针对每个采样完 成了处理的情况下使用该方法。在其上计算ACF的分析窗口的长度可W是动态的,基于例如 前一或预测的音高周期。因此,在当前方法中ACF的计算不限于要一次处理的输入信号的一 部分的任意特定长度。
[0040] 分析窗口长度N应当至少与应当可检测的最低频率的波长一样长。在有语音的话 音的情况下,该长度应当与至少一个音高周期相对应。因此,对于ACF计算要求具有与分析 窗口相同长度的过去采样的缓存器。可W用新的采样来更新缓存器,所述新的采样或者是 逐采样接收的,或者是作为采样的帖(或段)接收的。长分析窗口导致更稳定的ACF,但还导 致了临时的模糊效应。长分析窗口还具有对于该方法的整体复杂度的强作用。
[0041] 在下一步骤503中,在确定范围内检测计算的ACF的最高峰。关注范围(即,确定范 围)与音高范围(即,期望存在有语音的话音的音高的间隔)相对应。话音的基频可W从低音 高的男性语音的40化变化至儿童或高音高的女性语音的600Hz,通常对于男性语音范围是 85-155HZ,针对女性语音165-255化W及针对儿童的250-300HZ。关注范围因此可W被确定 为在40化和600Hz之间,例如,85-300HZ,但是根据应用还可W使用任意其他子范围或整个 40-600化范围。通过限制音高范围,由于不必针对全部箱计算ACF而减小了复杂度。
[0042] 100-400化的示例范围与2.5-lOms的音高周期相对应。使用48曲Z采样频率,该关 注范围包括图化中的ACF的箱125-500,其中关注示例范围由虚线标记。应当注意的是,与音 高评估方法相反,不必找到正确峰(即,与有语音的话音的基频相对应的峰)。与二次谐频相 对应的峰也可W被用于有语音的话音的检测中。
[0043] 通过找到确定范围内ACF的最大值来检测最高峰。应当注意的是,因为如图2a中可 W看出的ACF可W具有高负值,由ACF的最大正值来确定最高峰。
[0044] 在步骤505中,当已经检测到了关注范围内的最高峰时,确定该峰的高度和宽度。 峰高是峰的顶部的最大值,即,在步骤503中捜索W识别最高峰的ACF的最大值。在距离它的 顶部特定距离处测量峰宽。
[0045] 图6示出了在步骤505中确定ACF峰宽的示例。可W通过计算在AFC曲线降至特定跌 落阔值W下之前从峰的中部往上的箱的数量,来确定峰宽。相应地,计算在AFC曲线降至所 述跌落阔值W下W前从峰的中部往下的箱的数量。然后将运些数量相加,W指示峰宽。跌落 阔值可W或者被定义为峰高的百分比,或定义为绝对值。使用归一化的ACF(即,范围-1…1 中的值),已经发现等于0.2的跌落阔值给出良好的实验结果,但是该方法不限于所述值。
[0046] 在步骤507中,基于最高峰的高度和宽度来判定输入音频段是否包括有语音的话 音。结合图7进一步解释该判定步骤。
[0047] 将检测到ACF的最高峰的高度与第一阔值thri进行比较701。如果峰高不超过第一 阔值,则信号段被判定为不包括有语音的话音。如果峰高超过第一阔值,则执行下一比较 703。在703中,将最高峰的峰宽与第二阔值thn进行比较。如果峰宽超过了第二阔值,则该 峰与对于有语音的话音所预期的相比更宽,并且因此认为其不包含强音高。在运种情况下, 信号段被判定为不包括有语音的话音。如果峰宽小于第二阔值,则峰足够窄W指示有语音 的话音并且信号可能包含音高。在运种情况下,该信号被判定为包括有语音的话音。
[004引如W上所解释的,如果峰高超过第一阔值并且峰宽小于第二阔值,则输入音频信 号的段被判定为包括有语音的话音。如果峰高超过第一阔值并且峰宽超过第二阔值,则输 入音频信号的段被判定为不包括有语音的话音。在一个实施例中,第二阔值被设置为恒定 值。在另一实施例中,第二阔值根据先前检测到的音高来动态设置。在另一实施例中,第二 阔值根据检测到的最高峰的音高来动态设置。
[0049]图8示出了基于峰高和峰宽二者的有语音的话音检测的示例。输入音频与图3和4 中的示例相同。第一图示出了输入信号的采样数据。第二图示出了针对每帖的归一化的ACF 峰高。第=图示出了针对每帖的最高峰的峰宽。第二和第=图中的虚线分别示出了峰高阔 值thri和峰宽阔值thn。第四图示出了检测判定。可W从第二图中看出,ACF的最大值针对话 音和键盘打字二者具有高峰,而可W从第=图中看出在谈话突发期间峰宽更低。如可W从 第四图中看出,包含打字的信号段不被检测为有语音的话音。即,错误检测的数量远低于图 3的示例中所示。在运种情况下,峰宽给出了比峰高更有用的信息。
[0050] 峰高thri和峰宽thn的阔值可W是恒定的或动态的。在一个实施例中,可W根据是 否针对先前的帖或段检测到音高来动态调整阔值。例如,如果判定先前的帖包括有语音的 话音,则可W例如通过降低thri和提高thn来放宽阔值。原因在于,如果在前一帖中找到了 音高,则很可能当前帖中也存在音高。通过使用动态的与音高相关的阔值,即使检测器部分 地受到其他非音高的声音的干扰,检测器还是可W更好地跟踪音高轨迹。在一个实施例中, 可W使峰宽阔值thn依赖于评估的峰(当前ACF中的最高峰)的相应音高。即,阔值thn可W 适配于音高频率。检测到的音高的频率越低,则A
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1