用于语音活动性检测的方法和设备的制造方法_2

文档序号:8287966阅读:来源:国知局
AD判决,推导短期活动性测量。
[0021] 在一个实施例中,根据N_lt个最新的最终VAD判决或根据N_lt个最新的初级VAD 判决,推导长期活动性测量。
[0022] 在一个实施例中,创建两个版本的最终判决(第一最终VAD判决和第二最终VAD 判决)。可以不使用短期活动性测量和/或长期活动性测量而作出第二最终VAD判决,并且 可以根据N_lt个最新的第二最终VAD判决,推导长期活动性测量。
[0023] 在一个实施例中,如果确定不执行尾响添加,则最终VAD判决等于初级VAD判决。 在确定要执行尾响添加的情况下,最终VAD判决等于语音活动性判决,指示活动帧。
[0024] 根据本发明的另一方面,提供了一种用于语音活动性检测的设备。所述设备包括: 输入部、初级语音检测器装置和尾响添加单元。所述输入部被配置为:接收输入信号。所述 初级语音检测器装置连接到所述输入部。所述初级语音检测器装置被配置为:检测所接收 的输入信号中的语音活动性,并创建指示与所接收的输入信号相关联的初级VAD判决的信 号。所述尾响添加单元连接到所述初级语音检测器装置。所述尾响添加单元被配置为:确 定是否要执行所述初级VAD判决的尾响添加,并且至少部分根据尾响添加确定,创建指示 最终VAD判决的信号。所述设备还包括:短期活动性估计器和/或长期活动性估计器。所 述短期活动性估计器连接到所述尾响添加单元的输入。所述长期活动性估计器连接到所述 尾响添加单元的输出。所述尾响添加单元连接到所述短期活动性估计器和/或所述长期活 动性估计器的输出。所述尾响添加单元还被配置为:根据所述短期活动性测量和/或所述 长期活动性测量来执行所述尾响确定。
[0025] 在一个实施例中,所述短期活动性估计器被配置为:根据N_st个最新的初级VAD 判决来推导短期活动性测量。
[0026] 在一个实施例中,所述长期活动性估计器被配置为:根据N_lt个最新的最终VAD 判决或根据N_lt个最新的初级VAD判决,推导长期活动性测量。
[0027] 在一个实施例中,提供了一种设备。该实施例基于处理器(例如微处理器),该处 理器执行:用于创建指示初级VAD判决的信号的软件组件;用于确定是否要执行初级VAD 判决的尾响添加的软件组件;以及用于至少部分根据尾响添加确定,创建指示最终VAD判 决的信号的软件组件。在该实施例中,处理器执行:用于根据1^个最新的初级VAD判决 来推导短期活动性测量的软件组件;和/或用于根据N_lt个最新的最终VAD判决来推导长 期活动性测量的软件组件。这些软件组件存储在存储器中。
[0028] 根据本发明的另一方面,提供了一种计算机程序。所述计算机程序包括计算机可 读代码单元,当所述计算机可读代码单元在设备上运行时,使所述设备:创建指示初级VAD 判决的信号;基于短期活动性测量和长期活动性测量中的至少一项,确定是否要执行初级 VAD判决的尾响添加;以及至少部分根据尾响添加确定,创建指示最终VAD判决的信号。
[0029] 根据本发明的另一方面,提供了一种计算机程序产品。所述计算机程序产品包括 计算机可读介质和存储在所述计算机可读介质上的计算机程序,所述计算机程序用于:仓 1J 建指示初级VAD判决的信号;基于短期活动性测量和长期活动性测量中的至少一项,确定 是否要执行初级VAD判决的尾响添加;以及至少部分根据尾响添加确定,创建指示最终VAD 判决的信号。
【附图说明】
[0030] 为了更加完整地理解本发明的示例实施例,现结合附图参考以下说明书,在附图 中:
[0031] 图1示出了一般的具有背景估计的VAD的示例。
[0032] 图2示出了根据本发明的VAD的示例性实施例。
[0033] 图3是示出了根据本发明的实施例的示例性VAD方法的流程图。
[0034] 图4A示出了根据本发明的VAD的一个示例性实施例。
[0035] 图4B示出了根据本发明的VAD的另一示例性实施例。
[0036] 图4C示出了根据本发明的VAD的又一示例性实施例。
[0037] 图5示出了根据本发明的VAD的再一示例性实施例。
[0038] 图6示出了具有尾响的VAD的实施例。
[0039] 图7示出了附加 VAD的实施例。
【具体实施方式】
[0040] 现在已经找到一种减轻这些问题的方式:利用初级检测器度量和最终判决度量的 时间特性。已经发现这些时间特性良好地适于调整附加尾响。优选地使用输入到尾响添加 的初级判决和从尾响添加输出的最终判决中的至少一个来影响尾响添加,并且最优选地使 用这两者。输入到尾响添加的初级判决可以是从初级语音检测器获得的原始初级判决,或 其可以是这种原始初级判决的修改版本。可以基于从其他VAD的输出来执行这种修改。
[0041] 图2中示出了利用输入到尾响添加 202的初级判决和从尾响添加 202输出的最终 判决的一般类型的VAD 200的一个实施例。
[0042] 特征提取器206提供特征子带能量,背景估计器205提供子带能量估计,操作控制 器207可以根据输入信号的特性来调整针对初级检测器的阈值和尾响添加的长度,并且初 级语音检测器201作出如结合图1所描述的初步判决vad_prim 213。
[0043] 在本实施例中,语音活动检测器200还包括:短期活动性估计器203和/或长期活 动性估计器204。使用特征(初级判决的短期活动性vad_prim 213和最终判决的长期活动 性vad_flag 215)来捕获时间特性。然后,使用这些度量来调整尾响添加,以通过创建替换 的最终判决vad_flag_dtx 217来改进用在DTX中的VAD性能。
[0044] 这里,在这种情况下,通过对最新的N_st个初级判决vad_prim 213的存储器中活 动帧的数量进行计数来测量短期活动性。类似地,通过对最新的N_lt个帧中最终判决vad_ flag 215中的活动帧的数量进行计数来测量长期活动性。N_lt大于N_st (优选地远大于)。 然后使用这些度量来创建替换的最终判决vad_flag_dtx 217。使用这些度量的优点是其简 化了尾响的调谐,因为更容易仅在活动性已高的时刻添加尾响。
[0045] 高短期活动性指示活动突发的开始、中间或末尾。乍一看,该度量可能看上去与如 上所述的仅要求多个连续活动帧的常用方式类似。然而,主要差异是:当非活动性判决出现 时,不重设短期活动性。取而代之地,其具有在帧最终被从存储器中丢弃之前针对多达N_ St 个帧记忆活动帧的存储器。因此,非活动帧将仅在一定程度上降低平均短期活动性。对于 足够高的短期活动性,添加若干尾响帧将是安全的,因为短期活动性已高,并且附加尾响将 仅对整个活动性具有较小影响。分散的非活动性帧将不足以降低短期活动性以致干扰这种 尾响操作。
[0046] 分散的非活动性帧可以对应于话语中间的短停顿,或可以是例如由短序列的清辅 音话音引起的错误的非活动性检测。通过以上述方式利用短期活动性,可以在这些情形期 间保持尾响添加。
[0047] 类似地,高长期活动性指示话音突发已经活动了一段时间。如果长期活动性高,因 此具有大概率可能添加若干附加尾响帧,而对整个活动性仍仅具有较小影响。
[0048] 在一个实施例中,将短期活动性和长期活动性分别与相应的预定阈值进行比较。 如果达到各自的阈值,则添加相应的预定数量的尾响帧。
[0049] 因为长期活动性依赖话音活动性的实际末尾相对缓慢地反应,因此存在在话音突 发的末尾之后的相对较长的时间利用大量添加的尾响帧的风险。为此,还可以使用较低的 短期活动性作为话音突发末尾的指示。因此可以期望在一个实施例中如果短期活动性落到 预定阈值以下,则限制附加尾响的量。换言之,足够低的短期活动性可以优先于如同时的高 长期活动性所指示的尾响帧的添加。
[0050] 以下,上述实施例在大多数情况下被描述为复杂度增加较小的对现有方案的修 改。然而,还可以涉及完全新的VAD,该VAD使用以上度量来提供更可靠的VAD判决。
[0051] 在图3中示意性的示出的一个实施例中,用于检测所接收的输入信号中的语音活 动性的语音活动性检测器中的方法包括:创建310指示与所接收的输入信号相关联的初级 VAD判决(优选地通过分析所接收的输入信号的特性)的信号。确定320是否要执行初级 VAD判决的尾响添加。创建330指示最终VAD判决的信号。如果确定不执行尾响添加,则最 终VA
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1