有语音的话音检测方法和装置的制造方法

文档序号:9925381阅读:397来源:国知局
有语音的话音检测方法和装置的制造方法
【技术领域】
[0001] 本申请设及用于检测音频信号中有语音的话音的方法和设备。
【背景技术】
[0002] 语音活动性检测(VAD)被用于在话音处理中检测信号中人类话音的存在或缺失。 在话音处理应用中,语音活动性检测由于通常可W丢弃非话音帖而发挥重要作用。在话音 编解码器中,语音活动性检测被用于判定何时实际存在应当被编码并发送的话音,因此避 免对静默或背景噪声帖的不必要的编码和发送。运被称作不连续传输(DTX)。作为另一示 例,语音活动性检测可W被用作对其它音频处理算法的预处理步骤,W避免对不包含话音 的数据运行更复杂的算法(例如,在话音识别中)。语音活动性检测还可W被用作自动电平 控制/自动增益控制(ALC/AGC)的一部分,其中该算法需要知晓何时存在活动话音并可W测 量活动话音电平。在视频会议混合器中,语音活动性检测可W被用作用于判定哪个与会人 员是当前活跃的并应当在主视频窗口中显示的触发。
[0003] 语音活动性检测通常基于检测组成口语的不同声音的技术的组合。话音包含调性 的声音,称为有语音的,W及非调性的声音,称为非语音的。运些声音在性质及物理上产生 它们的方式上均差异很大。因此,通常在VAD中使用用于检测运两者的不同方法。
[0004] 为了检测有语音的话音,通常使用不同类型的音高检测技术。存在执行音高检测 的各种方法,并且运些方法中的许多是基于自动校正功能(AC巧的:
[000引心化;化 ^ 二 2了:立 s(t; + n)卽 + n - 0,
[0006] 其中S是输入信号,1是延迟的采样数,称为滞后(lag),并且(t:t+N-l)是时间t处 的长度为N的分析窗,在该分析窗上评估自相关和。
[0007] ACF给出了所调查信号的周期行为的信息,其中强音高产生一系列峰。通常,最高 峰是与有音高的声音的基频相对应的峰。图1示出了有语音的话音信号的ACF的典型示例。 在运种情况下,ACF中最高峰的位置与基础周期相对应。X-轴示出了箱(bin)数。使用48kHz 采样频率,每个箱与0.02ms相对应。
[0008] 然而,存在ACF具有不与有音高的声音相对应的峰的情况。现有方法或者不够鲁棒 并将关于非音高的声音错误触发,或者它们很复杂并且难于实现。

【发明内容】

[0009] 本教导的目的在于:通过实现有语音的话音的鲁棒检测来解决或至少减轻上述问 题的至少一个。
[0010] 在权利要求中阐述了本发明示例的各个方面。
[0011] 根据第一方面,提供了一种用于检测音频信号中的有语音的话音的方法。所述方 法包括:计算输入音频信号的一部分的自相关函数ACF,并检测确定范围内所述自相关函数 的最高峰。确定所述峰的峰宽和峰高;W及基于所述峰宽和所述峰高,判定输入音频信号的 一段是否包括有语音的话音。
[0012] 根据第二方面,提供了一种装置,其中所述装置包括:处理器和存储器,所述存储 器存储指令,当由处理器执行时,所述指令使所述装置:计算输入音频信号的一部分的自相 关函数ACF;检测确定范围内所述自相关函数的最高峰;确定所述峰的峰宽和峰高;W及基 于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
[0013] 根据第=方面,提供了一种计算机程序,包括计算机可读代码单元,当在装置上运 行时,所述计算机可读代码单元使所述装置:计算输入音频信号的一部分的自相关函数 ACF;检测确定范围内所述自相关函数的最局峰;确定所述峰的峰宽和峰局;W及基于所述 峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
[0014] 根据第四方面,一种计算机程序产品,包括存储了根据上述第=方面的计算机程 序的计算机可读介质。
[0015] 根据第五方面,提供了一种用于检测音频信号中的有语音的话音的检测器。所述 检测器包括:ACF计算模块,被配置为计算输入音频信号的一部分的ACF;峰检测模块,被配 置为检测预定范围内ACF的最高峰;W及峰高和峰宽确定模块,被配置为确定所检测到的最 高峰的峰宽和峰高。所述检测器还包括:判定模块,被配置为基于所述峰宽和所述峰高,判 定输入音频信号的一段是否包括有语音的话音。
【附图说明】
[0016] 为了更全面理解本发明的示例实施例,现在结合附图做出对于W下描述的参考, 其中:
[0017] 图1示出了话音信号ACF的典型示例。
[001引图2a示出了键盘敲击的ACF的示例。
[0019] 图化示出了男性语音的有语音的部分的ACF的示例。
[0020] 图3示出了基于峰高的有语音的话音检测的示例。
[0021] 图4示出了 ACF峰宽的示例。
[0022] 图5是用于有语音的话音检测的方法的流程图。
[0023] 图6示出了 ACF峰宽的计算的示例。
[0024] 图7是判定方法的流程图。
[0025] 图8示出了基于峰高和峰宽的有语音的话音检测的示例。
[0026] 图9a在二维空间中示出了判定函数的示例。
[0027] 图9b在二维空间中示出了判定函数的另一示例。
[0028] 图10示出了根据本发明实施例的装置的示例。
[0029] 图11示出了根据本发明实施例的装置的另一示例。
【具体实施方式】
[0030] 通过参考图1至11理解本发明的示例实施例和它的潜在优点。
[0031] 在具体地应当检测话音的方法中,可W充分利用关于物理产生话音声音的方式的 知识。话音由音素(phoneme)组成,音素由声带和声道产生(其包括嘴和嘴唇)。在有语音的 话音中,声源是振动的声葉,其产生脉冲训练信号,然后脉冲训练信号通过声道的声学谐振 滤波。即使在声道的滤波过程之后,声音信号可W被表征为具有来自声道的声学谐振的一 些添加的衰减的一系列脉冲。该特征也在信号的ACF中反映为相对窄和尖锐的峰,并可W被 用于区分有语音的话音与其他声音。
[0032] 作为示例,如键盘打字、击掌等具有强冲击的特定声音,尽管它们未被感知为有音 高的声音,但可W产生ACF中的峰,其看起来与来自有音高的声音相类似。然而,运些峰与有 语音的话音的峰相比通常更宽并且较不尖锐。通过测量最突出峰的宽度,运些峰可W与那 些代表有语音的话音的峰区分开。
[0033] 图2a示出了键盘敲击的ACF的示例,并且图化示出了男性语音的有语音的部分的 ACF的示例。如可W从图2a中看出的,即使针对未被感知为有音高的声音,ACF可W示出高 峰。
[0034] 图3示出了基于峰高的有语音的话音检测的示例。在该示例中使用5秒的输入音频 信号。信号的前一半包含两个谈话突发,一个女性和一个男性,并且信号的后一半包含键盘 打字。第一图示出了输入信号的采样数据。第二图示出了针对每帖的归一化的ACF峰高,即 帖中最高
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1