语音激活检测方法和装置制造方法

文档序号：2825524阅读：157来源：国知局

语音激活检测方法和装置制造方法
【专利摘要】本发明公开一种语音激活检测方法和装置。其中在语音激活检测方法中，检测音频信号中的单调分量，并将单调分量放置在单调分量集合中；计算单调分量集合中连续谐波片段的和谐性判据；将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。通过检测音频信号中的连续谐音片段，并估计各个连续谐音片段的和谐性，利用和谐性的判据判断是否存在语音信号，从而提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。
【专利说明】语音激活检测方法和装置
【技术领域】
[0001]本发明涉及通信领域，特别是涉及一种语音激活检测方法和装置。
【背景技术】
[0002]语音激活检测(Voice Active Detection,简称:VAD)是数字语音处理技术的基础，它提供对一段音频信号中是否有语音信号存在的判断。语音激活检测广泛应用于语音编码，语音增强和去噪，语音识别等领域中，例如，在语音编码中，可以对有语音的片段进行有效的语音编码，对无语音的片段进行静音编码或舒适性噪声编码，从而提高编码的效率；对于语音增强和去噪，语音激活检测使得语音间隙的噪声估计和语音片段的信噪比估计成为可能；良好的语音激活检测则能极大提高语音识别的准确率。
[0003]尽管语音激活检测如此基础和重要，其实现算法也多种多样，但其准确率，鲁棒性和实时性，依旧是极难解决的问题。语音激活检测的准确率，极度依赖于信号中噪声的强度和类型，当信噪比较低，噪声非平稳时，判断准确率不可避免地降低。如果增加提供给语音激活检测算法的信息，即延长判断的时间间隔，可以一定程度提高准确率和鲁棒性，但是这又降低了判断的时间分辨率，增加了判断延迟，进一步降低了算法实时性，这将阻碍语音激活检测在一些在线的或实时的语音处理应用中发挥作用。
[0004]现有语音激活检测的实现算法，包括基于能量/信噪比阈值的算法和基于频域特征的算法。基于能量/信噪比阈值的算法，有时域短时能量/信噪比判别和子带域短时能量/信噪比判别，这类算法通过设置能量/信噪比的单门限或双门限进行激活判断。基于频域特征的算法检测频谱的不平滑特征，典型的有信号熵检测和利用Mel倒谱系数的模式分类。上述算法都未能充分利用语音信号的特征，其在噪声环境下的鲁棒性并不足够高。

【发明内容】

[0005]本发明要解决的技术问题是提供一种语音激活检测方法和装置。通过音频信号的单调分量集合中连续谐波片段的和谐性判据来判断音频信号是否为语音信号，能够提高语音激活检测在非平稳噪声环境下的准确性和鲁棒性。
[0006]根据本发明的一个方面，提供一种语音激活检测方法，包括:
[0007]检测音频信号中的单调分量，并将单调分量放置在单调分量集合中；
[0008]计算单调分量集合中连续谐波片段的和谐性判据；
[0009]将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频
信号为语音信号。
[0010]优选的，检测音频信号中的单调分量，并将单调分量放置在单调分量集合中的步骤包括:
[0011]针对音频信号中的每一个频谱幅值Xa[k]，若Xa[k]同时大于XA[k_l]和XA[k+l]，则将xA[k]作为单调分量，其中k为频谱序号索引；
[0012]将单调分量放置在单调分量集合中。[0013]优选的，若Xa[k]同时大于XA[k_l]和XA[k+l]，进一步判断XA[k]是否大于幅度阈值；
[0014]若Xa[k]大于幅度阈值，则执行将Xa[k]作为单调分量的步骤。
[0015]优选的，与XA[k]相对应的幅度阈值为本底幅度曲线值Xs[k]，其中
【权利要求】
1.一种语音激活检测方法，其特征在于，包括: 检测音频信号中的单调分量，并将单调分量放置在单调分量集合中；计算单调分量集合中连续谐波片段的和谐性判据；将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。
2.根据权利要求1所述的方法，其特征在于: 检测音频信号中的单调分量，并将单调分量放置在单调分量集合中的步骤包括:针对音频信号中的每一个频谱幅值Xa[k]，若Xa[k]同时大于XA[k-l]和XA[k+l]，则将Xa[k]作为单调分量，其中k为频谱序号索引；将单调分量放置在单调分量集合中。
3.根据权利要求2所述的方法，其特征在于: 若XA[k]同时大于XA[k-l]和XA[k+l]，进一步判断XA[k]是否大于幅度阈值；若XA[k]大于幅度阈值，则执行将Xa[k]作为单调分量的步骤。
4.根据权利要求3所述的方法，其特征在于: 与Xa[k]相对应的幅度阈值为本底幅度曲线值Xs [k]，其中
5.根据权利要求2-4中任一项所述的方法，其特征在于: 频谱序号索引k的取值范围为大于索引下限int[flOTN/fs]，小于索引上限int[fhighN/fs]，其中函数int[]表示向下舍入取整函数，N为用于进行频谱分析获得音频信号频谱的窗函数长度，fs为音频信号的采样频率，flow为频率下限，fhigh为频率上限。
6.根据权利要求1所述的方法，其特征在于: 计算单调分量集合中连续谐波片段的和谐性判据的步骤包括: 对于单调分量集合中的包括L个单调分量的子集合{XA[Ci]}，i=l,2,…，L，ci〈c2〈…<CL, XA[Ci]对应的频率为 Tf [CiL其中 Tf[Cl]〈Tf[C2]〈*"〈Tf[CJ，若满足
Tf [C1I=Hi (fo+Δ fcl)
Tf [c2] = (m+l) (f0+ Δ fc2),
?
?
Tf [cj = (m+L-1) (f0+ Δ fcL) 其中m≥0，同时非和谐因子F
7.根据权利要求6所述的方法，其特征在于: 在计算所述连续谐波片段的和谐性判据Fweight之后，还包括: 对和谐性判据Fweight进行加权处理，以得到更新后的和谐性判据F?ight—_， F=F H「FIh1 weight_new 1 weight unharmonic L unharmonic」iiLJ 其中tw[ci]是xa[ci]固定的权重，Η?[χ]是映射函数，如果 X Fu^armonic—Thr，贝U HunJiarmOnic [X] ^thr ;如果X=OJiJ Hunharmoni c[x]=H0,则 Hunharmoni c[X]在 O ≤ X ≤

Funharmoni c_Thr

的范围内连续变动。
8.根据权利要求7所述的方法，其特征在于:
9.根据权利要求6-8中任一项所述的方法，其特征在于: 候选基频fo的选择范围为[fo—min，f0_maJ，
10.根据权利要求9所述的方法，其特征在于:
在[f。—min，f0_max]中，选择候选基频 fQ 使得 maX ( | Δ fcl |，| Λ f。2 |，…，| Δ fcL | )最小。
11.根据权利要求6-8中任一项所述的方法，其特征在于: Xa[Ci]的判决权重Tw[Ci]为对数频谱幅值Xu[Ci]，其中Xu[Ci] = log(XA[Ci])。
12.根据权利要求6-8中任一项所述的方法，其特征在于: Xa[Ci]的判决权重Tw[Ci]为单调分量XA[Ci]对应的完整峰体范围内对数频谱幅值曲线Xla高于当前音频信号本底幅度曲线Xs部分的和；其中，所述完整峰体范围对应的索引边界为: 从4 逐一递减，将满足 XLA[ks-l]〈Xu[ks]且 XLA[ks]>XLA[ks+l]或 XLA[kJ〈Xs[kJ 的第一个索引匕作为所述完整峰体范围的索引下边界；从4 逐一递增，将满足 XLA[k「l]〈Xu[kJ 且 XLA[ke]>XLA[ke+l]或 XLA[ke]〈Xs[ke]的第一个索引kj乍为所述完整峰体范围的索引上边界。
13.根据权利要求6-8中任一项所述的方法，其特征在于: 单调分量Xa[k]对应的频率Tf [k]为kfs/N，其中N为用于进行频谱分析获得音频信号频谱的窗函数长度，fs为音频信号的采样频率。
14.根据权利要求6-8中任一项所述的方法，其特征在于: 单调分量XA[k]对应的频率Tf [k]为kffs/N，其中，
15.根据权利要求6-8中任一项所述的方法,其特征在于: 单调分量XA[k]对应的频率Tf [k]为kffs/N，其中，
若 XA[k-l]〈XA[k+l]，则
16.根据权利要求1所述的方法，其特征在于: 判别阈值Jvad thr为
J vad_thrvad_speech? 其中α为判决参数，Jvad sp_h为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。
17.一种语音激活检测装置，其特征在于，包括: 单调分量检测单元，用于检测音频信号中的单调分量，并将单调分量放置在单调分量集合中；和谐性判据计算单元，用于计算单调分量集合中连续谐波片段的和谐性判据；语音信号检测单元，用于将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。
18.根据权利要求17所述的装置，其特征在于: 单调分量检测单元具体针对音频信号中的每一个频谱幅值XA[k]，若XA[k]同时大于XA[k-l]和XA[k+l]，则将XA[k]作为单调分量，其中k为频谱序号索引；并将单调分量放置在单调分量集合中。
19.根据权利要求18所述的装置，其特征在于: 单调分量检测单元还用于在Xa[k]同时大于XA[k-l]和XA[k+l]时，进一步判断XA[k]是否大于幅度阈值，若XA[k]大于幅度阈值，则执行将Xa[k]作为单调分量的操作。
20.根据权利要求18或19所述的装置，其特征在于: 频谱序号索引k的取值范围为大于索引下限int[flOTN/fs]，小于索引上限int[fhighN/fs]，其中函数int[]表示向下舍入取整函数，N为用于进行频谱分析获得音频信号频谱的窗函数长度，fs为音频信号的采样频率，flow为频率下限，fhigh为频率上限。
21.根据权利要求17所述的装置，其特征在于:和谐性判据计算单元包括识别模块和判据计算模块，其中: 识别模块，用于对于单调分量集合中的包括L个单调分量的子集合{XA[Ci]}，i=l,2，…，L，ci〈c2〈…〈CL，XA[Ci]对应的频率为 Tf [Ci]，其中 Tf[Cl]〈Tf[C2]〈~〈Tf[CJ，若满足
Tf [C1I=Hi (fo+Δ fcl)
Tf [c2] = (m+l) (f0+ Δ fc2),
?
?
Tf [cj = (m+L-1) (f0+ Δ fcL) 其中m≥0，同时非和谐因子F

22.根据权利要求21所述的装置，其特征在于:和谐性判据计算单元还包括加权模块，用于在判据计算模块计算所述连续谐波片段的和谐性判据Fweight之后，对和谐性判据Fweight进行加权处理，以得到更新后的和谐性判据Fweight _， F=F H「FIh
1 weight_new 1 weight unharmonic L unharmonic」iiLJ 其中1?是固定的权重，Η?[χ]是映射函数，如果

X Fu^armonic—Thr，贝U HunJiarmOnic [X] ^thr ;如果X=OJiJ
Hunharmoni c
[x]=H0,则

Hunharmoni c

[X]在 O < X <

Funharmoni c_Thr的范围内连续变动。
23.根据权利要求22所述的装置，其特征在于:

24.根据权利要求21-23中任一项所述的装置，其特征在于: 候选基频fo的选择范围为[fo—min，f0_maJ，
f。—min mill (f"d，fd—cl，fd—c2，，fd—cL)f。—max m￡lX (f"d，fd—Cl，fd—c2，，fd—cL)
25.根据权利要求21-23中任一项所述的装置，其特征在于: Xa[Ci]的判决权重Tw[Ci]为对数频谱幅值Xu[Ci]，其中Xu[Ci] = log(XA[Ci])。
26.根据权利要求21-23中任一项所述的装置，其特征在于: Xa[Ci]的判决权重Tw[Ci]为单调分量XA[Ci]对应的完整峰体范围内对数频谱幅值曲线Xla高于当前音频信号本底幅度曲线Xs部分的和；其中，所述完整峰体范围对应的索引边界为: 从4 逐一递减，将满足 XLA[ks-l]〈Xu[ks]且 XLA[ks]>XLA[ks+l]或 XLA[kJ〈Xs[kJ 的第一个索引匕作为所述完整峰体范围的索引下边界；从4 逐一递增，将满足 XLA[k「l]〈Xu[kJ 且 XLA[ke]>XLA[ke+l]或 XLA[ke]〈Xs[ke]的第一个索引kj乍为所述完整峰体范围的索引上边界。
27.根据权利要求17所述的装置，其特征在于: 判别阈值Jvad thr为 T = Ct T
J vad_thrvad_speech? 其中α为判决参数，Jvad sp_h为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。
【文档编号】G10L15/04GK103839544SQ201210488703
【公开日】2014年6月4日申请日期:2012年11月27日优先权日:2012年11月27日
【发明者】吴晟, 林福辉, 徐晶明, 蒋斌申请人:展讯通信（上海）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴晟;林福辉;徐晶明;蒋斌;
技术所有人：展讯通信(上海)有限公司;
我是此专利的发明人

上一篇：一种吉他指法器的制造方法
上一篇：声音信号处理方法、智能终端及系统的制作方法