激活音检测及用于激活音检测的方法和装置制造方法

文档序号：2825570阅读：189来源：国知局

激活音检测及用于激活音检测的方法和装置制造方法【专利摘要】本发明涉及一种激活音检测(VAD)及用于激活音检测的方法和装置，该方法包括：获得当前帧的子带信号及频谱幅值；根据子带信号计算得到当前帧的帧能量参数和谱重心特征参数的值；根据前一帧估计得到的背景噪声能量、当前帧的帧能量参数及信噪比子带能量计算得到当前帧的信噪比参数；根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果。本发明方法和装置可提高不稳定噪声(如办公室噪声)和音乐检测的准确率。【专利说明】激活音检测及用于激活音检测的方法和装置【
技术领域：
】[0001]本发明涉及一种激活音检测(VAD)及用于激活音检测的方法(包括背景噪声检测、调性信号检测、VAD判决中当前帧激活音保持帧数的修正、VAD判决中信噪比门限的调整等方法)和装置。【
背景技术：
】[0002]正常的语音通话中，用户有时在说话，有时在听，这个时候就会在通话过程出现非激活音阶段，正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长的50%。在非激活音阶段，只有背景噪声，背景噪声通常没有任何有用信息。利用这一事实，在语音频信号处理过程中，通过激活音检测(VAD)算法检测出于激活音和非激活音，并采用不同的方法分别进行处理。现代的很多语音编码标准，如AMR，AMR-WB，都支持VAD功能。在效率方面，这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是在非稳定噪声下，这些编码器的VAD效率都较低。而对于音乐信号，这些VAD有时候会出现错误检测，导致相应的处理算法出现明显的质量下降。【
发明内容】[0003]本发明要解决的技术问题是提供一种激活音检测(VAD)及用于激活音检测的方法(包括背景噪声检测、调性信号检测、VAD判决中当前激活音保持帧数的修正、VAD判决中信噪比门限的调整等方法)和装置，以提高VAD检测的准确率。[0004]为解决上述技术问题，本发明提供了一种激活音检测(VAD)方法，该方法包括:[0005]获得当前帧的子带信号及频谱幅值；[0006]根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；[0007]根据前一帧估计得到的背景噪声能量、当前帧的帧能量参数及信噪比子带能量计算得到当前帧的信噪比参数；[0008]根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前巾贞的调性标志；[0009]根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果O[0010]为解决上述技术问题，本发明提供了一种激活音检测(VAD)装置，该装置包括:[0011]滤波器组，用于获得当前帧的子带信号；[0012]频谱幅值计算单元，用于获得当前帧的频谱幅值；[0013]特征参数获取单元，用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；[0014]标志计算单元，用于根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的调性标志；[0015]信噪比计算单元，用于根据前一帧估计得到的背景噪声能量、当前帧的帧能量参数及信噪比子带能量计算得到当前帧的信噪比参数；[0016]VAD判决单元，用于根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果。[0017]为解决上述技术问题，本发明提供了一种背景噪声检测方法，该方法包括:[0018]获得当前帧的子带信号及频谱幅值；[0019]根据子带信号计算得到的帧能量参数、谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；[0020]根据谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数、当前帧能量参数进行背景噪声检测，判断当前帧是否为背景噪声。[0021]为解决上述技术问题，本发明提供了一种背景噪声检测装置，该装置包括:[0022]滤波器组，用于获得当前帧的子带信号；[0023]频谱幅值计算单元，用于获得当前帧的频谱幅值；[0024]特征参数计算单元，用于根据子带信号计算得到的帧能量参数、谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；[0025]背景噪声判断单元，用于根据谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数、当前帧能量参数进行背景噪声检测，判断当前帧是否为背景噪声。[0026]为解决上述技术问题，本发明提供了一种调性信号检测方法，该方法包括:[0027]获得当前帧的子带信号及频谱幅值；[0028]根据子带信号计算得到谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；[0029]根据调性特征参数、时域稳定度特征参数、谱平坦度特征参数、谱重心特征参数、判断当前帧是否为调性信号。[0030]为解决上述技术问题，本发明提供了一种调性信号检测装置，该检测装置包括:[0031]滤波器组，用于获得当前帧的子带信号；[0032]频谱幅值计算单元，用于获得当前帧的频谱幅值；[0033]特征参数计算单元，根据在子带信号计算得到谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；[0034]调性信号判断单元，用于根据调性特征参数、时域稳定度特征参数、谱平坦度特征参数、谱重心特征参数判断当前帧是否为调性信号。[0035]为解决上述技术问题，本发明提供了一种VAD判决中当前帧激活音保持帧数的修正方法，该方法包括:[0036]计算得到长时信噪比lt_snr和平均全带信噪比SNR2_lt_ave；[0037]根据前面若干帧的判决结果、长时信噪比lt_snr、平均全带信噪比SNR2_lt_ave、当前帧的信噪比和当前帧的VAD判决结果，对当前激活音保持帧数进行修正。[0038]为解决上述技术问题，本发明提供了一种VAD判决中当前激活音保持帧数的修正装置，该修正装置包括:[0039]长时信噪比计算单元，用于计算长时信噪比lt_snr；[0040]平均全带信噪比计算单元，用于计算平均全带信噪比SNR2_lt_ave；[0041]激活音保持帧数修正单元，用于根据前面若干帧的判决结果、长时信噪比lt_snr、平均全带信噪比SNR2_lt_ave、当前帧的信噪比参数和当前帧的VAD判决结果，对当前激活音保持帧数进行修正。[0042]为解决上述技术问题，本发明提供了一种VAD判决中信噪比门限的调整方法，该调整方法包括:[0043]根据子带信号计算得到当前帧的谱重心特征参数；[0044]计算前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，得到长时信噪比lt_snr;[0045]根据谱重心特征参数、长时信噪比、前面连续激活音帧个数和前面连续噪声帧个数continuous_noise_num调整VAD判决的信噪比门限。[0046]为解决上述技术问题，本发明提供了一种VAD判决中信噪比门限的调整装置，该调整装置包括:[0047]特征参数获取单元，用于根据子带信号计算得到当前帧的谱重心特征参数；[0048]长时信噪比计算单元，用于计算前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，得到长时信噪比lt_snr；[0049]信噪比门限调整单元，用于根据谱重心特征参数、长时信噪比、前面连续激活音帧个数和前面连续噪声巾贞个数continuous_noise_num调整VAD判决的信噪比门限。[0050]本发明方法和装置克服了既有VAD算法的缺点，在提高VAD对不稳定噪声检测效率的同时也提高音乐检测的准确率。使得采用本VAD的语音频信号处理算法可以得到更好的性能。【专利附图】【附图说明】[0051]图1为本发明激活音检测方法实施例1的示意图；[0052]图2为本发明激活音检测方法实施例2的示意图；[0053]图3为本发明实施例1、2中得到VAD判决结果的过程示意图；[0054]图4为本发明激活音检测(VAD)装置实施例1的模块结构示意图；[0055]图5为本发明激活音检测(VAD)装置实施例2的模块结构示意图；[0056]图6为本发明VAD装置中的VAD判决单元的模块结构示意图；[0057]图7为本发明背景噪声检测方法实施例的示意图；[0058]图8为本发明背景噪声检测装置的模块结构示意图；[0059]图9为本发明调性信号检测方法实施例的示意图；[0060]图10为本发明调性信号检测装置的模块结构示意图；[0061]图11为本发明调性信号检测装置的调性信号判断单元的模块结构示意图；[0062]图12为本发明VAD判决中当前激活音保持帧数的修正方法实施例的示意图；[0063]图13为本发明VAD判决中当前激活音保持帧数的修正装置的模块结构示意图；[0064]图14为本发明VAD判决中信噪比门限的调整方法实施例的示意图；[0065]图15为本发明调整信噪比门限的具体流程示意图；[0066]图16为本发明VAD判决中信噪比门限的调整装置的模块结构示意图。【具体实施方式】[0067]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。[0068]需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。[0069]本发明激活音检测(VAD,VoiceActivityDetection)方法实施例1,如图1所示，该方法包括:[0070]步骤101:获得当前帧的子带信号及频谱幅值；[0071]本实施例中以帧长为20ms，采样率为32kHz的音频流为例具体说明。在其它帧长和采样率条件下，本发明的方法同样适用。[0072]将当前帧时域信号输入滤波器组，进行子带滤波计算，得到滤波器组子带信号；[0073]本实施例中采用一个40通道的滤波器组，本发明对于采用其他通道数的滤波器组同样适用。[0074]将当前帧时域信号输入40通道的滤波器组，进行子带滤波计算，得到16个时间样点上40个子带的滤波器组子带信号X[k，1]，0≤k<40，0≤I<16，其中k为滤波器组子带的索引，其值表示系数对应的子带，I为各个子带的时间样点索引，其实现步骤如下:[0075]IOla:将最近的640个音频信号样值存储在数据缓存中。[0076]IOlb:将数据缓存中的数据移40个位置，把最早的40个采样值移出数据缓存，并把40个新的样点存入到O到39的位置上。[0077]将缓存中的数据X乘上窗系数，得到数组z，计算方程式如下:[0078]z[η]=X[η].Wqmf[η]；0≤η<640；[0079]其中Wqmf为滤波器组窗系数。[0080]采用以下的伪代码计算得到一个80点的数据U，【权利要求】1.一种激活音检测(VAD)方法，其特征在于，该方法包括:获得当前帧的子带信号及频谱幅值；根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；根据前一帧估计得到的背景噪声能量、当前帧的帧能量参数及信噪比子带能量计算得到当前帧的信噪比参数；根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的调性标志；根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果。2.如权利要求1所述的方法，其特征在于，在得到VAD判决结果之前或之后，该方法还包括:根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的初始背景噪声标识；在得到VAD判决结果之后，该方法还包括:根据当前帧VAD的判决结果、调性特征参数、信噪比参数、调性标志、时域稳定度特征参数对初始背景噪声标识进行修正；根据背景噪声标识的修正值和当前帧的帧能量参数、前一帧的全带背景噪声能量，得到当前帧的子带背景噪声能量和全带背景噪声能量；所述当前帧的背景噪声能量用于下一帧信噪比参数计算。3.如权利要求1或2所述的方法，其特征在于:所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；所述时域稳定度特征参数是幅值叠加值的方差和幅值叠加值平方的期望的比值，或该比值乘上一个系数；所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到，或继续对该相关值进行平滑滤波得到。4.如权利要求1所述的方法，其特征在于，根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果，计算步骤如下:a，通过前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，计算得到长时信噪比；b，计算最近若干帧的全带信噪比SNR2的平均值，得到平均全带信噪比SNR2_lt_ave；c，根据谱重心特征参数、长时信噪比lt_snr、前面连续激活音帧个数continuous—speech_num和前面连续噪声帧个数continuous_noise_num得到VAD判决的信噪比门限snr_thr；d，根据VAD的判决门限snr_thr和信噪比参数SNR1、SNR2计算得到初始的VAD判决；e，根据调性标志、平均全带信噪比SNR2_lt_ave、谱重心和长时信噪比lt_snr对VAD的判决结果进行修正；f，根据前面若干帧的判决结果、长时信噪比lt_snr、平均全带信噪比SNR2_lt_ave、当前帧的信噪比参数和当前帧的VAD判决结果，修正激活音保持帧数；g，根据当前帧的判决结果和激活音保持帧数num_speech_hangover添加激活音保持，得到当前帧的VAD判决结果。5.如权利要求4所述的方法，其特征在于:步骤d之后，还包括根据VAD初始判决结果，计算平均长时激活音信号能量Efg;步骤g之后，还包括，根据VAD判决结果计算平均长时背景噪声能量Ebg，计算值用于下一帧VAD判决。6.一种激活音检测(VAD)装置，其特征在于，该装置包括:滤波器组，用于获得当前帧的子带信号；频谱幅值计算单元，用于获得当前帧的频谱幅值；特征参数获取单元，用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；标志计算单元，用于根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的调性标志；信噪比计算单元，用于根据前一帧估计得到的背景噪声能量、当前帧的帧能量参数及信噪比子带能量计算得到当前帧的信噪比参数；VAD判决单元，用于根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果。7.如权利要求6所述的VAD装置，其特征在于，所述装置还包括背景噪声能量处理单元，其包括:标识计算模块，用于根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的初始背景噪声标识；标识修正模块，用于根据当前帧VAD的判决结果、调性特征参数、信噪比参数、调性标志、时域稳定度特征参数对初始背景噪声标识进行修正；背景噪声能量获取模块，用于根据背景噪声标识的修正值和当前帧的帧能量参数、前一帧的全带背景噪声能量，得到当前帧的背景噪声能量，所述当前帧的背景噪声能量用于下一帧信噪比参数计算。8.如权利要求6或7所述的VAD装置，其特征在于:所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；所述时域稳定度特征参数是幅值叠加值的方差和幅值叠加值平方的期望的比值，或该比值乘上一个系数；所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到，或继续对该相关值进行平滑滤波得到。9.如权利要求6所述的VAD装置，其特征在于，所述VAD判决单元包括:长时信噪比计算模块，用于通过前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，计算得到长时信噪比lt_snr；平均全带信噪比计算模块，用于计算最近若干个帧的全带信噪比SNR2的平均值，得到平均全带信噪比SNR2_lt_ave；信噪比门限计算模块，用于根据谱重心特征参数、长时信噪比lt_snr、前面连续激活音中贞个数continuous_speech_num和前面连续噪声帧个数continuous_noise_num得到VAD判决的信噪比门限snr_thr；初始VAD判决模块，用于根据VAD的判决门限snr_thr和当前帧计算得到的信噪比参数SNR1、SNR2计算得到初始的VAD判决；VAD结果修正模块，根据平均全带信噪比SNR2_lt_ave、谱重心和长时信噪比lt_snr对VAD的判决结果进行修正；激活音保持帧修正模块，用于根据前面若干帧的判决结果、长时信噪比lt_snr、平均全带信噪比SNR2_lt_ave、当前帧的信噪比和当前帧的VAD判决结果，修正得到激活音保持帧数；VAD判决模块,用于根据当前帧的判决结果和激活音保持帧数num_speech_hangover添加激活音保持，得到当前帧的VAD判决结果。10.如权利要求9所述的VAD装置，其特征在于:所述VAD判决单元还包括:能量计算模块，用于根据VAD初始判决结果，计算平均长时激活音信号能量Efg；以及根据VAD判决结果计算平均长时背景噪声能量Ebg，计算值用于下一帧VAD判决。11.一种背景噪声检测方法，其特征在于，该方法包括:获得当前帧的子带信号及频谱幅值；根据子带信号计算得到的帧能量参数、谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；根据谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数、当前帧能量参数进行背景噪声检测，判断当前帧是否为背景噪声。12.如权利要求11所述的方法，其特征在于:所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；所述时域稳定度参数是帧能量幅值的方差和幅值叠加值平方的期望的比值，或该比值乘上一个系数；所述谱平坦度参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数。13.如权利要求11所述方法，其特征在于:判断以下任一条件成立，则判断当前帧不是噪声信号:所述时域稳定度参数lt_stable_rateO大于一个设定的门限值；第一区间谱重心特征参数值的平滑滤波值大于一个设定的门限值，且时域稳定度特征参数值也大于某一个设定的门限值；调性特征参数或其平滑滤波后的值大于一个设定的门限值，且时域稳定度特征参数lt_stable_rateO值大于其设定的门限值；各子带的谱平坦度特征参数或各自平滑滤波后的值均小于各自对应的设定的门限值；或，判断帧能量参数Etl的值大于设定的门限值E_thrl。14.一种背景噪声检测装置，其特征在于，该装置包括:滤波器组，用于获得当前帧的子带信号；频谱幅值计算单元，用于获得当前帧的频谱幅值；特征参数计算单元，用于根据子带信号计算得到的帧能量参数、谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；背景噪声判断单元，用于根据谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数、当前帧能量参数进行背景噪声检测，判断当前帧是否为背景噪声。15.如权利要求14所述的检测装置，其特征在于:所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；所述时域稳定度参数是帧能量幅值的方差和幅值叠加值平方的期望的比值，或该比值乘上一个系数；所述谱平坦度参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数。16.如权利要求14所述的检测装置，其特征在于:所述背景噪声判断单元判断以下任一条件成立，则判断当前帧不是噪声信号:所述时域稳定度参数lt_stable_rateO大于一个设定的门限值；第一区间谱重心特征参数值的平滑滤波值大于一个设定的门限值，且时域稳定度特征参数值也大于某一个设定的门限值；调性特征参数或其平滑滤波后的值大于一个设定的门限值，且时域稳定度特征参数lt_stable_rateO值大于其设定的门限值；各子带的谱平坦度特征参数或各自平滑滤波后的值均小于各自对应的设定的门限值；或，判断帧能量参数Etl的的值大于设定的门限值E_thrl。17.—种调性信号检测方法，其特征在于，该方法包括:获得当前帧的子带信号及频谱幅值；根据子带信号计算得到谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；根据调性特征参数、时域稳定度特征参数、谱平坦度特征参数、谱重心特征参数判断当前帧是否为调性信号。18.如权利要求17所述的方法，其特征在于:所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；所述时域稳定度特征参数是幅值叠加值的方差和幅值叠加值平方的期望的比值，或该比值乘上一个系数；所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到，或继续对该相关值进行平滑滤波得到。19.如权利要求17所述的方法，其特征在于:判断是否为调性信号时，执行以下操作:A)假设当前帧信号为非调性信号，并用一个调性帧标志tonality_frame来指示当前帧是否为调性帧；B)判断调性特征参数tonality_ratel或其平滑滤波后tonality_rate2的值是否大于对应的设定的门限值，如果上述条件有一个成立则执行步骤C)，否则执行步骤D)；C)如果时域稳定度特征参数值小于一个设定的门限值；谱重心特征参数值大于一个设定的门限值，且各子带的谱平坦度特征参数均小于各自对应的预设的门限值；则判断当前帧为调性帧，设置调性帧标志的值，否则判断为非调性帧，设置调性帧标志的值，并继续执行步骤D)；D)根据调性帧标志对调性程度特征参数t0nality_degree进行更新，其中调性程度参数tonality_degree初始值在激活音检测开始工作时进行设置；E)根据更新后的调性程度特征参数t0nality_degree判断当前帧是否为调性信号，并设置调性标志tonality_flag的值。20.如权利要求17所述的方法，其特征在于:如果当前的调性帧标志指示当前帧为调性中贞，则采用以下方程式对调性程度特征参数tonality_degree进行更新:tonality—degree=tonality_degree_1.td—scale—A+td—scale—B;其中，tonality—degreeH为前一帧的调性程度特征参数，其初始值取值范围为[0，I]，td_scale_A为衰减系数，td_scale_B为累加系数。21.如权利要求17所述的方法，其特征在于:若调性程度特征参数tonality_degree大于某个设定的门限值,则判断当前帧为调性信号，否则，判断当前帧为非调性信号。22.一种调性信号检测装置，其特征在于，该检测装置包括:滤波器组，用于获得当前帧的子带信号；频谱幅值计算单元，用于获得当前帧的频谱幅值；特征参数计算单元，用于根据子带信号计算得到谱重心特征参数、时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；调性信号判断单元，用于根据调性特征参数、时域稳定度特征参数、谱平坦度特征参数、谱重心特征参数当前帧是否为调性信号。23.如权利要求22所述的检测装置，其特征在于:所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；所述时域稳定度特征参数是幅值叠加值的方差和幅值叠加值平方的期望的比值，或该比值乘上一个系数；所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到，或继续对该相关值进行平滑滤波得到。24.如权利要求22所述的检测装置，其特征在于:所述调性信号判断单元包括:调性信号初始化模块，用于设定当前帧信号为非调性信号，并用一个调性帧标志tonality_frame来指示当前帧是否为调性帧；调性特征参数判断模块，用于判断调性特征参数tonality_ratel或其平滑滤波后tonality_rate2的值是否大于对应的设定的门限值；调性信号判断模块，用于在所述调性特征参数判断模块判断为是时，如果时域稳定度特征参数值小于一个设定的门限值；谱重心特征参数值大于一个设定的门限值，且各子带的谱平坦度特征参数均小于各自对应的预设的门限值；判断当前帧为调性帧；在根据计算得到的调性程度特征参数t0nality_degree判断当前帧是否为调性信号，并在所述调性特征参数判断模块判断为否时，用于根据更新后的调性程度特征参数t0nality_degree判断当前帧是否为调性信号，并设置调性标志tonality_flag的值；调性程度参数更新模块，用于在调性特征参数tonality_ratel或其平滑滤波后tonality_rate2的值均小于对应的设定的门限值时，根据调性帧标志对调性程度特征参数tonality_degree进行更新，其中调性程度参数tonality_degree初始值在激活音检测装置开始工作时进行设置。25.如权利要求22所述的检测装置，其特征在于:如果当前的调性帧标志指示当前帧为调性帧，则调性程度参数更新模块采用以下方程式对调性程度特征参数tonality_degree进行更新:tonality—degree=tonality_degree_1.td—scale—A+td—scale—B;其中，tonality—degreeH为前一帧的调性程度特征参数，其初始值取值范围为[0，I]，td_scale_A为衰减系数，td_scale_B为累加系数。26.如权利要求22所述的检测装置，其特征在于:若调性程度特征参数tonality_degree大于某个设定的门限值，则所述调性信号判断模块判断当前帧为调性信号，否则，判断当前帧为非调性信号。27.—种VAD判决中当前激活音保持帧数的修正方法，其特征在于，该方法包括:获得当前帧的子带信号及频谱幅值；根据子带信号计算得到长时信噪比lt_snr和平均全带信噪比SNR2_lt_ave，根据前面若干帧的判决结果、长时信噪比lt_snr、平均全带信噪比SNR2_lt_ave、当前帧的VAD判决结果，对当前激活音保持帧数进行修正。28.如权利要求27所述的方法，其特征在于，通过前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，计算得到长时信噪比lt_snr;计算最近若干个帧的全带信噪比SNR2的平均值，得到平均全带信噪比SNR2_lt_ave。29.如权利要求27所述的方法，其特征在于:当前激活音保持帧数修正的前提条件是激活音标志指示当前帧为激活音中贞。30.如权利要求27所述的方法，其特征在于:对当前激活音保持帧数进行修正时，如果前面连续语音帧数小于一个设定的门限值1，并且长时信噪比lt_snr小于一个设定的门限值2，则当前激活音保持帧数等于最小连续激活音帧数减去前面连续语音帧数，否则，如果平均全带信噪比SNR2_lt_ave大于一个设定的门限值3，并且前面连续语音帧个数大于一个设定的门限值4，则根据长时信噪比的大小设置激活音保持帧数的值，否则不修正当前激活音保持帧数的值。31.一种VAD判决中当前激活音保持帧数的修正装置，其特征在于，该修正装置包括:长时信噪比计算单元，用于计算长时信噪比lt_snr；平均全带信噪比计算单元，用于计算平均全带信噪比SNR2_lt_ave；激活音保持帧数修正单元，用于根据前面若干帧的判决结果、长时信噪比lt_snr、平均全带信噪比SNR2_lt_ave、当前帧的信噪比参数和当前帧的VAD判决结果，对当前激活音保持帧数进行修正。32.如权利要求31所述的修正装置，其特征在于:长时信噪比计算单元通过前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，计算得到长时信噪比lt_snr;所述平均全带信噪比计算单元计算最近若干个帧的全带信噪比SNR2的平均值，得到平均全带信噪比SNR2_lt_ave。33.如权利要求31所述的修正装置，其特征在于:当前激活音保持帧数修正的前提条件是激活音标志指示当前帧为激活音中贞。34.如权利要求31所述的修正装置，其特征在于:激活音保持帧数修正单元，对当前激活音保持帧数进行修正时，如果前面连续语音帧数小于一个设定的门限值1，并且长时信噪比lt_snr小于一个设定的门限值2，则当前激活音保持帧数等于最小连续激活音帧数减去前面连续语音帧数，否则，如果平均全带信噪比SNR2_lt_ave大于一个设定的门限值3，并且前面连续语音帧个数大于一个设定的门限值4，则根据长时信噪比的大小设置激活音保持帧数的值，否则不修正当前激活音保持帧数的值。35.一种VAD判决中信噪比门限的调整方法，其特征在于，该调整方法包括:获得当前帧的子带信号及频谱幅值；根据子带信号计算得到当前的谱重心特征参数；通过前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，计算得到长时信噪比；根据谱重心特征参数、长时信噪比、前面连续激活音帧个数和前面连续噪声帧个数continuous_noise_num调整VAD判决的信噪比门限。36.如权利要求35所述的方法，其特征在于:所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值。37.如权利要求35所述的方法，其特征在于，调整信噪比门限的步骤包括:设置信噪比门限snr_thr的初始值；根据谱重心参数首次调整信噪比门限snr_thr的值；根据前面连续激活音帧个数continuous_speech_num、前面连续噪声帧个数continuous_noise_num、平均全带信噪比SNR2_lt_ave和长时信噪比lt_snr二次调整snr_thr的值；根据lt_snr的值再对信噪比门限snr_thr进行最终修正，得到当前帧的信噪比门限snr_thr038.如权利要求37所述的方法，其特征在于，计算最近若干个帧的全带信噪比SNR2的平均值，得到平均全带信噪比SNR2_lt_ave。39.一种VAD判决中信噪比门限的调整装置，其特征在于，该调整装置包括:特征参数获取单元，用于根据子带信号计算得到当前的谱重心特征参数；长时信噪比计算单元，用于通过前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值，得到长时信噪比lt_snr；信噪比门限调整单元，用于根据谱重心特征参数、长时信噪比、前面连续激活音帧个数和前面连续噪声帧个数continuous_noise_num调整VAD判决的信噪比门限。40.如权利要求39所述的调整装置，其特征在于:所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值。41.如权利要求39所述的调整装置，其特征在于，所述信噪比门限调整单元调整信噪比门限时，设置信噪比门限snr_thr的初始值；根据谱重心参数首次调整信噪比门限snr_thr的值；根据前面连续激活音帧个数continuous_speech_num、前面连续噪声帧个数continuous_noise_num、平均全带信噪比SNR2_lt_ave和长时信噪比lt_snr二次调整snr_thr的值；最后，根据长时信噪比lt_snr的值再对信噪比门限snr_thr进行最终调整，得到当前帧的信噪比门限snr_thr。【文档编号】G10L21/0208GK103903634SQ201210570563【公开日】2014年7月2日申请日期:2012年12月25日优先权日:2012年12月25日【发明者】江东平,袁浩,朱长宝申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江东平;袁浩;朱长宝
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：吉它学习压弦led记忆显示装置制造方法
上一篇：一种语音识别方法及电子设备的制作方法