一种声音激活检测装置及方法

文档序号:2837270阅读:389来源:国知局

专利名称::一种声音激活检测装置及方法
技术领域
:本发明涉及音频信号处理领域,特别是涉及一种声音激活检测装置及方法。
背景技术
:在语音信号处理领域,有一种对语音活动性进行检测的技术得到了广泛的应用。在语音编码中,称为语音激活检测(VAD,VoiceActivityDetection),在语音识别中通常称为语音端点检测(SpeechEndpointDetection),而在语音增强中则通常称之为语音间隙检测(SpeechPauseDetection)。针对不同的应用场景,这些技术会有不同的侧重点,当然会产生不同的处理结果。但是它们的本质都是用来检测语音通信时或一段语料中是否有语音存在,判断的准确性直接影响后续处理(如语音编码、语音识别和增强)的质量。语音编码技术可以压缩语音信号的传输带宽,增加通信系统的容量。由于语音通信中只有大约40%是包含语音的,其它时间都是静音或背景噪声,为了进一步节省传输带宽,VAD可以被用来区分背景噪声和非噪声信号,使得编码器可以对背景噪声和非噪声信号采用不同的速率进行编码,降低了平均码率。在近年来各大组织和机构制定的语音编码标准中,都存在VAD技术的具体应用。现有的VAD算法如AMR中采用的VAD1,VAD2都是依据输入信号的信噪比来判断当前信号帧是否是噪声帧的。VAD会计算出一个估计的背景噪声能量,将当前信号帧的能量与该背景噪声能量估计的比值(即信噪比SNR)与一个事先设定的门限做比较。当SNR大于该门限时,判断当前信号帧为非噪声帧,否则为噪声帧。VAD的分类结果会用来指导编码器中的DTX/CNG(非连续传输系统/舒适噪声生成DiscontinuousTransmissionSystem/ComfortableNoiseGeneration),DTX/CNG即非连续传输/舒适噪声生成系统,它的作用是当输入信号处于噪声期间时,只对噪声序列进行间断的编码和传输,而中间未编码和传输的部分在解码端依靠内插得到以达到节省带宽的目的。目前3GPP的语音编码标准AdaptiveMulti-RateSpeechCodec(AMR)中采用的VAD1算法是现有VAD算法中一种比较典型的。在该算法中,输入信号帧首先被划分为9个子带,对每个子带均分别计算他们的子带信号电平level[n]和子带背景噪声电平估计bckr_est[n]。然后才艮据这些参数计算出信噪比SNR,计算公式如下所示<formula>formulaseeoriginaldocumentpage9</formula>VAD的判决就是将SNR与一个判决门限vad一thr做比较,若SNR〉vad一thr,则将当前帧判为非噪声帧,否则判为噪声帧。vad一thr是如下计算得到的<formula>formulaseeoriginaldocumentpage9</formula>其中<formula>formulaseeoriginaldocumentpage9</formula>发明人在发明过程中发现,AMR的VAD1在做判决时是将SNR与一个判决门限vad一thr进行比较,当SNR高于此门限时就认为是非噪声帧,低于此门限时就认为是噪声帧。尽管由上面的公式可知门限vad—thr具有自适应的功能,但这种自适应有很大的局限性,主要表现在由于这种自适应的因变量只有noise—level,而noisejevel反映的是一段长时的背景噪声电平的滑动平均,因此vad_thr并没有对背景噪声的波动性自适应的能力(因为具有不同波动性的背景可以有相同的长时电平滑动平均)。而背景波动性的大小对VAD判决的影响是非常大的,会造成大量的背景噪声被误判为非噪声信号,造成带宽的浪费
发明内容本发明实施例提供一种声音激活检测装置及方法,以实现VAD判决门限对背景噪声的波动性具有自适应能力。本发明实施例的声音激活检测装置,包括背景分析单元,用于根据输入的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数并输出;VAD判决门限修正单元,用于根据背景分析单元输出的参数,得出VAD判决门限修正值并输出;VAD判决单元,用于根据VAD判决门限修正单元输出的修正值修正待修正的VAD判决门限,并以修正后的VAD判决门限进行背景噪声判决,以及输出VAD判决结果。本发明实施例的声音激活检测方法,包括下列步骤根据背景噪声的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数;根据所述与背景噪声波动性相关的参数得出VAD判决门限修正值;以及根据该修正值修正待修正的VAD判决门限,并以修正后的VAD判决门限进行背景噪声VAD判决。本发明实施中,由于根据背景噪声的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数,从而为实现VAD判决门限对背景噪声的波动性具有自适应能力奠定了基础。之后根据所述与背景噪声波动性相关的参数得出VAD判决门限修正值,并根据该修正值修正待修正的VAD判决门限,得出可以反映背景噪声的波动性的VAD判决门限;以及以修正后的VAD判决门限进行背景噪声VAD判决。从而最终实现了VAD判决门限对背景噪声的波动性具有自适应能力。图1为本发明实施例的装置结构示意图;图2为本发明实施例的方法步骤流程图。具体实施方式为了实现VAD判决门限对背景噪声的波动性具有自适应能力。实施例1、本发明实施例提供了一种声音激活检测装置,参见图l所示,其包括背景分析单元、VAD判决门限修正单元和VAD判决单元;进一步还包括外部接口单元。背景分析单元,用于根据输入的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数并输出到VAD判决门限修正单元,所述参数包含背景噪声波动性的参数。具体的,所述背景噪声特征参数的作用是要帮助识别出当前信号背景噪声的大小,种类(稳态背景/非稳态背景),变化速度以及当前环境下的信噪比SNR等。这些背景噪声特征参数至少包括背景噪声峰值信噪比,进一步还可包括长时信噪比,背景噪声估计电平,背景噪声能量波动,背景噪声谱波动,背景噪声波动频率等。VAD判决门限修正单元,用于根据背景分析单元输出的参数,得出VAD判决门限修正值并输出。具体的,所述VAD判决门限修正单元收到背景分析单元输出的任一参数时,根据与背景噪声波动性相关的参数的当前值,同步更新VAD判决门限修正值;也可进一步判断背景分析单元输出的参数数值是否发生了变化,当判定发生变化时根据与背景噪声波动性相关的参数的当前值,同步更新VAD判决门限4务正Y直。VAD判决门限修正值是在VAD判决门限修正单元内部根据背景分析单元的输出参数自适应得出的,和/或是根据声音激活检测装置外部输入的工作点信息并结合背景分析单元的输出参数得出的(通过外部接口单元接收外部输入的信息)。当预先的设置为只考虑VAD判决门限修正单元内部自适应时,VAD判决门限修正单元根据背景分析单元输出的参数得出第一VAD判决门限修正值,并以第一VAD判决门限修正值作为最终VAD判决门限修正值输出到VAD判决单元。当预先的设置为考虑声音激活检测装置外部输入的信息和VAD判决门限修正单元内部自适应,但当前信号的背景为稳态噪声和/或当前信号的SNR较高时,VAD判决单元的VAD判决结果会较接近理想结果,耗费额外的计算量计算外部输入的信息得出第二VAD判决门限修正值就显得没有必要。因此,此时VAD判决门卩艮修正单元根据背景分析单元输出的参数得出第一VAD判决门限修正值,并以第一VAD判决门限修正值作为最终VAD判决门限修正值输出到VAD判决单元。当预先的设置为考虑声音激活检测装置外部输入的信息和VAD判决门限修正单元内部自适应,并且当前信号的背景为非稳态噪声和/或当前信号的SNR较低时,VAD判决门限修正单元根据背景分析单元输出的参数得出第一VAD判决门限修正值,根据背景分析单元输出的参数和所述装置外部输入的信息得出第二VAD判决门限修正值,结合第一VAD判决门限修正值和第二VAD判决门限修正值得出最终VAD判决门限修正值(例如需要将二者相加或进行其他处理),并输出到VAD判决单元。当预先的设置为只考虑声音激活检测装置外部输入的信息时,根据背景分析单元输出的参数和所述装置外部输入的信息得出第二VAD判决门限修正值,并以第二VAD判决门限修正值作为最终VAD判决门限修正值输出到VAD判决单元即可。VAD判决单元,用于根据VAD判决门限修正单元输出的修正值修正持修正的VAD判决门限,并以修正后的VAD判决门限进行背景噪声判决,以及将VAD判决结果输出到背景分析单元,以形成循环,从而实现VAD判决门限的不断自适应;并且还将VAD判决结果对外输出。现有技术待修正门限的确定方法与SNR的关系如AMRVAD2中的待修正门限的求得方法,多个待修正门限值被事先保存在一个数组中,这些门限值与长时SNR有一定的映射关系。VAD根据当前的长时SNR从待修正门限数组中选取对应的门限值做为VAD的待修正门限。本发明实施例的修正的VAD判b决门限的确定方法可以是将当前信号的长时SNR做为待修正门限。例如最终的VAD判决门限为100;此时VAD判决门限修正单元输出的修正值为10,并且当前的待修正VAD判决门限为95,则修正后的最终VAD判决门限为105;之后VAD判决单元将VAD判决门限100替换为105,并继续进行判决操作。具体的,本发明实施例中VAD既包括传统的仅区分背景噪声和非背景噪声的VAD,也包括较新型的用来区分背景噪声,语音及音乐等的SAD的VAD部分。对VAD而言,分类的种类可以是背景噪声和非噪声两类。对SAD而言,分类的种类可以是背景噪声,语音和音乐三类。这里,SAD中的VAD部分也是首先将输入信号分成背景噪声和非噪声两类,即将语音和音乐当做一类处理。实施例2、本发明实施例还提供了一种声音激活检测方法,参见图2所示,包括下列主要步骤51、根据背景噪声的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数。所述与背景噪声波动性相关的参数至少包括背景噪声峰值信噪比;进一步还可包括背景能量波动大小、背景噪声谱波动大小,和/或背景噪声波动频率。在得出上述与背景噪声波动性相关的参数的过程中,其他表征当前信号背景噪声特征的参数也被计算出来,其中包含长时SNR,背景噪声估计电平等。52、根据与背景噪声波动性相关的参数得出VAD判决门限修正值。当与背景噪声波动性相关的参数中的任一参数更新时,根据与背景噪声波动性相关的参数的当前值,同步更新VAD判决门限修正值。具体的,才艮据与背景噪声波动性相关的参数的当前值得出VAD判决门限修正值的方式包括但不限于以下四种情况一、当设置不需要考虑指定的信息时,根据所述与背景噪声波动性相关的参数得出第一VAD判决门限修正值,并以第一VAD判决门限修正值作为最终VAD判决门限修正值;情况二、当设置需要考虑指定的信息,并且背景音为非稳态噪声和/或SNR较低时,根据所述与背景噪声波动性相关的参数得出第一VAD判决门限修正值,根据所述与背景噪声波动性相关的参数和指定的信息得出第二VAD判决门限修正值,并结合第一VAD判决门限修正值和第二VAD判决门限修正值得出最终VAD判决门限修正值(例如需要将二者相加或进行其他处理);情况三、当设置需要考虑指定的信息,并且背景音为稳态噪声和/或SNR较高时,根据所述与背景噪声波动性相关的参数得出第一VAD判决门限修正值,并以第一VAD判决门P艮修正值作为最终VAD判决门限修正值;情况四、当设置只考虑指定的信息时,根据所述与背景噪声波动性相关的参数和指定的信息得出第二VAD判决门限修正值,并以第二VAD判决门限修正值作为最终VAD判决门P艮修正值。上述情况一、情况二和情况三中,第一VAD判决门PM多正值与背景噪声能量波动、背景噪声谱波动的大小、背景噪声波动频率、长时信噪比,和/或背景噪声峰值信噪比成递增关系。第一VAD判决门限修正值具体可通过下述公式之一计算得出vad_thr—delta=p*(snr_peak-vad_thr—default),其中,vad—thr—delta代表第一VAD判决门限修正值,vad—thr—default代表待修正的VAD判决门限值,snr_peak代表背景噪声峰值信噪比,P是一个常量。vad_thr_delta=P*f(var_rate)*(snr_peak-vad—thr_default),其中,vad—thr一delta代表第一VAD判决门限修正值,vad_thr_default代表待修正的VAD判决门限值,snr一peak代表背景噪声峰值信噪比,卩是一个常量,var_rate代表背景噪声波动频率,f()代表函数。vad—thr—delta=P*f(var_rate)*f(pow_var)*(snr_peak-vad—thr_default),其中,vad_thr—delta代表第一VAD判决门限修正值,vad_thr_default代表待修正的VAD判决门限值,snrjeak代表背景噪声峰值信噪比,卩是一个常量,pow一var代表背景能量波动大小,var—rate代表背景噪声波动频率,f()代表函数。vad_thr_delta=(3*f(var_rate)*f(spec_var)*(snr_peak-vad_thr_default),其中,vad—thr—delta代表第一VAD判决门限修正值,vad—thr一default代表待修正的VAD判决门限值,snrjeak代表背景噪声峰值信噪比,p是一个常量,spec—var代表背景噪声谱波动的大小,var—rate代表背景噪声波动频率,f()代表函数。vad—thr—delta=p*f(var—rate)*f(pow—var)*f(spec—var)*(snr_peak-vad—thr—default),其中,vad—thr—delta代表第一VAD判决门限修正值,vad—thr—default代表待修正的VAD判决门限值,snr_peak代表背景噪声峰值信噪比,卩是一个常量,spec—var代表背景噪声i普波动的大小,var一rate代表背景噪声波动频率,pow一var代表背景能量波动大小,f()代表函数。注上述计算第一VAD判决门限修正值的各个公式都可增加长时信噪比参数,即再乘以长时信噪比函数,同样可以实施。上述情况二和情况四中,第二VAD判决门限修正值的绝对值与背景噪声能量波动、背景噪声谱波动的大小、背景噪声波动频率、长时信噪比,和/或背景噪声峰值信噪比成递增关系;并且所述指定的信息表示一种工作点倾向,在公式中体现为正负符号,当指定工作点倾向于质量时为负值,当指定工作点倾向于节省带宽时为正值。第二VAD判决门限修正值具体可通过下述公式之一计算得出vad_thr_delta_out=sign*Y*(snr_peak-vad—thr—default),其中,vad_thr—delta—out代表第二VAD判决门限修正值,vad—thr_default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad_thr_delta—out的正负,snr_peak代表背景噪声峰值信噪比,Y是一个常量。vad_thr_delta_out=sign*y*f(var_rate)*(snr_peak-vad—thr—default),其中,vad_thr_delta—out代表第二VAD判决门限修正值,vad_thr_default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad_thr—delta—out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,var_rate代表背景噪声波动频率,f()代表函数。vad—thr—delta—out=sign"氺f(var—rate)*f(pow_var)*(snr_peak-vad_thr—default),其中,vad—thr_delta—out代表第二VAD判决门限修正值,vad一thr一default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad_thr—delta_out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,pow—var代表背景能量波动大小,varjate代表背景噪声波动频率,f()代表函数。vad—thr—delta—out=sign*y*f(var—rate)*f(spec_var)*(snr_peak-vad—thr—default),其中,vad_thr—delta_out代表第二VAD判决门限修正值,vad一thi^default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad—thr—delta_out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,spec^var代表背景噪声谱波动的大小,var一rate代表背景噪声波动频率,f()代表函数。vad_thr—delta—out=sign*y*f(var_rate)*f(pow—var)*f(spec_var)*(snr_peak-vad—thr—default),其中,vad—thr—delta—out代表第二VAD判决门限修正值,vad—thi^default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad—thr_delta_out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,spe(^var代表背景噪声谱波动的大小,var—rate代表背景噪声波动频率,pow一var代表背景能量波动大小,f()代表函数。注上述计算第二VAD判决门限修正值的各个公式都可增加长时信噪比参数,即再乘以长时信噪比函数,同样可以实施。上述计算第一VAD判决门限修正值和第二VAD判决门限修正值的公式中,所述背景噪声峰值信噪比snr_peak的取值为相邻的两个非背景噪声帧之间的各个背景噪声帧分别对应的SNR中的最大值;或者为相邻的两个背景噪声帧之间的各个非背景噪声帧分别对应的SNR中的最小值;或者为间隔小于一个设定帧数的两个背景噪声帧之间的各个非背景噪声帧分别对应的SNR中的任一值;或者为间隔大于一个设定帧数的两个背景噪声帧之间SNR小于一个设定的门限的非背景噪声帧的SNR中的任一值,该门限的设定准则为设该两背景噪声帧间的所有非背景噪声帧的SNR是由两个集合组成,一个集合由大于一个门限的所有SNR组成,另一个集合由小于该门限的所有SNR组成,那么使这两个集合各自的均值相差最大的门限就被确定为设定的门限。S3、根据该修正值修正待修正的VAD判决门限,并以修正后的VAD判决门限进行背景噪声VAD判决。实施例3、结合上述实施例中的装置和方法,提供模块化流程。步骤1、输入的音频信号首先被送至VAD判决单元进行信号类型的初始判定,VAD判决的结果被输入至背景分析单元。初始时VAD判决门限修正值为0,VAD判决单元按照当前待修正的VAD判决门限进行VAD判决,例如当前待修正的VAD判决门限为保持质量与带宽节省平衡。步骤2、背景分析单元根据该VAD判决结果获知前帧是背景噪声帧时,计算当前帧的短时背景噪声特征参数并保存在内存中。这些参数及其计算方法分别列出如下1.子带电平level[k,i],其中k和i分别表示是第i帧第k子带的电平。子带的计算可以通过滤波器组实现也可以通过变换的方法实现。2.短时背景噪声电平bckr—noise[i](仅在当前帧是背景帧时计算),k^_wo/w[/]=|>ve/[Jfc,/],其中i表示是第i帧的背景噪声电平,遠示第k子带,N表示总的子带数量。3.帧能量pow[i],pow[/]=堂/evep,/]2,其中i表示是第i帧的帧能量。4.短时信噪比snr[i],=--,其中i表示是第i帧的短时信噪比,bckr_noise_pow[i]6士—_/7CW[/]为长时背景噪声能量估计,将在下面介绍。步骤3、当背景分析单元积累分析的帧达到一定数量时,背景分析单元开始根据保存在内存中的历史短时背景噪声特征参数计算长时的背景噪声特征参数,并将与背景噪声波动性相关的参数输出。在之后持续进行更新。除长时信噪比以外,其余参数的更新仅发生在当前帧为背景帧时,长时信噪比的更新仅发生在当前帧为非背景帧时。这些参数及计算方法列出如下1.长时背景噪声估计电平bcki^noise—long[i],6citr一"o&e—/o"g[/]=(1-or)*6cfcr_"o&e—/o"g[z'-1]+a*6士_"o/se[/],其中a为一个0到1间的比例因子,一般取值范围在5%左右。2.长时信噪比snr一long[i],/o"g[/]=^~~,其中L为被选为做长时平均的非背景帧数量。3.背景噪声能量波动pow一var[i],1^f1'、2pow—var[/]-丄承Jpow[附]-丄*,其中L为被选为做长时平均的背景帧数量。4.背景噪声i普波动spec_var[i],f'"2、、,其中L为被选为做长时平均的背景帧数量。背景噪声谱波动的计算也可以是基于LSF系数。5.背景噪声波动频率var一mte[i],var=j]lI(,[i]〈0l,其中IlW表示当x为true时值为1,否则为0。L为被选为做长时平均的背景帧数量。6.长时背景噪声能量估计bckr一noisej(ow[i],+"其中a为一个0到l间的比例因子,取值范围一般在5%左右。步骤4、VAD判决门限修正单元根据背景分析单元输出的与背景噪声波动性相关的参数,计算VAD判决门限修正值。修正VAD判决门限的过程中,需要得出VAD判决门限的修正值,从而向相应方向以相应幅度》务正VAD判决门限。对应实施例2S2中的情况一,即VAD判决门限4务正单元内部自适应得出第一VAD判决门限的修正值,作为最终的VAD判决门限的修正值,不考虑外部指定的信息。假设当前待修正的VAD判决门限值为vadJhi^default,第一VAD判决门限的修正值为vad—thr—delta,那么修正后的VAD判决门限则为vad—thr—default+vad—thr—delta。第一修正值vad—thr—delta=p*(snr_peak-vad—thr—default),其中snrj)eak代表背景峰值信噪比,P是一个常量。背景峰值信噪比snrjeak可以是一段长时历史背景中的信噪比峰值,snr_peak=MAX(snr[i]),i=0,-l,-2..,n,i表示最新的历史背景帧及其前面的第1背景帧,第2背景帧.,.第n背景帧。背景峰值信噪比snrj)eak也可以是一段历史非背景帧中的信噪比谷值或多个最小值中的一个,这时snrjeak-MIN(snr[i]),i=0,-l,-2...-n,i表示最新的历史非背景帧及其前面的第l非背景帧,第2非背景帧...第n非背景帧,或snrj)eak6{X},其中集合(X)是一段长时历史非背景帧信噪比的集合(Y)的子集,并且满足IMEAN({X})-MEAN({Y-X})I最大,其中MEAN表示均值。var—rate是一段长时背景中的负SNR次数。即所述背景噪声峰值信噪比snr一peak的取值为相邻的两个非背景噪声帧之间的各个背景噪声帧分别对应的SNR中的最大值;或者为相邻的两个背景噪声帧之间的各个非背景噪声帧分别对应的SNR中的最小值;或者为间隔小于一个设定帧数的两个背景噪声帧之间的各个非背景噪声帧分别对应的SNR中的任一值;或者为间隔大于一个设定帧数的两个背景噪声帧之间SNR小于一个设定的门限的非背景噪声帧的SNR中的任一值,该门限的设定准则为设该两背景噪声帧间的所有非背景噪声帧的SNRA由两个集合组成,一个集合由大于一个门限的所有SNRi且成,另一个集合由小于该门限的所有SNR组成,那么使这两个集合各自的均值相差最大的门限就被确定为设定的门限。对有多个判决门限的VAD算法,可对每一个或其中的几个门限进行上述类似的调整。正的VAD判决门限,并以修正后的VAD判决门限进行背景噪声判决,以及输出VAD判决结果。若VAD判决门限修正单元采用情况一得出VAD判决门限的修正值,则修正后的VAD判决门限为vadjhi^default+vad一thr—delta。综上所述,本发明实施中,由于根据背景噪声的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数,从而为实现VAD判决门限对背景噪声的波动性具有自适应能力奠定了基础。之后根据所述与背景噪声波动性相关的参数得出VAD判决门限修正值,并根据该修正值修正待修正的VAD判决门限,得出可以反映背景噪声的波动性的VAD判决门限;以及以修正后的VAD判决门限进行背景噪声VAD判决。从而最终实现了VAD判决门限对背景噪声的波动性具有自适应能力,使得VAD在各种具有不同波动性大小的背景噪声环境下的表现均能达到较佳的效果。进一步,本发明实施例还针对VAD判决门限的修正值的获得方式提供了不同的实施方式,并特别说明了背景噪声峰值信噪比snrjeak的取值方案,更好的支撑了本发明。明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1、一种声音激活检测装置,其特征在于,包括背景分析单元,用于根据输入的语音激活检测器VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数并输出;VAD判决门限修正单元,用于根据背景分析单元输出的参数,得出VAD判决门限修正值并输出;VAD判决单元,用于根据VAD判决门限修正单元输出的修正值修正待修正的VAD判决门限,并以修正后的VAD判决门限进行背景噪声判决,以及输出VAD判决结果。2、如权利要求1所述的装置,其特征在于,所述背景分析单元输出的参数包括背景噪声峰值信噪比。3、如权利要求2所述的装置,其特征在于,所述背景分析单元输出的参数还包括背景能量波动大小、背景噪声谱波动大小,长时信噪比,和/或背景噪声波动频率。4、如权利要求l所述的装置,其特征在于,所述VAD判决门限修正单元收到背景分析单元输出的任一参数时,根据与背景噪声波动性相关的参数的当前值,同步更新VAD判决门限修正值。5、如权利要求1所述的装置,其特征在于,所述装置还包括外部接口单元,用于接收所述装置外部输入的信息。6、如权利要求5所述的装置,其特征在于,所述VAD判决门限修正单元根据背景分析单元输出的参数得出第一VAD判决门限修正值,并以第一VAD判决门限修正值作为最终VAD判决门限修正值输出到VAD判决单元;或者,所述VAD判决门限修正单元根据背景分析单元输出的参数得出第一VAD判决门限修正值,根据背景分析单元输出的参数和所述装置外部输入的信息得出第二VAD判决门限修正值,结合第一VAD判决门限修正值和第二VAD判决门限修正值得出最终VAD判决门限修正值并输出到VAD判决单元;或者,所述VAD判决门限修正单元根据背景分析单元输出的参数和所述装置外部输入的信息得出第二VAD判决门限修正值,并以第二VAD判决门限修正值作为最终VAD判决门限修正值输出到VAD判决单元。7、如权利要求l所述的装置,其特征在于,所述VAD判决单元实时更新待修正的VAD判决门限值,并在收到VAD判决门限修正单元输出的修正值时,提取当前的待修正VAD判决门限值,以及根据该修正值修正当前的待修正VAD判决门限。8、一种声音激活检测方法,其特征在于,包括下列步骤根据背景噪声的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数;根据所述与背景噪声波动性相关的参数得出VAD判决门限修正值;以及根据该修正值《奮正待修正的VAD判决门P艮,并以修正后的VAD判决门限进行背景噪声VAD判决。9、如权利要求8所述的方法,其特征在于,所述与背景噪声波动性相关的参数包括背景噪声峰值信噪比。10、如权利要求9所述的方法,其特征在于,所述与背景噪声波动性相关的参数还包括背景能量波动大小、背景噪声谱波动大小,长时信噪比,和/或背景噪声波动频率。11、如权利要求8所述的方法,其特征在于,所述与背景噪声波动性相关的参数中的任一参数更新时,根据与背景噪声波动性相关的参数的当前值,同步更新VAD判决门限修正值。12、如权利要求8所述的方法,其特征在于,根据所述与背景噪声波动性相关的l^t得出VAD判决门限修正值的方式,包括下列之一情况一、当设置不需要考虑指定的信息时,根据所述与背景噪声波动性相关的参数得出第一VAD判决门限修正值,并以第一VAD判决门限修正值作为最终VAD判决门限修正值;情况二、当设置需要考虑指定的信息,并且背景音为非稳态噪声和/或SNR较低时,根据所述与背景噪声波动性相关的参数得出第一VAD判决门限修正值,根据所述与背景噪声波动性相关的参数和指定的信息得出第二VAD判决门限修正值,并结合第一VAD判决门限修正值和第二VAD判决门限修正值得出最终VAD判决门限修正值;情况三、当设置需要考虑指定的信息,并且背景音为稳态噪声和/或SNR较高时,根据所述与背景噪声波动性相关的参数得出第一VAD判决门P艮修正值,并以第一VAD判决门限修正值作为最终VAD判决门限修正值;情况四、当设置只考虑指定的信息时,根据所述与背景噪声波动性相关的参数和指定的信息得出第二VAD判决门限修正值,并以第二VAD判决门限修正值作为最终VAD判决门限修正值。13、如权利要求12所述的方法,其特征在于,所述第一VAD判决门限修正值与背景噪声能量波动、背景噪声谱波动的大小、背景噪声波动频率、长时信噪比,和/或背景噪声峰值信噪比成递增关系。14、如权利要求13所述的方法,其特征在于,vad—thr—delta=(3*(snr_peak-vad_thr—default),其中,vad—thr—delta代表第一VAD判决门限修正值,vad_thr_default代表待修正的VAD判决门限值,snr_peak代表背景噪声峰值信噪比,P是一个常量。15、如权利要求13所述的方法,其特征在于,vad_thr_delta=|3*f(var—rate)*(snr_peak-vad—thr一default),其中,vad—thr一delta代表第一VAD判决门限修正值,vad_thr—default代表待修正的VAD判决门限值,snrjeak代表背景噪声峰值信噪比,卩是一个常量,var—rate代表背景噪声波动频率,f()代表函数。16、如权利要求13所述的方法,其特征在于,vad—thr—delta=P*f(var—rate)*f(pow一var)*(snr_peak-vad—thr—default),其中,vad—thr—delta代表第一VAD判决门限修正值,vad—thr—default代表待修正的VAD判决门限值,snrj)eak代表背景噪声峰值信噪比,(3是一个常量,pow—var代表背景能量波动大小,var一mte代表背景噪声波动频率,f()代表函数。17、如权利要求13所述的方法,其特征在于,vad_thr_delta=|3*f(var_rate)*f(spec_var)*(snr_peak-vad_thr_default),'其中,vad—thr—delta代表第一VAD判决门限修正值,vad—thr—default代表待修正的VAD判决门限值,snrjeak代表背景噪声峰值信噪比,p是一个常量,spec—var代表背景噪声语波动的大小,var—rate代表背景噪声波动频率,f()代表函数。18、如权利要求13所述的方法,其特征在于,vad—thr_delta=|3*f(var_rate)*f(pow_var)*f(spec一var)*(snr_peak-vad_thr—default),其中,vad_thr_delta代表第一VAD判决门限修正值,vad_thr—default代表待修正的VAD判决门限值,snr_peak代表背景噪声峰值信噪比,卩是一个常量,spec—var代表背景噪声镨波动的大小,var—rate代表背景噪声波动频率,pow—var代表背景能量波动大小,f()代表函数。19、如权利要求12所述的方法,其特征在于,所述第二VAD判决门限修正值的绝对值与背景噪声能量波动、背景噪声语波动的大小、背景噪声波动频率、长时信噪比,和/或背景噪声峰值信噪比成递增关系。20、如权利要求19所述的方法,其特征在于,vad—thr_delta_out=signY(snrjeak-vad一thr一default),其中,vad—thr_delta_out代表第二VAD判决门限修正值,vad—thr—default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad—thr_delta—out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量。21、如权利要求19所述的方法,其特征在于,vad—thr—ddta_out=sign*Y*f(var_rate)*(snr_peak-vad_thr_default),其中,vad—thr_delta_out代表第二VAD判决门限修正值,vad_thr—default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad_thr_delta—out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,var一rate代表背景噪声波动频率,f()代表函数。22、如权利要求19所述的方法,其特征在于,vad—thr—delta—out=sign承ff(var一rate)承f(pow一var)承(snr_peak-vad—thr—default),其中,vad—thr—delta—out代表第二VAD判决门限修正值,vad_thr_default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad—thr_delta_out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,pow一var代表背景能量波动大小,varjate代表背景噪声波动频率,f()代表函数。23、如权利要求19所述的方法,其特征在于,vad—thr—delta_out=sign承ff(var一rate)氺f(spec一var"(snr_peak-vad_thr_default),其中,vad_thr_delta_out代表第二VAD判决门限修正值,vad—thr—default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad—thr—delta—out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,spec一var代表背景噪声谱波动的大小,varjate代表背景噪声波动频率,f()代表函数。24、如权利要求19所述的方法,其特征在于,vad_thr_delta_out=sign氺ff(var一rate)氺f(pow一var)氺f(spec—var)*(snr_peak-vad_thr—default),其中,vad_thr—delta—out代表第二VAD判决门限修正值,vad_thr—default代表待修正的VAD判决门限值,sign代表根据所述指定信息的倾向性确定的vad—thr一delta一out的正负,snr_peak代表背景噪声峰值信噪比,y是一个常量,spec一var代表背景噪声镨波动的大小,varjate代表背景噪声波动频率,pov^var代表背景能量波动大小,f()代表函数。25、如权利要求14至18任一项或20至24任一项所述的方法,其特征在于,所述背景噪声峰值信噪比snr_peak的取值为相邻的两个非背景噪声帧之间的各个背景噪声帧分别对应的SNR中的最大值;或者为相邻的两个背景噪声帧之间的各个非背景噪声帧分别对应的SNR中的最小值;或者为间隔小于一个设定帧数的两个背景噪声帧之间的各个非背景噪声帧分别对应的SNR中的任一值;或者为间隔大于一个设定帧数的两个背景噪声帧之间SNR小于一个设定的门限的非背景噪声帧的SNR中的任一值。26、如权利要求25所述的方法,其特征在于,若所述背景噪声峰值信噪比snr_peak的取值为间隔大于一个设定帧数的两个背景噪声帧之间SNR小于一个设定的门限的非背景噪声帧的SNR中的任一值,则所述门限的设定准则为设该两背景噪声帧间的所有非背景噪声帧的SNR是由两个集合组成,一个集合由大于一个门限的所有SNR组成,另一个集合由小于该门限的所有SNR组成,那么使这两个集合各自的均值相差最大的门限就被确定为设定的门限。全文摘要本发明公开了一种声音激活检测装置及方法,以实现VAD判决门限对背景噪声的波动性具有自适应能力。装置包括背景分析单元,用于根据输入的VAD判决结果,对当前信号的背景噪声特征进行分析,得出与背景噪声波动性相关的参数并输出;VAD判决门限修正单元,用于根据背景分析单元输出的参数,得出VAD判决门限修正值并输出;VAD判决单元,用于根据VAD判决门限修正单元输出的修正值修正待修正的VAD判决门限,并以修正后的VAD判决门限进行背景噪声判决,以及输出VAD判决结果。文档编号G10L11/02GK101320559SQ200710108408公开日2008年12月10日申请日期2007年6月7日优先权日2007年6月7日发明者喆王申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1