确定非噪声音频信号归属类别的方法和装置的制作方法

文档序号:2837187阅读:307来源:国知局

专利名称::确定非噪声音频信号归属类别的方法和装置的制作方法
技术领域
:本发明涉及通信领域,尤其涉及确定有用信号归属类别的技术。技术背景随着宽带技术的发展,目前的音频信号也呈现多元化趋势不仅仅限于语音、还包舍音乐、清音和各种噪声等音频信号。通常将所述语音、音乐和清音音频信号,总称为非噪声音频信号;将各种噪声音频信号称为噪声音频信号。为了对不同的音频信号釆取适宜的编解码算法,需要在编解码非噪声音频信号之前,确定出各种非噪声音频信号的归属类别。在音频信号处理领域,目前存在一些能够判别出音乐信号和语音信号的编码器,如AMR-WB(AdaptiveMulti-Rate-Wideband,多速率编码标准)和SMV(SelectableModeVocoder,多码率模式语音编码标准)。其判别音乐信号和语音信号的基本思想如下在对音频信号进行编解码之前,提取出编解码时所使用的时域特征参数;然后利用所述时域特征参数,将音频信号中的音乐信号和语音信号判别出来。可以看出,上述音频信号的判别过程只能使用编码算法涉及到的时域特征参数,因此这种确定音频信号的归属类别的方法必须依赖于编码算法而存在,不具有独立性以及可移植性。
发明内容本发明的实施例提供一种确定非噪声音频信号归属类别的方法和装置,其能够脱离编码算法而存在。本发明的实施例通过如下技术方案实现本发明的实施例提供一种确定非噪声音频信号归属类别的方法,其包括获取非噪声音频信号的频语特征参数;在频域范围内,根据所述非噪声音频信号的频镨特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。本发明的实施例还提供一种确定非噪声音频信号归属类别的装置,其包括特征参数获取单元,用于获取非噪声音频信号的频语特征参数;归属类别确定单元,用于在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。本发明的实施例还提供一种清音判别装置,其包括第一获取单元,用于获取音频信号的频语特征参数;清音判别单元,用于根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决时域过零率zcr;低频带占全频带的能量比率mtiol。本发明的实施例还提供一种语音判别装置,其包括第二获取单元,用于获取音频信号的频谱特征参数;语音判别单元,用于根据获取到的如下特征参数中的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决谱波动flux;谱波动方差var—flux;镨波动方差移动平均flux—var—mov;时域过零率zcr;x。/oi普衰减Rolloff_x。本发明的实施例还提供一种音乐判别装置,其包括第三获取单元,用于获取音频信号的频i普特征参数;音乐判别单元,用于根据获取到的如下特征参数的一个或多个,以及相应的特征参数阚值,对当前非噪声音频信号进行音乐归属类别的判决谱波动方差移动平均flux_var_mov;xQ/。语衰减Rolloff一x。由上述本发明的实施例提供的具体实施方案可以看出,其是根据非噪声音频信号的频i普特征参数,来确定当前非噪声音频信号的归属类别的,因此本发明的实施例能够脱离编码算法而存在,从而具有独立性以及可移植性,图1为本发明提供的第一实施例的流程图;图2为本发明提供的第一实施例中的初始判决逻辑流程图;图3为本发明提供的第一实施例中的修定判决逻辑流程图;图4为本发明提供的第二实施例的结构原理图;图5为本发明提供的第三实施例的结构原理图;图6为本发明提供的第四实施例的结构原理图;图7为本发明提供的第五实施例的结构原理图。具体实施方式本发明提供的第一实施例是一种确定非噪声音频信号归属类别的方法,其实施过程如图1所示,包括步骤S100,获取非噪声音频信号的频谱特征参数。对于输入的非噪声音频信号,其具有的频谱参数,主要包括短时特征参数及其类长时特征参数。所述短时特征参数包括镨波动(flux),95%谱衰减(spectralrolloff),x。/。镨衰减Rolloff_x(如50%谱衰减(RolloffJialf)),低频带占全频带的能量比率ratiol,时域过零率zcr(zerocrossingrate,zcr);频域过零率fzcr;所述类长时特征则是各短时特征参数的方差和移动平均,如谱波动方差fluxvar;i普波动方差移动平均fluxvarmov;i普衰减方差rolloff_var。在所述第一实施例中,取10帧,即100ms的时长统计上述特征参数,下面给出这些特征参数的定义和计算公式定义x(/)表示一帧声音信号的第i个时域采样值,其中0&、M;M表示一帧信号的采样值数目;T表示帧数;C/j;w'是第i帧的信号频谱;N是FFT(FastFourierTransform,快速4粵立叶变换)的长度,/7";r(力为第i帧i普波动,^,/w,和^//《砍是第i帧谱波动移动平均,频谱移动平均和i瞽衰减移动平均。下面以采样率16kHz的声音信号为例,对特征参数作详细说明1、语波动flux及其衍生的谱波动方差flux—var和语波动方差移动平均flux—var一mov。语波动flux特征参数描述了帧和帧之间的变化。对音乐信号而言,flux比较低,平稳,而语音信号的flux通常比较高,变化大。其可以采用公式l计算得到;傳波动方差fluxjar和语波动方差移动平均flux_var—mov分别采用公式2和公式3计算得到<formula>formulaseeoriginaldocumentpage12</formula>.公式3其中,W,附0)是归一化函数o2、低频带占全频带的能量比率ratiol。该特征参数描述了低频段子带能量占总能量的比例。通常语音信号的ratiol比较高,音乐信号的ratiol比较低。其计算公式如公式4所示<formula>formulaseeoriginaldocumentpage12</formula>3、95%谙衰减(Rolloff)、50%镨衰减(RolloffJialf)及谱衰减方差(rolloff_var)。其中,Rolloff表示占全带95%能量的点的位置;Rolloff—half表示占全带50%能量的点的位置。通常语音信号镨衰减的点比较低,音乐信号的谱衰减的点比较高。Rolloff和rolloff一var的计算公式分别如公式5和公式6所示<formula>formulaseeoriginaldocumentpage13</formula>..........................公式5<formula>formulaseeoriginaldocumentpage13</formula>..........................公《6Rolloff—half的计算公式如公式7所示<formula>formulaseeoriginaldocumentpage13</formula>..........................公式74、时域过零率zcr。该特征^:主要用来检测清音。由于语音中会间隔出现清音,故会出现较音乐高的zcr。其计算公式如公式8所示<formula>formulaseeoriginaldocumentpage13</formula>..........................公式8公式8中,函数IlW表示当A是truth时,llW是l;当A是felse时,nW为O.5、频域过零率fzcr。所述fzcr表示一个衡量频域内,某帧信号在不同频率的能量起伏的程度。对语音信号而言,fzcr可以看作是共振峰的一种初步算法。其可以通过如下方式获得截取非噪声音频信号帧的至少一段频镨信号;对所截取的每一段频谱信号进行归一化处理;并对归一化处理后的频谦信号,进行去掉平均值的整理处理,并计算整理过的频谱信号的过零率。具体可以采用公式9至公式13计算得到1W2(,)iV2(y)-ivio)"=wi(,)..........................公式9对于"e[Aa(0,W2(f)],存在_/wo"(y,m)=_wov0j(")-"一avg,.(y)..........................公iUo其中所述f/一wov《(w)如公式ll所示f/—wov《=[t/一(w)+"—-1)+"—(w+1)]/3..........................公《11于是有A:(,)-丄X!n("—m。v々,")x[/—mov々,w—1)<0}..........................公式12=土竭..........................公式13其中所述Nl和N2是频域子带起始点,例如可以为Nl=[188Hz,1500Hz,2500Hz,3750Hz],N2=[1500Hz,2500Hz,3750Hz,8000Hz];所述"—/w,.(")是第i帧的信号频傳;所述"—Mov(y)是第i帧的t子段的移动平均;所述T表示帧数。当获取到上述特征参数后,执行步骤S200,在频域范围内,根据所述非噪声音频信号的特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。步骤S200中利用上述特征参数组合进行逻辑判断时,首先进行初步逻辑判定,将非噪声音频信号进行语音和音乐的初始分类,分成4类清音,语音,音乐和不确定信号;然后进行修正逻辑判定,即对经过初步逻辑判定后得到的不确定信号进一步进行判决,使之可以归属为语音或音乐。如下首先进行初步逻辑判定,将非噪声音频信号进行语音和音乐的初始分类,分成4类清音,语音,音乐和不确定信号。具体实施过程如图2所示步骤S101,置语音标志和音乐标志为0,即Speech_flag=0且Music_flag=0。接下来同时进行如下判断步骤S102,根据如下特征参数的一个或多个时域过零率zcr,低頻带占全频带的能量比率ratiol,判断当前非噪声音频信号是否归属于清音.以及,步骤S103,根据如下特征参数的一个或多个i普波动flux;谱波动方差flux一var;镨波动方差移动平均flux一var一mov;时域过零率zcr,判断当前非噪声音频信号是否归属于语音。以及,步骤S104,根据x。/。i普衰减Rolloff一x,如50%谱衰减Rolloff一half特征参数,判断当前非噪声音频信号是否归属于语音。以及,步骤S105,根据上一帧音频信号的清音拖尾标志ZCR一hangover—flag、谱波动拖尾标志Flux一hangover一flag或镨衰减拖尾标志Rollhalf一hangover—flag,判断当前非噪声音频信号是否归属于语音。以及,步骤S106,根据如下特征参数的一个或多个i普波动方差移动平均flux—var—mov;xQ/。谦衰减Rolloff—x,判断当前非噪声音频信号是否归属于音乐。以及,步骤S107,根据上一帧的语波动方差移动平均拖尾标志flux一var—mov—hangover—flag判断当前非噪声音频信号是否归属于音乐。上述步骤S102中,若确定出当前音频信号归属于清音,则执行步骤S108,即置清音拖尾标志ZCR一hangover—flag为第一设定值,如ZCR__hangover—flag=20。然后执行步骤S109,即输出清音标识。否则,执行步骤S113,即保持Speech—flag=0,表示当前非噪声帧为既不属于语音类。具体实现可以按照如下情况进行判断下述条件中的一个或多个是否满足时域过零率zcr是否大于时域过零率阈值THR—ZCR;低频带占全频带的能量比率ratiol是否大于低频带占全频带的能量比率阈值THR—RA;若其中一个满足条件,则确定当前非噪声帧归属于清音类别,清音拖尾标志ZCR—hangover—flag为第一设定值,如ZCR—hangover—flag=20;否则,执行步骤S113,即保持Speech—flag=0。步骤S103中,若确定出当前音频信号归属于语音,则执行步骤S110,即置谦波动拖尾标志Flux—hangover—flag为第二设定值,如Flux—hangover_flag=20;然后执行步骤SI12,输出语音标识,即置Speech—flag=l。否则,执行步骤S113,即保持Speech—flag=0,表示当前非噪声帧不属于语音类。具体实现可以按照如下情况进行判断下述条件中的一个或多个是否满足谱波动flux是否大于语波动阈值THR_FLUX;谱波动方差flux—var是否大于语波动方差阈值THI^FLUX一VAR;谱波动flux是否大于第一谱波动方差函数f"flux一var),如fi(flux一var)=0.7-20*flux_var;谱波动flux是否小于第二谱波动方差函数f2(flux—var),如f2(flux—var)=8*(flux—var);zcr是否大于i瞽波动方差移动平均函数f(flux_var—mov),如f(flux_var—mov)=60-2609*flux_var—mov;若其中一个条件满足,则确定当前非噪声音频信号归属于语音类别,置谱波动拖尾标志Flux—hangover—flag为第二设定值,如Flux—hangover—flag=20;然后置Speech—flag=l;否则,执行步骤S113,即保持Speech—flag=0,表示当前非噪声帧不属于语音类。步骤S104中,若确定出当前音频信号归属于语音,则执行步骤Slll,即置镨衰减拖尾标志Rollhalf—hangover—flag为第三设定值,如Rollhalfjiangover—flag=20;然后执行步骤SI12,输出语音标识,即置Speech—flag=l。否则,执行步骤S113,即保持Speech—flag=0,表示当前非噪声帧不属于语音类。具体实现可以按照如下情况进行判断下述条件中的一个或多个是否满足x。/。镨衰减Rolloff—half是否小于x。/。i普衰减阈值THR一ROLL;若满足,则确定当前非噪声音频信号归属于语音类别,置谱衰减拖尾标志Rollhalf_hangover_flag为第三设定值,如Rollhalf_hangover_flag=20;然后置Speech—flag=l;否则,执行步骤S113,即保持Speech—flag=0,表示当前非噪声帧为非语音类。步骤S105中,若确定出当前音频信号归属于语音,则执行步骤Slll,输出语音标识,即置Speech—flag=l。否则,执行步骤SI13,即保持Speech一flag-O,表示当前非噪声帧为非语音类。具体实现可以按照如下情况进行判断是否满足下述条件中一个或多个清音拖尾标志ZCR_hangover_flag是否大于0;谱波动拖尾标志Flux—hangover—flag是否大于0;以及i普衰减4fe尾才示志Rollhalf—hangover—flag是否大于0;若是,则认为当前音频信号归属于语音,于是置Speech一flag-l。否则,不处理,即保持Speech_flag=0,表示当前非噪声帧为非语音类。步骤S106中,若确定出当前音频信号归属于音乐,则执行步骤S114,即置镨波动方差移动平均拖尾标志flux—var—mov—hangover—flag为第四设定值,如flux—var—mov—hangover_flag=20;然后执行步骤S115,输出音乐标识,即置Music—flag=l。否则,执行步骤S116,即保持Music一flag-O,表示当前非噪声帧不属于音乐类。具体实现可以按照如下情况进行判断下述条件中的一个或多个是否满足谱波动方差移动平均flux—var—mov是否小于第三x。/。谱衰减函数f3(Rolloff—x),如f3(Rolloff—half)=0.03-l/2400*(Rolloff_half);谱波动方差移动平均flux—var—mov是否小于第五设定值,如第五设定值=0.005;谱波动方差移动平均flux—var_mov是否小于第四x%谱衰减函数f4(Rolloff—x),如f4(Rolloff—half)=l/l867*Rolloff—half-0.0486;语波动方差移动平均flux—var—mov是否小于i普波动方差移动平均阈值THRFLUX_VAR—MOV;若其中一个条件满足,则确定当前非噪声音频信号归属于音乐类别,于是置i普波动方差移动平均拖尾标志flux—var_mov—hangover—flag为第四设定值,如flux—var_mov_hangover_flag=20。然后置Music_flag=l;否则,执行步骤SI16,即保持Music_flag=0,表示当前非噪声帧不属于音乐类。步骤S107中,判断谱波动方差移动平均拖尾标志flux—var—mov—hangover_flag是否大于0;若是,则认为当前音频信号归属于音乐,于是置Music—flag-l。否则,执行步骤S116,即保持Music—flag=0,表示当前非噪声帧不属于音乐类。经过上述实施过程后,非噪声音频信号被判决后,可能输出如下标志Speech—flag=l、Music—flag=l、Speech—flag=0和Music_flag=0。然后执行步骤S117,即根据所述Speech_flag和Music_flag,判断当前非噪声音频信号的归属类别当Speech—flag-1且Music_flag=l时表示当前非噪声音频信号既归属于语音,又归属于音乐;或当Speec、flag-0且Music—flag=0时,表示当前非噪声音频信号既不归属于语音,又不归属于音乐,于是执行步骤S118,即判决非噪声音频信号归属于不确定信号UNCERTAIN的信息;当Speech—flag-1且Music_flag=0时,则表示非噪声音频信号归属于语音,于是执行步骤S119,判决非噪声音频信号归属于语音;当Speech—flag-0且Music一flag-l时,则表示非噪声音频信号归属于音乐,于是执行步骤S120,判决当前非噪声音频信号归属于音乐。对于判决为既不属于语音类别又不属于音乐类别的不确定音频信号UNCERTAIN,还需要进一步根据所述音频信号前的音频环境,判别出其归属类别。具体判决方法如图3所示步骤S201,判断当前非噪声音频信号之前的音频环境为语音音频环境,还是音乐环境;如果满足Speech_continue—counter(连续语音计数器,表示所述当前非噪:声音频信号之前,连续出现的语音音频信号的个数)>THR—SPEECH阈值,则确定当前非噪声音频信号之前的音频环境为语音音频环境;如果满足Music_continue_counter(连续音乐计数器,表示之前连续出现的音乐音频信号的个数)>THR_MUSIC阈值,则确定当前非噪声音频信号之前的音频环境为音乐音频环境。如果Speech—continue_counter>THR_SPEECH阈值,或Music_continue_counter>THR_MUSIC阈值均不满足,说明当前非噪声音频信号之前的音频环境既不属于语音环境,也不属于音乐环境。于是,直接执行步骤S205,即将所述非噪声音频信号判决为不确定音频信号。当确定出当前非噪声音频信号之前的音频环境为语音环境时,则执行步骤S202,根据当前非噪声音频信号的flux、flux—var、flux—var一mov、Rolloff—var和fzcr中的至少一个,判断当前非噪声音频信号是否归属于语音,若是,则执行步骤S204,即确定当前非噪声音频信号为语音,并置语音信号标志Speech—flag-l;否则执行步骤S205,即确定当前非噪声音频信号为不确定音频信号。步骤S202的具体实施过程如下判断是否满足下述条件中的至少一个flux>THR—flux,flux_var>THR—flux_var,flux—var一mov〉THR一flux一var一mov,Rolloff—var>THR—Rolloff_var,fzcr<THR—fzcr;如果满足上述条件之一,则确定当前非噪声音频信号为语音,置语音信号标志Speech—flag-1;否则,确定当前非噪声音频信号为不确定音频信号。此时所述阈值THR—flux、THR_flux—var和THR—flux—var—mov可以不同于初始判断过程所设置的相应阈值。当确定出当前非噪声音频信号之前的音频环境为音乐环境时,则执行步骤S203,根据当前非噪声音频信号的flux—var—mov、Rolloff—var和fzcr中的至少一个,判断当前非噪声音频信号是否归属于音乐,若是,则确定当前非噪声音频信号为音乐,并置音乐信号标志Music^flag-l;否则,执行步骤S205,即确定当前非噪声音频信号为不确定音频信号。步骤S204的具体实施过程如下判断是否满足下述条件中的至少一个flux—var—mov<THR—flux_var—mov,Rolloff—vaKTHR—Rolloff—var,fzcr>THR—fzcr;如果满足上述条件之一,则确定当前非噪声音频信号为音乐,置音乐信号标志Music一flag-l;否则,确定当前非噪声音频信号为不确定音频信号。此时所述阈值THR—flux—var一mov可以不同于初始判断过程所设置的相应阈值。对于步骤S101至步骤S120确定出的既属于语音类别又属于音乐类别的音频信号,以及步骤S201至步骤S205确定出的既不属于语音类别又不属于音乐类别的不确定音频信号,可以进行进一步的判决,采取的判决方法如下根据当前非噪声音频信号前的音频信号,对所述不确定音频信号进行归属类别的判决。具体如下将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音频信号中,所占比重较大的信号所归属的类别。对于步骤S101至步骤S120确定出的既属于语音类别又属于音乐类别的音频信号,以及步骤S201至步骤S205确定出的既不属于语音类别又不属于音乐类别的不确定音频信号,也可以采用其它软决策方法,对不确定音频信号,进行归属类别的判决,例如采用GMM(高斯混合模型)判定的方法作进一步分类。此之外,本发明实施例也可以采用步骤S101至步骤S107中的部分步骤来实现,每个步骤的详细情况与上述实施过程雷同,此处不进行具体说明。本发明提供的第二实施例是一种确定非噪声音频信号归属类别的装置,其结构如图4所示,包括特征参数获取单元和归属类别确定单元。所述归属类别确定单元包括清音判别子单元、语音判别子单元和音乐判别子单元,所述归属类别确定单元还包括一判决子单元。各个单元之间信号的交互关系如下所述特征参数获取单元获取非噪声音频信号的特征参数;所述特征参数包括如下中的至少一个"^普波动flux;i普波动方差flux—var;i普波动方差移动平均flux—var—mov;低频带占全频带的能量比率ratiol;95%谱衰减Rolloff;x。/。谱衰减Rolloff—x,如50%谦衰减Rolloff—half;语衰减方差rolloff—var;频谱幅度的方差magvar;时域过零率zcr;频域过零率fzcr。所述归属类别确定单元,在频域范围内,根据所述非噪声音频信号的特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。具体处理如下清音判别子单元,根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决时域过零率zcr;低频带占全频带的能量比率ratiol;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。以及,语音判别子单元,根据获取到的如下特征参数中的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决谱波动flux;镨波动方差var—flux;镨波动方差移动平均flux一var一mov;时域过零率zcr;x。/。语衰减Rolloff—x,如50%语衰减Rolloff_half;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。以及,音乐判别子单元,根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决谱波动方差移动平均flux—var—mov;x。/。i普衰减Rolloff—x,如50%镨衰减Rolloff—half。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。当通过所述清音判决子单元、语音判决子单元或音乐判决子单元,判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时,所述归属类别确定单元还通过所述一判决子单元,判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境;当当前非噪声音频信号前存在语音音频环境时,才艮据获取到的如下特征参数中的一个或多个谱波动flux;语波动方差var_flux;镨波动方差移动平均flux_var—mov;i普衰减方差rolloff_var;频域过零率fzcr,以及相应的特征参数阈值,对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。当当前非噪声音频信号前存在音乐音频环境时,根据获取到的如下特征参数中的一个或多个语波动方差移动平均flux—var—mov;谱衰减方差rolloff—var;频域过零率fzcr,以及相应的特征参数阈值,对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。对于通过所述清音判决子单元、语音判决子单元或音乐判决子单元,确定出的既属于语音类别又属于音乐类别的音频信号,以及当通过所述一判决子单元确定出既不属于语音类别又不属于音乐类别的不确定音频信号后,可以通过所迷一判决子单元对所述音频信号进行进一步的判决,可以采取如下判决方法根据当前非噪声音频信号前的音频信号,对所述不确定音频信号进行归属类别的判决。也就是说,将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音频信号中,所占比重较大的信号所归属的类别。也可以采用其它软决策方法,对不确定音频信号,进行归属类别的判决,例如采用GMM(高斯混合模型)判定的方法作进一步分类。本发明提供的第三实施例是一种清音判别装置,其结构如图5所示,包括第一获取单元和清音判别单元。所述第一获取单元获取音频信号的特征参数;所述特征参数包括时域过零率zcr;和/或,低频带占全频带的能量比率ratiol。所述清音判别单元,根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决时域过零率zcr;低频带占全频带的能量比率ratiol。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。本发明提供的第四实施例是一种语音判别装置,其结构如图6所示,包括第二获取单元和语音判别单元;所述第二获取单元获取音频信号的特征参数;所述特征参数包括如下特征参数中的一个或多个镨波动flux;i普波动方差var_flux;语波动方差移动平均flux—var—mov;时域过零率zcr;x。/o谱衰减Rolloff_x,如50%镨衰减Rolloff—half。所述语音判别单元,根据获取到的如下特征参数中的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决谱波动flux;谗波动方差var—flux;谱波动方差移动平均flux—var一mov;时域过零率zcr;x。/oi普衰减Rolloff—x,如50%镨衰减Rolloff—half。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。本发明提供的第五实施例是一种音乐判别装置,其结构如图7所示,包括第三获取单元和音乐判别单元。所述第三获取单元获取音频信号的特征参数;所述特征参数包括如下特征参数的一个或多个镨波动方差移动平均flux一var一mov;x。/。语衰减Rolloff—x,如50%镨衰减Rolloff一half。所述音乐判别单元,根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决谱波动方差移动平均flux—var一mov;x。/。语衰减Rolloff—x,如50%镨衰减Rolloff—half。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。由上述本发明的实施例提供的具体实施方案可以看出,其是根据非噪声音频信号的频镨特征参数,来确定当前非噪声音频信号的归属类别的,因此本发明的实施例能够脱离编码算法而存在,从而具有独立性以及可移植性。明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1.一种确定非噪声音频信号归属类别的方法,其特征在于,包括获取非噪声音频信号的频谱特征参数;在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。2、如权利要求1所述的方法,其特征在于,所述特征参数包括如下中的至少一个i普波动flux;i瞽波动方差flux_var;i普波动方差移动平均flux—var—mov;低频带占全频带的能量比率ratiol;95%镨衰减Rolloff;x。/。语衰减Rolloff_x;时域过零率zcr。3、如权利要求2任意一项所述的方法,其特征在于,所述特征参数还包括如下中的至少一个语衰减方差rolloff—var;频域过零率fzcr。4、如权利要求3所述的方法,其特征在于,所述频域过零率fzcr通过如下方式获得截取非噪声音频信号的至少一段频傳信号;对所截取的每一段频谙信号进行归一化处理;并对归一化处理后的频语信号,进行去掉平均值的整理处理,并计算整理过的频"^4言号的过零率。5、如权利要求2或3所述的方法,其特征在于,所述根据所述频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别的过程,具体包括根据获取到的如下特征参数的一个或多个时域过零率zcr;低频带占全频带的能量比率ratiol,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决;和/或,根据获取到的如下特征参数中的一个或多个i普波动flux;语波动方差var_flux;语波动方差移动平均flux—var—mov;时域过零率zcr,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;和/或,根据获取到的x。/。谱衰减Rolloff—x特征参数,以及相应的特征参数阁值,对当前非噪声音频信号进行语音归属类别的判决;和/或,根据上一帧音频信号的清音拖尾标志、镨波动拖尾标志、语衰减拖尾标志对当前非噪声音频信号进行语音归属类别的判决;和/或,根据获取到的如下特征参数的一个或多个谱波动方差移动平均flux_var—mov;x。/。i普衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决;和/或,根据上一帧音频信号的i普波动方差移动平均拖尾标志,对当前非噪声音频信号进行音乐归属类别的判决。6、如权利要求5所述的方法,其特征在于,所述对当前非噪声音频信号进行清音归属类别的判决的过程,具体包括判断下述条件中的一个或多个是否满足时域过零率zcr是否大于时域过零率阈值THR_ZCR;低频带占全频带的能量比率ratiol是否大于低频带占全频带的能量比率阈值THR—RA;若其中一个满足条件,则确定当前非噪声帧归属于清音类别,并置清音拖尾标志为第一设定值;否则,确定当前非噪声帧不属于语音类。7、如权利要求5所述的方法,其特征在于,所述根据获取到的如下特征参数中的一个或多个谱波动flux;谱波动方差var—flux;i普波动方差移动平均fluxvarmov;时域过零率zcr,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决的过程,具体包括判断下述条件中的一个或多个是否满足i普波动flux是否大于语波动阈值THR—FLUX;谱波动方差flux—var是否大于谱波动方差阀值THR—FLUX—VAR;i普波动flux是否大于第一谱波动方差函数f!(fluxjar);语波动flux是否小于第二语波动方差函数f2(flux—var);zcr是否大于谦波动方差移动平均函数f(flux_var—mov);若其中一个条件满足,则确定当前非噪声音频信号归属于语音类别,并置i瞽波动拖尾标志为第二设定值;否则,确定当前非噪声音频信号不属于语音类。8、如权利要求5所述的方法,其特征在于,所述根据获取到的x。/。镨衰减Rolloff—x特征参数,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决的过程,具体包括判断x。/。镨衰减Rolloff—x是否小于x。/。i普衰减阈值THR一ROLL;若是,则确定当前非噪声音频信号归属于语音类别,并置谱衰减拖尾标志为第三设定值;否则,确定当前非噪声音频信号不属于语音类。9、如权利要求5所述的方法,其特征在于,所述根据上一帧音频信号的清音拖尾标志、谱波动拖尾标志、谱衰减拖尾标志对当前非噪声音频信号进行语音归属类别的判决的过程,具体包括判断下述条件中的至少一个是否满足上一帧音频信号的清音拖尾标志是否大于0;上一帧音频信号的语波动拖尾标志是否大于0;上一帧音频信号的语衰减拖尾标志是否大于0;若其中一个满足条件,则确定当前非噪声音频信号属于语音;如果不满足上述条件,则确定当前非噪声音频信号不属于语音。10、如权利要求5所述的方法,其特征在于,所述根据获取到的如下特征参数的一个或多个语波动方差移动平均flux—var—mov;x。/。谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决的过程,具体包括判断下述条件中的一个或多个是否满足谱波动方差移动平均flux—var一mov是否小于第三x。/。谱衰减函数f3(Rolloff—x);谱波动方差移动平均flux—var—mov是否小于第五设定值;谱波动方差移动平均flux—var一mov是否小于第四x。/。谱衰减函数f4(Rolloff_x);谱波动方差移动平均flux—var_mov是否小于谱波动方差移动平均阈值THR—FLUX_VAR—MOV;若其中一个条件满足,则确定当前非噪声音频信号归属于音乐类别,并置谦波动方差移动平均拖尾标志为第四设定值;否则,确定当前非噪声音频信号不属于音乐类。11、如权利要求5所述的方法,其特征在于,所述根据上一帧音频信号的谙波动方差移动平均拖尾标志,对当前非噪声音频信号进行音乐归属类别的判决的过程,还包括判断上一帧音频信号的谱波动方差移动平均拖尾标志是否大于0,若是,则确定当前非噪声音频信号归属于音乐;否则,确定当前非噪声音频信号不属于音乐。12、如权利要求5所述的方法,其特征在于,当判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时,还包括判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境;当当前非噪声音频信号前存在语音音频环境时,判断下述条件中的一个或多个是否满足谱波动flux、语波动方差var_flux、谱波动方差移动平均flux—var—mov、谱衰减方差rolloff_var特征参数中的一个或多个,是否大于相应的特征参数阈值;频域过零率fzcr,是否小于相应的特征参数阈值;若其中一个条件满足,则确定当前非噪声音频信号归属于语音;否则确定当前非噪声音频信号不归属于语音;当当前非噪声音频信号前存在音乐音频环境时,判断是否满足下述条件中的一个或多个语波动方差移动平均flux_var—mov、谱衰减方差rolloff_var特征参数中的一个或多个,是否小于相应的特征参数阈值;频域过零率fzcr,是否大于相应的特征参数阈值,若其中一个条件满足,则确定当前非噪声音频信号归属于音乐;否则确定当前非噪声音频信号不归属于音乐。13、如权利要求5所述的方法,其特征在于,当判决出当前非噪声音频信号既属于语音类别又属于音乐类别,或既不属于语音类别又不属于音乐类别时,还包括采用高斯混合模型,对既归属于语音又归属于音乐,或既归属于非语音又归属于非音乐的音频不确定音频信号,进行归属类别的判决;或,将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,将所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音频信号中,所占比重较大的信号所归属的类别。14、如权利要求12所述的方法,其特征在于,当判决出当前非噪声音频信号既不属于语音类别又不属于音乐类别时,还包括采用高斯混合模型,对既归属于语音又归属于音乐,或既归属于非语音又归属于非音乐的音频不确定音频信号,进行归属类别的判决;或,将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,将所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音频信号中,所占比重较大的信号所归属的类别。15、一种确定非噪声音频信号归属类别的装置,其特征在于,包括特征参数获取单元,用于获取非噪声音频信号的频谱特征参数;归属类别确定单元,用于在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。16、如权利要求15所述的装置,其特征在于,所述频谱特征参数包括如下中的至少一个i普波动flux;谓-波动方差flux—var;i普波动方差移动平均flux—var_mov;低频带占全频带的能量比率ratiol;95°/。谱衰减Rolloff;x。/。i普衰减Rolloff—x;时域过零率zcr。17、如权利要求16所述的装置,其特征在于,所述频谱特征参数还包括如下中的至少一个语衰减方差rolloff—var;频域过零率fzcr。18、如权利要求16或17所述的装置,其特征在于,所述归属类别确定单元包括清音判别子单元,用于根据获取到的如下特征参数的一个或多个时域过零率zcr;低频带占全频带的能量比率ratiol,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决;以及,语音判别子单元,用于根据获取到的如下特征参数中的一个或多个i瞽波动flux;镨波动方差var—flux;i瞽波动方差移动平均flux—var—mov;时域过零率zcr;x。/。谱衰减Rolloff—x,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;以及,音乐判别子单元,用于根据获取到的如下特征参数的一个或多个谱波动方差移动平均flux—var—mov;x。/。谱衰减Rolloff一x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决。19、如权利要求18所述的装置,其特征在于,所述归属类别确定单元还包括一判决子单元,用于当判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时,判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境;当当前非噪声音频信号前存在语音音频环境时,根据获取到的如下特征参数中的一个或多个傳波动flux;镨波动方差var—flux;谱波动方差移动平均flux—var一mov;镨衰减方差rolloff一var;频域过零率fzcr,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;当当前非噪声音频信号前存在音乐音频环境时,根据获取到的如下特征参数中的一个或多个镨波动方差移动平均flux—var_mov;谱衰减方差rolloff—var;频域过零率fzcr,以及相应的特征参数阈值,对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决。20、一种清音判别装置,其特征在于,包括第一获取单元,用于获取音频信号的频谱特征参数;清音判别单元,用于根据获取到的如下特征参数的一个或多个时域过零率zcr;低频带占全频带的能量比率ratiol,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决。21、一种语音判别装置,其特征在于,包括第二获取单元,用于获取音频信号的频语特征参数;语音判别单元,用于根据获取到的如下特征参数中的一个或多个i普波动flux;谱波动方差var—flux;镨波动方差移动平均flux—var一mov;时域过零率zcr;x。/。语衰减Rolloff一x,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决。22、一种音乐判别装置,其特征在于,包括第三获取单元,用于获取音频信号的频语特征参数;音乐判别单元,用于根据获取到的如下特征参数的一个或多个谱波动方差移动平均flux—var—mov;x。/。镨衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决。全文摘要本发明公开了一种确定非噪声音频信号归属类别的方法和装置,其首先获取非噪声音频信号的频谱特征参数;然后,在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。可以看出,其是根据非噪声音频信号的频谱特征参数,来确定当前非噪声音频信号的归属类别的,因此本发明的实施例能够脱离编码算法而存在,从而具有独立性以及可移植性。文档编号G10L25/48GK101256772SQ20071008033公开日2008年9月3日申请日期2007年3月2日优先权日2007年3月2日发明者勤严,军张,张立斌,曾学文,喆王,珺王,邓浩江申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1