声音信号分类方法和装置的制作方法

文档序号：2829742阅读：491来源：国知局

专利名称：声音信号分类方法和装置的制作方法
技术领域：
本发明涉及语音编码技术领域，特别涉及一种声音信号分类方法和一种声音信号分类装置。
背景技术：
在语音通信中只有大约40%的信号是包含语音的，其它时间都是静音或背景噪声，为了节省传输带宽，在语音信号处理领域进行语音编码中，采用语音活动检测(VAD， Voice Activity Detection)技术，使得编码器可以对背景噪声和活动的语音采用不同的速率进行编码，即对背景噪声用较低的速率进行编码，对活动的语音用较高的速率进行编码，从而降低了平均码率，极大的促进了变速率语音编码技术的发展。
现有的信号检测器(VAD)均针对语音信号而开发，只将输入的音频信号分为两种噪声和非噪声。较新的编码器如AMR—WB+和SMV，包含音乐信号的检测，作为VAD判决以外的一个修正和补充。AMR-WB+编码器的重要特征是在VAD检测之后，根据输入音频信号是语音还是音乐，用不同的模式进行编码，以在最大程度上减小码率，保证编码质量。
AMR-WB+中的两种不同编码模式包括基于代数码本激励线性预测语音编码器ACELP(Algebraic Code Excited Linear Prediction )和变换激励编码TCX ( Transform coded excitation )模式两种核心编码算法。ACELP属于通过建立语音发声模型，充分利用了语音的特点，对于语音信号的编码效率很高，加之其技术已经相当成熟，故可以通过在通用音频编码器上扩展使用前者使其语音编码质量得到很大提高。类似地，通过在低比特率的语音编码器上扩展使用TCX编码使其宽带音乐的编码质量得到提高。AMR-WB+编码算法的ACELP和TCX才莫式选择算法根据复杂度有两
种开环选择算法和闭环选择算法。闭环选择对应高复杂度，为缺省选项，
是一种基于感知加权信噪比的遍历搜索的选择方式，显然，这样的选择方法是很准确的，但它运算复杂度非常高,代码量也较大。
开环选择包括如下步骤
首先在步骤101，由VAD模块根据声调标识(Tone—flag)和子带能量参数(Level[n])，确定信号是非有用信号还是有用信号。然后在步骤102,进行初步模式选择(EC);
在步骤103，对步骤102初步确定的模式进行修正和细化模式选择 (ESC)，以确定选择的编码模式，具体基于开环基音参数和ISF参数进行。
在步骤104、进行TCXS处理，即当连续选择语音信号编码模式的次数小于三次时，进行小规模的闭环遍历搜索，最终确定编码模式，其中语音信号编码模式为ACELP，音乐信号编码模式为TCX。
在上述AMR-WB+的语音信号选择算法具有如下缺点
1、现有的VAD模块在对信号进行分类时，对噪声和一些种类的音乐信号区分不够理想，降低了声音信号分类的准确性；
2、计算开环基音参数，对于ACELP编码模式是必要的运算，然而对于 TCX编码模式是不必要的。按照AMR-WB+的结构设计，VAD和开环模式选择算法需要用到开环基音参数，因此对所有帧都需要计算开环基音，而这对于其它非ACELP编码模式(例如TCX)来说，属于冗余的复杂度，增加了编码模式选择的计算量，降低了效率。
3、虽然VAD检测算法在语音检测和噪声免疫上的表现是当前各种编码器中较优的，但在某些特殊的音乐信号拖尾部分有可能误将音乐信号判成噪音，这将导致音乐的尾音被截断，听起来不自然。
4、 AMR-WB+的模式选择算法不考虑信号所处的信噪比环境，在低信噪比条件下区分语音和音乐的性能进一步恶化。

发明内容
有鉴于此，本发明提供了一种声音信号分类方法和一种声音信号分类装置，能够提高对声音信号分类检测的准确性。
本发明提供的一种声音信号分类检测方法包括
接收声音信号，根据背景噪声频i普分布参数和所述声音信号的频镨分布参数确定背景噪声的更新速率；根据所述更新速率对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类。
本发明提供的一种声音信号分类装置包括背景噪声参数更新模块和信号初始分类PSC模块；
背景噪声参数更新模块用于根据背景噪声频谱分布参数和当前声音信号的频镨分布参数确定背景噪声的更新速率，并发送所述确定的更新速率；
PSC模块用于接收来自所述背景噪声参数更新模块的更新速率，对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对当前声音信号进行分类，并发送分类确定的声音信号类型。。
从上述方案可以看出，本发明中通过确定背景噪声的更新速率，并根据该更新速率对噪声参数进行更新，再根据子带能量参数和更新后的噪声参数对信号进行初始分类，确定接收的语音信号中的非有用信号和有用信号，降低了将有用信号判决为噪音信号的误判，提高了声音信号分类的准确性。

图1为现有技术中的AMR-WB+编码算法开环选择示意图2为本发明声音信号分类检测方法的总体流程图3为本发明声音信号分类装置的组成示意图4为本发明具体实施例所基于的系统组成示意图5为本发明具体实施例中一种编码器参数提取模块计算各种参数的流程图6为本发明具体实施例中另一种编码器参数提取模块计算各种参数
的流程图7为本发明具体实施例中PSC模块组成示意图8为本发明具体实施例中信号分类判决模块确定特征参数的示意图9为本发明具体实施例中信号分类判决模块进行语音判决的示意图10为本发明具体实施例中信号分类判决模块进行音乐判决的示意
图11为本发明具体实施例中信号分类判决模块对初始判决结果进行修正的示意图12为本发明具体实施例中信号分类判决模块对不确定信号进行初步修正分类示意图13为本发明具体实施例中信号分类判决模块对信号进行最终分类修正示意图14为本发明具体实施例中信号分类判决模块进行参数更新示意图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。
本发明的主要思想是，根据当前声音信号的频谱分布参数和背景噪声频谱分布参数确定背景噪声的更新速率，并根据该更新速率对噪声参数进行更新，则在确定接收的语音信号中的有用信号和非有用信号时，根据该更新后的噪声参数进行，从而使得在确定有用信号和非有用信号时，噪声参数的准确性更高，提高了声音信号分类的准确性。
如图2所示，本发明首先提供了一种声音信号分类检测方法，该方法包
括
步骤201、接收声音信号，根据背景噪声频镨分布参数和所述声音信号的频镨分布参数确定背景噪声的更新速率；
步骤202、根据所述更新速率对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类。
步骤202中，将声音信号分类主要是分为有用信号类型和非有用信号类型。此后，还可以进一步确定有用信号的类型，所述类型包括语音信号和音乐信号，在确定时，根据噪声是否收敛，选择基于开环基音参数、导谱频率参数和子带能量参数确定，或选择基于导谱频率参数和子带能量参数确定。
此外，为防止将音乐信号拖尾误判为非有用信号，降低声音效果，本发明中还获取确定的有用信号类型，根据该有用信号类型确定信号拖尾长度，并进一步根据该信号拖尾长度确定接收的语音信号中的有用信号和非有用信号。这里，对音乐信号的拖尾可以设置的较大，从而提高音乐信号的声音效果。
在将有用信号确定为语音信号或音乐信号时，可以首先将不能够非常准确确定的信号设置为不确定类型，然后再根据其他参数对不确定类型进行修正，最终确定有用信号的类型。
由于非有用信号的编码方式并非均需要计算导谱频率参数，因此为降低分类过程中的计算量，提高分类效率，对确定出的非有用信号，如果其对应的编码方式不需要计算导语频率参数，则不计算导谱频率参数。
如图3所示，本发明还提供了一种声音信号分类装置，包括背景噪声参数更新模块和信号初始分类(PSC)模块。其中，背景噪声参数更新模块用于根据当前声音信号的频谱分布参数和背景噪声频语分布参数确定背景噪声的更新速率，并将确定的更新速率传送给所述PSC模块；PSC模块用于根据来自所述背景噪声参数更新模块的更新速率，对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对信号进行初始分类，将接收的语音信号确定为有用信号类型或非有用信号类型。
该声音信号分类装置进一步可以包括信号分类判决模块；则PSC模块还将确定的信号类型传送给信号分类判决模块；信号分类判决模块基于开环基音参数、导谱频率参数和子带能量参数，或者基于导i普频率参数和子带能量参数，确定有用信号的类型，所述类型包括语音信号和音乐信号。
该声音信号分类装置进一步还可以包括分类参数提取模块；则PSC 模块通过分类参数提取模块将确定的信号类型传送给所述信号分类判决模块；分类参数提取模块还用于获取包括导谱频率参数和子带能量参数，或者进一步获取开环基音参数，将获取的参数处理为信号分类特征参数传送给所述分类判决模块；以及根据将获取的参数处理为声音信号的频谱分布参数和背景噪声频语分布参数，并将这些频谱分布参数传送给所述背景噪声参数更新模块；则分类判决模块根据上述信号分类特征参数和PSC模块确定的信号类型，确定有用信号的类型，所述类型包括语音信号和音乐信号。
PSC模块进一步还可以用于将确定信号类型过程中计算的声音信号的信噪比传送给所述信号分类判决模块；信号分类判决模块进一步根据所述信噪比将有用信号确定为语音信号或音乐信号。
该声音信号分类装置进一步可以包括编码器模式及速率选择模块；信号分类判决模块将确定的信号类型传送给所述编码器模式及速率选择模块；编码器模式及速率选择模块根据接收的所述信号类型确定声音信号的编码
模式及速率。
该声音信号分类装置进一步可以包括编码器参数提取模块，用于提取导谱频率参数和子带能量参数，或者进一步提取开环基音参数，并将提取的所述参数传送给所述分类参数提取模块，以及将提取的子带能量参数传送给 PSC模块。
以下通过一个具体实施例对本发明提供的声音信号分类检测方法和声音信号分类装置进行说明。
如图4所示，为本发明具体实施例基于的系统组成示意图。其中包括声音信号分类检测器(sound activity detector , SAD)它根据编码器的需要，将输入音频数字信号划分为不同的类，可分为非有用信号、语音和音乐三类，从而为编码器提供编码模式选择和速率选择的依据。
在图4中可以看出，SAD模块内部包括背景噪声估计控制模块、信号初始分类模块、分类参数提取模块和信号分类判决模块共4个子模块。SAD作为编码器内部使用的信号分类器，为减少资源耗占及计算复杂度，将充分利用编码器自有的参数，所以通过编码器中的编码器参数提取模块计算子带能量参数及编码器参数，并将计算的参数提供给SAD模块。另外， SAD模块最终输出是信号判决类型，包括非有用信号、语音和音乐三类，提供给编码器模式和速率选择模块，供其选择编码器模式和速率。
以下分别对编码器中与SAD相关的模块、SAD中的各个子模块，以及各个模块之间的交互过程进行详细说明。
编码器中的编码器参数提取模块计算子带能量参数及编码器参数，并将计算的参数提供给SAD模块。其中，子带能量参数的计算可以采用滤波器组滤波的方法，具体的子带数量根据计算复杂度要求和分类准确性要求确定，在本实施例中下述以分为12个子带进行说明。
本实施例中，编码器参数提取模块计算各种SAD模块需要的参数的过程可以如图5或图6所示，
其中，图5所示的流程包括如下步骤
步骤501、编码器参数提取模块首先计算子带能量参数。
步骤502、编码器参数提取模块根据来自PSC模块的信号初始判决结果 (Vad_flag)决定是否需要进行导频频率(ISF)运算，如果需要执行步骤 503;否则执行步骤504。
本步骤中决定是否需要进行ISF运算包括如果当前帧是非有用信号，则根据编码器的机制如果编码器针对非有用信号的编码需要ISF参数，则进行ISF运算；若不需要，则编码器参数提取模块结束。如果当前帧是有用信号，则进行ISF运算。对于有用信号计算ISF参数，是大多数编码模式都需要的，因此不会给编码器带来冗余的复杂度。ISF参数计算的技术方案可以参考各种编码器的资料，在此不赘述。
步骤503、编码器参数提取模块计算ISF参数，然后执行步骤504。
步骤504、编码器参数提取模块计算开环基音参数。
通过上述图5的流程计算出的子带能量参数提供给SAD中的PSC模块和分类参数提取模块，其余参数提供给SAD中的分类参数提取模块。
图6所示的流程中，在图5流程的基础上，增加了根据初始噪声是否收敛来决定是否计算开环基音参数的步骤。其中，步骤601至步骤603与图5 中的步骤501至步骤503基本相同，而在步骤604,判断初始化噪声参数，即噪声估计是否收敛，如果是则在步骤605计算开环基音参数；否则不计算开环基音参数。
由于开环基音参数对于有的编码模式，如TCX编码模式，属于冗余的计算，为降低计算复杂度，在噪声估计收敛之后，基本可以确定信号对应的编码模式不需要计算开环基音参数，因此就不再计算开环基音参数。
在噪声估计收敛之前，为确保噪声估计能够收敛及其收敛速度，需要计算开环基音参数，但这属于启动阶段的计算，可以忽略其复杂度。开环基音参数计算的技术方案可以参考基于ACELP的编码，在此不赘述。判断噪声估计是否收敛的依据可以是连续判决为噪声帧的次数超过门限噪声收敛门限(THR1 ),本实施例的一个示例中THR1值取20。
上述提取出的子带能量参数为level[i]。其中，i表示向量的成员索引，本实施例中取1…12，分别对应0-200hz， 200-400hz，機-600hz， 600-800hz, 800-1200hz， 1200-1600hz, 1600-2000hz ， 2000-2400hz, 2橋-3200hz ， 3200-40000hz, 4000-4800hz, 4800-6400hz。
上述提取出的ISF参数为^人W，其中，n表示帧索引，i取l…16表示向量中成员索引。
上述提取出的开环基音参数包括
开环基因增益(open—loop pitch gain, ol_—gain )和开环基因延迟 (open—loop pitch lag , ol_lag),以及音调标志(tone—flag)。其中，如果 ol—gain的值大于音调门限(TONE—THR)，则音调标志tone_flag设为1。信号初始分类模块(PSC)可以采用各种已有的VAD算法方案来实现，
具体包括背景噪声估计子模块、计算信噪比子模块、有用信号估计子模块、判决阈值调整字模块、比较子模块、拖尾保护有用信号子模块。本实施例中，
如图7所示，PSC模块的具体实现也可以与现有的VAD算法模块有以下三点不同
I、计算信噪比子模块根据该参数和子带能量参数计算信噪比，计算出的信噪比参数(snr)除在PSC模块内部使用外，还将该snr参数传送给信号分类判决模块，以使得信号分类判决模块在低信噪比条件下对语音和音乐的区分也更加准确。
II、由于现有的VAD对噪声和某些种类的音乐的区分不够理想，本实施例对VAD进行了以下改进首先背景噪声参数的计算由背景噪声参数更新模块提供的更新速率acc来控制。由背景噪声估计子模块接收来自背景噪声参数更新模块的更新速率，对噪声参数进行更新，并将根据更新后的噪声参数计算的背景噪声子带能量估计参数传送给计算信噪比子模块。具体对更新速率的计算参见后续对背景噪声参数更新模块的说明，在本实施例的一个示例中，更新速率可以取4个档accl， acc2， acc3, acc4。对于不同的更新速率，确定不同的向上更新参数(update—up )和向下更新参数
(update—down ) ， update—up及update—down分另'J对应背景噪声向上及向下的更新速率。
然后噪声参数更新的方案具体可采用AMR一WB+中的方案 If( 6cAr 一 e《[w] < /ev《一！["])
update=update—up
else
update=update_down 则噪声估计更新的公式为 k^-Wm+1["]=(1_update)* 6c^_"U"]+update*
则噪声频镨分布参数向量更新的公式为
卩]=(1 _ — — *》m + e * pm [/]
其中，
m: 帧索引 n:子带索引
i: 频谱分布参数向量的元素索引，i=l，2，3,4 bckr_est:背景噪声估计子带能量
卜背景噪声频谱分布参数向量估计当前信号频语分布参数向量
III、在现有的VAD中，一般都通过拖尾来保护有用信号不被误判为噪声，拖尾的长短应在保护信号和提高传输效率两方面取一个折衷。对于传统的语音编码器，拖尾的长短可以经学习取一个常量。而对于多速率编码器，面向的是包括音乐的音频信号，这类信号经常出现较长的低能量的拖尾，常规VAD较难将这部分拖尾检测出来，因此需要较长的拖尾对其进行保护。在实施例中，将托尾保护有用信号子模块中的拖尾长短设计为根据SAD信号判决结果自适应，如果判决出是音乐信号(SADJlag-MUSIC)则设置较长的拖尾参数(hang—len=HANG—LONG )，如果判决出是语音信号 (SAD—flag=SPEECH)，则设置较短的拖尾参数(hang—len=HANG—SHORT)，具体设置方式如下
If(SAD一flag-MUSIC)
hang—len=HANG—LONG
else if(SAD—flag=SPEECH) hang—len=HANG—SHORT
else
hang—len=0
其中
SAD—flag SAD判决标志 hang一len 拖尾保护长度
本实施例的一个示例中，HANG—LONG= 100, HANG SHORT=20，单4立可以是帧H。
分类参数提取模块用于根据信号初始分类模块确定的Vad一flag参数和编码器参数提取模块提供的子带能量参数、ISF参数、开环基音参数计算信号分类判决模块和背景噪声参数更新模块需要的参数，以及将子带能量参数、ISF参数、开环基音参数和计算出的参数对应提供给信号分类判决模块和背景噪声参数。分类参数提取模块计算出的参数包括
1、基音参数(pitch)
比较连续的开环基音延迟的差值，如果开环基音延迟的增量小于设定的阈值，则延迟计数累加；如果连续两帧的延迟计数之和足够大，则设置 pitch-l,否则pitch-O。开环基音延迟的计算公式可参见AMR-WB+/AMR-WB 标准文档。
2、长时信号相关值参数(meangain)
meangain是相邻三帧音调tone的滑动平均，其中tone=1000*tone—flg; tone—flg定义与AMR-WB+中的相同。
3、过零率(zcr)
nW在当a是truth是1 ，当是false时为0。
4、子带能量时域波动(t—flux)
12
ZI/evWHeveUl
^ j"x = ~^-
■s7/oW 一 wear"—/ew/ 一
其中short—mean_level—energy表示短时平均能量
5、高低子带能量比(ra) 一 sw6/eve/ —A妙—ewergy
其中，本专利发明的一个实例
sublevel—high—energy = level [10]+ level[l l];
sublevel—low_energyalevel
十level[l]屮level[2]十 level[3]+ level[4]十level[5]+ level[6]十level[7] + level[8]十level[9];
6、子带能量频域波动(f—flux)
<formula>complex formula see original document page 17</formula>
7、导镨距离短时平均(isf—meanSD):为五个相邻帧导谱距离Isf_SD 的平均值，其中
<formula>complex formula see original document page 17</formula>
8、子带能量标准差平均参数(level—meanSD)，表示两个相邻帧子带能量标准差(level—SD )的平均值，level一SD参数的计算方法参考上述Isf_SD 的计算方法。
上述8个参数中，提供给背景噪声参数更新模块的参数包括zcr、 ra、 f—flux和t—flux。提供给信号分类判决模块的参数包括pitch 、 meangain 、 isf一meanSD和level一meanSD。
信号分类判决模块用于根据来自信号初始分类模块PSC的snr、 Vad—flag,以及来自分类参数提取模块的子带能量参数、pitch、 meangain、 Isf—meanSD、 level—meanSD将信号最终区分为非有用信号(NOISE)、语音信号(SPEECH)和音乐信号(MUSIC)。信号分类判决模块中可以包括参数更新子模块和判决子模块；所述参数更新子模块用于根据所述信噪比更新信号分类判决过程中的门限，并将更新后的门限提供给所述判决子模块;. 所述判决子模块用于接收来自PSC模块的声音信号类型，并对其中的有用信号基于开环基音参数、导谱频率参数、子带能量参数和所述更新后的门限，或者基于导谱频率参数和子带能量参数和所述更新后的门限，确定所述有用信号的类型，并发送所确定的有用信号的类型到编码器模式及速率选择模块。
将有用信号确定为语音信号或音乐信号包括首先设置语音标识位的值和音乐标识位的值均为0，然后根据基音参数标识、长时信号相关值、导谱距离短时平均参数和子带能量子标准差平均参数将信号初步确定为语音类型、音乐类型或不确定类型，并根据初步确定出的语音类型或音乐类型对应
修改语音标识位或音乐标识位的值；再根据子带能量、长时信号相关值、子带能量子标准差平均参数、speech—flag、 music—flag、 pitch值为1的连续帧数是否超过预先设置的拖尾帧数门限、连续的音乐帧数、连续的语音帧数，以及上一帧的类型，对初步确定出的所述语音类型、音乐类型或不确定类型进行修正，确定有用信号的类型，所述类型包括语音信号和音乐信号。
以下再对将有用信号确定为语音信号或音乐信号的具体流程进行说明
为保证信号判决的稳定及避免频繁的判决结果的转换，本实施例提供了参凄t的才示志拖尾才几制，包4舌对pitch—flag 、 level—meanSD—high—flag 、 ISF_meanSD—high—flag 、 ISF_meanSD_low—flag 、 level—meanSDJow—flag 、 meangain_flag这些特征参数值的确定根据拖尾机制进行，这些特征参数值的具体确定如图8所示。
图8中的拖尾期间的长度根据拖尾参数标识值确定，本实施例中提供了两种拖尾设置，即确定拖尾参数标识值的方案
第一种拖尾设置方案中，当参数值高于或低于一定门限时，对应的参数拖尾计数器值加一；否则对应的参数拖尾计数器值设置为0,并根据参数拖尾计数器的值设定不同的参数拖尾标识。其中，参数拖尾计数器的值越大，参数拖尾标识值的长度越长，具体在根据参数计数器设置参数拖尾标识值时根据实际情况确定，这里不再赘述。
第二种拖尾设置方案中，根据训练参数对应的决策树的各内部节点的错误率ER来控制拖尾长短，错误率小的参数，拖尾短；错误率大的参数，拖尾长。
此后，如果当前的信号分类为有用信号，进行语音和音乐的初始分类首先进行语音初始判决，如图9所示，在步骤901设置语音标识位=0, 然后在步骤902，判断Isf—meanSD是否大于预先设定的第一导镨语音门限
(例如为1500 )，如果是则设置语音标识位的值为1;否则，
在步骤903，判断是否pitch值为1,并且开关基音搜索获得的基音延迟值t—top—mean小于基音语音门限(例如为40),如果是，则设置语音标识位的值为1;否则，
在步骤904，判断pitch值为1的连续帧数是否超过预先设置的拖尾帧数门限(例如为2帧)，如果是，则设置语音标识位的值为1;否则，
在步骤卯5,判断meangain是否大于预先设定的长时相关语音门限(例如为8000)，如果是，则设置语音标识位的值为1;否则，
在步骤906，判断level—meanSD—high—flag和ISF—meanSD—high_flag中是否有一个或两个的值为1，如果是，则设置语音标识位的值为1;否则不更改语音标识位的值。
然后，进行音乐初始判决，具体如图10所示
在步骤1001,首先将音乐标识位设置为0,然后在步骤1002,判断信号同时满足标志ISF—meanSD—low—flag = 1和level—meanSD—low—flag = 1 ，如果是则设置音乐信号标志music—flag;否则，不更改音乐标识位的值。
此后，如图11所示，对初始判决结果进行修正
首先在步骤1101、判断是否子带的即时能量小于子带能量门限(例如为5000 )，如果是则执行步骤1102;否则将信号确定为不确定类 (UNCERTAIN);
在步骤1102,判断是否meangain—flag = 1,并且音乐持续计数器小于音乐持续计数语音判断门限(例如为3),如果是则将信号确定为语音信号；否则，
在步骤1103,判断ISF—meanSD的值大于预先设定的第二导i瞽语音门限 (例如为2000),如果是则将信号确定为语音信号；否则，
在步骤1104,判断是否level_energy小于10000，并且之前判决为噪声
的帧数超过了五帧，如果是，则将当前的信号类别置为不确定类，这是为了降低将噪声归为音乐类的误判；否则，
在步骤1105，判断是否音乐标识位和语音标识位的值均为1,如果是，
则将当前信号类别确定位不确定类；否则，
在步骤1106,判断是否音乐标识位和语音标识位的值均为0，如果是，则将当前信号类别确定位不确定类；否则，
在步骤1107,判断是否音乐标识位为O，语音标识位为1,如果是，则将当前信号类型确定为语音类；否则，
在步骤1108，由于音乐标识位为1,语音标识位为0，将当前信号类型确定为音乐类。
在上述步骤1104、 1105即步骤1106中确定出信号为不确定类后，执行步骤1109:判断是否pitch—flag-l ，并且ISF_meanSD小于导语音乐门限(例如为900)，并且连续的语音帧数小于3，如果是，则将信号确定为音乐类；否则，将信号仍确定为不确定类；
而在上述步骤1103和步骤1107将信号确定为语音类后，执行步骤1110: 是否连续的音乐帧数大于3,并且ISF—meanSD小于导谱音乐门限，如果是，则将信号确定为音乐信号；否则，将信号确定为语音信号。
在通过上述流程确定出语音信号和音乐信号后，对于仍然处于不确定类的信号，执行图12所示的流程，进行初步修正分类，包括首先在步骤1201 判断levd—energy是否小于子带能量不确定类门限(例如为5000 ),如果是，仍将信号类型确定为不确定类；否则，在步骤1202,判断是否音乐的持续帧数大于1并且ISF—meanSD小于导谱音乐门限，如果是，将信号确定为音乐类；否则
对语音和音乐拖尾标志清零，如果本帧之前为连续的语音类，且连续性较强，那么根据语音的特征参数对语音进行判决，若满足语音条件，那么设置语音拖尾标志speechjiangover—flag = 1，具体包括图12中的步骤1203至步骤1206;如果本帧之前为连续的音乐类，且连续性较强，那么根据音乐的特征参数对音乐进行判决，若满足音乐条件，那么设置音乐拖尾的标志 music—hangover—flag = 1,具体包括图12中的步骤1207至步骤1210。
此后，如图12中的步骤1211至步骤1216所示，如果语音拖尾标志为 1，音乐拖尾标志为0,将当前的信号类别置为语音类；如果音乐拖尾标志为1，语音拖尾标志为0，则将当前的信号类别置为音乐类；如果音乐拖尾标志和音乐拖尾标志同时为1或同时为0，将信号类别设为不确定类，这时如果之前音乐的连续性超过了 20帧，将信号确定为音乐类，如果之前语音的连续性超过了20帧，将信号确定为语音类。
在经过上述初步修正后，在图13中对有用信号类型进行最终修正，继续根据当前的语境进行类别的修正，在步骤1301，如果当前的语境为音乐，且持续性很强，超过了 3秒，即当前连续的音乐帧数超过了 150帧，那么可根据ISF一meanSD的值进行强制修正，确定音乐信号。在步骤1302，如果当前的语境为语音，并且持续性很强，超过了3秒，即当前连续的语音帧数超过了 150帧，那么可根据ISF—meanSD的值进行强制修正，确定语音信号类型；此后如果信号类别还为不确定类，那么在步骤1303根据之前的语境对信号类别进行修正，即将当前不确定的信号类别归纳为之前的信号类别。
在通过上述流程确定了有用信号的类别后，需要更新三个类别计数器和更新信号类别判决模块中的各门限值。对于三个类别计数器，如果当前分类为音乐signal—sort = music, 则音乐计凄t器music—countinue—counter增力口 1 ，否则清零；其它类别计数器的处理类似，如图14所示，这里不再详述。而门限值根据信号初始分类模块输出的信噪比大小来更新，在实施例中列举的各门限示例是在20db信噪比条件下学习得到的值。
背景噪声参数更新模块利用SAD中分类参数提取模块中计算出的一些频谱分布参数，来控制背景噪声的更新速率。由于在实际应用环境可能出现背景噪声的能量水平突然提高的情况，这时易出现背景噪声估计因信号持续
被判为有用信号而一直不能更新的状态，背景噪声参数更新模块的设置即解决了该问题。
该背景噪声参数更新模块根据来自分类参数提取模块中的参数，计算的
有关频镨分布参数向量包含以下元素过零率zcr的短时平均高低子带能量比ra的短时平均子带能量频域波动f—flux的短时平均子带能量时域波动t一flux的短时平均其中，zcr—mean短时平均的计算方法如下，其它类似 zct — wecwm =爿LP/i4[kcr — + (1 — ^LP/i4)[icrm
其中ALPHA=0.96, m表示帧索引。
本实施例利用了背景噪声的频i普特性较为稳定的特点，其中频i普分布参数向量的成员可不限于以上列出的4个。当前背景噪声的更新速率由当前频
镨分布参数与背景噪声频谱分布参数估计之间的差异《来控制。该差异可以通过欧式距离、Manhattan距离等算法来实现。本专利的一个发明实例采用 Manhattan距离(一种距离计算方式的命名，类似于欧式距离)，即
,=1
其中，P是当前信号的频谱分布参数向量，》是背景噪声频谱分布参数向量估计。
在本实施例的一个示例中，当《^TH1时，模块输出更新速率accl,代
表最快更新速率；否则，当《*<TH2时，输出更新速率acc2;否则，当《<TH3 时，输出更新速率acc3;否则，输出更新速率acc4。这里的TH1、 TH2、 TH3 和TH4为更新门限，具体根据实际环境情况确定。
以上是对本发明具体实施例的说明，在具体的实施过程中可对本发明的方法进行适当的改进，以适应具体情况的具体需要。因此可以理解，根据本发明的具体实施方式
只是起示范作用，并不用以限制本发明的保护范围。
权利要求
1、一种声音信号分类方法，其特征在于，该方法包括A、接收声音信号，根据背景噪声频谱分布参数和所述声音信号的频谱分布参数确定背景噪声的更新速率；B、根据所述更新速率对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类。
2、根据权利要求1所述的方法，其特征在于，所述步骤B后进一步包括C、对所述分类得到的有用信号，基于开环基音参数、导谱频率参数和子带能量参数确定有用信号的类型，所述类型包括语音信号和音乐信号。
3、根据权利要求2所述的方法，其特征在于，所述步骤C之前进一步包括C0、检测噪声估计是否收敛，如果是，则执行步骤C1;否则，执行所述步骤C;Cl、对所述分类得到的有用信号，基于导谱频率参数和子带能量参数将有用信号的类型确定有用信号的类型，所述类型包括语音信号和音乐信一弓_
4、根据权利要求3所述的方法，其特征在于，所述步骤C0中，检测初始噪声是否收敛为判断所述接收的声音信号前连续噪声帧数是否超过预先设定的噪声收敛门限，如果是，则确定噪声估计收敛；否则，确定噪声估计不收敛。
5、根据权利要求2所述的方法，其特征在于，所述步骤B中还获取所述确定的有用信号类型，根据该有用信号类型确定信号拖尾长度，并进一步根据该信号拖尾长度对所述声音信号进行分类。
6、根据权利要求2所述的方法，其特征在于，所述步骤C包括初始化语音标识位和音乐标识位，然后根据基音参数标识、长时信号相关参数、导语距离短时平均参数和子带能量子标准差平均参数，以及对应的门限，初步确定有用信号的类型，包括语音类型、音乐类型或不确定类型，并根据初步确定出的语音类型和音乐类型对应修改语音标识位和音乐标识位；根据子带能量、长时信号相关参数、子带能量子标准差平均参数子带能量子标准差平均参数、语音标识位、音乐标识位、基音参数标识值为i的连续帧数是否超过预先设置的拖尾帧数门限、连续的音乐帧数、连续的语音帧数、上一帧的类型及对应的门限，对初步确定出的所述语音类型、音乐类型或不确定类型进行修正，最终确定所述有用信号的类型，包括语音信号和音乐信号。
7、根据权利要求6所述的方法，其特征在于，所述门限根据所述声音信号的信噪比进行调整。
8、根据权利要求1所述的方法，其特征在于，所述步骤B后，进一步包括D、对所述分类得到的非有用信号，确定其对应的编码方式，并根据确定的编码方式确定是否需要计算导傳频率参数。
9、根据权利要求1所述的方法，其特征在于，步骤B中所述的噪声参数包括噪声估计参数和噪声频谦分布参数。
10、根据权利要求1或9所述的方法，其特征在于，所述步骤A包括计算所述声音信号频谱分布参数与背景噪音频谱分布参数之间的差异参数，然后根据该差异参数确定更新速率。
11、根据权利要求10所述的方法，其特征在于，计算所述差异参数涉及的频语分布参数包括过零率短时平均参数、高低子带能量比短时平均参数、子带能量频域波动短时平均参数和子带能量时域波动短时平均参数。
12、一种声音信号分类装置，其特征在于，该装置包括背景噪声参数更新模块和信号初始分类PSC模块；所述背景噪声参数更新模块用于根据背景噪声频谱分布参数和当前声音信号的频谱分布参数确定背景噪声的更新速率，并发送所述确定的更新速率；所述psc模块用于接收来自所述背景噪声参数更新模块的更新速率，对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对当前声音信号进行分类，并发送分类确定的声音信号类型。
13、根据权利要求12所述的装置，其特征在于，该装置进一步包括信号分类判决模块，用于接收来自psc模块的声音信号类型，并对其中的有用信号基于开环基音参数、导谱频率参数和子带能量参数，或者基于导镨频率参数和子带能量参数，确定有用信号的类型，所述类型包括语音信号和音乐信号，并发送所确定的有用信号的类型。
14、根据权利要求13所述的装置，其特征在于，该装置进一步包括分类参数提取模块，用于接收来自psc模块的声音信号类型，并将该声音信号类型传送给所述信号分类判决模块；和获取包括导谱频率参数和子带能量参数，或者进一步获取开环基音参数，将获取的参数处理为信号分类特征参数传送给所述信号分类判决模块；以及将获取的参数处理为声音信号的频谱分布参数和背景噪声频语分布参数，并将这些频镨分布参数传送给所述背景噪声参数更新模块；则所述分类判决模块根据所述信号分类特征参数和所述psc模块确定的声音信号类型，确定有用信号的类型，所述类型包括语音信号和音乐信号。
15、根据权利要求13或14所述的装置，所述psc模块中包括背景噪声估计子模块、计算信噪比子模块、有用信号估计子模块、判决阈值调整字模块、比较子模块、拖尾保护有用信号子模块；其特征在于，所述背景噪声估计子模块接收来自所述背景噪声参数更新模块的更新速率，对噪声参数进行更新，并将根据更新后的噪声参数计算的背景噪声子带能量估计参数传送给所述计算信噪比子模块；所述计算信噪比子模块用于接收所述背景噪声子带能量估计参数，并根据该参数和子带能量参数计算信噪比，并将信噪比传送给所述信号分类判决模块；所述信号分类判决模块包括参数更新子模块和判决子模块；所述参数更新子模块用于根据所述信噪比更新信号分类判决过程中的门限，并将更新后的门限提供给所述判决子模块；所述判决子模块用于接收来自PSC模块的声音信号类型，并对其中的有用信号基于开环基音参数、导谱频率参数、子带能量参数和所述更新后的门限，或者基于导谱频率参数和子带能量参数和所述更新后的门限，确定所迷有用信号的类型，并发送所确定的有用信号的类型。
16、根据权利要求13所述的装置，其特征在于，该装置进一步包括编码器模式及速率选择模块，用于接收来自信号分类判决模块的有用信号的类型，并根据接收的有用信号的类型确定声音信号的编码模式及速率。
17、根据权利要求14所述的装置，其特征在于，该装置进一步包括编码器参数提取模块，用于提取导谦频率参数和子带能量参数，或者进一步提取开环基音参数，并将提取的所述参数传送给所述分类参数提取模块，以及将提取的子带能量参数传送给所述PSC模块。
全文摘要
本发明公开了一种声音信号分类方法，包括接收声音信号，根据背景噪声频谱分布参数和所述声音信号的频谱分布参数确定背景噪声的更新速率；根据所述更新速率对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类。本发明还公开了一种声音信号分类装置，包括背景噪声参数更新模块，用于根据背景噪声频谱分布参数和当前声音信号的频谱分布参数确定背景噪声的更新速率，并发送所述确定的更新速率；PSC模块，用于接收来自所述背景噪声参数更新模块的更新速率，对噪声参数进行更新，并根据子带能量参数和更新后的噪声参数对当前声音信号进行分类，并发送分类确定的声音信号类型。
文档编号G10L25/78GK101197135SQ20061016445
公开日2008年6月11日申请日期2006年12月5日优先权日2006年12月5日
发明者勤严, 清张, 伟李, 杜正中, 桑盛虎, 珺王, 许丽净, 许剑峰, 邓浩江申请人:华为技术有限公司;中国科学院声学研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：严勤;邓浩江;王珺;许剑峰;许丽净;李伟;张清;桑盛虎;杜正中
技术所有人：华为技术有限公司;中国科学院声学研究所
我是此专利的发明人

上一篇：语音变速的方法
上一篇：一种在编解码中调整量化质量的方法和装置的制作方法