一种宽带音频编解码器中的音频信号分类装置及分类方法

文档序号：2837391阅读：463来源：国知局

专利名称：一种宽带音频编解码器中的音频信号分类装置及分类方法
技术领域：
本发明涉及一种数字声音信号分类技术，具体说，涉及一种宽带音频编解码器中的音频信号分类装置及分类方法。

背景技术：
在语音信号处理领域，现有的声音信号分类检测(SAD，Sound ActivityDetection)均只针对语音信号而开发，只将输入的音频信号分为两种噪声和非噪声。
AMR-WB+虽然包含音乐信号的检测，但只是作为SAD判决以外的一个修正和补充。AMR-WB+编码算法的ACELP和TCX模式选择算法根据复杂度有两种开环选择算法和闭环选择算法。闭环选择对应高复杂度，为缺省选项，是一种基于感知加权信噪比的遍历搜索的选择方式，运算复杂度非常高，代码量也较大。
因此，当编解码算法应用场景从以处理语音为主逐步过渡到处理多媒体语音(包括多媒体音乐)，编解码算法本身也逐步从窄带到宽带扩展，所以随着应用场景的变化，现有SAD算法的简单输出类别显然不足以描述音频信号特性。

发明内容
本发明所解决的技术问题是提供一种宽带音频编解码器中的音频信号分类装置，解决了AMR-WB+编码器中声音分类器分类性能不高，结构冗余的问题。
技术方案如下一种宽带音频编解码器中的音频信号分类装置，其特征在于，包括背景噪声估计控制模块、信号初始分类模块、分类参数提取模块和信号分类判决模块，其中，背景噪声估计控制模块，用于接收所述分类参数提取模块的频谱分布参数，所述频谱分布参数用来控制背景噪声的更新速率，并将所述更新速率发送到信号初始分类模块；信号初始分类模块，用于接收音频输入信号，以及用于接收编码器参数提取模块输入的子带能量参数和所述更新速率，根据所述子带能量参数和更新速率对所述音频输入信号进行初始分类，将初始分类结果发送到分类参数提取模块和信号分类判决模块；分类参数提取模块，用于接收所述编码器参数提取模块输入的编码器参数和所述信号初始分类模块输入的初始分类结果，对输入信号进行提取和分类，将得到的信号分类特征参数发送到信号分类判决模块，同时将得到的频谱分布参数反馈到背景噪声估计控制模块；信号分类判决模块，用于接收所述信号分类特征参数和初始分类结果，根据所述初始分类结果对所述分类特征参数设置类别最终标志，所述类别最终标志用于定义输出信号的判决类型。
优选的，所述信号初始分类模块的初始分类结果包括噪声和非噪声。
优选的，所述分类参数提取模块的信号分类特征参数包括基音参数、平均增益、过零率、子带能量时域波动值、高低子带能量比、子带能量频域波动值或者线谱距离短时平均值。
优选的，所述信号分类判决模块的类别最终标志包括非有用信号类、语音类和音乐类，中间分类标志包括不确定类。
本发明所解决的另一个技术问题是提供一种宽带音频编解码器中的音频信号分类方法，解决了AMR-WB+编码器中声音分类器分类性能不高，结构冗余的问题。
技术方案如下一种宽带音频编解码器中的音频信号分类方法，步骤包括 (1)背景噪声估计控制模块接收分类参数提取模块的频谱分布参数，并将所述更新速率发送到信号初始分类模块，所述频谱分布参数用来控制背景噪声的更新速率； (2)信号初始分类模块接收音频输入信号，以及接收编码器参数提取模块输入的子带能量参数和所述更新速率，根据所述子带能量参数和更新速率对所述音频输入信号进行初始分类，将初始分类结果发送到分类参数提取模块和信号分类判决模块； (3)分类参数提取模块接收所述编码器参数提取模块输入的编码器参数和所述信号初始分类模块输入的初始分类结果，对输入信号进行提取和分类，将得到的信号分类特征参数发送到信号分类判决模块，并将得到的频谱分布参数反馈到背景噪声估计控制模块； (4)信号分类判决模块接收所述信号分类特征参数和初始分类结果，根据所述初始分类结果对所述分类特征参数设置类别最终标志，得到输出信号的判决类型，所述类别最终标志用于定义输出信号的判决类型。
进一步，步骤(2)中，所述信号初始分类模块接收信号分类判决模块反馈的判决结果，根据所述判决结果自适应拖尾长度。
针对以上问题，与AMR-WB+的模式选择算法比较，本发明技术方案的主要优势体现在以下几个方面 1、提高了声音分类的准确性； 2、保证准确率的前提下，提高编码算法效率； 3、架构上充分优化，去除了AMR-WB+模式选择算法给编码器带来的不必要的代码冗余及复杂度冗余。

图1是宽带音频编解码器中的音频信号分类装置的结构示意图。

具体实施例方式 下面参照附图，对本发明的优选实施例作详细描述。
参照图1所示，对宽带音频编解码器中的音频信号分类装置10作详细描述。音频信号分类装置10包括背景噪声估计控制模块11、信号初始分类模块(PSC)12、分类参数提取模块13和信号分类判决模块14。
编码器参数提取模块20用于为音频信号分类装置10提供必要的子带能量参数，从而可以减少资源耗占及计算复杂度。编码器参数提取模块20提供的编码器参数包括子带能量、Lsf系数向量、开环基因增益、开环基因延迟、音调标志。计算子带能量参数之后，将根据信号初始分类的结果决定是否进行LSF运算。如果当前帧是非有用信号，则根据编码器的机制如果编码器针对非有用信号的编码需要LSF系数，则进行LSF运算；若不需要，则编码器参数提取模块结束。如果当前帧是有用信号，则进行LSF运算。对于有用信号计算LSF参数，是大多数编码模式都需要的，因此不会给编码器带来冗余的复杂度。
编码器模式及速率选择模块30采用AMR-WB+的ACELP/TCX开环模式选择模块。该模块接收音频信号分类装置10输出的信号判决类型，根据不同的信号判决类型选择对应的编码模式。信号判决类型包括非有用信号、语音和音乐三类，分别对应AMR-WB+中开环模式选择中的VAD_flag＝0、ACELP和TCX。
背景噪声估计控制模块11利用分类参数提取模块13的频谱分布参数来控制背景噪声的更新速率，并将更新速率发送到信号初始分类模块(PSC)12。
实际应用环境可能出现背景噪声的能量水平突然提高的情况，这时易出现背景噪声估计因信号持续被判为有用信号而一直不能更新的状态。针对此问题，背景噪声估计控制模块11利用分类参数提取模块13中计算出的一些频谱分布参数来控制背景噪声的更新速率。
信号初始分类模块(PSC)12接收音频输入信号，根据编码器参数提取模块20的子带能量参数和背景噪声估计控制模块11的更新速率对音频输入信号进行初始的分类，例如将音频输入信号分为噪声和非噪声。初始分类结果可以反馈给分类参数提取模块13；同时，作为后续的分类处理输入，将初始的分类结果发送到信号分类判决模块14。
以AMR-WB+中的VAD算法为基础，并针对AMR-WB+中的VAD对噪声和某些种类的音乐的区分不够理想的问题进行了改进首先，背景噪声的估计由背景噪声估计控制模块11提供的更新速率(acc)来控制，噪声更新的方案可采用AMR-WB+中的方案。
其次，AMR-WB+的VAD中，一般都通过拖尾来保护有用信号不被误判为噪声，拖尾的长短应在保护信号和提高传输效率两方面取一个折衷。对于传统的语音编码器，拖尾的长短可以经学习取一个常量；而对于多速率编码器，面向的是包括音乐的音频信号，这类信号经常出现较长的低能量的拖尾，常规VAD较难将这部分拖尾检测出来，因此需要较长的拖尾对其进行保护。在本发明中，将信号初始分类模块(PSC)12中的拖尾长短设计为根据信号分类判决模块14反馈的判决结果自适应。
分类参数提取模块13接收编码器参数提取模块20输入的编码器参数和信号初始分类模块(PSC)12的初始分类结果，对上述输入的信号进行提取和分类，并将得到的信号分类特征参数发送到信号分类判决模块14，将得到的频谱分布参数发送到背景噪声估计控制模块11。
需要提取的信号分类特征参数包括 (1)基音参数(pitch) 基音参数(pitch)是比较连续的开环基音延迟的差值，如果开环基音延迟的增量小于设定的阈值，则延迟计数累加；如果连续两帧的延迟计数之和足够大，则设置pitch＝1，否则pitch＝0。
(2)平均增益开环基音增益超过阈值，则置高位标志值，连续几帧值取均值就是平均增益。
(3)过零率(zcr) 通用的计算方法如下 II{A}在当A逻辑成立(为truth)时是1，反之(为false)时为0。
(4)子带能量时域波动值(t_flux) 其中，levelm(i)表示第m帧中第i个子带的信号能量，short_mean_level_energy表示短时平均能量。
(5)高低子带能量比(ra) 其中，sublevel_high_energy代表高子带能量，sublevel_low_energy代表低子带能量。
(6)子带能量频域波动值(f_flux) (7)线谱距离短时平均值(Isf_meanSD)代表五个相邻帧线谱距离(Isf_SD)的平均值，其中其中，Isf表示线谱频率系数向量，m表示帧索引，i表示向量中成员索引。
信号分类判决模块14接收分类参数提取模块13的信号分类特征参数和信号初始分类模块12的初始分类结果，根据初始分类结果对分类特征参数设置类别最终标志，类别最终标志用于定义输出信号的判决类型。信号分类判决的类别最终标志包括非有用信号类(NOISE)、语音类(SPEECH)和音乐类(MUSIC)，中间分类标志还包括不确定类(UNCERTAIN)。
分类判决主要包括以下过程 1、特征参数拖尾。
为保证信号判决的稳定及避免频繁的判决结果的转换，设置拖尾方案。例如，对特征参数的标志设置拖尾或根据训练参数对应的决策树的各内部节点的错误率(ER)来控制拖尾长度。
2、初始分类。
如果当前的信号分类为有用信号，那么进行语音和音乐的初始分类。首先，进行语音判决，如果信号满足语音特性标准，则设置语音信号标志。其次，进行音乐判决，如果信号满足音乐特性标准，那么认为是音乐信号，并设置音乐信号标志。
3、修正分类。
修正分类按照如下步骤执行 a)首先对语音和音乐拖尾标志清零。
如果经过初始判决后当前的分类处于不确定类，根据语境和一些具体的参数对信号的类别进行修正。
b)如果本帧之前为连续的语音类，且连续性较强，那么根据语音的特征参数对语音进行判决，若满足语音条件，那么设置语音拖尾的标志speech_hangover_flag。
c)如果本帧之前为连续的音乐类，且连续性较强，那么根据音乐的特征参数对音乐进行判决，若满足音乐条件，那么设置音乐拖尾的标志music_hangover_flag。
d)如果语音拖尾标志为1，那么将当前的信号类别置为语音类。
e)如果音乐拖尾标志为1，那么将当前的信号类别置为音乐类。
f)如果音乐拖尾标志和音乐拖尾标志同时满足，那么将信号类别设为不确定类。如果之前音乐的连续性超过了2帧，并且lsf_meanSD的值较小，则将信号类别设为音乐类。
g)经过初步的拖尾后，如果信号类别还为不确定类，那么根据之前的语境对信号类别进行修正，即将当前不确定的信号类别归纳为之前的信号类别。
4、最终的修正分类。
经过初始的分类修正后，继续根据当前的语境进行类别的修正。如果当前的语境为音乐，且持续性很强，超过了设定时间(例如3秒)，那么可根据lsf_meanSD的值进行强制修正；如果当前的语境为语音，并且持续性很强，超过了设定时间(例如3秒)，那么可根据lsf_meanSD的值进行强制修正。如果信号的即时能量值太小，那么当前帧的类别判决为与前一帧的判决相同。
5、参数更新。
参数更新包括更新三个类别计数器，还包括更新信号分类判决模块14中的各门限值。
如果当前分类为音乐，则音乐计数器music_countinue_counter增加1，否则清零。其它类别的处理如上所述。
门限值根据信号初始分类模块输出的信噪比大小来更新。
权利要求
1、一种宽带音频编解码器中的音频信号分类装置，其特征在于，包括背景噪声估计控制模块、信号初始分类模块、分类参数提取模块和信号分类判决模块，其中，
背景噪声估计控制模块，用于接收所述分类参数提取模块的频谱分布参数，所述频谱分布参数用来控制背景噪声的更新速率，并将所述更新速率发送到信号初始分类模块；
信号初始分类模块，用于接收音频输入信号，以及用于接收编码器参数提取模块输入的子带能量参数和所述更新速率，根据所述子带能量参数和更新速率对所述音频输入信号进行初始分类，将初始分类结果发送到分类参数提取模块和信号分类判决模块；
分类参数提取模块，用于接收所述编码器参数提取模块输入的编码器参数和所述信号初始分类模块输入的初始分类结果，对输入信号进行提取和分类，将得到的信号分类特征参数发送到信号分类判决模块，同时将得到的频谱分布参数反馈到背景噪声估计控制模块；
信号分类判决模块，用于接收所述信号分类特征参数和初始分类结果，根据所述初始分类结果对所述分类特征参数设置类别最终标志，所述类别最终标志用于定义输出信号的判决类型。
2、根据权利要求1所述的宽带音频编解码器中的音频信号分类装置，其特征在于，所述信号初始分类模块的初始分类结果包括噪声和非噪声。
3、根据权利要求1所述的宽带音频编解码器中的音频信号分类装置，其特征在于，所述分类参数提取模块的信号分类特征参数包括基音参数、平均增益、过零率、子带能量时域波动值、高低子带能量比、子带能量频域波动值或者线谱距离短时平均值。
4、根据权利要求1所述的宽带音频编解码器中的音频信号分类装置，其特征在于，所述信号分类判决模块的类别最终标志包括非有用信号类、语音类和音乐类，中间分类标志包括不确定类。
5、一种宽带音频编解码器中的音频信号分类方法，步骤包括
(1)背景噪声估计控制模块接收分类参数提取模块的频谱分布参数，并将所述更新速率发送到信号初始分类模块，所述频谱分布参数用来控制背景噪声的更新速率；
(2)信号初始分类模块接收音频输入信号，以及接收编码器参数提取模块输入的子带能量参数和所述更新速率，根据所述子带能量参数和更新速率对所述音频输入信号进行初始分类，将初始分类结果发送到分类参数提取模块和信号分类判决模块；
(3)分类参数提取模块接收所述编码器参数提取模块输入的编码器参数和所述信号初始分类模块输入的初始分类结果，对输入信号进行提取和分类，将得到的信号分类特征参数发送到信号分类判决模块，并将得到的频谱分布参数反馈到背景噪声估计控制模块；
(4)信号分类判决模块接收所述信号分类特征参数和初始分类结果，根据所述初始分类结果对所述分类特征参数设置类别最终标志，得到输出信号的判决类型，所述类别最终标志用于定义输出信号的判决类型。
6、根据权利要求5所述的宽带音频编解码器中的音频信号分类方法，其特征在于，步骤(2)中，所述信号初始分类模块接收信号分类判决模块反馈的判决结果，根据所述判决结果自适应拖尾长度。
全文摘要
本发明公开了一种宽带音频编解码器中的音频信号分类装置，背景噪声估计控制模块用于接收分类参数提取模块的频谱分布参数，并将更新速率发送到信号初始分类模块；信号初始分类模块根据子带能量参数和更新速率对所述音频输入信号进行初始分类，将初始分类结果发送到分类参数提取模块和信号分类判决模块；分类参数提取模块用于对输入信号进行提取和分类，将得到的信号分类特征参数发送到信号分类判决模块，同时将得到的频谱分布参数反馈到背景噪声估计控制模块；信号分类判决模块根据所述初始分类结果对所述分类特征参数设置类别最终标志，所述类别最终标志用于定义输出信号的判决类型。本发明还公开了一种宽带音频编解码器中的音频信号分类方法。
文档编号G10L19/00GK101393741SQ20071015223
公开日2009年3月25日申请日期2007年9月19日优先权日2007年9月19日
发明者钟毅睿申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钟毅睿
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：从音频文件提取节拍的方法和设备的制作方法
上一篇：一种可配置参数的立体声编码装置及其编码方法