音频分类方法

文档序号:2829659阅读:531来源:国知局

专利名称::音频分类方法
技术领域
:本发明涉及信息处理领域,尤其涉及一种音频分类方法。
背景技术
:在扩展宽带自适应多码率(AMR-WB+,ExtendedAdaptiveMulti-Rate-Wideband)编码标准中核心编码有两种模式即代数码本激励线性预测(ACELP,AlgebraicCodeExcitedLinearPrediction)和传输变换编码激励(TCX,TransformCodedExcitation)模式,ACELP模式比较适合语音信号,而TCX模式对音乐信号的编码效果比较好。在AMR-WB+标准中需要对每一帧信号进行预先编码,然后再选择采用哪种最佳模式进行编码,但是对每帧信号都要进行预先编码处理,这样会导致计算量非常庞大,故需要对信号进行预先分类以减少计算量。而语音和音乐是音频信号中最主要的两类数据,因此对语音和音乐信号进行区分也是提取音频内容语义和结构的重要手段之一。现有技术一是采用简单决策树分类方法对音频信号进行多步多层次分类,该分类方法每一步都要根据一种或者几种音频特征及其阈值判断音频所属的类别,其中,一般选择的特征参数包含过零率、基因周期、频带中心、子带能量、频谱平滑(SF,SpectrumFlux)、Mel频率倒谦参数(MCFF,MelFrequencyCepstralCoefficients)等。该现有技术对特征参数的选择要求比较高,选择的特征参数除必须具有较高的有效性、合理性和分类性能较好的特点外,还需要能够充分表示音频的重要分类特性,以及对环境具有较好的鲁棒性和一般性,其中,一般性是指特征参数对各种类型的距离度量方法都能取到比较好的结果。现有技术二是采用分类器对音频信号进行分类,比较常见的分类器包括隐马尔可夫模型(HMM,HiddenMarkovModel)、高斯混合模型(GMM,GaussianMixtureModel)和神经网络等,例如,HMM实质上是一种双随机过程的有限状态自动机,它具有刻画信号的时间随机统计特性能力,并根据极大似然准则判决音频的类别。现有技术一中每步都需要根据一种或几种音频特征及其阈值判断音频所属的类别,因此该现有技术在提取性能较好的特征参数时的运算量比较大,例如,提取MFCC参数需要进行Mel滤波、离散余弦变换(DCT,DiscreteCosineTransform)等,故而增加了计算量,并且现有技术一还要受多个特征参数先后判断顺序的影响。另外,现有技术二中事先要对分类器进行大量数据的训练,整个过程计算量较大,并且不易于硬件实现。因此,现有技术的缺陷是在音频信号分类的过程中运算量比较大。
发明内容本发明要解决的技术问题是提供一种音频分类方法,该方法在对音频信号进行有效分类的同时又大大减少了运算量。为解决上述技术问题,本发明提供了一种音频分类方法,该方法包括对输入的音频信号进行预处理,再计算预处理过的音频信号的线性预测编码系数;根据线性预测编码系数得到信号的频谱包络,再由计算得到的导傳对参数确定幅度差异值;根据幅度差异值的统计结果设置门限,再根据门限对音频信号进行分类。可选地,采用杜宾算法、格型算法或舒尔算法计算音频信号的线性预测编码系数。可选地,上述根据线性预测编码系数得到信号的频语包络包括根据线性预测编码系数得到线性预测误差滤波器的传递函数,并由传递函数计算得到导谱对参数;根据导谱对参数设置滤波系数,再由滤波系数得到信号导谱对频谱包络。可选地,上述根据线性预测编码系数得到信号的频语包络包括根据线性预测编码系数计算得到线性预测误差滤波器的传递函数,再由传递函数得到信号的线性预测编码频谱包络。可选地,上述由计算得到的导谱对参数确定幅度差异值包括确定导谱对参数在信号频谱包络中对应的幅度值,再计算导谱对参数对应幅度值之间的比值就可以得到幅度差异值。可选地,上述由计算得到的导谱对参数确定幅度差异值包括选取相邻导谱对参数之间的幅度值作为频谱的代表点,再计算代表点对应幅度值之间的比值就可以得到幅度差异值。其中,根据幅度差异值的统计结果设置门限包括计算幅度值对应频率点之间的差值,再计算幅度差异值和该差值的比值得到幅度差异值的变化量;对幅度差异值的变化量进行统计,再根据统计结果设置门限。可选地,根据幅度差异值的统计结果设置门限包括对幅度差异值进行统计,再根据统计结果设置门限。可选地,在对音频信号进行分类之前或之后进一步包括采用过零率或基因周期对音频信号进行分类。可选地,采用对信号加窗或分帧方式对音频信号进行预处理。以上技术方案可以看出,本发明提供的音频分类方法具有以下有益效果首先,本发明先计算信号的频谱包络,再根据频谱幅度值对音频信号进行分类,与现有技术每步都要根据几种音频特征参数以及特征参数的阔值或者对分类器进行大量数据的训练相比较,本发明在对音频信号进行分类的过程中大大减少了计算量。点,再计算代表点所对应幅度值之间的差异值,这样就不需要计算频语所有频率点之间的幅度差异值,进而又进一步减少了对音频信号进行分类所带来的计算量,而且也提高了分类的准确性。进一步地,如果将本发明方法嵌入AMR-WB+标准的信号处理流程中时,由于导语对参数在选择编码模式之前就已经计算好了,因此只需利用已求出的导谱对参数计算信号的频谱包络,然后再计算相应频率之间的幅度差异值就可以区分音频信号了,这样使对音频信号分类的计算量非常小。进一步地,由于本发明是通过计算频谱幅度之间的比值得到幅度差异值,这样可以避免由幅度值大小的波动而引起的错误判断,从而提高了对音频信号进行分类的准确性。进一步地,由于本发明在根据幅度差异值的门限对音频信号分类之前或之后又采用过零率或基因周期对音频信号分类,这样又进一步提高了对音频信号进行分类的准确性。进一步地,由于本发明是利用导谱对参数对应的频谱幅度差异值来区分语音和音乐信号,这样使本发明能够提取一种容错性和抗噪性比较好的分类特征参数。最后,如果将本发明方法嵌入AMR-WB+标准的编码流程之前,这样就能够在编码之前就能够较好地区分语音和音乐信号,因而在AMR-WB+标准的处理流程中就完全可以不采用预先编码方式,直接采用相应的编码模式进行编码,这样可以简化信号的处理流程,同时又可以大大减少编码的计算量,进而提高了编码的效率。图1是本发明方法实施例一的流程图;图2是频谱包络和导谱对参数的关系示意图;图3是本发明方法实施例二的流程图。具体实施例方式语音信号的带宽是在0.3赫兹与3.4千赫兹之间,而音乐信号的带宽一般在22千赫兹左右;语音信号的频率中心要比音乐信号的低,语音信号的能量主要集中在低频段,而音乐信号的频域能量分布比较均匀,因此语音信号的频谱平滑(SF)参数明显地要大于音乐信号的SF参数。根据上述理论和现有技术的缺陷提出了一个用频谱平滑参数判断信号类型的构思,利用SF参数判断信号类型的过程如下首先,计算音频信号的快速傅里叶变换(n'T,l;astFourierTransform)得到频谱幅度;其次,计算相邻两点幅度值之差的绝对值;接着,计算这些幅度值之差的绝对值得平均值或者求和;最后,选择一个恰当的阈值以区分语音和音乐信号。尽管这种特征参数可以较好地区分语音和音乐信号,但是由于对频谱相邻之间的所有点都要计算幅度之差的绝对值,并且还需要进行快速傅里叶变换,这样会增加计算量,而且还有可能会由于幅度值大小而引起错误的判断,故而没有解决现有技术所存在的问题。针对上述构思存在的两个问题,本发明对该构思作了进一步的改进首先,由语音和音乐信号频谱的平滑特性得知,音乐信号的频谱包络要比语音信号平坦,在中低频段,语音信号的频谱包络起伏变化比较急剧,故可以将信号的频谱包络近似看作信号的频语,而信号的频谱包络可以由线性预测编码(LPC,LinearPredictiveCoding)系数或者导谱对(ISP,I隨ittanceSpectralPairs)参数得到,LPC系数或ISP参数估计得到的频谱包络都能够较好地反映音频信号的频谦包络,但是ISP频谱包络更能反映信号的谐振特性,另外,计算信号的LPC或ISP频镨包络要比直接利用FFT得到信号频谱的运算量要大为减少,因此本发明利用信号的频谱包络代替利用FFT得到的信号频谱可以解决计算量大的问题。另外,频谱包络的峰值分布关系可以代替信号的频谱包络,也就是可以利用频谱包络峰值分布特点代替信号的频谱特性,因而可以利用峰值点之间的幅度差异值来取代相邻两点之间的幅度差异值,这样不仅可以避免由幅度值大小的波动而引起的错误判断,而且还可以进一步减少计算量,因此本发明-'j用幅度差异值可以解决由幅度值大小而引起的错误判断。根据上述改进之处,本发明提供了一种音频分类方法,该方法的基本思想是对输入的音频信号进行预处理,再计算预处理过的音频信号的线性预测编码系数;根据线性预测编码系数得到信号的频谱包络,再由计算得到的导谱对参数确定幅度差异值;根据幅度差异值的统计结果设置门限,再根据门限对音频信号进行分类。根据上述方法的基本思想,下面结合附图对本发明方法的具体技术方案进4亍i羊细iJL明。参照图1,图1是本发明方法实施例一的流程图,该流程具体包括以下步骤步骤IOI、对输入的音频信号进行预处理,其中,可以采用加窗函数、对信号分帧和滤波等方式对音频信号进行预处理。步骤102、音频信号经过预处理后,再按照杜宾算法、格型算法或舒尔算法等计算该音频信号的线性预测编码系数,假设p阶的线性预测误差滤波器传递函数为」(2),即/lfz」二v4""(z),然后再定义两个p阶多项式<formula>formulaseeoriginaldocumentpage9</formula>(1)<formula>formulaseeoriginaldocumentpage9</formula>(2)从上面两式可直接推出步骤103、根据LPC系数可以得到线性预测误差滤波器传递函凄U(z),再由zlO)可以推导求出P(力和2(X),具体如下步骤104、令P(::)::O,2(z)=0,再按照式(4)和式(5)计算求出/-l个导谱对参数w,、e,,isF参数也就是零点频率,其中,o,、e,按照以下方式进行4非歹')0〈0,〈e,o^〈G2〈…〈兀。步骤i05、根据计算得到的isp参数ove,设置线性预测误差滤波器的滤波系数。步骤106、根据计算得到的滤波系数求出线性预测误差滤波器的频率响应再根据频率响应计算得到信号的频谱包络I/Z(e'"'l,具体如下〃k(6)从式(6)中可以看出,如果相邻的isp参数03,和e,很靠近,那么w接近这些频率时,1^e'"r变小,1〃(e'"T就显示出强谐振特性,相应地,音频信号的频语包络在这些频率附近就会出现峰值,相反如果相邻的ISP参数距离较远,则频谱包络在该区域是相对比较平坦的,具体可参照图2,图2横坐标的小圓圏代表ISF参数,因此可以说ISP包络是用ISP参数co,和e,的分布密度来表示音频信号的频谱特性。步骤107、确定ISP参数在信号频谱包络中对应的幅度值,本实施方式是直接利用isp参数o,和e,对应的幅度值来计算幅度差异值的。步骤108、计算1sp参数对应幅度值之间的比值得到幅度差异值,再采用求平均值、均方值或数学期望等统计特性对幅度差异值进行统计,其中,统计的对象可以是幅度差异值,也可以是体现幅度差异值的关系式,例如/1,,+/1,20一(y4^^等等。cpHl—q),cp,+l—cp,假设幅度差异值为J,+A,其中^代表幅度值,通常用丄来反映(P,+l-(P,频谱幅度变化的快慢程度,从而更能区分语音和音乐信号,其中cp,表示幅度值^所对应的频率。下面结合表l的数据来说明语音和音乐信号的区别,表l的数据是按照20/og10.」,+爿计算得到,也就是将4'1+4计算得到的数据转化为增益形式。<table>tableseeoriginaldocumentpage11</column></row><table>表l中的数据包括语音和音乐数据,其中每个语音或音乐数据又包含3种不同类型的数据,因为语音信号的能量大部分集中在低频阶段并且幅度变化比较快,所以它在中低频阶段的均值要高于音乐信号,另外,在计算低频均值过程中通常会将CO;和&所对应的幅度值的差异值去掉,这是因为无论是语音还是音乐信号,O),和e,对应的幅度差异值都是较大的,与中低频的统计结果相差较大。现以求平均值方式对幅度差异值进行统计,选取几个中低频幅度差异值以及如何选取幅度差异值可以根据实际情况做出选择。下面从表l中选取第2个、第3个和第4个幅度差异值,然后分别对语音数据和音乐数据计算这3个值的平均值,语音1的平均值为27.8408,语音2的平均值为24.5787,语音3的平均值为25.6078,音乐l的平均值为16.7606,音乐2的平均值为15.5892,音乐3的平均值为18.4927,从这几组平均值可以看出,语音信号的平均值要大于24,而音乐信号的平均值要小于19,这样就可以根据中低频差异值的平均值就可以对语音和音乐信号进行分类。步骤09、根据幅度差异值的统计结果设置一个恰当的门限用以区分语音信号、音乐信号以及噪声等,假设语音信号的平均值大于24,音乐信号的平均值小于19,噪声的平均值大于29,可以将门限设置为区间[24,29]就可以区分音频信号。其中,本发明方法除了利用ISP参数对应幅度值得到幅度差异值之外,还可以利用相邻ISP参数之间的幅度值得到幅度差异值,所述幅度值可以是最大幅度值或最小幅度值等。由图2可知,当相邻ISP参数很靠近的时候,相应地音频信号谱包络在这些频率附近就会出现峰值,这样选取它们相邻ISP参数之间的最大频谱幅度值就可以代替信号的频谱特性。既然ISF参数能够较好地代表频谱特性,因而完全可以用;-l个ISP参数作为频谱的代表点,这样仅仅需要计算/>1个代表点对应的幅度值之间的差异,进而大大减少了计算量。另外,为了更好地区分语音和音乐信号等,在采用幅度差异值区分音频信号之前或之后可以先采取过零率、基因周期等特征参数区分语音和音乐信号。参照图3,图3是本发明方法实施例二的流程图,该流程具体包括以下步骤步骤301、对输入的音频信号进行预处理,其中,可以采用加窗函数或对信号分帧等方式对音频信号进行预处理。步骤302、音频信号经过预处理后,按照杜宾算法、格型算法或舒尔算法等计算信号的线性预测编码(LPC)系数,假设/阶的线性预测误差滤波器传递函数为J(z),即/^2^二jw(z),然后再定义两个p阶多项式P(z)=4:)+z-从上面两式可直接推出步骤303、根据LPC系数可以得到线性预测误差滤波器传递函凄L4(z),再由/1(z)可以推导求出P(:r)和2(力,具体如下<formula>formulaseeoriginaldocumentpage13</formula>步骤304、根据^(z)计算线性预测误差滤波器的频率响应,从而得到LPC频谱包络。与ISP频谱包络相比,尽管LPC频谱包络不能很好地反映信号的谐振特性,但是LPC频谱包络也能够较好地反映信号的频谱特性。步骤305、根据P②和2(z)计算求出p-l个零点频率也即ISP参数(0,、G,,其中,co,、e,按照以下方式进行排列(^ff^e^m^^^.^K,步骤306、由ISP参数确定相应频率在信号的频谱包络中所对应的幅度值,其中,相应频率可以是导谱对参数对应的频率,也可以是两相邻导谱对参数之间的频率。步骤307、计算相应频率点幅度值的比值得到幅度差异值,再采用求平均值、均方值或数学期望等统计特性对幅度差异值进行统计,该步骤的实现方式与实施例一相同。步骤308、根据幅度差异值的统计特性设置一个恰当的门限用以区分语音信号、音乐信号以及噪声等。另外,为了更好地区分语音和音乐信号等,在采用幅度差异值区分音频信号之前或之后可以先采取过零率、基因周期等特征参数区分语音和音乐信号。由上述可知,实施例一是本发明方法的优选实施方式,并且两个实施例都未嵌入到AMR-WB+标准信号处理流程。如果将本发明方法嵌入到AMR-WB+标准的处理流程中,就不需要对音频信号进行预处理和计算每帧信号的LPC系数,也不需要计算ISP参数,这是因为AMR-WB十标准在编码模式选择之前就已经计算出ISP参数,所以可按照以下方式来区分音乐和语音信号调用已计算得到的ISP参数计算频谱包络,然后再计算相应频率之间的幅度差异值,再根据幅度差异值区分音频信号,这些步骤和上述两种实施例的步骤相同。另外,上述实施方式是由幅度值之间的比值来表示幅度差异值,本发明也不排除用幅度值之间的差值等方式来表示幅度差异值。以上对本发明所提供的一种音频分类方法进行了详细介绍,本文中应用了帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。权利要求1、一种音频分类方法,其特征在于,该方法包络对输入的音频信号进行预处理,再许算预处理过的咅频信号的线性预测编码系数;根据线性预测编码系数得到信号的频谱包络,再由计算得到的导谙对参数确定幅度差异值;根据幅度差异值的统计结果设置门限,再根据门限对音频信号进行分类。2、如权利要求1所述的音频分类方法,其特征在于,采用杜宾算法、格型算法或舒尔算法计算音频信号的线性预测编码系数。3、如权利要求1所述的音频分类方法,其特征在于,根据线性预测编码系数得到信号的频语包络包括根据线性预测编码系数得到线性预测误差滤波器的传递函数,并由传递函数计算得到导语对参数;根据导谱对参数设置滤波系数,再由滤波系数得到信号的导谱对频谱包络。4、如权利要求1所述的音频分类方法,其特征在于,根据线性预测编码系数得到信号的频i普包络包括根据线性预测编码系数计算得到线性预测误差滤波器的传递函数,再由传递函数得到信号的线性预测编码频谱包络。5、如权利要求l、2、3或4所述的音频分类方法,其特征在于,确定幅度差异值包括确定导谱对参数在信号频谱包络中对应的幅度值,再计算导谱对参数对应幅度值之间的比值就可以得到幅度差异值。6、如权利要求l、2、3或4所述的音频分类方法,其特征在于,确定幅度差异值包括选取相邻导谱对参数之间的幅度值作为频谱的代表点,再计算代表点对应幅度值之间的比值就可以得到幅度差异值。7、如权利要其l、2、3或4所述的音频分类方法,其特征在于,根据幅度差异值的统计结果设置门限包括计算幅度值对应频率点之间的差值,再计算幅度差异值和该差值的比值得到幅度差异值的变化量;对幅度差异值的变化量进行统计,再根据统计结果设置门限。8、如权利要求l、2、3或4所述的音频分类方法,其特征在于,根据幅度差异值的统计结果设置门限包括对幅度差异值进行统计,再根据统计结果设置门限。9、如权利要求1所述的音频分类方法,其特征在于,在对音频信号进行分类之前或之后进一步包括采用过零率或基因周期对音频信号进行分类。10、如权利要求1所述的音频分类方法,其特征在于,采用对信号加窗或分帧方式对音频信号进行预处理。全文摘要本发明公开了一种音频分类方法,该方法包括对输入的音频信号进行预处理,再计算预处理过的音频信号的线性预测编码系数;根据线性预测编码系数得到信号的频谱包络,再由计算得到的导谱对参数确定幅度差异值;根据幅度差异值的统计结果设置门限,再根据门限对音频信号进行分类。利用本发明能够大大减少对音频信号进行分类所带来的计算量,同时本发明对音频信号进行分类的准确性较高。另外,将本发明应用到扩展带宽自适应多码率编码标准中的信号处理流程时可以使对音频信号分类的计算量非常小,并且可使信号处理流程不采用预先编码方式,直接采用相应的编码模式进行编码,进而可以提高编码的效率。文档编号G10L19/00GK101145345SQ20061012741公开日2008年3月19日申请日期2006年9月13日优先权日2006年9月13日发明者郭利斌,马付伟申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1