基于可变时长的音频特征分类方法

文档序号:2824984阅读:257来源:国知局
专利名称:基于可变时长的音频特征分类方法
技术领域
本发明属于多媒体信号处理和模式识别技术领域,尤其涉及一种基于可变时长的音频特征分类方法。
背景技术
随着通信技术的不断发展,数字音频处理在移动通信、互联网、广播以及个人电子等多个领域得到了广泛的应用。以音频编解码技术来看,其已经从传统的以窄带话音为主的语音编码,逐渐扩展到带宽扩展质量更高的多媒体音频编码,3G、LTE的兴起也进一步对新一代音频编解码技术在对信道的适应性、传输的可靠性以及编解码质量等方面有了更高的要求。而无论是音频编解码,或是音效编辑制作,音频信号本身所具有的多样性,使得对不同类型的音频信号可能需要选择不同的处理技术。如ITU-T的G. 718和G. 729. 1,就对音频信号分成了语音和音乐两种编码模式,而在之后的G. 718-SWB中又添加了对含正弦特性的音频信号的编码模式。由此可以看出,在某些应用场景中,需要先对音频信号进行简单而高效的分类,获知所属类型。分类时,提取音频信号的短时特征和长时特征。由于音频信号的短时平稳性,通常相比短时特征,长时特征的稳定性和可区分性更好,但缺点是检测延时大,对实时分类系统上的应用有一定局限性。此外,不同特征表现出来的平稳周期可能不一致,若对这些特征都取定同一时长下计算对应的长时特征可能并非最优。

发明内容
本发明的目的在于,针对常用的音频特征分类方法主要采用提取长时特征的技术方案影响实时效果的问题,提出一种基于可变时长的音频特征分类方法,通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征来训练分类器,并利用训练好的分类器进行音频特征分类。本发明的技术方案是,一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤步骤I :将确定类型并经过标注的音频序列作为训练序列;步骤2 :提取训练序列中的音频信号的短时特征FnF2,...,FK,构成短时特征向量
Vs= K是短时特征向量的分量个数;
M
Fk_步骤3 :计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量丨(n)},进而短时特征向量&对应一个统计特征向量丨^t (n)},其中\LM)~
VL(n)= 1/2⑷;1 ^ k ^ K ;
M
r
LK(n)
步骤4 :选取P个值,N1, N2,…,Np满足N1 < N2 <…< NP,令n分别等于N1, N2, , NP,按照步骤3计算得到短时特征向量^对应的一组统计特征向量Vl(N1), Vl(N2) ,由该组统计特征向量构成训练序列的长时特征向量
Vf =[VLTmAT (N2X-,VLT (Np)T步骤5 :利用训练序列的长时特征向量&训练分类器;步骤6 :提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i巾贞的统计特征向量色(/)以及测试序列的Al(N1) ,Vl(N2),…,Vl(Np)步骤7 :根据测试序列的第i帧的统计特征向量^0+)以及测试序列的Vl(N2) , ,计算测试序列的第i巾贞的输入长时特征向量(/)步骤8 :将第i帧的输入长时特征向量送入步骤5训练后的分类器中,其输出即为第i帧的分类类型。所述短时特征包括对数能量、过零率和均匀子带能量分布。所述当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)中贞的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。所述利用训练序列的长时特征向量&训练分类器具体是利用训练序列的长时特征向量^训练单个分类器。所述利用训练序列的长时特征向量&训练分类器具体是使用前向特征选择法,在训练序列的长时特征向量&中选择有效特征构成有效长时特征向量,并利用有效长时特征向量训练单个分类器。所述利用训练序列的长时特征向量&训练分类器具体是利用训练序列的长时特
征向量匕的分向量色CiV1), Vl(N2),色CiVp)各自分别训练同类型的单个分类器后并联构成的分类器组。所述计算测试序列的第i帧的输入长时特征向量(/)具体利用公式
r [r [夺),L 々(/)]', rKN1
^㈧),L ,Vl(Nf)XN1KL <Nq<i<Nq+l<L <NPVF,i>Np
其中,q= 1,2,L,P-l,[F/(/),L Jtl {i)f 中的(i)共有 q 个,
,k(NqivTLmi,允(沉中的七⑴共有p-q个。
所述单个分类器为基于正态分布的独立特征分类器。本发明通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征训练分类器,并利用训练好的分类器进行音频特征分类,避免提取长时特征导致的延时问题,实现了音频特征的实时分类。


图I是基于可变时长的音频特征分类方法流程图;图2是利用训练序列的长时特征向量训练单个分类器的示意图;图3是利用训练序列的长时特征向量的有效特征构成的有效长时特征向量训练单个分类器的示意图;图4是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成分类器组示意图;图5是训练样本库彳目息表;图6是测试样本库信息表;图7是分类器性能对比表。
具体实施例方式下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。本发明以32kHz采样率下的语音/音乐信号分类为例进行说明。对其他类型的音频信号分类,本发明仍然适用。图I是基于可变时长的音频特征分类方法流程图。图I中,基于可变时长的音频特征分类方法包括下列步骤步骤I :将确定类型并经过标注的音频序列作为训练序列。步骤2 :提取训练序列中的音频信号的短时特征FnF2,...,FK,构成短时特征向量
Vs= $,K是短时特征向量的分量个数。
Fk_本实施例中音频信号按每40ms —帧,计算的短时特征包括对数能量、过零率和均匀子带能量分布。在本发明中,短时特征包括但不限于对数能量、过零率和均匀子带能量分布。设第i帧的音频信号样点为x(n),n = (i_l)L,(i_l) L+l,L,i L_l,L是帧长,各个短时特征的计算公式如下A、对数能量
权利要求
1.一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤 步骤I :将确定类型并经过标注的音频序列作为训练序列; 步骤2 :提取训练序列中的音频信号的短时特征F1, F2, , Fk,构成短时特征向量Vs= $,K是短时特征向量的分量个数;
2.根据权利要求I所述的一种基于可变时长的音频特征分类方法,其特征是所述短时特征包括对数能量、过零率和均匀子带能量分布。
3.根据权利要求I所述的一种基于可变时长的音频特征分类方法,其特征是所述当前帧和之前的(η-I)帧的短时特征的统计参量包括当前帧和之前的(η-I)帧的短时特征最大值MaxFk (η)、最小值MinFk (η)、算术平均AvgFk(η)或方差VarFk (η)中的一个或多个。
4.根据权利要求I所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量&训练分类器具体是利用训练序列的长时特征向量t训练单个分类器。
5.根据权利要求I所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量&训练分类器具体是使用前向特征选择法,在训练序列的长时特征向量t中选择有效特征构成有效长时特征向量并利用有效长时特征向量训练单个分类器。
6.根据权利要求I所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量&训练分类器具体是利用训练序列的长时特征向量t的分向量Vl(N1) , Vl(N2) ,各自分别训练同类型的单个分类器后并联构成的分类器组。
7.根据权利要求4-6中任意一项权利要求所述的一种基于可变时长的音频特征分类方法,其特征是所述单个分类器为基于正态分布的独立特征分类器。
8.根据权利要求I所述的一种基于可变时长的音频特征分类方法,其特征是所述计算测试序列的第i帧的输入长时特征向量P)具体利用公式 r [r [吃(O,L 々(/)]', rKN1 K'㈧),L ,Vl(Nf)X(I),L ,V[(i)]T, N1KL <Nq<i<Nq+l<L <NP 、VF,i>Np 其中,q=l,2,L,P_l, [F/(0,L中的 fLT(i)共有 q 个,[Km,L ,V[(Nq),VLT(i),L ,七(/)f 中的七(/)共有 P-q 个。
全文摘要
本发明公开了多媒体信号处理和模式识别技术领域中的一种基于可变时长的音频特征分类方法。包括将确定类型并经过标注的音频序列作为训练序列;提取训练序列中的音频信号的短时特征构成短时特征向量;计算各个短时特征在设定时长内的统计参量,进而得到短时特征向量对应的统计特征向量;计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;利用训练序列的长时特征向量训练分类器;提取测试序列中第i帧的音频信号的短时特征并计算测试序列的第i帧的输入长时特征向量;将第i帧的输入长时特征向量送入训练后的分类器中,得到分类类型。本发明避免提取长时特征导致的延时问题,实现了音频特征的实时分类。
文档编号G10L15/08GK102623007SQ201110033410
公开日2012年8月1日 申请日期2011年1月30日 优先权日2011年1月30日
发明者卢敏, 窦维蓓 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1