音频数据分析装置和方法

文档序号:6466885阅读:513来源:国知局

专利名称::音频数据分析装置和方法
技术领域
:本发明涉及音频数据分析装置和方法,具体来说,本发明涉及一种使用SVM方法对音频数据进行分析的分析装置和方法。
背景技术
:当前,大量体育比赛涌入观众的视野。越来越多的体育视频冲击,使得人们对体育视频的有效检索和管理的要求也越来越迫切。就足球比赛来说,整场比赛时间大约为2小时,而且,有时候会在深夜进行实况直播。然而,在整个比赛时间内,足球迷们真正关心的内容和想看的部分通常只占据节目的很小一部分。在这种情况下,^求迷们期望有一种有效的内容分析和4企索系统。利用这种^支术,体育迷们不仅能够有选择地观看比赛,而且能够节省大量时间。足球比赛的内容分析是基于内容的多媒体检索的一个应用之一。其中,基于视频分析的研究主要集中在提取颜色、紋理、场景、4竟头和运动等3见觉特;f正,进而分析实现多4某体/人无结构到结构化的过程。而对于音频的分析,通常采用音频切分和分类的方法来进行分析,这种方法可以分为两个主要类别。一是用来4全测强调部分、新主题的开始,或者对音频内容进行分析总结和检测;二是对一定音频内容或者类别进4亍分类和识别。才艮据特征空间的不同,可以分为时域和频域两类。根据是否使用感知模型,音频特征可以分为物理和感知两类。7虽然从视频角度来分析精度较高,但算法复杂,处理时间过长。而>^人音频角度分析,一方面可以利用音频分类进行音频分割,再利用不同类别音频组合来判断出现事件的概率;另一方面可以利用语音的内容信息进行检索提高事件检出的概率。近来,对用于精彩内容检测的音频分类及切分的研究由于其潜在的应用而越来越引起关注。就音频类型定义方面而言,非专利文献1将足J求比赛音频流切分成比赛、广告和演播室这几种类型,以此来结构化视频内容。然而,这三种类型的区分无法真正满足7见众的需求。非专利文献2i殳计了一种基于决策树的层次化分类方法,其中,音频流被分成五类噪声、解说员语音、哨声、欢呼声和带背景噪声的语音。然而,音频流的背景环境是非常复杂的,很少有不带背景噪声的语音。对于精彩内容的检测来说,区分带噪声和不带噪声的语音并没有实际意义。非专利文献3从三个方面分析了体育比赛音频、视频和紋理。在该系统中,音频流净皮分成三类解i兌员5敫动的解i兌声、击^求声和标志性声音(欢呼声、鼓掌声),用来检索三类视频,即,会议视频、电影及广4番新闻和体育3见频。该方法对于具体的体育比赛(例如,足球比赛)来说效果不好,这是因为击球声和鼓掌声不是非常明显,在比赛期间过于平稳。非专利文献4致力于基于体育比赛的索引及检索。定义了四种音频类型解说员的语音、观众的语音、与球有关的声音和背景噪声。由于解说员的语音通过占据大部分的比赛时间,因此这种分类方法可能对于结构化切分比较有效,但对于精彩内容的检测效果不好。就音频特征选4爭方面而言,非专利文献5才是取clip-level和shot-level两个层面的声音特征。其中,每一段的长度固定为1秒钟。使用的声学特征有10维l维音量特征,l维能量,4维子带能量,4维谦通量。精度可以达到94.9%(37/39),召回率为90.2%(37/41),8但仅完成了对进球的检测。非专利文献l中,结合足J^^见频的特点,采用基于HMM音频自动分类模型将足球视频的音频分为比赛、广告和演播室三类音频,实现足球视频的切分。采用了26维音频特征短时平均能量、过零率、12维MFCC和12维AMFCC。在从三场比赛中选取的三小段比赛中进行切分,切分分类平均精度为88%,分割点偏差在0~5个片断的百分比^f义占70%以上。非专利文献6同时利用音频和^L频特;f正对体育比赛进^f亍场景分类,在音频方面,主要是利用能量特征来进行比较,如果能量大于预定的第一个阔值,则认为该场景重要性为最高;利用两个连续场运动行为(motionactivity)的差值大于预定的第二个阀值,则i人为该场景重要性为次高;而能量和差值均小于预定门限的话,则认为该场景重要性最低。进而,根据重要性级别对体育场景进行分类。如上所述,可以看到,为了获得高效的足^t比赛精彩内容的枱r测,应定义合理的音频类型。而且,所采用的音频特4正参凄t也应该更好地表征与精彩内容相关的音频类型的特性。非专利文献1:JianyunChen,YunhaoLi,etc""Automaticaudioclassificationandsegmentationforsoccervideostructuring",JournalofNationalUniversityofDefenseTechnology,Vol.26(6),2004,pp.49-53。非专利文献2:JunqingYu,YuqiangCui,etc.,"Audiofeatureextractionandautomaticclassificationinsoccergames",JournalofHuazhongUniversityofScienceandTechnology(NatureScienceEdition),Vol.10,2007。非专利文献3:ZiyouXiong,XiangSeanZhou,QiTian,YongRui,HuangmTS,"Semanticretrievalofvideo-reviewofresearchonvideoretrievalinmeetings,moviesandbroadcastnews,andsports",IEEESignalProcessingMagazine,Vol.23(2),March2006,pp.18-27。非专利文献4:A.Kokaram,N.Rea,R.Dahyot,M.Tekalp,P.Bouthemy,P.Gros,andI.Sezan,"Browsingsportsvideo:trendsinsports-relatedindexingandretrievalwork",IEEESignalProcessingMagazine,Vol.23(2),March2006,pp.47-58。非专利文献5:Shu-ChingChen,Mei-lingShyu,MinChen,ChengcuiZhang,"Adecisiontree-basedmultimodaldataminingframeworkforsoccergoaldetection",2004IEEEInternationalConferenceonMultimediaandExpo,Vol.1,June2004,pp.265-268。与—专矛J文献6:MasamSugano,HiromasaYanagihara,YasuyukiHakajima,"Classificationapparatusforsportsvideosandmethodthereof,,U.S.PatentApplicationPublication,No.:US2005/0195331Al,Pub.Date:S印.8,2005。
发明内容鉴于以上技术问题,本发明提供了一种用SVM方法对音频数据进行分析的分析装置及方法,其采用34维特征参数作为表征音频数据的特征,并且,利用两级均值滤波处理对分类结果进行后处理。根据本发明第一方面的用SVM方法对音频数据进行分析的分析装置,包括输入单元,用于输入音频流;预处理单元,用于对音频流进行预处理,得到音频流的每一帧的特征参数;分类单元,按照特征参数分析每一帧所属的类别;以及后处理单元,对分类单元的分类结果进行后处理,得到最终的分段结果,其中,所述特征参数包括短时平均能量、子带能量、过零率、Mel频域倒语系数、△Mel频域倒-潜系#t、^脊通量和基音频率。在上述训练系统中,预处理单元包4舌特征提取部,对音频流进行分帧和加窗,并提取经过分帧和加窗得到的每一帧的特征参数。优选地,在上述训练系统中,预处理单元还包括切分部,通过检测低能量声音和过零率,将音频流粗略切分成多段,其中,特4正#是取部对经过粗略切分得到的多萃爻音频流进4于分帧和加窗,并提取每一帧的净争4i参凄t。在上述训练系统中,后处理单元包4舌第一后处理部,用5帧的窗长对哨声进行均值滤波;第二后处理部,用25帧的窗长对除哨声之外的声音类别进行均值滤波;以及合并部,对音频流中连续相邻同类别的帧进行合并,得到最终的分段结果。在上述训练系统中,分类单元包括计算部,计算特征参数对每种类型音频的概率,并根据预定的样板判断概率最大的所在类别是该帧所属的类别。优选地,在上述训练系统中,所丰#入音频流包4舌体育比赛的音频数据,该音频数据包括主音频数据和副音频数据,其中,主音频数据包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐,以及,副音频数据包括静音、环境噪音;其中,所述类别至少包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐。优选地,在上述训练系统中,音乐包括广告音乐、纯音乐;裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声;观众欢呼声包括出现精彩镜头时观众的响应;以ii及,解说员激动的解说声包括当出现精彩镜头时解说员的激动解说。才艮据本发明第二方面的用SVM方法对音频数据进行分析的分析方法,包括输入步骤,用于输入音频流;预处理步骤,用于对音频流进行预处理,得到音频流的每一帧的特征参数;分类步骤,按照特征参数分析每一帧所属的类别;以及后处理步骤,对分类步骤的分类结果进行后处理,得到最终的分段结果,其中,特征参数包括短时平均能量、子带能量、过零率、Mel频域倒谱系数、AMd频域倒i普系凄t、i瞽通量和基音频率。在上述训练方法中,预处理步骤包括特征提取步骤,对音频流进行分帧和加窗,并提取经过分帧和加窗得到的每一帧的特征参数。优选地,在上述训练方法中,预处理步骤还包括切分步骤,通过4全测4氐能量声音和过零率,将音频流粗略切分成多IS:,其中,特征才是取步骤对经过粗略切分得到的多^:音频流进4亍分帧和加窗,并才是取每一帧的特4i参凄t。在上述训练方法中,后处理步骤包括第一后处理步骤,用5帧的窗长对哨声进行均值滤波;第二后处理步骤,用25帧的窗长对除所述哨声之外的声音类别进行均值滤波;以及合并步骤,对音频流中连续相邻同类别的帧进行合并,得到最终的分段结果。在上述训练方法中,分类步骤包括计算步骤,计算特征参数对每种类型音频的概率,并根据预定的样板判断概率最大的所在类别是该帧所属的类别。优选地,在上述训练方法中,所|#入音频流包4舌体育比赛的音频凄史据,所述音频凄t据包括主音频凄t据和副音频凄t据,其中,主音频数据包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐,以及,副音频数据包括静音、环境噪音;其中,所述类别至少包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐。优选地,在上述训练方法中,音乐包括广告音乐、纯音乐;裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声;观众欢呼声包括当出现精彩镜头时观众的响应;以及,解说员激动的解说声包括当出现精彩镜头时解说员的激动解说。根据本发明的分析装置及方法,实现了精彩内容的快速检索,能够节省观众的时间,满足体育迷的观看需求。附图用来^是供对本发明的进一步理解,并且构成^i明书的一部分,与本发明的实施例"T起用于解释本发明,并不构成对本发明的限制。在附图中图1A和图1B是说明L范数谱通量的范数因子选择的示意图2是本发明的第一实施例的分析装置200的结构冲匡图3是图2中的预处理单元204的结构^f匡图4是包4舌切分部402和特征提取部404的预处理单元204的结构框图5是示出切分处理和分帧处理的示意图;图6是分类单元206的结构框图7是后处理单元208的结构冲匡图;以及图8是本发明的第二实施例的分析方法的流程图。具体实施例方式以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。下面,以足球比赛为例,首先描述用在本发明的分析装置和方法中的分类器。在本发明的第一实施例中,针对足球比赛的特点,定义了五种音频类型,包括裁判哨声、观众欢呼声、解说员激动的解说声、音乐及其他,用来检测足球比赛中的精彩内容,例如进球得分和任意球等。所选择的这五种类型有助于更好地分析与上述精彩内容相关的音频流,其中,裁判哨声、观众欢呼声和解说员;k动的解说声是用来查找进球得分和任意球的线索。由于在实况转播足球比赛中场休息的广告时段中会有大量的音乐,因此,应将这些广告部分去除,从而缩短待分析的内容。除此之外,足球比赛音频流中存在很多其他的音频现象,例如复杂的背景噪声、多种类型的声音重叠、静音、解说员的正常解说等等,它们通常会占据待分析音频流中的大量空间,对于上述两类精彩内容的检测并没有贡献。因此,加入了"其他"这一音频类型来更好;也描述音频流。具体来说,音乐包括广告音乐、纯音乐;裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声;观众欢呼声包括当出现精彩镜头时观众的响应;解说员激动的解说声包括当出现精彩镜头时解说员的激动解说;其他类型的音频it据包括静音、环境噪音、解说员正常的解说和其他乐器发出的声响。为了获得对于这五种音频类型的高质量的分类器,首先手动选出针对各种音频类型的训练数据。由于在足球比赛的音频流中,背景噪声非常复杂,因此,音频类型可通过比较各种类型的音频成分的音量由占主导地位的音频成分来确定。经过训练数据选择后,获得70分钟的训练数据。因为裁判哨声的长度相对较短,通常在0.25秒到0.6秒的范围内变化,因此,分析窗长纟皮设定为200ms,帧移为60ms,以确保最短的哨声也能够被分成至少两帧进行分析。具体来说,对训练数据进行分帧和加窗,使得帧长为200ms,帧移为60ms,然后对每帧数据提取34维特征参数。下面对上述特征参数进行详细i兌明。▲L-范数谱通量(L-normSpectralFlux)谱通量是由音频数据测得的频谱序列中各个频带之间的能量改变的量度。通常,镨通量被定义为连续谱帧之间的欧氏距离(Euclideandistance)。其由式(1)表示如下=-Xt("-l)L=(;-义("—(i)其中,^(")表示第n帧《")第k个镨单元(spectralbin)的值;hp是单元数相对于范数的序列;'是连续帧之间的第k个谱单元的差,P是范数因子。为了设定合适的参数p,针对如图1A中的包括预先定义的五种音频类型的短音频凄t据计算具有5个不同值的i普通量。在图IB中,该音频数据具有7段,从左至右依次是哨声、纯音乐、带语音的音乐、激动的解i兌声、欢呼声、静音和解it声。由图1A可以看出,当参凄tp为l时,"i普通量中无法明确i也表示出频i普的改变。当参ttp^皮i殳为2或3时,在一种音频类型的中间的有些i普通量值会发生剧烈振动。而当参数被设为4或5时,谱通量的值能够较好地表示出变4匕边界。在本实施例中,参凄tp被没为4。▲4豆时平均能量(Short-timeMeanEnergy)短时平均能量指的是在一个短时音频窗口内采样点信号所聚集的平均能量。假定每个短时帧大小为N,^")为用Nyquist频率采样后的离散音频信号。对于第m个短时帧,短时平均能量可以使用下面的式(2)计算&二yw")]2w"、"……(2)▲过零率(ZeroCrossingRate,ZCR)过零率指在一个时间段内,采样信号值由正到负和由负到正变4匕的次凄t,定义3。下1AM2^(3)过零率可以用来确定清音i吾声(unvoicedspeech)。通常,清音信号能量比较低,过零率却很高。因此,通过综合过零率和音量特16征,可以防止一部分能量小的清音语声被错误分类为静音。过零率对于语音和音乐两种不同音频信号有^艮好的区分性。▲基音频率(Pitch)基音频率是语音、音乐分析和合成的一个重要参数。通常只有浊音才有明确的基音频率(音调)。但是,仍然可以用基音频率来表示任何声波的基本频率。要从音频信号中准确可靠地提取基频特征并不容易。根据准确度和复杂度的不同要求,可以使用不同的基频估计方法,包4舌自回归4莫型(auto-regressivemodel)、平均量差函数(averagemagnitudedifferencefunction)、最大后验概率方法等。本文采用的中央削波自相关法自相关方法。▲Mel步贞i或传Ji普系凄史(Mel-FrequencyCepstralCoefficients,MFCC)前面所述的各种音频特征主要是描述信号的时域特性,此外还有一些特征是描述信号频域特性的,其中使用最广泛的就是MFCC。MFCC最初是在语音识别研究中提出的,与LPC(线性预测系数)相比,MFCC更符合人耳的听觉特征,在有信道噪声和频谱失真的情况下,能产生更高的识别精度。通常要对帧内信号进行预加重以提升高频,对信号加窗以避免短时语音,殳边纟彖的影响。预加重的定义式如下面的式(4)所示&=51,-ayw0.9《cr《1.0卩4)参数a通常取0.97。加窗的定义如下面的式(5)所示:《",一)......(5)其中w为窗函凄t,汉明(Hamming)窗函凄史是4交常用的一个,如下面的式(6)所示w(f)=0.54—0.46cos(~^~4,0《!SiV-1H……(6)然后对处理后的采样信号进行快速傅里叶变换,得到这个音频帧在每个频率上的大小。如果音频信号的采才羊率为16kHz,那么由采样定理知,音频帧的最大频率为8kHz。也就是"i兌音频帧在0到8kHz的频带上具有能量。为了表达人耳的感知特性,需要把一般频率上的能量映射到更加符合人类听觉的Mel频:潜上,如下面的式(7)所示Me/(/)=2595log,。(1+1£)Mel滤波是通过一组三角滤波器实现的,它们在Mel频镨上是等间隔的。为了更加有效地表示,还需要对能量系数取对数值,并进4亍离散余弦变才灸(DiscreteCosineTransform,DCT),最后4寻到的系数就是MFCC特征。再加上1维能量共13维。▲AMFCC(共13维)《=^^^-w...…(8)其中,^是差分阶数,本实施例中取值为2,^6[1,0],c是上面求出的MFCC系凄t,t是当前帧。18▲子带能量(Sub-bandEnergy)在从OHz到19500Hz范围内,存在25个关4定频带。由于本实施例中分析的音频以每秒16kHz的采样率进行采样,因此,在整个频带范围内有大约22个关考建频带。考虑到人耳的知觉特性,并且哨声的频谱分布在3700Hz以上,因此在本实施例中,将整个频带分成4个子带。具体来i兌,这4个子带的频率范围为0~510Hz,510Hz~1480Hz,1480Hz~3700Hz和3700Hz~8000Hz。各个子带的能量按照下面的式(9)进行计算^……(9)五限其中,z'是第i个子带的能量,z7/和仏分别是第i个子带的上沿和下沿,K^是信号^)的FFT。在获得了每一帧的音频特征参数之后,使用SVM(SupportVectorMachine,支持向量才几)方法来训练得到上述五种类型的音频的分类器,其中,SVM方法采用的核函数是径向基核函数(RadialBasisFunction,RBF)。具体来说,在进行模型训练之前,将得自所选数据的特征定标(scale)为[-l,l]。然后,选择RBF内核将这些特征映射到较高维数空间中。其参数(C,"在回归后被设为(8.0,2.0)。从而,得到了针对以上五种音频类型的高质量的分类器。在获得了该分类器之后,即可利用该分类器进行音频流数据的分析,包括音频分类和分段。下面,描述根据本发明的实施例的分析装置和分析方法。图2是本发明第一实施例的用SVM方法对音频数据进行分析的分析装置200的结构框图,如图2所示,该分析装置200包括输入单元202,用于lt入音频流;预处理单元204,用于对音频流进行预处理,得到音频流的每一帧的特征参数;分类单元206,按照特征参数分析每一帧所属的类别;以及后处理单元208,对分类单元206的分类结果进行后处理,得到最终的分段结果,其中,所述特征参^t包括短时平均能量、子带能量、过零率、Mel频域倒i普系凄t、AMel频i或倒i普系凄史、^普通量和基音频率。图3是上述预处理单元204的结构冲匡图,如图3所示,预处理单元204包括特征提取部302,对输入的音频流进行分帧和加窗,使得帧长为200ms,帧移为60ms,然后对经过分帧和加窗得到的每帧数据提取34维特征参数。即,每一帧的帧长与训练过程中相同,特征参数提取方法也与训练过程相同。具体来说,对于给出的体育比赛,首先提取出音频流,并以每秒16kHz进行采样。然后,对音频流进行分帧,并以汉明窗函数(HammingWindow)进4亍加窗。每一帧的帧长与训练过禾呈中相同。使用与训练过程中相同的特征参数提取方法,提取出每一帧的相应的特征参数,包括短时平均能量、过零率、子带能量、基音频率、镨通量、MFCC和AMFCC—共34维特征参数。一般而言,由于整场足球比赛的长度为大约2小时,因此,首先应该检测出粗略的边界,以进行结构化切分。为了加快粗略切分的速度,仅考虑低能量声音或者静音。因此,选择低能量声音和过零率来4全测整个音频流的分界点。该处理在时域中进行,并且,针对这两个参凄t分别i殳定了两个阈^直。经过处理之后,音频流将^皮切分成多段,各段的长度彼此之间各不相同。在各个音频片段中,提取出每一帧的34维特征参数,并与训练过程一样被定标为[-l,l]。图4示出了包括有通过检测《氐能量声音和过零率来将音频流4且略切分成多^殳的切分部402的预处理单元204的结构,其中,切分部402通过才企测〗氐能量声音和过零率,将音频流4:H略切分成多^:,然后,特征提取部404对经过粗略切分得到的多段音频流进行分帧和加窗,并提取每一帧的特征参数。图5示出了切分部402对音频流进行切分处理以及特征提取部404进行分帧处理的示意图。图6是分类单元206的结构冲匡图,包括计算部602,计算特征参数对每种类型音频的概率,并根据训练获得的预定样板判断概率最大的所在类别是该帧所属的类别。在得到了分类结果之后,由于分析窗长仅为200ms,而且得到的分类结果对于进一步的分析来i兌太过瑣石争,因此,优选对得到的分类结果进行平滑和合并以进行良好的分段。在本发明的实施例中,采用了基于两级均值滤波处理的后处理过程。其原因在于哨声远远短于其他四种类型的音频。如果只采用一种窗长的滤波处理,将发生两种不利情况若窗长设定得4艮短,以确保不错失哨声的才佥测,那么其他类型的音频将被切分成非常细小的片段;若窗长较长,有些较短的哨声将被平滑掉,从而被错误地归入其他的音频类型。因此,哨声和其他四种音频类型应当分开来检测,从而,在本发明的实施例中,提出了两级均值滤波的后处理单元。图7是后处理单元208的结构框图,在该后处理单元208中,第一后处理部702利用5帧的窗长对哨声进行均值滤波;第二后处理部704利用25帧的窗长对除哨声之外的声音类别进4亍均值滤波;以及合并部706对音频流中连续相邻同类别的帧进行合并,得到最终的分段结果。21在经过分类及后处理之后,整个音频流:帔切分成多,殳,每一,史都具有一种音频类型。图8是本发明第二实施例的分析方法的流程图,包括以下步骤输入步骤S802,用于输入音频流;预处理步骤S804,用于对音频流进行预处理,得到音频流的每一帧的特4正参凄t;分类步骤S806,按照特征参数分析每一帧所属的类别;以及后处理步骤S808,对分类步骤S806的分类结果进行后处理,得到最终的分段结果,其中,所述特征参数包括短时平均能量、子带能量、过零率、Md频域倒i普系凄t、AMel频i或倒^普系凄t、i普通量和基音频率。在图8的流程图中的预处理步骤S804中,包括特征提取步骤,对音频流进行分帧和加窗,并提取经过分帧和加窗得到的每一帧的特征参数。另外,预处理步骤S804还可包括切分步骤,通过检测低能量声音和过零率,将音频流粗略切分成多段,然后,对经过粗略切分得到的多,殳音频流进行分帧和加窗,并提取每一帧的特征参数。在图8的流程图中的分类步骤S806中,包括计算步骤,计算特征参数对每种类型音频的概率,并根据预定的样板判断概率最大的所在类别是该帧所属的类别。此外,在图8的流程图中的后处理步驶AS808中,包括第一后处理步骤,用5帧的窗长对哨声进行均值滤波;第二后处理步骤,用25帧的窗长对除哨声之外的声音类别进行均值滤波;以及合并步骤,对音频流中连续相邻同类别的帧进行合并,得到最终的分段结果。22利用本发明,对9个半场足球比赛进行了测试,其中总共有18个进J求得分和20个^f壬意^求。测试结果示于表1。表l:精彩事件;险测结果<table>tableseeoriginaldocumentpage23</column></row><table>其中,H表示"命中";HR表示命中率,衡量的是被正确检测出的事件所占百分比;PR表示正确率,指相对于所有检出的事件来i兌正确纟会测事4牛的百分比。由该表可知,只利用视频信息时,进球得分和任意球的命中率分别为88.9%和90%。而结合了音频分类结果后,进球得分和任意球的命中率分别升至94.4%和95%。同时,进^求得分的准确率从90%升至95%,任意球则从64.3%升至67.9%。因此,音频分类显著改善了精彩事件的^r测。在上述实施例中,本发明利用音频数据对足球比赛进行分析,由于赛事中场休息、比赛开始之前或比赛结束以后会有广告或者音乐等音频,因此,本发明将足球比赛的音频内容分为五类音乐、裁判哨声、观众欢呼声、解说员激动的解说声和其他类。结合分析音频的特性,在音频分析过程中,为每帧提取了34维音频特征进4亍SVM^t型训练。在后处理过程中,首先采用中值滤波的方法进行平滑,接着再进行二级后处理第一级是用小窗长(5帧)对哨声进行均值滤波;第二级是用大窗长(25帧)对其他类别进行均值滤波。得到91.8%的分类正确性,最终得到分段后的结果。从而实现了精彩内容的快速检索,节省了观众的时间,满足了体育迷的观看需求。应该注意的是,以上所述仅为本发明应用在足球比赛音频分析的一个实施例,其特4正分析、分类和后处理都可以应用于其他类别体育比赛音频的分析。由于不同体育比赛的语音流中包含的声学信号有各自的一些特点,在向其他体育类别进行扩展时,仅需要才艮据其音频特征对该类体育音频的类别进行重新定义,按照定义标定训练语料,训练相应的分类器,其对应的特征分析、分类及后处理不变。以上所述〗又为本发明的优选实施例,并不用以限制本发明。本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况变形,^f旦这些相应的改变和变形都应属于本发明所附的4又利要求的保护范围。权利要求1.一种用SVM方法对音频数据进行分析的分析装置,其特征在于,包括输入单元,用于输入音频流;预处理单元,用于对所述音频流进行预处理,得到所述音频流的每一帧的特征参数;分类单元,按照所述特征参数分析所述每一帧所属的类别;以及后处理单元,对所述分类单元的分类结果进行后处理,得到最终的分段结果,其中,所述特征参数包括短时平均能量;子带能量;过零率;Mel频域倒谱系数;ΔMel频域倒谱系数;谱通量;和基音频率。2.根据权利要求1所述的分析装置,其特征在于,所述预处理单元包括特征提取部,对所述音频流进行分帧和加窗,并提取经过分帧和加窗得到的每一帧的所述特征参数。3.根据权利要求2所述的分析装置,其特征在于,所述预处理单元还包括切分部,通过4企测4氐能量声音和过零率,将所述音频流粗略切分成多段,其中所述特4正提取部对经过4丑略切分得到的所述多,殳音频流进4亍分帧和加窗,并4是取每一帧的所述特4i参数。4.根据权利要求1所述的分析装置,其特征在于,所述后处理单元包括第一后处理部,用5帧的窗长对哨声进行均值滤波;第二后处理部,用25帧的窗长只于除所述哨声之外的声音类别进4亍均4直滤波;以及合并部,对所述音频流中连续相邻同类别的帧进行合并,得到最终的分^:结果。5.根据权利要求1所述的分析装置,其特征在于,所述分类单元包括计算部,计算所述特征参数对每种类型音频的概率,并根据预定的样板判断概率最大的所在类别是该帧所属的类别。6.根据权利要求5所述的分类装置,其特征在于所述输入音频流包括体育比赛的音频lt据,所述音频H据包括主音频数据和副音频数据,其中所述主音频数据包括裁判哨声、观众欢呼声、解i兌员激动的解"i兌声和音乐,以及所述副音频凄t据包括静音、环境p喿音;其中,所述类别至少包括裁判哨声、观众欢呼声、解说员激动的解"^兌声和音乐。7.根据权利要求6所述的分类装置,其特征在于所述音乐包括广告音乐、纯音乐;所述裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场〗木息和比赛结束时吹的哨声;所述观众欢呼声包括出现精彩镜头时观众的响应;以及所述解说员激动的解说声包括当出现精彩镜头时解说员的激动解说。8.—种用SVM方法对音频凄t据进4于分4斤的分神斤方法,其特4正在于,包括丰俞入步骤,用于^r入音频流;预处理步骤,用于对所述音频流进行预处理,得到所述音频流的每一帧的特征参数;分类步骤,按照所述特征参数分析所述每一帧所属的类另U;以及后处理步骤,对所述分类步骤的分类结果进行后处理,得到最终的分段结果,其中,所述特征参数包括短时平均能量;子带能量;过零率;Mel频i或倒-潜系凄史;AMel频i或倒_潜系#t;语通量;和基音频率。9.根据权利要求8所述的分析方法,其特征在于,所述预处理步骤包括特;正提取步^:,对所述音频流进4于分帧和加窗,并提取经过分帧和加窗得到的每一帧的所述特^正参凄t。10.根据权利要求9所述的分析方法,其特征在于,所述预处理步骤还包括切分步骤,通过检测低能量声音和过零率,将所述音频流粗略切分成多段,其中所述特征提取步骤对经过粗略切分得到的所述多^殳音频流进行分帧和加窗,并提取每一帧的所述特征参数。11.根据权利要求8所述的分析方法,其特征在于,所述后处理步骤包括第一后处理步骤,用5帧的窗长对哨声进行均值滤波;第二后处理步骤,用25帧的窗长对除所述哨声之外的声音类别进行均值滤波;以及合并步骤,对所述音频流中连续相邻同类别的帧进行合并,得到最终的分段结果。12.根据权利要求8所述的分析方法,其特征在于,所述分类步骤包括计算步骤,计算所述特征参数对每种类型音频的概率,并根据预定的样板判断概率最大的所在类别是该帧所属的类另'J。13.才艮据4又利要求12所述的分类方法,其特征在于所述输入音频流包括体育比赛的音频据,所述音频凄史据包4舌主音频凄t据和副音频凝:据,其中所述主音频数据包括裁判哨声、观众欢呼声、解说员激动的解i兌声和音乐,以及所述副音频凄t据包括静音、环境p朵音;其中,所述类别至少包括裁判哨声、7见众欢呼声、解i兌员激动的解说声和音乐。14.根据权利要求13所述的分类方法,其特征在于所述音乐包:^舌广告音乐、纯音乐;所述裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声;所述观众欢呼声包括当出现精彩镜头时观众的响应;以及所述解说员激动的解说声包括当出现精彩镜头时解说员的激动解说。全文摘要本发明提供了一种用SVM方法对音频数据进行分析的分析装置,其特征在于,包括输入单元,用于输入音频流;预处理单元,用于对所述音频流进行预处理,得到所述音频流的每一帧的特征参数;分类单元,按照所述特征参数分析所述每一帧所属的类别;以及后处理单元,对所述分类单元的分类结果进行后处理,得到最终的分段结果,其中,所述特征参数包括短时平均能量、子带能量、过零率、Mel频域倒谱系数、ΔMel频域倒谱系数、谱通量和基音频率。根据本发明,实现了精彩内容的快速检索,能够节省观众的时间,满足观众的观看需求。文档编号G06F17/30GK101685446SQ20081016140公开日2010年3月31日申请日期2008年9月25日优先权日2008年9月25日发明者昆刘,吴伟国申请人:索尼(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1