区域生态环境音频数据分类方法

文档序号:6461112阅读:151来源:国知局
专利名称:区域生态环境音频数据分类方法
技术领域
本发明涉及音频数据检索、分类和处理技术,特别是一种区域生态环境音频数据分类方法。

背景技术
不同的区域、地点、年份、季节、气候以及一天中不同的时间,在生态环境中能产生不同的声音。这些声音在一定程度上反映出自然界中各种生物生存及活动的情况,同时也与人类的生活环境密切相关。研究区域生态环境音频数据的分类技术,对于生态环境音频数据的辨识、索引和检索方法及关键技术,确定区域生态环境音频与地域、地点、季节、气候条件及时间的关系,分析和研究生态环境、预测生态环境的变化、了解各种生物生存及活动规律具有重要意义。
近年来,对于生态及生活环境音频数据的分类、辨识方面的研究及应用包括利用对环境机械声音的独立分量分析,用阶乘H M M(ICA-FHMM)进行机械故障辨识(Li,He,Chu,Han,& Hao,2006);从声音环境中,推断出生态环境中可能存在的活动类型及活动的参与者(Smith,Ma,& Ryan,2006);利用集成的自适应学习机制和分等级分类模型的HMM,设计声音环境分类器(Ma,Milner,& Smith,2006);用动物声音的Mel频率倒谱系数和线性判别式分析来自动辨识动物的类型(Lee,Chou,Han,& Huang,2006);采用似然模型,把低级音频特征和运动特征与预定义的音频类型和运动类型,通过HMM模型检索棒球比赛的精彩场面(Cheng,& Hsu,2006);用HMM和MFCC进行大象的发音分类和发声者辨识(Clemins,Johnson,Leong,&Savage,2005);用HMM和MFCC进行浴室声音事件的分类,实现自动浴室活动监控系统(Chen,Kam,Zhang,Liu,& Shue,2005);把ICA时间扩展的通用音频模型的特征抽取方法,用于厨房环境中的相关声音分类(Kraft,Malkin,Schaaf,& Waibel,2005);用独立成分分析的MFCC和基于帧的SVM,来实现家庭自动化中家庭环境声音的辨识(Wang,Lee,Wang,& Lin,2008);通过各种环境音频的傅立叶变换和小波变换来分类环境音频数据(McLachlan,Kumar,& Becker,2006)。这些研究从不同侧面揭示了生态及环境音频数据与动物、人类生活及环境的关系,同时,也预示着这些相关技术在现实中的潜在应用。
然而,这些研究都未涉及区域生态环境音频数据检索与分类的内容。


发明内容
本发明的目的在于为区域生态环境音频数据的分析、索引、搜索和检索提供一种高效的分类方法。
本发明的目的是通过如下的技术方案实现的这种区域生态环境音频数据分类方法,该方法包括以下步骤 (1)对待定类型的生态环境音频信号进行有效分段,并计算各有效分段的分段长度,通过如下步骤实现 a)对音频信号进行分帧处理; b)计算每一帧的平均幅度Mi和整个音频信号的平均幅度M; c)取帧平均幅度Mi连续5帧或5帧以上高于0.67*M的一段音频信号作为一有效分段,从而将音频信号分成若干有效分段; d)记录每个有效分段中帧的数目。
(2)计算各有效分段的差分Mel频率倒谱系数矩阵d-mfccm,以从中得到各有效分段的分类参数,其方法是 计算各有效分段内每个帧的Mel频率倒谱系数Mfcc,并以每个帧的Mfcc为行建立各有效分段的矩阵Mfccm,对矩阵进行一阶差分得到差分Mel频率倒谱系数矩阵d-mfccm,根据d-mfccm中各行与对应的有效分段的短时平均幅度Mi的相似程度,选出一行作为分类参数。
(3)计算各有效分段的最大谐波分量频率成分,并建立各有效分段的分段长度与最大谐波分量频率成分的分布关系; 计算各有效分段的最大谐波分量频率成分的方法如下 a)计算有效分段中每一帧音频信号的最大谐波分量的频率成分; b)从所述帧频率成分的最大谐波分量中取极大值,取与极大值对应的频率成分作为该有效分段最大谐波分量的频率成分。
(4)分别根据各有效分段的分段长度、最大谐波分量频率成分的上、下限确定各有效分段对应的分类搜索范围,并分别从数据库中搜索落入各分类搜索范围内的所有已知类型音频信号的有效分段对应的数据点; (5)将各有效分段的分类参数与落入其分类搜索范围内的所有数据点的分类参数分别进行比较,根据接近程度确定各有效分段相应的可能类型; (6)根据各有效分段的可能类型,最终确定待分类的音频信号的类型。
本发明的显著特点是为区域生态环境音频数据的分析、索引、搜索和检索提供了一种高效的分类方法,不仅提高了分类效率,而且对音频信号分类的准确性高,具有很强的实用性和广阔的应用前景。



图1是本发明实施例一个麻雀声音信号的分段过程图; 图2是本发明实施例由生态音频信号产生d-mfccm分类参数的过程示意图; 图3是本发明实施例的生态音频信号有效分段的最大谐波分量频率与d-mfccm的对应图; 图4是本发明实施例各种生态环境音频信号有效分段长度及其最大谐波分量的频率成分分布图; 图5是本发明实施例由一个麻雀声音的各个有效分段长度及其最大谐波分量的频率成分确定的查询范围图; 图6是本发明实施例一个麻雀声音信号的每个有效分段需要进行d-mfccm比较的范围图; 图7是本发明实施例待分类区域生态音频段的d-mfccm需要与已知类型的音频段的d-mfccm比较内容的示意图; 图8是本发明实施例的流程图; 图9是本发明实施例Mel频率与实际频率的关系图; 图10是本发明实施例Mel三角形滤波器组的示意图。

具体实施例方式 本发明的区域生态环境音频数据分类方法,该方法包括以下步骤 (1)对待定类型的生态环境音频信号进行有效分段,并计算各有效分段的分段长度,通过如下步骤实现 a)对音频信号进行分帧处理; b)计算每一帧的平均幅度Mi和整个音频信号的平均幅度M; c)取帧平均幅度Mi连续5帧或5帧以上高于0.67*M的一段音频信号作为一有效分段,从而将音频信号分成若干有效分段; d)记录每个有效分段中帧的数目。
(2)计算各有效分段的差分Mel频率倒谱系数矩阵d-mfccm,以从中得到各有效分段的分类参数,其方法是 计算各有效分段内每个帧的Mel频率倒谱系数Mfcc,并以每个帧的Mfcc为行建立各有效分段的矩阵Mfccm,对矩阵进行一阶差分得到差分Mel频率倒谱系数矩阵d-mfccm,根据d-mfccm中各行与对应的有效分段的短时平均幅度Mi的相似程度,选出一行作为分类参数。
(3)计算各有效分段的最大谐波分量频率成分,并建立各有效分段的分段长度与最大谐波分量频率成分的分布关系; 计算各有效分段的最大谐波分量频率成分的方法如下 a)计算有效分段中每一帧音频信号的最大谐波分量的频率成分; b)从所述帧频率成分的最大谐波分量中取极大值,取与极大值对应的频率成分作为该有效分段最大谐波分量的频率成分。
(4)分别根据各有效分段的分段长度、最大谐波分量频率成分的上、下限确定各有效分段对应的分类搜索范围,并分别从数据库中搜索落入各分类搜索范围内的所有已知类型音频信号的有效分段对应的数据点; (5)将各有效分段的分类参数与落入其分类搜索范围内的所有数据点的分类参数分别进行比较,根据接近程度确定各有效分段相应的可能类型; (6)根据各有效分段的可能类型,最终确定待分类的音频信号的类型。
下面通过具体实施例对本发明作进一步的详细说明。
1、对音频时域信号进行有效分段、计算每个分段长度方法的说明 图1是一段麻雀声音信号的分段示意图。其中(a)为音频时域信号,它是一段来自区域生态环境中麻雀的音频信号;(b)为经过加窗分帧、平滑处理后的短时平均幅度信号,帧长N=100;(c)为从原始声音中获得的有效分段数据。如图1(c)所示,5与箭头所指的信号就表示该有效分段的长度为5个帧。图1(c)中取这5个帧为有效分段的理由是与它们对应的连续5个帧的平均幅度Mi高于整个信号平均幅度的0.67倍,即连续5个Mi>0.67*M。
2、d-mfccm与分类参数的产生过程说明 图2是以图1(c)中第3段有效分段为例,把长度为20帧的该段音频信号转换生成分类参数的过程。其中,图2(a)是图1(c)中音频信号分段的第3分段音频时域信号,图2(b)是该分段的短时平均幅度Mi。首先,把该分段音频信号转换成Mel频率倒谱系数,即Mfcc。如同2(c)所示,帧长为100的20帧音频信号,可以生成20个长度为7的Mfcc。如果用矩阵mfccm来表示这些系数,那么,可以表示成mfccm(r1,c1),其中1≤r1≤20,1≤c1≤7。为了便于检索,对mfccm进行转置,生成mfccm(c1,r1),其中1≤c1≤7,1≤r1≤20,如图2(d)所示。然后,再把mfccm转换成各个d_mfccm,如图2(e)所示。最后,根据d_mfccm中各行与相应音频有效分段的图2(b)所示的短时平均幅度Mi的相似程度,选出一行作为分类参数,如图2(f)所示。这个分类参数的数据量只有相应的音频信号有效分段的1/1000,它对于生态环境音频信号的快速与有效分类起着重要的作用。
3、计算各段最大谐波分量频率成分并生成频率成分与各段长度分布的过程说明 图1(c)所示的音频信号各有效分段的长度与各有效分段的最大谐波分量的频率成分如图3(a)。以图3(a)第1段为例,该段共包含5帧音频信号,其中各帧的最大谐波分量的频率成分为km1=1301、km2=1295、km3=1256、km4=1212和km5=1157,与这些频率成分对应的幅度平方分别为X[km1]×X[km1]*=3.0651、X[km2]×X[km2]*=4.8103、X[km3]×X[km3]*=1.3916、X[km4]×X[km4]*=5.3828和X[km5]×X[km5]*=1.6788,其中X[km4]×X[km4]*=5.3828最大,因此,这5个频率成分中的极大谐波分量的频率成分kM=1212。因此,该有效分段的最大谐波分量的频率成分为1212。图3(b)则是与该音频信号对应的各段的分类参数;这些分类参数将与相应的音频信号有效分段的长度、最大谐波分量的频率成分一起作为生态音频信号分类的参数。
本实施例采用9类共107个区域生态音频数据。其中包括24个不同麻雀声音信号、30个不同的青蛙声音信号、12个不同的蝉声音信号、5个不同的蟋蟀t声音信号、6个不同的老鼠声音信号、9个不同的闪电声音信号、9个不同的水流声音信号、6个不同的下雨声音信号和6个不同的刮风声音信号。为了便于分析和说明,如果以有效分段的长度为纵坐标、以最大谐波分量的频率成分为横坐标,可以得到如图4所示的区域环境中各种音频数据有效分段长度及其最大谐波分量的频率成分分布图。
4、确定分类搜索范围的说明 以图1(a)的麻雀声音信号为例,它的9个有效分段长度及其最大谐波分量频率分布情况,如图5中的

部分所示。为了确定每个

可能的音频类型,只把每个

与其周围局部范围内的分段进行比较。因此,也就是根据每个

的长度和最大谐波分量的频率成分来确定它的比较范围。其中,每个

可能的查询比较的范围如图5中的方框所示。
为了便于分析与了解与每个

对应的查询范围,我们按图1(c)中音频信号的9个有效分段顺序,把图5中9个方框进行放大,并重画成如图6所示的分类搜索比较的内容及分布。
在图1(c)中,第1个最大谐波分量频率成分和有效分段的长度为(1212,5),确定的查询范围为最大谐波分量频率成分下限xmin0.95*1212=1151.4,上限xmax1.05*1212=1272.6;有效分段长度下限ymin0.67*5=3.35,上限ymax1.33*5=6.65。对这些边界值进行向下取整,得到查询搜索的范围为(x,y)|1151≤x≤1272,3≤y≤6,如图6(a)所示。即为了确定这段音频信号所属的局域生态环境音频数据的类型,只需要把它与有效长度在(3,6)、最大谐波分量频率在(1151,1272)范围内的相应音频分段进行比较。其所需要的比较的具体音频有效分段如图6(a)所示。其中具体包括第5个麻雀声音信号的第3段、第7段和第9段;第6个麻雀音频信号的第16段;第13个麻雀音频信号的第2段和第4段;第23个麻雀音频信号的第21段;第24个麻雀音频信号的第30段。为了简单起见,我们把它表示成 麻雀-(5,3),(5,7),(5,9),(6,16),(13,2),(13,4),(23,21),(24,30);同理,需要搜索的还包括 青蛙-(18,3),(18,4),(18,17),(21,2),(21,4); 蝉-蝉-(6,4),(6,6); 老鼠-(3,2),(3,9),(3,11),(4,5);老鼠 水流-(2,6),(9,28); 需要对5类共21个音频段进行搜索。
同样,在图1(c)中,第2个最大谐波分量频率和有效分段的长度为(993,17),需要查询搜索的范围为(x,y)|943≤x≤1042,12≤y≤22,如图6(b)所示。具体需要搜索的音频段包括麻雀-(11,3),(14,11);青蛙-(29,5),(30,48);老鼠·(3,6),水流-(4,2),(4,10);需要对4类共7个音频段进行分类搜索。
再进一步简化之后,在图1(c)中,第3—9个有效分段的最大谐波分量频率成分及其长度,需要分类搜索的范围分别为 (1403,20),(x,y)|1333≤x≤1473,14≤y≤26,如图6(c)所示; (1006,38),(x,y)|956≤x≤1056,26≤y≤50,如图6(d)所示; (939,7),(x,y)|893≤x≤985,5≤y≤9,如图6(e)所示; (1239,16),(x,y)|1177≤x≤1300,11≤y≤21,如图6(f)所示; (1365,13),(x,y)|1297≤x≤1433,9≤y≤17,如图6(g)所示; (1163,5),(x,y)|1105≤x≤1221,3≤y≤6,如图6(h)所示; (1053,21),(x,y)|1000≤x≤1105,11≤y≤21,如图6(i)所示。
具体需要搜索的音频段包括 第3段,麻雀-(1,1),(1,3),(1,8),(1,11),(2,3),(9,1),(9,2),(9,3),(11,9),(12,1),(17,3),(17,11),(19,8),(21,5),(24,16),青蛙-(18,27)。需要对2类共15个音频段进行分类搜索。
第4段,麻雀-(24,2),(24,15);青蛙-(9,1),(9,2),(9,5),(9,8),(10,1),(29,6),(29,7);Lightning-(1,1),(8,1),(9,1)。需要对3类共12个音频段进行分类搜索。
第5段,麻雀-(2,1),(24,5),(24,18);青蛙-(25,2);老鼠-(3,5);水流-(2,4),(2,7),(6,24),(9,11),(9,22);下雨-(1,3),(1,7)。需要对5类共12个音频段进行分类搜索。
第6段,麻雀-(1,2),(2,6),(2,7),(5,7),(10,2),(10,4),(11,7),(11,11),(12,3),(12,4);青蛙-(18,16),(18,24),(21,1),(28,3),(28,4),(28,6),(28,8),(28,13),(28,14);老鼠-(3,4);水流-(2,2);下雨-(6,2)(6,12)。需要对5类共23个音频段进行分类搜索。
第7段,麻雀-(1,1),(5,4),(7,3),(7,5),(7,7),(7,9),(7,11),(7,13),(7,15),(11,2),(17,1),(17,5),(19,2),(19,3),(19,8),(21,5),(24,3),(24,16),(24,32);青蛙-(18,23),(27,4),(28,2),(28,10),(28,12);蝉-(9,1)。需要对3类共25个音频段进行分类搜索。
第8段,麻雀-(5,3),(6,16),(16,5),(18,5),(18,8);青蛙-(18,3),(18,15),(18,17),(21,4);老鼠-(3,2)(3,9),(3,11),(6,5);水流-(2,6);下雨-(1,24),(4,4)。需要对5类共16个音频段进行分类搜索。
第9段,麻雀-(11,3),(13,5),(13,6),(14,11);青蛙-(29,5),(30,33);老鼠-(3,1)(3,8),(4,1);水流-(4,10);下雨-(1,23)。需要对5类共11个音频段进行分类搜索。
5、基于一阶Mel频率倒谱系数矩阵的分类的说明 以图1(a)为待分类的生态环境音频信号。并以该音频信号有效分段的第9段为例,来进行分类。假设,以图3(a)的第9段为待定类型的音频段。那么,只需把该段的分类参数与图6(i)中其它已知音频段的分类参数进行比较,把最接近的结果作为该待定类型的可能类型。具体的过程如图7所示,即要确定query段的类型,只需要把query段的分类参数与4个麻雀声音的有效分段、2个青蛙声音的有效分段、3个老鼠声音的有效分段、1个水流声音的有效分段和1个下雨声音的有效分段的d-mfccm进行比较,就能判断出query段的可能类型。在本例的比较中,图7(c)与待定类型query距离最近,因此,我们认为待定的音频数据类型与图7(c)可能是同一类型,即待定类型初步定为是来自麻雀的声音。
同样方法,把图3(a)中的各段的d-mfccm与图6中相应的其它已知各音频段的d-mfccm进行比较,可以得出各段相应的可能类型。根据这7个段的可能类型,最后确定图1(a)可能的生态环境音频信号的类型。在本例中,图3(a)各有效分段的前3个可能生态环境音频信号类型、可能的结果排序,及最后结果如表1所示。
表1 待定音频信号各段可能的类型、排序及结果

计算过程涉及的算法原理 1、音频信号的短时平均幅度分析与分段 设区域生态环境音频数据时域信号为x(n)、共可以分成I个帧,加窗分帧处理后得到的第i帧音频信号xi(m)满足下式 xi(n)=x(i*N+n)w(n), 0≤n≤N-1 其中,i=0,1,2,...,I-1;N为帧长。
设第i帧生态音频信号xn(m)的短时平均幅度函数为Mi,整个音频信号的平均幅度为M,则它们的计算公式如下 它们是区域生态环境音频信号能量大小的表征。本专利把Mi和M作为区域生态音频信号有效分段的判断依据。
2、Mfcc与d-mfccm的计算 Mfcc(Mel-Frequency Cepstral Coefficients)的分析着眼于人类的听觉特性。心理生理学研究表明,人类所听到的声音的高低与声音的频率并不成线性正比关系。用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度,如图9所示,它的值大约对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用下式表示 Mel(f)=2595log10(1+f/700) 这里,实际频率f的单位是Hz。
根据Zwicker的工作,如果在声音的中心频率附近的某个带宽内,那么音调不能单独辨别,我们把这个带宽称作临界带宽。临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致。在1000Hz以下,大致成线性分布,带宽为100Hz左右;在1000Hz以上呈现对数增长。频率f周围的临界带宽可以通过下式近似计算 BWcritical=25+75[1+1.4(f/1000)2]0.69 类似于临界频带的划分,可以将音频信号频率划分成一系列三角形的滤波器序列,即Mel滤波器组,如图10所示。
计算Mfcc及Mfccm的步骤如下 1)将音频信号划分成一系列连续的帧,每帧包含N=128个样本,相邻帧有28个样本重叠。并进行M=4096的DFT,如对于一个具有I个帧的音频信号有效分段,其DFT如下 m=0,1,…,M-1,i=1,2,...,I 这里,xi(n)表示音频信号有效分段的第i个帧, xi(n)=x(n+mi)w(n) w(n)采用汉明窗
2)取临界带中的前19个,即L=19,频率范围0到大约4000Hz。这些频带在mel轴上均匀分布,约等于112mel。每个频带的形状加权表示。这里采用如图10所示的不重叠的三角形频带,其下界、中心和上界频率分别位于 o(i)=(10mlo(i)/2595-1)×700, c(i)=(10mlc(i)/2595-1)×700, h(i)=(10mlh(i)/2595-1)×700, 其中,mlo(i)=(i-1)×ml,mlc(i)=(2×i-1)×ml/2,mlh(i)=i×ml。
3)在每个临界频带内,求每一个三角形滤波器的输出 l=1,2,…,L 4)对所有滤波器输出做对数运算,再进一步做离散余弦变换(DCT)即可得到一组Mfcc 其中,j=0,1,…,R,1≤R≤L。这是由音频数据文件的一帧数据所产生的Mfcc。
本专利把一个音频数据文件的每个帧的Mfcc,作为矩阵的行,按顺序组成的矩阵就是Mfccm,它可以表示为 其中,i=1,2,…,I,j=0,1,…,R,1≤R≤L,I为一个音频数据文件分帧的个数,R为一帧音频数据MFCC的个数,L为临界频带的数量。
Mfcc及其Mfccm主要反映了音频数据的静态特性。与这种静态特性相对应的声音的动态特性,可以通过对Mfccm的一阶和二阶差分得到,本专利主要利用这种动态特性实现环境音频数据的检索。其中一阶差分d-mfccm的计算采用下面的公式 这里k为常数,通常取2。
3、分段信号的最大谐波分量的频率成分 生态环境音频信号与其它周期序列一样,可以表示成基波和一系列不同频率成分的谐波的线性加权和,即傅立叶级数。级数中每一项的加权系数称为傅立叶系数。某项加权系数的大小,与该频率成分的谐波分量的大小相关。
对于有限长序列,常采用离散傅立叶变换(DFT)。对于N个样本序列x[n]的DFT定义为 DFT序列X[k]的第k个值相对应的归一化频率为2πk/N弧度。同时,这里的X[k]表示当频率成分为k时的谐波加权系数。例如,当N=32时,序列X[k]在序号为k=11的地方所代表的归一化角频率为ω=11π/16。X[11]表示当频率成分为11时的谐波加权系数。
在实际应用中,为了应用DFT的快速算法,常以频率间隔ωk=2πk/M,0≤k≤M-1来估计X(ejw),其中,M是2的整数幂,M>>N 通过对x[n]增加M-N个零值样本可以得到新序列xe[n] 在式(2)中使用xe[n],得到 它是M个样本的序列xe[n]经过DFT产生的序列Xe[k],0≤k≤M-1。
在实施例中,取音频信号的连续帧序列{x[n]}的长度N=128,即{x[n]}|n=1,2,...,N,相邻帧之间有28个样本的重叠,取M=4096对其进行DFT并生成长度为4096的DFT序列{Xe[k]},即{Xe[k]}|k=1,2,...,M。这样,对于每一帧序列xe[n],有一个相对应的Xe[k]序列,即4096个不同频率成分的谐波加权系数相对应,而其中的最大值对应的k,0≤k≤M-1就是我们所要找的该帧的最大谐波分量的频率成分,这里,用km表示。如果每个音频信号的有效分段由I个帧组成,那么,每个有效分段有I个km,即I个帧有I个最大值的样本。我们取I个最大值样本中的极大值样本对应的km作为该有效分段的最大谐波频率成分,用kM表示。求kM时的DFT部分的计算,可以在求MFCC时同时进行。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
权利要求
1、一种区域生态环境音频数据分类方法,其特征在于该方法包括以下步骤
(1)对待定类型的生态环境音频信号进行有效分段,并计算各有效分段的分段长度;
(2)计算各有效分段的差分Mel频率倒谱系数矩阵d-mfccm,以从中得到各有效分段的分类参数;
(3)计算各有效分段的最大谐波分量频率成分,并建立各有效分段的分段长度与最大谐波分量频率成分的分布关系;
(4)分别根据各有效分段的分段长度、最大谐波分量频率成分的上、下限确定各有效分段对应的分类搜索范围,并分别从数据库中搜索落入各分类搜索范围内的所有已知类型音频信号的有效分段对应的数据点;
(5)将各有效分段的分类参数与落入其分类搜索范围内的所有数据点的分类参数分别进行比较,根据接近程度确定各有效分段相应的可能类型;
(6)根据各有效分段的可能类型,最终确定待分类的音频信号的类型。
2、根据权利要求1所述的区域生态环境音频数据分类方法,其特征在于步骤(1)通过以下步骤进行音频信号的有效分段及分段长度的计算
(a)对音频信号进行分帧处理;
(b)计算每一帧的平均幅度Mi和整个音频信号的平均幅度M;
(c)取帧平均幅度Mi连续n帧或n帧以上高于q*M的一段音频信号作为一有效分段,从而将音频信号分成若干有效分段;
(d)记录每个有效分段中帧的数目。
3、根据权利要求2所述的区域生态环境音频数据分类方法,其特征在于连续帧数n的最佳取值是5,系数q的最佳取值是0.67。
4、根据权利要求1所述的区域生态环境音频数据分类方法,其特征在于步骤(2)通过以下方法计算差分Mel频率倒谱系数矩阵d-mfccm并得到分类参数
计算各有效分段内每个帧的Mel频率倒谱系数Mfcc,并以每个帧的Mfcc为行建立各有效分段的矩阵Mfccm,对矩阵进行一阶差分得到差分Mel频率倒谱系数矩阵d-mfccm,根据d-mfccm中各行与对应的有效分段的短时平均幅度Mi的相似程度,选出一行作为分类参数。
5、根据权利要求1所述的区域生态环境音频数据分类方法,其特征在于步骤(3)按以下步骤计算各有效分段的最大谐波分量频率成分
(a)计算有效分段中每一帧音频信号的最大谐波分量的频率成分;
(b)从所述帧频率成分的最大谐波分量中取极大值,取与极大值对应的频率成分作为该有效分段最大谐波分量的频率成分。
全文摘要
本发明涉及音频数据检索、分类和处理技术,为区域生态环境音频数据的分析、索引、搜索和检索提供一种高效的分类方法,包括以下步骤1)对音频信号进行有效分段并计算分段长度;2)计算各有效分段的差分Mel频率倒谱系数矩阵;3)计算各有效分段的最大谐波分量频率成分,并建立分段长度与最大谐波分量频率成分的分布关系;4)分别确定各有效分段的分类搜索范围,并分别从数据库中搜索落入各分类搜索范围内的所有已知类型音频信号的有效分段对应的数据点;5)将各有效分段的分类参数与落入其分类搜索范围内的所有数据点的分类参数分别进行比较,根据接近程度确定各有效分段相应的可能类型;6)根据各有效分段的可能类型,最终确定待分类的音频信号的类型。
文档编号G06F17/30GK101393553SQ200810071838
公开日2009年3月25日 申请日期2008年9月24日 优先权日2008年9月24日
发明者应 李 申请人:福州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1