基于音频特征空间分层描述的音频分类方法与流程

文档序号:12307383阅读:374来源:国知局
基于音频特征空间分层描述的音频分类方法与流程

本发明涉及音频分类技术领域,尤其涉及一种基于音频特征空间分层描述的音频分类方法。



背景技术:

声音媒体是最重要的媒体之一,它蕴含着丰富的信息,不断更新着人类对客观物质世界的认识。各行业越来越广泛的使用声音媒体。对于音频信号来说,基于内容的音频检索是指通过音频特征分析,对不同的音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似,从而便于查询。

目前,该领域的研究重点主要在两个方面音频特征分析与提取和分类器的设计与实现。早期的音频特征大致包括短时能量、静音率、过零率、和谐度、基频、频谱、带宽、谱中心、子带能量,后来又引入了线性预测系数和倒谱系数等多种时域和频域的特征。系统中所用的分类器主要包括基于高斯模型的分类器、基于神经网络的分类器、基于决策树的分类器、基于隐马尔科夫模型的分类器等。

从目前研究和应用的现状来看,基于内容的音频分类技术仍处于起步阶段,没有完全自动化和智能化。针对互联网上的海量数据特点,如何快速地进行音频分类,如何将音频分类更广阔的应用到各个领域,仍然存在很多问题需要解决。

普通的混合高斯模型分类器是提取音频数据的特征后,利用混合高斯模型对数据建模,再用最大似然法对需检测数据分析,求出最相似解,从而对音频分类。本发明以音频类的gmm模型为基础,向上拓展定义出音频特征空间描述因子,并进一步定义描述因子的区分能力;向下拓展定义音频类的子空间模型,为复杂音频类提供更为精确的统计描述。



技术实现要素:

为了克服现有技术存在的缺点与不足,本发明提供一种基于音频特征空间分层描述的音频分类方法,结合传统高斯混合模型的优点,又能很好的对复杂音频进行区分,能较大提高音频分类的准确率,对复杂音频或有较高相似度的音频提供更为精确的统计描述。

为解决上述技术问题,本发明提供如下技术方案:一种基于音频特征空间分层描述的音频分类方法,包括如下步骤:

1)通过考察各音频类型gmm模型高斯空间分布之间的重叠程度,将重叠度大的不同类型的高斯分布进行合并,构建音频特征空间描述子;每类音频特征空间描述子为对应gmm的高斯分布函数;

2)音频类型对区分子模型:根据音频特征空间描述子的构成信息,筛选出音频类型对的非重叠空间描述子以及重叠度小的描述子,然后利用所筛选出的区分描述子构建音频类型对的区分子模型;

3)复杂音频类型的子类型模型采用ubm-gmm的方法,其训练数据是母gmm训练数据依据该音频类型的描述子位置空间分布进行划分聚类获得,子类型间有自己的区分子模型;

4)一个音频样本分别从音频特征空间、音频类型空间、音频类型子空间三个层次进行评价,并辅以音频类型对区分子模型评价构建识别方法。

进一步地,所述步骤1)中,多元高斯分布的合并,是基于高斯矢量函数对之间的分离度来确定合并对象的,每次合并两个分离度最小的不同音频类的高斯分布,而新高斯分布由相应的合并训练数据估计获得,具体为:

2.1、分离度定义:设gij为第i类音频gmm模型的第j个高斯分布,gkl为第k类音频模型的第l个高斯分布,其空间分离度为:

2.2、分别计算新高斯分布gnew与gij,gkl的分离度,用gnew替换与之分离度小的,而另一个被舍弃。

进一步地,所述步骤2)中,两类音频的区分描述子是通过分析音频特征空间描述子的构成,以确定两类音频的描述子是否重叠,若重叠,则利用分布位置信息相互评价,获得重叠的程度,筛选出音频类型对的非重叠空间描述子以及重叠度小的描述子,然后利用筛选出的区分描述子构建音频类型对的区分子模型。

进一步地,所述步骤3)中的数据样本划分,首先找出音频类的描述子位置矢量集{mi}中欧式距离最大的两个矢量mk、ml,计算音频类的每个训练样本x={x1,x2,....,xn}的均值矢量以最邻近规则将所有训练样本划分成两个子集,每个子集采用ubm-gmm的方法构建自己的频谱空间模型。

进一步地,所述步骤4)中所述的识别方法,其中的音频类型区分模型对只有在识别判决可信度时才使用,区分模型评分高的类为识别结果,其中h1、h2分别为当前待识别样本得分最高的两个音频类型模型的评分。

采用上述技术方案后,本发明至少具有如下有益效果:

1、普通的混合高斯模型分类器是提取音频数据的特征后,利用混合高斯模型对数据建模,再用最大似然法对需检测数据分析,求出最相似解,从而对音频分类;然而对于有些复杂音频分类不太理想;本发明以音频类的gmm模型为基础,向上拓展定义出音频特征空间描述因子,并进一步定义描述因子的区分能力;向下拓展定义音频类的子空间模型,为复杂音频类提供更为精确的统计描述;

2、本发明在实验一相近音频实验中,铃声、失真语音、高噪背景、高噪语音、持续金属声五种声音,在混合高斯模型算法的平均准确率是64.66%,利用本发明基于音频特征空间分层描述的音频分类方法中平均准确率是70.74%,提高了6.08个百分点;在实验二高分辨度音频实验中,掌声、铃声、小孩哭声、引擎声、枪炮声、笑声、流水声、说|话声、风声九种声音,在混合高斯模型算法的平均准确率是82.67%,利用本发明基于音频特征空间分层描述的音频分类方法中平均准确率是84.69%,提高了2.02个百分点。

附图说明

图1为本发明基于音频特征空间分层描述的音频分类方法的步骤流程图;

图2为本发明基于音频特征空间分层描述的音频分类方法中高斯分子合并的步骤流程图;

图3为本发明基于音频特征空间分层描述的音频分类方法中对于音频码流识别的步骤流程图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。

实施例

本发明实例为对掌声、铃声、小孩哭声、引擎声、枪炮声、笑声、流水声、说话声、风声九种音频类进行分类,由于是已标注样本,所以没有子模型划分。如图1所示,本发明提供了一种基于音频特征空间分层描述的音频分类方法,其具体步骤如下,并对每一步骤进行详细描述:

s1:将标注好的音频类数据训练混合高斯模型,对所有的高斯函数按照所属gmm模型顺序进行编号,构建特定数据结构,以保存高斯函数与gmm模型的关系;

s2:通过考察各音频类型gmm模型高斯空间分布之间的重叠程度,将重叠度大的不同类型的高斯分布进行合并,构建音频特征空间描述子;每类音频特征空间描述子为对应gmm的高斯分布函数;

s3:根据音频特征空间描述子的构成信息,筛选出音频类型对的非重叠空间描述子以及重叠度小的描述子,然后利用所筛选出的区分描述子构建音频类型对的区分子模型,为复杂音频提供更精准的区分;

s4:对于音频码流,以短时帧识别为基础,以音频原子集对当前帧的评分序列为基础,并辅以音频类型对区分子模型评价构建识别方法。

步骤s1中对九类音频分别训练各自gmm模型,其特征提取方法为mfcc,其中mfcc维度为24阶,gmm模型混合度为16:

其中gij=n(x,uij,σij)为模型gi的第j个高斯函数。

对所有的高斯函数按照所属gmm模型顺序进行编号,构建如下表1的数据结构,以保存高斯函数与gmm模型的关系。

表1高斯函数的依存关系

步骤s2中根据两个不同gmm模型(i≠k)中的高斯分布对的空间分离度公式:

计算各高斯函数的分离度。

用dij,kl构建一个高斯分布空间分离度矩阵d=[dij,kl],该矩阵的尺寸是(9*16)×(9*16),主对角线上有9个0块,它们的大小为16*16,记录分离度信息。

考察各gmm模型的高斯函数的空间分离情况,如图2所示,按以下步骤流程合并高斯函数,将分离度较低的高斯分布合并,形成音频特征空间描述因子。

合并高斯函数步骤如下:

1、求dmax=max{dij,kl},(i0j0,k0l0)=argmax{dij,kl},如果dmax<ε,表明这两个高斯空间分离度较小,应予以合并,反之,不需要合并,合并过程结束。

2、利用这两个高斯函数(i0j0,k0l0)的训练数据构建一个新的高斯函数gnew,分别计算如果更接近gnew,表示gnew描述更多一些,完成以下操作:

a)删除d中与对应的行、列;(d的尺寸将减1)

b)用gnew替换d中的并更新对应的元素当k=k0时,l≠l0。即用gnew替换重新计算与相关的距离度量。

c)在gnew后增加的组成信息。其顺序表明组成成分的合并顺序。

3、如果以固定数量的因子数量描述特征空间,若因子数量大于目标数量(目标数与总高斯函数数目有关),重复上述步骤。

经过实验表明,实验结果与特征空间目标数有很大关系,本实验中合并高斯函数次数m=高斯函数混合度*音频类数/t,高斯函数混合度=16,音频类数=9,t没有具体意义,经实验表明,t=16结果最佳(取值范围:2-32)。

经过上述合并过程,获得一组矢量高斯分布函数,相关信息见表2。它们代表音频样本空间;同时获得每个高斯分布函数的构成信息,形式为{(n,m,p)},其中n为gmm模型编号,而m为该gmm模型中的高斯函数编号,p为旧函数对子函数的评价概率,将子函数的均值作为旧函数的输入获得评价值。

旧函数对新函数的评价概率公式如下:

表2音频样本空间描述因子

依据表2,可以获得音频空间描述子的音频类区分能力,其相关信息表达如表3,是对表2信息的归纳,形式与表2一样,但表达的信息不同。

表3音频样本空间描述因子的区分能力

其中{(n,m,p)}表达的意义是,n为gmm模型编号,而m为该gmm型中的高斯函数的数量,p为旧函数对这m子函数的评价概率和。

进一步,在步骤s3中,通过上述高斯分布函数的合并,我们得到了表2所示的音频特征空间描述因子,每个描述因子都携带了不同音频类型特征空间的分离信息。对于某两个音频类,通过分析它们特征描述因子的分离情况,用非分离因子以及分离度小的因子构建区分模型,以便对音频给予更好的区分。

对于音频类模型gmmi与gmmk,其区分分量选取方法如下,对于gmmi的未检索因子(i,j):

1、确定包含gmmi因子(i,j)的音频空间因子gp;

2、找出因子gp中包含gmmi的所有因子(i,*),其数量为w,将这w个因子标记为“匹配”;

3、找出因子gp中包含gmmk的所有因子(k,*),其数量为v,将这w个因子标记为“匹配”;

4、如果v=0,则gmmi的w个因子(i,*)为gmmi与gmmk的区分因子,标记为“区分因子”;

5、如果v≠0,则gmmi的w个因子(i,*)与gmmk的v个因子(k,*)是空间重叠的,此时选出因子(i,*,p)和(k,*,p)中的最大p和最小p,然后将其标记为区分因子;

6、如果gmmi还有未检索因子(i,j),则重复上述过程,否则停止区分因子筛选过程。

gmmi中标记为“区分因子”的元素作为其区分模型的成分;而gmmk中标记为“区分因子”的元素及没有“匹配”的元素共同构建其区分模型的成分。

基于上述区分因子,构建这两类音频信号的区分模型:高斯函数不变,调整加权因子(归一化)。

进一步,在步骤s4中,对于待识别的音频码流,以短时帧识别为基础,构建音频事件识别,如图3所示,为识别流程图,具体识别过程如下:

1、用音频原子集对当前特征帧进行评价,得到评分序列,筛选得分最高的k个原子。

2、依据原子与音频类型的依存关系,所选定的k个原子定义可能的l个音频类型;

3、计算l个音频类型的评分,选出最高评分h1和次高评分h2。

4、计算判决的可信度

5、如果可信度c<ε,用音频类型对区分子模型对该音频段进行评分,得分高者为识别结果。

经实验表明,所选原子数目k的大小,对实验结果影响不大,本实验中k为9。

门限ε的取值与比较的类有关:在九类标注样本中随机抽取每类样本的三分之一作为实验样本,对实验样本进行识别,得每类实验样本中识别错误样本的可信度,取错误样本中可信度最大值作为该类样本的门限ε。

实验结果如下表:

0:掌声1:铃声2:小孩哭声3:引擎声4:枪炮声

5:笑声6:流水声7:说话时8:风声

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1