一种实现数字音频自动分类的方法

文档序号：2827389阅读：410来源：国知局

一种实现数字音频自动分类的方法
【专利摘要】本发明公开了一种实现数字音频自动分类的方法，该方法具体包括：对音频信号进行预处理，所述预处理包括：预加重处理、分帧处理以及加窗处理；提取音频特征，所述音频特征包括：频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数（MFCC）和MFCC一阶差分；根据音频特征进行检索分类，找到相似音频。本发明克服了现有技术中通过采用单一的音频特征对音频进行检索所带来的误差问题，并且其计算过程简单，易于在现实中进行应用，检索的效率较高。
【专利说明】一种实现数字音频自动分类的方法
【技术领域】
[0001]本发明属于音频检索【技术领域】，具体涉及一种实现数字音频自动分类的方法的设计。
【背景技术】
[0002]如今网络媒体中存有海量的数字音频，从其中找出有相同或相似特征的文件是一件困难的事，目前普遍的做法是根据文件名称、歌手或学说人、标签等文本信息来辨别，而这样做有很大的主观性，从而使得到的结果并不准确。基于内容的音频特征抽取则能克服这些缺点，由于音频数据样本的数据量过大，并不适合直接用于自动分类，因此必须从这个数值序列中提取相应特征，常用的音频特征大致可以分成三类:时域特征、频域特征和声学感知特征。
[0003]时域特征仅仅利用音频信号在时域上的信息，在提取时不需要特别的转换，处理时间短。常见的时域特征包括:短时过零率、平均能量、自相关函数、短时平均幅度差函数等。频域特征需要将时域波形信号转换到频谱或倒谱域，然后进行计算。常见的频域特征有:频谱质心、带宽、频率等。声学感知特征是一些声学上定义的概念，考虑了人的听觉感知特点，但通常计算比较复杂。所以在现有技术中，采用不同上述三种特征实现的音频分类的方法都存在某一方面取得较好的效果，而在另一方面表现欠佳，缺少一种能够整合上述三种特征各自优点的音频分类方法。

【发明内容】

[0004]本发明的目的是为了解决现有技术中音频分类方法存在的缺点而提供一种实现数字音频自动分类的方法。
[0005]本发明的技术方案是:一种实现数字音频自动分类的方法，具体包括:
[0006]S1、对音频信号进行预处理，所述预处理包括:预加重处理、分帧处理以及加窗处理；
[0007]S2、提取音频特征，所述音频特征包括:频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数(MFCC)和MFCC —阶差分；
[0008]S3、根据音频特征进行检索分类，找到相似音频。
[0009]进一步的，所述步骤SI具体为:
[0010]S11、预加重处理: 用提升高频特性的预加重数字滤波器来实现；
[0011]S12、分帧处理:对音频信号进行分帧处理；
[0012]S13、加窗处理:设音频帧信号为X (η),窗函数为w (η),加窗后的信号为:y (η) =x (n) *w (η);其中，0 ￡η〈Ν, N为每帧的取样数。
[0013]更进一步的，所述步骤SI中的预加重处理中的预加重数字滤波器为6dB/倍频程，预加重系数取0.97，所述分帧处理中的帧长取25ms，帧移取12ms，所述加窗处理中采用汉明窗进行加窗处理。[0014]进一步的，所述步骤S2具体为:
[0015]S21、计算频谱质心,其公式具体为:
【权利要求】
1.一种实现数字音频自动分类的方法，其特征在于，具体包括: S1、对音频信号进行预处理，所述预处理包括:预加重处理、分帧处理以及加窗处理； S2、提取音频特征，所述音频特征包括:频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数(MFCC)和MFCC —阶差分； S3、根据音频特征进行检索分类，找到相似音频。
2.如权利要求1所述的一种实现数字音频自动分类的方法，其特征在于，所述步骤SI具体为: S11、预加重处理:用提升高频特性的预加重数字滤波器来实现； S12、分帧处理:对音频信号进行分帧处理； S13、加窗处理:设音频帧信号为X(η),窗函数为w (η),加窗后的信号为:y (η) =x(n)*w(η);其中，O ￡η〈Ν, N为每帧的取样数。
3.如权利要求2所述的一种实现数字音频自动分类的方法，其特征在于，所述步骤SI中的预加重处理中的预加重数字滤波器为6dB/倍频程，预加重系数取0.97，所述分帧处理中的帧长取25ms,帧移取12ms,所述加窗处理中米用汉明窗进行加窗处理。
4.如权利要求1所述的一种实现数字音频自动分类的方法，其特征在于，所述步骤S2具体为: S21、计算频谱质心，其公式具体为
5.如权利要求1所述的一种实现数字音频自动分类的方法，其特征在于，所述步骤S3具体为: S31、创建特征集合，对子特征集合进行分类器训练； S32、提取音频特征，对音频进行分类； S33、检索相似音频。
【文档编号】G10L15/08GK103854646SQ201410120865
【公开日】2014年6月11日申请日期:2014年3月27日优先权日:2014年3月27日
【发明者】陈科, 李世旭申请人:成都康赛信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈科;李世旭
技术所有人：成都康赛信息技术有限公司
我是此专利的发明人

上一篇：基于变步长自然梯度算法的语音信号盲分离方法
上一篇：编码装置、解码装置、编码方法以及解码方法