一种基于异质性准则的mp3音频属性离散化方法

文档序号：6630509阅读：232来源：国知局

专利名称：一种基于异质性准则的mp3音频属性离散化方法
技术领域：
本发明涉及一种基于异质性准则的MP3音频属性离散化方法，主要是针对MP3音频属性特征进行基于异质性准则的离散化处理，旨在保证精确度的同时能够简化最终的离散点集合的方法。
背景技术：
属性离散化技术首先把数据集合中的连续属性值划分成若干等价类，然后在保证各个等价类内数据一致性的前提下，用不同的符号或整数值代表每个等价类，并把这些等价类作为单一的离散数据进行处理，从而达到离散化的目的。简单的说，连续属性的离散化过程就是用一些特定的符号或整数值对属性空间进行划分的过程。随着海量数据的快速发展，如何从杂乱无章有干扰的庞大数据库中挖掘有用的知识，已经成为人类对智能信息处理能力的挑战。对于某些数据挖掘方法而言，它们在进行算法设计时通常都是针对离散型的数据集，如决策树、粗糙集、关联规则等，特别是已成为粗糙集理论的主要问题之一，也是影响粗糙集理论应用的瓶颈之一。然而，在实际应用中，属性更多的是呈现连续或混合的状态，而不是单一的离散型数据，为了能够从这些含有连续属性的数据库中取得好的数据样本，得到简洁且有效的规则，挖掘出更多的有效信息，需要对连续属性进行数据预处理的离散化。本发明所提出的离散化方法解决了 MP3压缩域中连续属性离散化的问题，对每一维属性所选择出来的离散点会各不相同，是由样本属性本身以及样本类别决定的。该方法比传统的离散化方法中的“一概而论”式选择断点的方法的更加合理，能够保留各属性更多的特性。可进一步应用于MP3音频的语音识别和分类检索系统中。

发明内容
本发明的目的在于针对已有技术中存在的缺陷，提供一种基于异质性准则的MP3 音频属性离散化方法，通过提取基于M3CT域音频的主要特征，并选取基于拐点的候选断点，实现对MP3音频属性离散化处理问题。为达到上述目的，本发明的构思是先从MP3音频数据中提取MDCT系数，然后基于 JfflCT域提取音频的主要特征，作为训练样本的属性集，得到15维的特征属性输入集合，并根据拐点的性质得到连续属性的断点集合，最后通过基于异质性准则的离散化方法得到离散结果。根据上述发明构思，本发明采用的技术方案进一步完善为首先从MP3音频数据中提取MDCT系数，再分析MDCT系数的特性，根据MDCT系数的特性提取音频的主要特征(其中包括均方根RMS、谱中心距SC、边带能量比率BER、梅尔倒谱系数MFCC (12维))，作为训练样本的属性集，得到15维的特征属性输入集合，然后根据拐点的性质得到连续属性的断点集合，最后通过基于异质性准则的离散化方法得到离散结果。该方法具体包括如下步骤
1)、MP3音频特征的预处理包括对MP3帧头进行解码、边信息获取、获取主数据和缩放因子、哈夫曼解码和反量化四个部分；
2)、基于MDCT系数的音频特征提取从反量化后的MP3帧中找出每一帧两个粒度的 MDCT系数，对两个颗粒的MDCT系数按频率点求平均，构建每帧音频的MDCT谱系数，然后提取均方根RMS、谱中心距SC、边带能量比率BER、梅尔倒谱系数MFCC(12维)；
3)、候选断点的选择从连续属性的包络性质出发，将基于此包络的拐点作为属性离散化的初始候选断点，保留在不同断点区间属性变化的重要信息，提高离散化方法的适应性；
4)、设计异质量计算基于类的条件概率向量
权利要求
1.一种基于异质性准则的MP3音频属性离散化方法，其特征在于具体操作步骤如下1)、MP3音频特征的预处理包括对MP3帧头进行解码、边信息获取、获取主数据和缩放因子、哈夫曼解码和反量化；2)、基于MDCT系数的音频特征提取从反量化后的MP3帧中找出每一帧两个粒度的 MDCT系数，对两个颗粒的MDCT系数按频率点求平均，构建每帧音频的MDCT谱系数，然后提取均方根RMS、谱中心距SC、边带能量比率BER、梅尔倒谱系数MFCC ；3)、候选断点的选择从连续属性的包络性质出发，将基于此包络的拐点作为属性离散化的初始候选断点，保留在不同断点区间属性变化的重要信息，提高离散化方法的适应性；4)、设计异质量计算基于类的条件概率向量 Pw = ip }，ι4!、，…，P^，…H ，并将向量D与中间概率向量石之间的距离称为向量『的异质量我；^),以拜〗与重心概率向量S之间的距离即异质量作为衡量离散化优劣的方法；5)、异质性准则下的离散化算法根据步骤3)中的候选断点的的算法对属性集中每一维属性进行处理，并根据步骤4)中计算得到的异质量对处理后的属性集进行离散化。
2.根据权利要求1所述的基于异质性准则的MP3音频属性离散化方法，其特征在于所述步骤1)中的进行MP3音频特征的预处理具体步骤如下(1)、同步数据流和帧头信息的获取；(2)、从解码得到的帧头信息中获取边信息；(3)、提取MP3主数据和缩放因子；(4)、对MP3主数据流进行哈夫曼解码和反量化。
3.根据权利要求1所述的基于异质性准则的MP3音频属性离散化方法，其特征在于所述步骤2)中的基于MDCT系数的音频特征提取具体步骤如下(1)、构建每帧音频的MDCT系数；(2)、提取基于MDCT系数的均方根RMS、谱中心距SC、边带能量比率BER、梅尔倒谱系数 MFCC0
4.根据权利要求1所述的基于异质性准则的MP3音频属性离散化方法，其特征在于所述步骤3)中候选断点的选择具体步骤如下(1)、初始化音频特征属性集；O)、依次选取音频特征属性集中的四个顺序点形成的三个向量CD),并计算两组交叉向量的曲率；(3)、根据曲率方向的变化判断拐点是否存在；G)、循环操作，对其他条件属性，重复执行乂印1_乂印3的流程以得到每一维属性的候选断点集合。
5.根据权利要求1所述的基于异质性准则的MP3音频属性离散化方法，其特征在于所述步骤4)设计异质量具体步骤如下(1)、根据欧氏距离计算不同音频种类之间的异质量； O)、根据选择的异质量计算不同音频种类之间的异质性。
6.根据权利要求1所述的基于异质性准则的MP3音频属性离散化方法，其特征在于所述步骤5)异质性准则下的离散化算法具体步骤如下 (1)、对每一维属性集初始化断点集合； O)、根据初始化的断点集合初始化离散方案； (3)、向离散方案中添加候选断点； G)、根据是否验证所有候选断点更新离散方案；(5)、循环步骤(3)和⑷操作，直到验证完所有的初始断点集合，结束循环；(6)、得到当前属性的离散点，然后对其他条件属性，重复执行步骤(1)到步骤( 的流程以得到每一维属性的离散点。
全文摘要
本发明涉及一种基于异质性准则的MP3音频属性离散化方法。本方法直接对MP3音频进行离散化处理。首先对MP3音频特征进行预处理，然后获得每帧音频的MDCT谱系数，基于MDCT域提取音频的主要特征(其中包括边带能量比率BER、均方根RMS、谱中心距SC、梅尔倒谱系数MFCC(12维))，作为训练样本的属性集，得到15维的特征属性输入集合，最后通过基于异质性准则的离散化方法得到离散结果，实验结果表明采用本发明的离散化方法能够方便对压缩域音频属性特征优化的后续处理，为建立实用快速的音频多分类及检索系统打下基础。
文档编号G06F17/30GK102270210SQ201010612259
公开日2011年12月7日申请日期2010年12月30日优先权日2010年12月30日
发明者万旺根, 余小清, 刘军伟, 张静, 杨薇申请人:上海大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余小清;刘军伟;万旺根;张静;杨薇
技术所有人：上海大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。