一种基于沃尔什-哈达码变换的音频实时比对方法_2

文档序号:8923603阅读:来源:国知局
?,10)为划分帧特征矢量&的第r个分界点位置下标,其计算公式为
[0056] 其中L*」代表向下取整运算,得到bjr= 0, 1,2,...,10)的值分别为3, 5, 7,10, 15, 22, 31,44,63,90,128,因b,的计算与音频数据无关,可在特征提取之前进行以加快处理 速度;
[0057]S15.若帧计数器的当前计数值小于935,则转至步骤S12;
[0058]S16.生成音频特征:将各音频帧的特征矢量排列成一矩阵F= [f\,f2,f3, . . .,fM],该矩阵即为当前音频信号的特征矩阵;
[0059]S2?特征匹配:
[0060] 设待比对的两个音频信号的特征矩阵分别为F和F,将两矩阵的对应列(帧)特 征矢量进行如下比较:
[0061] S21.设fi和无分别表示第一个和第二个音频的第i帧特征矢量,计算参数h
[0063] 其中 < 代表f?和^二者中值较大者,V代表f?和二者中值较小者,阈值 为设定为120,bool(?)为二值函数,其定义为
[0064]
[0065] 以第100帧为例进行说明,当i= 100时,f1QQ= (182.45, 445. 22,480. 57,555. 50,504. 40,295. 46,212. 75, 132. 95, 129. 11, 3 3 6. 7 9 ) ;
202.28,105.56, 187.96,181.53, 590.05 );计算得到y1QQ=0;
[0066]S22?对i从1到935,计算第i帧的距离di:
[0068] 其中运算符< ?,? >为矢量的内积,| | ? | |2为矢量的2范数,即矢量各元素平方 和再开方;当i= 100时,得到第100帧的距离d1(l(l= 0 ;
[0069]S23.将待比对两个音频的所有帧的距离进行平均,得到平均值0.0002136,作为 两音频信号的距离;
[0070]S3.相似度判定:将求得的两个音频信号距离除以单位距离0. 117706,得到相对 距离比0. 001815,由于该距离比小于设定的阈值Td= 0. 2,故判定两个音频信号相似。
[0071] 下面分别从比对效果和比对速度两方面来进行性能评估,将本发明方法与传统基 于MFCC音频特征、基于Philips音频指纹的两种比对方法进行比较。基于MFCC音频特征 的比对方法是提取MFCC特征,然后用欧式距离来进行特征匹配,基于Philips音频指纹的 比对方法是提取Philips音频指纹特征,然后用汉明距离来进行特征匹配。
[0072] 1?比对效果
[0073] 1)不同音频间的比对
[0074] 在原始的测试音频中,将歌曲1与其他5个音频进行比对,其得到的距离结果如表 3所示。在本发明方法、MFCC方法和Philips方法的结果中,都以歌曲1与乐曲1的比对距 离作为单位距离进行计算。
[0075] 表3歌曲1与其他不同音频之间的比对距离
[0077] 可以看到,在不同音频间进行比对时,三种方法差别不大,距离均在1左右。本发 明方法得到的距离值都大于设定的阈值Td= 0. 2,故正确判定测试音频对的音频均互不相 似。
[0078] 2)相似音频间的比对
[0079] 将歌曲1分别与其经过EQ、压缩和加噪处理后的各音频进行比对,得到的距离结 果如表4所示。
[0080] 表4歌曲1与其相似音频之间的比对距离
[0082]-可以看到,在相似音频间进行比对时,即使在音频经过一定处理后,本发明方法得 到的距离值都远小于设定的阈值Td= 0. 2,因而正确判定测试音频对的音频均互为相似音 频;另外,对比表3的结果我们看到,本发明方法得到的相似音频间的距离都远小于不同音 频间的距尚,这意味着本发明方法对相似音频具有很尚的音频识别性能。相对而目,MFCC 和Philips方法得到的距离更接近于1,即不容易区分相似音频和不同音频。特别地,在对 歌曲1与歌曲1-转32MP3音频的比对中,由于压缩失真较大,MFCC方法的距离已经超过1, Philips方法的距离也超过0. 1,而本发明方法距离几乎为0 ;同样,在被强噪声污染的情况 下,如当SNR= 0 (噪声强度等于信号强度)或SNR= -5 (噪声强度超过信号强度)时,MFCC 方法和Philips两方法都基本失效,而本发明方法仍然能比对正确。
[0083] 2?比对速度
[0084] 下面对本发明方案的运行速度进行评估。测试的程序均是由MATLAB编写,测试机 器为Intel(R)i3处理器,主频为2. 53GHz,内存为4GB。测试结果如表5所示。
[0085] 表5音频比对时间(单位:秒)
[0086]
[0087] 可以看到,本发明方法的比对速度明显快于MFCC和Philips方法,耗时约为MFCC 的5. 91 %,约为Philips的40. 63%。对30秒时长的音频数据,本发明方法用1. 28秒完成 比对,其处理的实时速度比(音频总时间/处理时间)达23. 44倍,因而程序能够对不断输 入的音频流实时地进行比对;另外本次测试仿真程序采用MATLAB编写,如将程序改用C语 言编写,其处理速度还能进一步提高。综上所述,本发明方法完全能够满足实时应用的需 求。
【主权项】
1. 一种基于沃尔什-哈达码变换的音频实时比对方法,包括以下步骤:51. 特征提取:对待比对的两个音频,分别进行以下操作: SlL预处理:将音频从原采样频率下采样到fs= 4000Hz,将下采样后的数据按固定长 度划分为各音频帧,相邻帧间有重叠,其中帧长L取为2的整数次方,即L = 2m、m为整数; 将每一帧数据排列成一列矢量,并将矢量中各元素除以列矢量中元素绝对值的最大值进 行归一化,将归一化处理后的帧数据保存在数据矩阵A中;设总的音频帧数目为M,则A = Iia1, a2, a3, · · ·,aM],其中A的每一列不第i帧的数据;512. 读取音频帧:取一帧音频ai;设定初始值为0的帧计数器,每取一音频帧,帧计数 器加1 ;513. 沃尔什-哈达码变换:对音频帧%的数据进行加窗处理,设X i代表加窗后第i帧 的帧数据,对Xi进行沃尔什-哈达码变换,得到变换后的数据y i:其中,扎为相应的L阶变换矩阵;514. 计算音频帧特征:设&代表第i帧的音频帧特征,其维数设定为Z,f产代表f ^勺 第k个元素,对k = 1,2, 3,…,Z的每个k计算其中y丨代表的第j个元素 ;b = 0, 1,2,…,Z为划分帧特征矢量&的第r个分界 点位置下标,其计算公式为其中L·」代表向下取整运算;515. 若帧计数器的当前计数值小于M,则转至步骤S12 ;516. 生成音频特征:将各音频帧的特征矢量&排列成一矩阵F = [f i,f2, f3,. . .,fM], 该矩阵即为当前音频信号的特征矩阵;52. 特征匹配: 设待比对的两个音频信号的特征矩阵分别为F和F,将两矩阵的对应列特征矢量进行 以下比较: S21.设4和1;分别表示第一个和第二个音频的第i帧特征矢量,计算参数yi:其中af代表彳和p二者中值较大者,#代表^和f二者中值较小者,Τμ*设定阈 值,bool (·)为二值函数,其定义为522. 对i从1到M,计算第i帧的距离di:其中运算符<·,*>为矢量的内积,I I · I |2为矢量的2范数,即矢量各元素平方和再 开方;523. 将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的距 离; S3.相似度判定:将求得的待比对两个音频信号距离除以单位距离得到相对距离比, 若该距离比小于设定的阈值Td,则判定两个音频信号相似,否则不相似。2. 按权利要求1所述基于沃尔什-哈达码变换的音频实时比对方法,其特征在于,所述 阈值Τμ取值范围为:100彡T 140。3. 按权利要求1所述基于沃尔什-哈达码变换的音频实时比对方法,其特征在于,所述 阈值Td取值范围为:0. 2彡T d彡0. 5。
【专利摘要】本发明属于数字音频处理技术领域,具体为一种基于沃尔什-哈达码变换的音频实时比对方法,包括步骤S1特征提取:对待比对的两个音频,分别进行预处理、读取音频帧、沃尔什-哈达码变换、计算音频帧特征、生成音频特征:将各音频帧的特征矢量fi排列成一矩阵F=[f1,f2,f3,...,fM];步骤S2特征匹配:设待比对的两个音频信号的特征矩阵F和的对应列特征矢量进行比较,将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的距离;步骤S3相似度判定。本发明具有较高的比对容错性,在音频受到噪声干扰,或进行了音效处理的等情况下均能实现正确的比对;同时,该方法算法简单、处理快速,能够广泛应用于广播电台的节目监播、广告监测和管理等。
【IPC分类】G10L25/51
【公开号】CN104900239
【申请号】CN201510244437
【发明人】甘涛, 何艳敏, 黄晓革, 兰刚, 周南
【申请人】电子科技大学, 北京英夫美迪数字技术有限公司
【公开日】2015年9月9日
【申请日】2015年5月14日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1