一种阶梯式音频检索方法

文档序号：8395953阅读：494来源：国知局

一种阶梯式音频检索方法
【技术领域】
[0001] 本发明属于基于内容的音频指纹检索领域，具体是基于飞利浦音频指纹和 Bag-of-Features (BoF)算法的一种阶梯式音频检索方法。
【背景技术】
[0002] 随着新世纪以来互联网在全世界范围的广泛普及、音频编解码技术的迅猛发展以及高容量存储介质的诞生，网络中的数字音频资源数量呈现指数级别的增长。海量的网络数字音频资源给人们带来极大便利的同时，由于现阶段互联网数字音频管理体系和版权保护制度的不规范和不完善，网络用户可以随意上传或下载数字音频资源甚至对音频内容进行更改，这在无形中严重侵犯了数字音频资源版权拥有者的合法权益。
[0003] 目前主要的音频检索方法分为基于文本和基于内容两大类，而基于内容的音频检索已成为近年来国内外研究的热点。
[0004] 基于内容的音频指纹检索是将待检索音频指纹与音频指纹数据库中的指纹进行相似度匹配，通过比较相似度获取检索结果的过程。
[0005] Philips(飞利浦)音频指纹是目前较常用的一种指纹。最直接的音频检索算法是将待检索音频片段的指纹与音频库中的参考音频的指纹逐一进行相似度匹配，但这种方法随着音频库的扩增导致检索效率完全达不到人们期待的效果。
[0006] 音频指纹通常具有高维的特性，而高维指纹的相似度匹配会引起计算和存储代价以指数的形式增长。对待音频指纹检索带来的数据高维问题，最关键的问题是设计一种快速准确的检索方法。
[0007] 不同的音频指纹需要依据其数据结构特征和应用场景等采取相应合适的指纹检索算法和相似度匹配方法予以解决。目前，快速检索算法的研究方向主要有降低维度和建立索引两类。
[0008] 降维技术的思想是通过减少指纹数据量来降低指纹相似度匹配过程中的计算量，从而达到提商检索效率的目的。
[0009] Diamantaras和Kung提出的基于0PCA的降维技术，对流媒体的识别很有效，但存在分类效果不理想、结果不稳定的问题。基于此，Hu等人提出了一种基于加权的w-PCA的音频降维技术，在数据低维化方面有显著优越性，但对维数的选取较为敏感。Shen等人提出一种求和算法，可以大幅提高检索速度，但只有当最大的特征值远大于其它特征值时适合使用。另外，Zheng等人提出一种加权自相似性的量化方法，在检索前将多维的音频特征向量指纹进行降维处理。Panagiotou等人针对Delta梅尔倒频谱系数或Delta色度特征使用一种基于PCA的汇总技术进行降维后建立马尔可夫模型，有效地加速了检索过程。然而降维技术在提高检索效率的同时，降低了指纹的精度和召回率，这与我们所要进行的检索匹配是背道而驰的。
[0010] 索引方法的目的是通过对指纹建立索引关联，从而快速缩小检索范围，实现高效检索。Haitsma等人对Philips指纹提出将所有可能的音频指纹建立一个快速查询表，对音频指纹库中的指纹分别与快速查询表进行关联，可以在查询表中快速找到查询音频指纹所关联的歌曲。但当查询音频失真时，检索性能会大幅度下降。Chen等人对该方法进行改进，提出一种基于Fibonacci哈希的快速检索算法，可以根据内存的容量调整哈希表的大小，有效地节省了内存。Kurth等人提出将音频指纹用量化码本的形式建立索引，可以显著提高检索速度，但在构建索引时由于对特征的错误率的限制，会导致误判率升高。同时，Kurth 和Muller对CENS(chromaenergynormalizedstatistics)特征结合多种容错和排列机制、以及多次查询的策略提出一种基于倒排序文件索引的检索方法。Vitola等人对频率特征使用一种哈希函数提取指纹，并使用哈希编号来划分检索空间，在并行体系结构中具有较高的扩展性。然而建立索引需要花费额外的存储空间，随着音频数据量的不断增大，这将会是一个很严重的问题。

【发明内容】

[0011] 为了克服检索算法中降维技术在提高检索效率的同时降低指纹的精度以及建立索引需要花费额外的存储空间的不足，本发明提供高效的一种阶梯式音频检索方法，可以在不降低精度的前提下减少计算量，实现效率的提高，且减少内存的使用。
[0012] 本发明解决其技术问题所采用的技术方案是： 1、建立音频原始指纹库； 2、使用FibonacciHash(斐波那契哈希）算法，对原始指纹库建立哈希索引表； 3、将原始指纹库经过B0F算法转换成中间指纹库； 4、对中间指纹库进行三次筛选；所述三次筛选为第一次筛选、第二次筛选、第三次筛选；第一次筛选采用斐波那契哈希过滤；第二次筛选、第三次筛选：均采用基于阈值的固定间隔抽样匹配方法过滤； 5、将第三次筛选出的结果所对应的原始指纹与检索音频原始指纹采用飞利浦算法进行精确匹配，获得最终检索结果；本发明根据Philips(飞利浦）音频指纹和Bag-of-Features(B0F)技术，设计了一种数据量较小的中间指纹，用来快速过滤不相似音频。同时设计了一种基于阈值的固定间隔抽样匹配方法，在使用待检索音频片段的指纹与库中音频进行匹配时，由于假定待检索音频片段长度小于库中音频，每隔一段距离进行一次匹配，并在每次匹配过程中，只匹配相距固定间隔的子指纹，根据阈值判断其相似性，可以减少匹配次数，加快检索匹配速度。
[0013]加入斐波那契哈希算法，可以根据内存的大小来调整生成索引的大小，减少存储空间的过度使用。
[0014] 本发明在进行音频快速检索时，可以达到在不降低精度的前提下减少计算量，实现效率的提_，并可以减少内存的使用。
[0015] 所述基于阈值的固定间隔抽样匹配方法如下： ① 子指纹数量阈值：若待检索音频片段的中间指纹总帧数小于参考音频的中间指纹总帧数，则判定参考音频为可能结果； ② 单帧距离阈值a和平均距离阈值若待检索音频片段的中间指纹的单帧距离^ 小于单帧距离阈值a，或前队帧的平均距离Eei/队小于平均距离阈值6时，直接判定参考音频为可能结果；计算时采用固定间隔抽样匹配方法；a和6均为大于〇的整数A为大于零的整数，范围〇-Nm/Q;Nm为待检索音频片段中间指纹的总帧数，Nm为大于零的整数；Q是一个常数，Q为1-Nm，每间隔Q帧进行一次相似度匹配；Nm/Q为待检索音频片段的中间指纹需要进行相似度匹配的总次数； ③ 累积距离阈值0和累积次数阈值Q:即在过程②中，累计前m帧子中间指纹的距离 em，若em小于P，或m未达到Q时，则判定参考音频为可能结果；P和Q均为大于0的整数;m为大于零的整数，范围O-N^/Q;其中I为待检索音频片段中间指纹的总帧数，I为大于零的整数；Q是一个常数，Q为1-Nm，每间隔Q帧进行一次相似度匹配；Nm/Q为待检索音频片段的中间指纹需要进行相似度匹配的总次数； ④ 前t帧相似度阈值y:即使用原始指纹每次滑窗匹配时，先对比前t帧指纹的相似度St，当St>Y时，判定参考音频为可能结果，计算整体指纹的相似度Sv ;y、St和Sv均为大于〇的实数；计算时采用固定间隔抽样匹配方法；t为大于零的整数，范围0-N/Q;其中N。为待检索音频片段原始指纹的总帧数，N。为大于零的整数；Q是一个常数，范围1-N。，每间隔Q帧进行一次相似度匹配；N/Q为待检索音频片段的原始指纹需要进行相似度匹配的总次数； ⑤ 累积相似度阈值n:即在过程④中，累计前n帧原始指纹的相似度en，若en〈n，判定参考音频为可能结果；n和en均为大于〇的实数；n为大于零的整数，范围〇-N/Q; 其中N。为待检索音频片段原始指纹的总帧数；Q是一个常数，范围1-N。，每间隔Q帧进行一次相似度匹配；N/Q为待检索音频片段的原始指纹需要进行相似度匹配的总次数； ⑥ 滑动间隔阈值e:即当指纹间相似度低于滑动间隔阈值e时，增加滑动次数，再进行相似度匹配；e为大于〇的实数。
[0016]所述的固定间隔抽样匹配方法如下：对于长度为N帧的待检索音频片段，首先在参考音频上选取长度为N帧的音频片段。针对两个片段，对每间隔Q帧，取一个子指纹计算其相似度（Q是一个常数，范围1-N)。（N为大于零的整数)若相似度达到单帧距离阈值a，或前队帧的平均距离达到平均距离阈值心或前t帧相似度阈值Y，再向后滑窗，在参考音频上选取另一端长度为N帧的音频片段，重复上述判断过程。直到判断不满足阈值而停止，或者滑窗到音频结尾，求出音频的整体相似度，完成一次匹配。
[0017] 以上基于阈值的固定间隔抽样匹配方法应用在中间指纹和原始指纹的过滤检索过程中，进行快速相似判定，可以达到更加高效的检索效果。
【附图说明】
[0018] 图1是本发明的检索

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：牛保宁;姚姗姗;王运生;
技术所有人：太原理工大学;
我是此专利的发明人

上一篇：基于中心人物的有权图重叠社区发现方法
上一篇：一种报表系统中英文表名字段名映射系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。