一种阶梯式音频检索方法

文档序号:8395953阅读:494来源:国知局
一种阶梯式音频检索方法
【技术领域】
[0001] 本发明属于基于内容的音频指纹检索领域,具体是基于飞利浦音频指纹和 Bag-of-Features (BoF)算法的一种阶梯式音频检索方法。
【背景技术】
[0002] 随着新世纪以来互联网在全世界范围的广泛普及、音频编解码技术的迅猛发展以 及高容量存储介质的诞生,网络中的数字音频资源数量呈现指数级别的增长。海量的网络 数字音频资源给人们带来极大便利的同时,由于现阶段互联网数字音频管理体系和版权保 护制度的不规范和不完善,网络用户可以随意上传或下载数字音频资源甚至对音频内容进 行更改,这在无形中严重侵犯了数字音频资源版权拥有者的合法权益。
[0003] 目前主要的音频检索方法分为基于文本和基于内容两大类,而基于内容的音频检 索已成为近年来国内外研究的热点。
[0004] 基于内容的音频指纹检索是将待检索音频指纹与音频指纹数据库中的指纹进行 相似度匹配,通过比较相似度获取检索结果的过程。
[0005] Philips(飞利浦)音频指纹是目前较常用的一种指纹。最直接的音频检索算法是 将待检索音频片段的指纹与音频库中的参考音频的指纹逐一进行相似度匹配,但这种方法 随着音频库的扩增导致检索效率完全达不到人们期待的效果。
[0006] 音频指纹通常具有高维的特性,而高维指纹的相似度匹配会引起计算和存储代价 以指数的形式增长。对待音频指纹检索带来的数据高维问题,最关键的问题是设计一种快 速准确的检索方法。
[0007] 不同的音频指纹需要依据其数据结构特征和应用场景等采取相应合适的指纹检 索算法和相似度匹配方法予以解决。目前,快速检索算法的研究方向主要有降低维度和建 立索引两类。
[0008] 降维技术的思想是通过减少指纹数据量来降低指纹相似度匹配过程中的计算量, 从而达到提商检索效率的目的。
[0009] Diamantaras和Kung提出的基于0PCA的降维技术,对流媒体的识别很有效,但存 在分类效果不理想、结果不稳定的问题。基于此,Hu等人提出了一种基于加权的w-PCA的 音频降维技术,在数据低维化方面有显著优越性,但对维数的选取较为敏感。Shen等人提出 一种求和算法,可以大幅提高检索速度,但只有当最大的特征值远大于其它特征值时适合 使用。另外,Zheng等人提出一种加权自相似性的量化方法,在检索前将多维的音频特征向 量指纹进行降维处理。Panagiotou等人针对Delta梅尔倒频谱系数或Delta色度特征使 用一种基于PCA的汇总技术进行降维后建立马尔可夫模型,有效地加速了检索过程。然而 降维技术在提高检索效率的同时,降低了指纹的精度和召回率,这与我们所要进行的检索 匹配是背道而驰的。
[0010] 索引方法的目的是通过对指纹建立索引关联,从而快速缩小检索范围,实现高效 检索。Haitsma等人对Philips指纹提出将所有可能的音频指纹建立一个快速查询表,对音 频指纹库中的指纹分别与快速查询表进行关联,可以在查询表中快速找到查询音频指纹所 关联的歌曲。但当查询音频失真时,检索性能会大幅度下降。Chen等人对该方法进行改进, 提出一种基于Fibonacci哈希的快速检索算法,可以根据内存的容量调整哈希表的大小, 有效地节省了内存。Kurth等人提出将音频指纹用量化码本的形式建立索引,可以显著提 高检索速度,但在构建索引时由于对特征的错误率的限制,会导致误判率升高。同时,Kurth 和Muller对CENS(chromaenergynormalizedstatistics)特征结合多种容错和排列机 制、以及多次查询的策略提出一种基于倒排序文件索引的检索方法。Vitola等人对频率特 征使用一种哈希函数提取指纹,并使用哈希编号来划分检索空间,在并行体系结构中具有 较高的扩展性。然而建立索引需要花费额外的存储空间,随着音频数据量的不断增大,这将 会是一个很严重的问题。

【发明内容】

[0011] 为了克服检索算法中降维技术在提高检索效率的同时降低指纹的精度以及建立 索引需要花费额外的存储空间的不足,本发明提供高效的一种阶梯式音频检索方法,可以 在不降低精度的前提下减少计算量,实现效率的提高,且减少内存的使用。
[0012] 本发明解决其技术问题所采用的技术方案是: 1、 建立音频原始指纹库; 2、 使用FibonacciHash(斐波那契哈希)算法,对原始指纹库建立哈希索引表; 3、 将原始指纹库经过B0F算法转换成中间指纹库; 4、 对中间指纹库进行三次筛选; 所述三次筛选为第一次筛选、第二次筛选、第三次筛选; 第一次筛选采用斐波那契哈希过滤; 第二次筛选、第三次筛选:均采用基于阈值的固定间隔抽样匹配方法过滤; 5、 将第三次筛选出的结果所对应的原始指纹与检索音频原始指纹采用飞利浦算法进 行精确匹配,获得最终检索结果; 本发明根据Philips(飞利浦)音频指纹和Bag-of-Features(B0F)技术,设计了一种 数据量较小的中间指纹,用来快速过滤不相似音频。同时设计了一种基于阈值的固定间隔 抽样匹配方法,在使用待检索音频片段的指纹与库中音频进行匹配时,由于假定待检索音 频片段长度小于库中音频,每隔一段距离进行一次匹配,并在每次匹配过程中,只匹配相距 固定间隔的子指纹,根据阈值判断其相似性,可以减少匹配次数,加快检索匹配速度。
[0013]加入斐波那契哈希算法,可以根据内存的大小来调整生成索引的大小,减少存储 空间的过度使用。
[0014] 本发明在进行音频快速检索时,可以达到在不降低精度的前提下减少计算量,实 现效率的提_,并可以减少内存的使用。
[0015] 所述基于阈值的固定间隔抽样匹配方法如下: ① 子指纹数量阈值:若待检索音频片段的中间指纹总帧数小于参考音频的中间指纹总 帧数,则判定参考音频为可能结果; ② 单帧距离阈值a和平均距离阈值若待检索音频片段的中间指纹的单帧距离^ 小于单帧距离阈值a,或前队帧的平均距离Eei/队小于平均距离阈值6时,直接判定参 考音频为可能结果;计算时采用固定间隔抽样匹配方法;a和6均为大于〇的整数A为大 于零的整数,范围〇-Nm/Q;Nm为待检索音频片段中间指纹的总帧数,Nm为大于零的整数;Q是 一个常数,Q为1-Nm,每间隔Q帧进行一次相似度匹配;Nm/Q为待检索音频片段的中间指纹 需要进行相似度匹配的总次数; ③ 累积距离阈值0和累积次数阈值Q:即在过程②中,累计前m帧子中间指纹的距离 em,若em小于P,或m未达到Q时,则判定参考音频为可能结果;P和Q均为大于0的 整数;m为大于零的整数,范围O-N^/Q;其中I为待检索音频片段中间指纹的总帧数,I为 大于零的整数;Q是一个常数,Q为1-Nm,每间隔Q帧进行一次相似度匹配;Nm/Q为待检索音 频片段的中间指纹需要进行相似度匹配的总次数; ④ 前t帧相似度阈值y:即使用原始指纹每次滑窗匹配时,先对比前t帧指纹的相似 度St,当St>Y时,判定参考音频为可能结果,计算整体指纹的相似度Sv ;y、St和Sv均为大 于〇的实数;计算时采用固定间隔抽样匹配方法;t为大于零的整数,范围0-N/Q;其中N。 为待检索音频片段原始指纹的总帧数,N。为大于零的整数;Q是一个常数,范围1-N。,每间 隔Q帧进行一次相似度匹配;N/Q为待检索音频片段的原始指纹需要进行相似度匹配的总 次数; ⑤ 累积相似度阈值n:即在过程④中,累计前n帧原始指纹的相似度en,若en〈n, 判定参考音频为可能结果;n和en均为大于〇的实数;n为大于零的整数,范围〇-N/Q; 其中N。为待检索音频片段原始指纹的总帧数;Q是一个常数,范围1-N。,每间隔Q帧进行一 次相似度匹配;N/Q为待检索音频片段的原始指纹需要进行相似度匹配的总次数; ⑥ 滑动间隔阈值e:即当指纹间相似度低于滑动间隔阈值e时,增加滑动次数,再进 行相似度匹配;e为大于〇的实数。
[0016]所述的固定间隔抽样匹配方法如下: 对于长度为N帧的待检索音频片段,首先在参考音频上选取长度为N帧的音频片段。针 对两个片段,对每间隔Q帧,取一个子指纹计算其相似度(Q是一个常数,范围1-N)。(N为 大于零的整数)若相似度达到单帧距离阈值a,或前队帧的平均距离达到平均距离阈值心 或前t帧相似度阈值Y,再向后滑窗,在参考音频上选取另一端长度为N帧的音频片段,重 复上述判断过程。直到判断不满足阈值而停止,或者滑窗到音频结尾,求出音频的整体相似 度,完成一次匹配。
[0017] 以上基于阈值的固定间隔抽样匹配方法应用在中间指纹和原始指纹的过滤检索 过程中,进行快速相似判定,可以达到更加高效的检索效果。
【附图说明】
[0018] 图1是本发明的检索
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1