一种抗变速干扰的采样计数音频检索方法与流程

文档序号:15386084发布日期:2018-09-08 00:34阅读:146来源:国知局

本发明涉及音频检索领域,特别是涉及一种抗变速干扰的采样计数音频检索方法。



背景技术:

随着新世纪以来互联网在全世界范围的广泛普及、音频编解码技术的迅猛发展以及高容量存储介质的诞生,网络中的数字音频资源数量呈现指数级别的增长。海量的网络数字音频资源给人们带来极大便利的同时,由于现阶段互联网数字音频管理体系和版权保护制度的不规范和不完善,网络用户可以随意上传或下载数字音频资源甚至对音频内容进行更改,这在无形中严重侵犯了数字音频资源版权拥有者的合法权益。

目前主要的音频检索方法分为基于文本和基于内容两大类,而基于内容的音频检索已成为近年来国内外研究的热点。基于内容的音频指纹检索是将待检索音频指纹与音频指纹数据库中的指纹进行相似度匹配,通过比较相似度获取检索结果的过程。

首先,音频指纹是检索准确的基础。提取具有强代表性,高区分性和好鲁棒性的指纹是准确检索的前提,但是没有一种音频指纹对所有类型的噪声干扰都鲁邦。philips指纹和shazam指纹是两类典型的指纹代表。许多后续提出的指纹都是根据这两种指纹的核心思想——基于类philips指纹的频段能量或者类shazam指纹的频谱峰值信息——进行改进的。philips指纹无法抵抗大于±4%的变速干扰。joe等人将这一比例提高到±10%。这是类philips指纹的常见问题。quads是类shazam指纹中最新的代表,它可以抵抗极其严重的变速干扰,但在gsm压缩干扰下表现不佳。

随着大数据时代的到来,保持音频检索系统在应对大规模的音频数据时的高效和精确是一项挑战。采样技术方法(samplingandcounting,sc)和quad是目前解决这个问题的高效的两种音频检索方法。sc通过对子指纹采样和对匹配值计数来确保其高效性,这可以快速滤除大多数不相关的音频,得到一个比原始数据库小很多的候选音频集,来应对后续极为耗时的精确匹配。该策略利用了philips指纹的特性——连续子指纹的重叠率高达31/32。但是,sc也继承了philips指纹的缺点,不可抵抗变速干扰。quad通过使用quads指纹可以抵抗变速。但是由于quads没有连续子指纹重叠的特性,quad不能像sc那样使用采样策略来提高检索效率。因此,性能比sc差,尤其是在查询短音频片段时。另外quad也很难应对gsm压缩。



技术实现要素:

本发明主要为解决现有问题的不足之处而提供一种抗变速干扰的采样计数音频检索方法。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种抗变速干扰的采样计数音频检索方法,该方法的步骤包括:提取参考音频的指纹,建立音频指纹库,并对音频指纹库中音频的指纹建立fibonacci哈希索引表;提取待检索音频的音频指纹,并在音频指纹库的哈希索引表中进行索引检索,利用采样计数方法过滤不相似音频片段,确定待检索音频片段的候选序号集;在候选序号集对应的指纹中,用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配,获取最终检索结果。

其中,用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配的步骤包括:利用转折点判别方法找到待检索音频片段中的所有转折点,生成转折点判别表;利用转折点判别方法找到参考音频中的转折点;利用基于lsh的转折点对齐方法将参考音频中的转折点与转折点判别表对比,得到转折点匹配对;利用阈值过滤方法来筛选和统计转折点匹配对,得到最终的匹配结果。

其中,音频指纹为飞利浦音频指纹。

其中,利用转折点判别方法找到待检索音频片段中的所有判别点,生成判别表的步骤包括:识别飞利浦指纹的每一32位的二进制子指纹;依次比较飞利浦音频子指纹序列中相邻的两个二进制子指纹,若相邻的两个子指纹高位比特值发生变化,则视为转折点并记录位置。

其中,在利用基于lsh的转折点对齐方法将参考音频中的转折点与转折点判别表对比,得到转折点匹配对的步骤中,基于lsh的转折点对齐方法的步骤包括:

将待检索音频和候选序号集中音频的转折点处的子指纹分别分割成4个8位的子串,将转折点处两个连续的子指纹对应位置的8位连成一个16位的子串,形成4个字串,若待检索音频子指纹和候选序号集中音频的子指纹4个子串中任何一个能匹配成功,则得到一个转折点匹配对。

其中,在利用阈值过滤方法来筛选和统计转折点匹配对,得到最终的匹配结果的步骤中,阈值过滤方法的步骤包括:

设定转折点阈值δno,用以判断一首音频中的某处是否出现转折点;若相邻两个子指纹变化的最高位大于δno,则认为是转折点;

设定转折点误差阈值δerr用以判断待检索音频和候选序号集中的音频的转折点是否匹配;给定待检索音频aq的转折点tq处的两个子指纹fqi-1和fqi,以及候选序号集中的音频ar的转折点tr处的两个子指纹fri-1和fri,tq和tr的转折点误差定义为fqi-1和fri-1,以及fqi和fri之间的比特误差之和,若小于δerr,则认为<tq,tr>匹配;其中,δerr是大于0的整数,范围0-64;

设定序列异常过滤阈值εseq,用以对任意两个匹配对<tq-1,tr-1>和<tq,tr>,按tq由小到大排列,若=(tr-tr-1)/(tq-tq-1)为负数或者大于,则认为序列异常,不列入进一步的考虑范围;其中,是大于0的实数;

设定速率限制阈值εrate,音频的速率变化超过速率限制阈值εrate时,听觉感受差,筛除超过此范围的音频;其中,εrate是大于0的实数,范围0-2;

设定序列长度阈值εlength和序列权重阈值μrate,用以将剩余的匹配对排列形成序列;所述序列中匹配对个数不能小于εlength;并且匹配对个数需要大于匹配对总数乘以μrate;其中,εlength是大于0的整数,μrate是大于0的实数,范围0-1;

设定相似度权重阈值μsim和相似度过滤阈值εsim,用以由转折点计算的待检索音频片段和参考音频的相似度为stp=1-64ntp/nerr;其中,ntp表示转折点的个数,是大于0的整数;nerr表示所有转折点的相邻两个子指纹的比特误差之和,是大于0的整数,范围0-64ntp。

其中,在用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配的步骤之前,还包括步骤:在候选序号集对应的音频指纹中,用基于阈值的固定间隔抽样匹配方法对待检索音频片段的指纹进行精确匹配,获取检索结果。

其中,基于阈值的固定间隔抽样匹配方法的步骤包括:对于包含n个子指纹的待检索音频指纹,在参考音频上选取长度为n的指纹片段;针对选取的两个片段,对每间隔q帧,分别取一个子指纹并计算相似度;其中q是一个范围1-n的常数,n为大于零的整数;若相似度不满足所设定的阈值,再向后滑窗,在参考音频上选取另一段长度为n帧的音频片段,重复上述判断过程;直到判断满足相似度阈值而停止,或者滑窗到音频结尾,求出音频的整体相似度,完成一次匹配。

区别于现有技术,本发明的抗变速干扰的采样计数音频检索方法的步骤包括:提取参考音频的指纹,建立音频指纹库,并对音频指纹库中音频的指纹建立fibonacci哈希索引表;提取待检索音频的音频指纹,并在音频指纹库的哈希索引表中进行索引检索,利用采样计数方法过滤不相似音频片段,确定待检索音频片段的候选序号集;在候选序号集对应的指纹中,用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配,获取最终检索结果。通过本发明,能够克服现有检索方法中philips音频指纹无法抵抗变速干扰的不足,在保持检索效率和对各种噪声干扰鲁邦的前提下,增加对变速干扰的抵抗性。

附图说明

图1是本发明提供的一种抗变速干扰的采样计数音频检索方法的流程示意图。

图2是本发明提供的一种抗变速干扰的采样计数音频检索方法的本发明的检索系统逻辑示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

参阅图1,图1是本发明提供的一种抗变速干扰的采样计数音频检索方法的流程示意图。该方法的步骤包括:

s110:提取参考音频的指纹,建立音频指纹库,并对音频指纹库中音频的指纹建立fibonacci哈希索引表。

在本发明中,通过使用斐波那契哈希算法,可以根据内存的大小来调整生成索引的大小,减少存储空间的过度使用。

s120:提取待检索音频的音频指纹,并在音频指纹库的哈希索引表中进行索引检索,利用采样计数方法过滤不相似音频片段,确定待检索音频片段的候选序号集。

加入sc(采样技术)方法,可以快速过滤掉大量不相似音频,得到结果候选集。

s130:在候选序号集对应的指纹中,用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配,获取最终检索结果。

本发明在进行音频快速检索时,可以达到在不降低精度和检索效率的前提下,扩充检索能力,得到待检索音频片段属于变速干扰类的检索结果。

所述转折点对齐匹配方法包括下述内容:

(1)利用转折点判别方法找到待检索音频片段中的所有转折点,生成判别表;

(2)利用转折点判别方法找到候选参考音频中的转折点;

(3)利用基于lsh的转折点对齐方法将候选参考音频中的转折点与转折点判别表对比,得到转折点匹配对;

(4)利用阈值过滤方法来筛选和统计转折点匹配对,得到最终的匹配结果;

所述转折点判别方法如下:

在对大量指纹进行了可视化分析之后,如果将philips指纹的32位二进制序列转换成10进制数,并且按照顺序画成图像,则干扰前后的音频有着极为相似的波形走向,且变换前后的对应关系在波形陡峭变换的点处表现明显。我们将这些点定义为转折点,即philips指纹的32位二进制子指纹序列转换成10进制数并按照顺序画成图像后波形陡峭变换的点,包含变化前后的两个相邻子指纹。而转折点的出现是由于两个连续子指纹之间变化的比特位出现在较高位。观察发现一般子指纹变化的最高位出现在第26位是临界转折点。大于26时转折明显;小于26波形平稳。因此只需要依次比较音频子指纹序列中相邻的两个子指纹,若高27-32位中有位变化,则视为转折点并记录其位置。

所述基于lsh的转折点对齐方法如下:

将32位子指纹分割成4个8位的子串,将转折点处两个连续的子指纹对应位置的8位连成一个16位的子串,只要4个子串有任何一个能匹配成功,则可以认为得到了一个转折点匹配对。

所述阈值过滤内容如下:

①转折点阈值δno:用来判断一首音频中的某处是否出现转折点。若两个子指纹变化的最高位大于δno,则认为是转折点;δno为26;

②转折点误差阈值δerr:用来判断两首音频中的某两个转折点是否匹配;给定待检索音频aq的转折点tq处的两个子指纹fqi-1和fqi,以及参考音频ar的转折点tr处的两个子指纹fri-1和fri,tq和tr的转折点误差定义为fqi-1和fri-1,以及fqi和fri之间的比特误差之和,若小于δerr,则认为<tq,tr>匹配;δerr是大于0的整数,范围0-64;

③序列异常过滤阈值εseq:对于任意两个匹配对<tq-1,tr-1>和<tq,tr>,按tq由小到大排列,若=(tr-tr-1)/(tq-tq-1)为负数或者大于εseq,则认为序列异常,不列入进一步的考虑范围;εseq是大于0的实数;

④速率限制阈值εrate:音频的速率变化超过2倍通常来说会提供一个较差的听觉感受,因此此文不考虑超过此范围的音频;εrate是大于0的实数,范围0-2;

⑤序列长度阈值εlength和序列权重阈值μrate:在排除前述异常匹配对之后,剩余匹配对形成序列;首先序列中匹配对个数不能小于εlength;并且匹配对个数需要大于匹配对总数乘以μrate;其中,εlength是大于0的整数,μrate是大于0的实数,范围0-1。

⑥相似度权重阈值μsim和相似度过滤阈值εsim:由转折点计算的待检索音频片段和参考音频的相似度为stp=1-64ntp/nerr;其中,ntp表示转折点的个数,是大于0的整数;nerr表示所有转折点的相邻两个子指纹的比特误差之和,是大于0的整数,范围0-64ntp。

在用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配的步骤之前,还包括步骤:在候选序号集对应的音频指纹中,用基于阈值的固定间隔抽样匹配方法对待检索音频片段的指纹进行精确匹配,获取检索结果。

待检索音频片段与候选参考音频的子指纹的相似度用比特误差率(ber)来判断。

similarity=1-a/b

其中,a代表匹配过程中不相同位的个数,b代表匹配过程中用到的待检索音频片段指纹的长度。

以上转折点对齐匹配方法,包括转折点判别方法、基于lsh的转折点对齐方法和阈值过滤,应用在待检索音频片段的精确匹配中,可以抵抗变速干扰造成的指纹序列无法对齐,实现对变速干扰音频的检索。

具体的,首先生成待检索音频的匹配表,存储结构为<key,no,tq>。

依次比较待检索音频aq子指纹序列中相邻的两个子指纹fqi-1和fqi,若满足转折点阈值δno,则:

(1)分别取fqi-1和fqi对应的4个8位子串sq(i-1)j和sqij连成4个16位子串;

(2)将fqi在整个序列中的位置标号i记录在这4个16位key对应的链表中,用tq表示;

(3)将16位子串属于fqi的次序标号j(范围0-3,3代表高位)记录在各自对应的链表中,用no表示。

然后与第二步骤生成的候选集中的音频进行比较并检查匹配结果。对于任一候选集中的参考音频ar,具体步骤如下:

(1)获取候选参考音频的转折点信息<16b,no,tr>,根据16位key值在匹配表中找到相应链,并选择与no一致的tq1,tq2,…,tqm。

(2)比较转折点tri-1和tqi-1,以及转折点tri和tqi处的两个连续子指纹得到比特误差值,如果比特误差小于阈值转折点误差阈值δerr,则将结果对<tq,tr>放入候选集i并按tq由小到大排序。

(3)比较候选集i中相邻的匹配对<tri-1,tqi-1>和<tri,tqi>的比值(tri-tri-1)/(tqi-tqi-1),如果该比值满足εseq,则将其放入候选集ii。

(4)在候选集ii中,计算rate=(tri-tr1)/(tqi-tq1),并找出出现次数最高的rate,若该rate不满足序列长度阈值εlength或序列权重阈值μrate,则本次比较结束。

(5)在候选集ii中找到出现次数最高的rate对应的匹配对<tq,tr>,计算相对应的连续两个子指纹的比特误差,按照相似度权重阈值μsim和相似度过滤阈值εsim得到相似度。

所述转折点判别方法只需要依次比较音频子指纹序列中相邻的两个子指纹,若高27-32位中有位变化,则视为转折点并记录其位置。

所述基于lsh的转折点对齐方法是将32位子指纹分割成4个8位的子串,并将转折点处两个连续的子指纹对应位置的8位连成一个16位的子串,只要4个子串有任何一个能匹配成功,则可以认为得到了一个转折点匹配对。

阈值过滤内容按照前述的过滤方法,对转折点阈值δno、转折点误差阈值δerr、序列异常过滤阈值εseq、速率限制阈值εrate、序列长度阈值εlength、序列权重阈值μrate、相似度权重阈值μsim和相似度过滤阈值εsim分别进行过滤。

区别于现有技术,本发明的抗变速干扰的采样计数音频检索方法的步骤包括:提取参考音频的指纹,建立音频指纹库,并对音频指纹库中音频的指纹建立fibonacci哈希索引表;提取待检索音频的音频指纹,并在音频指纹库的哈希索引表中进行索引检索,利用采样计数方法过滤不相似音频片段,确定待检索音频片段的候选序号集;在候选序号集对应的指纹中,用转折点对齐匹配方法对待检索音频片段的指纹进行精确匹配,获取最终检索结果。通过本发明,能够克服现有检索方法中philips音频指纹无法抵抗变速干扰的不足,在保持检索效率和对各种噪声干扰鲁邦的前提下,增加对变速干扰的抵抗性。

以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1