音视频内容检索系统及其方法

文档序号:6557145阅读:517来源:国知局
专利名称:音视频内容检索系统及其方法
技术领域
本发明关于一种音视频内容检索系统及其方法,特别是关于一种基于可信度的音视频内容检索系统及其方法。
背景技术
随着网络和多媒体技术的迅猛发展,音视频媒体的数量呈爆炸性增长,人们对数字音视频内容进行准确有效地管理和访问变得十分困难。近年来,基于内容的音视频检索出现了许多新的研究和发展方向,音视频指纹技术应运而生。音频指纹(audio fingerprinting)技术在很早以前就被提出,例如,Jaap Haitsma和Ton Kalke在2002年音乐搜索进展国际会议上发表了“一种高可靠性的音频指纹系统”(A Highly Robust Audio Fingerprinting System),这种系统通过信号处理的方法,将音频文件中每隔一段时间(例如11.6ms)的音频信号,转化为一个32比特(bit)大小的指纹(fingerprint),通过这种方法一个音频文件就可以被转换为一个指纹文件,系统在对所有的音频指纹文件做索引后,就可以快速的音频指纹检索了。与音频指纹技术原理相似,视频指纹(video fingerprinting)系统将每一帧或者几帧转化为很小的指纹(例如32比特大小),然后进行检索。例如国际专利号为 W02007/127590A2 的“Method and system for fingerprinting digital video object based on multiresolution, multirat and temporal signatures” 公开了一禾中)1^ ^言号的每帧转化为84比特或132比特的视频指纹处理方法,通过这种方法一个视频文件就可以被转换成一个很小的指纹文件。可见,现有的音视频指纹技术通常都是首先对输入的音视频内容进行指纹特征提取,然后按照指纹特征的帧序,按顺序在指纹数据库中进行倒排索引的检索。然而这种做法却存在如下问题由于音视频的码率、格式和噪声干扰,会导致指纹特征变形,影响检索效果。那么如何在指纹特征变形的情况下,依然保证检索系统的识别性能,是当前亟待解决的问题。综上所述,可知先前技术的音视频检索技术存在由于音视频码率、格式及噪声干扰导致指纹特征变形进而影响检索系统的识别性能的问题,因此实有必要提出改进的技术手段,来解决此一问题。

发明内容
为克服上述现有技术的音视频检索技术存在由于音视频码率、格式及噪声干扰导致指纹特征变形进而影响检索系统的识别性能的问题,本发明的主要目的在于提供一种基于音视频指纹可信度的音视频内容检索系统及其方法,其在指纹检索时根据指纹的可信度进行检索窗口的选择,可以大大提高检索的识别率。为达上述及其它目的,本发明一种音视频内容检索系统,至少包括接收模组,用于接收一音视频片断;
指纹特征提取模组,用于提取该音视频片断每一帧的指纹特征,获得一输入指纹序列;抗干扰程度计算模组,构建一抗干扰程度计算模型,依据该抗干扰程度计算模型计算该输入指纹序列中每帧指纹的抗干扰程度;待匹配指纹块选择模组,用于对该输入指纹序列中每帧指纹对应的待匹配指纹块进行选择;标准指纹块检索模组,对于该输入指纹序列的每一帧,依次在一标准指纹数据库中查寻当前帧指纹对应的标准指纹数据库中的位置,并获得该当前帧所在的待匹配指纹块对应的标准指纹块;以及可信度计算模组,计算该当前帧指纹所在的待匹配指纹块与该标准指纹块的差异程度,并根据差异程度判断检索结果。进一步地,该指纹特征提取模组通过计算同一帧内相邻两子带能量差分和相邻两帧同一子带的能量差分来获得每一帧的指纹特征。进一步地,每帧指纹的抗干扰程度可通过原始能量差分数值的绝对值最高的若干维来计算获得。进一步地,该抗干扰程度计算模型为
权利要求
1.一种音视频内容检索系统,至少包括接收模组,用于接收一音视频片断;指纹特征提取模组,用于提取该音视频片断每一帧的指纹特征,获得一输入指纹序列;抗干扰程度计算模组,构建一抗干扰程度计算模型,依据该抗干扰程度计算模型计算该输入指纹序列中每帧指纹的抗干扰程度;待匹配指纹块选择模组,用于对该输入指纹序列中每帧指纹对应的待匹配指纹块进行选择;标准指纹块检索模组,对该输入指纹序列的每帧指纹,在一标准指纹数据库中查询当前帧指纹对应的标准指纹数据库中的位置,并获得该当前帧所在的待匹配指纹块对应的标准指纹块;以及可信度计算模组,计算该当前帧指纹所在的待匹配指纹块与该标准指纹块的差异程度,并根据差异程度判断检索结果。
2.如权利要求1所述的音视频内容检索系统,其特征在于该指纹特征提取模组通过计算同一帧内相邻两子带能量差分和相邻两帧同一子带的能量差分来获得每一帧的指纹特征。
3.如权利要求2所述的音视频内容检索系统,其特征在于每帧指纹的抗干扰程度可通过原始能量差分数值的绝对值最高的若干维来计算获得。
4.如权利要求2所述的音视频内容检索系统,其特征在于,该抗干扰程度计算模型为
5.如权利要求4所述的音视频内容检索系统,其特征在于该输入指纹序列中的第η 个指纹对应的K个指纹块的抗干扰程度计算通过如下公式进行
6.如权利要求5所述的音视频内容检索系统,其特征在于该待匹配指纹块选择模组根据该K个指纹块的抗干扰程度选择该待匹配指纹块。
7.如权利要求6所述的音视频内容检索系统,其特征在于待匹配指纹块选择模组根据该K个指纹块的抗干扰程度选择抗干扰程度最大的指纹块作为待匹配指纹块。
8.如权利要求7所述的音视频内容检索系统,其特征在于该差异程度用比特位错误率表示,其计算公式如下比特位错误率=指纹块中不同的比特个数/指纹块中比特位个数。
9.如权利要求8所述的音视频内容检索系统,其特征在于该可信度计算模组判断出该比特位错误率的值若小于一预设数值,则表示检索成功;否则则继续对该输入指纹序列的下一帧指纹进行可信度计算;若所有帧都不满足,则表示该标准指纹数据库中没有该音视频片断。
10.一种音视频内容检索方法,至少包括如下步骤接收一音视频片断;提取该音视频片断每一帧的指纹特征,获得一输入指纹序列;利用一抗干扰程度计算模型计算该输入指纹序列中每帧指纹的抗干扰程度;对该输入指纹序列的每帧指纹选择待匹配指纹块;对该输入指纹序列中的每帧指纹,在一标准指纹数据库中查询当前帧指纹对应的标准指纹输入库中的位置,并获得该当前帧指纹所在的待匹配指纹对应的标准指纹块;以及计算该带匹配指纹块与该标准指纹块的差异程度,并根据该差异程度判断检索结果。
11.如权利要求10所述的音视频内容检索方法,其特征在于,该对该输入指纹序列的每帧指纹选择待匹配指纹块的步骤进一步包括如下步骤计算第Π个指纹对应的K个指纹块的抗干扰程度,计算公式如下Robust—block ( k )■「:· η () , k = η-κ+1, η-Κ+2, ... ,η;根据该K个指纹块的抗干扰程度选择该第η个指纹对应的待匹配指纹块。
12.如权利要求11所述的音视频内容检索方法,其特征在于,该差异程度用比特位错误率表示,其计算公式如下比特位错误率=指纹块中不同的比特个数/指纹块中比特位个数。
13.如权利要求12所述的音视频内容检索方法,其特征在于,该根据该差异程度判断检索结果的步骤进一步包括若该比特位错误率的值若小于一预设数值,则表示检索成功; 否则则继续对该输入指纹序列的下一帧指纹进行可信度计算;若所有帧都不满足,则表示该标准指纹数据库中没有该音视频片断。
全文摘要
本发明公开一种音视频内容检索系统及方法,该检索方法至少包含接收一音视频片断;提取该音视频片断每一帧的指纹特征;利用一抗干扰程度计算模型计算每帧指纹的抗干扰程度;对输入指纹序列的每帧指纹选择待匹配指纹块;对该输入指纹序列中的每帧指纹,在一标准指纹数据库中查询当前帧指纹对应的标准指纹输入库中的位置,并获得该当前帧指纹所在的待匹配指纹对应的标准指纹块;以及计算该待匹配指纹块与该标准指纹块的差异程度,并根据该差异程度判断检索结果,本发明通过先计算每帧指纹的抗干扰程度,并在计算输入指纹序列与标准指纹数据库的标准指纹的差异程度时,选择抗干扰程度高的指纹窗,可以大大提高检索的识别率。
文档编号G06F17/30GK102214219SQ20111015142
公开日2011年10月12日 申请日期2011年6月7日 优先权日2011年6月7日
发明者张峰, 李霄寒, 黄伟 申请人:盛乐信息技术(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1