使用多搜索组合改善音频/视频指纹搜索精确度的制作方法

文档序号:6477466阅读:202来源:国知局
专利名称:使用多搜索组合改善音频/视频指纹搜索精确度的制作方法
技术领域
本发明涉及音频和视频指紋。更具体而言,本发明涉及改善指紋搜索精确性的精确度。
背景技术
随着数字内容的快速增长,越发需要对内容进行合适的管理和定位。一种未来应用是识别已知内容库内的音频或视频剪辑
(excerpt)。这在监视因特网上内容的非法下载/传输中可以是有用的。它还可用于提供对用户所收听或观看以及感兴趣但不知道其标题或作者信息的内容的智能访问。例如,用户可将蜂窝电话放在当前播放歌曲的扬声器前,并且使蜂窝电话运营商的软件找到歌曲标题、它的艺术家和专辑信息等。
这样的识别功能通常通过这样的步骤来实现,即,首先生成被设计用于唯一地识别音频和视频信号的特征信息(称为指紋),然后,在来自库/数据库的指紋与来自搜索查询中的剪辑的指紋之间,执行某种形式的模式匹配检索。这样的数据库通常采用搜索树的形式来实现,不过其他数据结构也是可以的。 一般而言,每一个指紋对应于音频或视频的某个分段(segment)。这样,2秒音频指紋将对应于2秒音频分段。 一般将指紋实现为通常被称为签名的特征信息小块的串接(concatenation)。例如,2秒指紋可由200个10毫秒
(ms)长的签名组成,其中,每一个签名由10 ms的新音频或视频信息计算得出。因此,指紋的模式匹配是对相应签名进行比较的处
理。这在图l中被示出,该图显示由签名创建指紋。
为了执行在来自查询剪辑的指紋与来自数据库的指紋之间的合适的模式匹配,关键是在比较期间在二者之间具有合适的时间对准。为了确保这样,通常将开始于每一个可能时间偏移的所有指紋都添加到数据库,以便保证它们中的至少 一个具有足够接近查询指紋的时间
对准。如果签名为IO ms长,则在2秒滑动窗口上的每10 ms都对2秒指紋进行偏移,然后将其添加到数据库。在图1中也对此进行图示,在该情形中,它在连续指紋之间产生99.5%重叠,不过通常需要有这样的冗余以确保好的搜索性能。对于不足10 ms (或通常为每一个签名的持续时间)的任何剩余时间对准,良好设计的指紋生成方法应选择在定时方面更近的任何签名,以便更好与来自查询的相应签名相匹配。简而言之,指紋搜索系统的目标是发现与查询指紋的相应的配对物(counterpart)指紋,如果才艮本就存在时间不对准,那么该配对应将其对于查询指紋的时间不对准最小化。
因为查询剪辑可能已经经历某些编辑或处理步骤(如使用蜂窝电话再次捕获由扬声器播放的声音),所以捕获的音频/视频信号中可存在某些失真。结果,得到的指紋也可相对于数据库中的它们的配对物(假设存在配对物)轻微地变化。
剪辑中的失真的可能性意味着在这样搜索中的最佳匹配通常不是完全相同的匹配,而是最接近的匹配的形式。为定义最接近的匹酉己,H《^C4两+才旨纟丈《)、司^1^:^f 1 (measure )。例如,普遍使用的差异量度为汉明(Hamming)距离,也就是,在来自查询剪辑的指紋与来自数据库的指紋之间的差异位数。利用该差异量度定义,从而匹配最接近的相应标准是来自数据库的指紋与来自查询剪辑的指紋具有最小汉明距离。通常将两个指紋之间的汉明距离除以指紋位数称为误码率(BER) 。 BER是相对差异量度的例子。当来自剪辑的指紋与其配对物之间的BER小时,最小汉明距离标准工作良好。然而,当BER增大时,生成最小汉明距离的搜索结果愈发不能找到真正的配对物。幸运的是,在大多数指紋搜索应用中,仅有必要识别正确的音频/视频片,而不必识别相应的分段。但是当BER进一步增大时,搜索结果可能甚至找到错误的音频/视频片,更不用说该片内正确的分段了。 BER取决于查询剪辑中失真的级别和指紋提取方法相对于这种失真的健壮性。
此外,剪辑有可能不属于数据库中的任何片。例如,剪辑可为新的合成音乐的录音。由于没有搜索算法能够事先(在不被告知的条件下)知道剪辑是否属于数据库,它能做的最佳方案仍然是应用最小汉明距离的相同标准,不过预期在该情形中找到的最小汉明距离与源自数据库的剪辑的最小汉明距离相比将会不同得更多(优选更高),并且使用 一些阈值来确定该剪辑是否来自数据库。
因此,在单个搜索操作(其中,仅使用一个查询指紋搜索数据
库)之后,在应用任何阈值(例如,根据BER)之前,存在三种可能的结果
1、 该剪辑属于数椐库,搜索返回正确的音频/视频片(找到正确的片就足够了,在此不必找到正确的配对物分段)。
2、 该剪辑属于数据库,搜索返回错误的音频/视频片。
3、 该剪辑不属于数据库,并且因为搜索总是返回一些音频/视频片,所以回答总是错误的。
图2显示单个搜索的三个不同可能结果的BER分布例子。这些结果中的每一个都将生成BER的相应概率-密度-函数(PDF)分布。如图2所示,对于良好设计的指纟丈提取算法,第一结果的BER通常会比第二和第三结果的BER小。
然而,如果第二和笫三结果的BER具有非常相似的PDF分
布,则将会难以区分属于数据库但具有错误搜索结果的剪辑与不属于数据库的剪辑。此外,对于源自数据库的片而言,在应用诸如
CODEC压缩的普通音频/视频失真之后,在应用任何BER阈值之前,取决于指紋持续时间和失真类型,通常实施方式的搜索结果正确(就识别正确的片而言)的范围通常从90到99%。其效果良好,不过当然希望获得更高级别的精确性,并且在应用BER阈值(如在图2中,BER-0.2)之后,正确搜索结果的比率仅轻微下降,因为将结果1的BER分布的尾部丢弃,以避免错误地过多拾取结果2的头部分布。这意味着,在单个搜索中,仅调节(tweak) BER阈值不能导
6致非常高(如99.9%)的精确性。


图l是可生成特定类型指紋的方式的示意性例子。
图2显示概率-密度-函数(PDF)的理想例子,所述概率-密度-函数(PDF)为对于单个指紋匹配搜索的三个可能结果中的每一个可得出的误码率(BER)的函数。
图3是关于三个搜索使用多数表决的指紋-匹配搜索结果组合的例子的示意性概念。
图4a是对于三个搜索的指紋-匹配搜索结果的例子的示意性概念,其中,对于三个潜在匹配的其中两个而言,时间位置是一致的。
图4b表示对于三个搜索的指紋-匹配搜索结果例子的示意性概念,其中,对于三个潜在匹配的其中两个而言,时间位置不一致。
图5是可将置信级别映射(map)成误码率(BER)的函数的方式的例子。
图6是可用于理解确定在指紋查询的时间与数据库中找到的指紋的时间之间的相对时间位置的 一种使用线性回归的方式的理想例子。
图7是可将置信级别映射为在指紋查询的时间与数据库中找到的指紋的时间之间的相对时间位置的时间差的函数的方式的例子。

发明内容
根据本发明的方面,用于识别音频和/或视频信息的分段的方法包括,在所述分段中多个间隔开的时间位置中的每一个时间位置处,获得查询指紋;对于每一个这样的查询指紋,在数据库中搜索潜在匹配的指紋;对于每一个这样的查询指紋,获得与数据库中所找到的指紋潜在匹配的置信级别;以及将搜索潜在匹配的结果组合,其中,对每一个潜在匹配结果以各自的置信级别进行加权。
置信级别可作为以下至少一项或两项的函数(1)查询指紋与所找到的指紋之间的差异量度,以及(2)在查询指紋的时间位置与 所找到的指紋的时间位置之间的相对定时关系。差异量度可基于汉明 距离,或其相对差异变化量(如误码率),或者,它可基于其中获得 在构成指紋的向量的每一个维度上的差异的绝对值的p次幂之和的p 次根的Lp范数。Lp范数度量度可为其中获得差异的绝对值的平方 之和的平方根的L2范数差异量度。作为又一可选方案,可通过自相 关获得差异量度,其中,相关值表示匹配的接近度。
置信级別可为以下至少一项或两项的函数中的每一个的各置信 级别的组合(1)查询指紋和所找到的指紋之间的差异量度,以及 (2 )在查询指紋的时间位置与所找到的指紋的时间位置之间的相对 定时关系。各置信级别的组合例如可为各置信级别的总和、或者各置 信级别的乘积。
置信级别可为至少在查询指紋的时间位置与在数据库中所找到 的潜在匹配指紋的时间位置之间的相对定时关系的函数,在该情形 中,存在至少三个间隔开的时间位置。
在音频和/或视频信息分段中的间隔开的时间位置可以被间隔 开,以最小化查询指紋之中或之间的相关性。
可存在间隔开的时间位置的多个集合,关于每一个这样的集
合,将搜索潜在匹配的结果組合。可在每一个集合内将搜索结果组
合,然后可将这样组合的结果进一步进行组合。备选地,可以跨所有
集合对搜索结果进行组合。
在数据库中的指紋可具有关于所述音频和/或视频信息的相关元
数据。这样的元数据可至少包括音频和/或视频信息的片标题。
以基本相同的方式,在所述多个间隔开的时间位置的每一个位 置处,可获得查询指紋。
对来自多个搜索的结果进行组合的简单而又有用的方法是多数 表决。例如,如图3所示,如果执行三个搜索,其中有两个返回片 A, 一个返回片B,则得出结论,最终搜索结果应该是片A。如果获 得三个不同的回答片A、片B和片C,则不会有多数胜出者,回答是不确定。在此情形中,最好是得出剪辑不属于数据库的结论,因为 如果它真的属于,那么三个搜索将给出三个不同的结果是相对地不可 能的。
使用后面所示伪代码所示出的多数表决(其中获得超过半数投 票的片胜出),或实施者希望的任何表决方案(例如,具有最多投票
且无并列者(tie)的片胜出),可将此推广到任意数量的搜索。应使 用概率分析将表决方案设计成使得正确回答数量最大,错误回答数量 最小。例如,对于源自数据库的片,如果单个搜索有98%精确度, 则仅若三个搜索中至少有两个错误的情况下,利用多数表决组合三个 搜索才会得出错误结论,其为3x0.98x0.022+0,023*1.2xl03,从而,组 合精确度应几乎为99.9%。该概率分析假设每一个搜索都独立于其他 搜索,即,搜索之间不相关。
使用多数表决的搜索组合的示例性伪代码可表示如下
N-3;
分别在剪辑的时间t, t+d[11,…,t+d[N-l处进行N个指纹搜索; If (大于N/2个搜索返回相同的片A)
返回片A Else
返回"剪辑不属于数据库"
在图3中的时间间隔d[l,d[2,…,用于在不同位置处执行搜 索, 一般而言,将它们选择为使得其相应搜索分段之间的重叠最小, 以便减小在搜索结果之间的任何不希望的相关。如果出现无结论的投 票的情形,组合处理还可与多个搜索的附加迭代级连,或者仅考虑在 新迭代中的投票,或者将先前投票中的一些或所有与实施者选择的投 票方案进行组合。
像多数表决这样的简单方案看起来将能够给出非常好的结果。 以上例子给出几乎99.9%的精确度,但当在搜索中存在强突发性200880018885.0
(burstiness)或错误的相关性时,实际精确度可能仅比最初的98% 稍好一点如果一个搜索给出错误结果,在附近时间位置处的搜索也 同样可能给出错误的结果,且往往给出相同的错误结果。例如由于音 频/视频的某些区域(如视频中的高运动分段或安静的音频信号)对 失真(分别为低比特率压缩或背景噪音)较为敏感,则会出现这样的 情形。这将误导多数判决算法在它没有发现正确的答案时认为它发现 了正确的答案。另外,如果片不属于数据库,还必须处理多于一个搜 索可能返回同样片的情形,因为它将导致错误的多数胜出者。
通过采用本发明的方面,即便存在这样的突发错误,也可以提 高精确度。例如通过不仅将来自每一个搜索结果的片的标题信息、并 且将诸如所发现的分段在所发现的片内的时间位置之类的附属信息与 搜索结果的BER进行组合,就可实现它。例如,在图4 (a)中,如 果三个搜索中的两个返回片A,这两个搜索分段的时间位置差5秒, 则在这两个搜索结果中所发现的分段的时间位置也应差5秒(或在一 定误差容限内)。如果这还不满意的话,如图4 (b)中所示,兀乎 肯定这是错误的多数胜出者。这是公平的假设,因为如果搜索返回错 误片,它几乎肯定是由于它碰巧是生成最小汉明距离的结果的意外事 件引起的。因此,所发现分段的时间位置应该是相对随机的,而非确 定的。从而,两个错误搜索导致返回相同错误片和一对始终接近的时 间位置的概率是相当低的。通过对正确和错误搜索结果的时间位置的 PDF分布进行分析,能够估计出确切的概率。
将该比较推广到N个搜索,它意味着在这些搜索的时间位置之 间的差异对这些查询与搜索结果还应该是相同的或接近的。然而,为 了较易于在软件中实施该比较,可计算在原始片和在搜索结果中的剪 辑的时间位置之间的偏移(即,差异),在图4 (a)和4 (b)中该
值被称为t。ffset。第一搜索和第二搜索的偏移分别为t。ffsetj。 t。ffset,2。 对于每一对返回相同片的搜索结果,可以计算它们的t。ffset之间的差
异。然后,对于实现最小差异的对,如果这样的最小差异小于某个阈
值(如,0.2秒),则可将其片标题视为最终回答。这在以下用于使用附属信息的搜索组合的伪代码中被示出,其中,Min_t_offset—dist 为最小差异,而候选者(Candidate)表示对于哪个(对)搜索实现 了该最小化。具有0.2秒的示例值的阈值(LA^^用于确定结果是否足 以置信。
使用t。ffset附属信息进行搜索组合的示例性伪代码可表示如下 N=3;
分别在剪辑的时间t, t+dl], ..., t+d[N-l处进行N个指紋搜索; Min_t—offset_dist=min(t0|fSet,i-t。ffset,j, 其中,search[i.piece==search[j.piece, i<j); Candidate=argimin(t。ffSet,i-toffsct,j, 其中,searchi].piece==searchjj.piece, i<j) d—A=0.2;
If (Min_t_offset—dist< d—A && Candidate有大于N/2的投票)
返回 search[Candidate].piece Else
返回"剪辑不属于数据库"
在以上伪代码中,"search[i]"表示来自第i次搜索的结果, "search[i].piece"为找到的片的标识信息(如其标题)。如下所述, 使用附属信息定时信息的更普遍方式采用时间量度tdistanee而非
t。ffset。
对于大的N次搜索,如果更多搜索返回相同片(倘若结果是正 确的),则显然Min—t—offset—dist的值会较小。例如,其他所有都相 同,五个采样之中的最小值肯定比三个采样中的最小值小。从而,除 d—A夕卜,我们可以定义更多阈值(例如,d—B, d_C),这取决于多 少搜索返回相同的片。依此方式,可基于多数表决信息(有多少搜索 返回相同的片)智能地使用附属信息(在该例子中为t。ffset),并且
ii实现更高的精确性。
如果查询材料已经经历一些速度提升或速度下降,在收音机节 目中有时出现这样的情形,查询指紋之间的间隔与来自搜索结果的指 紋之间的间隔将不再相同。而是它们将会相对于查询指紋之间的间隔 慢慢漂移开。为处理该情形,可确定查询指紋之间的间隔决不会导致 t。ffset的偏差超过阈值(如d—A)。或者,如果投票数量足够的话,可 观测查询指紋与来自搜索结果的指紋之间的定时相关,这应产生斜率
(slope)稍高或低于1的线性趋势,这取决于它是经历速度提升或 者速度下降(假设不会有任何其他失真会导致在来自搜索结果的指紋 的定时中出现差错)。那么,可使用线性趋势的置信度量(如基于线 性回归)确定组合结果的置信度。这样的线性回归的例子示出在后面 所讨论的图6中。
类似于t。fftet的概念,如果在搜索结果中的BER非常低,这表 示非常接近的匹配,可以对结果的精确性高度置信。然而,如果 BER高,则结果较不可信。此外,当以逻辑AND方式使用不止一片 附属信息时,不限于对它们仅使用固定的阈值。例如,如果阈值d—A 最初为0.2秒,且BER阔值为120/。,而当前搜索的BER极其低(如 0.1% ),则可将阈值d—A从0.2秒放松到如具有强置信度的0.3秒。 可将其称为动态阈值。可由实施者使用概率分析确定在这样的动态阈 值中的确切的调整量,以确保因这样的动态阈值导致的错误匹配的数 量可以忽略不计。
如果在将三个搜索组合之后,结果不确定,可以执行更多搜索 并组合所有结杲,而不是放弃和声明剪辑不属于数据库。例如,在图 4(b)的情形中,可执行两次额外搜索。如果剪辑真正属于片A,但 第二个搜索不知何故返回错误时间位置,则通过两个额外搜索,这两
个搜索中的一个很有可能还将会返回具有正确时间位置的片A。然 而,当组合5个搜索时,表决方案的定义变得更加复杂。在筒化实施 方式的例子中,按照在以上伪代码中使用"min"和"argmin"操作符的 方式,可以将在时间位置方面最一致、且返回相同的片的两个搜索(5个搜索中的)定义为胜出者。
从而,根据本发明的方面,可通过将来自多个搜索的结果进行 组合,来改善指紋搜索精确度。优选是,根据本发明的其他方面,智 能地将这样的结果进行组合。
在上述的本发明的方面中,采用基于搜索结果中的可用信息的 表决类型来改善指紋搜索精确度。主要可用信息为搜索片(查询剪 辑)的(预料的)标题。可在组合结果中实质上改善精确度的附属可
用信息包括诸如t。ffset (如上所述)或tdistance、以及距离量度(如
BER)的参数。参数tdistance表示在查询片和所找到的片之间的时间 位置的线性度时间位置越接近直线(可由线性回归获得),对结果
的匹配就越应该置信。在后面还结合图6进一步描述参数tdistance。
类似地,由汉明距离得出的BER表示所找到的片多么不同于查 询片。BER越高,它们彼此就越不同,而BER越低,它们彼此就较 少不同而较多相似。所有其他的都相同时,相比于具有较高BER的 匹配,更应该置信具有较低BER的匹配。
因此,附属信息的值表现出对其相应搜索结果的置信度。在此 概括性描述的智能組合它们的一种方法是在組合结果的期间使用附 属信息的各单个值的置信级别作为权重。图5显示置信级别作为 BER的函数的例子。可将该函数称为/KBER)。
尽管在先前例子中将BER映射到置信级别,但是该差异量度对 本发明而言并不关键的,而是还可使用其他形式的差异量度。可将指 紋视为数字的向量。在汉明距离和BER的情形中,其被视为二进制 数的向量,即,二进制向量。这种向量的每一个维度仅为一位,不过 可以想到二进制之外的数字的指紋向量,并且甚至对于不同的维度, 每一个维度的大小可以不同,不过这应该可^f皮预见到。从而,更普遍 而言,差异量度可为这样的Lp范数度量,其中,获得在构成指紋的 向量的每一个维度上的距离的绝对值的p次幂之和的p次根。BER 基于汉明距离,其为Ll范数差异量度(在每一个维度处的差异的绝 对值之和,其中,每一个维度为1位)。还可为L2范数差异量度(在此获得差异的绝对值的平方之和的根),不过当每一个维度为1位时,L2范数类似于Ll范数。还可存在自动相关的差异量度,其 中,较高的值表示较接近的匹配。类似地,可测量在数据库中潜在匹配查询指紋的时间位置i 巨其 预测(例如,通过线性回归)的预料的位置有多远。如图6所示,其 中,timequery是查询指紋的时间位置,而timef。und是在所找到的片中 潜在地匹配指紋的时间位置,在图6中将这两个值的对显示为菱形。 然后,对这些菱形点执行线性回归。每一个菱形点距其最终线性回归 预测(直线)的偏差被称为时间位置距离或tdistance,如图6中竖线所 示。然后,如图7所示,可将该距离映射到置信级别。我们可将该函 数称为,(tdistanee)。可采用任何合适类型的线性回归。在执行线性回 归之前,或作为线性回归处理的一部分,可采用用于去除非正常值 (outlier)的各种技术中的任一种。如上所述,tdi^ee参数是t。ffset参数的更普遍化的形式。使用Wfset参数的例子被示出在图4a和图4b中。它测量查询剪辑中的时间位置与匹配中相应时间位置之间的偏移。如果连续指紋匹配正确, 则它应该大致是恒定的,但是当不存在速度提升或速度下降时不一定非要接近o值(因为查询材料的绝对时间不确定)。参数tdistance更 一般化,如图6所示。测量采样点(其X和Y坐标分别为查询剪辑 及匹配项中的时间位置)与通过各种合适形式的线性回归中的任一种 获得的直线之间的垂直距离。如果tdistance参数对应于好的匹配,那么预料tdistanee参数接近于0。关于tdist獄e的该想法在即便存在速度提 升或速度下降时也起作用,因为它使用线性回归,且不像t。ffset参数 那样假设线性回归的斜率为1。还应注意,由于t。ffset参数假设斜率为 1,有可能对仅两个时间位置检查到t。ffset的一致性。然而,当使用 tdistanee时,由于不假设斜率为1,需要至少三个时间位置以获得非平凡的(non-trivial)线性回归(虽然如果需要,可使用至少两个时间 位置来获得线性回归,然后丢弃离斜率1太远的任何斜率)。注意,在图7中,置信级别与图5中相比会更快速下降。这是由于在典型实施方式中预期BER的容限(tolerance)可以相对地 高,而tdistance的任何非平凡量是结果不可靠得多的指示。此外,由 于两个点总生成完美地通过它们的线,所以仅当存在三个或更多个点
时,才应该考虑使用基于tdistanee的置信级别。
作为例子,根据本发明的方面,在以下伪代码中显示用于智能
地组合置信级别和确定搜索结果的过程(procedure)。
可将用于组合置信级别和确定搜索结果的示例性伪代码表示如

For (在结果中的独特的片的集合中的X) { For (其中searchi.piece==X的i) { Confidencel=/B(search[iJ.BER); If (其中results[i].piece==X的集合具有>=3个点) Confidence2= yi(search[i
.t—distance); Else
Confidence2=0; TotaI_score[X}+=Confidencel + Confidence2;
挑选Total—score[X]最高的X; If (Total一scroeXp阈值)
返回"查询剪辑为片X"; Else
返回"未知查询剪辑";
如伪代码中所示,首先将BER和tdistanee映射到它们相应的置信 级别,然后将它们组合。在该例子中,组合简单地为求和操作,不过 只要组合操作对于每一个置信级别为单调不减小的函数,那么也可使 用其他操作,如相乘(则置信级别必须是非负的)。如果/fi()总是返 回1, /,()总是返回0,且可变"阈值"具有值N/2 (其中,N为进行的搜索的次数),则将伪代码中表示的程序简化为简单多数表决方案。 实际上,应该选择函数/5()和,()以使得它们将最终输出正确的概率 最大化。
具体实施例方式
可以硬件或软件、或二者的组合(例如,可编程逻辑阵列)实 现本发明。除非特别指出,包括在本发明中作为其一部分的方法或算 法并不内在地与任何特定计算机或其他装置相关。特别是,通过根据 此处给出的教导所写出的程序可使用多种通用机,或者它可更便于构 成更专用的装置(例如,集成电路)以执行需要的方法步骤。从而, 可以以在一个或多个可编程计算机系统(每一个包括至少一个处理 器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存 储元件)、至少一个输入设备或端口,以及至少一个输出设备或端 口 )上执行的一个或多个计算机程序实现本发明。将程序代码应用到 输入数据,以执行此处所述的功能,并生成输出信息。按照已知的方 式,将输出信息应用到一个或多个输出设备。
可以以任何需要的计算机语言(包括机器、汇编,或高级的面 向过程、逻辑,或对象的编程语言)实现每一个这样的程序,以与计 算机系统进行通信。在任何情形中,语言可为编译或解释性语言。
每一个这样的计算机程序最好存储在或下载到通用或专用可编 程计算机可读的存储介质或设备(例如,固态存储器或介质,或者磁 或光介质),用于在计算机系统读取存储介质或设备时配置和操作计 算机,以执行在此所描述的过程。还可考虑将本发明的系统实现为计算 机可读存储介质,其配置有计算机程序,如此配置的存储介质使得计算 机系统按照专用和预定义的方式操作,以执行此处所描述的功能。
在此描述了本发明的多个实施例。不过,应该理解,在不偏离 本发明的精神和范围的条件下,可进行多种修改。例如,上述某些步 骤可以是不依赖于顺序的,从而可按照不同于所描述的顺序执行这些 步骤。因此,其他实施例也在下面权利要求的范围内。
1权利要求
1.一种用于识别音频和/或视频信息的分段的方法,包括在所述分段中多个间隔开的时间位置中的每一个时间位置处,获得查询指纹;对于每一个这样的查询指纹,在数据库中搜索潜在匹配的指纹;对于每一个这样的查询指纹,获得与数据库中所找到的指纹的潜在匹配的置信级别;以及将搜索潜在匹配的结果组合,其中,对每一个潜在匹配结果以各自置信级别进行加权。
2. 根据权利要求1的方法,其中,置信级别为以下至少一项或 两项的函数(1)查询指紋与所找到的指紋之间的差异量度,以及(2 )在查询指紋的时间位置与所找到的指紋的时间位置之间的相对 定时关系。
3. 根据权利要求2的方法,其中,所述差异量度基于汉明距离。
4. 根据权利要求3的方法,其中,所述差异量度为误码率。
5. 根据权利要求2的方法,其中,所述差异量度为Lp范数, 在该Lp范数中,获得在构成指紋的向量的每一个维度上的距离的绝 对值的p次幂之和的p次根。
6. 根椐权利要求5的方法,其中,所述差异量度为L2范数距 离量度,在该L2范数距离量度中,获得距离的绝对值的平方之和的 平方根。
7. 根据权利要求2的方法,其中,通过自相关获得所述差异量 度,其中,相关值表示匹配的接近度。
8. 根据权利要求2-7中任一项的方法,其中,所述置信级别为 以下至少一项或两项的函数中的每一个的各置信级别的组合(1) 查询指紋和所找到的指紋之间的差异量度,以及(2)在查询指紋的时间位置与所找到的指紋的时间位置之间的相对定时关系。
9. 根据权利要求8的方法,其中,各置信级别的所述组合为各 置信级别的总和。
10. 根据权利要求8的方法,其中,各置信级别的所述组合为各 置信级别的乘积。
11. 根据权利要求1-10中任一项的方法,其中,所述时间位置 是间隔开的,以便使查询指紋之中或之间搜索结果的相关性最小化。
12. 根据权利要求1-11中任一项的方法,其中,存在间隔开的 时间位置的多个集合,关于每一个这样的集合,将搜索潜在匹配的结 果组合。
13. 根据权利要求12的方法,其中,在每一个集合内将搜索结 果组合,以及将这样组合的结果进一步进行组合。
14. 根据权利要求12的方法,其中,跨所有集合对搜索结果进 行组合。
15. 根据权利要求1-14中任一项的方法,其中,在数据库中的 指紋具有关于所述音频和/或视频信息的相关元数据。
16. 根据权利要求15的方法,其中,所述元数据至少包括音频 和/或视频信息的片标题。
17. 根据权利要求1-16中任一项的方法,其中,以基本相同的 方式,在所述多个间隔开的时间位置的每一个时间位置处,获得查询 指紋。
18. 根据权利要求2-17中任一项的方法,其中,置信级别为至 少在查询指紋的时间位置与在数据库中所找到的潜在匹配指紋的时间 位置之间的相对定时关系的函数,且存在至少三个间隔开的时间位 置。
19. 一种适于执行根据权利要求1 - 18中任一项的方法的装置。
20. —种存储在计算机可读介质上的计算机程序,用于使计算机 执行根据权利要求1 - 18中任一项的方法。
全文摘要
一种用于识别音频和/或视频信息的分段的方法,包括在所述分段中多个间隔开的时间位置的每一个时间位置处获得查询指纹;对于每一个这样的查询指纹,在数据库中搜索潜在匹配的指纹;对于每一个这样的查询指纹,获得与数据库中所找到的指纹的潜在匹配的置信级别;以及将搜索潜在匹配的结果组合,其中,对每一个潜在匹配结果以各自置信级别进行加权。置信级别可作为以下至少一项或两项的函数(1)查询指纹与所找到的指纹之间的差异量度,以及(2)在查询指纹的时间位置与所找到的指纹的时间位置之间的相对定时关系。
文档编号G06F17/30GK101681381SQ200880018885
公开日2010年3月24日 申请日期2008年6月4日 优先权日2007年6月6日
发明者C·鲍尔, 蒋文宇 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1