通过匹配取得的指纹来匹配数据对象的制作方法

文档序号:2819085阅读:161来源:国知局
专利名称:通过匹配取得的指纹来匹配数据对象的制作方法
技术领域
本发明涉及一种用于匹配指纹的方法和设备。
背景技术
指纹技术被用于识别媒体内容(比如音频或视频)。音频或视频片断通过从其中提取指纹来识别,并且在数据库中查找所提取的指纹,在该数据库中存储已知内容的指纹。如果所提取指纹和存储指纹之间被认为有足够的相似性时,该内容被识别。
多媒体指纹的最初目的是一种建立两个多媒体对象之间的感知等同的有效机制不是通过比较对象本身(典型地较大),而是比较相关联地指纹(设计得较小)。在多数使用指纹技术的系统中,大量多媒体对象的指纹与其相关的元数据(例如在歌曲信息的情况下,艺术家的名字、标题和唱片)一同存储在数据库中。指纹作为元数据的索引。随即通过计算指纹并且将其在指纹/元数据数据库中作为查询来取得未识别多媒体内容的元数据。使用指纹而不是多媒体内容本身的优点在三个方面减小了对内存/存储器的要求因为指纹相对较小;有效的比较因为知觉不相关性已经从指纹中去除;以及有效的查找因为被查找的数据组较小。
指纹可被认为是对象的简短摘要。因此,指纹函数可映射包含大量比特的对象X到仅有有限几个比特的指纹F。指纹系统有五个主要参数鲁棒性,可靠性,指纹尺寸,颗粒度以及查找速度(或缩放性)。
系统的鲁棒性程度决定当呈现信号退化的情况下,特定对象是否可从指纹中正确识别。为了达到高鲁棒性,指纹F应当基于知觉特征,其对于信号退化是不变的(至少在某个程度上)。优选的,严重的退化信号将仍产生类似于原始未退化信号的指纹的指纹。“误拒绝率”(FRR)通常用来表示指纹系统的鲁棒性的尺度。当知觉相似的对象的指纹过于不同而导致肯定的鉴别就会产生误拒绝。
指纹系统的可靠性指对象多久被错误识别一次。换句话说,可靠性涉及“误接受率”(FAR)——即两个不同对象被错误宣告为相同的概率。
显然,指纹尺寸对于任何指纹系统都很重要。通常,指纹尺寸越小,就有越多的指纹可被存储在数据库中。指纹尺寸经常以比特每秒来表示并且很大程度上取决于需要用于指纹数据库服务器的内存资源。
颗粒度是一个取决于应用的参数,并且其涉及为了识别对象,对象的特定取样需要有多长(大)。
查找速度(或缩放性),顾名思义,指用于在指纹数据库中找到指纹所需要的时间。
上述五个基本参数对彼此都有很大的影响。例如,为了达到较低的颗粒度,需要提取较大的指纹来获得相等的可靠性。这是因为误接受率与指纹尺寸是相反关系的事实。另一个实例当设计更鲁棒的指纹时通常将增加查找速度。
在讨论了指纹系统的基本参数后,将进行典型指纹系统的概括描述。
指纹可基于从原始音频或视频信号中提取的特征向量。这些向量可关于相关的元数据(例如标题、作者等)存储在数据库中。基于未知信号的接收,特征向量被从该未知信号中提取,其随后被用作对指纹数据库的查询。如果查询特征向量和其在数据库中的最佳匹配之间的距离低于给出的阈值,那么两个对象将被宣告为等同并且返回相关的元数据即被识别的接收内容。
在匹配过程中使用的阈值是误接受率(FAR)和误拒绝率(FRR)之间的折衷。例如,增加阈值(即增加两个指纹之间可接受的“距离”而仍使这些指纹被判断为相似)会增加FAR,但同时其减小FRR。FAR和FRR之间的折衷通常通过被称为Neyman-Pearson的方式来实现。这意味着所选择的阈值是将FAR保持在预指定、可接受的水平以下的最小值。FRR不用来决定阈值,但其仅从所选择的阈值中产生。
US2002/0178410A1(Haitsma,Kalker,Baggen和Oostveen)公开了一种用于产生和匹配多媒体内容的指纹的方法和设备。在这篇文献中,第4页描述了如果取得的两个指纹模块H1和H2之间的汉明(Hamming)距离小于某个阈值T,两个3秒的音频剪辑如何被宣告为相似。
为了分析对阈值T的选择,US2002/0178410的作者假设指纹提取过程产生随机i.i.d.(独立恒等分布)的比特。然后比特误码的数量将具有参数(n,p)的二项式分布,其中n等于提取的比特数以及p(=0.5)是提取比特0或1的概率。因为n较大,二项式分布可通过具有平均值为μ=np以及标准偏移为σ=np(1-p)]]>的正态分布来近似。给出指纹模块H1,那么根据H1随机选择的指纹模块H2具有小于T=αn的误码的概率如下给出FAR=12π∫(1-2α)n∞e-x22dx=12erfc(1-2α2n)=12erfc(1-2T2n)---(1)]]>但是,实际上鲁棒的指纹沿时间轴具有高的相关性。这可能因为底层的视频序列的较大时间相关性,或者因为音频帧的重叠。音频指纹的实验显示误码比特的数量是正态分布的,但是标准偏移是在i.i.d.情况下的大约三倍。因此等式(1)被修改为包括因子3。
FAR=12erfc(1-2T32n)---(2)]]>以上的方式假设指纹之间的分布是固定的。虽然这对于某些技术来说是合理的假设,但是对于视频指纹的情况绝对不是这样。在视频指纹中,视频中“活动”的数量直接反应在指纹比特的相关性上延长的静止画面产生恒定(即非常高相关)的指纹,而“瞬间的”音频剪辑将在指纹比特之间产生非常低的相关性。这种非固定导致了在决定适当的阈值时的问题。

发明内容
本发明的实施例的目的是提出一种用于提供自适应阈值技术的配置。
根据本发明的第一方面,提供一种比较查询指纹和候选指纹的方法,该方法特征在于包括决定查询指纹和/或候选指纹的统计模式;并且在统计模式的基础上,取得阈值距离,使得查询指纹和候选指纹在该阈值距离内将被宣告为相似。
本发明的第二方面提供一种匹配查询对象和已知对象的方法,其中表示多个候选对象的多个候选指纹被预存储在数据库中,该方法包括接收作为查询对象一部分的信息信号并从中建立查询指纹以及将查询指纹和数据库中的候选指纹进行比较,该方法特征在于其进一步包括以下步骤决定查询指纹和/或候选指纹的统计模式;并且在统计模式的基础上,取得阈值距离,使得查询指纹和候选指纹在该阈值距离内将被宣告为相似。
在第一和第二方面的方法中,基于特定指纹的统计模式取得阈值提供了自适应阈值设置,其根据查询指纹类型/在任意阈值系统的应用上给出改善匹配质量的内部特征来优化F.A.R.。
优选的,如果候选指纹被发现与查询指纹相差的距离小于阈值距离,并且候选和查询指纹之间的距离小于任何其它候选指纹和查询指纹之间的距离,那么候选指纹被宣告为最佳匹配候选指纹并且由最佳匹配候选指纹所表示的候选对象以及由查询指纹所表示的查询对象被认为相同。
优选的,统计模式包括在查询指纹和/或候选指纹中执行内部相关的结果。
优选的,指纹包括二进制值并且查询指纹的统计模式通过决定对于查询指纹的转变概率q来计算,该转变概率通过决定查询指纹帧F(m,k)中有多少比特与在它们之前的指纹帧F(m,k-1)中相应的比特不同并且将转变的数量除以最大值M*(k-1)来得到,该最大值可在如果所有的指纹比特相对于它们之前的相应比特都处于相反状态时获得,其中每个指纹每帧包括M比特并且跨越K帧,其中k是帧索引号(取值范围从0到K)以及m是一帧中的比特索引号(取值范围从0到M)。
然后阈值距离T可通过以下基于希望的误接受率(FAR)的等式计算FAR=12erfc(1-2T2n1+(1-2q)2)1-(1-2q)2)---(4)]]>第三方面,本发明提供一种用于匹配查询对象和已知对象的设备,该设备包括指纹提取模块,其接收作为查询对象一部分的信息信号并从中建立查询指纹,以及指纹匹配模块,其将查询指纹和存储在数据库中的一个或多个候选指纹进行比较,该设备特征在于其进一步包括统计模块,用于决定查询指纹和/或一个或多个候选指纹的统计模式;阈值决定器,在统计模式的基础上取得阈值距离T,使得查询指纹和候选指纹在该阈值距离内将被宣告为相似;以及鉴别模块,其被配置以使得如果候选指纹被发现与查询指纹相差的距离小于阈值距离T,并且候选和查询指纹之间的距离小于任何其它候选指纹和查询指纹之间的距离,那么候选指纹被宣告为最佳匹配候选指纹并且由最佳匹配候选指纹所表示的候选对象以及由查询指纹所表示的查询对象被认为相同。


为了更好地理解本发明,并且显示相同的实施例如何被实现,将通过实例的方法参考以下附图,其中图1表示说明根据本发明实施例的具有自适应阈值的指纹识别方法的功能模块图;图2是解释根据本发明实施例的通常包括在寻找和匹配指纹中的过程的流程图;图3是说明根据本发明实施例的通常用于决定自适应阈值的方法的流程图;图4是说明根据本发明实施例的特定自适应阈值设定方法的流程图。
具体实施例方式
参见图1,表示了划分成客户端100和数据库服务器端200的功能模块图。在客户端,通过指纹提取模块110接收对象并且为对象计算查询指纹F。查询指纹F一方面传递给统计模块120并且另一方面也传递给数据库服务器端200。统计模块120决定查询指纹F的随机性/相关性的尺度(例如其决定内部相关性)并且将该信息传递给阈值决定器130。阈值决定器130基于来自模块120的信息自适应地设置阈值水平T并且将该阈值水平T传递给数据库服务器端200。
在数据库服务器端200,匹配模块210从客户端100接收查询指纹F并且在已知指纹的数据库中查找与该指纹最佳匹配的指纹。然后最佳匹配信息传递给阈值比较模块220来决定最佳匹配候选指纹是否足够接近(在阈值距离T之内)查询指纹,来决定输入对象和对应于候选指纹的匹配对象之间的一致性。在指纹F使用二进制值的情况下,阈值比较模块220可例如,比较指纹模块H1和与数据库210中的最佳匹配者相关的指纹模块H2之间的汉明距离,以检查两个模块之间的汉明距离是否在从阈值决定模块130提供给比较模块220的阈值距离T以下。鉴别模块230作出鉴别判决使得如果两个取得的指纹模块之间的汉明距离在阈值距离T以下,那么未识别的查询对象被宣告为与在数据库中发现的对象相似并且返回相关的元数据。
在以上的描述中查询指纹F和阈值T是从客户端100发送到数据库服务器端200。在此当然,应当注意的是阈值T也可在数据库服务器端200中决定,并且因此对于上述模块图的修改也是当然可行的。
现参见图2,示出了一个流程图,其解释图1的模块图的部件在查找和匹配指纹时的操作。
在步骤S100,对象取样(例如在视频的情况下一个短的“剪辑”)被接收并且基于该取样决定查询指纹。该查询指纹可根据任何适当的现有方法(比如在US2002/0178410A1中公开)来决定。在步骤S200(从路径“A”到达),用于查询指纹的阈值被根据查询指纹的特定特征(随机性/相关性)来决定。
在步骤S300,其与步骤S200同时执行,查询指纹与数据库服务器端200所保持的指纹相匹配,返回最佳匹配候选者。同样,匹配过程也可按照传统地执行,使得返回查询指纹最接近匹配者。
在步骤S300,查询指纹和最佳匹配候选者之间的“距离”将被决定,在步骤S400,其检查该“距离”是否小于步骤S200中决定的阈值距离。如果查询指纹和最佳匹配候选者之间的距离在步骤S400被发现大于阈值,那么在步骤S500中返回没有找到查询对象的匹配对象的结果。否则,如果查询指纹和最佳匹配候选指纹之间的距离在步骤S400中小于阈值距离,那么在步骤S600就宣告查询对象和数据库中关于最佳匹配候选者的对象之间的匹配。然后最佳匹配对象的元数据等将被返回给用户。
在图2中,由虚线表示的路径“A”从步骤S100指向步骤S200表示基于查询指纹来设置阈值T=T1的一种选择。但是可替换的,路径“A”也可被忽略并且阈值T=T2可基于最佳匹配候选者的特征。这种可能性由从S300到S200的可替换路径B表示。
还有一种替换,阈值T可基于查询指纹和最佳匹配候选指纹二者的特性的结合,例如将阈值设置在所取得的两个自适应阈值T1,T2之间的平均值。
图3是说明通常用于自适应地决定给定阈值的方法的流程图。
在步骤S210,接收查询候选指纹并且决定指纹随机性的尺度,然后在步骤S220根据在步骤S210找到的随机性的尺度设置阈值距离。
可从以上和关于图1的解释中理解,在比较中使用的阈值T(T1或T2)自适应于查询指纹或/和最佳匹配候选者中之一的随机性/相关性。更特别的,在对查询指纹决定阈值的情况下,查询指纹的相关性被决定并且从该相关性中计算匹配时将使用的阈值。内部相关性被发现为越不随机,那么在不对FRR产生相反作用的情况下阈值距离T就越小。
如上所述,阈值是基于查询指纹、最佳匹配指纹或二者的结合的内部相关性来决定的。在指纹是二进制并且指纹比特表现类似马尔可夫(Markov)过程的情况下,可通过自适应设置阈值来获得一种解决方法。
对自适应阈值设置问题的解决方法如图4所示。在步骤S221,决定查询的指纹的内部相关性,在步骤S222指纹的转变概率基于内部相关性决定,以及在步骤S223,同时基于转变概率(如下所解释)和希望的误接受率来自适应设置阈值距离。
设定指纹每帧包括M比特并且跨越K帧。在这种情况下,指纹可由F(m,k)表示,其中k是帧索引号(取值范围从0到K-1)以及m是一帧中的比特索引号(取值范围从0到M-1)。设定q通过(q=Pr ob[bit(m,k)≠bit(m,k-1)])表示从帧k中提取出的指纹比特不等于帧k-1中相应的指纹比特的概率。这个概率q被称为转变概率q。在相关性通过以下因子增长(相对于完全随机比特,其中q=1/2)的情况下1+(1-2q)21-(1-2q)2---(3)]]>结果是,误接受率FAR通过以下关系式描述
FAR=12erfc(1-2T2n1+(1-2q)2)1-(1-2q)2)---(4)]]>使用上述关系式来从希望FAR以及计算的转换概率q中计算自适应阈值将被概括为以下提取指纹F决定指纹F的转换概率q,如下决定多少指纹比特F(m,k)与它们之前的F(m,k-1)中的不同。
将在步骤(a)中计算的转变的数量除以理论最大值M*(k-1)来决定转换概率q=(比特转变的数量)/(M*(K-1)),该最大值可在如果对于每一帧所有的指纹比特相对于前一帧中的比特都处于相反状态时获得。
从计算的值q和使用关系式(4)的定义预约定的误接受率中决定将被用于匹配特定查询指纹F的阈值T。
通过上述,阈值T可被自适应地设置为T=T1(基于上述查询指纹的相关性)或T=T2(基于上述最佳匹配指纹的相关性),或T=T3(基于T1,T2的结合[例如T=(T1+T2)2]]>])。然后,如果汉明距离小于T,就在判定步骤中宣告底层对象是相同的。
在本发明以上的特定实例中,阈值距离基于特定查询取样或实际上特定候选取样或取样组的内部特征自适应地设置。但是,当特定实例采用随机性/相关性作为内部特征进行描述,还应当认识到其它类型的统计分布也可被应用到信息信号的某些类型上,并且因此本发明可被合理地扩展来根据任何给出的可应用“统计模式”来提供自适应阈值,预期查询取样或候选取样指纹符合该统计模式。
此外,本领域技术人员将认识到当图2到图4的流程图表示了用于实现本发明的一种配置,其它的配置也是可能的。例如,除了在图2的步骤S300中返回单个的最佳匹配候选者之外,阈值距离之内的多个接近的匹配候选者可被返回并同时处理(或次之按序列处理)来由此计算“最佳”匹配。本发明也可使用被称为“修剪”技术来应用,其中如果很明显它们不可能匹配那么数据库中的某些候选者可被立即丢弃——然后查找/匹配可在大大减小的查找空间中进行。
根据本发明的实施例,公开了用于设置自适应阈值的方法和设备,其中阈值取决于指纹的特定特征。该特定方法非常适用于匹配视频内容,但是不限于此。所描述的技术可应用到多种不同的技术领域和多种不同的信号类型,包括但是不限于音频信号、视频信号、多媒体信号。
本领域技术人员将认识到上述过程可通过软件、硬件或任何适用的结合来实现。
总之,本发明设计用于指纹匹配的方法和设备。本发明设备的一个实施例包括提供指纹提取模块(110),指纹匹配模块(210),统计模块(120)和鉴别模块。指纹提取模块(110),其接收作为查询对象一部分的信息信号并建立查询指纹。指纹匹配模块(210),其将查询指纹和存储在数据库(215)中的候选指纹进行比较来找到至少一个可能的最佳匹配候选者。同时,统计模块决定查询指纹的统计模式从而,例如决定查询指纹的统计分布。阈值决定器(120),在查询指纹的分布的基础上被配置以取得自适应阈值距离T,使得查询指纹和可能最佳匹配候选者在该阈值距离内将被鉴别模块(130)宣告为相似。通过根据查询指纹的统计分布以自适应方式设置阈值,可达到改善的误接受率F.A.R.和其它优点。
权利要求
1.一种比较查询指纹和候选指纹的方法,该方法特征在于包括决定查询指纹和/或候选指纹的统计模式,并且在统计模式的基础上,取得阈值距离,使得查询指纹和候选指纹在该阈值距离内将被宣告为相似。
2.一种匹配查询对象和已知对象的方法,其中表示多个候选对象的多个候选指纹被预存储在数据库中,该方法包括接收作为查询对象一部分的信息信号并从中建立查询指纹,以及将查询指纹和数据库中的候选指纹进行比较,该方法特征在于其进一步包括以下步骤决定查询指纹和/或候选指纹的统计模式;并且在统计模式的基础上,取得阈值距离,使得查询指纹和候选指纹在该阈值距离内将被宣告为相似。
3.如权利要求1或2所述的方法,其中如果候选指纹被发现与查询指纹相差的距离小于阈值距离,并且候选和查询指纹之间的距离小于任何其它候选指纹和查询指纹之间的距离,那么候选指纹被宣告为最佳匹配候选指纹,并且由最佳匹配候选指纹所表示的候选对象以及由查询指纹所表示的查询对象被认为相同。
4.如权利要求1、2或3所述的方法,其中统计模式包括在查询指纹和/或候选指纹中执行内部相关的结果。
5.如权利要求4所述的方法,其中指纹包括多个包括二进制值的帧并且查询指纹的统计模式通过决定对于查询指纹的转变概率q来计算,该转变概率通过决定查询指纹的一帧F(m,k)中有多少比特与在它们之前的指纹帧F(m,k-1)中相应的比特不同,并且将转变的数量除以最大值M*(k-1)来得到,该最大值可在如果所有的指纹比特相对于它们之前的相应比特都处于相反状态时获得,其中每个指纹包括每帧M比特并且跨越K帧,其中k是帧索引号(取值范围从0到K)以及m是一帧中的比特索引号(取值范围从0到M)。
6.如权利要求5所述的方法,其中阈值距离T可通过以下基于希望的误接受率(FAR)的等式计算FAR=12erfc(1-2T2n1+(1-2q)21-(1-2q)2)]]>
7.一种用于匹配查询对象和已知对象的设备,该设备包括指纹提取模块(110),其接收作为查询对象一部分的信息信号并从中建立查询指纹,以及指纹匹配模块(210),其将查询指纹和存储在数据库(215)中的一个或多个候选指纹进行比较,该设备特征在于其进一步包括统计模块(120),用于决定查询指纹和/或一个或多个候选指纹的统计模式;阈值决定器(120),在统计模式的基础上取得阈值距离T,使得查询指纹和可能最佳匹配候选指纹在该阈值距离内将被宣告为相似;以及鉴别模块(230),其被配置以使得如果候选指纹被发现与查询指纹相差的距离小于阈值距离T,并且候选和查询指纹之间的距离小于任何其它候选指纹和查询指纹之间的距离,那么候选指纹被宣告为最佳匹配候选指纹,并且由最佳匹配候选指纹所表示的候选对象以及由查询指纹所表示的查询对象被认为相同。
8.如权利要求7所述的设备,其中统计模块(120)在查询指纹和/或一个或多个候选指纹中执行内部相关。
9.如权利要求8所述的方法,其中指纹包括多个包括二进制值的帧并且统计模块(120)通过决定对于查询指纹的转变概率q来计算查询指纹或/和候选指纹的统计模式,该转变概率通过决定查询指纹的一帧F(m,k)中有多少比特与在它们之前的指纹帧F(m,k-1)中相应的比特不同,并且将转变的数量除以最大值M*(k-1)来得到,该最大值可在如果所有的指纹比特相对于它们之前的相应比特都处于相反状态时获得,其中每个指纹每帧包括M比特并且跨越K帧,其中k是帧索引号(取值范围从0到K)以及m是一帧中的比特索引号(取值范围从0到M)。
10.如权利要求9所述的方法,其中阈值决定器(130)可通过以下基于希望的误接受率(FAR)的等式计算阈值距离TFAR=12erfc(1-2T2n1+(1-2q)21-(1-2q)2)]]>
全文摘要
本发明涉及一种用于通过提取和比较所述数据对象的指纹来匹配查询数据对象和候选数据对象的方法和设备。在本发明设备的实施例中包括提供指纹提取模块(110),指纹匹配模块(210),统计模块(120)和鉴别模块。指纹提取模块(110)接收作为查询对象一部分的信息信号并建立查询指纹。指纹匹配模块(210)比较查询指纹和存储在数据库(215)中的候选指纹来找到至少可能的最佳匹配候选者。同时,统计模块决定查询指纹的统计模式从而,例如决定查询指纹中的某些信息的统计分布。阈值决定器(120),在查询指纹的分布的基础上被配置以取得自适应阈值距离T,使得查询指纹和可能最佳匹配候选者在该阈值距离内将被鉴别模块(130)宣告为相似。通过设置取决于从查询和/或候选指纹中取得的统计数据的阈值,可达到改善的误接受率F.A.R.。
文档编号G10L25/48GK1882984SQ200480033941
公开日2006年12月20日 申请日期2004年11月8日 优先权日2003年11月18日
发明者J·C·乌斯特维恩, A·A·C·M·卡尔克, J·A·海特斯马 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1