生成并检测用于同步音频和视频的指纹的方法和设备的制作方法

文档序号：7607305阅读：186来源：国知局

专利名称：生成并检测用于同步音频和视频的指纹的方法和设备的制作方法
技术领域：
本发明涉及至少两个信号之间的同步。更准确地说，本发明涉及同步第一信号(例如音频信号)和第二信号(例如视频信号)的方法和对应的设备。本发明还涉及实现音频信号和视频信号同步的方法和对应的设备。此外，本发明还涉及计算机可读介质，在其上存储了使一个或多个处理装置执行依照本发明的方法的指令。
视频流和对应的音频流的同步是一个已经受到了很多关注的难题。对这个问题已经提出并实现了很多解决方案。这些解决方案中的绝大部分都需要由熟练的操作员进行手工同步。通常操作员在图片中寻找可视线索以确定听到的声音是否与图片对应以及它们是否确实同步。当需要自动完成同步时这个问题变得要难得多。不管是在录音棚环境内还是在录音棚环境外，随着音频和视频信号的处理和发布变得更复杂，这个问题也相应地变得越来越难。下面是一个录音棚环境外的例子消费者用他的录像机记录了一段电影。他希望以原始音轨观看。因此他购买了原始音轨，原始音轨例如被通过因特网采用流送方式发送给他。现在需要在(例如)他的录像机或别的同步设备中自动同步音频和视频。
一种已有的可用来实现音频和视频流的自动同步的系统是由Tektronix销售的。在这个系统中，音频信号包络被通过水印嵌入到视频信号中。在处理链分布中的任何点上，都可以比较实际的音频包络和嵌入的音频包络，从比较中可以得出两个音频流之间的延迟。接下来，纠正音频的延迟以实现同步。但是，这个系统需要广播公司或别的经销商的合作，因为在传输之前需要在视频中嵌入水印。此外，这个系统只能将一个特定的音频流关联到视频。一旦已经嵌入了音频流的包络，该系统就只能同步视频和那个特定的音频流。为了同步其它音频流，应该先嵌入别的水印。最后，该系统仅限于音频流和视频流之间的同步。
本发明的一个目标是提供解决了上述问题的、用于生成可用于同步至少两个信号的第一和第二指纹的方法和对应设备以及用于同步两个或多个信号的对应方法和设备。进一步的目标是以简单有效的途径提供这些方法和对应设备。另一目标是能够简单、可靠、准确地定位多媒体信号的给定部分。另一目标是能够不修改第一信号和至少一个第二信号中的任何信号就实现它们之间的自动同步。
这是由实现第一和第二信号的同步的第一方法(和对应设备)以及实现两个或多个信号的同步的第二方法(和对应设备)实现的，第一个方法包括下列步骤-根据一段第一信号得出第一指纹，其中该段第一信号与第一同步时间点毫无歧义地相关，-根据一段第二信号得出第二指纹，其中该段第二信号与第二同步时间点毫无歧义地相关，以及-将该第一和第二指纹提供给同步设备。
第二个方法包括下列步骤-根据第一信号生成第一指纹流，-根据第二信号生成第二指纹流，-比较一段第一指纹流和至少一个数据库中存储的一个或多个第一指纹以确定是否存在匹配，-比较一段第二指纹流和至少一个数据库中存储的一个或多个第二指纹以确定是否存在匹配，-如果对于第一和第二指纹都存在匹配，就确定了第一信号的第一同步时间点位置和第二信号的第二同步时间点位置并用确定出的位置同步该第一和第二信号。
这样，就获得了同步至少两个信号的简单、可靠、有效的途径。此外，不用更改第一或第二信号(或后续信号)就实现了这一点。这些信号在一定程度上甚至可以被失真或改变，而由于使用了指纹，所以仍然能够实现准确的同步。
多媒体对象/内容/信号的指纹是所关注的对象/内容/信号部分的可感知特征的表示。这种指纹有时也称作“(健壮)散列”。更准确地说，一段音频或视频的指纹是在该段音频或视频之上计算出来、并且即使所涉及的内容随后被转换了代码、进行了过滤或者被更改了也基本上不会发生变化的标识符。
从属权利要求中定义了依照本发明的方法和设备的便利实施方案。
此外，本发明还涉及计算机可读介质，在其上存储了使一个或多个处理装置执行依照本发明的方法的指令。

图1a示意地图示出了用于音频和视频信号间同步的指纹对的生成；图1b示意地图示出了对按照本发明这样生成的用于同步的指纹对的检测；图2示出了依照本发明的指纹生成设备的示意框图；图3示出了依照本发明检测并使用指纹的同步设备的示意框图；图4示出了依照本发明的表/记录的一个例子；图5示出了第一信号和第二信号中的时间点之间的关系的可选实施方案；图6示出了第一和第二表示被存储在远程位置的实施方案；图7示意地且更具体地示出了在一种实施方案中如何在使用缓冲器的同步设备中实现同步。
图1a示意地图示出了用于音频和视频信号之间同步的指纹对的生成。
所示为数字或模拟第一信号101和数字或模拟第二信号103。下文中该第一信号101是音频信号，该第二信号103是视频信号。
必须在一个或多个同步时间点Tn、Tn+1上得出指纹对。这些时间点是根据至少一个预定标准选择的，例如规定一个时间点在音频和/或视频信号的开始、一个时间点在音频和/或视频信号结尾，一个时间点在中间的标准。或者，可以按照如下原则选择时间点一个时间点在开始，一个时间点是已经经过了给定时间段之后的每个点，例如每隔两分钟或两秒钟一个时间点等等。或者，可以从对基础信号自身的分析得出时间点，例如视频信号中的每个场景变化上一个时间点。根据本发明，为了实现两个信号101、103之间的同步只需要单个时间点Tn、Tn+1。但是，使用更多时间点能够进行更好的同步，例如在信号中的一个(或两个都)被截断或更改等等的情况下就是如此。利用若干时间点的一个例子是当用户如前所述已经记录了一部电影并且购买了原始音轨但已经记录下的电影带有广告时段。通过增加更多同步时间点能够得到更好的同步，在同步时间点位于或接近广告时段的终点时尤其如此。
为音频信号101的每个同步时间点Tn、Tn+1得出一个音频指纹102，并在相同的同步时间点Tn、Tn+1为视频信号得出一个视频指纹104，结果就对每个同步时间点Tn、Tn+1都有一个指纹对102、104。对于给定时间点Tn、Tn+1(音频和/或视频信号)的指纹优选地是在(基本上)从给定时间点开始的一段信号上得出的。或者，该段(基本上)可以在该给定时间点Tn、Tn+1结束，或者，该段(基本上)可以在该给定时间点Tn、Tn+1之前或之后的预定距离处开始或结束，或者该给定时间点Tn、Tn+1可以在该段的起点和终点之间的预定时间点上，或者是任意其它方案，只要在同步期间应用了相同方案来根据指纹确定该给定时间点Tn、Tn+1即可，这点将结合图1b进行更详细描述。
指纹的大小可以是预定的固定大小或者是可变大小。
国际专利申请WO 02/065782(代理人文档号PHNL010110)中说明了一种用于计算健壮指纹的方法，当然可以使用任何用于计算健壮指纹的方法。
欧洲专利申请01200505.4说明了一种为多媒体内容(例如音频剪辑，该音频剪辑被分割成连续(首选重叠)的时间间隔)生成健壮指纹的方法。对每个时间间隔，将频谱分割成频带。计算出每个频带的健壮性(例如，能量)并由各自的指纹位表示。
多媒体内容因而由以二进制值连接组成的指纹表示，每个时间间隔一个指纹。不需要在整个多媒体内容上计算指纹，而是可以在已经接收到了一定长度的一部分时进行计算。因而对一个多媒体内容可以有多个指纹，取决于在哪部分上计算指纹。
此外，从(例如)下列公开可以了解视频指纹识别算法JobOostveen，Ton Kalker，Jaap Haitsma的“Feature Extraction anda Database strategy for Video Fingerprinting”，117-128页；Shi-Kuo Chang，Zhe Chen，Suh-Yin Lee(Eds)的“Recent Advancesin Visual Information Systems”(2002年三月11-13于台湾新竹举行的第五届国际VISUAL会议论文集，Springer于2002年出版的Computer Science 2314中的讲稿)。
依照本发明，根据音频信号101的一个给定段和视频信号103位于特定时间点上或其附近的一段为每个时间点Tn、Tn+1生成一个音频指纹102和一个视频指纹104。
这样，给定指纹对102、104就是同步标志器，它能够对信号101和103的给定时间点进行非常准确和非常精确的定位，而不用使用具体时间点，相反使用(一段)信号即可。此外，不用改变信号就做到了这一点。即使对视频指纹识别来说，该定位通常也能准确到帧，至少只要视频信号的任何失真不是过于严重。
在已经生成了指纹对102、104之后，首选地将其存储在数据库、存储器、存储设备和/或类似装置中以备后用。
将多媒体信号101、103的指纹对(102、104)而不是多媒体信号自身存储在数据库中有多个优点。下面列出一些-降低了对数据库的存储器/存储设备的需求。
-指纹的比较比多媒体信号自身的比较更有效，因为指纹基本上比信号更短。
-在数据库中查找匹配指纹比查找完整的多媒体信号更有效，因为它涉及匹配更短的项目。
-查找匹配指纹更可能成功，因为对多媒体信号的小变动(例如以不同格式进行了编码或改变了位速率)都不影响指纹。
存储在数据库中的生成的指纹对102、104可以随后被(通过因特网或其它方式)分发到一个或多个同步设备，以在回放、存储之前根据本发明进行信号同步，或者进一步传输两个(已同步的)信号。
注意本发明还适用于多于两个信号的同步以及不是音频和视频的其它类型的信号的同步，只要能够获得健壮指纹即可。原则上，根据本发明可以同步任意数量的信号。这可能只需要对每个附加信号在每个时间点Tn、Tn+1有一个附加的指纹。
或者，可以对各个信号在不同时间点生成指纹对，例如可在每一个信号的25秒处生成指纹对的第一指纹，而在第二信号的第30秒处生成指纹对的第二指纹。但是，这需要每个各自的时间点(例如上述例子中的25秒和30秒)到公共时线/时帧之间有明确的关系。将结合图5更详细地说明这种可选实施方案。
图1b用示意图示出了对根据本发明生成的用于同步的这种指纹的检测。所示为(要同步的)数字或模拟第一信号101和(要同步的)数字或模拟第二信号。下文中该第一信号101是音频信号，该第二信号103是视频信号。还示出了分别根据音频信号101和视频信号103连续或基本上连续生成的第一指纹流105和第二指纹流106。或者，分段生成指纹流105、106。将每个指纹流(或段)105、106与(例如)存储在数据库中的指纹102、104进行比较以确定是否存在匹配。更准确地说，将音频指纹流105和所存储的音频指纹102进行比较，将视频指纹流106和所存储的视频指纹104进行比较。所存储的指纹102、104是按照结合图1a所说明的那样生成的，例如在中心位置上生成。所存储的指纹102、104是例如通过因特网或其它一些方法(例如从中心位置)接收到的。
当发现音频指纹流105的一段和数据库中的给定音频指纹102之间存在匹配，并且在视频指纹流106的一段和数据库中的给定视频指纹104之间也存在匹配时，即当已经找到了匹配的指纹对时，当已经根据本发明并如结合图1a所说明的那样生成了指纹102、104时也就给出了适当的同步时间点Tn、Tn+1。
根据在特定时间点Tn、Tn+1上生成音频指纹102和视频指纹104期间已经使用的方案来确定具体的同步时间点Tn、Tn+1。
优选地，特定的同步时间点Tn、Tn+1，是通过让在(根据图1a)生成指纹期间匹配的指纹对102、104最初所基于的一段音频信号101和一段视频信号103(基本上)从该给定时间点Tn、Tn+1开始而给出的。在可选实施方案中，音频信号101的那一段和视频信号103的那一段(基本上)在该给定时间点Tn、Tn+1结束，音频信号和视频信号101、103的那些段在该给定同步时间点Tn、Tn+1之前或之后的预定距离处开始或结束，或者该给定同步时间点Tn、Tn+1可以在视频信号101和音频信号103的那些段的起始和结束之间的预定时间点上。
该同步设备只需要了解生成期间所用的给定指纹和给定时间点之间的关系，这个关系可以在该同步设备的制造期间确定并实现或者是可更新的。
如前所述，在确定了区配指纹102、104之后，就知道了这对指纹的时间点Tn、Tn+1，并将它当作同步时间点，因为这个时间点直接给出了两个信号101和103之间的参考点。该同步设备随后通过例如移位两个信号中的一个使它们关于该时间点对齐而补偿它们之间的延迟(如果有的话)。
上面提到的国际专利申请WO 02/065782(代理人文档号PHNL010110)说明了用于匹配为音频剪辑计算出的指纹和数据库中存储的指纹的各种匹配策略。匹配表示未知信息信号的指纹和存储在数据库中的已识别信息的多个指纹以标识该未知信号的一种这样的方法使用了提取出的指纹位的可靠性信息。指纹位，是通过计算信息信号的特征并为所述特征设置获得指纹位的阈值而确定出的。如果一个特征的值非常接近该阈值，那么该信号中微小的变化都可能导致具有相反值的指纹位。特征值和该阈值之间的差的绝对值被用来标记各个指纹位可靠或不可靠。可靠性随后被用来改进实际的匹配过程。
这样，即使信号之一(例如视频信号)已经被以较低质量获得、被修改过(例如压缩)等等，也可以达到同步。
请注意音频信号101和/或视频信号103可以是指纹生成期间所用信号即图1a中的信号的失真版本。
如同结合图1a所述那样，可以方便地修改这个实施方案以适应多于两个信号的同步和/或非音频和/或视频的另一种类型的信号的同步。
图2示出了依照本发明的指纹生成设备的示意框图。
所示为指纹生成设备200，包括信号输入模块201、指纹采集模块202、数据库、存储器和/或类似设备203，这些装置通过总线205或类似部件在一个或多个微处理器(未示出)的控制下通信。指纹生成设备200在一种实施方案中还可以任选地包括用于通过有线和/或无线网络(例如因特网)与其它系统、设备等通信的发送器和接收器204。
信号输入模块201接收第一信号101和至少第二信号103。下文中接收到的两个信号包含了模拟或数字的音频信号和视频信号形式的多媒体内容。输入模块201将这两个信号馈送到指纹采集模块202。指纹采集模块202还接收到了将用作同步时间点的时间点(...，Tn，Tn+1，...)的表示。或者，由指纹生成设备200得出时间点。如果时间点由指纹生成设备200提供并且不是由它生成的，那么就不必向指纹生成设备200提供完整的音频信号101和完整的视频信号103。因而，只提供用于生成指纹的音频信号101和视频信号103各自的段就足够了，即每个信号对应每个时间点的一段就足够了。
发送器和接收器204还可负责接收一个或多个信号101和103并将它(们)提供给信号接收器301或者直接提供给指纹检测器302。
指纹采集模块202根据接收到的音频信号101和视频信号103计算指纹。可以为整个内容或一部分内容得出指纹。或者，几个指纹均可以从不同的部分得出。根据本发明，按照结合图1a所述，对每个时间点Tn，Tn+1得出一个指纹。或者，指纹采集模块202可以被分成两个(例如)独立的指纹模块或者由两个独立的指纹模块组成，一个模块用于得出音频指纹，一个模块用于得出视频指纹。
指纹采集模块202随后将计算出的指纹对传送给数据库203。如图4中所示，数据库203包含由视频指纹104“V_FP1”、“V_FP2”、“V_FP3”、“V_FP4”、“V_FP5”等和对应的音频指纹102“A_FP1”、“A_FP2”、“A_FP3”、“A_FP4”、“A_FP5’等组成的一列组织成的视频指纹。
可以用多种方式组织数据库203以优化查询时间和/或数据组织。设计数据库203中的表时应该考虑指纹采集模块202的输出。在图4所示的实施方案中，数据库203包含一张其表项(记录)由各自的指纹对组成的表。
如上所述，可以方便地更改这个示范实施方案以适应多于两个的信号的同步或非音频和/或视频的另一类型的信号的同步。
图3示出了根据本发明检测并使用指纹的同步设备的示意框图。
所示为同步设备300，包括信号接收器301、指纹检测器302、同步电路303、数据库、存储器和/或类似装置203，这些装置在一个或多个微处理器(未示出)的控制下通过总线205或类似部件通信。同步设备300在一种实施方案中还可任选地包括用于通过有线和/或无线网络(例如因特网)与其它系统、设备等通信的发送器和接收器204。
信号接收器301接收到第一信号101和至少第二信号103。下文中接收到的两个信号包含了要同步的模拟或数字音频信号和模拟或数字视频信号形式的多媒体内容。发送器和接收器204还可以负责接收一个或多个信号101和103并将它(们)提供给信号接收器301或者直接提供给指纹检测器302。
接收到的信号被馈送到指纹检测器302，它为每个信号得出指纹流或其的各段并按照结合图1b所述确定与数据库203中存储的指纹对是否存在匹配。如果找到了匹配，也就确定了每个信号的具体同步时间点Tn、Tn+1。每个信号的同步时间点Tn、Tn+1的具体确定，取决于生成特定时间点Tn、Tn+1上音频指纹102和视频指纹104的期间已经使用的方案。
优选地，特定的同步时间点Tn、Tn+1是通过让在(根据图1a)生成指纹期间匹配的指纹对102、104最初所基于的音频信号101的那一段和视频信号103的那一段(基本上)从该给定时间点Tn、Tn+1开始而给出的。在可选实施方案中，音频信号101的那一段和视频信号103的那一段(基本上)在该给定时间点Tn、Tn+1结束，音频信号和视频信号101、103的那些段在该给定同步时间点Tn、Tn+1之前或之后的预定距离处开始或结束，或者该给定同步时间点Tn、Tn+1可以在视频信号101和音频信号103的那些段的起始和结束之间的预定时间点上。
该同步设备只需要了解生成期间所用的给定指纹和给定时间点之间的关系，这个关系可以在该同步设备的制造期间确定并实现或者是可更新的。
如前所述，在确定了匹配指纹对102、104之后，就知道了这对指纹的每个指纹的时间点Tn、Tn+1(不过不必知道其值，而只需要知道其在音频和视频信号中的位置)，并将其当作同步时间点，因为这些时间点直接给出了两个信号101和103之间的参考点。该同步设备，随后通过例如移位两个信号中的一个或两个使它们关于该时间点对齐，来补偿它们之间的延迟或偏移量(如果有的话)。
作为一个简单的例子，假定在根据图1a的指纹生成期间信号101和103的同步时间点在5分34秒。在(根据图1a的)指纹生成期间，可以在音频信号101的5分34秒处或附近(取决于所用方案)得出一个音频指纹，并且在视频信号103的5分34秒处或附近(取决于所用方案)也可以得出一个视频指纹。随后可以存储这两个指纹并将它们发送到用于实施这两个信号间的同步的同步设备。在同步设备中，可以将音频信号的指纹流105和视频信号的指纹流106同存储的两个指纹进行比较。当在所存储的音频指纹和音频指纹流之间找到了匹配时，该指纹流中的匹配位置(例如图1b的105中的Tn)就给出了所用的同步时间点，即应该与5分34秒对应的时间点。同样，当在所存储的视频指纹和视频指纹流之间找到了匹配时，该指纹流中的匹配位置(例如图1b的106中的Tn)就给出了所用的同步时间点，即5分34秒。可以移位这两个信号，但随后可用信号中应该是5分34秒的确切位置(由与所存储的指纹匹配的指纹流的那一段给出)对齐这两个信号。甚至不需要知道或特别得出时间点(5分34秒)的具体值。需要的唯一知识是应该对齐/同步两个信号101、103的指纹匹配位置。例如，5分34秒的同步时间点可能对应于音频信号中的5分34秒(例如，因为这是在音频指纹生成期间使用的原始音轨)并对应于视频信号中的6分零3秒(例如，在该视频信号与视频指纹生成期间所用的原始视频信号相比还包括了广告时段的情况下)。然后，可以用两个时间值(6分零3秒-5分34秒＝29秒)之间的差/偏移量来补偿延迟，例如通过将回放移位以使音频信号和视频信号在同步时间点上被同时播放来进行，并且向前进(在不存在对任一信号进一步修改的情况下，例如额外的广告时段等)。
优选地，数据库203的数据布局与图4所示相一致。
如上所述，可以方便地修改这个实施方案以适应多于两个信号的同步和/或非音频和/或视频的另一种类型的信号的同步。
图4示出了依照本发明的表/记录的一个例子。所示的表包括指纹对102、104。在这个例子中，该表由两列组成，一列包括视频指纹“V_FP1”、“V_FP2”、“V_FP3”、“V_FP4”、“V_FP5”等，另一列包括各自对应的音频指纹102“A_FP1”、“A_FP2”、“A_FP3”、“A_FP4”、“A_FP5”等。
图5示出了第一和第二信号中的时间点之间关系的一种可选实施方案。所示为第一信号101和第二信号103。在这个实施方案中，还示出了第三个或参考或公共或内部时钟/时线107(以下只标示为参考时线)以更好地解释这个实施方案的原理。
在这个特定的可选实施方案的例子中，已经在值为560的第一同步时间点Tn为第一信号101生成了指纹(未示出)。第一信号101的这个特定时间点Tn与由参考时线107表示的参考时帧相关(如箭头所示)，关系到参考时线107上值为8:45:17.23的时间点(表示在Tn＝560的第一信号应该在8:45:17.23出现)。可以将第一信号101的特定时间点Tn之间的这种指示或关系的表示(即，第一表示)与生成的第一指纹相关联并存储在数据库中(例如包括所生成的指纹的数据库或者不同的数据库)，这一点将在以下解释。
此外，已经在值为1800的第二同步时间点Tm为第二信号103生成了指纹(未示出)。第二信号103的这个特定时间点Tm也与由参考时线107所示的相同参考时帧相关(如箭头所示)，关系到参考时线上值为8:45:17.18的时间点(表示在Tm＝1800处的第二信号应该在8:45:17.18出现)。可以将第二信号103的特定时间点Tm之间的这种指示或关系的表示(即，第二表示)与生成的第二指纹相关联并存储在数据库中(例如包括所生成的指纹的数据库或者不同的数据库)，这一点将在以下解释。
例如，在简单情况下，该第一和第二表示可以分别是第一和第二信号的参考时间点。在上面的例子中，值8:45:17.23然后可以被和在Tn＝560处生成的指纹存储在一起，值8:45:17.18然后可以将被和在Tm＝1800生成的指纹存储在一起。
在同步期间，依照这个实施方案的同步设备如同结合图1b所述生成第一和第二指纹流或指纹段。将每个指纹流(或段)与本地或远程数据库中存储的指纹相比较以确定是否存在匹配，也按结合图1b所述进行。当已经找到了匹配的第一和第二指纹时，那么就知道或者能够得出第一同步时间点Tn(即，上例中的560)和第二同步时间点Tm(即，上例中的1800)。然后，利用上述与参考时帧的关系的第一和第二表示就能够确定应该如何根据给定时帧来同步信号。
如上所述，可以将第一和第二表示存储在一个或多个数据库中，并且应该在同步之前将它们传送给同步设备。在一种实施方案中，第一和第二表示被直接从指纹生成设备传送给了同步设备进行存储。或者，可以将第一和第二表示传送给能够与同步设备通信的别的设备，例如一台服务器。将结合图6更详细地阐述这个实施方案。
图6示出了第一和第二表示被存储在远程位置的一种实施方案。所示为分别向音频指纹发生器202和视频指纹发生器202提供音频流和视频流的音频服务器601和视频服务器602。音频和视频指纹发生器202如同结合图2所述那样运行并且可以位于相同或两个不同的指纹发生设备200中。在这个实施方案中，生成的指纹被供应到位于(数据库)服务器600的数据库203，该服务器与同步设备300有通信连接。服务器600还接收并存储例如结合图5所述的每个音频指纹的第一表示和每个视频指纹的第二表示，即音频和视频流的时间点和公共参考时线或时帧之间的关系的表示。
同步设备300如结合图3或图5所述那样运行。它从音频和视频服务器601、602接收要同步的音频和视频流，并生成每个的指纹流或指纹段，并如前所述和表示同步时间点的预定指纹(对应于图1a和1b的102和104)进行比较。可以从指纹发生设备200(如两个虚箭头所示)或从服务器600接收到预定的指纹。如果预定的指纹是从服务器600接收到的，就节省了同步设备300中的存储，同步设备300具有的存储能力可能非常有限。优选地，还从服务器600接收到每个指纹对的第一和第二表示并用来如结合图5所述在回放之前同步音频和视频流。
所述服务器(一个或者多个)可能已经存储了若干不同音频和视频流的预定指纹和/或它们相关联的第一和第二表示。
因此，在一种实施方案中，预定指纹被存储在同步设备200上，而第一和第二表示被存储在一个或多个服务器600上。当已经检测到指纹对时，就将这一对的第一和第二表示从所述服务器(一个或者多个)发送出来，并且被用于同步设备200中。或者，可以在同步开始之前根据(例如)流ID等将给定音频和视频流的所有预定指纹的所有第一和第二表示供应给同步设备200。
在一种可选实施方案中，预定指纹以及它们相关联的第一和第二表示一起仅被存储在一个或多个服务器600。在流同步之前，例如根据流ID或类似信息将指纹和它们相关联的第一和第二表示发送到同步设备200。或者，在同步开始之前只发送指纹，并在检测到匹配指纹时，将相关联的第一和第二表示发送到同步设备200。
请注意在根据音频和视频流生成指纹和这些流被供应到到同步设备300之间通常会有一段时间。
数据库203可以是可能位于单个或多个服务器的单个数据库或多个数据库。
图7示意地且具体地示出了在一个实施方案中如何在使用缓冲器的同步设备中完成同步。所示为缓冲音频数据的缓冲器701和缓冲视频数据的缓冲器702。对于音频缓冲器701，输入指针I-P表示从音频流到达的下一个音频采样将被放在缓冲器中的位置。输出指针O-P表示将从哪里读出下一个音频采样。输出指针以同步设备的时钟所设置的步调移动到下一个位槽。
对于视频缓冲器702，所示输入指针I-P和输出指针O-P以与针对音频缓冲器701所述相同的方式运行。
根据第一表示(例如，已经位于同步设备中或如前所述从服务器接收到)，调整(即移位)输出指针到缓冲器701中的前一个位槽或后一个位槽。
对于视频缓冲器702第二表示也是如此。
这样，根据第一和第二表示调整输出指针并由此以非常简单的方式同步输出流。
在权利要求中，放在括号中的任何附图标记都不应被看作限制本发明。词组“包括”不排除权利要求中所列部件或步骤之外的部件或步骤的存在。部件之前的“一个”不排除多个这种部件的存在。
可以通过包括若干分立部件的硬件或者适当编程的计算机实现本发明。在枚举了若干装置的设备权利要求中，这些装置中的一些可以由一个且相同的硬件项来实现。在互不相同的从属权利要求中列举了某些措施这一纯粹的事实并不表示不能够有利地来使用这些措施的组合。
权利要求
1.一种实现第一和第二信号同步的方法，该方法包括-根据一段第一信号(101)得出第一指纹(102)，该段第一信号(101)与第一同步时间点(Tn、Tn+1)毫无歧义地相关，-根据一段第二信号(103)得出第二指纹(104)，该段第二信号(103)与第二同步时间点(Tn、Tn+1、Tm)毫无歧义地相关，-将该第一和第二指纹(102、104)提供给同步设备(200、300)。
2.依照权利要求1的方法，其特征在于该方法还包括为每个给定的同步时间点(Tn、Tn+1、Tm)将得出的第一指纹(102)存储在数据库(203)中和/或将得出的第二指纹(104)存储在相同数据库(203)中或者存储在另一个数据库(203)中。
3.依照权利要求1-2的方法，其特征在于该第一指纹(102)和该第二指纹(104)被通过因特网或其它装置发送到同步设备(300)。
4.依照权利要求1-3的方法，其特征在于该段第一信号(101)和/或该段第二信号(103)与该第一和/或第二同步时间点(Tn、Tn+1、Tm)根据如下方案毫无歧义地相关-该段第一信号(101)和/或该段第二信号(103)基本上在该第一和/或第二同步时间点(Tn、Tn+1、Tm)结束，-该段第一信号(101)和/或该段第二信号(103)基本上在该第一和/或第二同步时间点(Tn、Tn+1、Tm)开始，-该段第一信号(101)和/或该段第二信号(103)基本上在该第一和/或第二同步时间点(Tn、Tn+1、Tm)之前或之后的预定距离处开始或结束，-该第一和/或第二同步时间点(Tn、Tn+1、Tm)位于该段第一信号(101)和/或该段第二信号(103)开始和结束之间的预定时间点上。
5.依照权利要求1-4的方法，其特征于该第一同步时间点(Tn、Tn+1)和第二同步时间点(Tn、Tn+1、Tm)相同。
6.依照权利要求1-4的方法，其特征在于第一同步时间点(Tn、Tn+1)和第二同步时间点(Tn、Tn+1、Tm)不同，并且该方法包括存储该第一同步时间点(Tn、Tn+1)和参考时间(107)的第一时间点之间关系的第一表示并存储该第二同步时间点(Tn、Tn+1，Tm)和所述参考时间(107)的第二时间点之间关系的第二表示的步骤。
7.依照权利要求1-6的方法，其特征在于该方法还包括下列步骤-将该第一和/或第二表示发送到同步设备(300)，和/或-将该第一和/或第二表示发送到服务器(600)，所述服务器与同步设备(300)有通信连接，和/或-将一个或多个得出的第一指纹(102)和第二指纹(104)发送到服务器(600)。
8.一种同步两个或更多信号的方法，该方法包括下列步骤-根据第一信号(101)生成第一指纹流(105)，-根据第二信号(103)生成第二指纹流(106)，-比较一段第一指纹流(105)和至少一个数据库(203)中存储的一个或多个第一指纹(102)以便确定是否存在匹配，-比较一段第二指纹流(106)和至少一个数据库(203)中存储的一个或多个第二指纹(104)以便确定是否存在匹配，并-如果对于第一和第二指纹(102、104)都存在匹配，就确定第一信号(101)的第一同步时间点(Tn、Tn+1)的位置和第二信号(103)的第二同步时间点(Tn、Tn+1，Tm)的位置，并用确定出的位置同步该第一(101)和第二信号(103)。
9.依照权利要求8的方法，其特征在于同步步骤包括按照延迟量延迟第一信号(101)或者延迟第二信号(103)，延迟量等于第一信号(101)的第一同步时间点(Tn、Tn+1)的位置和第二信号(103)的第二同步时间点(Tn、Tn+1，Tm)的位置之间存在的差值。
10.依照权利要求8-9的方法，其特征在于第一和第二信号(101、103)的第一和/或第二同步时间点(Tn、Tn+1，Tm)的位置通过与在生成匹配第一指纹(102)和匹配第二指纹(104)期间所使用的一段第一信号(101)和/或一段第二信号(103)之间的毫无歧义的关系而给出。
11.依照权利要求8-10的方法，其特征在于该第一和第二同步时间点(Tn、Tn+1，Tm)相同。
12.依照权利要求8-10的方法，其特征在于该第一和第二同步时间点(Tn、Tn+1，Tm)不同，并且该方法还包括-如果对第一和第二指纹(102、104)都存在匹配，-获得该第一同步时间点(Tn、Tn+1)和参考时间(107)的第一时间点之间关系的第一表示，-获得该第二同步时间点(Tn、Tn+1、Tm)和所述参考时间(107)的第二时间点之间关系的第二表示，以及-用所述参考时间(107)的第一和第二时间点同步该第一(101)和第二信号(103)-否则，-如果对于第一和第二指纹(102、104)都存在匹配，就确定第一信号(101)的第一同步时间点的位置(Tn、Tn+1)和第二信号(103)的第二同步时间点的位置(Tn、Tn+1，Tm)，并用确定出的位置同步该第一(101)和第二信号(103)。
13.依照权利要求12的方法，其特征在于该方法还包括下列步骤-在同步设备(300)中从服务器(600)接收第一和/或第二表示，所述服务器与同步设备(300)有通信连接，和/或-从所述服务器(600)接收一个或多个第一指纹(102)和第二指纹(104)。
14.依照权利要求1-8或权利要求9-13的方法，其特征在于所述第一信号(101)是音频信号，所述第二信号(103)是视频信号，所述第一指纹(102)是音频指纹，所述第二指纹(104)是视频指纹。
15.一种用于同步至少两个信号的设备(200)，该设备包括指纹发生器(202)适合-根据一段第一信号(101)得出第一指纹(102)，该段第一信号(101)与第一同步时间点(Tn、Tn+1)毫无歧义地相关，-根据一段第二信号(103)得出第二指纹(104)，该段第二信号(103)与第二同步时间点(Tn、Tn+1、Tm)毫无歧义地相关。
16.依照权利要求15的设备，其特征在于该设备还包括已经存储了为每个给定同步时间点(Tn、Tn+1、Tm)得出的第一指纹(102)和/或得出的第二指纹(104)的至少一个数据库(203)。
17.依照权利要求15-16的设备，其特征在于该设备还包括发送器(204)，用于通过因特网或其它装置将该至少一个数据库(203)中的一个或多个得出的第一指纹(102)和第二指纹(104)发送到同步设备(300)。
18.依照权利要求15-17的设备，其特征在于该段第一信号(101)和/或该段第二信号(103)与该第一和/或第二同步时间点(Tn、Tn+1、Tm)按照如下方案毫无歧义地相关-该段第一信号(101)和/或该段第二信号(103)基本上在该第一和/或第二同步时间点(Tn、Tn+1、Tm)结束，-该段第一信号(101)和/或该段第二信号(103)基本上在该第一和/或第二同步时间点(Tn、Tn+1、Tm)开始，-该段第一信号(101)和/或该段第二信号(103)基本上在该第一和/或第二同步时间点(Tn、Tn+1、Tm)之前或之后的预定距离开始或结束，-该第一和/或第二同步时间点(Tn、Tn+1、Tm)位于该段第一信号(101)和/或该段第二信号(103)开始和结束之间的预定时间点上。
19.依照权利要求15-18的设备，其特征在于该第一同步时间点(Tn、Tn+1)和该第二同步时间点(Tn、Tn+1、Tm)相同。
20.依照权利要求15-18的设备，其特征在于该第一同步时间点(Tn、Tn+1)不同于该第二同步时间点(Tn、Tn+1、Tm)，并且该设备包括适合存储该第一同步时间点(Tn、Tn+1)和参考时间(107)的第一时间点之间关系的第一表示并存储该第二同步时间点(Tn、Tn+1，Tm)和所述参考时间(107)的第二时间点之间关系的第二表示的装置。
21.依照权利要求20的设备，其特征在于该设备还包括-用于将该第一和/或第二表示发送到同步设备(300)的发送器(204)，和/或-用于将该第一和/或第二表示发送到服务器(600)的发送器(204)，所述服务器(600)和同步设备(300)有通信连接，和/或-用于将一个或多个得出的第一指纹(102)和第二指纹(104)发送到服务器(600)的发送器(204)。
22.一种用于同步两个或更多信号的同步设备(300)，该设备包括-用于根据第一信号(101)生成第一指纹流(105)的装置(302)，-用于根据第二信号(103)生成第二指纹流(106)的装置(302)，-用于比较一段第一指纹流(105)和至少一个数据库(203)中存储的一个或多个第一指纹(102)以便确定是否存在匹配的装置(302)，-用于比较一段第二指纹流(106)和至少一个数据库(203)中存储的一个或多个第二指纹(104)以便确定是否存在匹配的装置(302)，和-用于如果对于第一和第二指纹(102、104)都存在匹配就确定第一信号(101)的第一同步时间点(Tn、Tn+1)的位置和第二信号(103)的第二同步时间点(Tn、Tn+1，Tm)的位置的装置(302)，和用于用确定出的位置同步该第一(101)和第二信号(103)的装置(303)。
23.依照权利要求22的设备，其特征在于用于同步的装置(303)适合按照延迟量延迟第一信号(101)或者延迟第二信号(103)，延迟量等于第一信号(101)的第一同步时间点(Tn、Tn+1)的位置和第二信号(103)的第二同步时间点(Tn、Tn+1，Tm)的位置之间存在的差值。
24.依照权利要求22-23的设备，其特征在于第一和/或第二信号(101、103)的第一和/或第二同步时间点(Tn、Tn+1，Tm)的位置通过与在生成匹配第一指纹(102)和匹配第二指纹(104)期间所使用的一段第一信号(101)和/或一段第二信号(103)之间的毫无歧义的关系而给出。
25.依照权利要求22-24的设备，其特征在于该第一和第二同步时间点(Tn、Tn+1，Tm)相同。
26.依照权利要求22-25的设备，其特征在于该第一和第二同步时间点(Tn、Tn+1，Tm)不同并且该设备还包括-如果对第一和第二指纹(102、104)都存在匹配，-用于获得该第一同步时间点(Tn、Tn+1)和参考时间(107)的第一时间点之间关系的第一表示的接收器(204)，-用于获得该第二同步时间点(Tn、Tn+1、Tm)和所述参考时间(107)的第二时间点之间关系的第二表示的接收器(204)，-用于用所述参考时间(107)的第一和第二时间点同步该第一(101)和第二信号(103)的同步装置(303)，-否则包括-用于如果对于第一和第二指纹(102、104)都存在匹配就确定第一信号(101)的第一同步时间点(Tn、Tn+1)的位置和第二信号(103)的第二同步时间点(Tn、Tn+1，Tm)的位置的装置(302)，和用于用确定出的位置同步该第一(101)和第二信号(103)的装置(303)。
27.依照权利要求26的设备，其特征在于该设备还包括-用于在同步设备(300)中从服务器(600)接收第一和/或第二表示的接收器(204)，所述服务器与同步设备(300)有通信连接，和/或-用于从服务器(600)接收一个或多个第一指纹(102)和第二指纹(104)的接收器(204)。
28.依照权利要求15-21或权利要求22-27的设备，其特征在于所述第一信号(101)是音频信号，所述第二信号(103)是视频信号，所述第一指纹(102)是音频指纹，所述第二指纹(104)是视频指纹。
29.一种计算机可读介质，其上已经存储了使一个或多个处理部件执行依照权利要求1-8或权利要求9-14中任意一个的方法的指令。
全文摘要
本发明涉及生成可用于同步至少两个信号(101、103)的第一和第二指纹(102、104)的设备和方法以及用于同步两个或更多信号的对应方法和设备。在每个同步时间点上根据一段第一信号(例如音频信号)和一段第二信号(例如视频信号)生成一个指纹对。所生成的指纹对被存储在数据库(203)中并传送或分发到同步设备(303)。在同步期间，生成了要同步的音频信号的指纹和要同步的视频信号的指纹并将它们和数据库中的指纹进行匹配。当找到了匹配时，这些指纹还确定了用于同步这两个信号的同步时间点。这样就获得了一种同步至少两个信号的简单、可靠、高效的途径。此外，不用修改第一或第二信号(或后续信号)就实现了这一点。这些信号在一定程度上甚至可以被失真或改变，但是仍然能够实现同步。
文档编号H04N7/52GK1830211SQ200480021403
公开日2006年9月6日申请日期2004年7月20日优先权日2003年7月25日
发明者J·C·乌斯特维恩, D·K·罗伯茨, A·J·M·德尼森, W·R·T·坦凯特申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.C.乌斯特维恩;D.K.罗伯茨;A.J.M.德尼森;W.R.T.坦凯特
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。