多媒体流的同步的制作方法

文档序号：7792203阅读：118来源：国知局

多媒体流的同步的制作方法
【专利摘要】这种用于对在第一终端上呈现的第一多媒体流和在第二终端(6)上呈现的第二多媒体流进行同步的方法包括根据第一流的原始音频序列生成原始音频指纹的步骤，并且还包括以下步骤：a)根据第一流的第一序列(52)生成(56)第一音频指纹；b)在第一指纹与原始指纹之间进行比较(58)以便获得一个或更多的第一同步位置(P1)；c)使第一序列(52)与位于第一同步位置(P1)周围的原始序列中的一个或更多的片段相关(60)以便获得第二同步位置(P2)；d)使用第二同步位置(P2)在第二终端上呈现第二流。
【专利说明】多媒体流的同步

【技术领域】
[0001]本发明一般涉及源自不同多媒体源和/或使用不同传输协议传送并且在至少一个呈现设备上恢复的多媒体流的处理。
[0002]更具体地，本发明处理这样的多媒体流的同步。例如，具体地，其寻求在第二屏幕电视情况下的应用，其中，有关的内容同时呈现在个人终端和电视机上。
[0003]因此，本发明涉及一种用于对多媒体数据流进行同步的方法、设备和系统。本发明还涉及一种实现本发明的方法的计算机程序。

【背景技术】
[0004]可以实行在这部分中描述的方法，但是其不一定是先前已经构思或实行的方法。因此，除非在本文中另外指示，在这部分中描述的方法不是针对本申请中的权利要求的现有技术，并且不承认通过包括这部分中而成为现有技术。
[0005]广播和宽带IP网络的互补性对混合交付模型敞开了大门，在混合交付模型中利用每种网络的实力来提供个性化电视服务。这种交付模型已经被大量参与者利用在电视场景中。消费者装备的制造商提供了合并对追赶电视(catch-up TV)、增强节目指南和因特网视频的宽带访问的“联网电视(Connected TV)”。
[0006]诸如HbbTV (混合广播宽带电视)和YouView等发起者聚集了广播者、内容提供者和因特网服务提供者，设法定义标准化方法来提供混合广播宽带服务。虽然早在2009年12月就已经推出了第一个HbbTV服务，但是当前的混合电视服务部署仍未利用因特网的全部潜力来交付媒体内容，并且仍然有相当大的进一步创新的潜力。
[0007]通过将广播交付用于流行节目的大量分发并且将宽带交付用于长尾和点播内容，组合交付模型良好地适用于将个性化的增值电视服务提供给大量订户。
[0008]诸如平板或者智能电话这样的配套终端变成良好地被建立为用于消耗链接到电视广播者的个性化内容的“电视伙伴(TV buddies)”。
[0009]在C.Howson 等人的“Second Screen TV Synchronizat1n” (201IIEEEInternat1nal Conference on Consumer Electronics)的文章中，设想了第二屏幕使用情况，其中，通过宽带携带链接到广播节目的替代音频或视频内容，从而使得进行个性化并且缓和广播网络带宽上的负担。
[0010]这种服务的一个示例使用户能够在手持设备上选择其偏好的音频声轨来为在电视机上所显示的广播视频伴奏。主音频和视频成分通过广播网络交付,而在需要时通过因特网可以得到若干其它语言。
[0011]另一种这样的服务将使用户能够选择关于体育或音乐事件的宽带交付的替代视图，并且结合在电视机上显示的广播内容，将其呈现在用户的平板上。
[0012]如果这种第二屏幕服务的用户体验要成为可接受的，则通过宽带网络和广播网络分开交付的媒体成分需要在精确同步的情况下呈现。
[0013]虽然现有混合电视服务对于交互式应用确实采用触发机制，但是它们未合并例如将允许通过因特网交付的替代声轨自动并且精确地与广播视频成分同步的技术。
[0014]以上所引用的论文提出了一种用于第二屏幕个性化电视服务的部署的系统，其使得通过宽带网络和广播网络独立交付的内容成分的呈现能够在用户设备中得以同步。在该论文中公开的方案基于添加与通过广播网络并且在某些情况下还通过宽带网络交付的每组媒体成分相关联的辅助成分时间轴。该时间轴成分传递与每个事件有关的同步信息，并且用于调整媒体内容的呈现。
[0015]然而，在上述论文中公开的方案不是直接方案，因为其需要将签名(亦即，时间轴成分)嵌入到原始的媒体内容中。

【发明内容】

[0016]本发明提出一种用于改善所述情况的方案。
[0017]相应地，本发明提供一种用于对打算在第一终端上呈现的第一多媒体流和打算在第二终端上呈现的第二多媒体流进行同步的同步方法，包括根据所述第一多媒体流的原始音频序列生成原始音频指纹的预备步骤，并且还包括以下步骤:
[0018]a)接收所述第一多媒体流的音频数据的第一序列；
[0019]b)根据所述第一序列生成第一音频指纹；
[0020]c)在所述第一音频指纹与所述原始音频指纹的块之间进行比较，以便获得所述原始序列中的一个或更多的第一同步位置；
[0021 ] d)使所述第一序列与位于所述第一同步位置周围的所述原始序列中的一个或更多的片段(Piece)相关，以便获得所述原始序列中的仅仅一个第二同步位置；以及
[0022]e)使用所述第二同步位置对所述第一多媒体流和所述第二多媒体流进行同步。
[0023]通过组合对采指纹和互相关(cross-correlat1n)技术的使用，本发明的方法提供一种在不修改多媒体流的情况下在非常短的时间内的多媒体流的精确同步。更准确地，允许精确标识第一多媒体流中的呈现位置(亦即，从开始呈现起经过的时间)，使得第二终端可以在正确时刻从内容服务器请求与第一流同步的第二流。
[0024]即使在通过比较指纹找到良好匹配的情况下，采指纹也提供具有在帧的等级上的精度的第一同步位置，亦即，粗略同步位置，因为对所考虑的序列的每个音频帧计算指纹，同时，所述相关允许将精度提高到样本的等级，亦即，第二同步位置比第一同步位置更精确。
[0025]有利地，所述相关使用具有相位变换的广义互相关技术。
[0026]例如在M.S.Brandstein和 H.F.Silverman 的论文“A robust method for speechsignal time-delay estimat1n in reverberant rooms” (Proc.1EEE Int.Conf.0nAcoustics, Speech, and Signal Processing (ICASSP), 1997 年,第 375-378 页)中描述了该技术，其也被称为GCC-PHAT。
[0027]对该技术的使用，其中在频域中执行广义互相关，提高同步能力高于噪声，同时在计算上开销不大。
[0028]有利地，所述方法包括以下步骤:在所述第一终端上呈现所述第一序列的同时，所述第二终端在第一持续时间期间捕获所述第一多媒体流的音频数据的第一序列。
[0029]有利地，所述第一持续时间短于5秒，优选地包括在0.5与3秒之间。
[0030]通过使用这种短记录，在非常短的时间内首先执行所述同步。因此，在多数情况下，用户不必等待大量时间来获得在第二终端上的呈现服务。
[0031]优选地，通过计算所述第一序列和所述原始序列的指纹的对之间的距离来比较所述第一音频指纹和所述原始音频指纹。
[0032]例如，所计算的距离是欧几里德距离或汉明距离。
[0033]有利地，如果在步骤d)未获得第二同步位置，则所述方法还包括接收所述第一多媒体流的音频数据的第二序列的新步骤，并且其中，单独使用第二序列或者使用第一序列和第二序列的组合而不是第一序列来重复步骤b)至d)。
[0034]优选地，所述第二终端在第二持续时间期间捕获所述第二序列。
[0035]根据第一实施例，所述第二终端与所述第一终端相同。
[0036]在该情况下，所述第一多媒体流和所述第二多媒体流都呈现在同一终端上，如同例如在“画中画(Picture in Picture) ”服务的情况下的那样。
[0037]根据第二实施例，所述第二终端与所述第一终端不同。
[0038]在该情况下，所述第一多媒体流和所述第二多媒体流呈现在两个分离的显示设备上，所述第二终端从然后被认为是在呈现时间内的主设备的第一个捕获声音。
[0039]有利地，所述方法还包括使用所述第二同步位置在所述第二终端上呈现所述第二多媒体流的步骤。
[0040]本发明还提供一种用于对打算在第一终端上呈现的第一多媒体流和打算在第二终端上呈现的第二多媒体流进行同步的同步系统，包括所述第一和第二终端，并且还包括:
[0041]-第一处理器，用于根据所述第一多媒体流的原始音频序列生成原始音频指纹；
[0042]-麦克风，用于在所述第一终端上呈现所述第一序列的同时，所述第二终端在第一持续时间期间捕获所述第一多媒体流的音频数据的第一序列；
[0043]-第二处理器，用于根据所述第一音频序列生成第一音频指纹；
[0044]-比较器，用于对所述第一音频指纹与所述原始音频指纹的块进行比较，以便获得所述原始序列中的一个或更多的第一同步位置；
[0045]-相关器，用于使所述第一序列与位于所述第一同步位置周围的所述原始序列中的一个或更多的片段相关，以便获得所述原始序列中的仅仅一个第二同步位置；以及
[0046]-同步器，用于使用所述第二同步位置对所述第一多媒体流和所述第二多媒体流进行同步。
[0047]本发明还提供一种用于对打算在第一终端上呈现的第一多媒体流和打算在第二终端上呈现的第二多媒体流进行同步的同步设备，包括:
[0048]-第一处理器，用于根据所述第一多媒体流的原始音频序列生成原始音频指纹；
[0049]-第二处理器，用于根据所述第一多媒体流的音频数据的第一序列生成第一音频指纹；
[0050]-比较器，用于对所述第一音频指纹与所述原始音频指纹的块进行比较，以便获得所述原始序列中的一个或更多的第一同步位置；
[0051]-相关器，用于使所述第一序列与位于所述第一同步位置周围的所述原始序列中的一个或更多的片段相关，以便获得所述原始序列中的仅仅一个第二同步位置；以及
[0052]-同步器，用于使用所述第二同步位置对所述第一多媒体流和所述第二多媒体流进行同步。
[0053]有利地，所述同步设备包括在所述第二终端中。
[0054]所述第二终端可以例如是智能电话或者平板，
[0055]替代地，所述同步设备可以位于用户的家庭中，例如包括在机顶盒或网关中。其甚至可以包括在所述第一终端中。
[0056]所述同步设备也可以远离用户的家庭，例如包括在网络服务器中。
[0057]因此，同步设备的组件可以集成在远离用户的家庭或者位于用户的家庭中的同一机体(housing)中。
[0058]作为替代，所述同步设备的组件的一部分位于用户的家庭中，而另一部分远离用户的家庭。
[0059]在同步处理的至少一部分位于用户的家庭中的情况下，该部分能够例如通过因特网连接来访问原始音频序列或直接访问原始音频指纹。
[0060]根据本发明的方法可以实现为在可编程装置上的软件。可以仅实现为硬件或软件或其组合。
[0061]因为本发明可以实现为软件，所以可以将本发明实施为在任何适合的载体介质上的用于提供给可编程装置的计算机可读代码。载体介质可以包括诸如软盘、CD-ROM、硬盘驱动、磁带设备或者固态存储器设备等存储介质。
[0062]因此，本发明提供一种计算机可读程序，其包括用于使计算机能够执行本发明的方法的计算机可执行指令。图3的图表示出了关于该计算机程序的一般算法的示例。

【专利附图】

【附图说明】
[0063]在附图中通过示例的方式而不是限制的方式示出本发明，其中，相同标号指代相似兀件，附图中:
[0064]图1是根据本发明的同步系统的实施例的示意图；
[0065]图2是根据本发明的同步设备的实施例的示意图；
[0066]图3是示出根据本发明实施例的同步方法的步骤的流程图；
[0067]图4是详述图3的方法的采指纹步骤的流程图；
[0068]图5详述图3的方法的GCC-PHAT计算的步骤；
[0069]图6示出根据本发明的组合了采指纹和GCC-PHAT的处理的示例；以及
[0070]图7示出通过本发明的方法获得的精确同步位置的示例。

【具体实施方式】
[0071]参照图1，其中示出根据本发明优选实施例的同步系统2的示意图。
[0072]同步系统2包括位于用户的家庭8中的第一终端4和第二终端6。第一终端4例如是构成用户的主显示器的电视机，而第二终端6例如是用户用作第二屏幕设备的智能电话或平板。
[0073]从原始内容服务器10通过广播网络11传送在第一终端4上显示的内容。为了接收这样的广播内容(例如，DVB-T或DVB-C多媒体流)，第一终端4链接到机顶盒12，机顶盒12链接到天线14。优选地，机顶盒12还能够从因特网16或者从用户的家庭8中的家庭网络接收多媒体流。
[0074]还可以由例如从远程或本地音频和/或视频服务器、视频文件、DVD、蓝光盘等流式传输的任何本地源或远程源提供在第一终端4上显示的内容。为此，第一终端4还连接到本地内容源17，例如DVD和/或蓝光读取器。
[0075]第二终端6经由因特网网络16连接到包含与原始内容服务器10的内容有关的内容的补充内容服务器18。例如，由机顶盒12对第二终端6提供的对补充服务的访问归功于嵌入在从广播网络11接收的广播流中的信息。
[0076]在另外的实施例中，因为补充内容服务器18的补充内容与在第一终端4上接收到的广播内容紧密耦合，所以其对于第二终端6是可以从用户容易地标识的网站访问的。该网站可以是广播提供者的网站或制作从原始内容服务器10提供的主内容的工作室的网站。
[0077]通过用户的家庭8的这些装备，用户能够接收将由第一终端4呈现的源自原始内容服务器10的第一多媒体流以及将由第二终端6呈现的源自例如补充服务器18的第二多媒体流。
[0078]用户可能希望在两个终端4、6中同时接收有关内容。例如，用户可能希望结合在第一终端4上显示的主内容来接收体育或音乐事件的替代视图，并且将其呈现在第二终端6上。
[0079]本发明的同步系统2使得能够完美地同步这两种内容，以便将它们同时呈现在终端4、6上。
[0080]因此，同步系统2包括连接到第二终端6的麦克风20。该麦克风20能够记录第一终端4所呈现的音频内容。
[0081]此外，同步系统2包括:同步设备22，其连接到用户的家庭8，并且连接到原始内容服务器10和补充内容服务器18。在所呈现的实施例中，同步设备22位于远离用户的家庭8。
[0082]替代地，同步设备22可以位于用户的家庭8中，例如实现在机顶盒12或第二终端6中。
[0083]在另外的替代中，同步设备22的部分可以实现在用户的家庭中，而其它部分则远程地实现。
[0084]同步系统2还包括存储器24。
[0085]如图2所示，同步设备22包括第一处理器30和第二处理器32。这两个处理器30、32能够根据传统的适合的采指纹算法从音频序列生成音频指纹。处理器30、32可以是两个分离的处理器或一个唯一处理器。
[0086]同步设备22还包括:比较器34，其能够通过计算两个集合的音频指纹的对之间的距离(例如，欧几里德距离或汉明距离)来比较音频指纹的两个集合。
[0087]同步设备22还包括:相关器36，其能够使用具有相位变换的广义互相关(又称为GCC-PHAT)技术使两个音频序列互相关。
[0088]其还包括:同步器38，其能够通过请求补充内容服务器18将从同步位置开始的媒体内容发送到第二终端6来使用同步位置对两个多媒体流进行同步。
[0089]图3和图4的流程图详述根据优选实施例的本发明的同步方法的步骤。
[0090]在第一终端4上呈现从原始内容服务器10传送的第一多媒体流的同时，本发明得以实现。
[0091]在图4所示的预备步骤40，同步设备22的第一处理器30从原始内容服务器10恢复第一多媒体流的原始音频序列42，并且根据该原始序列42生成原始音频指纹的集合。如图6中所示，每个所生成的原始指纹Fm、FpUp2分别与原始序列42的音频帧1-1、1、i+1、i+2相对应。
[0092]对于该生成,第一处理器30使用任何适合的传统的采指纹算法,例如J.Haitsma等人的 “A highly robust aud1 fingerprinting system”(Proc.1nt.Sym.0n MusicInformat1n Retrieval (ISMIR)，2002 年)中描述的算法或者在 A.L-C.Wang 的 “Anindustrial-strength aud1 search algorithm，，(Proc.1nt.Sym.0n Music Informat1nRetrieval (ISMIR)，2003年，第1-4页)中描述的算法。
[0093]优选地，在步骤44，将所生成的原始音频指纹存储在存储器24中。
[0094]在图3中表示的步骤50中，第二终端6在第一持续时间期间使用麦克风20记录第一终端4中所呈现的第一多媒体流的第一音频序列52。当同步服务由用户明确地激活或由在所述第二终端6中提供的应用自动地激活时，第二终端6开始这样的记录。然后，第二终端6经由因特网16将第一音频序列52发送给同步设备22。
[0095]如果用户的家庭8与同步设备22之间的因特网链接上的带宽是足够的，则优选地以原始格式发送第一音频序列52。然而，为了优化交付时间，如果对于确保后续采指纹处理的可靠性，质量仍然是可接受的，则可以有利地将其压缩到一定程度。
[0096]例如，通过使用HTTP POST协议将包含第一音频序列52的文件例如上载到同步设备22。
[0097]第一持续时间选取为短于5秒，优选地包括在0.5与3秒之间。例如，其等于I秒。
[0098]因此,第一音频序列52对应于主要被第一终端4周围的声学环境54 (图4)破坏的原始音频序列42的片段。
[0099]在步骤56，第二处理器32使用第一处理器30实现的用于生成原始音频指纹的相同的采指纹算法，从第一序列52生成第一音频指纹的块。每个所生成的第一指纹F’ pF’ 2、F’ 3(图6)与第一序列52的音频帧相对应。
[0100]在优选实施例中，第二终端6在该处理期间使用麦克风20继续从第一终端4进行记录以考虑来自同步设备22的可能的附加数据请求。
[0101]在步骤58，比较器34对第一音频指纹的块与原始音频指纹的集合中的每个相同大小的块进行比较。在该比较期间，估计两个音频指纹的块之间的匹配可信度，并且将其与第一预定阈值进行比较。
[0102]为此，比较器34通过计算每个块中的每对指纹之间的距离并且对两个块中的所有对累计比较结果来执行相似度比较。作为示例，当对第一指纹(F’1、F’2、F’3)的块与原始指纹(F1, F2、F3)的相同大小的块进行比较时，计算求和距离d(F’ 1； F1HcKF, 2，F2)+d(F，3，F3)，其中，d(F’ i，Fi)，I彡i彡3，表示两个指纹之间的欧几里德范数或汉明距离。
[0103]如果测量第一指纹与原始指纹的块之间的最大相似度的仅最小计算的求和距离小于第一阈值，则认为该指纹匹配是可信的，并且找到了唯一粗略同步位置P1。图7的下部的图表示这种情况。
[0104]在一些情况下，基本上由于记录的非常短的第一持续时间或者在原始流中重复的相似内容，可能找到小于第一阈值或者大于第一阈值但小于第二预定义阈值的所计算的距离的多个局部最小点。在这些情况下，找到具有低可信度的多个粗略同步位置A、B、C(图7的中部的图)。
[0105]为了验证最初检测到的粗略同步位置A、B、C中的任何一个是否为正确的同步位置，相关器36在步骤60计算第一音频序列与位于在步骤58通过采指纹找到的粗略同步位置周围的原始音频序列的片段61(图6和图7)的GCC-PHAT互相关。在频域中执行关于这些互相关的计算。
[0106]图5示出GCC-PHAT计算的示例。给出与原始音频序列的片段相对应的时域信号x(t)以及其与第一音频序列相对应的按照距离d延迟并失真的版本Y(t)，使用离散傅里叶变换(DFT)分别计算它们的频率表示X(f)和Y(f)。根据以下公式来计算记为Rxy(f)的X(f)与Y(f)的互相关:
? /Ir*(/I
[。1。7] RMh\mm
[0108]在该公式中，按照X(f)与Y(f)的乘积的幅度对互相关进行规一化，以便只保留相位信息。
[0109]然后，通过作为Rxy(f)的逆离散傅里叶变换(IDFT)的Rxy(t)的峰值P的位置来指定优选以样本的数量来测量的信号x(t)与Y(t)之间的时间滞后d。
[0110]在步骤62，比较器34对所获得的峰值P的值与第三阈值进行比较。该第三阈值可以是预定义的，或者是根据Rxy(t)(亦即，考虑Rxy(t)的方差)来自适应地计算的。
[0111]如果只有一个峰值高于第三阈值，则认为第一与原始音频序列的对应片段之间的匹配可信度高，并且找到了唯一精确同步位置P2。该位置的精度是样本的精度。
[0112]参照图7，使用GCC-PHAT互相关找到的精确同步位置P2(上部的图)与粗略同步位置A相对应,而粗略同步位置B、C(中部的图)被拒绝。
[0113]因为指纹是基于音频帧来计算的，所以粗略同步位置具有帧精度，这可能不足以对在两个终端4、6上的多媒体流的呈现进行完美同步。
[0114]因此，本发明通过实现原始音频序列与第一音频序列之间的广义互相关的另一步骤，显著地提高了同步精度。即使在采指纹步骤中找到具有高可信度的唯一粗略同步位置P1，也可以实现使用GCC-PHAT的相关步骤，以便获得样本精确的同步。
[0115]比较器34将该位置提供给同步器38，然后，同步器38对第二多媒体流到第二终端6的传送进行同步。
[0116]该同步可以包括:对补充内容服务器18指示其可以开始将第二多媒体流传送到第二终端6的时间。
[0117]同步可以还包括:向第二终端6传送与第二终端6可以开始呈现其已经接收到的第二多媒体流的时间有关的信息。
[0118]如果指纹比较中的所有峰值高于第二阈值(亦即，采指纹无法提供任何粗略同步位置)，或者互相关比较中的所有峰值低于第三阈值(亦即，GCC-PHAT不确保可信的同步点)，或者互相关比较中的多于一个的峰值高于第三阈值，可能是因为相似内容在原始流数据中重复，认为第一与原始音频序列的对应片段之间的匹配可信度低。在该情况下，同步设备22在步骤64从第二终端6请求所记录的数据的第二音频序列。在接收第二序列之后，同步设备22单独使用第二序列或者使用第一序列和第二序列的组合而不是第一序列来重复步骤52至62。
[0119]虽然已经示出并且描述了目前被认为是本发明优选实施例的内容，但本领域技术人员将理解，在不脱离本发明真实范围的情况下，可以进行各种其它修改，并且可以替换等同物。此外，在不脱离在此所描述的主要发明构思的情况下，可以进行很多修改以使特定情况适合于本发明的教导。此外，本发明实施例可以不包括以上所述的所有特征。因此，旨在本发明不受限于所公开的具体实施例，而是本发明包括落入所附权利要求的范围内的所有实施例。
[0120]诸如“包括”、“包含”、“合并”、“含有”、“是”和“具有”这样的表述在解释说明书及其相关联的权利要求时应以非排他的方式来理解，即，要理解为还允许存在未明确限定的其它项目或者组件。对单数的引用也要理解为对复数的引用，反之亦然。
[0121]本领域技术人员将容易地意识到，在不脱离本发明的范围的情况下，可以修改说明书中公开的各种参数，并且可以组合所公开和/或要求保护的各个实施例。
[0122]因此，即使以上描述关注于使用分离终端的第二屏幕应用，其也可以有利地应用于仅具有一个终端的情况，例如当仅存在一个屏幕时，其中，其一部分显示主内容，而其余部分(画中画)显示第二内容。在该情况下，用于同步的第一音频序列通过对终端所接收的广播内容进行解码来捕获，或者直接通过终端中的麦克风对其进行记录。
[0123]此外，同步设备可以集成在家庭网关或机顶盒或第二屏幕终端中。在该情况下，原始音频序列并且可选地其相关联的指纹必须提前存储或者发送到机顶盒或网关或第二屏幕终端。
[0124]此外，虽然以上描述关注于对用户的家庭应用使用本发明，但是本发明可以有利地用于公共建筑(例如，机场、火车站、医院等)中的第二屏幕应用。
【权利要求】
1.一种用于对打算在第一终端(4)上呈现的第一多媒体流和打算在第二终端(6)上呈现的第二多媒体流进行同步的同步方法，包括根据所述第一多媒体流的原始音频序列(42)生成(40)原始音频指纹的预备步骤，并且还包括以下步骤: a)接收所述第一多媒体流的音频数据的第一序列(52)； b)根据所述第一序列(52)生成(56)第一音频指纹； c)在所述第一音频指纹与所述原始音频指纹的块之间进行比较(58)，以便获得所述原始序列(42)中的一个或更多的第一同步位置(PI ；A, B, C)； d)使所述第一序列(52)与位于所述第一同步位置(PI；A, B, C)周围的所述原始序列(42)的一个或更多的片段￠1)相关(60)，以便获得所述原始序列(42)中的仅仅一个第二同步位置(P2);以及 e)使用所述第二同步位置(P2)对所述第一多媒体流和所述第二多媒体流进行同步。
2.如权利要求1所述的方法，其中，所述相关￠0)使用具有相位变换的广义互相关技术。
3.如权利要求2所述的方法，其中，在频域中执行所述广义互相关。
4.如权利要求1至3中的任一项所述的方法，包括以下步骤:在所述第一终端(4)上呈现所述第一序列(52)的同时，所述第二终端(6)在第一持续时间期间捕获(50)所述第一多媒体流的音频数据的第一序列(52)。
5.如权利要求4所述的方法,其中,所述第一持续时间短于5秒,优选地包括在0.5与3秒之间。
6.如权利要求1至5中的任一项所述的方法，其中，通过计算所述第一序列(52)和所述原始序列(42)的指纹的对之间的距离来比较所述第一音频指纹和所述原始音频指纹。
7.如权利要求1至6中的任一项所述的方法，其中，如果在步骤d)未获得第二同步位置，则所述方法还包括接收所述第一多媒体流的音频数据的第二序列的新步骤，并且其中，单独使用第二序列或者使用第一序列和第二序列的组合而不是第一序列(52)来重复步骤b)至 d)。
8.如权利要求1至7中的任一项所述的方法，其中，所述第二终端与所述第一终端相同。
9.如权利要求1至8中的任一项所述的方法，其中，所述第二终端(6)与所述第一终端(4)不同。
10.如权利要求1至9中的任一项所述的方法，还包括使用所述第二同步位置(P2)在所述第二终端(6)上呈现所述第二多媒体流的步骤。
11.一种用于对打算在第一终端(4)上呈现的第一多媒体流和打算在第二终端(6)上呈现的第二多媒体流进行同步的同步系统(2)，包括所述第一(4)和第二(6)终端，并且还包括: 第一处理器(30)，用于根据所述第一多媒体流的原始音频序列(42)生成原始音频指纹；麦克风(20)，用于在所述第一终端(4)上呈现所述第一序列(52)的同时，所述第二终端(6)在第一持续时间期间捕获所述第一多媒体流的音频数据的第一序列(52)；第二处理器(32)，用于根据所述第一音频序列(52)生成第一音频指纹；比较器(34)，用于对所述第一音频指纹与所述原始音频指纹的块进行比较，以便获得所述原始序列(42)中的一个或更多的同步位置(PI ；A, B, C)；相关器(36)，用于使所述第一序列(52)与位于第一同步位置(PI ;A，B，C)周围的所述原始序列(42)的一个或更多的片段(61)相关，以便获得所述原始序列(42)中的仅仅一个第二同步位置(P2);以及同步器(38)，用于使用所述第二同步位置(P2)对所述第一多媒体流和所述第二多媒体流进行同步。
12.一种用于对打算在第一终端(4)上呈现的第一多媒体流和打算在第二终端(6)上呈现的第二多媒体流进行同步的同步设备(22)，包括: 第一处理器(30)，用于根据所述第一多媒体流的原始音频序列(42)生成原始音频指纹；第二处理器(32)，用于根据所述第一多媒体流的音频数据的第一序列(52)生成第一音频指纹；比较器(34)，用于对所述第一音频指纹与所述原始音频指纹的块进行比较，以便获得原始序列(42)中的一个或更多的第一同步位置(PI ；A, B, C)；相关器(36)，用于使所述第一序列(52)与位于所述第一同步位置(PI ;A，B，C)周围的所述原始序列(42)中的一个或更多的片段(61)相关，以便获得所述原始序列(42)中的仅仅一个第二同步位置(P2);以及同步器(38)，用于使用所述第二同步位置(P2)对所述第一多媒体流和所述第二多媒体流进行同步。
13.如权利要求12所述的同步设备(22)，其中，所述同步设备(22)包括在所述第二终端(6)中。
14.如权利要求12或13所述的同步设备(2)，其中，所述同步设备(22)包括在机顶盒(12)或者网关中。
15.一种计算机可读程序，其包括用于使计算机能够执行如权利要求1至10中的任一项所述的方法的计算机可读指令。
【文档编号】H04N21/43GK104205859SQ201380016892
【公开日】2014年12月10日申请日期:2013年4月2日优先权日:2012年4月5日
【发明者】Q-k-n.东, Y.莱格拉斯, C.豪森申请人:汤姆逊许可公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Q-k-n.东;Y.莱格拉斯;C.豪森
技术所有人：汤姆逊许可公司
我是此专利的发明人

上一篇：用于虚拟网络架构链路故障恢复的系统和方法
上一篇：在802.11ah中的控制帧的效率提高的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。