用于处理媒体流的样本的方法和系统的制作方法

文档序号:6361063阅读:149来源:国知局
专利名称:用于处理媒体流的样本的方法和系统的制作方法
技术领域
本公开涉及媒体处理,包括媒体信息检索、媒体同步和媒体识别验证。另外,本公开涉及假肯定检测(false positive detection)、多个版本消歧(disambiguation)、匹配片段长度确定和媒体流的重新同步。
背景技术
用于各种媒体类型(诸如音频或视频)的内容识别系统使用许多不同方法。客户端设备可以捕获媒体流(诸如无线电)的媒体样本记录,并且然后可以在媒体记录(也称为媒体轨道)的数据库中执行对匹配的搜索,以识别媒体流。可以在客户端设备上对样本记录进行预处理,以提取相关特征用于内容识别。可以将样本记录传递至内容识别模块,所述内容识别模块可以执行对样本的内容识别,并将识别的结果返回至客户端设备。然后,可以在客户端设备上向用户显示辨识结果,或者辨识结果可被用于各种后继服务,诸如购买或参考有关信息。例如,内容识别的其它应用包括广播监控或内容敏感广告。在示例的内容识别系统中,可以在将结果返回至客户端设备之后结束内容识别。然而,一些内容识别系统可能具有低鉴别性,这会导致大量假肯定匹配。另外,一些内容识别系统可能不能在数据库中多个可能的匹配记录之间消歧。例如,如果样本记录跨越由数据库中的多个目标记录共享的片段,则内容识别系统可以确定这些多个记录中的任何一个是匹配。此情形可能在存在多个版本的媒体记录(例如,无线电混音(radio mix)、延长舞蹈混音(extended dance mix)、或集锦曲(mash_up))的情况下发生,在集锦曲中,将来自相同原始记录的片段采样到不同作品中。在这些示例情况中,内容识别的结果可能是不准确的。

发明内容
在一个示例中,本公开描述了一种方法,包括接收由媒体渲染(render)源渲染的媒体流的样本。所述方法还包括对于从中获得样本的匹配媒体记录,接收包括在时间上映射的描述匹配媒体记录的内容的特征的集合的签署(signature)文件。所述方法还包括将每个接收的签署文件存储在存储器中。在一个示例中,所述方法还包括接收包括由媒体渲染源渲染的媒体流的样本的内容识别查询、以及确定从中获得样本的匹配媒体记录的识别。在一个示例中,所述方法还可以包括接收包括从媒体流提取的特征的签署流、确定媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的匹配特征的数目、以及基于所述匹配特征的数目识别匹配媒体记录。在一个示例中,所述方法还可以包括接收包括从媒体流提取的特征的签署流、以及确定媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的特征是否随着时间而基本上匹配。所述方法还可以包括当媒体流的签署流与用于匹配媒体记录的签署文件之间的基本上匹配的特征停止出现时,识别中断(discontinuity)。例如,所述方法可以由客户端设备或者由服务器来执行。可以以存储在非瞬时计算机可读介质上的指令的形式提供这里描述的任何方法,其中,当由计算设备执行所述指令时,所述指令执行所述方法的功能。其它实施例还可以包括包含有形计算机可读介质的制品,在所述有形计算机可读介质上编码了计算机可读指令,并且所述指令可以包括用以执行这里描述的方法的功能。计算机可读介质可以包括非瞬时计算机可读介质,诸如在短时段内存储数据的计算机可读介质,如寄存器存储器、处理器缓存和随机存取存储器(RAM)。计算机可读介质还·可以包括非瞬时介质,诸如二次(secondary)或永久长期存储装置,如只读存储器(ROM)、光或磁盘、光盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其它易失性或非易失性存储系统。计算机可读介质可以被认为是例如计算机可读存储介质或有形存储介质。另外,可以提供被布线成执行这里描述的处理或方法中的逻辑功能的电路。在另一示例中,描述了一种系统,包括输入接口,被配置为接收由媒体渲染源渲染的媒体流的样本;以及连续性跟踪器,被配置为对于从中获得样本的匹配媒体记录,接收包括在时间上映射的描述匹配媒体记录的内容的特征的集合的签署文件。前述发明内容仅仅是说明性的,而不意图以任何方式进行限制。除了上述说明性方面、实施例和特征之外,参考附图和以下详细描述,其它方面、实施例和特征将变得显而易见。


图I图示了用于识别媒体内容和执行识别验证的系统的一个示例。图2图示了用于准备签署数据库的示例系统。图3是根据这里描述的至少一些实施例的用于处理媒体的样本的示例方法的框图。图4是根据这里描述的至少一些实施例的用于处理媒体的样本的另一示例方法的框图。图5图示了示例时序图。图6是根据这里描述的至少一些实施例的、包括执行假肯定检测的用于处理媒体的样本的示例方法的框图。图7是根据这里描述的至少一些实施例的、包括在多个匹配媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。图8图示了示例时序图。图9图示了用于识别媒体流、以及将数据与所识别的媒体流进行同步的系统的示例。图10是根据这里描述的至少一些实施例的、包括在多个匹配从(slave)媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。图11是根据这里描述的至少一些实施例的、包括在多个匹配从媒体记录之间消歧的用于处理媒体的样本的示例方法的框图。
具体实施例方式在以下详细描述中,参考形成此一部分的附图。在附图中,类似的符号通常标识类似的组件,除非上下文另外指定。详细描述、附图和权利要求书中描述的说明性实施例不意味着限制。在不违背这里呈现的主题的精神或范围的情况下,可以利用其它实施例,并且可以进行其它改变。将容易理解,可以在各种各样的这里明确设想的不同配置中布置、替换、组合、分离和设计如这里一般描述且在附图中图 示的本公开的各方面。此公开可以描述用于处理媒体流的样本的方法和系统等。在一个示例中,方法包括接收由媒体渲染源渲染的媒体流的样本,并且,对于从中获得样本的匹配媒体记录,所述方法还包括接收包括在时间上映射的描述匹配媒体记录的内容的特征的集合的签署文件。可以将每个接收的签署文件存储在存储器中。另外,可以接收包括从媒体流提取的特征的签署流,并且可以确定媒体流的签署流与用于至少一个匹配媒体记录的签署文件之间的匹配特征的数目。在一个示例中,当在媒体流的签署流与用于匹配媒体记录的签署文件之间的基本上匹配的特征停止出现时,可以识别中断。在下面描述的示例中,方法和系统使得能够验证从内容识别返回的匹配结果以便修正假肯定,并且消除为了从媒体流捕获的媒体样本的附加增量(increment)而进一步执行计算上昂贵的内容识别的需要。示例方法和系统还可以使得能够在媒体记录的多个版本之间进行消歧、以及管理主媒体流与一组从媒体流之间的同步性。可以通过提供对来自媒体流的媒体样本的内容识别、以及为每个识别的媒体记录提供对应的从媒体记录推出的经特征提取的签署文件,来执行示例方法和系统。可以从媒体流在原始媒体样本附近的部分开始,从媒体流提取对应的经特征提取的签署流。可以确定每个识别的媒体记录内的时间偏移位置,并且,可以将每个识别的媒体记录的对应签署文件内的对应时间位置初始地与媒体流内的对应时间偏移对准。由于媒体流的签署流与每个识别的媒体记录的签署文件之间的特征的对准,可以在每个识别的媒体流中的对应时间预期媒体流中的匹配特征。当在预期位置处的特征对应关系停止出现时,可以标记中断。例如,中断可以触发诸如标记假肯定的动作发生。连续性的验证在计算上可以是廉价的,因为可以使用较少数目的特征在预期的位置进行比较。例如,用于验证整个全长度的音乐记录的签署文件可以小于约5KB。因此,可以将验证库存储在客户端设备上,或者通过网络推行(push)验证库。在这里描述的示例中,可以通过执行向内容识别服务器的分立的查询,来完成用于验证内容识别的方法和系统。然而,为了避免附加的查询(其可以向识别服务器模块增加额外负担),可以使用签署文件执行对连续性的验证。I.示例系统的概述现在参照附图,图I图示了用于识别媒体内容和执行识别验证的系统的一个示例。系统包括媒体渲染源102、客户端设备104、以及服务器106。图I中的系统的所描述的功能或组件中的一个或多个可以被分为附加的功能或物理组件、或者被组合为更少的功能或物理组件。例如,可能不存在客户端104和服务器106的区分,因为系统可以用作用于辨识的验证机构、或者在集成的便携式用户设备中是完全独立的。在一些其它示例中,可以将附加的功能和/或物理组件添加至图I所示的示例。媒体渲染源102以任何已知方式实时地渲染并呈现来自媒体流的媒体内容。可以将媒体流作为记录而存储在媒体渲染源102上、或者可以从诸如模拟或数字广播的外部源接收媒体流。在一个示例中,媒体渲染源102可以是广播媒体流(例如,音频和/或视频)和/或其它信息的广播站或电视内容提供方。媒体渲染源102还可以是以已记录的或实况格式播放音频媒体、显示视频媒体的任何类型的设备。在替代实施例中,例如,媒体渲染源102可以包括实况表演作为音频源和/或视频源。例如,媒体渲染源102可以通过图形显示器、音频扬声器、MIDI乐器、操纵木偶等、或者由媒体渲染源102提供的任何其它种类的表·现来渲染或呈现媒体流。客户端设备104通过包含媒体接收器108的样本捕获模块接收来自媒体渲染源102的媒体流的渲染。在图I中,媒体接收器108被示出为天线,并且,媒体渲染源102向客户端设备104无线地广播媒体流。然而,取决于媒体流的形式,媒体渲染源102可以使用无线或有线通信技术渲染媒体。在其它示例中,客户端设备104包括麦克风110,用以从媒体渲染源102接收媒体流或记录。客户端设备104还可以包括摄像机、振动传感器、无线电接收器、网络接口等中的任一个,用以接收媒体流。除了接收媒体流的渲染,客户端设备104可能不被操作地耦接至媒体渲染源102。如此,客户端设备104可能不被媒体渲染源102控制,并且,客户端设备104可能不是媒体渲染源102的必要部分。在图I所示的示例中,客户端设备104是与媒体渲染源102分立的实体。可以将客户端设备104实施为小外形便携式(或移动)电子设备的一部分,小外形便携式(或移动)电子设备诸如包括任何上述功能的蜂窝电话、无线蜂窝电话、个人数字助理(PDA)、个人媒体播放设备、无线网络手表设备、个人耳机设备、特定应用设备、或混合设备。还可以将客户端设备104实施为包括膝上型计算机和非膝上型计算机配置的个人计算机。客户端设备104还可以是较大设备或系统的组件。可以操作客户端设备104以捕获所渲染的媒体流的媒体样本。这可以在没有用户介入的情况下自动发生、或者可以通过用户激活按钮或其它应用以触发样本捕获而实现。例如,客户端设备104的用户可以按下按钮以通过麦克风记录音频的10秒数字样本,或者使用相机捕获静止图像或视频序列。作为其它示例,客户端设备104可以接收具有指令的信号以捕获媒体样本,或者,客户端设备104可以自主地检测环境活动(例如,经由语音活动或音乐活动检测模块)并响应地捕获媒体样本。连续媒体流的媒体样本可以被天线108或麦克风110捕获、通过模数(A/D)转换器112传递、并存储在滚动媒体样本缓冲器114(例如,诸如圆形或环形缓冲器或队列)。当捕获新样本时,旧媒体样本可以退出(retire),从而在时间上向后特定长度的历史可用于分析。替代地,媒体样本可以直接从数字馈送捕获,或者,如所示的,可以从A/D转换器112采样。媒体流可以是周围自由场音频,并且,例如,媒体样本可以是从麦克风110以8KHz采样率捕获的数字化的脉冲编码调制(PCM)样本。(例如,这里的术语“样本”可以被认为是诸如PCM音频样本值的单独的样本、以及这样的样本在时间片段上的集合两者)。
将与媒体样本的采样时间对应的时间戳记录为Ttl,并且可以将该时间戳称为同步点。采样时间优选地可以是媒体样本的起始,但也可以是媒体样本的末尾、中间、或任何其它预定时间。因此,媒体样本可以被加以时间戳,使得获知媒体流内从固定的任意参考时间点的对应时间偏移。例如,时间戳可以是显式的,其中每个媒体样本可以具有关联的时间值;或者,时间戳可以是隐式的,其中可以从样本在样本缓冲器114内位置、或从自参考时间点起经过的样本时段的数目而确定时间。例如,可以将参考时间定义为开启客户端设备104并捕获第一个媒体样本的时刻。可以从媒体样本缓冲器114获得媒体样本,并将媒体样本传递至服务器106用于内容识别。在另一示例中,可以在发送至服务器106之前对媒体样本进行预处理和特征提取。举例而言,可以将媒体样本发送至签署提取器116以生成所提取的特征的签署流,并且,每个特征可具有媒体流内的对应时间位置。可以将所提取的特征的签署流提供给连续 性跟踪器118,连续性跟踪器118可以将所提取的特征的签署流与用于对应的媒体记录的所接收的签署文件进行比较,以确定所接收的内容识别的有效性/连续性。签署文件可以是在时间上映射的描述媒体记录的内容的特征的集合,所述媒体记录具有与媒体记录的时间线对应的时间维度,并且,每个特征可以是对在每个映射的时间点附近的内容的描述。可以基于媒体记录而预先确定签署文件并存储签署文件,并且,例如,可以基于观测的媒体流而实时地确定并生成签署流。一般地,例如,可以将特征选择为在存在噪声和失真的情况下可再现。可以在离散时间位置稀疏地提取特征,并且,每个特征可以对应于感兴趣的特征。稀疏特征的示例包括Lp范数功率峰值(norm power peak)、频谱图(spectrogram)能量峰值、连接的凸点(linked salient point),等等。对于更多的示例,请读者参考Wang和Smith的美国专利No. 6,990,453,通过引用将其全文合并在此。替代地,可以密集地表现连续的时间轴,其中每个时间值具有对应的特征值。这样的密集特征的示例包括特征波形(如授权给Kenyon的美国专利No. 7,174,293中描述的,通过引用将其全文合并在此)、频谱图位图光栅(如在美国专利No. 5,437,050中描述的,通过引用将其全文合并在此)、活动矩阵(如在美国公布专利申请No. 2010/0145708中描述的,通过引用将其全文合并在此)、以及能量通量位图光栅(如在美国专利No. 7,549,052中描述的,通过引用将其全文合并在此)。在一个示例中,签署文件包括稀疏特征表现。可以从使用重叠的短时间快速傅立叶变换(FFT)提取的频谱图获得特征。可以在对应的能量值是局部最大值的时频位置选择频谱图中的峰值。例如,可以通过识别围绕每个候选位置的区域中的最大点来选择峰值。还可以使用心理声学掩蔽准则来抑制听不见的能量峰值。每个峰值可以被编码为一对时间和频率值。另外,可以记录峰值的能量幅度。在一个示例,音频采样率是8KHz,并且,FFT帧尺寸可在约64-1024面元(bin)之间变化,其中约25-75 %的帧之间的跳变尺寸与前一帧重叠。增加频率分辨率可导致较小的时间精度。另外,可以使频率轴变形(warp)并内插到对数尺度上,诸如Mel频率。可以将多个特征或与特征关联的信息组合为签署文件。签署文件可以将特征排序为随时间增加而排列的列表。在数据构造中,每个特征Fj可以与时间值&关联,并且,该列表可以是这样的构造的阵列;这里,例如,j是第j个构造的索引。在使用连续时间表现(例如频谱图的连续帧)的示例中,时间轴可以在索引中被隐含到列表阵列中。为了方便起见,可以获得每个媒体记录内的时间轴作为从记录的起始的偏移,因此时间零是指记录的起始。所得到的签署文件的尺寸可以根据所使用的特征提取方法而变化。在一个示例中,可以将所选的频谱图峰值(例如特征)的密度选择为约在每秒10-50个点之间。可以将峰值选择为每单位时间的最高能的N个峰值,例如,一秒帧中的最高10个峰值。在使用每秒10个峰值的示例中,使用32个比特对每个峰值频率进行编码(例如,8个比特用于频率值,24个比特用以对时间偏移进行编码),可能需要每秒40字节来对特征进行编码。由于平均歌曲长度为约3分钟,所以一首歌曲可以产生近似7. 2千字节的签署文件尺寸。对于其它签署编码方法,例如,在具有100毫秒的跳变尺寸的频谱图的每个偏移处的32比特特征产生类似尺寸的指纹。在另一示例中,签署文件可以是约5-10KB的量级,并且可以对应于从中获得样本的媒体记录的一部分,其约20秒长并且是指媒体记录中在捕获的样本的末尾之后的一部分。 因此,签署提取器116可以使用这里描述的任何方法从媒体样本提取特征,以生成所提取的特征的签署流。连续性跟踪器118可以接收对应的媒体记录的预定签署文件,并且,连续性跟踪器118可以将所提取的特征的所提取的签署流、与签署文件进行比较,如以下所述。可以操作客户端设备104以捕获由媒体渲染源102渲染的媒体样本的部分用于识另IJ,并将所捕获的部分发送至服务器106用于识别。客户端设备104可以被操作地通过有线或无线接口而耦接至服务器106。服务器106可以包括位置识别模块120和内容识别模块122。虽然图I图示了服务器106包括位置识别模块120和内容识别模块122两者,但是,例如,位置识别模块120和/或内容识别模块122中的任一者可以是与服务器106分开的分立实体。替代地,位置识别模块120和内容识别模块122可以是同一实体,或者,可以通过同一实体执行位置识别模块120和内容识别模块122的功能。另外,位置识别模块120和/或内容识别模块122可以位于客户端设备104中、或者可以在通过网络连接至客户端设备104的远程服务器上,如图I中所示。服务器106可以(通过有线或无线连接)从客户端设备104接收媒体样本,并且,位置识别模块120可以识别对应估计的时间位置(Ts),其基于在该时刻捕获的媒体样本指示媒体样本在媒体流(或媒体记录)中的的时间偏移。在一些示例中,Ts还可以是从媒体流的起始经过的时间量。内容识别模块122还可以可选地对所接收的媒体样本执行内容识别。如果标识仍未知,则内容识别可以识别媒体流(例如音乐声轨)中的内容。可以在任何示例媒体样本信息检索系统(例如,由英国伦敦的ShazamEntertainment、加利福尼亚埃默里维尔的Gracenot、或者加利福尼亚圣何塞的Melodis提供的)内使用或合并内容识别模块122。这些服务进行操作以接收环境音频的样本,识别音频样本的音乐内容,并向用户提供关于音乐的信息,包括轨道名称、艺术家、曲集、艺术作品、传记、唱片分类目录、音乐会票,等等。在这一点上,内容识别模块122可以包括媒体搜索引擎124,并且可以包括或有权访问对参考媒体内容对象和记录(例如,音乐声轨、视频剪辑、电影和电视节目)进行索引的媒体记录数据库126,以比较所接收的媒体样本与所存储的信息,以便识别所接收的媒体样本内的媒体内容。一旦已经识别了媒体流内的媒体对象,便可以将标识信息和其它元数据报告回客户端设备104。元数据还可以包括数据以及至其它相关内容和服务的超链接,包括推荐、广告、用以预览的提议(offer)、加标签和购买音乐记录、视频、音乐会票和奖赠内容;以及便利于在万维网上浏览、搜索、发现有关内容。替代地,客户端设备104可以从媒体渲染源102获取媒体流的样本,并对该样本执行初始特征提取处理,以便创建媒体样本的指纹(fingerprint)。客户端设备104然后可以将指纹信息发送至位置识别模块120和/或内容识别模块122,其可以仅仅基于指纹信息而识别关于该样本的信息。如此,例如,可以在客户端设备104、而非在位置识别模块120和/或内容识别模块122执行更多的计算或识别处理。 如所提及的,媒体记录数据库126可以包括多个媒体内容对象,其每个可以由唯一的标识符(例如sound ID)识别。数据库126或许不一定存储实际媒体流(诸如用于每个记录的音频或视频文件),因为可以使用sound ID从别处检索文件。然而,在一些实施例中,数据库126可以存储媒体内容文件。媒体内容数据库索引可以非常大,例如,包含用于数百万或甚至数十亿文件的索引。可以向数据库索引递增地添加新内容。数据库126还可以包括用于每个存储的音频、视频或媒体文件、或者用于每个存储的媒体索引的信息。例如,元数据可以对每个文件存储元数据,其指示关于文件的信息,诸如艺术家名称、歌曲长度、歌曲的歌词、歌词的行或词的时间索引、专辑封面、或任何其它识别文件或与文件有关的信息。图I的系统允许识别所捕获的媒体样本的时间偏移,并且也允许基于所存储的信息识别媒体样本。虽然图I图示了具有给定配置的系统,但是可以以其它方式布置该系统内的组件。例如,媒体搜索引擎124可以与内容识别模块122分立,或者,媒体样本处理可以发生在客户端104或服务器106。因此,应当理解,这里描述的配置本质上仅仅是示例性的,并且,还可以使用许多替代的配置。图I中的系统、特别是位置识别模块120可以识别媒体流内的媒体样本的时间偏移。可选地,该系统可以用于使用内容识别模块122、使用媒体流内的媒体的样本识别媒体流中的内容。在本领域中已知各种媒体样本识别技术,用于使用媒体内容对象的数据库执行媒体样本和媒体样本的特征的计算内容识别。下列美国专利和出版物描述了媒体辨识技术的可能示例,并且通过引用将其美国全文合并在此,如同在此说明书中完全提出一样=Kenyon等人的标题为“Broadcast InformationClassification System and Method”的美国专利No. 4,843,562 ;Kenyon 的标题为 “Broadcast Signal Recognition System and Method,,的美国专利 No. 4,450,531 ;Haitsma 等人的标题为 “Generating and Matching HashesofMultimedia Content” 的美国专利申请公布 No. 2008/0263360 ;ffang 和 Culbert 的标题为 “Robust and Invariant Audio Pattern Matching” 的美国专利 No. 7,627,477 ;Wang和 Avery 的标题为“Method and Apparatus for Identification ofBroadcast Source,,的美国专利申请公布No. 2007/0143777 ;Wang和Smith的标题为“System and Methodsfor Recognizing Sound and Music Signals in HighNoise and Distortion,,的美国专利 No. 6,990,453 ;以及 Blum 等人的标题为 “Method and Article of Manufacturefor Content-Based Analysis,Storage,Retrieval, and Segmentation of AudioInformation” 的美国专利 No. 5,918,223。简而言之,对媒体记录的识别通过接收媒体记录并对媒体记录进行采样而开始。将该记录与数字化且归一化的参考信号片段相关,以获得每个所得到的相关片段的相关函数峰值,从而当相关函数峰值之间的间隔在预定界限之内时提供辨识信号,并且,与相关函数峰值一致的RMS功率值的模式(pattern)在来自数字化的参考信号片段的RMS功率值的模式的预定界限内匹配,如例如美国专利No. 4,450,531中所述。因此识别匹配的媒体内容。此外,例如,媒体内容中的媒体记录的匹配位置由匹配的相关片段的位置、以及相关峰值的偏移给出。在另一示例中,通常,可以通过识别或计算媒体样本的特性或指纹、并将指纹与之前识别的指纹相比较,来识别媒体内容。样本内的计算指纹的特定位置取决于样本中的可再现点。这样的可再现地计算的位置称为“界标”。界标在样本内的位置可以通过该样本自·己确定,即,取决于样本质量并且是可再现的。也就是,每当重复该处理时,可以为相同的信号计算相同或类似的界标。加界标方案可以对于声音记录的每五秒而标记约5个或约10个界标;然而,加界标密度取决于媒体记录内的活动量。一种已知为“功率规范(PowerNorm)”的加界标技术是计算记录中的许多时间点处的瞬时功率,并选择局部最大值。这样做的一种方式是通过直接对波形进行整流和滤波而计算包络。另一种方式是计算信号的希耳伯特(Hilbert)变换(积分),并使用希耳伯特变换和原始信号的平方大小的和。还可以使用用于计算界标的其它方法。一旦已经计算了界标,就在记录中的每个界标时间点或其附近计算指纹。通过使用的指纹识别(fingerprinting)方法来定义特征与界标的接近。在一些情况下,如果特征清楚地对应于界标且不对应于前一或后一界标,则特征被认为接近界标。在其它情况下,特征对应于多个相邻界标。指纹通常是概括记录中在该时间点或其附近的特征的集合的值或值的集合。在一个实施例中,每个指纹是作为多个特征的哈希函数的单个数值。指纹的其它示例包括频谱片指纹、多片指纹、LPC系数、对数倒谱(cepstral)系数、以及频谱图峰值的频率成分。可以通过对信号的任何类型的数字信号处理或频率分析来计算指纹。在一个示例中,为了生成频谱片指纹,在每个界标时间点的附近执行频率分析,以提取最高的几个频谱峰值。然后,指纹值可以是最强的频谱峰值的单个频率值。对于关于计算音频样本的特性或指纹的更多信息,请读者参见授权给Wang和Smith的标题为“System and Methodsfor Recognizing Sound and MusicSignals in High Noise and Distortion,,的美国专利No. 6,990,453,通过引用将其完整公开合并在此,如同在此说明书中完全提出一样。因此,内容识别模块122可以接收样本并计算样本的指纹。内容识别模块122可以通过与附加辨识引擎通信来计算指纹。为了识别记录,内容识别模块122然后可以访问媒体记录数据库126,以通过生成等效指纹与媒体记录数据库126中的文件之间的对应关系以定位具有最大数目的线性地有关的对应关系、或者其特性指纹的相对位置最严密地匹配样本的相同指纹的相对位置的文件,来将样本的指纹与已知音频轨道的指纹相匹配。也就是,识别界标对之间的线性对应关系,并且根据线性地有关的对的数目而对集合评分。例如,当在容许容限内可以通过基板上相同的线性方程式描述统计上有效的数目的对应样本位置和文件位置时,可能存在线性对应关系。具有最高的统计上有效的评分(即具有最大数目的显性地有关的对应关系)的集合的文件是获胜的文件,并且被认为是匹配媒体文件。作为识别媒体流内的内容的技术的另一示例,可以使用局部式匹配技术分析媒体样本以识别其内容。例如,通常,可以通过首先匹配源自各个样本的特定指纹对象而表征两个媒体样本之间的关系。为每个媒体样本生成指纹对象的集合,其中每个指纹对象发生在特定位置。取决于相应媒体样本的内容而确定每个位置,并且,每个指纹对象表征在相应特定位置或其附近的一个或多个局部特征。接下来,为每对匹配的指纹对象确定相对值。然后生成相对值的直方图。如果发现统计上有效的峰值,则可以将两个媒体样本表征为基本上匹配。另外,可以确定时间拉伸比率,其指示与原始音频轨道相比,音频样本已经被加速或减慢多少。对于对此方法的更详细说明,请读者参见授权给Wang和Culbert的标题为“Robust and Invariant Audio Pattern Matching” 的美国专利 No. 7,627,477,通过引用将其完整公开合并在此,如同在此说明书中完全提出一样。
另外,以上的出版物内描述的系统和方法可以不仅仅返回媒体流的标识。例如,使用授权给Wang和Smith的美国专利No. 6,990,453中描述的方法,除了返回与识别的音频轨道关联的元数据之外,还可以返回媒体样本与识别的样本的起始的相对时间偏移(RTO),其称为估计的所识别的媒体流位置Ts。为了确定记录的相对时间偏移,可以将样本的指纹与指纹所匹配的原始文件的指纹相比较。每个指纹出现在给定时间,因此,在匹配指纹以识别样本之后,(样本中的匹配指纹的)第一指纹与所存储的原始文件的第一指纹之间的时间差将是样本的时间偏移,例如进入到歌曲的时间量。因此,可以确定取得样本的相对时间偏移(例如67秒进入到歌曲)。其它信息也可以用于确定RT0。例如,直方图峰值的位置可以被认为是从参考记录的起始到样本记录的起始的时间偏移。还可以取决于媒体样本的类型而执行其它形式的内容识别。例如,视频识别算法可以用于识别视频流(例如电影)内的位置。在Oostveen, J.等人的“Feature Extractionand a Database Strategy for Video Fingerprinting,, (LectureNotes in ComputerScience, 2314, (2002年3月11日),117-128)中描述了示例视频识别算法,通过引用将其全部内容合并在此。例如,可以通过确定哪个视频帧被识别而推出视频样本在视频中的位置。为了识别视频帧,可以将媒体样本的帧分割为行和列的网格,并且,对于网格的每个块,计算像素的亮度值的平均值。可以将空间滤波器应用至所计算的平均亮度值,以推出网格的每个块的指纹比特。可以使用指纹比特来唯一识别帧,并且可以将指纹比特与包括已知媒体的数据库的指纹比特相比较或匹配。从帧提取的指纹比特可以称为子指纹,并且,指纹块是来自连续的帧的固定数目的子指纹。使用子指纹和指纹块,可以执行视频样本的识别。基于媒体样本包括哪个帧,可以确定视频中的位置(例如,时间偏移)。此外,还可以执行其它形式的内容和/或位置识别,诸如使用加水印方法。例如,可以由位置识别模块120使用加水印方法以确定时间偏移,使得媒体流可以不时地嵌入水印,并且每个水印直接地、或经由数据库查询而间接地指定水印的时间或位置。替代地,如果媒体流包括直接地或间接地指示时间或位置偏移值的所嵌入的水印,则客户端设备104可以确定所渲染的媒体的样本的时间偏移,而无需与位置识别模块120通信。
在每个前述用于实施内容识别模块122的功能的示例内容识别方法中,识别处理的副作用可以是媒体样本在媒体流内的时间偏移(例如,所估计的识别的媒体流位置Ts)。因此,在这些情况下,位置识别模块120可以与内容识别模块122相同,或者,可以由内容识别模块122执行位置识别模块120的功能。因此,用户可以从客户端设备104向位置识别模块120发送位置识别查询,位置识别模块120可以使用这里描述的任何技术来将与内容有关的信息返回至客户端设备104,并且可选地,可以访问内容识别模块122以识别内容。这里描述的示例实施例适用于任何类型的媒体流,诸如,预先记录的或实况音乐、音频、视频、音频和视频的组合、或者任何其它种类的遵循媒体流中的位置的时间线的媒体或事件序列。示例实施例还适用于任何格式的媒体流,诸如CD、DVD上的媒体、压缩数字媒体、MIDI文件、动画序列、控制序列、脚本、幻灯片等。在其它示例中,客户端设备104或服务器106还可以访问媒体流库数据库128,以选择与所采样的媒体对应的媒体流,其然后可以被返回至客户端设备104以被客户端设备·104渲染。媒体流库数据库128可以位于客户端设备104中或服务器106中,或者替代地,客户端设备104和服务器106中的任一者或两者均可以通过网络连接至媒体流库数据库128。在图I中,例如,媒体流库数据库128被示出为连接至服务器106。媒体流库数据库128中的信息、或者媒体流库数据库128自身也可以被包括在媒体记录数据库126中。例如,媒体流库数据库128中的与媒体样本对应的媒体流可以被客户端设备104的用户手动选择、被客户端设备104编程地选择、或者被服务器106基于由内容识别模块122确定的媒体样本的标识选择。所选择的媒体流可以是与媒体样本不同种类的媒体,并且可以与由媒体渲染源102渲染的媒体同步。例如,媒体样本可以是音乐,而所选择的媒体流可以是歌词、音乐评分、吉他符号谱、音乐伴奏、视频、操纵木偶舞蹈、动画序列等,它们可以与音乐同步。例如,所选择的媒体流可以基于媒体样本的内容识别而确定。在一些示例中,所选择的媒体流可以是与所识别的媒体流对应的歌词。所选择的媒体流可以替代地是任何类型的媒体流,诸如,电影、声轨、歌词、文本、视频剪辑、图片、幻灯片、文档等。在另外的示例中,媒体流可以是视频流,并且所选择的媒体流可以是视频流的声轨。另外,或者作为替代,媒体流可以是声轨,并且所选择的媒体流可以是电影。在另一实施例中,所选择的媒体流可以是第一媒体流的替代版本,例如不同语言的版本。或者,所选择的媒体流可以为与第一媒体流不同的分辨率,例如高清或7. I声道环绕声,使得通过同步所选择的媒体流,可以提供更高质量版本的第一媒体流。客户端设备104可以接收所选择的与媒体样本对应的媒体流,并且可以与由媒体渲染源102渲染的媒体同步地渲染所选择的媒体流。由媒体渲染源102渲染的媒体的估计时间位置可以由位置识别模块120确定,并且可以用于确定所选择的媒体流内的渲染所选择的媒体流的对应位置。客户端设备104然后可以与由媒体渲染源102渲染的媒体同步地渲染和表现所选择的媒体流。客户端设备104可以包括位置跟踪模块130,以确保两个媒体流之间的精确同步。当客户端设备104被触发以捕获媒体样本时,从客户端设备104的参考时钟记录时间戳(T0)。在任何时间t,从自服务器106接收的所估计的识别的媒体流位置Ts加上自时间戳的时间起经过的时间,确定估计的实时媒体流位置TJt)
Tr (t) =Ts+t-T0 方程式⑴Tr(t)是从诸如媒体流的起始的参考点到当前正在渲染的媒体流的实时位置的经过时间量。因此,使用Ts (即,基于所记录的样本而估计的从媒体流的起始到媒体流的位置的经过时间量),可以计算然后,客户端设备104可以使用TJt)来与由媒体渲染源102渲染的媒体同步地(或者基本上同步地)表现所选择的媒体流。例如,客户端设备104可以在时间位置TJt)、或者在诸如经过了时间量TJt)的位置开始渲染所选择的媒体流。由于许多原因,位置跟踪可能丧失同步。在一个实例中,媒体渲染源102可能以非预期的速度渲染媒体流。例如,如果在未校准的唱机转盘或CD播放器上播放音乐记录,可以比预期的参考速度更快或更慢地播放音乐记录,或者,以与所存储的参考媒体流不同的方式播放音乐记录。或者,有时,DJ可以故意改变音乐记录的速度以达到特定效果,诸如匹配多个轨道之间的节奏。在这样的实例中,所估计的位置TJt)可能随着t增加而变得不准确,因此,所选择的媒体流可能丧失同步。作为参考速度的示例,预期CD播放器以每秒 44100个样本来进行渲染;预期45RPM黑胶唱片在唱机转盘上以每分钟45转来播放;以及预期NTSC视频流以每秒60帧来播放。在一些实施例中,为了减轻或防止所选择的媒体流丧失与由媒体渲染源102渲染的媒体的同步,可以根据速度调整比率R调整所估计的位置TJt)。例如,可以执行标题为“Robust and invariant audio pattern matching” 的美国专利 No. 7,627,477 (通过引用将其全部内容合并在此)中描述的方法以识别媒体样本、所估计的识别的媒体流位置Ts、以及速度比率R。为了估计速度比率R,计算匹配指纹的变化部分的跨频率比率(cross-frequencyratio),并且,因为频率与时间成反比,所以跨时间比率是跨频率比率的倒数。跨速度比率R是跨频率比率(例如,跨时间比率的倒数)。更具体地,使用上述方法,可以通过生成样本的时间-频率频谱图(例如,计算傅立叶变换以生成每帧中的频率面元)并识别频谱图的局部能量峰值,来表征两个音频样本之间的关系。提取与局部能量峰值有关的信息,并将该信息概括为指纹对象的列表,每个指纹对象可选地包括位置字段、变化成分、以及不变成分。然后可以匹配从各个音频样本的频谱图推出的特定指纹对象。为每对匹配的指纹对象确定相对值,例如,该相对值可以是各个音频样本的参数值的对数的商或差。在一个示例中,从媒体样本的频谱图选择频谱峰值的局部对,并且每个局部对包括指纹。类似地,从已知媒体流的频谱图选择频谱峰值的局部对,并且每个局部对包括指纹。确定样本与已知媒体流之间的匹配的指纹,并且计算样本和媒体流的每个的频谱峰值之间的时间差。例如,确定样本的两个峰值之间的时间差,并将该时间差与已知媒体流的两个峰值之间的时间差相比较。可以确定这两个时间差的比率,并且可以生成包括这样的比率(例如,从匹配的指纹对提取)的直方图。可以将直方图的峰值确定为实际速度比率(例如,媒体渲染源102播放媒体的速度与渲染参考媒体文件的参考速度相比的比率)。因此,可以通过找到直方图中的峰值(例如,使得直方图中的峰值将两个音频样本之间的关系表征为相对音高、或者在线性拉伸的情况下表征为相对播放速度)而获得速度比率R的估计。替代地,可以从来自样本和已知媒体流的匹配的指纹的频率值确定相对值。例如,确定样本的频谱图峰值对的锚点的频率值,并将该频率值与媒体流的频谱图峰值对的锚点的频率值相比较。可以确定这两个频率值的比率,并且可以生成包括这样的比率(例如,从匹配的指纹对提取)的直方图。可以将直方图的峰值确定为实际速度比率R。在方程式中,
权利要求
1.一种方法,包括 接收由媒体渲染源渲染的媒体流的样本;以及 对于从中获得所述样本的候选匹配媒体记录,在计算设备接收包括在时间上映射的描述所述候选匹配媒体记录的内容的特征的集合的签名文件。
2.如权利要求I所述的方法,其中,由服务器执行所述方法,并且其中,对于所述候选匹配媒体记录而接收所述签名文件包括从数据库检索用于所述候选匹配媒体记录的签名文件。
3.如权利要求2所述的方法,还包括 接收包括由媒体渲染源渲染的媒体流的样本的内容识别查询;以及 确定从中获得所述样本的候选匹配媒体记录的识别。
4.如权利要求3所述的方法,还包括向客户端设备发送与候选匹配媒体记录的识别关联的信息和用于每个所述候选匹配媒体记录的签名文件。
5.如权利要求I所述的方法,其中,由客户端设备执行所述方法,并且其中,对于所述候选匹配媒体记录而接收所述签名文件包括从服务器接收用于所述候选匹配媒体记录的签名文件。
6.如权利要求I所述的方法,其中,由客户端设备执行所述方法,并且其中,对于所述候选匹配媒体记录而接收所述签名文件包括从所述客户端设备的存储器检索用于所述候选匹配媒体记录的签名文件。
7.如权利要求I所述的方法,其中,由客户端设备执行所述方法,并且其中,接收由所述媒体渲染源渲染的媒体流的样本包括使用麦克风从周围环境接收所述样本。
8.如权利要求I所述的方法,还包括 接收包括从所述媒体流提取的特征的签名流; 确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的匹配特征的数目;以及 基于匹配特征的数目,识别匹配媒体记录。
9.如权利要求I所述的方法,还包括 接收包括从所述媒体流提取的特征的签名流;以及 确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的特征是否随时间基本上匹配。
10.如权利要求9所述的方法,其中,接收包括从所述媒体流提取的特征的签名流包括从所述媒体流在所述样本附近的部分接收所述签名流。
11.如权利要求9所述的方法,还包括接收与所述样本在第k个候选匹配媒体记录内的采样时间对应的时间偏移(Ts,k)。
12.如权利要求11所述的方法,还包括 将用于每个候选匹配媒体记录的签名文件内的时间位置与所述时间偏移对准;以及 将经对准的用于每个候选匹配媒体记录的签名文件与所述签名流比较。
13.如权利要求9所述的方法,其中,确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的特征是否随时间基本上匹配包括 对于给定时间片段(T1, T2),从所述签名流检索具有对应的时间h的特征匕的集合,使得 WT2 ; 在第k个签名文件内,确定基本上类似于Fj的特征(F’ j,k)是否出现在基本上类似于T;,kUp=UR1^aj-Tci)的时间a’ j,k),其中Ttl是指示记录所述样本的时间的时间戳,Trjk(t)是与在时间t的媒体流的内容对应的第k个候选匹配媒体记录内的内容的相对时间偏移,Ts,k是所述第k个候选匹配媒体记录内的样本的采样时间的时间偏移,以及Rk是指示基于所述第k个媒体记录的参考速度的由所述媒体渲染源渲染媒体流的速度的时间尺度比率;以及 当F’ j,k在与Fj的预定偏差内并且t’ j,k在与Utj)的预定偏差内时,确定匹配。
14.如权利要求9所述的方法,其中,给定签名文件指示对应的参考媒体记录的长度Lk,对于所述对应的参考媒体记录,所述给定签名文件包括在时间上映射的特征的集合,并且,所述方法包括确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的特征是否在所述参考媒体记录的时间片段(T1J2)上基本上匹配,其中根据以下而确定所述时间片段(T1J2) 对于跨越所述长度Lk的给定时间片段(T1, T2),并且,时间偏移Ts,k可以使能对于所述片段(T1, T2)的确定 T1=TcrTsVRk 方程式(η) T2=T0+(Lk-Ts, k)/Rk 方程式(12) 其中,T1对应于所述参考媒体记录在所述媒体流中的起始时间,T2对应于所述参考媒体记录在所述媒体流中的末尾时间,Ts,k是所述第k个候选匹配媒体记录内的样本的采样时间的时间偏移,以及Rk是指示基于所述第k个媒体记录的参考速度的由所述媒体渲染源渲染媒体流的速度的时间尺度比率。
15.如权利要求9所述的方法,其中,确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的特征是否随时间基本上匹配包括 将所述签名流的递增片段与所述签名文件的对应的经时间对准的部分进行迭代比较。
16.如权利要求9所述的方法,还包括当所述媒体流的签名流与用于候选匹配媒体记录的签名文件之间的基本上匹配的特征停止出现时,识别中断。
17.如权利要求16所述的方法,其中,当匹配特征的密度随时间而落在预定阈值之下时,基本上匹配的特征停止出现。
18.如权利要求16所述的方法,还包括 基于所述中断,确定所述候选匹配媒体记录的识别的一个或多个不再有效。
19.如权利要求16所述的方法,还包括 接收包括由媒体渲染源渲染的媒体流的样本的内容识别查询; 确定从中获得所述样本的候选匹配媒体记录的识别; 向客户端设备发送与候选匹配媒体记录的识别关联的信息和用于每个所述候选匹配媒体记录的签名文件;以及 基于所述中断,向所述客户端设备发送所述候选匹配媒体记录的识别的一个或多个不再有效的通知。
20.如权利要求16所述的方法,还包括对由所述媒体渲染源渲染的媒体流执行内容识别。
21.如权利要求9所述的方法,还包括 将包括最高数目的与所述签名流的特征匹配的特征的给定签名文件识别为匹配;以及 识别与所述给定签名文件对应的媒体记录的识别。
22.如权利要求9所述的方法,还包括 接收包括从所述媒体流提取的附加特征的签名流增量; 确定多个签名文件的给定签名文件包括与所述签名流增量中的特征匹配的特征;以及 识别与所述给定签名文件对应的媒体记录的识别。
23.如权利要求22所述的方法,其中,所述方法由服务器执行,并且所述方法还包括 从存储的媒体流中检索所述签名流和所述签名流增量,其中所述签名流包括从所存储的媒体流的第一部分提取的特征,并且所述签名流增量包括从所存储的媒体流的递增部分中提取的特征。
24.如权利要求9所述的方法,还包括 对于多个签名文件的每个,在时间上向前和向后直到在两个方向上均丧失连续性为止,将特征与从所述媒体流提取的特征相比较; 将包括最长连续性长度的与所述签名流的特征匹配的特征的给定签名文件识别为匹配,其中从匹配特征的两个端点之间的时间差确定所述连续性长度;以及确定与所述给定签名文件对应的媒体记录的识别。
25.如权利要求9所述的方法,还包括 将包括最长连续性长度的与所述签名流的特征匹配的特征的给定签名文件识别为匹配,其中从匹配特征的两个端点之间的时间差确定所述连续性长度;以及确定与所述给定签名文件对应的媒体记录的识别。
26.如权利要求9所述的方法,还包括 确定具有基本上匹配所述签名流中的特征的特征的给定签名文件;以及 识别与从中获得所述样本的候选匹配媒体记录有关的第二媒体记录。
27.如权利要求26所述的方法,还包括确定第二媒体记录与由所述媒体渲染源渲染的媒体流的重新对准。
28.如权利要求26所述的方法,还包括 将所述第二媒体记录提供给客户端设备;以及 与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录。
29.如权利要求28所述的方法,其中,所述媒体流是音乐记录,并且所述第二媒体记录是所述音乐记录的歌词,并且其中,与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录包括显示所述音乐记录的歌词。
30.如权利要求29所述的方法,其中,显示所述音乐记录的歌词包括显示所述音乐记录的歌词的即将到来行,并且,所述方法还包括 当所述媒体流的签名流与用于候选匹配媒体记录的签名文件之间的基本上匹配的特征停止出现时,中止所述音乐记录的歌词的即将到来行的显示。
31.如权利要求28所述的方法,还包括 当所述媒体流的签名流与用于候选匹配媒体记录的签名文件之间的基本上匹配的特征停止出现时,中止与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录。
32.如权利要求31所述的方法,还包括使用所述候选匹配媒体记录的签名文件执行位置识别,以识别所述候选匹配媒体记录在所述媒体流中的时间偏移。
33.如权利要求32所述的方法,还包括在与所述候选匹配媒体记录的所识别的时间偏移对应的位置渲染所述第二媒体记录,使得所述第二媒体记录和在所述媒体流中渲染的媒体记录基本上同步。
34.如权利要求28所述的方法,还包括 确定已经丧失所述第二媒体流与所述媒体流之间的同步; 使用所述签名文件确定所述媒体流中的候选匹配媒体记录的时间位置;以及 在所确定的时间位置渲染所述第二媒体流。
35.如权利要求34所述的方法,其中,确定已经丧失所述第二媒体流与所述媒体流之间的同步包括对于与所述媒体流中的特征的匹配,周期性地扫描所述签名文件。
36.如权利要求28所述的方法,还包括 确定已经丧失所述第二媒体流与所述媒体流之间的同步; 将第三媒体记录提供给客户端设备;以及 与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第三媒体记录。
37.如权利要求I所述的方法,还包括将每个接收的签名文件存储在存储器中。
38.如权利要求I所述的方法,其中,从由服务器和客户端设备组成的组中选择所述计算设备。
39.如权利要求9所述的方法,其中,基于确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的特征是否随时间基本上匹配,所述方法还包括 确定所述媒体流与参考匹配媒体记录之间的时间尺度比率的不匹配,其中所述时间尺度比率指示基于参考媒体记录的参考速度的由给定媒体渲染源渲染给定媒体流的速度。
40.如权利要求39所述的方法,还包括 确定具有基本上匹配所述签名流中的特征的特征的给定签名文件; 识别与从中获得所述样本的候选匹配媒体记录有关的第二媒体记录; 将所述第二媒体记录提供给客户端设备; 与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录;以及确定对所述媒体记录与所述第二媒体记录之间的时间尺度比率的调整,以便执行所述第二媒体记录与所述媒体记录的重新同步。
41.如权利要求I所述的方法,还包括将用于给定匹配媒体记录的给定签名文件识别为随时间基本上匹配于所述媒体流的签名流中的特征。
42.一种包括有形计算机可读介质的制品,在所述有形计算机可读介质上编码有计算机可读指令,所述指令包括 用于接收由媒体渲染源渲染的媒体流的样本的指令;以及 对于从中获得所述样本的候选匹配媒体记录,用于接收包括在时间上映射的描述所述候选匹配媒体记录的内容的特征的集合的签名文件的指令。
43.如权利要求42所述的制品,还包括指令,用于 接收包括从所述媒体流提取的特征的签名流;以及确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的特征是否随时间基本上匹配。
44.如权利要求42所述的制品,还包括指令,用于 确定具有基本上匹配所述签名流中的特征的特征的给定签名文件;以及 识别与从中获得所述样本的候选匹配媒体记录有关的第二媒体记录。
45.如权利要求44所述的制品,还包括指令,用于 将所述第二媒体记录提供给客户端设备;以及 与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录。
46.一种系统,包括 输入接口,被配置为接收由媒体渲染源渲染的媒体流的样本;以及 连续性跟踪器,被配置为对于从中获得所述样本的候选匹配媒体记录,接收包括在时间上映射的描述所述候选匹配媒体记录的内容的特征的集合的签名文件。
47.如权利要求46所述的系统,其中,所述连续性跟踪器被配置为接收包括从所述媒体流提取的特征的签名流,以及确定所述媒体流的签名流与用于至少一个候选匹配媒体记录的签名文件之间的特征是否随时间基本上匹配。
48.如权利要求46所述的系统,其中,所述连续性跟踪器被配置为确定具有基本上匹配所述签名流中的特征的特征的给定签名文件,以及识别与从中获得所述样本的候选匹配媒体记录有关的第二媒体记录。
49.如权利要求48所述的系统,还包括媒体播放器,被配置为与由所述媒体渲染源渲染的媒体流基本上同步地渲染所述第二媒体记录。
全文摘要
本发明提供用于处理媒体流的样本的方法和系统。在一个示例中,一种方法包括接收由媒体渲染源渲染的媒体流的样本,并且,对于从中获得所述样本的匹配媒体记录,所述方法还包括接收包括在时间上映射的描述所述匹配媒体记录的内容的特征的集合的签名文件。可以将每个接收的签名文件存储在存储器中。另外,可以接收包括从媒体流提取的特征的签名流,并且,可以确定所述媒体流的签名流与用于至少一个匹配媒体记录的签名文件之间的匹配特征的数目。在一个示例中,当所述媒体流的签名流与用于匹配媒体记录的签名文件之间的基本上匹配的特征停止出现时,可以识别中断。
文档编号G06F17/30GK102959543SQ201180032224
公开日2013年3月6日 申请日期2011年5月4日 优先权日2010年5月4日
发明者A.L-C.王, A.A.雷维尔 申请人:沙扎姆娱乐有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1