表征媒体的方法和装置的制作方法

文档序号:7937606阅读:396来源:国知局
专利名称:表征媒体的方法和装置的制作方法
技术领域
本发明总体涉及媒体监测,更具体地说,涉及用于表征媒体以及用 于生成对媒体信息进行识别的签名的方法和装置。
背景技术
已知使用签名匹配技术来对媒体信息进行识别,更具体地说,对音 频流(例如,音频信息)进行识别。已知的签名匹配技术通常用于电视 及电台受众统计应用(metering application),并且使用几种用于生成签名 并匹配的方法来实现。例如,在电视观众统计应用中,在监测地点(例 如,监测的家庭)和参考地点生成签名。监测地点通常包括例如对受众 成员的媒体消费进行监测的家庭的之类的位置。例如,在监测地点,可 以基于与所选择的频道、广播台等相关联的音频流来生成监测的签名。 然后,可以将该监测的签名发送到中央数据收集装置进行分析。在参考 地点,基于在广播区域内提供的已知节目来生成签名(通常称为参考签 名)。该参考签名可以存储在参考位置和/或中央数据收集装置,并且与在 监测位置生成的监测签名进行比较。可以找到一个与参考签名匹配的监 测签名,并且与匹配的参考签名对应的已知节目可以被识别为在监测地 点呈现的节目。


图1A和图1B例示了用于生成签名并识别音频流的示例性的音频流 识别系统。
图2是例示了示例性的签名生成处理的流程图。 图3是例示了图2示出的示例性的捕捉音频处理的进一步细节的流 程图。
图4是例示了图2示出的示例性的计算判决量度处理的进一步细节 的流程图。
图5是例示了用于确定图4所示的频段(bin)和频带(band)之间
关系的一个示例性处理的进一步细节的流程图。
图6是例示了用于确定图4所示的频段和频带之间关系的第二示例
性处理的进一步细节的流程图。
图7是示例性的签名匹配处理的流程图。
图8是如何根据图7的流程图对签名进行比较的图。
图9是基于音频流或音频块来生成签名的示例性签名生成系统的框图。
图IO是用于比较签名的示例性的签名比较系统的框图。 图11是可以用于实现此处描述的方法和装置的示例性的处理器系统 的框图。
具体实施例方式
虽然以下公开了除了其他部件以外使用在硬件上执行的软件实现的 示例性的系统,但是应注意的是,这种系统仅仅是示例性的,而不应当 视为是限制性的。例如,可以单独用硬件,单独用软件或者以硬件和软 件的任何组合来实施这些硬件和软件部件中的任何一个或全部。因此, 虽然以下描述了示例性系统,但本领域的技术人员容易理解,所提供的 示例不是实现该系统的唯一方式。
此处描述的方法和装置总体涉及生成可用于对媒体信息进行识别的 数字签名。数字签名是出于匹配、索引或数据库检索的目的而精确地表 征音频信号的音频描述符。具体而言,针对基于音频流或音频块(例如,音频信息)生成数字签名而描述了所公开的方法和装置。但是,此处描 述的方法和装置还可以基于任何其它类型的媒体信息(例如,视频信息、 网页、静止图像、计算机数据等)来生成数字签名。此外,媒体信息可 以与以下信息相关联广播信息(例如,电视信息,电台信息等),从任
何存储介质(例如,压缩盘(CD)、数字通用盘(DVD)等)中重现的 信息,或者与音频流、视频流相关联的任何其它信息,或者从中生成了 数字签名的任何其它媒体信息。在一个具体的示例中,基于以下数字签 名来对音频流进行识别,这些数字签名包括监测地点(例如,监测的家 庭)生成的监测数字签名以及在参考地点和/或中央数据收集装置处生成 和/或存储的参考数字签名。
如以下将具体描述的,此处描述的方法和装置基于数字签名来对包 括音频流的媒体信息进行识别。此处描述的示例性的技术利用音频采样 块通过对音频采样块中的音频频谱的属性进行分析而在特定时间计算签 名。如下面将要描述的,对音频频谱的信号频带计算判决函数或判决量 度,并且基于该判决量度的值将签名比特分配给音频采样块。可以基于 频谱频带之间的比较或者通过将频带与两个或更多个矢量进行巻积来计 算判决函数或判决量度。除了根据原始信号的频谱表示(spectral representation)以外,可以根据其他方法(例如小波变换、余弦变换等) 得到判决函数。
可以基于与受众所消费的媒体信息(例如,监测的音频流)相关联 的音频流在监测地点利用以上技术来生成监测的签名。例如,可以基于 在监测地点呈现的电视节目的轨道(track)的音频块来生成监测的签名。 然后,该监测的签名可以被传送到中央数据收集装置以与一个或更多个 参考签名进行比较。
基于与已知的媒体信息相关联的音频流而在参考地点和/或中央数 据收集装置处利用以上技术来生成参考签名。已知的媒体信息可包括在 区域内广播的媒体、在家庭内重现(reproduce)的媒体、经由互联网接 收到的媒体等。各参考签名与媒体标识信息(例如,歌曲标题、电影标 题等) 一起存储在存储器中。当在中央数据收集装置处接收到监测的签名时,将该监测的签名与一个或更多个签名进行比较直到找到一个匹 配。然后,该匹配信息用于对从中生成了该监测签名的媒体信息(例如, 监测的音频流)进行识别。例如,可以参照查找表或数据库来检索与从
中生成了该监测签名的媒体信息相对应的媒体标题、节目标识(program identity)、居操号(episode number)等。
在一个示例中,监测签名和参考签名的生成速率可能不同。当然, 在监测签名与参考签名的数据速率不同的设置中,当将监测签名与参考 签名进行比较时,必须对该差异进行说明。例如,如果监测速率是参考 速率的25%,则各个连续的监测签名将对应于每第4个参考签名。
图1A和图1B例示了用于生成数字频谱签名以及识别音频流的示例 性的音频流识别系统100和150。示例性的音频流识别系统100和150可 以分别实现为电视广播信息识别系统和无线电广播信息识别系统。示例 性的音频流识别系统100包括监测地点102 (例如,监测家庭)、参考地 点104及中央数据收集装置106。
对电视广播信息进行监测包括以下步骤基于电视广播信息的音频 数据在监测地点102生成监测的签名,并且将监测的签名经由网络108 传送至中央数据收集装置106。可以在参考地点104处生成参考签名并且 也可以经由网络108将参考签名传送至中央数据收集装置106。可以在中 央数据收集装置106处通过将监测的签名与一个或更多个参考签名进行 比较直到找到一个匹配为止来对由在监测地点102处生成的监测的签名 所代表的音频内容进行识别。或者,可以将监测的签名从监测地点102 传送至参考地点104,并且在参考地点104处将该监测的签名与一个或更 多个参考签名进行比较。在另一个示例中,可以将参考签名传送至监测 地点102并且在监测地点102中将该参考签名与监测的签名进行比较。
监测地点102可以是,例如,对受众的媒体消费进行监测的家庭。 通常,监测地点102可包括多个媒体递送设备110、多个媒体呈现设备 112、和用于生成与在监测地点102呈现的媒体相关联的监测的签名的签 名生成器114。
该多个媒体递送设备110可包括,例如,机顶盒调谐器(例如,有线调谐器、卫星调谐器等)、DVD播放器、CD播放器、收音机等。媒体 递送设备110 (例如,机顶盒调谐器)中的部分或全部可以以可通信的方 式耦合到一个或更多个广播信息接收设备116,广播信息接收设备116可 包括电缆、碟形卫星天线、天线、和/或用于接收广播信息的任何其它的 合适设备。媒体递送设备110可被配置为基于例如广播信息和/或存储的 信息来重现媒体信息(例如,音频信息、视频信息、网页、静止图像等)。 可以从广播信息接收设备116获得广播信息,并且可以从信息存储介质 (例如,DVD、 CD、磁带等)获得存储的信息。媒体递送设备110以可 通信的方式耦合到媒体呈现设备112,并且可被配置为将媒体信息传送至 媒体呈现设备112进行呈现。媒体呈现设备112可包括具有显示设备和/ 或一组扬声器的电视,受众成员通过电视来消费例如广播电视信息、音 乐、电影等。
如下面将更详细描述的那样,签名生成器114可用于基于音频信息 生成监测的数字签名。具体而言,在监测地点102,可以将签名生成器 114配置成基于监测的音频流来生成监测的签名,该监测的音频流是由媒 体递送设备110重现和/或由媒体呈现设备112呈现的。签名生成器114 可经由音频监测接口 118以可通信的方式耦合到媒体递送设备110和/或 媒体呈现设备112。按照这种方式,签名生成器114可获得与媒体递送设 备110重现的和/或媒体呈现设备112呈现的媒体信息相关联的音频流。 另外地或另选的是,签名生成器114可以以可通信的方式耦合到被放置 在靠近媒体呈现设备112处的麦克风(未示出)以监测音频流。签名生 成器114还可以以可通信的方式经由网络108耦合到中央数据收集装置 106。
网络108可用于在监测地点102、参考地点104和中央数据收集装 置106之间传送签名(例如,数字频谱签名)、控制信息、和域配置信息。 任何有线或无线通信系统(例如,宽带有线网络、DSL网络、蜂窝电话 网络、卫星网络和/或任何其它通信网络)都可以用于实现网络108。
如图1A所示,参考地点104可包括多个广播信息调谐器120、参考 签名生成器122、发射机124、数据库或存储器126和广播信息接收设备128。参考签名生成器122和发射机124可以以可通信的方式耦合到存储 器126以在其中存储参考签名和/或从其中检索存储的参考签名。
广播信息调谐器120可以以可通信的方式耦合到广播信息接收设备 128,广播信息接收设备128可包括电缆、天线、碟形卫星天线和/或用于 接收广播信息的任何其它的合适设备。各个广播信息调谐器120可被配 置为调谐到特定的广播频道。通常,参考地点104处的调谐器的数量等 于特定的广播区域中可用的频道的数量。按照这种方式,可以对通过广 播区域中的所有的频道发送的所有媒体信息来生成参考签名。可以将经 过调谐后的媒体信息的音频部分从广播信息调谐器120传送至参考签名 生成器122。
参考签名生成器122可以被配置为获得在特定的广播区域中可得到 的所有媒体信息中的音频部分。然后,参考签名生成器122可以基于音 频信息生成多个参考签名(如以下将更详细描述的)并且将该参考签名 存储在存储器126中。虽然在图1中示出了一个参考签名生成器,但是 在参考地点104可以使用多个参考签名生成器。例如,该多个签名生成 器中的每一个可以以可通信的方式耦合到这些广播信息调谐器120中一 个相应广播信息调谐器120。
发射机124可以以可通信的方式耦合到存储器126并且被配置为从 其中检索签名,并且经由网络108将参考签名传送至中央数据收集装置 106。
中央数据收集装置106可以被配置为将从监测地点102接收到的监 测的签名与从参考地点104接收到的参考签名进行比较。此外,中央数 据收集装置106可以被配置为通过将监测的签名与参考签名进行匹配来 对监测的音频流进行识别并且利用该匹配信息来从数据库中检索电视节 目标识信息(例如,节目标题、广播时间、广播频道等)。中央数据收集 装置106包括接收机130、签名分析器132和存储器134,它们都如图所 示以可通信的方式耦合。
接收机130可以被配置成经由网络108接收监测的签名和参考签名。 接收机130以可通信的方式耦合到存储器134并且被配置为将监测的签名以及参考签名存储其中。
签名分析器132可以用于对参考签名与监测的签名进行比较。签名 分析器132以可通信的方式耦合到存储器134并且被配置为从存储器134 中检索监测的签名和参考签名。签名分析器132可以被配置为从存储器 134中检索参考签名和监测的签名,并且将该监测的签名与参考签名进《亍 比较直到找到一个匹配为止。可以使用任何机器可访问的信息存储介质 (例如一个或更多个硬盘驱动器、 一个或更多个光存储设备等)来实现 存储器134。
虽然在图1A中签名分析器132位于中央数据收集装置106中,但是, 签名分析器132可以更换为位于参考地点104。在这样的配置中,可以经 由网络108将监测的签名从监测地点102传送至参考地点104。另选的是, 存储器134可以位于监测地点102,并且可以通过发射机124经由网络 108周期性地将参考签名添加到存储器134。另外,虽然签名分析器132 被示出为与签名生成器114及122分离的设备,但是,签名分析器132 可以与参考签名生成器122和/或签名生成器114 一体地形成。另外,虽 然图1说明了单个的监测地点(S卩,监测地点102)和单个的参考地点(即, 参考地点104),但是,可以经由网络108将多个这种地点耦合到中央数 据收集装置106。
图1B的音频流识别系统可以配置为对与无线电广播信息相关联的 音频流进行监测和识别。通常,音频流识别系统150用于对由特定的广 播区域中的多个无线电台广播的内容进行监测。与用于对受众所消费的 电视内容进行监测的音频流识别系统100不同,音频流识别系统150可 以用于对在广播区域内广播的音乐、歌曲等以及它们被广播的次数进行 监测。这种类型的媒体追踪可用于确定与各个音频作品相关联的版税 (royalty)支付、版权的正确使用等。音频流识别系统150包括监测地点 152、中央数据收集装置154和网络108。
监测地点152被配置为接收在特定的广播区域中可得到的所有的无 线电广播信息,并且基于该无线电广播信息生成监测的签名。监测地点 152包括该多个广播信息调谐器120、该发射机124、该存储器126和该广播信息接收设备128,所有这些都结合图1A进行了说明。此外,监测 地点152包括签名生成器156。当在音频流识别系统150中使用时,广播 信息接收设备128被配置为接收无线电广播信息,并且广播信息调谐器 120被配置为调谐到该无线电广播电台。监测地点152处的广播信息调谐 器120的数量可以等于特定广播区域中无线电广播电台的数量。
签名生成器156被配置为从各个广播信息调谐器120接收被调谐到 的音频信息并且生成该调谐到的音频信息的监测签名。虽然示出了一个 签名生成器(即,签名生成器156),但是监测地点152可以包括多个签 名生成器,各个签名生成器以可通信的方式耦合到广播信息调谐器120 中的一个。签名生成器156可以将监测的签名存储在存储器126中。发 射机124可以从存储器126中检索监测的签名并且经由网络108将它们 传送至中央数据收集装置154。
中央数据收集装置154被配置为从监测地点152接收监测的签名, 基于参考音频流生成参考签名,并将监测的签名与参考签名进行比较。 中央数据收集装置154包括接收机130、签名分析器132和存储器134。 所有这些都结合图1A在上面进行了具体说明。此外,中央数据收集装置 154包括参考签名生成器158。
参考签名生成器158被配置为基于参考音频流生成参考签名。该参 考音频流可以存储在任何类型的机器可访问介质(例如,CD、 DVD、数 字音频带(DAT))中。通常,艺术家和/或唱片制作公司将它们的音频作 品(g卩,音乐、歌曲等)发送至中央数据收集装置154以将它们添加到 参考库中。参考签名生成器158可以从机器可访问的介质中读取音频数 据并且基于各个音频作品(即,图3中的捕获的音频300)生成多个参考 签名。然后,参考签名生成器158可以将参考签名存储在存储器134中 以用于由签名分析器132进行随后的检索。可以将与各个参考音频流相 关联的标识信息(例如,歌曲标题、艺术家的名字、轨道号等)存储在 数据库中并且可以基于参考签名进行索引。按照这种方式,中央数据收 集装置154包括具有参考签名以及与所有已知且可得到的歌曲标题相对 应的标识信息的数据库。接收机130被配置为从网络108接收监测的签名,并且将该监测的 签名存储在存储器134中。由签名分析器132从存储器134中检索出监 测的签名和参考签名以用于对在广播区域内广播的监测音频流进行识 另lj。签名分析器132可以通过首先将监测的签名与参考签名进行匹配来 对监测的音频流进行识别。然后,将该匹配信息和/或匹配参考签名用于 从存储在存储器134中的数据库中检索标识信息(例如,歌曲标题、歌 曲轨道、艺术家等)。
虽然在图1B中示出了一个监测地点(例如,监测地点152),但是 多个监测地点可以以可通信的方式耦合到网络108并且被配置为生成监 测的签名。具体而言,各个监测的地点可以位于各自广播区域中,并且 被配置为对各自广播区域内的广播电台的内容进行监测。
下面描述了用于创建例如长度为24比特的数字签名的示例性签名 生成处理和装置。在一个示例中,从具有大约2秒时长音频采样的长块 中得到各个签名(即,各个24比特的字)。当然,所选择的签名长度以 及音频采样块的大小仅仅是示例性的,并且可以选择其它的签名长度和 块大小。
图2是表示示例性的签名生成处理200的流程图。如图2所示,签 名生成处理200首先捕捉要由签名表征的音频块(方框202)。可以经由 例如到音频源的硬线连接(hardwiredconnection)或者经由到音频源的无 线连接(诸如音频传感器)来从音频源捕捉音频。如果音频源是模拟的, 则该捕捉包括使用例如模/数转换器来对模拟音源进行采样(数字化)。
以8kHz的采样率(Fs)对要确定其签名的进来的模拟音频流进行数 化字采样。这意味着由以每秒8000个采样的速率或者以125微秒(us) 1个采样的速率抽取的数字采样来表示模拟音频。可以用16比特的分辨 率来表示各个音频采样。通常,这里用变量N来表示音频块中捕捉的采 样数量。在一个示例中,以8kHz对音频采样2.048秒的时长,其结果是 N二 16384个时域的采样。在这种设置中,捕捉的音频的时间范围对应于 t…t+N/Fs,其中,t是第一个釆样的时间。当然,上面规定的具体采样率、 比特分辨率、采样时长和所得到的时域采样的数量仅仅是一个示例。如图3所示,可以通过在输入缓存区中将采样移位诸如256个采样 的量(方框302),并且读取新的采样以填入缓存区中为空的部分(方框 304)来实现捕捉音频处理202。如下面的示例中描述的,因为单独的频 段(Frequency Bin)对于音频块的选择更为敏感,所以从包括多个频段 的频带中而不是从频段中得到表征音频块的签名。在一些示例中,因为 参考签名和测量地点签名(后面称作地点单元签名(site unit signature)) 是从在时域中无法彼此对准的音频采样块中计算出来的,所以确保该签 名相对于块排列的稳定至关重要。为了解决这个问题,在一个示例中, 以32毫秒的间隔来捕捉参考签名(即,通过附加上256个新的采样并且 丢弃最旧的256个采样来对16384采样的音频块进行更新)。在示例性的 地点单元中,以128毫秒的时间间隔或者以1024个采样的采样增量来捕 捉签名。因此,最差情况参考签名与地点单元签名之间的块偏差是128 个釆样。签名的所期望特征是对128个釆样的移位具有鲁棒性。实际上, 在下述的匹配处理中,希望地点单元签名与参考签名完全一致以能够成 功地"命中(hit)"査找表
参照图2,在捕捉到音频之后(方框202),对捕捉到的音频进行变 换(方框204)。在一个示例中,该变换可以是从时域到频域的变换。例 如,可以将捕捉到的音频的N个采样转换成音频频谱,该音频频谱由包 括实部频率分量和虚部频率分量的N/2个复数的离散傅立叶变换(DFT) 系数来表示。下式1示出了一个示例性的频率转换式,对时域的幅度值 执行该频率转换以将其转换成复值的频域谱系数X[k]。
<formula>formula see original document page 18</formula>式l
其中,x[k]是具有实部分量和虚部分量的复数,从而,
Z[W-^^] + A/[W,0"SiV-l,实部和虚部分别为A阅和^p]。由频段 索引k来标识各个频率分量。虽然上述说明提及了DFT处理,但是,可 以釆用任何适当的变换(诸如,小波变换、离散余弦变换(DCT)、 MDCT、 哈尔(Haar)变换、沃尔什(Walsh)变换等)。变换结束后(方框204),处理200对判决量度进行计算(方框206)。 如下所述,可以通过将变换后的音频划分成为频带(即,划分成几个频 带,各个频带包括几个复值的频率分量段(frequency component bin))来 计算判决量度。在一个示例中,可以将变换后的音频划分成频段的24个 频带。划分之后,针对各个频带,例如,基于频带中的谱系数值之间的 关系(对它们进行相互比较,或者与另一个频带的值进行比较,或者用 两个或更多个矢量进行巻积)来确定判决量度。所述关系可以基于对各 个频带内频率分量组的处理。在一个具体的示例中,可以按照迭代的方 式来选择频率分量组以使得一个频带内的所有频率分量段在迭代中的一 些点处成为组中的一个成员。判决量度的计算针对所考虑的频段的各个 频带生成了例如一个判决量度。因此,对于频段的24个频带,生成了24 个离散的判决量度。下面结合图4至图6来说明示例性的判决量度计算。 基于判决量度(方框206),处理200确定数字签名(方框208)。因 此,签名的一个示例性的结构是从相应的判决量度的符号(即,正和负) 中得到各个比特。例如,如果相应的判决量度(下面将其定义为DB[p], 其中p是包括正在分析的频段的集合(collection)的频带)为非负,则 将24比特的签名中的各个比特设为1。反之,如果相应的判决量度(DB[p]) 为负,则将24比特的签名中的1个比特设为0。
确定了签名之后(方框208),处理200确定是否应该对签名生成处 理进行迭代(方框210)。当应该生成另一个签名时,处理200捕捉音频 (方框202),处理200进行重复。
图4中示出了计算判决量度206的示例性的处理。根据此示例,在 对音频进行了变换之后(方框206),将变换后的音频划分成频带(方框 402)。在一个示例中,通过在例如开始于k=508处的3072个连续频段 (其被划分成24个频带)处对谱分量(实部和虚部)进行观察来计算在 时刻t (例如,捕捉到最后一个幅度的时间)处的24比特的签名S(t)。这 3072个频段跨越了例如从大约250Hz至大约3.25kHz的频率范围。该频 率范围是其中包含了典型音频内容(诸如语音和音乐)中的大部分音频 能量的频率范围。这些频段的集合形成了例如24个频带B[p] (0Sp^P,其中,P-24个频带),其中每个频带包括128个频段。通常,在一些示 例中,对于不同的频带, 一个频带内的频段的数量可以不同。
在将变换后的音频划分成频带之后(方框402),确定各个频带中的 频段之间的关系(方框402)。也就是说,为了利用签名来表征频谱,必 须按照能够对各个频带縮减到单个数据比特的方式来对一个频带中相邻 频段之间的关系进行计算。可以通过对频率分量段进行分组并且对各个 组进行操作来确定这些关系。图5和图6示出了用于确定各个频带中的 频段之间关系的两个示例性的方式。在一些示例中,可以将针对所选择 频带的判决函数计算视为数据縮减步骤,由此来将一个频带中的频谱系 数的值縮减为1个比特的值。
通常,可以在不参考底层(underlying)频带的能量或者频谱分量的 幅度的情况下构造判决函数或量度D。为了得到不同的函数D,可以对 于能够使用的DFT系数的实部和虚部矢量来构造二次型(quadratic form)。考虑矢量(XR(k),X!(k"的集合(其中,k是DFT系数的索引),可 以将二次型D写成上述集合中的矢量的两两的标量积(点积)的线性组 合。可以通过将表示频段的虚部分量和实部分量相乘并相加来确定各个 频带中的频段之间的关系。这是可行的,因为如上所述,变换的结果包 括各频段的实部分量和虚部分量。下式2示出了判决量度的示例。如下 所示,D[M]是围绕频率索引为m的频段的一个邻域的或一组的频段 m-w,…m,…,m+w的实频谱分量与虚频谱分量的乘积。当然,D[M]的计算 对于频带内的各m值是迭代的。因此,对式2示出的计算进行迭代直到 处理了整个频带的频率分量段为止。
式2
其中,^,々 ,、是要确定的系数,而厶i^A",v是跨过整个邻域(即, 跨过频带中的所有频段)的索引。设计目标是确定呈完全指定了D[m]的 该二次型形式的系数b,AH的数值。
在基于各m值附近的频段而针对所选择的频带中的各m值计算出了D[m]的值之后,在构成频带p的所有频段上对D[m]求和以获得频带p的 总判决量度DB[p]。通常,可以用由频谱幅度的实部和虚部形成的矢量的 点积的线性组合来表示DB[p]。因此,还可以用式3所示的形式来表示频 带p的判决函数。如结合图2所述的,在一个示例中,符号(即,判决 量度的正或负)决定了所考虑的频带的签名比特分配。
式3
转向图6,可以按照与结合图5所描述的示例性方式不同的方式来 确定频带中的频段之间的关系。如下所述,该第二示例性的方式是如下 方法,即通过将表示或构成频谱的频带的各频段与一对M分量的复矢量 进行巻积来从信号(诸如音频信号)的频谱中得到鲁棒的签名。
在一个这样的示例中,判决量度可以将组的宽度限制为3个频段。 也就是说,由图4的方框402执行的划分生成了分别具有3个频段的多 个组,从而可以考虑w=l的值。在这样的布置中,不是计算系数 ,,々 ,^ ,
而是在一个示例中可以用一对3个元素的复矢量与构成一个组的3个所 选择的频段(例如,3个傅立叶系数)执行巻积(方框602)。用于巻积 的示例性矢量如下式4和5所示。根据以上的说明,可以对考虑的3个 频段宽的组进行索弓I并递增直到频带中的各个频段都被考虑了为止。
虽然在下式中示出了具体的示例性的矢量,但是,应了解的是,可 以用任何适当的矢量值与感兴趣的3个频段的组(g卩,表示了感兴趣频 段的傅立叶系数)进行频域巻积或滑动相关。在另一些示例中,可以使 用长度大于3的矢量。因此,以下的示例仅仅是可以使用的矢量的一个 实施例。在一个示例中,用于以等概率来生成值为1或0的签名比特的 一对矢量必须具有恒定的能量(即,这两个矢量的元素的平方和必须完 全相同)。此外,在期望保持计算简单时,矢量元素的数量应当较少。在 一个示例性的实现中,元素的数量为奇数以创建在感兴趣的频段的任一 侧长度对称的邻域。在生成签名时,有利的是,针对不同的频带选择不 同的矢量对以在签名的比特之间获得最大的去相关(decorrelation )。<formula>formula see original document page 22</formula>对于索引为k的频段,与复数的3元素矢量W:[a+jb,c,d+je]的巻积得 到式6所示的复数输出。
<formula>formula see original document page 22</formula>
对于上面的矢量对,可以使用这两个矢量来计算巻积的频段幅度之 间的能量差。在式7中示出了该差。
<formula>formula see original document page 22</formula>
在展开并简化之后,其结果如式8所示。
<formula>formula see original document page 22</formula>
其中,<formula>formula see original document page 22</formula>并且<formula>formula see original document page 22</formula>
以上针对时域采样块内的频段k计算了与能量分布特性有关的特
征。在这种情况下,这是对称的测度。如果在频带Bp的所有频段上对能 量差求和,可以得到如式9所示的整个块的相应分布测度。
<formula>formula see original document page 22</formula>其中,尸,和&是频带户的起始频段索引和结束频段索引。因此,感兴趣的频带的总判决函数可以是实部及虚部分量与针对属于该频带的各频段而适当选择的数值参数的乘积之和。
为了使签名是唯一的,该签名的各个比特应当与其它比特高度地去相关。这种去相关可以通过在不同的频带的巻积计算中使用不同的系数来实现。通过对包含对称的复数三元组的矢量进行巻积有助于提高这种去相关。在以上的示例中,获得了相关的乘积,其包括与巻积相关联的所有3个频段的实部和虚部两者。这与基于对实部和虚部进行平方并相加的简单的能量测度大不相同。
在一些布置中,缺点之一是,所生成的大约30%的签名包含高度相关的相邻比特。例如,24比特中的最高位8个比特可能全为1或0。这种签名称作平凡(trivial)的签名,因为它们是从如下的音频块中得到的在所述音频块中,对于许多频谱频带而言,能量分布至少关于频谱的有效(significant)部分几乎是完全相同。所得到的频带的这种高度相关的特性导致了在很大片段中签名比特彼此完全相同。彼此差异很大的几个音频波形可能会产生将导致虚假的正匹配的签名。这种平凡的签名可以在匹配处理期间被拒绝并且可以由检测是否存在1或0的长字符串的匹配处理来检测这种平凡的签名。
为了从这种歪曲(skewed)的分布中提取出有意义的签名,需要使用多于两个矢量来提取频带表示。在一个示例中,可以使用3个矢量。在下式10 — 12中示出了可以使用的3个矢量的示例。
^ <formula>formula see original document page 23</formula>『3
i,i VJ .、' i,i VI 、 —(—+—y)丄一(---力
2 22 2 2 2
式12
现在可以按照以下方式来计算24比特的签名,即签名的各个比特p (03-3)与用于确定其值的矢量对中的其相邻的比特不同
式12
作为示例,在上式中p=0,3,6等的比特或频带可以使用m=l,n=2; 而p=l,4,7等的比特或频带可以使用m=l,n=3; p=2,5,8等的比特或频带可 以使用111=2,11=3。也就是说,这些索引可以与矢量的任何子集进行组合。 即使是从彼此紧邻的频带中得到了相邻的比特,使用不同的矢量对来进 行巻积使得它们响应于音频块的不同的部分。按照这种方式,这些矢量 变得去相关。
当然,可以使用多个3个的矢量,可以以任何适当方式将这些矢量 与具有索引的比特组合。在一些示例中,使用多于两个的矢量可能会使 平凡签名的出现减少到10%。另外, 一些使用多于两个矢量的示例可能 使成功匹配的数量提高了 20%。
以上说明了可以执行用于确定表示捕捉的音频的一部分的签名的签 名技术。如上所述,这些签名可以作为参考签名或地点单元签名而生成。 通常,可以按例如32毫秒或256个音频采样的间隔来计算参考签名,并 将参考签名存储在"哈希表"中。在一个示例中,表的查找地址是签名本 身。该位置的内容是参考音频流中指定了对该特定签名进行捕捉的位置 的索引。当接收到了用于匹配的地点单元签名时,其值构成用于输入哈 希表的地址。如果该位置包括有效地时间索引,则其表明已经检测到了 潜在的匹配。但是,在一个示例中,基于从2秒的音频块得到的签名的 单个匹配不能用来声明一个成功匹配。
实际上,由位置单元签名本身访问的哈希表可以包括被存储为链表 的多个索引。每个这种条目(entry)指示了参考音频流中潜在的匹配位置。为了对匹配进行确认,在哈希表中对随后的地点单元签名进行"命中"检査。每个这种命中可生成指向不同参考音频流位置的索引。还对地点单元签名进行时间索引。
地点位置签名与匹配参考单元签名之间索引值的差异提供了一个偏
移值。当观察到一个成功匹配时,彼此相隔128毫秒时间步长(time step)的几个地点单元签名产生哈希表的命中,使得该偏移值与前一次命中的偏移值相同。当在一段地点单元签名中观察到的完全相同的偏移的数量超过阈值时,可以确认在参考和地点单元流中存在两个相应时间段之间的匹配。
图7示出了可用于对参考签名(即,在参考地点处确定的签名)与监测的签名(即,在监测地点确定的签名)进行比较的一个示例性的签名匹配处理700。签名匹配的最终目标是找到査询音频签名(例如,监测的音频)与数据库中的签名(例如,基于参考音频得到的签名)之间的最接近的匹配。可以在参考地点、监测地点、或能够对监测的签名及包含参考签名的数据库进行访问的其它数据处理地点执行该比较。
现在,具体参照图7的示例性的方法,示例性的处理700包括获得监测的签名及其相关联的定时(方框702)。如图8所示,签名集合可以包括多个监测的签名,在图8中用标号802、 804和806处示出了其中的3个。各个签名由sigma 来表示。监测的签名802、 804和806中的每一个可包括定时信息808、 810、 812,无论该定时信息是隐式的还是显式的。
然后,对包含参考签名的数据库进行查询(方框704)以识别出数据库中具有最接近匹配的签名。在一个实现中,将签名之间的相似性(近似性)测度取为汉明距离,即,查询值与参考比特串不同的位置的数量。在图8中,在标号816处示出了签名及定时信息的数据库。当然,数据库806可包括来自不同媒体呈现的任何数量的不同签名。然后,建立匹配参考签名所关联的节目与未知签名之间的关联(方框706)。
可选的是,处理700然后可以建立监测的签名与参考签名之间的偏移(方框708)。因为该偏移在连续查询签名(连续査询签名的值从连续的内容中得到)的相当长的时段中保持恒定,因此非常有帮助。恒定的 偏移值本身是表示匹配精度的测度。该信息可以用于在进一步的数据査
询中辅助处理700。
在多于一个参考签名的所有描述符都与低于预定汉明距离阈值的汉 明距离相关联的情况下,多于一个监测的签名需要与可能的匹配参考音 频流的各个参考签名进行匹配。基于监测的音频流而生成的所有监测的 签名与多于一个参考音频流的所有参考签名相匹配几乎是不可能的,因 此,能够防止将多于一个的参考音频流错误地匹配到监测的音频流。
可以通过硬件、软件和/或它们的组合来实现上述示例性的方法、处 理和/或技术。更具体地说,可以在图9和图10的框图所限定的硬件中执 行该示例性的方法。还可以通过在处理器系统(例如,图11的处理器系 统lllO)上执行的软件来实现该示例性的方法、处理和/或技术。
图9是用于生成数字频谱签名的示例性的签名生成系统900的框图。 具体而言,示例性的签名生成系统900可用于基于上述采样、变换和判 决量度计算来生成监测的签名和/或参考签名。例如,示例性的签名生成 系统900可以用于实现图1A的签名生成器114和122或者图1B的签名 生成器156和158。另外,该示例性签名生成系统900可以用于实现图2 至图6的示例性方法。
如图9所示,示例性的签名生成系统900包括采样生成器902、变 换器908、判决量度计算器910、签名确定器914、存储部916和数据通 信接口 918,所有这些部件以可通信的方式如图所示进行耦合。示例性的 签名生成系统卯0可以被配置为获得示例性的音频流,从示例性的音频 流中获取多个音频采样以形成音频块并且从该单个的音频块生成表示该 音频块的签名。
采样生成器902可以被配置为获得示例性的音频流或媒体流。该流 可以是任何的模拟或数字音频流。如果该示例性的音频流是模拟音频流, 则可以使用模/数转换器来实现该采样生成器902。如果该示例性的音频 流是数字音频流,则可以使用数字信号处理器来实现该采样生成器902。 此外,该采样生成器902可以被配置为按照任何期望的采样频率Fs来获取和/或提取音频采样。例如,如上所述,该采样生成器可以被配置为以
8kHz来获取N个釆样,并且可以用16比特来表示各个采样。在这种布置中,N可以是任何数量的采样(诸如16384)。采样生成器902还可以通知参考时间生成器904何时开始音频采样获取处理。采样生成器902将釆样传送至变换器908。
定时设备903可以被配置为生成时间数据和/或时间戳信息,并且可以通过时钟、定时器、计数器和/或任何其它适当的设备来实现定时设备卯3。定时设备903可以以可通信的方式耦合到参考时间生成器904并且可以被配置为将时间数据和/或时间戳传送到参考时间生成器904。定时设备903也可以以可通信的方式耦合到釆样生成器902并且可以声明一个起始信号或中断以指示釆样生成器902开始收集或获取音频釆样数据。在一个示例中,通过以毫秒的分辨率来追踪时间的周期为24小时的实时时钟来实现定时设备903。在这种情况下,定时设备903可以被配置为在午夜复位为0并且相对午夜按照毫秒来追踪时间。
当从采样生成器902接收到通知时,参考时间生成器904可以对参考时间化进行初始化。该参考时间t。可用于指示在音频流内生成签名的时间。具体而言,参考时间生成器904可以被配置为当由采样生成器902通知了采样获取处理开始时,从时间设备903中读出时间数据和/或时间戳的值。然后,参考时间生成器904可以将时间戳的值存储为参考时间t0。
变换器908可以被配置为对各个16384采样的音频块执行N/2点的DFT。例如,如果采样生成器获得了 16384个采样,则变换器将从以下釆样生成频谱,在这些采样中频谱由具有实部分量和虚部分量的8192个离散频率系数表示。
在一个示例中,判决量度计算器910被配置为通过对要考虑的相邻频段进行分组来对变换器908生成的DFT内的几个频带(例如,24个频带)进行识别。在一个示例中,每频带选择3个频段,从而形成了24个频带。可以根据任何技术来选择频带。当然,可以选择任何数量的合适的频带以及每个频带的频段。然后,判决量度计算器910确定各频带的判决量度。例如,判决量度计算器910可以将一个频带中相邻频段的复幅度或能量相乘并相加。另选的是,如上所述,判决量度计算器910可以将频段与两个或更多个任意维矢量进行巻积。例如,判决量度计算器910可以将一个频带中的3个频段与2个矢量(分别为3维)巻积。在另一个示例中,判决量度计算器910可以将一个频带中的3个频段与从具有3个矢量的集合中选择的2个矢量进行巻积,其中基于所考虑的频带来选择这3个矢量中的2个。例如,可以按照轮换的方式来选择矢量,其中,第一矢量和第二矢量用于第一频带,第一和第三矢量用于第二频带,并且第二矢量和第三矢量用于第三频带,其中循环进行这种选择轮换。
判决量度计算器910的结果是针对由频段组成的各频带的单一数值。例如,如果存在24个由频段组成的频带,则判决量度计算器910将生成24个判决量度。
签名确定器914对从判决量度计算器910得到的值进行操作以针对判决量度中的每一个而生成一个签名比特。例如,如果判决量度为正,则可以分配比特值l,而如果判决量度为负,则可以分配比特值O。将该签名比特输出至存储部916。
存储器可以是适于进行签名存储的任何适当的介质。例如,存储部916可以是诸如随机存取存储器(RAM)、闪存等之类的存储器。另外地或另选的是,存储部916可以是诸如硬盘驱动器、光存储介质、带驱动器等的大容量存储器。
存储部916耦合到数据通信接口 918。例如,如果该系统900位于监测地点(例如,在一个人家中),则可以利用数据通信接口918将存储部916中的签名信息传送到收集装置、参考地点等。
图10是用于比较数字频谱签名的示例性的签名比较系统1000的框图。具体而言,示例性的签名比较系统1000可以用于对监测的签名与参考签名进行比较。例如,示例性的签名比较系统1000可以用于实现对监测的签名与参考签名进行比较的图1A的签名分析器132。另外,示例性的签名比较系统1600可以用于实现图7的示例性处理。示例性的签名比较系统1000包括监测签名接收机1002、参考签名接收机1004、比较器1006、汉明距离滤波器1008、媒体识别器1010和媒体标识查找表接口 1012,所有这些部件如图所示以可通信的方式耦合。
监测签名接收机1002可被配置为经由网络108 (图1)获得监测的签名,并且将该监测的签名传送至比较器1606。参考签名接收机1604可以被配置为从存储器134 (图1A和图1B)获得参考签名,并将该参考签名传送至比较器1006。
比较器1006和汉明距离滤波器1008可以被配置为利用汉明距离对参考签名与监测的签名进行比较。具体而言,比较器1006可以被配置为将监测的签名的描述符与多个参考签名的描述符进行比较以针对各个比较而生成汉明距离的值。然后,汉明距离滤波器1008从比较器1006获得汉明距离的值并且基于该汉明距离的值的将不匹配的参考签名滤除。
当找到了匹配的参考签名之后,媒体识别器IOIO可以获得该匹配的参考签名并且与媒体标识査找表接口 1012协同工作可以对与未识别出的音频流相关联的媒体信息进行识别。例如,媒体标识査找表接口 1012可以以可通信的方式耦合到媒体标识查找表或者耦合到用于基于参考签名而对媒体标识信息(例如,电影标题、展览标题、歌曲标题、艺术家名字、剧集号等)进行交叉对照(cross-reference)的数据库。按照这种方式,媒体识别器IOIO可以基于匹配的参考签名从媒体标识数据库中检索媒体标识信息。图11是可以用于实现此处描述的装置和方法的示例性处理器系统1110的框图。如图11所示,处理器系统1110包括耦合到互联总线或网络114的处理器1112。处理器1112包括寄存器组或寄存器空间1116 (在图11中示出为完全位于片上),但是,另选的是,该存器组或寄存器空间1116可以完全地或部分地位于片外,并且经由专用电连接和/或经由互联的网络或总线1114直接耦合到处理器1112。处理器1112可以是任何适当的处理器、处理单元或微处理器。虽然在图11中没有示出,但是,系统1110可以是多处理器系统,因此,可以包括与处理器1112完全相同或类似的并且以可通信的方式耦合到互联总线或网络1114的一个或更多个附加的处理器。图11的处理器1112耦合到芯片组1118,该芯片组1118包括存储器控制器1120和输入/输出(I/O)控制器1122。公知的是,芯片组通常提供I/O和存储器管理功能以及可由耦合到该芯片组的一个或更多个处理器访问或者使用的多个通用和/或专用的寄存器、定时器等。存储器控制器1120执行使处理器1112(或者这些处理器(如果存在多个处理器的话))能够访问系统存储器1124和大容量存储器1125的功能。
系统存储器1124可包括任何期望类型的易失性和/或非易失性存储器,例如,静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪存、只读存储器(ROM)等。大容量存储器125可包括任何期望类型的大容量存储设备,包括硬盘驱动器、光驱动器、带存储设备等。
I/O控制器1122执行使处理器1112能够经由I/O总线1130与外围的输入/输出(I/O)设备1126和1128进行通信的功能。I/O设备1126和1128可以是任何期望类型的I/O设备,诸如键盘、视频显示器或监视器、鼠标等。虽然在图11中将存储器控制器1120和I/O控制器1122描述为芯片组1118内的独立功能框,但是,由这些框执行的功能可以集成在单个半导体电路中或者可以利用两个或更多个单独的集成电路来实现。
这里描述的方法可以利用存储在计算器可读介质上并由处理器112执行的指令来实现。计算器可读介质可包括固态、磁和/或光媒体的任何期望的组合,该固态、磁和/或光媒体是利用大容量设备(例如,盘驱动器)、可移除存储设备(例如,软盘、存储卡或记忆棒等)和/或集成存储器设备(例如,随机存取存储器、闪存等)的任何期望的组合来实现。
容易理解的是,可以按照任何数量的不同方式来实现上述签名生成和匹配处理和域方法。例如,除了这些部件以外,可以利用在硬件上执行的软件或固件来实现这些处理。但是,这仅仅是一个示例,并且可以预期的是,可以使用任何形式的逻辑来实现该处理。该逻辑可包括例如专门在专用硬件(例如,电路、晶体管、逻辑门、硬编码(hard-coded)处理器、可编程阵列逻辑(PAL)、专用集成电路(ASIC)等)中、专门在软件中、专门在固件中、或者在硬件、固件和/或软件的某种组合中的实现。例如,表示示出的处理的一部分或全部的指令可以存储在一个或更多个存储器或其它机器可读媒体(诸如,硬盘驱动器等)中。这种指 令可以是硬编码的或者是可改变的。另外,可以人工地执行该处理的某 些部分。此外,虽然按照特定的顺序示出了此处说明的各个处理,但是, 本领域的技术人员容易认识到,这种顺序仅仅是一个示例,存在大量其 它的顺序。因此,虽然以上说明了示例性的处理,但是,本领域的技术 人员容易理解,这些示例并非实现这种处理的唯一方式。
虽然此处已经描述了特定的方法、装置和制品,但是本专利的覆盖 范围不限于此。
权利要求
1、一种表征媒体的方法,该方法包括以下步骤捕捉音频块;至少将所述音频块的一部分转换成包括多个复数值频率分量的频域表示;限定要考虑的复数值频率分量的频带;利用所述复数值频率分量的频带来确定判决量度;以及基于所述判决量度的值来确定签名比特。
2、 根据权利要求1所述的方法,其中,捕捉音频块的步骤包括经由 硬线连接来获得音频。
3、 根据权利要求1所述的方法,其中,捕捉音频块的步骤包括经由 无线音频传感器来获得音频。
4、 根据权利要求1所述的方法,其中,捕捉音频块的步骤包括以下 步骤对音频信号进行数字化采样并且将数字采样存储在缓存区中。
5、 根据权利要求4所述的方法,其中,捕捉音频块的步骤包括以下 步骤将若干个旧的采样移位出所述缓存区,并且将若干个新的采样移 位到所述缓存区中。
6、 根据权利要求1所述的方法,其中,至少将所述音频块的一部分 转换成频域表示的步骤包括以下步骤使用傅立叶变换。
7、 根据权利要求1所述的方法,其中,限定复数值频率分量的频带 的步骤包括以下步骤对在所述频域表示中相邻的复数值频率分量进行分组。
8、 根据权利要求7所述的方法,其中,限定复数值频率分量的频带的步骤包括以下步骤对听觉频率范围内的复数值频率分量进行分组。
9、 根据权利要求1所述的方法,其中,利用所述复数值频率分量的频带来确定判决量度的步骤包括以下步骤对一个集合的矢量的点积进 行线性组合,该集合的矢量表示所述频带中的所述复数值频率分量的实 部分量和虚部分量。
10、 根据权利要求9所述的方法,其中,基于所述频带内的一组复 数值频率分量来计算所述线性组合。
11、 根据权利要求9所述的方法,其中,确定判决量度的步骤进一 步包括以下步骤对所述频带中所有复数值频率分量的线性组合进行求 和计算。
12、 根据权利要求1所述的方法,其中,利用所述复数值频率分量 的频带来确定判决量度的步骤包括以下步骤将复数值频率分量与复矢 量进行巻积。
13、 根据权利要求12所述的方法,其中,所述巻积包括将所述频带 中的各复数值频率分量与一对复矢量进行巻积。
14、 根据权利要求13所述的方法,其中,所述频带中的一组3个复 数值频率分量分别与一对3元素复矢量进行巻积。
15、 根据权利要求14所述的方法,其中,确定判决量度的步骤包括 以下步骤对巻积进行求和。
16、 根据权利要求15所述的方法,其中,第一个3元素矢量的平方 和等于第二个3元素矢量的平方和。
17、 根据权利要求15所述的方法,其中,该对3元素复矢量是从具 有3个或多于3个的3元素复矢量的集合中选择的。
18、 根据权利要求17所述的方法,其中,基于正在处理的频带来选 择该对3元素复矢量。
19、 根据权利要求12所述的方法,其中,复数值频率分量与复矢量 的巻积表示了在所述频带中对称的能量分布。
20、 根据权利要求12所述的方法,其中,所述判决量度是基于所述 复数值频率分量和第一复矢量的巻积结果与所述复数值频率分量和第二 复矢量的巻积结果之差。
21、 根据权利要求20所述的方法,其中,所述判决量度是基于对所 述复数值频率分量和第一复矢量的巻积结果与所述复数值频率分量和第 二复矢量的巻积结果之差的求和。
22、 一种表征媒体的装置,其包括采样生成器,其捕捉音频块;变换器,其至少将所述音频块的一部分转换成包括多个复数值频率 分量的频域表示;判决量度计算器其限定要考虑的复数值频率分量的频带;并且 其利用所述复数值频率分量的频带来确定判决量度;以及签名确定器,其基于所述判决量度的值来确定签名比特。
23、 根据权利要求22所述的装置,其中,捕捉音频块包括经由硬线连接来获得音频。
24、 根据权利要求22所述的装置,其中,捕捉音频块包括经由无线 音频传感器来获得音频。
25、 根据权利要求22所述的装置,其中,捕捉音频块包括对音频信 号进行数字化采样并且将数字采样存储在缓存区中。
26、 根据权利要求25所述的装置,其中,捕捉音频块包括将若干个 旧的釆样移位出所述缓存区,并且将若干个新的采样移位到所述缓存区 中。
27、 根据权利要求22所述的装置,其中,至少将所述音频块的一部 分转换成所述频域表示包括使用傅立叶变换。
28、 根据权利要求22所述的装置,其中,限定复数值频率分量的频 带包括对在所述频域表示中相邻的频率分量进行分组。
29、 根据权利要求28所述的装置,其中,限定复数值频率分量的频 带包括对听觉频率范围内的复数值频率分量进行分组。
30、 根据权利要求22所述的装置,其中,利用所述复数值频率分量 的频带来确定所述判决量度包括对一个集合的矢量的点积进行线性组 合,该集合的矢量表示所述频带中的所述复数值频率分量的实部分量和 虚部分量。
31、 根据权利要求30所述的装置,其中,基于所述频带内的一组复 数值频率分量来计算所述线性组合。
32、 根据权利要求30所述的装置,其中,确定判决量度进一步包括 对所述频带中所有复数值频率分量的线性组合进行求和计算。
33、 根据权利要求22所述的装置,其中,利用该组复数值频率分量 来确定判决量度包括将复数值频率分量与复矢量进行巻积。
34、 根据权利要求33所述的装置,其中,所述巻积包括将所述频带 中的各复数值频率分量与一对复矢量进行巻积。
35、 根据权利要求34所述的装置,其中,所述频带中的一组3个复 数值频率分量分别与一对3元素复矢量进行巻积。
36、 根据权利要求35所述的装置,其中,确定判决量度包括对巻积 进行求和。
37、 根据权利要求35所述的装置,其中,第一个3元素矢量的平方 和等于第二个3元素矢量的平方和。
38、 根据权利要求35所述的装置,其中,该对3元素复矢量是从具 有3个或多于3个的3元素复矢量的集合中选择的。
39、 根据权利要求35所述的装置,其中,基于正在处理的频带来选 择该对3元素复矢量。
40、 根据权利要求33所述的装置,其中,复数值频率分量与复矢量 的巻积表示在所述频带内对称的能量分布。
41、 根据权利要求33所述的装置,其中,所述判决量度是基于所述 复数值频率分量和第一复矢量的巻积结果与所述复数值频率分量和第二 复矢量的巻积结果之差。
42、 根据权利要求41所述的装置,其中,所述判决量度是基于所述 复数值频率分量和第一复矢量的巻积结果与所述复数值频率分量和第二 复矢量的巻积结果之差的求和。
43、 一种存储有指令的机器可读介质,当所述指令在执行时使得机 器进行以下操作捕捉音频块;至少将所述音频块的一部分转换成包括多个复数值频率分量的频域 表示;限定要考虑的频带内的一组复数值频率分量; 利用所述复数值频率分量的频带来确定判决量度;以及 基于所述判决量度的值来确定签名比特。
44、 根据权利要求43所述的机器可读介质,其中,所述指令进一步 使得所述机器经由硬线连接获得音频。
45、 根据权利要求43所述的机器可读介质,其中,所述指令进一步使得所述机器经由无线音频传感器获得音频。
46、 根据权利要求43所述的机器可读介质,其中,所述指令进一步 使得所述机器对音频信号进行数字化采样并且将数字采样存储在缓存区 中。
47、 根据权利要求46所述的机器可读介质,其中,所述指令进一步 使得所述机器将若干个旧的采样移位出所述缓存区,并且将若干个新的 采样移位到所述缓存区中。
48、 根据权利要求43所述的机器可读介质,其中,所述指令进一步 使得所述机器通过使用傅立叶变换而至少将所述音频块的一部分转换成 所述频域表示。
49、 根据权利要求43所述的机器可读介质,其中,所述指令进一步 使得所述机器对在所述频域表示中相邻的复数值频率分量的频带进行限 定。
50、 根据权利要求49所述的机器可读介质,其中,所述指令进一步 使得所述机器通过在可听见的频率范围中对复数值频率分量进行分组来 限定复数值频率分量的频带。
51、 根据权利要求43所述的机器可读介质,其中,所述指令进一步 使得所述机器通过对频带中表示所述复数值频率分量的实部分量和虚部 分量的矢量集合的点积进行线性组合而利用所述复数值频率分量的频带 来确定所述判决量度。
52、 根据权利要求51所述的机器可读介质,其中,所述线性组合是 基于所述频带内的一组复数值频率分量来计算。
53、 根据权利要求51所述的机器可读介质,其中,所述指令进一步使得所述机器还通过对所述频带中所有的复数值频率分量的线性组合进 行求和计算来确定判决量度。
54、 根据权利要求43所述的机器可读介质,其中,所述指令进一步 使得所述机器利用复数值频率分量与复矢量的巻积而基于所述复数值频 率分量的频带来确定所述判决量度。
55、 根据权利要求54所述的机器可读介质,其中,所述指令进一步 使得所述机器将所述频带中各复数值频率分量与一对复矢量进行巻积。
56、 根据权利要求55所述的机器可读介质,其中,所述频带中的一 组3个复数值频率分量分别与一对3元素复矢量进行巻积。
57、 根据权利要求56所述的机器可读介质,其中,确定所述判决量 度包括对巻积求和。
58、 根据权利要求57所述的机器可读介质,其中,第一个3元素矢 量的平方和等于第二个3元素矢量的平方和。
59、 根据权利要求57所述的机器可读介质,其中,该对3元素复矢 量是从具有3个或多于3个的3元素复矢量的集合中选择的。
60、 根据权利要求59所述的机器可读介质,其中,基于正在处理的 频带来选择该对3元素复矢量。
61、 根据权利要求50所述的机器可读介质,其中,复数值频率分量 与复矢量的巻积表示在所考虑的频带内对称的能量分布。
62、 根据权利要求54所述的机器可读介质,其中,所述判决量度是 基于所述复数值频率分量和第一复矢量的巻积结果与所述复数值频率分 量和第二复矢量的巻积结果之差。
63、 根据权利要求62所述的机器可读介质,其中,所述判决量度是 基于所述复数值频率分量和第一复矢量的巻积结果与所述复数值频率分 量和第二复矢量的巻积结果之差的求和。
64、 一种表征媒体的方法,该方法包括以下步骤 捕捉音频块;至少将所述音频块的一部分转换成包括多个变换域系数的变换域表限定要考虑的变换域系数的频带;通过计算所述变换域系数与复矢量的巻积来确定判决量度;以及 基于所述判决量度的值来确定签名比特。
65、 根据权利要求64所述的方法,其中,所述巻积包括将所述频带 中的各变换域系数与一对复矢量进行巻积。
66、 根据权利要求65所述的方法,其中,所述频带中的一组3个变 换域系数分别与一对3元素复矢量进行巻积。
全文摘要
本发明描述了一种用于表征媒体的方法和装置。在一个示例中,表征媒体的方法包括以下步骤捕捉音频块;至少将所述音频块的一部分转换成包括多个复数值频率分量的频域表示;限定要考虑的复数值频率分量的频带;利用所述复数值频率分量的频带来确定判决量度;以及基于所述判决量度的值来确定签名比特。本发明示出并说明了其它示例。
文档编号H04H20/14GK101669308SQ200880012844
公开日2010年3月10日 申请日期2008年2月20日 优先权日2007年2月20日
发明者亚历山大·托普奇, 阿伦·拉马斯瓦米, 韦努戈帕尔·斯里尼瓦桑 申请人:尼尔森(美国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1