音视频签名、导出签名的方法以及比较音视频数据的方法

文档序号：2823103阅读：346来源：国知局

专利名称：音视频签名、导出签名的方法以及比较音视频数据的方法
技术领域：
本发明涉及音频和/或视频信号的特性分析。具体地，本发明涉及音视频内容签名(signature)的生成和使用。
背景技术：
越来越多的广播装置对生成音频、视频或音视频内容的指纹、或签名，以及对一个或多个音频、视频或音视频数据文件中和/或处于传输链、或音频和视频内容的并行传输链中的一个或多个位置的这种内容的指纹或签名的比较感兴趣。已知许多获取指纹、或签名的不同方法。本发明试图提供一种新的签名以及用于获得并使用扩展现有技术可用的一系列技术的签名的技术。本发明的签名尤其适用于要求小签名尺寸的应用。

发明内容
根据本发明的一个方面，提供了一种导出多个音频样本的签名特性的方法，包括以下步骤确定代表音频样本的音频签名数据；确定形成感兴趣区域的音频签名数据的部分；以及提供该音频签名数据部分和标识(identify)音频签名数据内感兴趣区域的位置的位置数据作为音频签名。根据本发明的第二方面，提供了一种导出视频数据和相关联音频样本的多个字段或帧的签名特性的方法，包括以下步骤根据本发明确定音频签名；根据视频字段或帧中的图像信息值确定视频字段或帧的空间分布数据；由空间分布数据构成视频签名；以及提供音频签名和视频签名作为音视频签名。根据本发明的第三方面，提供了一种导出视频数据的多个字段或帧的签名特性的方法，包括以下步骤根据视频字段或帧中的图像信息值确定视频字段或帧的空间分布数据；以及由空间分布数据构成签名。根据本发明的第四方面，提供了一种比较视频或音视频数据的方法，其中，在从第一视频或音视频序列的一个或多个字段或帧中导出的第一视频签名数据与在第二视频或音视频序列内的多个时间位置处导出的第二视频签名数据之间进行多次比较，建立视频签名数据的最佳匹配的时间位置。根据本发明的第五方面，提供了一种比较音频或音视频数据的方法，其中，在从第一音频或音视频序列的两个或多个音频样本中导出的第一音频签名数据与在第二音频或音视频序列内的多个时间位置处导出的第二音频签名数据之间进行多次比较，建立音频签名数据的最佳匹配的时间位置。根据本发明的第六方面，提供了一种计算机程序产品，包括适于实施根据本发明的方法的代码。根据本发明的第七方面，提供了一种装置，适于实施根据本发明的方法。根据本发明的第八方面，提供了一种用于音视频数据的签名，包括视频签名；以及包括音频签名数据和标识感兴趣区域的位置的偏移数据的音频签名。

现在将参照附图描述本发明的实例，其中图1示出了可以实施本发明的监控系统的纵览；图2是根据第一示例性实施方式的用于生成音频签名数据的电路的框图；图3示出了示例性音频签名；图4示出了来自示例性音频签名的代表段的选择；图5示出了音频签名数据所选段内的转换距离(transition distance)计数的示例性直方图；图6示出了示例性视频空间签名检测窗口；图7示出了示例性实施方式中的主AV内容分析器的操作；以及图8是第二示例性实施方式的框图。
具体实施例方式现在将参照附图描述本发明。本发明可以应用于流式音视频数据的分析，并且还可以应用于音视频数据文件或音视频序列的其他表示的分析。可以比较由流式音视频数据和/或音视频数据文件的分析所产生的签名数据，以建立音视频内容的身份，测量音频数据与标称捕获时间(例如，时间码)之间和/或视频数据与标称捕获时间(例如，时间码) 之间的延迟，和/或测量音频数据和视频数据之间的相对延迟。现在将参照广播链中两个点处的流式音视频信息之间的音视频内容的比较来描述本发明的第一实施例。图1示出了可以实施本发明的监控系统的纵览。携带表示特定音视频(AV)内容的AV数据的通信信道2具有插入其中的第一 AV内容分析器6和第二 AV内容分析器8。这些分析器可以生成元数据，并将其附加至通信信道2上所携带的数据。第一 AV内容分析器 6经由辅助通信信道10与第二 AV内容分析器8耦合，使指令和数据能够在第一 AV内容分析器6和第二 AV内容分析器8之间交换。该辅助信道10可以是控制和监控信道，并且可以以任何已知的方式来实施。通常，辅助信道10与信道2的带宽相比较是低带宽。在第一 AV内容分析器6和第二 AV内容分析器8之间的信道2中存在未知信道处理12。未知信道处理12通过但不限于以下处理来示例音频或视频噪声降低；音频或视频压缩；视频标识插入；视频色域合法化；音频或视频同步；视频嵌入/去嵌入的音频输入/ 输出；视频标准转换；以及音频或视频格式或压缩自动译码。该处理可以改变AV数据和/ 或改变不同点处音频数据和视频数据之间的延迟。从而，比较第一 AV内容分析器6中的AV 数据和第二 AV内容分析器8中的AV数据，以验证第一 AV内容分析器6和第二 AV内容分析器8中的AV内容是否相同是令人满意的。此外，比较每个分析点处的音频和视频数据之间的相对延迟是有用的。显然，对于本领域的技术人员而言本发明可以应用于其他系统配置将是显而易见的。例如，本发明可用于比较音视频数据内容和测量来自摄制作品处理(以及在很多其他情况下)的描绘相同内容的多个音视频馈送之间的相对延迟。
现在将描述所示系统的主要操作。在以下描述中，假设第二 AV内容分析器8为 “主”AV内容分析器，其指示第一 AV内容分析器6生成AV签名，并将其自身的AV签名与第一 AV内容分析器6所生成的AV签名进行比较。然而，对于本领域的技术人员而言可选地，该系统可以被配置为使得第一AV内容分析器6用作主内容分析器将是显而易见的；或者使得独立的设备用于指示第一和第二 AV内容分析器6、8以生成并报告各自的AV签名。在第一步骤中，选择应该执行AV分析的时间。在所示实施例中，用作主内容分析器的第二 AV内容分析器8选择应该执行AV分析的时间，并指示第一 AV内容分析器6在所选时间生成AV签名。第二 AV内容分析器8也在所选时间生成AV签名。考虑到用作主内容分析器的第二 AV内容分析器8和第一 AV内容分析器6之间的辅助信道10中的任何延迟，应选择时间，使得当由第一 AV内容分析器6接收在该时间生成 AV签名的指令时，该时间仍在将来。所选时间通常涉及AV内容自身的特征。因此，在一种配置中，执行AV分析的时间的选择可以通过指定生成AV签名的、用AV数据分配或嵌入AV 数据中的特定时间码来实现。确定何时执行AV分析的其他方法也是可以的，例如，可以以规则的时间码间隔和/或在确定字段、帧或样本块的数目之后，或者当检测到程序改变或其他程序特征时执行AV分析。在第二步骤中，在指定时间生成用于AV内容的AV签名。在所示实施例中，第一和第二 AV内容分析器6、8均生成用于AV内容的AV签名数据。通常，第一和第二 AV内容分析器6、8中的每一个都首先捕获预定的持续时间的AV内容，并将所捕获的AV内容存储在本地存储器中。显然，如同通常的情况，在第一和第二 AV内容分析器6、8之间的信道2和辅助信道10中存在任何延迟，则第一和第二 AV内容分析器6、8中AV内容的捕获将不会同时实时发生。然而，所捕获的AV内容将是标称地相同AV内容，因为AV内容的捕获是通过AV内容自身的特征检测来开始的，例如所示实施例中的时间码。在AV内容分析器6、8的每一个中，所捕获的AV内容可以被处理生成AV签名，这在下文中将更加详细地说明。在AV分析器6、8的每一个中执行对应的处理，并且该处理可以仅涉及音频信息，或者可以仅涉及视频信息，或者可以涉及音频和视频信息。在本发明的描述中，音频和视频信息均被捕获和处理以生成AV签名，这将在以下描述中更加详细地说明。然而，在一些实施例中，可以仅捕获和处理音频信息，或者仅捕获和处理视频信息，以生成AV签名。在第三步骤中，在AV签名之间进行比较。第一 AV内容分析器6将其AV签名发送至在本实施例中用作主内容分析器的第二AV内容分析器8。例如在软件相关测量中可比较 AV签名数据，以确定该AV签名是否相同。此外，可以建立结果中的置信水平。AV签名数据的比较将在以下描述中进行更加详细地说明。本领域的技术人员应该理解，可以以各种方式生成音频签名。现在将描述根据本发明的示例性实施例的建立音频签名以形成AV签名的全部或部分的详细方法。示例性实施方式的音频签名是表示音频内容的特性二进制信号。例如，如果使用黑带表示音频签名中的“0”用白带表示“ 1，，(或反之亦然)来直观地表示签名，则会产生黑带和白带的特性图案。该特性带状图案直观上让人想到零售条形码，因此，音频签名可以被称为音频条形码。通常，音频签名将代表原始信号，至少在感觉上不同的音频信号将生成不同的音频签名，并且音频签名可以通过明显少于原始音频信号的位来表示音频签名。在一些实施方式中，音频签名可以直接由原始音频样本生成，或者在其他实施方式中，在生成音频签名之前可以以某种方式对原始音频样本进行处理。在所示实施方式中，输入音频样本经过示例性处理，从而减小所得音频签名的大小，这将在下面进行更加详细地说明。对于流式或未压缩音视频数据，通常对每个音频信道使用48kHz的采样率。结果，以每秒50-60字段或帧的频率发生的视频数据的每个字段或帧将包含每个音频信道的 800-960个音频样本。通常，AV内容将具有与视频数据相关联的多个音频信道；一些当前系统提供伴随视频数据的音频数据的16个信道。由于许多有用的区别信息包含在低频中，所以可以生成有用的音频签名，而不使用全音频采样率。在示例性实施方式中，对于每个信道所捕获的音频样本通过低通滤波器，然后抽选低通滤波器的输出。该处理保留了包含在原始信号的低频分量中的有用区别信息，同时减小或消除了来自原始信号的较高频分量中的由抽选所产生的伪信号(即，减小了采样频率)。可以由低通滤波器的输出生成二进制信号。在示例性实施方式中，低通滤波音频样本被高通滤波，以去除DC分量和非常低的频率分量；所得到的滤波音频样本被抽选。抽选、滤波的音频样本的一系列符号位形成音频签名数据。图2是根据示例性实施方式的用于生成音频签名的电路的框图，现在将描述其操作。例如已从一个或多个视频字段或帧的消隐间隔中去嵌入的音频样本在无限脉冲响应 (IIR)滤波器级20中进行低通滤波，该结果在有限脉冲响应(FIR)滤波器级30 (在DC中具有零响应)中进行高通滤波。FIR滤波器级30的输出被施加到抽选器40，并且抽选器40 的输出的符号位被获得并存储到存储器中，以形成示例性音频签名数据。IIR低通滤波器级20包括用于使输入样本与因子k相乘的乘法器22。乘法器22 的输出被传送到两输入端加法器24的一个输入端。加法器24的输出经过一个样本周期延迟26，并在提供给加法器24的另一个输入端之前在乘法器27中乘以因子(1-k)。加法器 24的输出形成了 IIR滤波器级20的输出，然后该输出被施加到FIR滤波器级30。FIR高通滤波器级30包括η样本延迟32和减法器34，向这二者都提供IIR滤波器输出28。η样本延迟32的输出被提供给减法器34的另一输入端。减法器34从未延迟的IIR滤波器输出28中减去延迟的IIR滤波器输出(来自η样本延迟32)，并输出结果作为FIR滤波器级输出36。如上所述，FIR滤波器级输出36被施加到抽选器40。抽选器40通过因子N抽选滤波音频样本，并且顺序存储所得到的滤波音频样本抽选序列的符号位以形成音频签名数据。对于48kHz的音频采样率，N的适当值为160。对于16位音频样本，抽选处理与仅获取滤波输出样本的符号位的步骤一起因此导致数据大小从初始音频数据样本到音频签名数据按2560 1减小。显然，尽管在示例性实施方式中以48kHz的采样率对音频样本进行采样，但是本发明可以应用于以任何采样率采样的音频样本。在一些实施方式中，音频数据可以在滤波处理之前被整流(rectify)，使得对应于音频样本的绝对幅值的数据值被处理；然后经整流和滤波的数据表示落入滤波器通带内的音频频谱的部分的能量的测量。在所示实施方式中，k = 1/512和η = 160的值产生隔离从大约IOHz扩展到大约300Hz的低频带的滤波器。然而，本领域的技术人员能够设计其他滤波器配置并选择不同参数。图3示出了表示仅一秒钟的音频、320位宽的示例性音频签名数据。在该实施例中，通过使用黑带代表音频签名中的“ 0 ”白带代表“ 1，，来直观地表示音频签名数据的每一位，产生黑和白带或条的特性图案。可以清楚地从图3的音频签名数据的示例性直观表示中看出，可变宽度的交替黑和白条的图案由音频签名数据的直观表示所产生。可以选择音频签名的感兴趣区域，这将实现音频签名数据的大小的进一步减小。在示例性实施方式中，估计所生成的音频签名数据，以确定音频签名数据中最明显且由此对于标识目的最有用的部分。通常，这将是音频签名数据在条宽度的分布中具有最大局部变化的部分。音频签名数据的所选部分、以及标识原始音频签名数据中音频签名数据的所选部分的位置的位置数据被用作音频签名。在本实施例中，选择由上述72000个音频样本生成的450位中的120位的部分。然而，显然，可以使用用于所选部分的长度和音频签名数据的总长度的其他值。可以以多种方式选择条宽度中具有最大变化的音频签名数据的部分，一种方法为测量音频签名数据的多个部分内的条宽度的分布的熵，并且选择具有与其相关联的最大测量熵的部分。在示例性实施方式中，这可以通过顺序选择音频签名数据的部分(例如处于相对于要求执行音频分析的所选时间的不同时间偏移的多个短小部分)来实现。对于每个偏移位置，创建不同条宽度的发生的相对频率的直方图；宽度被测量作为包括每“条”的相邻Is或相邻Os的数目。每个部分的熵可以从宽度值的各个直方图中获得，并且可以选择具有最大熵的部分。在图4和图5中示出了这种处理的实例。图4示出了音频签名数据402的一小部分和对应的“条”表示403。签名数据内的三个22位宽窗口也被示出为404、405、406。窗口 405和406分别相对于窗口 404偏移1位和2位。全部包括在每个窗口的条的宽度被示出为 407、408 和 409。可以看出，窗口 407和408包括相同组的条，但是窗口 409包括附加条。图5示出了窗口的条长度的发生频率的直方图；图5a对应于窗口 404和405，以及图5b对应于窗口 406。对应于这些直方图中的每一个的熵都可以根据以下等式来计算Ew = Σ PiIog(Pi)其中，Ew*相关窗口的熵；Pi为条宽度i的发生频率除以窗口内条的总数(该总数将在后面的公式中用1来表示)；以及在相关窗口中发生的所有i的值上进行求和。由于目标是寻找最大熵值，所以与对数的基数不相关，尽管通常在计算信息量时使用基数2。在所示实施例中，图5a在边上具有较大熵，因为分布是较不“尖峰的”。在实际应用中，为了实现有效处理，期望简化重复的熵计算；这可以通过查找初始窗口的熵，然后随着窗口位置的增加而评估熵的变化来实现。一旦已经评估了第一窗口的熵，就可以通过仅对由于条进入或离开窗口而改变的和起作用的那些进行重新评估，来找到偏移的熵的差、重叠窗口，并适当地增加或减小第一熵值。如果窗口位置移动一位周期，则窗口内的条的总数Nw将一致增加；或者保持不变；或者一致减少。以及没有频率值将发生变化；或者一个频率值将一致增加；或者一个频率值将一致减小；或者一个频率值将一致增加，而另一频率值将一致减小。如果宽度n+的条变得更多，和/或宽度n_的条变得更少，则由窗口的移动所引起的熵值的改变可以在数学上表示为如下如果Ew为包Nw条的原始窗口的熵；以及Ew+1为包含Nw+1条的移动窗口的熵使f(w) = {Nwlog(Nw)} Ew且f(w+l) = {Nw+1log(Nw+1)}Ew+1可以示出f (w+1) = f (w) -NwIog (Nw) +Nw+1log (Nw+1) + Δ ++ Δ _其中Δ+={n+log(n+)-(n++l)log(n++l)}或者零，如果没有频率值增加；以及Δ _ = {n_log (n_) - (n__l) log (n_+l)}或者零，如果没有频率值减小。随着窗口位置的增加，计算Δ +和Δ _相对直接，从而找到f (w)中的改变，从中可以确定最大熵的窗口位置。通常，从音频签名数据的450位宽段内选择具有最大熵的120位宽的窗口。一旦建立了具有最大熵的音频签名数据的部分和音频签名数据内该部分的位置，则包括该部分的数据和描述其位置的数据可以被用作音频签名。
优选地，音频签名数据部分的选择偏向于选择接近所捕获音频签名数据中间的部分，以提供最大的检测延迟的能力，以及适应正延迟和负延迟。这可以通过将音频签名数据的边缘区域不包括在最大熵部分的确定中来简单地实现。可选地，所计算的熵可以通过可变量来调节，以使最大熵部分的选择偏向所捕获音频签名数据的中间。在AV数据包括多信道音频数据的情况下，关于一个或多个音频信道，可生成上述音频签名。多信道音频的特殊情况为‘环绕声’，其中，通常六个或更多个音频信号被同时从不同定位的扬声器呈现给收听者。存在用于将这种音频信号组‘下混合(downmixing) ’为较少数量的信道(通常包括分别用于‘左’和‘右’扬声器的两个信号的‘立体对’)的公知技术。还存在相关系统，其中，信道数量的减少涉及非线性处理、或者频率依赖性相移，以能够从具有最小目标损伤的较低数目中恢复较高数目的信道。
环绕声材料的音频签名可以通过任意上述方法从较多数量的信道向下混合的两个信道中得到。这通常能够大大简化监控系统。在一些情况下，有用的签名可以从由多信道环绕声源向下混合的单信道中得到。当足够的数据容量可用时，音频签名可以通过包括由其他音频分析工具获得的 ‘元数据’来增加。从限带音频中得到的上述签名不足以表示所使用的滤波器的带宽外的情况；尤其是高频瞬变过程中，诸如由干扰或设备故障所引起的‘喀哒声’可以被忽略。可以使用检测这种事件(可能包括具有相同值的连续音频样本的检测)的公知技术，并且在限定时间周期中检测事件的数量可以被格式化为元数据并包括在签名中。其他适当的元数据包括幅度或目标响度信息，包括寂静周期的检测。本领域的技术人员应该理解，可以以各种方式生成视频签名。现在将描述根据本发明示例性实施方式的建立视频签名以形成AV签名的整体或部分的详细方法。

术语“空间分布数据”用于指与视频数据的每个字段或帧内的图像信息的空间分布相关的信息(例如，像素的亮度值)。空间分布数据可以在视频的部分之间的区分方面尤其有效。然而，为了在视频的部分之间进行精确区分，需要与图像信息的空间分布相关的相对大量的信息。在签名大小的减小是有利的情况下，空间分布数据可以被提供仅用于一些视频字段或帧，和/或可以与其他类型的签名信息组合。术语“运动分布数据”用于指与视频数据的连续字段或帧之间图像信息的差别有关的基于运动的签名信息。基于运动的签名信息在视频的部分之间的区分上非常有效，并产生高度辨别性的视频签名。具体地，已经发现基于运动的签名信息在表征视频序列上非常有效，并且容许例如标识插入或压缩编码。然而，对于静止或低运动图像或渐变至黑色，压缩假象会非常显著，仅使用基于运动的签名信息难以区分这些类型的图像。因此，为了提供健壮的视频签名，在示例性实施方式中，基于运动的签名信息和基于空间的签名信息被用在视频签名中。技术人员应当理解，可以以各种方式生成基于运动的签名信息和基于空间的签名 fn息ο在示例性实施方式中，通过首先对输入图像区域中的输入像素亮度值进行块累计来确定基于运动的签名信息。输入图像的每一个区域将在本文中被表示为图像区域(PR) 并具有对应的I3R块值。该处理可以被认为是组合的低通滤波和子采样操作。子采样操作减小了存储量和需要生成基于运动的签名信息的处理操作的数量，尤其对存储器或处理资源不足的情况有利。在示例性实施方式中使用的子采样操作产生字段或帧的表示，其足够详细，以至能够可靠地挑选帧内或字段内差别。在示例性实施方式中，选择I3R大小，以将字段或帧水平地和垂直地划分为相同数目的PR，而不考虑输入字段或帧中像素的数目。通过确保在不同的图像大小中存在相同数目的PR，可以进行具有不同光栅结构的字段或帧之间的比较，例如隔行扫描和逐行扫描的字段或帧之间的比较。例如，这能够进行高清晰度(HD)和标准定义(SD)图像之间的精确比较。因此，例如，水平24像素和垂直24线的I3R大小可用于 1080线隔行扫描高清晰度(HD)视频的字段；水平16像素和垂直32线的冊大小可用于720 线逐行扫描高清晰度(HD)视频的帧；以及水平9像素和垂直12线的冊大小可用于576线逐行扫描标准定义(SD)视频的字段。为了生成基于运动的签名信息，对每个ra的块值与先前字段或帧中的对应ra的块值进行比较，并且特定字段或帧中的每个I3R的差值在该字段或帧的所有I3R上进行累计。整个字段或帧的累计差值被删减为8位值，从而有效确定一对相邻字段或帧之间的平均像
素差值。因此，示例性实施方式中的基于运动的签名信息包括每字段或帧一个字节。在示例性实施方式中，基于空间的签名信息还源自在确定基于运动的签名信息期间生成的I3R的块值。为了避免由标识或其他附加内容所引起的任何错误结果，在示例性实施方式中，空间签名检测窗口被限定为排除空间签名的图像外围。这在图6中示出，其中，使用中心定位的空间签名窗口 62，其具有等于图像宽度0. 8倍的宽度和等于图像高度0. 5 倍的高度。在排除被添加的任何‘黑色条’之后，确定用于导出窗口(还在导出基于运动的签名数据时应用)的图像宽度和高度，以使图像的预期纵横比与在相关传输标准中指定的显示设备的纵横比相匹配。(这些‘条’不总是黑色的，但是在外观上是统一的。)因此，对于在4 3纵横比显示器的中心显示的16 9纵横比图像‘柱形条’来说，窗口的高度将从传输图像高度的1/2减小到图像高度的3/8。并且，对于16 9显示设备的中心显示的4 3 图像‘柱形条’来说，窗口的宽度将从传输图像宽度的8/10减小到图像宽度的3/5。任何黑色条的存在和大小可以被自动检测，例如通过英国专利申请0806050. 1中描述的方法。可选地，条的存在可以源自与被分析的视听材料相关联的数据。通过将空间签名窗口划分为8列来限定8个空间图像区(PA)，诸如图6所示的PA 65。通过累计落入各个PA内的冊块值以形成各自的PA块值，为8个PA中的每一个导出基于空间的签名信息。假设8位视频数据，8个PA中的一个的累计块PA值可以达到M位。在示例性实施方式中，8个PA块值中的每一个都被删减为8位；由此在每个PA中给出平均亮度的量化表示。在示例性实施方式中，这些8字节被用作每个字段或帧的基于空间的签名数据。在一些实施方式中，用于所捕获AV内容的每个字段或帧的空间分布数据被包括在视频签名中，即，提供连续的空间签名。在其他实施方式中，用于所捕获AV内容的仅一些字段或帧的空间分布数据被包括在视频签名中，即，提供不连续的空间签名。包括用于所捕获AV内容的仅一些字段或帧的空间分布数据不会显著削弱视频信号的分析精度，但是会大大减小视频签名的大小。这种视频签名大小的减小在期望减小传送签名所需的信道容量或者存储签名所需的存储容量的情况下是有利的。因此，与隔行扫描视频或音视频序列中的特定时间点相关联的视频签名的典型实施例包括来源于直到并包括特定时间点的序列一小部分(90个字段)中的所选字段的基于运动的签名数据和基于空间的签名数据。基于运动的签名部分包括源自从直到并包括特定时间的该90字段部分中心获取的视频序列的50字段部分的50个基于运动的签名数据字节的序列。基于空间的签名部分包括从该50字段部分内的四个字段中的每个获取的8字节数据，和描述该50字段部分内这四个字段所在的位置的2个字节。因此，与特定时间点相关联的视频签名包括总共86个字节。
如上所述对于音频签名的情况，视频签名可以通过从视频分析工具的附加元数据来增加。适当的数据包括由于基于块的处理而引起的假象的测量，例如，通过英国专利申请GB 2 437 337中描述的方法来获得· ‘黑色’的测量，通过英国专利申请GB 2 434 496中描述的方法来获得颜色缺乏的测量，通过英国专利申请GB 2 437 338中描述的方法来获得· ‘静止’的测量，通过英国专利申请GB 2 428 924中描述的方法来获得视频的‘非图像’(例如，由于设备故障所引起的不相关信息)性质的测量，通过在英国专利申请GB 2 430 102中描述的方法来获得现在将在图7的以下描述中更加详细地说明AV签名的比较，其示出了在示例性实施方式中用作主AV内容分析器的图1中的第二 AV内容分析器8的操作。本地AV数据700(来自图1的信道2)被输入至本地AV数据存储器701，该本地 AV数据存储器701被配置为保存当前接收的数据和先前短时间内的数据部分。通常，在存储器中保存与大约1.5秒的音视频材料相对应的数据；比它早的数据被丢弃，因为更新的数据变得可用并被输入至存储器701。AV数据700通常包括音频、视频和相关的时间信息(例如，时间码值、时间基准信号、同步脉冲或时间戳等)。存储器701的内容通过多路分离器702被分为这三种分量。对于示例性的1. 5秒存储，来自多路分离器702的视频数据包括每秒视频50字段的75个字段，或者每秒视频60字段的90个字段；以及来自多路分离器702的音频数据可以包括 72000个音频样本。来自多路分离器702的时间数据能够使这些多路分离的视频字段和音频样本根据与输入AV数据700相关联的时间数据来确定。如先前所解释的，AV内容自身的特征可用于限定时间位置。多路分离的视频数据通过本地视频签名生成器703转换为本地视频签名数据，本地视频签名生成器703为存储在存储器701中的所有字段或帧提供视频签名数据。通常，本地视频签名生成器703将如上所述进行操作，并生成1字节的基于运动的签名数据、以及每字段或帧8字节的空间签名数据。多路分离的音频数据通过本地音频签名数据生成器704转换为本地音频签名数据。通常，本地音频签名生成器704将如上所述进行操作，以过滤音频样本，抽选结果并得到符号位。这将由72000个音频样本生成450位的签名数据(注意，在该处理中不进行根据熵的选择)。此外，经由与图1的辅助通信信道10的连接来接收来自图1的第一 AV内容分析器6的AV签名705。如先前所解释的，向图1的第一分析器6请求这些签名。这些签名通过多路分离器706被多路分离为音频签名；音频签名时间数据；视频签名；以及视频签名时间数据。来自多路分离器706的视频签名将包括在直到并包括所请求签名时间的90字段视频段期间发生的特定视频字段的签名数据；通常，50个字段中的每个1个字节基于运动的签名数据，以及4字段中的每个8字节基于空间的视频签名数据。来自多路分离器706的音频签名将包括根据最大熵准则从图1的分析器6中选择的音频签名数据的120位部分。来自多路分离器706的视频签名时间数据和音频签名时间数据，能够根据与(经由信道2)输入至图1的分析器6的AV内容相关联的时间数据来标识确定(在图1的分析器6中)视频签名数据和音频签名数据的视频字段和音频样本的时间(timing)。该标识将利用基于空间的视频签名内的2字节时间数据以及音频签名内的2字节偏移数据。在视频签名比较器707中将从多路分离器706接收的每个所请求视频签名与来自本地视频签名生成器703的所有本地视频签名数据进行比较。比较器707从本地视频生成器703中查找与来自多路分离器706的签名最佳匹配的本地视频签名数据，并输出与所请求视频签名最佳匹配的本地视频签名数据的相似性的测量。这种相似性测量被输出作为视频相似性输出708。视频签名比较器707还比较来自多路分离器706的对应于所接收视频签名的时间数据与来自多路分离器702的对应于最佳匹配本地视频签名数据的时间数据。该时间差被输出作为视频时间改变输出709。视频相似性测量可以是通过第一 AV内容分析器6和第二 AV内容分析器8捕获的视频内容相似性的置信度的测量。在本发明的示例性实施方式中，通过测量视频签名之间的绝对差来比较视频签名。在本发明的其他实施方式中，可通过执行视频签名之间的相关性来比较视频签名。如上所述，在示例性实施方式中，视频签名由空间分布数据和运动分布数据形成。视频签名的这些分量可以被分别比较或相关联。通常，在从本地视频签名生成器703本地生成的签名数据内的不同时间位置处进行多种差或相关性确定，并且评估结果来找到最佳匹配的位置。在音频签名比较器710中将来自多路分离器706的每个所接收的音频签名部分与来自本地音频签名生成器704的所有本地音频签名数据进行比较。该比较器从本地音频生成器704中识别与所接收音频签名部分最匹配的本地音频签名数据的部分，并将各个部分的相似性测量作为音频相似性输出711输出。音频签名比较器710还比较来自多路分离器706的对应于所接收音频签名部分段的音频签名时间数据与通过来自多路分离器702的本地时间数据确定的最佳匹配音频部分的时间。该时间差被输出作为音频时间改变输出712。例如，可通过减法器713来比较音频时间改变输出711与视频时间改变输出709，以获得AV时间改变输出714。该输出描述了音频与视频相对延迟的改变。通常，图1的数据信道10将具有相对低的带宽，并且可以从上述实施例中看出，只有AV签名的103个字节(排除分析时间的限定)需要从分析器6传送到分析器8，以执行它们各自AV输出的比较。如上所述，在许多当前系统中，存在多个音频信道，该音频签名处理可应用于多个音频信道中的一个、所有或者子集。在多音频信道实施方式中，可以经由一个或多个音频信道的连接705来接收音频签名数据；并且多个音频信道可以从数据700中多路分离并存储在存储器701中。一个或多个所接收的音频签名可以在多路分离器706中进行多路分离并与对应于一个或多个存储的音频信道相对应的音频数据进行比较，以确认图1的分析器6 输入端处一个或多个音频信道与输入至分析器8的数据700中的一个或多个音频信道的一致性。在示例性实施方式中，确定所接收音频签名部分与本地音频签名数据的候选部分之间的绝对差，并且具有最小绝对差的部分被识别为最佳匹配。注意，由于音频签名数据是二进制数据，所以绝对差的确定相当于互相关联，并且可以通过简单的异或逻辑运算来实现。因此，上述技术能够识别发生在图1的分析器6和8之间的音视频数据的变化；具体改变如下相对于时间码(或标称位置)的音频延迟；相对于时间码(或标称位置)的视频延迟；任意音频信道之间的相对延迟；以及任意音频信道与相关联视频信道之间的相对延迟。此外视频内容相似性的置信度测量；和音频内容相似性的置信度测量可以单独使用、彼此结合使用，或者与上述延迟测量组合使用，以提供两个分析点处AV的内容的相似性置信度的总体测量。现在将参照图8描述本发明的第二实施方式。表示AV内容的音视频数据801通过AV内容分析器803传送至压缩编码器800。压缩编码器生成存储在的存储器中(例如，文件服务器804上)的第一压缩AV文件802。 AV内容分析器803执行与第一实施方式相关的上述AV内容分析操作，并将所得到的音频和视频签名存储在文件服务器804上的第一元数据文件806中。通常，第一压缩AV文件802可以经受附加处理808，例如译码为不同的压缩格式或其他内容再利用处理，以创建第二压缩AV文件810。AV内容分析处理812可执行再利用(r印urpose)压缩AV文件810的内容的进一步AV内容分析。这种分析遵循先前描述的原则，但是还包括AV数据的全压缩解码或部分压缩解码，以获得分析所需要的音频和视频元素。该内容分析的结果为第二元数据文件814。在该实施方式中，AV内容分析812以软件处理的方式实施，其根据上述原则对第二压缩AV 文件810进行操作，生成包括在第二元数据文件814中的音频签名数据和视频签名，其中，第二数据文件814存储在文件服务器804中。可以在根据上述原则操作的元数据比较处理816中比较第一元数据文件806和第二元数据文件804。比较结果可以方便地附加至第二元数据文件814。在示例性实施方式中，元数据比较处理816被实施为软件处理，其可以与内容分析处理812相结合。但是，正如对本领域的技术人员将是显而易见的，比较处理816可以实施为单独的软件或硬件模块。
如上所述，可以进行AV系统中不同点处压缩和未压缩音视频数据的分析，并且可以比较分析结果以监控AV系统。可以进行视频数据和音频数据的各自相似性测量；可以估计音频和视频签名数据相对于时间码或者其他时间基准的各自时间；和/或可以检测音频数据和视频数据之间的相对延迟。因此，本发明提供了有利的分析和监控系统。本发明可以在流式视频数据上实践，但是还可以应用于视频和音频文件。所描述的签名可以作为直接包括在AV通信信道或文件中，或者单独分布和存储的元数据携带。正如对本领域的技术人员将是显而易见的，可以以硬件或软件实施本发明。尽管本文已公开了 48kHz的流式音频数据的分析，但本领域的技术人员将知道，音频数据可以在不同情况下以不同的采样率进行采样。具体地，压缩音频文件可以通常以 32kHz进行采样。音频数据和视频数据两者的分析一起给出了更加可靠的结果，但是可以单独使用所公开的音频数据和视频数据的分析的方法。具体地，在一些实施方式中，基于音频和视频比较结果的相似性给出总体置信度测量的音频和视频分析的结果的比较可是有利的。如果进行重复比较，则可以提高签名之间比较的可靠性，并且例如在移动平均或其他IIR或FIR时间低通滤波处理中递归地组合连续比较的结果。此外，在本发明的一些实施例中，还可以比较AV数据的其他特征。因此，例如，可以比较的其他系统参数为视频标准；数字程序标识符的校验和；UMID(全球多媒体标识符)的存在和/或校验和；任何短码标签的存在和/或校验和；或者文本数据、子标题或‘限定标题’的存在。
权利要求
1.一种导出多个音频样本的签名特性的方法，包括以下步骤确定代表所述音频样本的音频签名数据；确定形成感兴趣区域的所述音频签名数据的部分；以及提供形成感兴趣区域的所述音频签名数据部分作为音频签名。
2.根据权利要求1所述的导出多个音频样本的签名特性的方法，其中，所提供的音频签名还包括标识所述音频签名数据内所述感兴趣区域的位置的位置数据。
3.根据权利要求1或2所述的导出签名的方法，其中，所述确定代表所述音频样本的音频签名数据的步骤包括以下步骤从所述音频样本分离出感兴趣的频域范围；以及基于所分离出的感兴趣的频域范围的幅度的时域变化确定音频签名数据。
4.根据权利要求3所述的导出签名的方法，其中，音频样本值被整流，从而获得绝对幅度值。
5.根据权利要求3所述的导出签名的方法，其中，所述分离出感兴趣的频域范围的步骤包括以下步骤通过低通滤波器对所述音频样本进行滤波，并且对经滤波的所述音频样本进行子采样。
6.根据权利要求3至5中任一项所述的导出签名的方法，其中，通过将每个音频样本或经滤波的音频样本与先前各个音频样本或经滤波的音频样本进行比较，来确定所述基于所述感兴趣的频域范围的时域变化确定音频签名数据的步骤。
7.根据权利要求1至6中任一项所述的导出签名的方法，其中，所述确定形成感兴趣区域的所述音频签名数据的部分的步骤包括以下步骤确定所述音频签名数据具有最大熵的部分作为所述感兴趣区域。
8.根据权利要求1至7中任一项所述的导出签名的方法，其中，所述确定形成感兴趣区域的所述音频签名数据的部分的步骤偏向于选择所述音频签名数据的中心部分。
9.根据前述权利要求中任一项所述的从音频数据的两个信道导出音频签名的方法，其中，通过从代表两个以上音频信道的环绕声音频数据中得到的两个或多个音频信道的组合来导出所述两个信道。
10.根据前述权利要求中任一项所述的从音频数据中导出音频签名的方法，其中，描述由所述音频数据表示的瞬态干扰的元数据包括在所述音频签名中。
11.一种导出视频数据和相关联音频样本的多个字段或帧的签名特性的方法，包括以下步骤根据权利要求1至10中的一项确定音频签名；根据视频字段或帧中的图像信息值确定所述视频字段或帧的空间分布数据；由所述空间分布数据构成视频签名；以及提供所述音频签名和所述视频签名作为音视频签名。
12.根据权利要求11所述的导出签名的方法，其中，从所述视频字段或帧的多个部分的平均图像信息值来获得所述空间分布数据。
13.根据权利要求11或12所述的导出签名的方法，还包括根据连续视频字段或帧中图像信息值之间的差确定视频字段或帧的运动分布数据的步骤；其中，由所述空间分布数据和所述运动分布数据构成所述视频签名。
14.根据权利要求13所述的导出签名的方法，其中，通过估计源自连续视频字段或帧的空间累计图像信息值之间的一个或多个差来确定视频字段或帧的所述运动分布数据。
15.一种导出视频数据的多个字段或帧的签名特性的方法，包括根据视频字段或帧中的图像信息值确定所述视频字段或帧的空间分布数据；以及由所述空间分布数据构成签名。
16.根据权利要求15所述的导出签名的方法，其中，从所述视频字段或帧的多个部分的平均图像信息值中获得所述空间分布数据。
17.根据权利要求15或16所述的导出签名的方法，还包括根据连续视频字段或帧中图像信息值之间的差确定视频字段或帧的运动分布数据的步骤；其中，由所述空间分布数据和所述运动分布数据构成所述签名。
18.根据权利要求17所述的导出签名的方法，其中，通过估计源自连续视频字段或帧的空间累计图像信息值之间的一个或多个差来确定视频字段或帧的所述运动分布数据。
19.根据权利要求13、14、17或18中任一项所述的导出签名的方法，其中，为视频字段或帧中的每一个确定所述运动分布数据，所述运动分布数据构成连续的运动分布数据。
20.根据权利要求11至19中任一项所述的导出签名的方法，其中，所述视频字段或帧中的所选字段或帧的所述空间分布数据被用于构成不连续的空间分布数据。
21.根据权利要求11至20中任一项所述的导出包括视频图像的特性的签名的方法，其中，所述签名包括表征由于基于块的处理所引起的图像假象的元数据。
22.根据权利要求11至21中任一项所述的导出包括视频图像的特性的签名的方法，其中，所述视频签名源自视频图像内的矩形窗口，确定所述矩形窗口的大小并定位所述矩形窗口以排除所述视频图像的边缘。
23.根据权利要求22所述的方法，其中，确定所述矩形窗口的大小并定位所述矩形窗口，以排除所述图像内与已经附加至所述图像的一个或多个边缘的空白区域相邻的矩形区域，从而补偿预期显示设备的纵横比与所述图像的纵横比之间的差。
24.一种比较视频或音视频数据的方法，其中，在从第一视频或音视频序列的一个或多个字段或帧中导出的第一视频签名数据与在第二视频或音视频序列内的多个时间位置处导出的第二视频签名数据之间进行多次比较，建立视频签名数据的最佳匹配的时间位置。
25.根据权利要求M所述的方法，其中，处于最佳匹配位置的视频签名数据的相似度被用于导出所述第一视频或音视频数据序列和所述第二视频或音视频数据序列的相似性的测量。
26.根据权利要求M所述的方法，其中，所述最佳匹配的时间位置和与所述第一视频签名数据相关联的时间数据进行比较，以导出所述第一视频或音视频数据序列和所述第二视频或音视频数据序列之间的视频时间差的测量。
27.—种比较音频或音视频数据的方法，其中，在从第一音频或音视频序列的两个或多个音频样本中导出的第一音频签名数据与在第二音频或音视频序列内的多个时间位置处导出的第二音频签名数据之间进行多次比较，建立音频签名数据的最佳匹配的时间位置。
28.根据权利要求27所述的方法，其中，音频签名数据的相似度被用于导出所述第一音频或音视频数据序列和所述第二音频或音视频数据序列的相似性的测量。
29.根据权利要求28所述的方法，其中，所述最佳匹配的时间位置和与所述第一音频签名数据相关联的时间数据进行比较，以导出所述第一音频或音视频数据序列和所述第二音频或音视频数据序列之间的视频时间差的测量。
30.根据权利要求沈或四所述的方法，其中，视频时间差的测量与音频时间差的测量进行比较，从而导出所述第一音视频数据序列和所述第二音视频数据序列之间的视频相对于音频延迟的差的测量。
31.一种计算机程序产品，包括适于实施根据前述权利要求中任一项所述的方法的代码。
32.一种装置，适于实施根据权利要求1至30中任一项所述的方法。
33.一种用于音视频数据的签名，包括视频签名；以及包括音频签名数据和标识感兴趣区域的位置的偏移数据的音频签名。
34.根据权利要求33所述的用于音视频数据的签名，其中，所述视频签名包括运动分布和空间分布。
全文摘要
本发明涉及用于生成音视频内容签名的音频和/或视频信号的特性分析。为了确定音频签名，在音频签名数据中标识例如高熵的感兴趣区域。然后，将该感兴趣区域提供作为具有偏移信息的音频签名。还提供了视频签名。
文档编号G10L25/00GK102084416SQ200980112996
公开日2011年6月1日申请日期2009年2月20日优先权日2008年2月21日
发明者乔纳森·迪金斯申请人:史诺有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔纳森·迪金斯
技术所有人：史诺有限公司
我是此专利的发明人

上一篇：用于处理音频信号的方法和装置的制作方法
上一篇：复合吸音结构体的制作方法