操纵数据压缩参量的视频内容分析方法和系统的制作方法

文档序号：7730497阅读：147来源：国知局

专利名称：操纵数据压缩参量的视频内容分析方法和系统的制作方法
技术领域：
本发明涉及视频数据流中的内容(例如，广告)的检测，更具体地说，涉及精确地识别从一种内容到另一种内容的转变，诸如广告的时间界线。
背景技术：
个人视频接收机/录像机、用于修改和/或记录广播视频的内容的装置，正变得越来越流行。一个例子是根据于存储的用户的喜爱，自动在硬盘上记录节目的个人录像机。对于这样的系统的一个正在研究的特性是内容检测。例如，能够检测广告的系统可以允许替换被插入在视频流中的广告(“广告交换”)，或在广告结束时暂时停止视频，以防止在广告期间注意力暂时分散的用户丢失任何主要的节目内容。
已知有用于检测广告的各种方法。一个方法是在时间上相邻的各帧之间的没有衰减(fade)或运动过渡的场景中检测由于明显变化而造成的高的切换率。切换可包括衰减，这样切换不必是硬切换。更可靠的准则可以是高的转移速率。另一个指示是与静默相联系的黑帧(或单色帧)的存在，它可以指示广告插入的开始。另一个已知的广告指示是高的活动性，这是一种从观察/假设得出的指示，其中在广告期间比起在演出(非广告)资料期间，目标物运动得更快和改变得更经常。这些方法或多或少地表明许可的结果，但可靠性仍旧是所希望的。已经有许多致力于隔离广告的专利，它们采用单色帧和高活动性的检测。早已有报导对于单色帧、场景插入、和由所谓“边缘改变比值和运动矢量长度”的技术所测量的活动的使用。
已经讨论了黑帧的检测和由亮度级改变速率表示的“活动性”的组合。不幸地，很难确定构成“活动性”的东西和识别精确的开始点和终结点。黑帧会产生假阳性，因为特别是它们也在画面消隐时发现。因此，在高活动序列前面的任何黑帧序列可被误判断为广告并被跳过。
另一个技术是测量在黑帧序列之间的时间距离，以确定广告的存在。另一个技术是基于匹配的图像识别广告。换句话说，在图像内容的质量上的差异被用作为指示。另外还已知的是在视频流内划分广告边界的、预定的指示符的使用，但这只是指示先前已知的广告的方法，而不是检测广告的方法。已经提出基于训练的神经网络的广告检测，该神经网络用来根据视频流的分析以区分内容，但至今为止还没有取得很大的成功。另外，神经网络对于本用途的实施来说是复杂的和昂贵的。
发明概要概略地，本发明采用在压缩视频的处理过程中自动产生的低级别和中级别特性作为加到各种分类器工具的输入。分类器工具被训练成识别广告特性和响应于它们而产生度量。所述度量被组合地利用(超级分类器)以便检测广告的边界。使用这些低级别和中级别特性的好处是它们可通过使用相对较便宜的电子装置，诸如使用专用集成电路(ASIC)或专用指令集处理器(ASIP)，从而被非常快速地产生和处理。
一般地说，专用芯片在消费者电器中正常执行图像压缩，因为所涉及的处理需要高速度。本发明的一个方面是，提供一种方法来操纵压缩处理的结果，以便不仅用于压缩，而且也用于对于检测某些类型的内容所需要的视频分析。可以压缩视频的设计方案的一个例子实施被称为MPEG-2的活动图像专家组(MPEG)压缩方案。
在MPEG-2中，视频数据由视频序列表示，每个序列包括一组图像(GOP)，每个GOP包括一些数据片，它们描述组成视频的图像或“帧”。帧是视频序列的初级编码单位。一个图像包含三个长方形矩阵，其中一个表示亮度(一个帧的各个部分的强度)，以及两个表示色度(Cb和Cr；一个帧的各个部分的彩色)。亮度矩阵具有偶数的行和列。色度矩阵在每个方向(水平和垂直)上是Y矩阵的规模的一半，因为人的感知对于彩色细节比起对于亮度是不太敏感的。每个帧还被划分成一个或多个接连的宏块，被编组为“片”。在一个片内宏块的次序是从左到右以及从顶部到底部。宏块是MPEG-2方案中的基本编码单位。它表示一个帧的16×16像素部分。因为每个色度分量具有亮度分量的垂直和水平分辨率的一半，宏块包含四个亮度，一个Cb块和一个Cr块。每个亮度宏块还被划分成四个8×8像素的块。
在MPEG-2中，某些帧，被称为内部的帧或“I帧”，是由与任何其他帧的内容无关的数据表示的。这允许重放装置在这样的帧所位于的任何点处进入视频文件。在MPEG-2中，帧被编组为图像组(GOP)，I帧总是在任何的图像组的前面。I帧不同于预测的帧或P帧，这些帧部分地由表示相应于P帧的帧的数据和部分地由表示一个或多个先前的帧的数据规定。双向帧或B帧由来自先前的和将来的帧的数据以及相应于B帧本身的数据表示。在MPEG-2中数据被压缩的方式取决于帧的类型。I帧的每个块被转换成被称为离散余弦变换(DCT)的不同的格式。这个处理过程可被粗略地描述为把每个块的出现定义为不同的预定的波形图案的和值，这样，一个高度详细的图案将包括许多短的波形图案，以及一个平滑的图案将包括长的波形(或没有波形)。这样做的理由是，在视频中，许多块是平滑的。这允许在这样的块中描述短的波形的贡献的数据可以通过一个称为游程长度编码的处理过程而被大大地压缩。另外，当视频必须被强迫进入一个瓶颈以及某些数据必须被牺牲时，从DCT表示法释出某些数据比起在原先的图像中释放出数据将会产生较好看的图像，后者例如会使得图像充满空洞。
DCT数据可被表示为许多不同的波形图案，或仅仅几个波形图案，在图案之间有大的台阶。初始地，DCT数据是非常精细的粒度。但作为压缩处理过程的一部分，DCT受到被称为量化的处理，其中不同的波形图案的相对贡献由粗的或细的粒度的尺度表示，这要根据有多少数据必须被压缩而定。
通过压缩视频图像产生P帧和B帧的过程牵涉到更复杂的处理过程。计算机取第一图像及其先前的图像，以及查看在何处每个块(或宏块，这取决于用户的选择)从一个图像移动到下一个图像。替代对P帧中的整个的块进行描述，MPEG-2数据仅仅表示先前的帧中的块在何处移动到新的帧。这被描述为矢量、线、或箭头，它们的长度表示运动的距离，以及它们的取向表示运动的方向。然而，这种描述是有毛病的，因为根据在其周围运动的斑点并不能描述视频中所有的运动。然而，该缺陷通过发送规定在由运动描述所预测的图像与它实际上观看时的图像之间的差值的校正量而被解决。这种校正被称为剩余的。运动数据和剩余数据受到DCT和量化处理，正如I帧图像数据那样。除了它们在编码它们的数据时可参考以前的和将来的帧以外，B帧类似于P帧。
作为压缩处理的副产品，示例的视频压缩装置产生以下用于每个帧的数据。以下是可以从编码器容易地得出的东西的例子，但这绝不是全部的。另外，它们依赖于编码器的类型而改变。
-帧指示符可被使用来指示帧的类型(I，P，或B型)的帧标识符。
-亮度DC的总值I帧的亮度的指示。
-量化器尺度对于DCT数据所使用的量化尺度。
-MAD(平均绝对差值)它被使用来用块的运动来描述P或B帧-图像的矢量的幅度的平均值。有几个值可以被产生例如，只表示整个的帧的上部或下部的一个值，或包括帧的所有的块的一个值。
-当前的比特率表示GOP的数据量。
-逐行的/隔行的值指示符，它表示图像究竟是隔行的类型(通常在传统的电视视频中出现)，还是逐行的类型(通常在来自电影和计算机动画的视频中出现)。
-亮度DC的差值这个值表示在一个帧的宏块之间的亮度变化。低的变化是指单一的图像，它可以是空白的屏幕。
-色度DC的总值类似于亮度值，但是它是基于根据色度分量而不是亮度分量。
-色度DC的差值类似于亮度差值，但是根据色度分量，而不是亮度分量。
-信箱值当在电视屏幕上显示宽屏幕格式时，通过查看在帧的顶部和底部处均匀带，表示视频图像的形状。
-时间印记这些不是广告的标记，但表示视频流中的位置，以及被使用来标记由内容可区分的视频序列的开始点和结束点-场景改变检测这表示由于在平均的MAD值中的明显改变引起的、在场景内容中的明显改变。
-关键帧距离这是在场景切换之间的帧的数目。
作为可被识别的和暂时归类的内容的类型的例子，超过15小时的带有广告的视频被测试。不同的特性的有效性和特性的组合、作为广告序列的开始点和结束点的指示符被确定。确定了以上讨论的各自的指示符比起被组合时对于它们本身不太可靠。这些测试确认组合这些数据的各种方式可被使用来产生可靠的内容检测，特别是广告检测。
本发明将结合某些优选实施例参考以下的附图被描述，这样，可以更全面地了解本发明。通过参照附图，强调了所表示的细节只是作为例子以及仅仅用于本发明的优选实施例的说明性讨论，这为了提供最有用的和易于了解本发明的原理和概念方面的说明而给出的。在这方面，并不打算提供超过能够基本上了解本发明所必须的更详细的结构方面的细节，结合附图作出的说明使得本领域技术人员明白，本发明的若干种形式将如何付诸实施。
附图简述

图1是按照本发明的实施例的、用于实施基于压缩特性的视频内容识别的处理过程的硬件系统的方框图。
图2是表示按照本发明的实施例的、利用压缩特性来识别内容序列的处理过程的流程图。
图3是表示按照本发明的另一个实施例的、利用压缩特性来识别内容序列的处理过程的流程图。
优选实施例详细描述参照图1，图上显示一个可被使用来通过操纵在视频压缩期间产生的数据来检测内容的系统。在表示的实施例中，MPBG编码器100编码来自实时数据馈送源(诸如互联网、数据存储器、广播、或任何其他源)的视频数据90。MPEG编码器产生压缩的数据，它可被存储在数据存储器110，诸如硬盘、DVD、CDROM、或其他数据存储媒体。替换地，数据可被缓存，以便由任何适当的装置去进行分发。MPEG编码器100可以产生各种各样不同的数值，下面列出其中的一些数值。
-帧指示符-亮度DC的总值-量化器尺度-MAD(平均绝对差值)总值，下部-当前的比特率-X方向的场运动平均值-亮度差值-MAD总值，上部所有的MAD值之和-MAD总值，下部所有的MAD值之和-信箱值-时间印记-色度DC总值-色度差值通常，基于芯片的压缩编码器不产生所有的这些数值，以及不暴露保存它们产生的这些数值的寄存器，因为通常它们没有其他用途。在本发明中，这些数值被用于内容识别的附加处理。为了产生这些数值的某些数值、以及暴露保存它们的寄存器以便外部处理，压缩芯片可能需要被修改。通过这样做，在这样的芯片上的计算负担并不明显地增加，以及压缩芯片的所需要的设计修改很好地在本领域技术人员的能力内执行。纯软件系统可通过简单的软件修改(诸如，变量的定义改变)而把这些数据提供到任何其他处理过程。以上内容可以由MPEG编码器100以原始的形式输出给内容分析器120，或数据可以首先被精选，这取决于这里描述的功能(在编码器100与分析器120之间)的分配。这些数据在MPEG领域中是标准的，但下面为了方便连同有关它们可以如何被利用或滤掉的某些注释一起被描述。
重放选择器130可以使用来自内容分析器的结果来编辑压缩的视频。例如，在想要从视频资料中删除广告或高活动序列的场合，重放选择器可以跳过通过由内容分析器120分析而造成的标记来归类的、和结合MPEG文件一起被存储在数据存储器110中的资料。MPEG数据在下面被描述为可从压缩处理过程得到这种数据的例子。
帧指示符帧指示符只是帧的序号识别符。帧指示符区分I帧和P帧(以及B帧)。对于一个等于6的GOP尺寸，I帧具有0的数值，以及P帧(和B帧)具有1、2、3、4、5的数值。I和P或B帧指示可被使用于内容检测，正如下面讨论的。
亮度总值亮度总值是在整个帧的每个宏块的第一(四个中的一个)亮度DC值的和值。DC(色度或亮度)数值的任何选择也可被使用。前者的数值只对于I帧是有用的。对于P帧和B帧，亮度总值根据先前的帧被计算。亮度总值可被使用于黑帧检测。替换地，正如下面讨论的，一个聚合值，亮度差值，可以提供单色(非黑色的，但单一的彩色帧)和可用于本任务的其他优点。亮度总值对于某些检测是有利的，诸如用于闪烁的检测。
量化器尺度量化器尺度表示由MPEG编码器100所使用的、用于量化视频数据的量化值。这个量化值可以是自适应的，以确保比特率处在预定的频段中。这个特性对于检测非常复杂的或快速运动的场景是有用的。该数值是与I帧以及P帧和B帧相关的。
MAD总值-上部如上所述，MPEG编码处理的一部分是从一帧到另一帧的、彩色和亮度的场的运动的估算。这个处理的结果是位移矢量，其数值由MAD匹配准则确定。上部的MAD总值可指示明显的场景改变。帧被划分成上部(片0-25)和下部(片26-35)。在帧的上部，没有出现子标题，所以不会出现由于文本改变造成的误检测。MAD总值-上部是片0-25的宏块的所有的MAD值之和。在静止场景的情形下，宏块只是稍微(如果全部)偏移，以及与参考宏块很好地匹配。所以，MAD数值将是非常低(接近于零)。在明显的场景改变时，几乎没有发现匹配的宏块，或具有高的内容差值。所以，在明显的场景改变时的MAD数值比起平均MAD数值高得多。
MAD总值-下部该数值的计算是与帧的上部的的计算相同的。MAD总值下部是片26-35的宏块的所有的MAD值之和。另外，帧被分片，因为在子标题(在欧洲的某些国家中非常经常地被使用)中的每个改变导致误情景改变检测。帧的下部的MAD数值作为子标题改变检测器，和作为用于明显场景改变检测器的支持特性是有用的。
当前的比特率当前的比特率指示用于传输MPEG数据的比特率，以及每个GOP具有固定的数值。为了使当前的比特率保持在每个频段中，量化器数值被增加或减小，取决于实际的当前的比特率。这个数值与量化器数值相组合地被使用，以指示快速变化的或非常复杂的场景。
逐行的/隔行的值在X方向上场运动平均值指示在x方向上每个宏块的位移值。例如，这可被用作为对于场景中足够的运动的检验，它反过来可被使用来指示是否已从逐行视频转移到隔行视频或相反。如果实际宏块的水平位移的绝对值大于8个半像素(对于到左边或到右边的足够的运动的控制)，则对于实际帧的逐行的/隔行的值可被增加1，如果宏块是帧DCT编码的(即，宏块的DCT类型模式是0)，或被减小1，如果宏块是场DCT编码的(即，DCT类型模式是1)。于是，相对于门限值的逐行/隔行值可被用作为当前的视频是逐行的还是隔行的指示符。
亮度DC差值这个值可被使用来指示黑帧、均匀彩色帧，和具有低信息内容的帧。为了计算亮度DC差值，片中的接连的宏块的DC数值的绝对差值(仅仅是每个宏块的第一DC值)首先被相加在一起。帧中所有的片的和值然后被相加在一起，提供总值。
色度DC差值这个值可被使用来帮助指示黑帧、均匀彩色帧、和具有低信息内容(或相反)的帧。为了计算色度DC差值，片中接连宏块的DC值(或子集)的绝对差值像上面那样首先被相加在一起。对于分开的色度信号，例如Cr和Cb，可以计算分开的数值。
彩色直方图也可以是压缩编码器的输出，或被做成一个。直方图可被使用来指示单色帧。直方图也可用作为独立的表征装置。也就是，连同其他参量一起，或甚至由其本身，它可用来把某些类型的内容与其它类型区别开来。直方图可被有效地产生，因为块比起原先的图像具有更低的分辨率。
信箱值信箱值基于亮度DC值。头两片(片0和1)和最后两片(对于PAL为片34和35)的宏块的亮度DC总值被相加在一起，以及两个值的最大值给出信箱值。信箱值可以根据亮度差值或总值被计算。
音频特性正如下面讨论的，音频压缩产生各种各样的有用的数值，它们可被使用于内容的分类。例如，作用在量化的子频带数据上的函数可被使用来产生这些附加特性。
时间印记时间印记被使用来检索帧，以及标记检测的内容插入。
上面讨论的特性组可被减小，为了产生由此得出的一组中级特性。例如，对于它们的能力测试以下的特性，以便有助于广告插入的检测。
-场景改变检测-黑帧/单色帧检测-信箱检测-隔行/逐行指示-关键帧距离这些特性在下面被描述。
场景改变检测场景改变的指示符可以从帧的上部的MAD总值得出。在明显的场景改变事件中，这个数值在一个或两个帧内跳变到非常高的值，然后再次回到低值。滑动时间窗可被使用来围绕实际帧和它的接续帧来计算平均的MAD值。如果对于实际帧的MAD值(或实际值和它的接续者之和)超过与平均的MAD值有关的某个门限值，则可以通过改变场景改变检测器的值指示明显的场景改变。
黑帧/单色帧检测器如果亮度DC差值保持在某个门限值以下、则多个门限值可能被使用，检测到一个黑帧或单色帧。某些广播发射机在广告之间使用单色帧(例如，蓝色帧)，而不是黑帧。在这种情形下，单色帧指示符对于广告检测器是有用的。
隔行/逐行指示符隔行/逐行值可被使用来区分隔行的和逐行的视频资料。通过把每个帧的隔行/逐行值加到运行和上，可以产生运行和。如果这个和超过门限值，例如，20,000，则视频资料可被指示为隔行的资料，或如果低于该门限值，则可被表示为逐行的资料。可以在两个门限值之间规定一个静带，其中视频资料不能被规定。这个指示符对于检测广告可能是有用的，因为广告由于不同的预算是用不同的设备产生的。所以，在广告块中的视频资料可以相当经常地在隔行的和逐行的视频资料之间改变。
信箱检测器信箱检测器可被使用来区分具有不同的宽高比(例如，4∶3和16∶9)的资料。某些视频，例如广告，以不同于主要节目资料的格式被发送。主要资料可以是在一个信箱中的(像电影)，或广告可以是在一个信箱中的，重要的数据是改变本身。信箱指示两个上部的片和两个下部的片是否黑的。广告标题，或在黑色背景上小的物体，导致误检测，但这些特定的序列最可能没有被黑帧(单色帧)包住，所以它们对于广告检测器只具有最小的影响。被黑帧(单色帧)包住短的信箱序列是对于广告块的良好的指示。
关键帧距离检测器关键帧距离检测器是在场景插入之间的时间(帧或GOP的数目)的度量。平均关键帧的距离检测器可被使用来指示慢变化视频资料对快变化视频资料。在广告插入期间，关键帧距离是低的，典型地在约10-15GOP中改变。在正常节目期间，关键帧距离约为40GOP，有时达到超过100的数值。平均关键帧距离被计算为在关键帧的窗口内关键帧距离的运行平均值。例如，5个关键帧的门限值可被使用来把广告或活动内容与其他内容区分开。
各种MPEG数据(单独的和组合的)，是为了广告检测根据来自电视广播的样本视频资料、并与该材料相比较，而得出的。画出了一些表示对于欧洲内容的所有的组合特性对时间的图，实际的广告插入被指示在时间线上。通过使用这个图形的分析，每个特性可以对于它的能力被分析，以便单独地和与其他特性一致地，指示广告插入。这个分析的结果被归结为表I和II。
表I各个特性对于广告位置的检测的贡献
表II各个特性对于广告边界的检测的贡献
这些表指示节目种类以及对于黑帧、信箱、逐行-隔行改变和平均关键帧距离的列。在表I上，对于每个特性，确定该特性是否可被单独地用作为对于广告的位置的指示符。结论指示为是或否。在表II中，对于每个特性，确定该特性是否可被单独地用来确定广告的正确的边界。表I表明，黑帧的存在、逐行/隔行资料的改变是节目内广告插入位置的强烈的指示符。关键帧距离比起黑帧和逐行/隔行改变是弱得多的指示符。对于逐行/隔行改变的检测的信赖产生许多假阳性(false-positives)，但很少丢失广告边界。这对于其他特性可能也是正确的。开发了一种技术，其中一个特性用作为触发器，以及一个或多个其他特性被使用来验证，以便删除假阳性。
表II表明，单个特性不能被单独地使用来可靠地检测广告插入的正确的边界。然而，用来产生该表的容限要求找到严格的边界(在2秒内)。也就是，如果广告边界在2秒以上的间隔略早或略迟一些被检测出，则它被看作为明显的失误。如果这个准则被放宽，则某些特性、特别是单色帧，可被单独地使用到合理地好的效果。在表II中，列指示该特性是否可被用来以其本身正确地识别广告插入的开始点和结束点。黑帧可以是误导，因为广播发射机不总是正确地插入它们，以及因为强度级可能改变，这样，该方法不能检测它们。这个容限可以通过提供允许在对于黑帧(单色帧)进行检测时在相邻帧中间的亮度可有较大的变动的门限值而被调整。信箱和关键帧距离对于检测广告插入的边界似乎是不可靠的。应当指出，黑帧可被使用来总的平均来看以相当大的精度检测广告边界，如果对于丢失的准则被软化的话。以上的表是基于两秒丢失是完全的失败的。所以，基于黑帧检测的检测器仍旧提供相当精确的广告检测。
参照图2，下列是用于根据各特性进行内容检测(例如，广告检测)的方法-黑帧检测；-单色帧检测；-逐行模式对隔行模式检测；-关键帧距离；-信箱；以及-MAD值的密度。
在视频被压缩时，在步骤S90，对于每个I帧计算原始数据和以上的数值。在步骤S100，边界序列被识别和通过帧识别(如果存在的话)被记录。在步骤S110，验证数据被识别和通过适当的帧识别(如果存在的话)被记录。如果处理过程在步骤S120是未完成的，则在步骤S90，压缩视频的下一个增量。当处理过程完成时，把依据以上特性描述视频序列的一组数据与压缩的视频相关地存储起来，以及当被显示时，在步骤S130，可以按需要进行适当的编辑。
由于不一定知道当特定的视频序列被压缩时将精确地提供哪些编辑，故当视频被压缩时，可记录压缩特性的完全的记录。这样，编辑可以在观看时被加上。替换地，如果要施加到视频的编辑是已知的，则存储的压缩的视频可以事先被编辑，或用于编辑的一组指令可被存储以及压缩特性的记录可被丢弃。
参照图3，可能希望允许在接近于实时处理的处理过程中识别和编辑视频资料。例如，如果个人数字记录器通过压缩广播而缓存广播视频资料以及用户正在用一定的延时观看这种资料，则有利的是当广播正在被压缩时能够识别内容序列。这代替完成压缩，并且只是在以后才来识别内容序列和施加适当的编辑；例如，在广告期间调低音量。在用于识别内容的特定的形式的另一个处理过程中，在S10，视频数据被压缩。然后，在步骤S20，系统检验是否存在边界触发事件(例如，正如通过差亮度检测或从逐行到隔行的改变指示的黑帧或单色帧的序列)。如果检测到触发事件，则在步骤S30，设置一个标记，它指示一种类型的内容的起始点的检测已经开始了。记录包括其中发现了它的帧的识别，这样，事件的时间序列可被产生。对于各种不同类型的视频序列的每种序列(例如，对于广告的序列，对于暴力内容的序列，对于行动的序列，对于正在讲话的首长的序列，等等)，可以有许多标记。
如果在步骤S20没有触发事件，则控制进到步骤S40。在步骤S40，识别可被使用来验证广告或其他类型的视频内容序列的一种类型的数据的存在(如果存在的话)。如果找到这样的数据，则在步骤S50，存储该数据。在步骤S55，确定是否有可被验证为特定的类型的事物主题的约束的序列。如果找到，则在步骤S65，它们连同其中它被识别的帧的指示一起被记录。如果在步骤S65编辑是可施加的，则在该步骤，用于编辑的指令可被记录以及以后(或当前)被执行。如果压缩处理过程在步骤S70被完成，则处理过程终结。如果没有完成，则在步骤S10继续进行。
表示特定的视频类型的开始点和/或结束点的事件，诸如广告，可以具有任何适当的特性。通过实验发现对于广告检测是特别有用的特性是在已检测出的单色帧或黑帧(或黑帧接连的序列或单色帧接连的序列)之间的帧的距离。这些可被用作为触发，因为在不用黑帧的某些情形下，在某些国家中的广播发射机已开始使用其他单色帧。如果黑帧的距离与某个图案相一致(距离是在某个门限值20到40秒)，则算法开始计数黑帧的数目。在三个黑帧以后，广告检测的概率增加，以及可能的广告的结束被设置。任何的不同的特性可被用作为广告触发，然而，用于检验的、复杂得多的算法可能是想要的。
在实验估算中，黑帧序列的出现被用作为对于广告检测的触发。通常，黑帧(或单色帧)被内容创建者使用来描述广告插入内的广告，以及整个广告插入的开始点和结束点。可以假设，广告插入起始于一系列黑帧(单色帧)，以及在广告插入期间，黑帧将跟随在1200帧内。约束条件可被设置在广告的持续时间内。例如，为了验证广告，可以要求一个序列不短于1500帧和不长于10000帧(欧洲内容，它是每秒25帧-美国是每秒30帧)。附加的约束条件可以在它被加标签为广告之前加到候选的序列之间的最短时间上。例如，可以要求广告至少为两分钟间隔开(3000帧)。最后的约束条件对于可能地表示广告的段的链接可能是重要的。如果允许在长的时间间隔内进行链接，则可能导致过分长的“广告”插入，它包括非广告的事物。一旦例如通过黑帧的检测而检测到可能的的广告，则其他的特性被检测、以增加或减小黑帧或实际上指示广告插入开始的其他触发事件的概率。例如，紧接在黑帧以后的信箱改变的存在，从逐行到隔行视频资料的转移(或相反)，高的切换率，高的MAD密度，或低的关键帧距离可用作为验证器。在低的关键帧距离(或高的切换率)的情形下，门限值电平可被使用来使得如果门限值被超过，则广告的概率被增加，以及如果不超过则被减小。替换地，该概率可以正比于关键帧距离的倒数，以及正比于MAD密度。
在实验上，已确定，在广告期间在场景切换之间的关键帧的平均数目可以低到5个GOP。为了得到良好的结果，对于关键帧距离所使用的门限值可以在10到15的范围内改变。另外，互相接近的段可被链接来推断整个广告插入。有些广告的特征在于长的关键帧距离。为了允许这种情形，容限可被构建成以允许关键帧距离在某个最大时间间隔内是更高的，比如说750帧，即半分钟。
由压缩编码器提供的上述特性组也可以以成熟的方式被应用来辨认不同种类的内容。例如，这些特性和由此得出的进一步的特性，也可用作为加到神经网络、隐藏的马尔可夫(Markov)模型、贝叶斯(Bayesian)网络、或其他分类引擎的输入，以便许可辨认各种类型的视频内容。因此，例如，不是分离出一个特性作为指示广告可能的开始点的触发特性，而是整个特性组可被使用来训练网络以便识别广告，把该特性组留给训练处理中、以便确定各种特性在确定约束广告的开始点和结束点时特定的重要性。
虽然以上讨论的例子主要集中在视频特性上，但在压缩音频数据或视频数据的音频部分期间产生的音频特性也可以与以上讨论的相同的方式被利用。例如，广告或视频数据的活动序列的声音的音量强度可以不同于其他部分的音量强度。音频压缩编码器产生音频数据的表示，它们将被识别为提供独特的表征，这些表征可以在自动系统中被识别以有助于把某些种类的内容与其他内容区分开。例如，当前的比特率或量化器可以指示存在的静默时间间隔的数量。又例如，相应于高活动的、抓住注意的资料(诸如，广告)的DCT系数可能是非常地不同于相应于主节目资料的DCT系数，以及这些表征特性可以在分类器中(诸如贝叶斯(Bayesian)分类器、神经网络、或隐藏的马尔可夫(Markov)模型)中被规定。
虽然在以上讨论的实施例中，从压缩处理得出的特性被使用来分类视频流中的内容，但将会看到，这些相同的特性可以结合其他特性(例如，实时特性)被使用于相同的用途。例如，实时音频音量可以结合黑帧(或单色帧)检测被使用来识别到/从广告的转移。有许多方式从视频源产生附加数据，它可以与可从当前的压缩编码器得到的那些数据相组合，以及它可以与编码器产生的数据相结合被使用于视频/音频分类。事实上，压缩特性可被用作为次级特性组，以便增大被使用于详细的内容分析(诸如文本识别，面孔识别等等)的初级特性组。
本领域技术人员将会看到，本发明并不限于上述的说明性实施例的细节，以及本发明可以以其他特定的形式被实施，而不背离本发明的精神或本质属性。所以，本实施例被看作为在所有的方面是说明性的，而不是限制性的，本发明的范围由附属权利要求而不是以上的说明被指示，所以在权利要求的等价性的意义和范围内作出的所有的改变都打算包括在其中。
权利要求
1.一种内容编辑器，包括视频压缩编码器(100)，用于从视频序列(90)产生第一和第二特性数据，以作为形成视频数据的压缩的版本的压缩处理的一部分；所述第一和第二特性数据是与视频数据的所述压缩的版本分开的；分析机(120)，被进行编程以便接收所述第一和第二特性数据，以及从所述第一和第二特性数据中的至少一个特性数据计算至少第三特性数据；重放选择器(130)，被进行编程以便响应于所述至少第三特性数据而编辑视频数据的所述压缩的版本。
2.如权利要求1中的内容编辑器，其中所述重放选择器被进行编程以便响应于所述第一和第二数据的至少一个数据而编辑视频数据的所述压缩的版本。
3.如权利要求1中的内容编辑器，其中所述第三数据包括单色帧序列的存在的标识符。
4.如权利要求1中的内容编辑器，其中所述第三数据包括在信箱格式与非信箱格式之间转移的标识符。
5.如权利要求1中的内容编辑器，其中所述第三数据包括在隔行的视频与逐行的视频之间转移的标识符。
6.如权利要求1中的内容编辑器，其中所述第三数据包括场景切换频率的标识符。
7.如权利要求1中的内容编辑器，其中所述第三数据包括表示一个帧的彩色直方图。
8.如权利要求1中的内容编辑器，其中所述第一和第二数据包括所述视频序列的音频特性。
9.如权利要求1中的内容编辑器，其中所述重放选择器被进行编程以便响应于所述第一、第二和第三数据的至少一个数据而编辑视频数据的所述压缩的版本，所述第一、第二和第三数据中的至少一个数据包括运动矢量的平均值、当前的比特率、一帧内亮度的变化、一帧内色度的变化、一帧的总亮度、一帧的总色度、在帧之间亮度的改变、平均绝对差值、和量化器尺度的至少一项。
10.一种视频内容检测器，包括视频压缩编码器(100)，能够接收未压缩的视频数据(90)以及产生压缩的视频数据；分析机(120)，被连接来从视频压缩编码器接收第一数据，所述第一数据是与所述压缩的视频数据分开的；所述第一数据作为压缩处理的结果而被产生；所述分析机被进行编程以便响应于所述第一数据而产生在所述压缩的视频中的一种类型的内容的开始点的识别符。
11.如权利要求10中的内容检测器，其中所述第一数据包括运动矢量数据、比特率、一帧内亮度的变化、一帧内色度的变化、一帧的总亮度、一帧的总色度、在帧之间亮度的改变、平均绝对差值、和量化器尺度的至少一项。
12.如权利要求10中的内容检测器，其中所述分析机被进行编程以便从至少一个所述第一数据而计算导出的特性，以及响应于所述导出的数据而产生所述识别符。
13.如权利要求10中的内容检测器，其中所述分析机被进行编程以便响应于所述第一数据而识别在所述未压缩的视频数据中的信箱的存在或不存在，以及产生与所述存在或不存在相一致的、在所述压缩的视频数据序列中一个位置的识别符。
14.如权利要求10中的内容检测器，其中所述分析机被进行编程以便响应于所述第一数据而识别在所述未压缩的视频数据中的隔行的或逐行的视频格式的存在，以及产生与所述隔行的或逐行的视频格式相一致的、在所述压缩的视频数据序列中的一个位置的识别符。
15.如权利要求10中的内容检测器，其中所述分析机被进行编程以便响应于所述第一数据而识别在所述未压缩的视频数据中的单色帧的存在，以及产生与所述单色帧相一致的、在所述压缩的视频数据序列中的一个位置的识别符。
16.如权利要求10中的内容检测器，其中所述分析机被进行编程以便响应于所述第一数据而识别在所述未压缩的视频数据中场景切换的指示符或频率，以及产生与场景切换的所述频率相一致的、在所述压缩的视频数据序列中的一个位置的识别符。
17.一种用于检测在压缩的视频流中的广告的方法，包括以下步骤压缩视频数据和产生压缩的视频数据与第一数据作为所述压缩步骤的副产品；识别在所述第一数据中指示广告序列的可能的开始点的第一事件；响应于所述第一数据，验证跟随在所述可能的开始点后面的视频的内容是不是广告序列的特性；响应于所述识别和验证步骤的结果，指示广告的存在。
18.如权利要求17中的方法，其中所述验证步骤包括计算场景切换率、单色帧序列、视频帧的信箱边界、和视频格式是逐行的还是隔行的中间的至少一项。
19.一种用于检测在视频数据中的内容的方法，包括以下步骤压缩视频数据，并且产生压缩的视频数据及压缩特性数据作为所述压缩步骤的副产品；根据与非压缩特性数据相组合的所述压缩特性数据，分类所述视频数据的内容部分；指示在所述分类步骤中识别的内容。
20.如权利要求19中的方法，其中所述分类步骤包括根据所述预定的内容的例子来编程分类引擎。
21.如权利要求19中的方法，其中所述分类步骤包括训练分类器和使用所述分类器来分类所述预定的内容。
22.如权利要求21中的方法，其中所述分类器包括贝叶斯分类器、神经网络、和隐藏的马尔可夫模型分类器中的至少一个。
全文摘要
压缩视频的处理过程需要计算在压缩处理中使用的各种数据。本发明利用某些或所有的这些数据进行内容检测。例如，这些数据可被操纵用于广告检测。亮度、运动矢量场、剩余数值、量化器、比特率等等都可直接地或相组合地被使用作为内容的表征。用于内容检测的处理过程可以利用一个或多个特性作为包含特定的类型的内容的序列的开始点和/或结束点的指示符，以及利用其他特性作为由这些开始/结束指示约束的内容的类型的检验者。特性可被组合和/或被改善，以产生具有良好的计算经济性和内容分类公用性的、高级的特性数据。
文档编号H04N7/26GK1757236SQ02809831
公开日2006年4月5日申请日期2002年5月8日优先权日2001年5月14日
发明者N·迪米特罗瓦, T·F·M·麦吉, J·A·D·内斯瓦德巴, G·E·梅肯卡普, E·W·萨洛蒙斯申请人:皇家菲利浦电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N.迪米特罗瓦;T.F.M.麦吉;J.A.D.内斯瓦德巴;G.E.梅肯卡普;E.W.萨洛蒙斯
技术所有人：皇家菲利浦电子有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。