将附加内容插入视频的方法和装置的制作方法

文档序号：7620756阅读：123来源：国知局

专利名称：将附加内容插入视频的方法和装置的制作方法
技术领域：
本发明涉及一种视频的使用，特别是将附加内容插入视频的使用。
背景技术：
多媒体通讯领域经过过去十多年的迅猛发展，其大幅度的改进令实时计算机辅助数字效果得以引用到视频演示方面。例如，将广告图像/视频字幕插入所选的视频播放画面。插入的广告分以一种观点保留的方式植入，从而让观众看起来原始视频情景的一部分。
这种插入广告的普遍应用在运动竟赛的播放视频中。因为这种赛事经常在运动场中进行，这种运动场是熟知的可以预见的比赛环境，存在一个已知区城，在这个区域摄像镜头从一个固定的位置捕捉赛事的摄像背景。这种区域包括广告围栏、看台、观众席等地方。
半自动系统利用上述实际情况确定将广告输入所选的视频的背景区域。通过将物理地线模式透视存储映射到视频图像坐标来提供广告插入。然后广告商购买视频中的空间将他们的广告插入所选的图像区域。可选择地，一个或多个创作站用于影响视频的输入从而指定用于虚拟广告的图像区域。
美国专利US 5,808,695，
公开日1998年9月15日，发明人Rosser等人，专利题目为“Method of Tracking Scene Motion for Live VideoInsertion Systems”描述了一种在系列播放视频图像中从一个图像场到另一个图像场追踪运动的方法，就是为了插入标记。竞技场中静态区域通常是明确的，通过视频演示，追踪这些区域，维持它们的对应的实况插入的图像坐标。当目标区域需要是视觉上的不同以便方便运动追踪时，这就需要大量的手工校准来识别这些目标区域。同时也决不可能将插入图像相对固定到原始视频内容的移动图像中从而让观众对插入图像的印象深刻。
美国专利US 5,731,846，
公开日1998年3月24日，发明人Kreitman等人，专利题目为“Method and System for Perspectively Distortingan Image and Implanting Same into a Video Stream”描述了将4色查找表(LUT)组合，在视频情景中获取不同的插入对象的图像移植方法及装置。通过选择运动场(内部运动场)重要部分的目标区域，插入的图像显示出来，闯入观众的视线空间。
美国专利US 6,292,227，
公开日1998年9月18日，发明人Wilf等人，专利题目为“Method and Apparatus for Automatic ElectronicReplacement of Billboards in a Video Image”描述了将广告围栏自动移入视频图像的装置。利用依赖摄像传感器硬件设置的精细的校准，记录了广告围栏的图像位置，并且一般指定一个色度彩色表面。在实况摄像来回移动时，获取广告栏图像位置，利用色度键控技术将虚拟广告移入广告围栏中。
已知的系统需要大的工作量来识别广告插入的适合的目标区域。一旦识别了，这些区域就固定了且不可能在其它新的区域插入了。由于广告栏位置是观众发现广告信息的最自然的区域，广告栏因而被识别。透视映射也用来尝试作为实况广告信息。这些效果集中体现在精细的手工校对上。
在广告商连续争取更高的广告效力与终端观众观赏兴趣之间存在一种需求的冲突。很清楚，通过利用现行的3D图像技术在适合的位置(如广告栏)上进行真实的虚拟广告植入是一种折衷。然而，在视频图像画面内只有这么多广告栏。这就造成了广告商催促更多的广告植入的空间。

发明内容
根据本发明的第一个部分，提供了一种在视频流的视频片段内插入附加的内容的方法，其中视频片段包括一系列视频帧。该方法包括接收视频片段，确定画面内容，确定插入的适宜性以及插入的附加内容。确定一个画面内容就是确定视频片段的至少一个帧的画面内容。确定附加内容的插入的适宜性是基于所确定的画面内容。插入附加内容就是根据所确定的适宜性将附加内容插入视频片段的帧。
根据本发明的另一部分，提供一种在视频流的视频片段内插入进一步内容的方法，其中视频片段包括一系列视频帧。该方法包括接收视频流，在视频流内确定静态空间区域，以及将进一步内容插入所探测的静态空间区域。
根据本发明的第三个部分，提供一种根据上述各个方法所使用的视频集成装置。
根据本发明的第四个部分，提供一种将附加内容插入视频流的视频片段的视频集成装置，其中视频片段包括一系列视频帧。该装置包括接收视频片段部件，用于确定画面内容的部件，用于确定至少一个帧第一参考值(first measure)的部件，以及用于插入附加内容的部件。确定画面内容的部件确定视频片段至少一个帧的画面内容。基于所确定的画面内容，确定至少一个帧第一参考值(first measure)的部件确定指示插入附加内容的适宜性的至少一个帧的至少一个第一参考值。根据确定的至少一个第一参考值，用于插入的部件将附加的内容插入视频片段的帧中。
根据本发明的第五部分，提供一种将下一内容插入视频流的视频片段的视频集成装置，其中视频片段包括一系列视频帧。该装置包括接收视频流的部件，在视频流内探测静态空间区域的部件，以及将下一内容插入所探测静态空间区域的部件。
根据本发明的第六部分叙述了根据第一或第二部分所述方法使用本发明第四或第五部分所述的装置。
根据本发明的第七个部分，提供一种将附加内容插入视频流的视频片段的计算机程序产品，其中该视频片段包括一系列视频帧。计算机程序产品包括计算机可用的媒介以及计算机可读的程序代码，其记录在计算机可读媒介中，按照第一或第二部分所述方法进行操作。
根据本发明的第八个部分，提供一种将附加内容插入视频流的视频片段的计算机程序产品，其中该视频片段包括一系列视频帧。计算机程序产品包括计算机可用的媒介以及计算机可读的程序代码，其记录在计算机可读媒介中。当计算机可读程序代码载入计算机上，其可以将计算机编译成第三部分到第六部分所述的装置。
利用上述各个部分，通过执行基于实时内容的视频画面处理识别在用于植入的视频中的适合位置，提供一种将虚拟广告或其它虚拟内容插入视频演示的系列帧的方法和装置。这些位置既对应于视频演示的时间片段又对应于通常认为与视频演示的观众不太相关的图像画面内的区域。本发明提供的方法和装置利用了非侵扰的手段将附加内容并入视频演示中，使得通信信道更加容易提高视频的互动性。
本发明结合所附的附图，通过非限定性的实施例来进一步地描述。

图1为本发明布置的环境概略图；图2为视频内容插入相关简略流程图；图3为插入系统实施结构的简略图；图4说明在何时何地进行视频内容插入的处理流程图；图5A到图5L为视频帧及其各自的FRVM的实施例；图6A到图6B为两个视频帧及其区域的RRVM；图7为进行生成确定FRVM属性的程序的实施例流程图；图8为确定是否存在一个新的镜头典型方法的流程图；图9为生成镜头属性的各种属性的流程图；图10为确定根据比赛中断探测片段的FRVM的流程图；图11为用于确定当前视频帧是否为赛场图像的详细步骤流程图；
图12为说明确定何时中场入镜的处理流程图；图13为详细是否基于中场比赛设定一个FRVM的流程图；图14为计算音频帧的音频属性的流程图；图15显示如何用音频属性确定FRVM；图16为基于同源区域探测进行插入计算的流程图；图17为基于静态区域探测进行插入计算的流程图；图18为说明探测静态区域处理的流程图；图19为说明用于在中场画面中动态插入典型处理的流程图；图20为说明进行内容插入的步骤流程图；图21为说明在球门周围动态插入的插入计算流程图；以及图22为实施本发明各个部分的计算机系统的简略图。
具体实施例方式
本发明的各个实施例提供了基于内容的视频解析，其能够追踪视频演示的过程，并且为视频的时间片段(帧或帧序列)分配一个第一观众相关参考值(FRVM)，并且在适合插入的视频各个帧找出空间片段(区域)。
以播放足球视频为例子，并参照下文对足球例子的简单说明，就不难总结出观众的眼球集中在靠近球周围的地方。对于图像的区域，观众与内容的相关性下降了，观众的目光越在球的周围集中。同样，不难判断报像镜头集中在与比赛就没有关系的群众中时，场景与观众的相关性就较小，例如球员替补的场景。相比于高度总体运动、后场球员或者比赛靠近球门线的场景，群众场景和球员替补的场景对于比赛就显得不是很重要了。
本发明的实施例提供了将内容插入视频演示的系统、方法以及软件。然而，实施例并不是对本发明的具体限定，而排除了实施或使用在本发明的其它方法、软件。该系统为内容的植入确定一个合适的目标区域而相对不会打扰终端观众。只要由该系统确定的目标区域是不会打扰终端观众的，这些目标区域可以出现在图像的任何位置。
图1为本发明一个实施例布置的环境概略图。图1包括整个系统10的某个位置的示意演示，从摄像机拍摄一个赛事到终端观众看到图像的屏目。
图1中显示的系统10的相对位置包括相关赛事发生的比赛地点12，中央播放室14，本地播放发行者16以及观众位置18。
一个或多个摄像机20设置在裁判位置12。拍摄如足球赛(作为说明书叙述的实施例)的运动赛事的典型结构中，播放摄像机围绕足球场地的几个外围看点安装。例如，这种结构通常最小程度包括位于俯瞰场地中心线的摄像机，提供场地正面看台视角。在比赛过程中，这个摄像头从中心位置倾斜或移动。摄像机也可以沿着场地两侧或底线安装在角落里或靠近场地的位置，以使能够近镜头捕获比赛活动。从摄像机20输入的各个视频被送到选择播放摄像镜头的中央播放室14，选择播放摄像镜头一般由播放导演来完成。然后，所选择的视频被送到本地发行点16，发行点16在地理上与播放室14以及比赛地点12存在距离，例如，不同的城市或者甚至不同的国家。
在本地的播放发行者16中，进行附加视频处理插入本地授权使用的内容(典型的为广告)。在本地播放发行者16内设置了视频集成装置的相关软件和系统，并且选择适合内容插入的目标区域。然后最终的视频被发送到观众位置18，通过电视、计算监视器或其它显示装置来观看。
此处详细描述的大部分特征将在这个实施例中本地播放发行者16的视频集成装置内出现。虽然此处描述的视频集成装置在本地播放发行者16内，但其也可以在播放室14内或所需要的其它地方。本地播放发行者16可以是本地播放站或者甚至可以是互联网服务供应商。
图2为显示根据实施例视频内容插入使用的视频处理算法简略图，这个处理算法在图1的系统中本地播放发行者16中的视频集成装置内发生。
视频信号流通过该装置接收(步骤S102)。当收到原始视频信号流时，处理装置进行分割(步骤S104)来获取同源视频片段，这些视频片段在时间和空间上都是同源的。同源视频片段于通常称为“镜头”是对应的。每一个镜头为从同一摄像机连续输入的帧集合。对于足球，镜头长度一般为约5或6秒钟，不可能低于1秒的长度。该系统确定各个视频片段插入内容的适宜性，以及识别那些适合的片段(步骤S106)。识别这种片段的处理等于回答了“何时插入”的问题。对于那些适合内容插入的视频片段，该系统也确定内容插入的视频帧内的空间区域，以及识别适合的区域(步骤S108)识别这些区域也就等于回答了“在哪里插入”的问题。然后，内容选择及插入在适合的区域中发生(步骤S110)。
图3为插入系统实施结构的简略图。在帧级处理模块22(硬件或软件处理器，一元或非一元都可以)接收视频帧，该模块确定每一帧的图像属性(如RGB直方图、总体运动、主色、音频能量、垂直场地线的存在、椭圆场地标志等)。
帧及其在帧级处理模块22中生成的关联的图像属性进入先进先出(FIFO)缓冲器24中，在现面播放之前，在该缓冲器中，对这种帧及关联图像属性进行处理用于插入时，现面及关联图像属性经过轻微的延时。缓冲级处理模块26(硬件或软件处理器，一元或非一元的都可以)接收在缓冲器24中帧的属性记录，基于输入属性，生成并更新为新的属性，并且在帧离开缓冲器24以前将插入内容插入到所选择的帧中。
帧级处理与缓冲级处理之间的处理区别总的来说是原始数据处理与元数据处理的区别。因为缓冲级处理依赖于统计集合，所以缓冲级处理更为迅速。
缓冲器24提供视频内容上下关系(context)以帮助插入的确定。通过属性记录和内容上下关系，在缓冲级处理模块26内确定观众相关参考值FRVM。缓冲级处理模块26调用输入缓冲器24的每一个帧并且在一帧的时间内进行每个帧的相关处理。插入确定可以一帧一帧来确定或者以滑动视窗为基础的整个片段来确定或者以一个镜头来确定，在这些情况中，在片段内所有帧都可以插入，不需要对每个帧进行进一步的处理。
确定“何时”以及“何地”插入内容的判断处理程序(步骤S106-S108)将参照图4的流程图作更详细的描述。
作为分割(图2的步骤S104)的结果，收到了下一个视频片段。从片段的初始视频画面提取一组视觉特征(步骤S124)。从这组视觉特征，以及利用从学习处理中获得的参数中，系统确定一个第一观众相关参考值(步骤S126)，其为一帧的观众相关参考值(FRVM)，并且比较第一参考值与第一阈值(步骤S128)，其中该阈值为一帧的阈值。如果超出该帧的阈值，这就表示当前帧(以及整个当前镜头)与观众太相关了，从而不能干扰观众，因此不适合内容的插入。如果没有超出第一阈值，系统继续确定该帧内的空间同源区域(步骤S130)，其中再次使用学习处理程序中获得的参数，就有可能插入内容。如果发现较低的观众相关性的空间同源区域以及持续足够的时间，系统继续进行内容选择和插入(图2的步骤S110)。如果该帧不适合(步骤S128)或没有适合适的区域(步骤S132)，然后整个视频片段落选了，并且系统返回到步骤S122获取下一个视频片段，从下一个视频片段的初始帧中提取各个特征。
当视频集成装置收到视频各帧时，分析各帧对于内容插入的可行性。该判断处理通过一参数数据组进行，其中参数数据组包括关键重要判断参数以及判断所需的阈值。
借助于脱机训练处理，利用同一主题类型的训练视频演示(如供系统训练使用的足球比赛，供系统训练使用的橄榄球比赛以及供系统训练使用的阅兵式)得到参数组。训练视频演示的分割和相关的标记通过人工观看视频来进行。从训练视频中的各帧中提取特征，基于这些特征以及分割及相关标记，利会相关学习算法，系统学会了统计，例如视频片段持续时间，可使用的视频片段百分比，等等。这些数据统一放入一个参数数据组以在实际使用中利用。
例如，参数组可以指定某一个比赛场的彩色统计的阈值。然后系统使用该阈值将视频画面分割成比赛场地和非比赛场地的区域。在视频画面内确定比赛活跃区方面这是一个有利的第一步骤。一般地人们都接受这样的事实，非比赛活跃区对于终端观众来说不是焦点区域，所以这些区域的属性为较小相关参考值。虽然系统依赖于经过脱机处理训练的参数组的精确性，但系统相对于基于内容的统计数字执行其自己的标准，其中，统计数字从要插入内容的实际视频的视频各帧中收集而来。在引导指令处理或初始化步骤中，没有内容插入。引导指令持续的时间并不长，而且考虑到整个视频演示的时间，只占观看内容观时间的微小部分。该系统自己的标准基于与以前比赛相比较的基础上的，例如口哨吹响时，或者之前，当观从更想要看到屏目上显示的内容。
在一个视频片段内，只要在一帧内有适合的区域被指定用于内容插入，那么就将内容植入该区域，一般要停留几秒钟曝光。该系统基于脱机学习处理，确定插入内容的曝光持续时间。连续的同源视频片段的视频帧保持视觉上的同源性。这样，如果在一个帧内目标区域被视为非打扰的且适合内容插入的，目标区域很有可能在剩下视频片段是相同的，从而在整个插入内容曝光的几秒钟持续时间目标区域是相同的。同样的原因，如果发现不适合插入的区域，整个视频片段就落选了。
在图4中显示的计算步骤系列(如上讨论)起始于一个新的视频片段(例如，摄像镜头的改变)内的第一帧。可选择地，所使用的该帧可以为视频片段的其它帧，例如，靠近片段中间的帧。进一步，在另一个可替代的实施例中，如果视频片段足够的长，在序列中几个时间间隔的单个帧用来确定是否适合进行内容插入。
如果内容有多种可能性，还存在一个“插入什么”的问题，这就依赖于目标区域。这个实施例的视频集成装置也包括确定适合几何尺寸的插入内容以及/或指定目标区域位置的选择系统。根据系统确定的目标区域的几何特性，然后将适合的内容形式植入。例如，如果选择了一个小的目标区域，然后可以插入一个图形标识。如果系统确定整个水平区域是适合的，然后插入活动的文字字幕。如果系统选择了大尺寸的目标区域，将插入缩小版的视频。屏目不同的区域也可以吸引不同的广告费，所以插入的内容也要基于广告的重要性以及付费的水平来选择。
图5A到5L显示足球比赛的示频帧的例子。在每个视频帧里的内容显示了比赛的过程，并且给出插入帧的FRVM。例如，描述靠近球门比赛的视频帧将具有高的FRVM，而描述在中场的比赛视频帧具有低的FRVM。同样，显示球员的特写镜头或观众时的视频帧具有低的FRVM。基于内容的图像/视频分析技术用于从图像中确定比赛的主位推进，从而确定片段的FRVM。主位推进并不仅仅是当前片段的分析结果，而且也依赖于前面片段的分析。在这个例子中，FRVM值为从1到10，1为最小相关性，10为最大相关性。
在图5A中，中场比赛帧的FRVM＝5；在图5B中，球员特写镜头，表示比赛中断的FRVM＝4；在图5C中，正常后场比赛的帧的FRVM＝6；在图5D中，显示了跟踪视频片段部分的帧，跟踪带球的球员，其FRVM＝7；在图5E中，比赛画面为球门区域的FRVM＝10；在图5F中，比赛画面为球门区域两侧的FRVM＝8；在图5G中，裁判特写镜头，表示比赛中断或犯规，FRVM＝3；在图5H中，教练特写镜头，FRVM＝3；在图5I中，群众特写镜头，FRVM＝1；在图5J中，比赛向球门区靠近的画面，FRVM＝9；在图5K中，球员受伤的特写镜头，FRVM＝2；在图5L中，比赛重新开始的FRVM＝10。
表1列出了各种视频片段分类及其的FRVM举例。
表1-FRVM表

表中的值由系统使用分配FRVM，可以通过操作员进行现场，甚至在播放期间调节。在各个分类中调节FRVM作用是改进内容插入的出现率。例如，如果操作员表1中所有的FRVM设为0，则表面所有类型的视频片段都是低相关观众参考值，然后在演示期间，系统将找出更多具有经过门限比较的FRVM的视频片段的情况，最终有更多内容插入的情况。在比赛进间进行中需要一个播放员，但仍是要求播放员显示更多的广告内容(例如，如果合同要求显示广告的最低次数或最低总时间)。通过直接改变FRVM表，播放员改变了虚拟内容插入的出现率。表1中的值也可以用作区别同一赛事的免费播放(高FRVM)与付费播放(低FRVM)的方式。表1中不同的值将用作同一播放输入到不同的播放频道。
判断视频片段是否适合于内容插入通过将一帧的FRVM与定义的阈值比较来确定。例如，仅仅在FRVM等于或低于6时才能插入。改变阈值也可以作为改变广告出现量的方式。当视频片段被认为适合于内容插入时，分析一个或更多的视频帧来探测实际内容插入的空间区域。
图6A和图6B显示对于观众一般具有低的相关性的区域。在确定哪个区域可以被考虑插入中，不同区域可以分配不同的相关观众参考值(RRVM)，例如0或1(1为相关)或者更选在大约0到5之间。
图6A和图6B为两个不同低FRVM的画面。图6A为在中场(FRVM＝5)的比赛全景，以及图6B为球员(FRVM＝4)的特写。一般不需要确定高FRVM的画面的空间同源区，因为这些帧不会有内容插入。在图6A中，当比赛在场地全面展开时，场地32的区域对于观众有高的相关性，RRVM＝5。然而，非场地区域34对于观众有低的相关性，RRVM＝0，两个静态标识36、38出现在非场地区域34上。图6B中，场地区域的空场地部分具有低的或最小RRVM(如0)，同时有两个静态标识36、38的区域。中间的球员自身具有一个高的RRVM，甚至可能是一个最大的RRVM(如5)。群众的RRVM比空场地部分略高(如1)。在这个例子中，插入被强迫进行植入到右下角的空场地部分40。这是因为这个区域一般会认为插入的帧的适合部分。插入可以位置那些预期周围没有太大变化的地方。进一步，虽然在同一帧中其它的位置也可以插入，但许多播放者或观众只喜欢在一个时间内的屏目上进行一次插入。
判断用于内容插入的适合的视频帧(何时插入)〔图2的步骤S106〕在确定当前视频对于插入的可行性中，关于当前原始内容的主题处理，一个基本的标准就是当前帧的相关参考值。为了达到目的，系统使用业内人士熟知的基于内容的视频处理技术。这种熟知的技术在“AnOverview of Multi-modal Techniques for the Characterization ofSport Programmes”，N.Adami，R.Leonardi，P.Migliorati，Proc.SPIE-VCIP’03，pp.1296-1306，8-11 July，2003，Lugano，Switzerland，and“Applications of Video Content Analysis andRetrieval”，N.Dimitrova，H-J Zhang，B.Shahraray，I.Sezan，T.Huang，A.Zakhor，IEEE Multimedia，Vol.9，No.3，Jul-Sept.2002，pp.42-55这些文献中的描述。
图7为各种处理的实施例的流程图，在帧级和缓冲级处理器中进行，生成视频帧序列的FRVM。
霍夫变换基线探测技术，霍夫变换用于探测主要的线方向(步骤S142)。发果一个帧表示一个镜头的变化，可以确定RGB空间色彩直方图，同时也确定赛场及非赛场区域(步骤S144)。总体运动是在连续的帧之间确定(步骤S146)，也可以基于编码的移动失量，在单个的帧上确定。基于连续的帧或片段(步骤S148)，声频分析技术用于追踪声音的音调以及评论员的兴奋水平。该帧分类为赛场/非赛场画面(步骤S150)。确定一个最小平方吻合来探测椭圆的存在(步骤S152)。根据播放赛事的，也可以有其它的操作或替代步骤。
信号可以从摄像机那里提供，也可以分别提供，或者被编码到帧上，表示它们当前拍摄镜头和倾斜角以及缩放。因为这些参数就赛场部分和看台部分而言限定了屏幕上出现什么，这些参数都是非常有利于帮助系统识别帧中的内容。
各种操作的输出集中在一起分析，来确定分割及当前视频片段类别以及比赛的主位推进(步骤S154)。基于当前视频片段类别以及比赛的主位推进，系统利用表1中视频片段每个分类的值，分配一个FRVM。
例如，当霍夫变换基线探测技术显示相关线方向，以及空间彩色直方图显示相关场地或非场地区域时，这个可以表示球门的存在。如果这与评论员的兴奋程度组合在一起，系统可以视为正在进行的是球门情节。这一视频片段与终端观众是最相关的，并且系统将给出该片段一个高的FRVM(如9或10)，因此控制内容插入。霍夫变换和椭圆的最小平方吻合对于这种中场画面明确的确定是非常有利的，其中对每一个过程都有一个较好的理解，而且是基于内容的图像分析的先进技术。
如果前面视频片段为球门情节，通过基于内容图像分析技术的组合，系统下一步可以探测到比赛场地的变化。音频流的强度平静了，全场摄像移动也放慢了，拍摄镜头此进集中在非场地镜头，例如球员的特写镜头(FRVM＝3)。然后系统把这些看作内容插入的时机。
下面介绍涉及到应用生成FRVM的处理的各种方法。实施例并不是限定在任何或所有的这些方法上，也可以利用其它的技术。
图8为确定当前画面是否为一个新镜头的第一帧，从而有利于帧流的分割的典型方法的流程图。对于一个引入的视频流，系统计算同一个RGB直方图(步骤S202)(在帧级处理器内)。RGB直方图送往与画面本身关联的缓冲器中。在逐帧的基础上，缓冲级处理器统计地将单个直方图与前面各帧的平均直方图比较(因为最后的新镜头被确定已经开始，所以用全部的帧进行平均)(步骤S204)。如果比较的结果是明显的不同(步骤S206)，如25％的直方图中的棒图显示有25％或更高的变化，然后基于当前帧的RGB直方图，重设平均值(步骤S208)。然后，当前帧被给定一个镜头变化帧的属性(步骤S210)。对于下一个输入的帧，将与新设定的“平均值”进行比较。如果比较结果是没有明显的不同(步骤S206)，然后，基于前面的平均值以及当前帧的RGB直方图，重新计算平均值(步骤S212)。对于下一帧输入，将与新的平均值进行比较。
一旦系统确定了镜头从哪开始从哪结束，就可以在缓冲器内确定逐个镜头的镜头属性。缓冲级处理模块比较一个镜头内的图像，并计算出镜头级属性。生成的镜头属性序列表示视频进程的密切及理论的视图。这些可以被用来输入动态学习模块用于比赛中断探测。
图9和图10涉及到比赛中断探测。图9为显示生成各种附加帧属性的流程图，该属性用于确定生成在比赛中断探测中使用的镜头属性。对于每一帧，总体移动(步骤S220)，主色(如在RGB直方图中一种颜色的棒高至少是其它颜色棒高的两倍)(步骤S222以及音频能量(步骤S224)在帧级处理器中计算。然后这些结果送到与帧相关联的缓冲器中。
对于引进的帧，缓冲级处理器确定一个目前为止镜头的总体运动平均值(步骤S226)，目前为止镜头的主色平均值(平均RGB)(步骤S228)以及目前为止镜头音频能量(步骤S230)。三个平均值用于更新当前镜头属性，在这个例子中变成了更新的属性(步骤S232)。如果当前帧为镜头的最后一帧(步骤S234)，当前镜头属性被写入当前镜头的镜头属性记录器之前，已量化为具体的属性值(步骤S236)。如果当前帧不是镜头的最后一帧(步骤S234)，下一帧被用于更新镜头属性值。
图10为确定比赛中断探测片段的FRVM流流程图。如通过图9所例举的方法来确定的例子，各个量化镜头属性在图10中具体表示出来了，在这个实施例中每个镜头的单个字母为三个。一系列镜头字母(在这个例子列举了5个)内的固定镜头属性数量的滑行视窗输入隐马尔可夫模型(HMM)42中，基于在先模型的训练，对视窗中间镜头的比赛中断识别。如果中断被分类了(步骤S242)，更新视窗中间镜头的镜头属性来显示为比赛中断镜头以及镜头的FRVM被相应的设置了(步骤S244)，然后继续处理下一个镜头(步骤S246)如果中断没有被分类(步骤S242)，中间镜头的FRVM没有变化，然后继续进行下一个镜头的处理(步骤S246)。
参照图10描述的比赛中断探测处理需要一个保留至少三个镜头的缓冲器，并且存储了HMM，该存储器保留两个在前镜头的所有相关信息。可替代地，缓冲器可以有至少驻留5个镜头那么长，如图10所示。缓冲器太长的不利因素是使得缓冲器变得十分庞大。即使镜头长度限定在6秒钟，缓冲器的长度也得至少18秒，然而4秒钟左右将是优选的最大长度。
在可替代的实施例中，利用连续HMM，更短的缓冲器长度是可能的，没有一个明确的最小长度。镜头限定在约3秒钟的长度；HMM从缓冲器中的每个第三个帧中提取特征，在确定比赛中断方面，在似乎比赛中断时，缓冲器内的每一帧设定一个FRVM。这种方法的不利之处就是限制了镜头的长度，实际上HMM需要一个较大的训练组。
图11为帧级处理器的详细步骤的流程图，用于确定是否当前视频帧为一个赛场图像，其发生在图7的步骤S150。通过对整个视频进行二次抽样成为许多非重叠的区块例如32×32这种区块，从帧首先得到的降低分辨率的图像(步骤S250)。每个区块的颜色分配经过检查并量化成绿色区块或非绿色区块(例子)(步骤S252)，并产生一个屏蔽(此例中为绿色和非绿色)。绿色阈值从参数集(前面已述)中获取。每个区块进行色彩量化成绿色/非绿色，这就形成的原始视频帧中主色的粗略色彩表示(CCR)。这个操作的目的就是寻找场地的全景视频帧。这种寻找的帧的二次取样粗略表示将展示突出的绿色区块。确定绿色(非绿色)区块连成的大块就是要确立一个绿色斑点(或非绿色斑点)(步骤S254)。该系统通过计算绿色斑点与整个视频帧的相对大小判断是否这个视频帧为赛场景色(步骤S256)，将所得到的比值与预定义的第三门限比较(也可通过脱机学习处理得到)(步骤S258)。如果该比值比第三门限高时，该帧视为场地情景。如果该比值低于第三阈值，该帧视为非场地情景。
很明显将有或多或少的步骤与此处描述的顺序不同但并不脱离本发明。例如，在图7的场地/非场地分类步骤S150中，硬编码色彩门限能够用于进行场地/非场地的分离，而不是应用上述提到的绿色场地色彩门限。辅助的常规也可以用于处理学习参数数据组的错配以及在当前视频流上确定的可视特征。上述假定突出草的色调的例子中，选择了绿色。对于不同的色调类型或不同的色调干燥环境，可以变化颜色，如冰、水泥、柏油路表面等。
如果确定一个帧为场地情景，然后帧的图像属性被更新为反映场地情景的属性。另外，图像属性可以用以后图像属性来更新，用于判断是否当前帧为中场比赛。用于判断中场比赛的属性为垂直场地线的出现，伴随有坐标，总体运动以及椭圆场地标记。
图12为显示在帧级处理中生成的用于确定中场比赛的各种附加图像属性的流程图。缓冲级处理器判断是否当前帧为一个场地情景(例如图11所描述)(步骤S260)，如果该帧不是一个场情景，系统进行下一帧作相同的判断。如果该帧为场地情景，系统判断帧中垂直线的存在(步骤S262)，计算该帧的总体运动(步骤S264)，并判断椭圆场地标记的存在(步骤S266)。该帧的属性被相应地更新(步骤S268)并发送到缓冲器中。如果为场地情景，有一个椭圆存在以及垂直直线存在，这表示中场情景。如果该帧被视为中场情景，然后，系统确定一个FRVM，如果适合，接着进行内容插入。
图13为描述确定是否设定一个基于中场比赛的FRVM的流程图。一旦确定为场地情景，基于图像属性是否有椭圆及垂直直线的存在，可以确定该帧为中场比赛画面。如果总体运动在左边，被正确探测为线条的椭圆和垂直直线不向左移动，总体运动属性也可以用来仔细检查椭圆及垂直直线。基于连续帧，缓冲级处理器判断是否中间帧为中场帧(步骤S270)。连续中场帧整理成邻近的序列(步骤S272)。计算各个序列的间隙长度(步骤S274)。如果两个序列的间隙长度低于预设的阈值(如三帧)，合并两个相邻的序列(步骤S276)。确定每个最终的单个序列(步骤S278)并且与下一个阈值比较(步骤S280)(如两秒左右)。如果该序列被视为足够长了，各帧被设定为中场比赛帧(和/或整个序列被设定为中场比赛序列)并且为整个序列的长度(视窗)设定相应的每个帧的FRVM(步骤S282)。然后，该程序寻找下一个帧(步骤S284)。如果该序列没有足够的长，不设定具体的属性，序列中不同帧的FRVM不受影响。程序寻找下一个帧(步骤S284)。
其它场地拍摄镜头可以以类似的方式合并成序列。然而，如果情景为中场，将会有比其它场景的序列更低的FRVM。
音频也可以用来确定FRVM。图14为一个计算单频帧的音频属性的流程图。对于引入的音频帧，在帧级处理器中计算音频能量(响度水平)(步骤S290)。此外，要为每个音频帧计算一个梅尔倒频谱系数(MFCC)(步骤S292)。基于MFCC特征，判断是否当前音频帧是有声的或无声的(步骤S294)。如果该帧为有声的，则计算音调(步骤S296)并且基于音频能量、有声/无声的判断及音调，更新音频属性(步骤S298)。如果该帧为无声的，音频属性只基于音频能量及有声/无声判断来更新。
图15为音频属性如何用在判断FRVM中的流程图。音频帧从其属性上确定为低的解说(LC)或没有解说(步骤S302)。LC音频帧被分割成LC帧邻近的序列(步骤S304)，也就是说那些帧为无声音的，有声音但低音调的，或者低响度的。计算各个LC序列的间隙长度(步骤S306)。如果间隙两个LC序列的之间的间隙长度低于预设的阈值(如半秒钟左右)，合并两个相邻的序列(步骤S308)。判断每个最后的单个LC序列的长度(步骤S310)并且与下一个阈值(如2秒左右)相比较(步骤S310)。如果序列被视为足够长，与这些音频帧相关联的图像帧的属性用低的解说帧的因子来更新并且为整个长度的LC序列(视窗)相应设定FRVM(步骤S312)。然后程序进行到下一帧(步骤S312)。如果序列没有足够的长，与图像帧关联的FRVM不发生变化，并且程序进行到下一帧(步骤S314)。
有时，单一的帧或镜头生成或具有不同的FRVM值。根据取得的与镜头相关联的各种判断的优先性，来应用FRVM。这样，当在正常的比赛过程中，如球门周围时的图像被考虑为非常相关的，比赛中断判断将是优先的。
在内容插入的视频帧内确定适合的空间区域(在哪里插入)〔图2的步骤S108〕在视频片段被判断为适合于内容的插入后，系统需要知道向哪里植入新的内容。当新的内容被植入其中时，这些涉及识别位于视频帧内的空间区域，这使得对终端的观众的最小(可接受)的视觉打扰。这些的实现通过将视频帧分割成同源空间区域，并且将内容插入认为是低RRVM的空间区域，例如比预定义门限低的区域。
前面描述的图6A和图6B说明了在建议的适合的空间区域将新的内容插入原始视频帧将不会打扰对终端观众。这些空间区域称为“死区”。
图16为基于恒定彩色区域进行同源区域探测的流程图，这些区域一般给定一个低的RRVM。在缓冲器的帧与这些区域RRVM相关联的FRVM。当帧属性表示总的同源帧(如镜头)的序列。帧流被分成具有低于第一门限的FRVM的连续序列，这些序被选择了(步骤S320)。对于当前序列，对是否该序列对于插入有足够长(如至少2秒左右)进行判断(步骤S322)。如果当前序列不是足够长，程序回到步骤S320。如果当前序列是足够的长，通过将全部的视频帧二次抽样为许多非重叠的区块如32×32的区块，从一帧中获得一个降低的分辨离图像。然后，检查每个区块内色彩的分配将其量化(步骤S324)。所用的色彩门限从参数数据组(前述)中获得。在对每个区块进行色彩量化后，这就形成了在原始视频帧中主色的粗略的色彩表示类型(CCR)。这些初始步骤将帧分成同源区，并且色彩区域C的连续交集/c(如斑点)被确定了(步骤S326)。选择最大交集/c(如最大斑点)(步骤S328)。判断插入内容的高和宽从而确定是否有足够的邻近的色彩大块(步骤S330)。如果有足够大的色彩块，相关的交集/c被固定到当前同源序列内所有帧要插入的区域，并且所有的这些帧内的大区块进行内容插入(步骤S332)。如果没有足够大的交集区域，视频片段的内容插入的步骤将不会发生(步骤S334)并且系统等待下一个视频片段进行插入可能发生的判断。
上述描述表示选择的是色彩的最大区块。这通常根据图像色彩如何被定义。在足球比赛中，主要的颜色是绿色。因此，程序简单将每个部分定义为绿色或非绿色。进一步，所选的区域的颜色可能是重要的。对于某些类型的插入，插入仅仅固定在特定的区域，例如音调/非音调。对于音调的插入，仅仅是绿色面积的大小是重要的。对于在群众画面的插入，仅仅是非绿色面积的大小是重要的。
在本发明优选的实施例中，系统识别视频帧中静态不变区域，这些区域可以对应于一些静态TV标识或比分/时间条。这些数据需要固定到原始内容中以提供最小组的可替代信息，这些信息可能不适合于大多数观众。特别地，静态TV标识的植入是可视水印的一种形式，水印方式是播放者通常用作媒体版权以及鉴定的目的。然而这种信息与商业运作有关，不会提高对终端观众的视频价值。许多人发现这些都是恼火的也是障碍。
探测这种迭加在视频演示的静态人工图像的位置以及使用这些作为可替换的内容插入的目标区域对于观众而言实际上是可以接受的，从而不会侵扰本已有限的视频观看空间。系统试图查找这些区域以及其它与视频演示主题内容低相关性的区域。系统把这些区域看成对终端群众是非侵扰的，并且因此将这些区域看成内容插入的适合备选目标区域。
图17为基于恒定静态区域进行静态区域探测的流程图，其中静态区域一般给定一个较低的RRVM。帧流被分割成具有低于第一阈值的FRVM的连续帧序列(步骤S340)。序列的长度都保持在缓冲器时间长度之内。当序列通过缓冲器时，在帧内的静态区域被探测到了，最后逐帧累积结果(步骤S342)。一旦帧内的静态区域被探测到了，就要判断序列是否已知完成(步骤S344)。如果序列还没有完成，判断当前序列的开始已经到达缓冲器的末端(步骤S346)。如果仍有没有探测到静态区域序列内的帧时，序列的第一帧也没有到达缓冲器的末端，就捕获下一帧进行静态区域的探测(步骤S348)。如果当前序的开始到达了缓冲器的末端(步骤S346)，然后如果序列有足够用于内容插入的长度(如至少2秒左右)，到这点的序列长度将被确定(步骤S350)。如果当前序列到这点不是足够长，当前序列放弃态区域插入的目的(步骤S352)。一旦在步骤S344确定序列的所有帧的静态区域或者在步骤S350确定缓冲器的末端已经到达但序列已经足够的长了，将确定适合的插入图像并插入静态区域(步骤S354)。
在这个特定的程序中对于插入的同源区域计算将作为一个单独处理来实施，其通过关健段及信号机在FIFO缓冲器中进行存取。计算时间被限定到第一图像(FRVM序列)离开缓冲器播放之前在缓冲器中保留的时间。在序列开始离开缓冲器开始之前，如果没有发现静态区域的适合长度序列，将放弃全部的计算，没有图像插入。否则，新的图像被插入到当前FRVM序列内每一帧的相同静态区域，在这个实施例中，之后这些相同的帧不会进一步为插入进行处理。
图18为说明探测静态区域程序的流程图，例如可用在图17的程序的步骤S342，其中很可能TV标识和其它人工图像植入到当前视频演示上。系统表征了系列视频帧的每个象素，这些视频帧具有由两原理构成的可视特征或者特性，两原理为直接边缘长度变化(步骤S360)以及RGB强度变化(步骤S362)。像素被如此特征化的帧被记录在预先定义长度如5秒的延时视窗上。像素特性在连续帧之间的变化被记录了，并且其中间及偏移以及相互关系被确定了并且将其与预先定义的阈值进行比较(步骤S364)。如果变化大于预先定义的阈值，然后像素被当前登记为非静态。否则，登记为静态。在这样的帧序列建立了屏蔽。
经过最后X个帧都没有变化的每个像素(仅仅是检测而不是必需要X邻近帧)被视为静态区域。在这种情况下，X为一个视为适合于判断区域是否为静态的数量。其基于人想要一个像素在同样的非静态区域停留的时间长短，以及用于该目的的连续帧之间的间隙的长短。例如在各帧这间有5秒的延时，X应该为6(全部时间为30秒)。在有屏目显示的时钟的情况下，时钟帧可以固定停留，但是时钟值本身是变化的。基于时钟帧内部的平均(间隙填充)确定，这仍看作是静态的。
为了保证象素静态状态登记的实时性，连续周期地分析每一像素来确定是否其发生变化。原因是这些静态标识在不同的视频演示片段中取消，并可能稍后出现。不同的静态标识也可能在不同的位置出现。因此，系统维持视频帧中出现静态人工图像位置的最当前设置。
图19为说明用于在中场帧中动态插入典型程序流程图。该程序与中场(非激烈)比赛的FRVM计算一前一后，每一帧中垂直中场线(如果有的话)X坐标位置在FRVM计算中都已经记录了。在图像中的第一场地线表示最顶部场地边界，其将比赛场地与外围分开。通常这个边界线广告板放置的地方。当获得了插入确认，在序列中的每个帧将在其动态的位置的插入区(IR)插入。因此，这个序列不再进行处理了。在1帧的时间内完成区域的计算。
基于更新的图像属性，帧流被分割成连续序列的中场帧(步骤S307)其具有低于阈值的FRVM。确定是否当前序列对于内容的插入足够的长(如至少2秒左右)(步骤S372)。如果序列不够长，在步骤S370中选择下一序列。如果序列足够的长，对于每一帧，中场线的X坐标变成插入区域(IR)的X坐标(步骤S374)。对于当前帧i，找到第一场地线(FLi)(步骤S376)。对于序列的每帧，完成IR的X坐标的确定以及第一场地线(FLi)(步骤S378，S380)。确定逐帧中场地线位置的变化是否圆滑，也就是说判断是否有大的FL变化(步骤S382)。如果变化是不圆滑的(有较大差值)，基于中场比赛动态插入，在当前序列中没有进行插入(步骤S384)。如果变化是圆滑的(差值不大)，那么每帧/IR的Y坐标变为Fli(步骤S386)。然后，相关图像插入帧的IR(步骤S388)。
如果序列是足够长，当帧仅仅被给出中场比赛帧的属性，步骤S372，确定是否序列是足够的长，不是必需的，如图13所说明的程序。这一步骤在其它地也不是必要的，如当帧或镜头的值或属性基于适合插入的最小序列长度的情况。
图20为说明根据可替代的实施例进行内容插入步骤的流程图。降低分辨率的图像首先通过将整个视频帧二次取样形成许多非重叠区块如32×32的区块从帧中(步骤S402)。在每个区块中的颜色分配被检查然后量化，在此例中量化成绿色区块或非绿色区块(步骤S404)。所使用的色彩门限参数数据组(前述)中。每个区块色彩量化成绿色/非绿色之后，就形成了原始视频帧中主色的粗略的色彩表示(CCR)类型。这与图11所述的粗略的色彩表示(CCR)类型的程序相同。这些初始步骤将帧分割成绿色和非绿色同源区(步骤S406)。每个邻近非绿色斑点的水平投影被确定了(步骤S408)并且确定了是否有足够的邻近非绿色大区块，考虑其在长和宽面适合内容插入(步骤S410)。如果没有这种非绿的邻近大区块，那么这个视频片段的插入将不会发生并且系统等待下一可能发生插入的视频片段。如果非绿的邻近区块足够大，那么在此大区块中发生内容插入。
在图20显示的实施例中，假设该帧已知为中场情景，内容将在适合的目标区域的任意位置进行插入，而且中场情景在场地中心线的位置，中心线在视线之内。这样，利用利用中心垂直场地线作为指导，虚拟内容集中在最顶部非绿色斑点内X向(步骤S412)上宽度同向以及在Y向(步骤S414)上高度同向上。插入的内容与视频帧上理想的图像重叠(步骤S416)。这种插入也考虑视频帧内的静态图像区域。利用静态区域屏蔽(例如由图18所述的程序生成的)，系统知道了对应于视频帧内静态区域的像素位置。在这些位置上的原始像素将不会由对应的插入图像的像素重写。最终结果就是虑拟内容出现在静态图像的后面，因此不可能出现后面插入的内容。因此，这可能出现，就好象在看台上的观众闪耀着一面标语。
在图20的流程图中，内容被插入中场情景中群众区域内。可替代地或附加地，系统可以在中场或其它的静态区域上插入图像。基于确定的静态区域，如图18所描的例子，确定潜在的插入位置。基于静态区域的长宽比，与那些想要的图像插入相比，选择一个静态区域。计算所选择的静态区域的大小并且调整插入图像的大小以适合静态区。插入的图像重叠在所选择的静态区域，大小正好覆盖该区域。例如，不同的标识可能重叠在TV标识上。在静态区域的重叠可以是临时的重叠或者一直在整个视频演示中重叠。进一步，这种重叠可以与其它的重叠一起，例如，在群众区的重叠。当中场动态重叠移动时，其将出现在在静态区域重叠插入的后面通过。
图21为说明在球门周围动态插入区域计算的流程图。球门坐标被定位了，图像插入顶部。这种排列就是使球门移动时，插入图像随着球门移动，在画面上固定位置出现。
帧流被分割(步骤S420)成连续的帧序列，其FRVM低于某速算阈值，每个序列不会比缓冲器长度长。在这些帧内，探测球门(步骤S422)(基于场地/非场地判断，线判断等)。如果球门的探测位置出现的帧显示相对于围绕帧周围的位置发生跳跃，则暗示不正常，通常叫“逸出”。如果球门在帧内没有被探测到，则被为是逸出帧，并且那些所探测的位置从位置列表中除去(步骤S424)。在当前序列内，分隔帧系列的间隙显示球门被探测到了(步骤S246)，间隙可以为3或更多帧，间隙为球门没有被探测到的地(或者处理为还没有被探测)。由探测间隙分割的两个或多个帧系列中，最长帧系列显示门被发现了(步骤S428)，并且确定了是否最长系列对于插入(如至少2秒左右长)有足够的长(步骤S430)。如果序列不是足够的长，整个当前序列放弃球门插入的目的(步骤S432)。然而，如果序列足够的长，球门的坐标插补在系列的每个帧内进行，这些帧是球门被探测到的地(或者探测了而且类似处理了)(步骤S434)，并且插入内容插入到在最长系列的每个帧的(移动)区域。
在图16、17、19和21所描述的典型程序中所有都涉及了基于FRVM的插入。很清楚，关系到素材的插入的不同程序能够以进行不同插入的同一帧结束，或者与可替代插入的帧相冲突。因此，需要有一个与插入类型相关联的优先顺序，一些充许合并的，一些是不允许合并的。优先的顺序从RRVM集内。RRVM可以为固定的或者用户根据环境和经验进行改进。标记也可以用来确定是否在一个帧内允许多于一种插入的类型。例如，在(i)同源区插入，(ii)在静态区插入，(iii)在中场动态插入以及(iv)球门区动态插入之间的可能性，(ii)静态区插入可以被首先判断并且可以发生插入的任何其它类型。然而，其它的类型为相互排拆的，应有优先顺序(iii)在中场动态插入，(iv)球门区动态插入，(i)同源区插入。
以上的描述中，在不同的流程图中执行各种步骤(如在图9和图12中计算总体运动以及在图16和图17中利用小于或等阈值的FRVM分割的帧的连续序列)。这并不意味着系统在执行几个这些程序中，同一步骤将必需被执行好几次。利用元数据，一次生成的属性可以用在其它程序中。这样，总体移动可以被一次到并且使用数次。同样地，序列的分割可以发生一次，接下来的处理并行发生。
本发明可以用于多媒体通信视频编辑以及互动多媒体应用。本发明的实施例允许在植入内容的法及装置面有改进，例如将广告插入所选的视频演示的帧序列。通常，所插入是广告。但是，也可以是其它的素材，例如新闻的标题。
上述的系统可以用来执行虚拟广告以实时式植入，而不会打扰观看体验或最小程度的打扰。例如，植入的广告不应强行闯入在足球比赛期间球员进行的情景。
本发明的实施例能够将广告植入到流行的情景中，而其仍然为终端观众提供现实的情景，以使广告作为情景的一部分出现。一旦选择了植入的目的区域，广告可以有选择性地选取插入。在不同的地理地区看到同一视频播放的观众可以看到不同的广告，以及以当地内容相关的广告商业和产品。
实施例包括将内容自动插入视频演示的自动系统。机器学习法被用来自动识别适合的帧及植入的视频演示的区域，并且自动将虚拟内容选择并插入识别的视频演示的区域或帧中。用于植入的视频演示的适合帧和区域的识别包括将视频演示分割成帧或视频片段的步骤；判断并计算每帧或视频片段的有特点的特征如色彩、结构、形状以及运动等；以及通过比交计算的特征参数与学习程序中所的参数识别植入的区域或帧。参数可以从脱机学习程序中，包括步骤从类似视频演示中收集训练数据(从类似结构的视频演示记录中)；从这些训练样例中提取特征；以及通过将学习算法如隐马尔可夫模型、神经网络、以及支持向量机理等应用到训练数据中来判断参数。
一旦识别相关的帧和区域，区域的几何信息和内容插入时间持续被用于确定内容插入的最适合的类型。所插入的内容可能是活动的、静态的图标、文字字幕、视频插入等。
视频演示的基于内容的分析被用于在与视频的主题较低相关的视频演示内分割若干部分。这些部分可以是时间的分割，与特别的帧或情景相对应，这些部分本身是在视频帧内的空间区域。
选择视频内低相关性的情景。这在用于内容插入的视频演示中提供了分配目标区域的灵活性。本发明的实施例可以完全自动化，以实时式运行，因此，可以应用在视频随选以及播放应用中。同时本发明可以更好地适合于现场播放，其也可以用于记录播放中。
实施例的系统和方法可以在计算机系统500中实施，图22中示意。其也可能作为软件来实施，如在计算机系统500内执行的计算机程序，并且指示计算机系统500执行实施例方法。
计算机系统500包括计算模块502、输入模块如键盘504及鼠标，以及多个输出设备如显示器508和打印机510。
计算模块502与播放站14的输入端通过适合的线如ISDN线及收发器512连接。收发器512也将计算机连接到本地播放装置514(如果发送器和/或互联网或LAN)来输出完整的信号。
实施例中的计算模块502包括一个处理器518、一个随机存取存储器(RAM)520以及一个只读存储器(ROM)522，ROM含有参数的嵌入结构。计算模块502也包括许多输入/输出(I/O)接口，例如与显示器508相连的I/O接口524，以及与键盘504相连的I/O接口526。
计算模块502的组件典型的是通过内部连结总线528来进行通信，通信方式对于内业人员来说是熟知的。
典型为计算机系统500的用户提供的应用程序编写在数据存储媒介如CD-ROM或软盘上，利用对应的数据存储设备550的数据存储媒介驱动器进行读出，或者通过网络提供。应用程序被读出并由处理器518进行控制执行。程序数据的中间存储可以利用RAM520来完成。
在前述的式中，描述了在视频中进行附加内容插入的法及装置。此处只叙述了数个例子。然后对于业内人士来说在本发明的精神下进行的各种替换及改进都没有背离本发明权利要求的范围。
权利要求
1.一种在视频流的视频片段内插入附加的内容的方法，视频片段包括一系列视频帧，该方法包括接收视频片段；确定视频片段的至少一个帧的画面内容；基于所确定的画面内容，确定附加内容的插入的适宜性；根据所确定的适宜性将附加内容插入视频片段的帧中。
2.根据权利要求1所述的方法，其中，确定用于插入内容的帧的适宜性包括为至少一帧确定至少一个第一参考值以显示插入附加内容至该帧的适宜性；以及根据所确定的至少一个第一参考值插入附加内容。
3.根据权利要求2所述的方法，其中，相对于确定的画面内容的至少一个第一参考值可由操作员定义。
4.根据权利要求2或3所述的方法，其中，表示附加内容插入的适宜性的至少一个第一参考值包括将附加内容插入其中的帧的适宜性的参考值。
5.根据权利要求2-4任意一项所述的方法，其中，如果第一参考值在第一阈值的第一侧，则该帧被确定为适合于在其中插入附加内容。
6.根据权利要求5所述的方法，其中，如果第一参考值在第一阈值的第二侧，则该帧被确定为不适合在其中插入附加内容。
7.根据前述任意一项权利要求所述的方法，进一步包括判断在视频片段的帧内至少一个预定类型的空间区域是否存在；以及根据判断存在的预定类型的空间区域，将附加内容插入视频帧中。
8.根据权利要求7所述的方法，其中，预定类型的空间区域的判断是基于所确定的视频片段至少一帧的画面内容来进行的。
9.根据前述任意一项权利要求所述的方法，其中，帧用于插入的适宜性是基于帧对观众的相关性的判断来确定的。
10.根据权利要求9所述的方法，当依赖于至少权利要求2，其中至少一个第一参考值包括至少一帧的一个第一相关观众参考值。
11.根据权利要求10所述的方法，其中，第一相关观众参考值从表中输出，同时画面内容输入到表中。
12.根据前述任意一项权利要求所述的方法，进一步包括确定视频片段令人兴奋的程度，并且基于所确定的令人兴奋的程度来确定帧用于附加内容的插入的适宜性。
13.根据权利要求12所述的方法，当依赖于至少权利要求2，其中，第一相关观众参考值从画面内容中以及从视频片段令人兴奋的程度的判断中获得。
14.根据权利要求13所述的方法，当依赖于至少权利要求11，其中，视频片段令人兴奋的程度的判断包括对表的进一步输入。
15.根据权利要求12-14任一权利要求所述的方法，其中视频片段令人兴奋的程度的判断包括在视频流中追踪前面的视频片段的内容。
16.根据权利要求12-15任一权利要求所述的方法，其中视频片段令人兴奋的程度的判断包括分析与视频片段相关的音频。
17.根据权利要求12-16任一权利要求所述的方法，其中视频片段令人兴奋的程度的判断包括在视频流内分析前面视频片段相关的音频。
18.根据前述任意一项权利要求所述的方法，进一步包括通过分析与当前视频片段主题相同的视频片段，预先学习多个参数，并且利用预先学习的参数来判断帧用于附加内容的插入的适宜性。
19.根据权利要求18所述的方法，当依赖于至少权利要求2，其中，预先学习的参数用来判断至少一个第一参考值。
20.根据权利要求7或8所述的方法，当依赖于至少权利要求7时，根据权利要求9-19任意一项所述的方法，进一步包括通过分析与当前视频相同主题的视频片段，预先学习多个参数，并利用预先学习的参数判断至少一个预定类型的空间区域的存在。
21.根据权利要求18-20的任意一项所述的方法，进一步包括基于视频流较前的部分，从而修改参数的使用，所述较前的部分指在当前视频片段之前的部分。
22.根据权利要求21所述的方法，其中，确定视频片段的至少一帧的画面内容以及确定帧的插入的适宜性包括执行基于内容的视频分析以及经修改的参数来识别视频片段内适合用于插入附加内容的帧和区域。
23.根据前述任意一项权利要求所述的方法，进一步包括在插入附加内容前，选择要插入的附加内容。
24.根据权利要求23所述的方法，其中插入的附加内容的选择是基于插入附加内容的空间区域的大小和/或长宽比。
25.根据前述任意一项权利要求所述的方法，进一步包括在视频流内探测静态空间区域，并且将进一步内容插入探测到的静态空间区域。
26.根据权利要求25所述的方法，其中，如果插入到探测到的静态空间区域的进一步内容和附加内容重叠，进一步内容固定到附加内容的重叠部分。
27.在视频流的视频片段内插入进一步内容的方法，视频片段包括视频帧系列，该方法包括接收视频流；在视频流中探测静态空间区域；以及将进一步内容插入所探测到的静态空间区域。
28.根据权利要求25-27所述的方法，其中，探测静态空间区域包括对视频流中帧序列内的像素特性进行取样以及平均化，从而决定在帧序列中的像素是否为静态。
29.根据权利要求28所述的方法，其中平均步骤包括生成一个延时移动平均值。
30.根据权利要求25-27任意一项所述的方法，其中探测静态空间区域包括在延时视窗中内视频流的帧序列的图像坐标进行像素特性取样，像素特性包括方向的边缘强度以及像素RGB的强度；在各帧之间相同坐标上进行移动平均过滤像素特性来在延时视窗上提供一个变化偏移。
31.根据前述任意一项权利要求所述的方法，其中确定画面内容包括确定在帧内一种或多种主色；确定在帧内一种或多种主色相同的相互连接区域的大小；以及比较确定的大小与相关预定的阈值。
32.根据权利要求31所述的方法，其中在帧内确定一种或多种主色包括将绿色或非绿色的区域分类，并将最大尺寸的相互连接的绿色区域和相关预定的阈值比较，确定该帧是否有赛场情景。
33.根据前述任意一项权利要求所述的方法，其中视频流为现场直播。
34.根据前述任意一项权利要求所述的方法，其中视频流为比赛的播放。
35.根据权利要求34所述的方法，其中，比赛为英式足球比赛。
36.根据前述任意一项权利要求所述的方法，进一步包括将带有附加内容的视频流发送给观众。
37.根据前述任一权利要求所使用视频集成装置。
38.一种视频集成装置，用于将附加内容插入视频流的视频片段，其中视频片段包括一系列视频帧。该装置包括接收视频片段部件；确定视频片段的至少一帧的画面内容的部件；基于所确定的画面内容而确定至少一帧用于插入附加内容的适宜性的部件；根据所确定的适宜性而将附加内容插入视频片断的帧中的部件。
39.一种视频集成装置，用于将附加内容插入视频流的视频片段，其中视频片段包括一系列视频帧。该装置包括接收视频流部件；在视频流内探测静态空间区域的部件；以及将下一内容插入所探测到的静态空间区域的部件。
40.根据权利要求38或39所述的装置，可按照权利要求1-36所述的方法使用。
41.计算机程序产品，用于将附加内容插入视频流的视频片段中，视频片段包括一系列视频帧，计算机程序产品包括计算机可用媒介；计算机可读程序代码，其记录在计算机可用媒介内，根据权利要求1-36的任意一项来使用。
42.计算机程序产品，用于将附加内容插入视频流的视频片段中，视频片段包括一系列视频帧，计算机程序产品包括计算机可用媒介；计算机可读程序代码，其记录在计算机可用媒介内，当下载到计算机时，可以将计算机作为按照权利要求37-40所述的装置。
全文摘要
通过执行基于内容的实时帧处理来在视频中识别适合植入的位置而将广告或其它虚拟内容插入视频演示的帧序列的方法及装置。这些位置对应于视频演示内的时间片段，也对应于通常被认为对视频观众较低相关性的图像画面内的区域。本发明的方法和装置允许用非打扰的方法将附加的虚拟内容合并到视频演示中，推动了附加通信频道从而大幅提高视频的互动性。
文档编号H04N7/24GK1728781SQ20051008458
公开日2006年2月1日申请日期2005年8月1日优先权日2004年7月30日
发明者尹光华, 徐常胜, 林如晖, 余新国申请人:新加坡科技研究局

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹光华;徐常胜;林如晖;余新国
技术所有人：新加坡科技研究局
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。