运动图像分析装置、方法及系统的制作方法

文档序号：6458286阅读：362来源：国知局

专利名称：：运动图像分析装置、方法及系统的制作方法
技术领域：
：本发明涉及一种数字信息提取及分析技术，特别涉及关于运动图像的提取和分析装置、方法及系统。
背景技术：
：随着互联网技术、广播、通信、娱乐、医疗、教育等领域中的数字化技术的急速发展，采用多媒体信息的方式存储影音资料已经成为最常规的存储手段之一。随之而来的，从庞大的多々某体信息中能够简单且高速地4义存取必要的信息这样的需求变得越来越高。其中，特别是从想要有效地管理并处理4渚存在网络、家庭月艮务器中的大量的影像内容的需求出发，正在积极地开展用于影像内容的含义提取和分析的图像识别技术的研究开发。具体举例来i兑，正在研究开发如下^支术，例如，在普及石更盘录4象装置、数字家电时，用于实现只观看想看的内容、一边录l象一边技术"；随着数字照相机、数字摄像机以及互联网的普及，用于简单地编辑各种图像、运动图像、制作并保存自己的创作摘要影像的"摘要影像制作技术，，等。另夕卜，为了满足图像检索的需求，由Google等利用关键字的图像检索技术也正在实际应用。还包括能够自由自在地阅览运动图像内容的Browsing技术、可视通信中的"影像会议记录"制作技术等。但是，在利用关键字的图像检索技术中，赋予必要的关4定字需要花费劳力和时间，而且容易发生存在大量相同关键字的图像的情况，因此，实际利用时往往无法得到满意的冲企索结果。另外，研究了4艮多自动々是耳又影像内的元信息(Metainformation)并才艮据这些元信息找出想要的图像内容的检索技术、自动制作"影像会议记录"的技术、Browsing技术等，但是高精度地提取图像内的必要特征量、正确地进行镜头剪接检测和分类、摘要自动制作、精彩场面自动4是耳又并不容易，因此，现有^支术中并没有确立可实际利用的影傳J险索技术、摘要制作技术、Browsing技术。因此，进一步出现了不是基于上述关键字的图像检索，而是以人的直观感觉来处理影l象内容，乂人而更有效率地管理并处理影1象内容的普通的影像分析技术。相关的技术可以参考日本特开2002-344872及曰本特开2006-54622。但是，特别涉及运动影像内的精彩场面提取和摘要制作，在实际应用中，常常会发生如下所述的镜头剪接检测错误背景的色彩分布特性由于摄像机的高速运动和/或对象的高速运动而发生变化，有时将原本不是镜头转换的内容检测为镜头剪接；有时难以区分远景和中景的色彩分布特性和关注区域特征的变化，无法检测出原本为镜头转换的内容。
发明内容本发明的目的在于解决现有技术中的上述问题，即，提供一种运动图像分析装置和方法，使得即使背景的色彩分布特性由于摄像机的高速运动或对象的高速运动而变化，也能正确地检测出镜头剪接。本发明的另一目的在于提供一种运动图像分析装置、方法，^f吏得即使对于远景、中景之类的变化，也能正确地检测出镜头剪接。此外，本发明的另一目的在于提供能够利用运动图像分析装置自动进行摘要制作的摘要自动制作系统、自动提取精彩场面的精彩场面自动^是取系统。根据本发明第一方面的运动图像分析装置，包括运动图像读入单元，用于读入运动图i象；关注区域^是取单元，用于乂人所述运动图像的各帧图像中提取关注区域；对象特征提取单元，用于在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及镜头剪接检测单元，用于根据图像的色彩特征、关注区域的对象特征和运动信息在各帧图像之间的差别来检测镜头剪接。根据本发明第二方面的运动图像分析方法，包括运动图像读入步骤，读入运动图像；关注区域提取步骤，从所述运动图像的各帧图像中提取关注区域；对象特征提取步骤，在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及镜头剪接检测步骤，根据图像的色彩特征、关注区域的特征、以及运动信息在各帧图像之间的差别来片全测镜头剪接。根据本发明第三方面的摘要自动制作系统，包括上述的运动图像分析装置；以及摘要自动制作单元，根据所述运动图像分析装置的分析结果，自动制作摘要。才艮据本发明第四方面的精彩场面自动提取系统，包括上述的运动图像分析装置；以及精彩场面自动提取单元，根据所述运动图像分析装置的分析结果，自动提取精彩场面。本发明的技术效果在于通过评价图像内的运动信息的可靠性，能够除去根据色彩分布特征和关注区域的尺寸特征而误检测出的镜头剪接，提高镜头剪接的检测精度。而且，根据本发明，还能够高精度地提取图像内的特征量，正确地进行镜头分类，自动制作摘要和纟是取4青彩场面。图1表示本发明的运动图卩象分析装置的第一实施例的框图。图2表示本发明的运动图像分析装置的第二实施例的的框图。图3表示本发明的运动影像分析方法的一个实施例的流程图。图4(a)是表示足球比赛影像内的赛场的检测例；图4(b)是该赛场内部和相邻区域中的图像和对象特征的示例。图5(a)和图5(b)表示为了检测足球等运动影像的赛场而使用的3DHSV直方图特征，其中，图5(a)表示足球比赛中的代表性的图^象样本；图5(b)表示将这些图l象样本的3DHVS直方图投影到各个1D上的图表。图6表示根据各种足球比赛影像收集的图像样本。图7(a)表示为了求出此次3DHSV直方图统计模型而实际使用的训练用图像的示例；图7(b)表示赛场检测的结果。图8(a)至8(c)是利用上述HSV直方图才莫型来表示所关注的赛场检测结果；其中，图8(a)表示利用HSV直方图模型的主要颜色检测方法，图8(b)表示图像采样，图8(c)表示主要颜色区域的检测结果。图9表示除去噪声的过滤处理的实-验结果。图10示出了在关注赛场内部存在对象(运动员)的情况下的对象特征。图11表示关注赛场的边界和其直线的角度以及交叉位置的检测方法。图12表示J求门片全测方法。图13表示利用球门的语义(semantic)规则4企测出球门区域。图14(a)和图14(b)表示通过上述方法检测出的球门的结果；其中图14(a)表示图像采样，图14(b)表示球门检测结果。图15表示所关注的赛场中的角^M立置的^r测方法及其结果。图16表示其他的对象特征的提取示例。图17表示镜头剪接的种类。图18表示在本发明中为了冲企测镜头剪接而利用的特征量。图19表示4竟头剪接才全测算法的流程图。图20表示镜头剪4妾冲佥测的实施例。图21(a)表示在摄像机高速移动的情况下，原本应该为相同镜头的内容中的背景区域的变化，而作为镜头剪接被误才全测的情况；图21(b)表示没有检测出镜头剪接的情况，在镜头转换的场景中，前后帧之间的色彩特性的变化和关注区域(绿色球场)的变化不大的情形。图22给出了镜头剪接检测示例(统一确认时的示例)的流程图。图23表示对于使用运动信息的可靠性评价的镜头检测方法。图24示出了从前后帧之间的运动信息估计图像内运动信息的"可靠性评价用参数(x，y)"的流程图。图25(a)示出了利用上述运动信息可靠性评价的特征量；图25(b)示出了完成的Mmv屏蔽的例子。图26(a)及图26(b)示出运动可靠性图像WMv的估计方法。图27表示使用色彩特征和关注区域的特征无法^r测出的镜头才企测失"i吴的改善方法。图28表示使用通过学习数据得到的运动信息的可靠性辨别器的可靠性评价值。图29示出了用上述方法检测实际图像内有可靠性的动作区域的才佥测结果。图30示出了正确地检测出"检测失误"的镜头剪接。图31(a)至31(c)表示用上述方法^r测出镜头剪接的结果；其中，图31(a)表示错误检测摄影机快速移动；图31(b)逐步镜头剪接图像擦除；图31(c)表示逐步镜头剪接镜头分解。图32示出了使用由学习凄史据得到的识别函数和特征量确认可除去这些i吴一金测。具体实施方式为了有效地管理并方便地处理储存在网络上、家庭服务器等中的庞大的影像内容，其运动图像内容的分析与含义提取、以及元信息的赋予变得越来越重要。其中，分析体育比赛等的节目、并提取最精彩的场面以及自动地制作摘要的需求很高，但现状是无法高精度地实现。因此，鉴于上述技术问题，本发明提出了开发作为运动图像分析的基本技术的镜头剪接检测技术，并将该技术应用于提取体育比赛等节目的精彩场面、自动制作摘要等上。下面将以足球比赛为例进行说明，但需要说明的是，以下的实施例仅作为说明本发明的优选实施例，而非用以限定本发明，本发明可用于对任何运动图像进行分析。一般来说，视频内容的不同会导致图像特征量的处理方法也有4艮大变化，因此本发明着重于实际中会^皮经常使用的"运动图像分析"的技术，进行用于实现提取其运动图像内的精彩场面和制作摘要的基本技术和架构的开发。具体来说，在足球比赛等的影像分析之中，分析各帧图像内的图像特征，使用通过预先学习而得到的关注区域(例如，足球场)的图像特性(例如，HSV直方图冲莫型)，判断在这些图像内是否存在关注区域，在不存在关注区域的情况下，判断为外景运动图像(外景运动图像)；在存在关注区域的情况下，可靠地检测该区域。另夕卜，将结合了该关注区域和图像内的色彩特征的内容作为特征量，评价图像间的特征量的相似性，在特征量相差较大的情况下，检测为镜头剪接(shotcut，镜头切换点)。另一方面，正如
背景技术：
中所说明的那样，在实际应用中，常常会发生如下所述的镜头剪接检测错误背景的色彩分布特性由于才聂像才几的高速运动和/或对象的高速运动而发生变化，有时将原本不是镜头转换的内容4企测为镜头剪接；有时难以区分远景和中景的色彩分布特性和关注区域特4正的变化，无法才全测出原本为镜头转换的内容。因此，在本发明中，为了减少上述的镜头剪接的检测错误，提高如上所述的镜头剪接检测精度，除了利用上述的色彩分布特征和关注区域的色彩特征以外，还利用图像内的运动信息。具体来说(1)利用前后帧之间的块匹配，算出误差评〗介值。(2)利用这些误差评价值，利用二次曲面才莫型进行拟合(Fitting)处理，估计该二次曲面才莫型的参凄史。(3)将这些参数与事先学习的结果进行比较，仅检测可靠的运动信息。(4)对于这些可靠的运动信息，通过在某时间轴上进行的统计处理，检测出可靠性更高的运动信息。(5)利用这些可靠性高的运动信息，能够正确地;险测出由于色彩分布特性和关注区域特征造成的误检测的内容、或未检测出的镜头剪接。(6)对于摄像机的高速运动、对象物体的运动，该运动区域大多存在于图像的中心附近的位置，因此通过学习来制作这样的运动区域，利用该运动区域，能够进一步改善由高速4聂^4几运动造成的镜头剪接检测错误等。在本发明中，通过利用色彩分布特征、关注区域的对象特征和运动信息对镜头剪接进行检测，将相邻的两个帧的图像的色彩分布特征、关注区域的对象特4正和运动信息进4于对比，如果对比结果为近似，则判断相邻的两个帧的图^f象属于同一个4竟头，也就是i兌，在这两帧之间没有镜头剪接，如果对比结果相邻的前后两帧之间的色彩特征、关注区域的对象特征和运动信息存在差别，则判断上述这两帧图像不属于同一个镜头，也就是说在这两帧之间存在4竟头剪接，并对通过检测出的镜头剪接所获得的每个镜头利用关注区域内的对象特征进行分类，镜头分为远景镜头(longshot)、中景镜头(middleshot)、近景镜头(zoom-upshot)和夕卜景镜头(outsideshot)镜头四种，其中远景镜头、中景镜头和近景镜头属于室内景镜头，外景镜头也可称为场外镜头。进而，通过将上述特征量和镜头剪接检测结果作为影像内的说明信息进行附加，从而能够将本发明应用于足球比赛中的精彩场面提取和摘要制作。以下参考附图，详细i兌明本发明的实施例。图1表示本发明的运动图Y象分析装置第一实施例的框图。如图1所示，运动图像分析装置100包括用于读入运动图4象的运动图4象读入单元no,在足J求比赛中读入比赛的一见频序列；关注区i或才是取单元120,用于从读入的运动图像的各帧图像中提取关注区域，例如足球比赛的赛场；对象特征提取单元130,用于在关注区域内或与关注区域相邻的区域内提取对象特征，在足球比赛中，该对象特征例如是运动员的脸、球门区域、球、角球位置、赛场区域及其轮廓等；镜头剪接检测单元140，用于根据图像的色彩特征、关注区域的对象特征和运动信息在各帧图像之间的差别来检测判定镜头剪接。其中，关注区域^是耳又单元120利用通过预先学习而得到的关注区域的图像特征来判断在各帧图像中是否存在关注区域(例如足球比赛中的赛场)。在关注区域提取单元120提取了关注区域后，对象特征4是耳又单元120自动在关注区域内或与关注区域相邻的区域内提取对象特征。关注区域的图像特征基于HSV直方图模型图2表示本发明的运动图像分析装置第二实施例的框图。如图2所示，运动图^f象分4斤装置200包括运动图Y象读入单元210、关注区域^是耳又单元220、对象特征^是取单元230、4竟头剪4妾冲佥测单元240、具有可靠性的运动信息提取单元250、镜头分类单元260,其中上述的运动图像读入单元210、关注区域提取单元220、对象特征提耳又单元230与第一实施例中的运动图l象读入单元110、关注区域提取单元120、对象特征提取单元130作用相同，这里省略对其的说明。此外，该镜头剪接检测单元240包括第一镜头剪接;险测单元242，用于根据图像的色彩特征、关注区域的对象特征在各帧图像之间的差别来^r测4竟头剪纟姿；以及第二4竟头剪4如险测单元244,用于根据图像的运动信息在各帧图像之间的差别来检测镜头剪接。此外，运动图1象分析装置还包括该具有可靠性的运动信息4是耳又单元250,镜头剪接检测单元240(第二镜头剪接一企测单元244)利用该具有可靠性的运动信息纟是取单元250计算出的具有可靠性的运动信息进行检测。第一4竟头剪4妄纟企测单元242和第二4竟头剪4妄4金测单元244可以依次工作也可以同时工作，当第一镜头剪接检测单元242和第二镜头剪才妄4企测单元244同时工作时，该今竟头剪"t妄才全测单元240同时才艮据图像的色彩特征、关注区域的对象特征和运动信息在各帧图像之间的差别来检测镜头剪接，将前后帧之间色彩特征、关注区域的特征和运动信息相似的帧图像检测为一个镜头，反之，将前后帧之间色彩特征、关注区域的特征和运动信息差别较大的帧图像^r测为不同的镜头。镜头分类单元260对利用镜头剪接检测单元240的#企测结果所获得的镜头进行分类，判定该镜头中是否存在基于色彩特征(在足球比赛中是指赛场的绿色)的关注区域，当不存在该关注区域时，将该镜头划分为外景该关注区域存在时，使用该关注区域内的对象特征将该镜头划分为室内景镜头中的远景镜头、中景镜头和近景镜头sho中的一个。图2中的各单元既可以作为硬件各自独立存在，也可以整合成若干个单元，还可以通过基于控制程序的软件处理来进4亍。图3表示本发明的运动图像分析方法的一个实施例的流程图。如图3所示，首先，读入足球比赛等的视频影像，该运动图像可以是视频图像、新闻图像或者电影电视图像等(步骤S301)，从运动图像的各帧图像中提取关注区域，例如在足球比赛中，利用通过预先学习而得到的所关注的赛场的图^象特征才莫型(HSV直方图，HSV是指色彩模型，其中，Hue:色度，Saturation:饱和度，Value:亮度))来判断影像内有无赛场(步骤S302)。在存在赛场的情况下，才是耳又该关注区i或(步-骤S303)，在不存在赛场的情况下，返回步驶《S301。然后，在该赛场的内部或相邻的区域中，^是取对象特征(步骤S304)。之后，利用色彩特征、4是取的关注区域的对象特征和运动信息在各帧图像间的不同来检测镜头剪接(S305),利用提取出的各镜头内部的图像特征，例如足球比赛的时候，判定该镜头中是否存在基于绿色的赛场，当该镜头中不存在赛场时，将该镜头划分为外景镜头，当该镜头中存在赛场时，划分为远景镜头、中景镜头和近景镜头中的一个(步骤S306)。接着，根据通过镜头剪接检测步骤S305而获得的检测结果和通过镜头分类步骤S306而获得的分类结果进行摘要制作或精彩场面提耳又(步骤S307)。图4(a)表示足球比赛影像内的赛场的才企测例，图4(b)表示该赛场内部和相邻区域中的图像和对象特征的示例。如图4(a)所示，图4(a.l)和图4(a.3)表示1俞入图4象，图4(a.2)和图4(a.4)表示4全测赛场，图4(a.3)表示，图4(a.4)表示，此外，如图4(b)所示，在图4(b)中的对象特4i包4舌图4(b.l)的运动员，尤其运动员的脸部，、图4(b.2)3求门区域、图4(b.3)3求及角球位置、图4(b.4)的赛场区域，当然对象特征还包括除此之外的其^也的特^正，例如，赛场4仑廓等。图5(a)和图5(b)表示为了4全测足3求等运动影<象的赛场而使用的3DHSV直方图特征，图5(a)表示足球比赛中的代表性的图像样本，图5(b)表示将这些图像样本的3DHSV直方图投影到各个1D上的图表。其中，在图5(a)中的三幅图像分别列举了远景、中景和近景三种样本图像。图6表示根据各种足球比赛影像收集的图像样本(白天、傍晚、夜晚等各种时间的图像，以及晴、多云、雨等各种天气时的图像)的3DHSV直方图特征进行分析，通过统计处理得到的统计H据的结果。例如，所关注的赛场区i或中的HSV的可变范围分别为H[22，68]、S[32，255]、V[64,175],另夕卜，其区i或幅度最大为H:16、S:128、V:64。也就是i兌，明确了如下情形赛场区i或内的HSV平均值根据比赛的时间段、气候等而改变，但是其分布值被限制在大致H:16、S:128、V:64之内。利用这样的HSV特征，能够可靠地d企测出赛场。图7(a)表示为了求出此次3DHSV直方图统计才莫型而实际寸吏用的主要颜色例如足球场草地的绿色各不相同的训练用图像的示例，图7(b)示出了赛场4企测结果。乂人其结果可知，在HSV冲莫型的学习中使用色彩特征不同的各种训练样本图像，因此能够正确冲企测出各种照明条件下的赛场。图8(a)至8(c)利用上述HSV直方图模型来表示所关注的赛场检测结果。图8(a)表示利用上述HSV直方图模型的所关注的赛场的纟企测方法，如图8(a)所示，该4企测方法包4舌以下步骤帧下采样、搜索压缩的三维直方图峰值、搜索一维本地直方图的塔式、分割主要颜色、进行降低噪声的滤波处理。为了提高处理速度、除去图像内的噪声，降低了输入图像的分辨率。另外，为了减少照明变化的影响、^是高一企测处理的可靠性，将HSV各成分的分辨率从8比特压缩到2-3比特。之后，检测出各HSV成分的峰值，将其作为HSV的中心值(平均值)，应用上述的HSV分布值，由此能够可靠地检测出所关注的赛场。图8(b)表示图像采样，图8(c)表示主要颜色区域的检测结果。在图8(b)和图8(c)中示出了利用该方法检测出的不同照明环境中的赛场的示例。从图8(b)和图8(c)示出的结果来看，能够在各种照明环境中可靠且实时地4全测出所关注的赛场。另外，为了除去赛场内的直线等，也可以进行后处理(用于除去噪声的过滤处理)。图9表示其实验结果。其中，图9(al)和图9(bl)表示图1"象采样，图9(a2)和图9(b2)表示主演颜色区域分段，图9(a3)和图9(b3)表示滤波结果，从该结果可得到如下启示通过一全测关注赛场，纟是取该赛场内部和相邻区i或中的对象特征(选手、罚球区、直线、角球位置等)是可能的。以下，说明赛场内部及其相邻区域中的图像/对象特征提取方法。图10示出了在关注赛场内部存在对象(选手)的情况下的对象特4i。在此，用式(1)表示关注赛场的^f象素M(i，j)。M(Z,力Ze{U,-'-,//}je{l，2,..-,}式(l)分别用式(2)中的Ph(i)、Pv(j)来表示水平、垂直方向的对象特征。<formula>formulaseeoriginaldocumentpage20</formula>在此，H和W分别表示图像的Y和X方向的大小。关于该特4正量，在Pv(j)的变化大、Ph(i)的变化小的情况下，意味着在赛场内部存在大的对象(人物)。另外，在Py(j)的变化小的情况下、或者Ph(i)的变化大的情况下，意p未着在赛场内部存在小的对象(人物)。图11表示关注赛场的边界和其直线的角度以及交叉位置的检测方法。首先，检测其边界的位置B(i)。然后，将其宽W像素的边界在横方向上分割为30个部分，进行低分辨率化，求出该低分辨率图像中的各像素位置上的角度A(i)。其目的在于为了降低接近边界的人物、图形等的影响(噪声)。之后，根据下述式(3)计算左和右的角度A,(n)和Ar(n)(n=l、2........30)的二级(class)角度，并计算各自的分布值D,(n)和Dr(n)。此时，将下述式中最小的N作为左右两直线的交叉位置。最后，在^f象素位置N中的角度A,(n)和Ar(n)的角度差为IO度以上的情况下，检测出两条直线，将其交叉位置检测为角球位置(参照实验结果)。<formula>formulaseeoriginaldocumentpage20</formula>式(2)式(3)图12表示J求门;险测方法。依次包4舌以下步艰《主要颜色区i或的才企测；J求场边界的冲企测；垂直方向的白线斥企测；7jc平方向的白线检测；利用球门的语义规则(竟赛规则中对球门的规定)进行球门检测。对于如上所述检测出的关注赛场，检测与该赛场相接的垂直方向上的白线。因此，在纵方向上检测出两条平行直线的情况下，确认在由该平行直线包围的区域内是否存在水平方向的白线。在纵方向上检测出两条平行直线以及在横方向上检测出一条白线的情况下，将其作为球门的候选进4亍处理。图13表示利用球门的语义规则检测出球门区域，如图13所示，利用^求门的语义(semantic)失见则(也就是i兌，5求门区域的门柱高度与横梁长度、以及横梁长度与赛场宽度之间的比例关系)，能够正确地斗企测出J求门区域。图14(a)和14(b)表示通过上述方法冲企测出的^求门的结果。尽管有复杂的背景，也能够可靠地检测出球门区域。图15表示所关注的赛场中的角3求位置的片企测方法及其结果。角球位置检测利用了与图11的边界检测相同的方法。图16(a)至16(f)表示其他的对象特征的^是耳又示例。如图16所示，图16(a)、图16(b)、图16(c)示出了所关注的赛场内的选手区域、图形区域、；求的4佥测示例。另夕卜，图16(d)、图16(e)、图16(f)示出了裁判(颜色)、球员动作、教练(脸)等的检测示例。图17表示镜头剪接的种类。通常，镜头剪接包括硬剪接(hardcut)、淡入/淡出切4灸、图形〖瓜刷剪4妄(graphicswipercut)这三种。通常硬剪接在一两帧等数帧之间发生变化，所以很容易检测出其变化，而淡入/淡出剪接、图形弧刷剪接在10-30等数十帧之间发生变化，所以难于准确地冲企测出该4竟头的变化。例如本实施例中的石更剪才妻大体上在1帧之间进行切换，淡入/淡出剪4矣大体上在大于15帧之间进行切换，图形弧刷剪接大约每30帧左右切换。图18表示在本发明中为了检测镜头剪接而利用的特征量。在此，为了正确检测镜头剪接，认为需要(1)保持对摄像机的移动、图像内的选手的水平运动的可靠性的同时，(2)对图像内的色彩特征分布的变化灵敏地进^^佥测。因此，为了实现对(1)的水平方向的图像特征变化的可靠性，并且检测出(2)的图像内色彩特征变化，首先如图18所示，通过将区域分割成若千个，可以更准确有效地检测出每帧之间的差异。例如，在实施例中以2:5:3的比例进行了分割。然后，对各个区域计算上述的三维HSV分布作为色彩分布特征量。本实施例中采用了色彩分布特征，当然也可以采用色彩的RGB特;f正、色彩的绝对值特征等，另外，为了提高对图像内的噪声等的可靠性，设分别以2比特表示HSV的各成分，以6比特的色彩特征量表示整体的HSV分布特征。然后，作为表示帧之间的区别的一个特征，使用了下述式(4)所示的特征量。i:》力)-U〗/2&(0式(4)在此，Ht(i)是6比特的HSV色彩分布特^正，A是表示是否求出与几帧前的特^正量之间的区别的常^t。在该式的计算结果比预先设定的阈值T1大的情况下，检测为不同的镜头，从运动影像统计地求得阈值Tl。另夕卜，在足球比赛之类的运动影-像中，通过利用关注区域的特征，可以更加可靠地检测镜头剪接。在此，设为兼用上述R2区域(即，图18的画面中心部分的区i^)内的关注色彩特4i。首先，确认是否存在R2区域内的关注色彩的区域，在该关注色彩区域的比例占到50%以上时，作为镜头剪接;险测的第二特征量进行利用。此时，通过下述式(5)计算t时刻和(t-A)时刻的R2区i或中的关注色彩区域的区别，在该区别大于预先设定的阈值T2的情况下，检测为不同的镜头。同样地，从运动比赛影像统计地求得阈值T2。<formula>formulaseeoriginaldocumentpage23</formula>式(5)图19表示镜头剪接检测算法的流程图。如上所述，计算当前时刻的以6比特表示的HSV分布Ht(i)，求出与(t-A)时刻的HSV分布Ht—A(i)之间的区别。在该区別大于阈值T1的情况下，检测为镜头剪接。否则，检测R2区域内的关注色彩区域(在足球比赛的情况下，是绿色球场)，在该区域的尺寸超过R2区域的50%的情况下，计算当前时刻t与时刻(t-A)的区i或尺寸的区别，在该区别大于阈值T2的情况下，检测为镜头剪接。图20表示镜头剪接检测的实施例。通过评价各个区域R1、R2、R3的HSV分布的区别、和R2区i或内的关注色彩(乡录色区i或)的区别，能够检测镜头剪接。例如使用上述的DC特征、RH特征、MV特征学习镜头剪接用的SVM分类器，通过该^皮学习的SVM分类器检测镜头剪接。如图21(a)所示，在摄像机高速移动的情况下，原本应该为相同镜头的内容由于背景区域的变化，前后帧之间的色彩特性变化较大，常常发生检测为镜头转换的"误检测"的情况。也就是在不需要镜头剪接的时候进行了剪接。相反的，在如图21(b)所示的镜头转换的场景中，前后帧之间的色彩特性的变化、关注区域(绿色球场)的变化并不那么大，因此常常发生判断为同一镜头的镜头转换的"检测失误"的情况。也就是在需要进行镜头剪接的时候未进行剪接。因此，为了改善如上所述的"误检测"和"检测失误"，提出了利用运动信息的镜头检测方法。图22示出了该方法的详细的步骤。图22给出了镜头剪接检测的示例(统一确认时的示例。)首先，通过前述利用色彩特征和关注区域特征的方法，进4亍利用色彩特征和关注区域的特;伍的第一镜头剪"t妻一佥测(S2201);然后进4于利用运动信息的第二镜头剪接检测(S2202);再根据第一镜头剪接检测和第二镜头剪接检测的检测结果判断镜头剪接(S2203)。表1对图22的步骤S2203中的判断作出说明。表1<table>tableseeoriginaldocumentpage159</column></row><table>在上述利用色彩特征和关注区域特征的进行镜头剪接检测时，既可以如图22所示在镜头剪接检测完成后利用运动信息确认误检测，也可以在每次一企测镜头时进行确认，还可以在每次;险测镜头剪接时进行确认，对每个镜头分别进行处理的具体步骤如下步骤Bl:针对镜头k利用色彩特征和关注区域的第一镜头剪接检测；步骤B2:判断步骤Bl的检测结果和之前的镜头(k-l)是否为统一镜头剪接(镜头(k-l)和镜头k之间有无镜头切换)；若上述步骤B2判断结果为"是"，则进^亍步骤B3-1，即，对于镜头k-l和镜头k之间是否没有镜头切换，通过利用运动信息的第二镜头剪接检测进行确认；否则，进行步骤B3-2，即，对于镜头(k-l)和镜头k是否有镜头切换，通过利用运动信息的第二镜头剪接检测进行确认。在完成步骤B3-l或B3-2的处理后，进一步判断是否已针对放入的动画中的所有的镜头完成镜头剪接检测，若判断结果为"是"，则才喿作完成；否则，k=k+l，并返回步-银B1。以下给出图22所示的统一处理的才莫式的两个具体实施例例1:S2201中利用色彩特征和关注区域的检测结果，当仅仅检测出ShotCut#1(由4竟头(shot)1，2,…，6构成)为远景时，通过S2202,利用运动信息确认镜头16之间是否真的没有镜头切换(镜头剪接)。例2:S2201中利用色彩特4正和关注区》或的片企测结果，当4企测出ShotCut弁l(由镜头l,2,3构成)为远景、ShotCut弁2(由镜头4，5,6构成)为中景、以及ShotCut#3(由镜头7，8，9构成)为远景这3种不同的镜头剪接时，通过S2202，利用运动信息，确认镜头3和镜头4之间以及镜头6和镜头7之间是否含有4竟头切换(相当于上述步骤B3-2)，如果没有，则将其看作和之前紧邻的镜头为同一4竟头剪4妻，并确i人4竟头13、4竟头4~6、4竟头79之间分别是否真的没有^;头切:换，(相当于上述步-骤B3-1),如果有，则分割为多个4竟头剪才妄。25通过S2202的处理，纟丸行确认是否含有4竟头切4奐的步骤可不分先后顺序。如果进行了相当于上述步骤B3-2的确认，对于被分割成多个镜头剪接的镜头，则不需要进行相当于上述步骤B3-1的确i人；如果进行了相当于上述步骤B3-l的确认，对于作为和之前紧邻的镜头相同的镜头剪接被合成的镜头，则不需要进行相当于上述步骤B3-2的确认。以下给出对每个镜头分别处理的模式的具体实施例例3:步骤Bl中利用色彩特征和关注区域的检测结果，当检测出ShotCut#1(由镜头l，2,3构成)为远景、以及ShotCut#2(由镜头4,5，6构成)为中景这2种不同的镜头剪接时，在紧接着镜头1一全测完4竟头2的时点(k=2)上，通过步骤B3-1，利用运动特征确认是否不含镜头切换。在紧接着镜头24全测完镜头3的时点(k=3)上也同样进行步-骤B3-1的处理。对于镜头4因为判断为是不同的镜头剪接，所以在紧接着镜头3才全测完4竟头4的时点(k=4)上，通过步骤B3-2，利用运动特4i确i^竟头切换的判断是否正确。在紧接着镜头4之后镜头5被检测完的时点(k=5)上，在紧接着镜头5之后镜头6被检测完的时点(k=6)上进行步骤B3-l的处理。当步骤B3-1中不含镜头切换(和步骤B1的4企测结果相同)时，该镜头将之前的状态和之前紧邻的被检测出的镜头作为同一镜头剪接被保存。当步骤B3-1中含有镜头切换(和步骤B1的检测结果不同)时，检测该镜头中的镜头剪接，并分割为多个镜头(其结果是由于远景和中景混在一起引起的误检测导致的镜头剪接才企测遗漏可得到改善)。当步骤B3-2中含有镜头切换(和步骤B1的检测结果相同)时，该镜头将之前的状态作为和之前紧邻的被检测出的镜头不同的镜头剪接被保存。当步骤B3-1中不含镜头切换(和步骤B1的检测结果不同)时，将该镜头和之前紧邻的被检测出的镜头作为同一镜头剪接处理(其结果是由摄像头的高速运动以及图像模糊等造成的镜头剪接的误检测可得到改善)。图23表示对于由使用上述色彩特征和关注区域的特征的镜头检测方法进行的误检测，使用运动信息的可靠性评价的镜头检测方法。首先，根据前后帧之间的运动信息估计，估计图像内运动信息的"可靠性评价用参数(x，y)"(S2301)。然后，使用利用统计数据得到的运动信息可靠性判断器来进行可靠性运动区域屏蔽制作(MMV)(S2302)。之后，进一步将含有人物的图像利用为学习数据，使用根据这些学习数据得到的表示图像内的人物运动的发生频率的"运动信息的权重(weight)Wmv"、以及上述"有可靠性的动作区域屏蔽Mmv",如下式(6)那样算出在固定的时间间隔内的运动可靠性评价值FL(S2303)。最后，通过利用统计数据的运动可靠性评价值的学习结果，能够判断当前的镜头剪接是否为误检测(S2304)。<formula>formulaseeoriginaldocumentpage28</formula>图24示出了从前后帧之间的运动信息估计图像内运动信息的"可靠性评价用参数(x，y)"的方法。根据需要(例如，为了计算的高速化)从输入图像制作低分辨率图像(S2201)。然后对于图像内的全部j象素(i,j)，将固定尺寸(例如，16x16)的块作为才莫板(S2202)，在前一帧图像内搜索相同区域(例如，搜索区域为32x32)(S2203)。另夕卜，搜索时的4晉误评^H吏用SAD评^介j直(Dss),Dss的计算方法如下式(7)所示。利用搜索区域内的各像素位置(XMV，YMV)的评价值(Dss),使下述二次曲面才莫型拟合，计算该才莫型的参数(a,b,c)。最后，通过x-(axb)1/2、y=c，将参数(a，b，c)变换为(x,y),将该(x，y)作为运动信息可靠性评价的特征量(S2204)。<formula>formulaseeoriginaldocumentpage28</formula>图25(a)示出了利用上述运动信息可靠性评价的特征量(x，y),制作可信赖的运动区域的屏蔽MMv的过程。在此，利用特征量(x，y),在判断为是可靠的运动信息的情况下，将屏蔽Mmv的植设为1。另外，通过Y吏用统计数据的学习，得到用于进"f亍可靠性判定的判断器。图25(b)示出了完成的Mmv屏蔽的例子。图26(a)及图26(b)示出运动可靠性图像Wmv的估計方法，其是用于去除具有人物运动的剪接的误纟全测。通常，在放大的情况下，对于移动摄像机来追踪选手的场景，常常会发生镜头剪接的误检测。对于这个问题，为了进一步降低误检测率，利用这些影像场景作为学习数据，能够根据如上述那样求得的运动信息的可靠性屏蔽，制作表示图像内的人物运动特征的运动可靠度图像WMV。如图26(a)所示，首先，生成Mmv屏蔽(O、1的二值图像)(S2601),计算S[M贈](S2602)。接下来，判断是否完成了全部学习数据(S2603),如果是，则算出可靠性图像WMV,k=I;[Mmv]/W(S2604)，反之，贝'J返回步,AS2601。图26(b)示出WMV的侈'J子。MMV的计算方法是这样的仅仅收集摄像机面板的含有人物的图像，用同样的方法计算运动的可靠度，将具有可靠度的运动领域作为屏蔽。其结果是，由于在画面的中央附近出现人物的情况比较多(通过统计处理4寻出的)，如图26(b)所示，在画面的中央附近，作成有存在具有可靠度的运动领域这样的屏蔽。最终，利用上述的动作可靠性屏蔽M雨和可靠度图像WMV,如下式那样计算可靠性评价值FL(式(8)),能够将该评价值作为特征来判断有无镜头剪接的误检测。这里，判断有无镜头剪接的误才企的阈值ThdOl是通过学习凄t据得到的值。至此，-说明了除去4竟头误4佥测的方法。图27利用上述运动信息，表示使用色彩特征和关注区域的特征无法检测出的镜头检测失误的改善方法。与图23相同，首先，估计运动信息可靠性评价参数(x，y)(S2701)，制作运动信息可靠性判断器的可靠的动作区域屏蔽(MMV)(S2702)。然后，如式(9)那样，作为特征量Fp计算屏蔽MMv的可靠的运动信息的比例(0100%)(S2703),进而判断特征量是否小于检测失误判断的阈值Thd02(S2704),在该特征量小于检测失误判断的阈值Thd02的情况下，判断为镜头剪接的检测失误，反之，则判断为无检测失误。这里的用于判断是否存在检测失误的阈值Thd02是通过学习数据得到的值。图28表示使用通过学习数据得到的运动信息的可靠性辨别器来估计上述运动信息可靠性评价的特征值(x，y)时的可靠性评1"介值。图29示出了用上述方法4企测实际图Y象内有可靠性的动作区域的检测结果。从该结果可知，能确认可以将人物的运动信息检测为可靠性高，另外，关于由摄像机的动作造成的背景变化，判断为动作的可靠性低。在图30中，对于由基于到此为止的色彩特;f正的镜头剪接;险测方法无法检测出的"检测失误"，根据运动信息的可靠性评价，使用以动作可靠性屏蔽MMV的可靠的运动信息的比例为特征的特征量Fp,由此也能够正确地d佥测出"4企测失i吴"的4竟头剪4妾。图31(a)至31(c)表示用上述方法检测出镜头剪接的结果。在图31(a)中，对于利用色彩特征而误检测出的镜头剪接，能够使用本方法的运动信息的可靠性来除去该误才企测。另外，在图31(b)、图31(c)中，即使对利用色彩特征而检测出的镜头剪接，进行本方法的运动信息的可靠性评价，也判断为正确的镜头剪接。在图32中，对由摄像机的高速移动造成的误^r测，使用由学习数据得到的识别函数和本发明提出的特征量Fp能够确认可以除去这些"i吴;险测。用上述的方法检测影像内的各镜头剪接，进而识别各镜头的类型(通常分为远景、中景、近景、外景这四种)，根据这些镜头之间前后的相关特性、镜头内部的各帧图像之间的特征的相关性(视野(View)的位置、运动方向)、以及各帧影像内的对象特征(例如，球门区域、角球、选手等)等，能够检测出角球、任意球、射门(goalkick)等精彩场面。本发明的技术效果如下(1)本发明利用颜色分布特征，可靠地才企测关注的色彩区域，由此检测足球比赛等的运动影像内的对象及镜头剪接，通过将这些结果作为元信息附加，能够进行影像内容的自动分析。(2)为了提高相对摄像机水平运动、人物水平运动的可靠性，将图像整体分割为多个区域，并通过使用各区域内的色彩分布特征以及关注区域的尺寸特征，能够进^f于高精度的镜头剪^妾冲企测。(3)进而，通过评价图像内的运动信息的可靠性，能够更高精度地检测根据上述(2)的色彩分布特征以及关注区域的尺寸特征无法才企测出的4竟头剪冲妄等。(4)另外，通过评价图像内的运动信息的可靠性，能够除去根据上述(2)的色彩分布特征和关注区域的尺寸特征而误检测出的镜头剪接，提高镜头剪接的检测精度。(5)利用图像内的对象检测结果和高精度的镜头剪接检测结果，最终能实现影像内的各种精彩场面提取和摘要影像的自动制作。(6)在本发明中，通过同时4吏用色彩分布特4E、关注区域的色彩特征和运动特征，能够检测出足球比赛等的运动图像的镜头剪接。(7)使用关注区域内的对象特征能够进行各个镜头剪接的分类。此外，本发明可实施在本技术构思范围内的各种变形。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。权利要求1.一种运动图像分析装置，其特征在于，所述运动图像分析装置包括运动图像读入单元，用于读入运动图像；关注区域提取单元，用于从所述运动图像的各帧图像中提取关注区域；对象特征提取单元，用于在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及镜头剪接检测单元，用于根据图像的色彩特征、所述关注区域的对象特征和运动信息在所述各帧图像之间的差别来检测镜头剪接。2.根据权利要求l所述的运动图像分析装置，其特征在于，还包括镜头分类单元，用于对根据所述镜头剪接检测单元的检测结果而获得的镜头进行分类。3.根据权利要求l所述的运动图像分析装置，其特征在于，所迷关注区域提取单元利用通过预先学习而得到的所述关注区域的图像特征来判断在所述各帧图像中是否存在所述关注区域。4.根据权利要求3所述的运动图像分析装置，其特征在于，所述关注区域的图像特征基于HSV直方图模型。5.根据权利要求l所述的运动图像分析装置，其特征在于，在所述关注区域提取单元提取了所述关注区域后，所述对象特征提耳又单元自动在所述关注区i或内或与所述关注区i或相邻的区i或内提取所述对象特征。6.根据权利要求l所述的运动图像分析装置，其特征在于，还包括具有可靠性的运动信息提取单元，所述镜头剪接检测单元利用该具有可靠性的运动信息提取单元计算出的具有可靠性的运动信息进行一企测。7.根据权利要求6所述的运动图像分析装置，其特征在于，所述镜头剪接检测单元基于检测运动信息的可靠性的结果，对所述运动信息赋予二值化的可靠性模板。8.根据权利要求7所述的运动图像分析装置，其特征在于，所述镜头剪接;险测单元通过计算前后帧之间的运动信息并将所述运动信息向二次曲面模型拟合，来计算检测运动信息的可靠性的特征量。9.根据权利要求8所述的运动图像分析装置，其特征在于，所述镜头剪接4企测单元通过对搜索区域内的各像素位置和前后帧图像内搜索相同区域的匹配进行计算来取j寻匹配评价值，将所述取得的匹配评价值向所述二次曲面模型拟合推算二次曲面的参数，计算检测运动信息的可靠性的特征量。10.根据权利要求9所述的运动图像分析装置，其特征在于，基于多个运动信息的可靠性模板，所述镜头剪接检测单元计算运动可靠度参数，基于所述可靠性模板和所述运动可靠度参数，所述镜头剪接检测单元计算表示镜头剪接的4企测结果是否可靠的可靠性评价值。11.一种运动图l象分析方法，其特征在于，所述运动图^f象分析方法包括运动图像读入步骤，读入运动图像；关注区域读取步骤，从所述运动图像的各帧图像中提取关、注区i或；对象特征提取步骤，在所述关注区域内或与所述关注区域相邻的区i或内才是耳又对象特4正；以及镜头剪接检测步骤，根据图像的色彩特征、所述关注区域的对象特征、以及运动信息在各帧图像之间的差别来检测镜头剪接。12.根据权利要求ll所述的运动图像分析方法，其特征在于，还包括镜头分类步骤，对根据检测出的所述镜头剪接而获得的镜头进行分类。13.根据权利要求ll所述的运动图像分析方法，其特征在于，在所述关注区域提取步骤中，利用通过预先学习而得到的关注区域的图像特征来判断在所述各帧图像中是否存在关注区域。14.根据权利要求13所述的运动图像分析方法，其特征在于，所述关注区域的图像特征基于HSV直方图模型。15.根据权利要求ll所述的运动图像分析方法，其特征在于，在所述关注区域提取步骤中提取了关注区域后，在所述对象特征提耳又步一腺中自动在所述关注区i或内或与所述关注区i或相邻的区域内提取所述对象特征。16.根据权利要求ll所述的运动图像分析方法，其特征在于在所述镜头剪接检测步骤中包括具有可靠性的运动信息提取步骤，页在所述镜头剪接检测步骤中，利用通过所述具有可靠性的运动信息提取步骤计算出的具有可靠性的运动信息进行^r测。17.根据权利要求16所述的运动图像分析方法，其特征在于，在所述镜头剪接检测步骤中，基于检测运动信息的可靠性的结果，对所述运动信息赋予二值化的可靠性^t板。18.4艮据权利要求17所述的运动图Y象分析方法，其特4i在于，在所述镜头剪接检测步骤中，通过计算前后帧之间的运动信息并将所述运动信息向二次曲面才莫型拟合，来计算4企测运动信息的可靠性的特征量。19.根据权利要求18所述的运动图像分析方法，其特征在于，在所述镜头剪接4全测步骤中，通过对4叟索区域内的各^f象素位置和前后巾贞图像内4叟索相同区域的匹配进行计算来取"彈匹配评1介值，将所述取得的匹配评价值向所述二次曲面模型拟合推算二次曲面的参数，计算检测运动信息的可靠性的特征量。20.根据权利要求19所述的运动图像分析方法，其特征在于，在所迷镜头剪接检测步骤中，基于多个运动信息的可靠性模板，计算运动可靠度参数，基于所述可靠性模板和所述运动可靠度参数，计算表示所述镜头剪接检测步骤的检测结果是否可靠的可靠性评价值。21.—种摘要自动制作系统，其特征在于包括根据权利要求1至10中任一项所述的运动图像分析装置；以及摘要自动制作单元，根据所述运动图像分析装置的分析结果，自动制作摘要。22.—种精彩场面自动提取系统，其特征在于包括根据权利要求1至10中任一项所述的运动图像分析装置；以及精彩场面自动4是取单元，4艮据所述运动图4象分析装置的分析结果，自动提取精彩场面。全文摘要本发明提供一种运动图像分析装置、方法及系统，该运动图像分析装置包括运动图像读入单元，用于读入运动图像；关注区域提取单元，用于从所述运动图像的各帧图像中提取关注区域；对象特征提取单元，用于在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及镜头剪接检测单元，用于根据图像的色彩特征、关注区域的所述对象特征、以及运动信息在各帧图像之间的差别来检测镜头剪接。本发明通过评价图像内的运动信息的可靠性，能够除去根据色彩分布特征和关注区域的尺寸特征而误检测出的镜头剪接，提高镜头剪接的检测精度。文档编号G06F17/30GK101329766SQ20081000938公开日2008年12月24日申请日期2008年2月28日优先权日2007年6月18日发明者吴伟国,胡一川,隆之芦原,博韩申请人:索尼(中国)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴伟国;芦原隆之;韩博;胡一川
技术所有人：吴伟国;芦原隆之;韩博;胡一川
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。