图像处理装置和方法以及程序的制作方法

文档序号:6611049阅读:137来源:国知局
专利名称:图像处理装置和方法以及程序的制作方法
技术领域
本发明涉及一种图像处理装置和方法以及程序,特别是涉 及能够提供用于更高效率地管理并处理影像内容使得能够以人 的直观感觉处理影像内容的影像解析技术的图像处理装置和方 法以及程序。
背景技术
随着因特网技术、广播、通信、娱乐、医疗、教育等领域 的数字化技术的急速发展,能够从庞大的多媒体信息中能够简 单高速地只选取必要信息这样的需求正在不断增加。在这种需 求中,特别是根据想要高效率地管理并处理存储在网络、主页 中的大量影像内容的需求,积极进行了用于影像内容的含义提 取和解析的图像识别技术的研究开发。
作为具体的例子,例如进行了以下的研究开发在硬盘录 像、数字家电普及的过程中,用于能够进行只观赏想看的内容、 边录像边享受再现等与新生活方式相应的娱乐方式的"类似图 像检索技术,,;随着数码照相机、数字摄像机、以及因特网的普 及,用于简单编辑各种图像、运动图像,制作保存自己的原创 概要影像的"概要影像制作技术"等(例如,参照专利文献l、 2)。
即作为用于能够进行与上述新生活方式相应的娱乐方式、 或制作概要影像的需求,想从影像内容检索所需的图像、例如 想从运动图像内容中检索重点场景的图像检索这样的需求不断 增力口 。
为了能够应对这种图像检索的需求,使用了关键词的图像 检索技术的实用化也不断发展。除此之外,还进行了如能够自
由自在地阅览运动图像内容的浏览(Browsing)技术、可视通信 中的意思的"影像备忘录"制作技术等的研究。
专利文献l:曰本4争开2002-344872号7>寺艮
专利文献2:日本特开2006-54622号^^净艮

发明内容
发明要解决的问题
然而,现状是在使用关键词的现有图像检索技术中,必要 关键词的提供很麻烦,也会产生存在大量关键词相同的图像的 情况,因此实际上无法得到满意的检索结果。另外,还研究了 自动提取影像内的元信息并以这些元信息为基础查找所需图像 内容的检索技术、自动制作"影像备忘录"的技术、浏览技术等 很多技术,但是不容易高精度地提取必要的元信息,因此现状 是还没有确立可实际利用的影像检索技术、概要制作技术、浏 览技术。
换言之,期望实现用于更高效率地管理并处理影像内容的 影像解析技术,使得不是如上述的根据关键词的图像检索等, 而是以人的直观感觉来处理影像内容,^f旦目前状况是无法充分 应对这种要求。
本发明是鉴于这种状况所作出的发明,其目的在于,提供 用于更高效率地管理并处理影像内容使得能够以人的直观感觉 来操作影像内容的影像解析技术。
用于解决问题的方案
本发明的 一 个技术方案的图像处理装置,是对能够划分为 多个镜头的运动图像实施图像处理的图像处理装置,其特征在 于,具备保持单元,其使用多个由应该作为重点提取的l个以 上镜头构成的已知镜头组作为学习用运动图像,预先学习各镜
头间关联性的第l规则、和l镜头内的各帧间关联性的第2规则,
将这些学习结果作为判别前述重点的判别模型而保持;以及提
取单元,其从新输入的运动图像中将能够由前述保持单元中所 保持的前述判别模型认定为是前述重点的镜头组作为前述重点 而提取。
基于前述第l规则的前述判别模型是将多个镜头类型作为 各状态进行学习的结果所得到的时间序列模型,前述提取单元 从新输入的前述运动图像中将能够由前述时间序列模型认定前 述镜头类型的迁移方式是前述重点的镜头组作为前述重点而提取。
前述时间序列模型是HMM(Hidden Markov Modle:隐马尔
柯夫模型)。
基于前述第2规则的前述判别模型是将多个帧类型作为各 状态进行学习的结果所得到的时间序列模型,前述提取单元从 新输入的前述运动图像中提取包括能够由前述HMM认定前述
帧类型的迁移方式是前述重点的镜头的镜头组作为前述重点。 前述时间序列模型是HMM(Hidden Markov Modle:隐马尔
柯夫模型)。
前述多个帧类型根据可包括在帧中的l种以上的对象特征 分别进行定义,前述图像处理装置进一步具备特征提取单元, 该特征提取单元乂人构成新输入的前述运动图j象的多个帧尝试前 述1种以上的各个对象特征的提取,前述提取单元根据前述特征 提取单元的提取尝试的结果对构成新输入的前述运动图像的多 个帧的各自的前述帧类型进行识别,根据该识别结果提取前述 重点。
本发明一个技术方案的图像处理方法,是对能够划分为多 个镜头的运动图像实施图像处理的图像处理装置的图像处理方
法,其特征在于,包括如下步骤使用多个由应该作为重点提 取的l个以上镜头构成的已知镜头组作为学习用运动图像,预先 学习各镜头间关联性的第1规则、和1镜头内的各帧间关联性的
第2规则,将这些学习结果作为判别前述重点的判别模型保持在
前述图像处理装置中,从新输入的运动图像中将能够由所保持 的前述判别模型认定为是前述重点的镜头组作为前述重点而提取。
本发明一个技术方案的程序,是与上述本发明一个技术方 案的图像处理方法对应的程序。
在本发明 一个技术方案的图像处理装置及方法以及程序 中,对能够划分为多个镜头的运动图像实施如下的图像处理。
即使用多个由应该作为重点^提取的1个以上4竟头构成的已知4竟 头组作为学习用运动图像,预先学习各镜头间关联性的第1规 则、和1镜头内的各帧间关联性的第2规则,将这些学习结果作 为判别前述重点的判别模型而保持于上述图像处理装置等中, 从新输入的运动图像中将能够由所保持的前述判别模型认定为 是前述重点的镜头组作为前述重点而提取。 发明的效果
如以上那样,根据本发明的一个技术方案,能够提供影像 解析技术。特别是能够提供用于更高效率地管理并处理影像内 容使得能够以人的直观感觉来操作影像内容的影像解析技术。


图l是表示应用本发明的图像处理装置的功能性结构例的 功能框图。
图2是图l的图像处理装置所执行的图像处理的具体例。 图3是表示图2的步骤S1的处理结果的例子的图。
图4是表示图2的步骤S2的处理结果的例子的图。 图5是表示图2的步骤S2的处理结果的例子的图。 图6是表示图2的步骤S2的处理结果的例子的图。 图7是表示图2的步骤S2的处理结果的例子的图。 图8是表示图2的步骤S3的处理结果的例子的图。 图9是表示图2的步骤S4的处理结果的例子的图。 图IO是说明图2的步骤S5的处理内容的例子的图。 图ll是说明图2的步骤S5的处理内容的例子的图。 图12是表示图l的关注区域提取部的功能结构的详细例的 功能框图。
图13是说明图12的HSV直方图模型保持部中所保持的HSV 直方图模型的图。
图14是说明图12的HSV直方图模型保持部中所保持的HSV 直方图模型的图。
图15是表示图12的关注区域提取部的处理结果的具体例的图。
图16是表示图12的关注区域提取部的处理结果的具体例的图。
图17是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图18是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图19是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图20是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图21是说明由图l的对象特征提取部提取的对象特征及其
提取方法的一例的图。
图22是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图23是说明由图l的对象特征提取部提取的对象特征及其
提取方法的一例的图。
图24是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图25是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图26是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图27是说明由图l的对象特征提取部提取的对象特征及其 提取方法的一例的图。
图28是说明根据图1的镜头切换检测部的镜头切换检测的 一种方法的图。
图29是说明图l的镜头切换检测部执行的处理、即图2的步 骤S 3的镜头切换 一企测处理的详细例的流程图。
图30是说明由图l的镜头分类部分类的镜头种类、即镜头类 型的一例的图。
图31是说明采用了图30例子的镜头类型的情况下的图2的 步骤S 4的镜头分类处理详细例的流程图。
图32是说明图31的镜头分类处理中利用的信息的一例的图。
图33是说明图31的镜头分类处理中利用的信息的一例的图。
图34是说明图31的镜头分类处理中利用的信息的 一 例的图。
图35是说明图31的镜头分类处理中利用的信息的 一例的图。
图36是说明图31的镜头分类处理中利用的信息的一例的图。
图37是说明由图l的重点检测部进行的重点-提取的基本概 念的图。
图3 8是表示图1的重点检测部的功能性结构的详细例的功
能框图。
图39是说明图38的重点检测部所执行的处理、即图2的步骤 S 5的重点检测处理的详细例的流程图。
图40是表示图38的学习部的功能性结构的详细例的功能框图。
图41是说明由图40的学习部进行的学习、其学习结果所得 到的模型的图。
图42是说明由图40的学习部进行的学习、其学习结果所得 到的模型的图。
图43是说明由图40的学习部进行的学习、其学习结果所得
到的模型的图。
图44是说明由图40的学习部进行的学习、其学习结果所得 到的模型的图。
图45是表示作为应用本发明的图像处理装置的个人计算机 的结构例的框图。 附图标记说明
11:关注区域提取部,12:对象特征提取部,13:镜头切 换检测部,14:镜头分类部,15:重点;险测部,51: HSV直方 图模型保持部,52:下采样部,53: HSV成分峰值检测部,54: 关注区域范围决定部,55:关注区域冲全测部,56:主才几处理部,
301:学习部,302:模型保持部,303: Layerl特征量生成部, 304: Layer3特征量生成部,305: Layer2特4正量生成部,306: 重点提取部,351:关注区域提取部,352:对象特征提取部, 353:镜头切换检测部,354:镜头分类部,355: Layerl特征量 生成部,356: Layer3特征量生成部,357: Layer2特征量生成 部,358:重点学习部,401: CPU, 402: ROM, 408:存储部, 411:可移动介质。
具体实施例方式
下面,说明本发明的实施方式,下面举例说明本发明的技 术特征与在发明的详细说明中所述的实施方式的对应关系。该 记载是为了确认支持本发明的实施方式被记载在发明的详细说 明中。因此,虽然有记载在发明的详细说明中,但是没有作为 与本发明的技术特征对应的实施方式而记载在此的实施方式, 也不意味该实施方式不与该技术特征对应。相反,即使实施方
式作为与 一支术特4正对应的部分而记载于此,也不意p未该实施方 式不与该技术特征以外的技术特征对应。
并且,该记载不意味与记载在发明的实施方式中的具体例 子对应的发明全部被记载在权利要求中。换句话说,该记载是 与记载在发明的实施方式中的具体例子对应的发明,并不否定 没有记载在该申请的权利要求中的发明的存在,即不否定将来 分案申请、或通过补正追加的发明的存在。
本发明一个技术方案的图像处理装置(例如图l的图像处理 装置的特别是重点检测部15),
是对能够划分为多个镜头的运动图像实施图像处理的图像 处理装置,其特征在于,具备
保持单元(例如图38的模型保持部302),其使用多个由应该
作为重点提取的l个以上镜头构成的已知镜头组作为学习用运 动图像,预先学习各镜头间关联性的第l规则(例如图37的
Layerl中的关联性规则)、和l个镜头内的各帧间关联性的第2规 则(例如图37的Layer2中的关联性规则)(例如由图38的学习部 301预先进行学习),将这些学习结果作为判别前述重点的判别 模型而保持;以及
提取单元(例如图3 8的重点提取部3 0 6),其从新输入的运动 图像中将能够由前述保持单元中所保持的前述判别模型认定为 是前述重点的镜头组作为前述重点而提取。
基于前述第l规则的前述判别模型是将多个镜头类型作为 各状态进行学习的结果所得到的时间序列模型(例如是图41的 HMM,这种HMM的S11至S14例^口与图30的"Long"、 "Medium"、 "Close-up"、 "Out"中的某一个对应),
前述提取单元从新输入的前述运动图像中将前述镜头类型 的迁移方式能够由前述时间序列模型认定为是前述重点的镜头 组作为前述重点而提取。
基于前述第2规则的前述判别模型是将多个帧类型作为各 状态进行学习的结果所得到的时间序列模型(例如是图43的 HMM,这种HMM的S21至S28例如与图42的"Middle", "Goal Box,'、 "Upper Corner"、 "Lower Corner"、 "Unknown"、 "Upper Goal"、 "Lower Goal"中的某一个对应),
前述提取单元从新输入的前述运动图像中将包括前述镜头 类型的迁移方式能够由前述时间序列模型认定为是前述重点的 镜头的镜头组作为前述重点而提取。
前述多个帧类型根据可包括在帧中的1种以上的对象特征 (例如在图42的例子中是中央白线371、球门框372、角位置373) 分别进行定义,
前述图像处理装置进 一 步具备特征提取单元(例如图1的对 象特征提取部12)从构成新输入的前述运动图像的多个帧尝试 前述1种以上的各个对象特征的提取,
前述提取单元将构成新输入的前述运动图像的多个帧的各 自的前述帧类型根据前述特征提取单元的提取尝试的结果进行
识别,根据该识别结果提取前述重点(例如与基于图37的Layer3 的Layer2的提取对应)。
本发明一个技术方案的图像处理方法(例如,图2的图像处 理中特别是步骤S5的处理、即与图39的重点检测处理对应的方 法),
是对能够划分为多个镜头的运动图像实施图像处理的图像 处理装置的图像处理方法,其特征在于,包括如下步骤(例如图 39的步骤S71至S80的一系列步骤)
使用多个由应该作为重点提取的l个以上镜头构成的已知 镜头组作为学习用运动图像,预先学习各镜头间关联性的第1 规则、和1镜头内的各帧间关联性的第2规则,将这些学习结果 作为判别前述重点的判别模型(在图39的例子中,是步骤S75中 所说的第l条件、和步骤S76中所说的第2条件)而保持在前述图 像处理装置中,
从新输入的运动图像中将能够由所保持的前述判别模型认 定为是前述重点的镜头组作为前述重点而提取。
本发明一个技术方案的程序,是与上述本发明一个技术方 案的图像处理方法对应的程序,例如由图45的计算机执行。
这样,在具有各种技术方案的本发明中,影像内容成为对 象。在此,所谓内容是指广义上由人的创造性活动所产生的作 品。例如,电影、音乐、戏剧、文艺、照片、漫画、动画片、 计算机游戏、其它的文字、图形、色彩、声音、动作或者影像
或者将它们组合而成的作品或者将用于与这些内容有关的信息 通过电子计算机提供的程序,是内容的一例。它们之中主要包 括影像的内容,在此称为影像内容。影像内容,可大致分为主 要包括静止图像的静止图像内容、主要包括运动图像的运动图 像内容。下面关注运动图像内容进行说明。
但是,在本说明书中,所谓内容、即由人的创造性活动所 产生的作品是设为能够由装置处理的方式的作品,例如成为电 信号的作品、固定在存储器中的作品等,也不特别进行区别而 统称为内容。即在此,构成运动图像的各帧或者场的数据等集 合体也称为运动图像内容。
另外,在本发明中,对运动图像内容的各种图像处理以存 取单元单位执行。存取单元是指帧、场这样的运动图像的单位, 具体地说是指例如构成运动图像的各静止图像全体(帧等)或者 其一部分(场等)。但是,下面为了说明的筒略,设为对运动图
像内容的各种图像处理被以帧单位执行。
另外,在几个附图中表示了成为本发明的各种图像处理对 象的图像具体例。然而,根据著作权保护等的观点,并不是在 附图中表示成为图像处理对象的实际图像本身,而是在附图中 表示实施了适当的掩模的图像、或线图化后的图像。例如,后
述的图3的图像21、 22,不是成为图像处理对象的实际图像,而 是成为其实际图像中与现实世界的观众席围栏对应的区域和与 得分显示对应的区域进行白掩模之后的图像。即图3表示检测了 后述关注区域24的具体例,但是需要注意,并不是从图3所示的 白掩模的图像21检测关注区域24,而是从其图像21的原实际图 像检测关注区域24。同样地,例如后述的图4的例子,是表示从 帧3 1检测运动员的面部41的情况的例子,但并非是对进行线图 化的图4的帧31实施图〗象处理来4企测面部41,而实际上是对图4
的帧3 1的线图化前的实际照片数据实施有关图像处理来检测作
为与面部41对应的实际照片数据的面部。
图l是表示应用本发明的图像处理装置的功能性结构例。 图1的例子的图像处理装置构成为包括关注区域提取部1 1
至重点4企测部15。
图2是说明有关图l的例子的图像处理装置所执行的图像 处理的一例的流禾呈图。
在步骤S1中,关注区域提取部ll对每个帧提取关注区域。
在此,关注区域是指拍摄了现实世界的被摄体的结果所得 到的静止图像(在此是l帧)中所包括的区域中的、现实世界的1 以上背景中与应该关注的背景对应的区域。
例如,在此考虑利用足球比赛影像作为运动图像内容的情 况。在这种情况下,运动图像内容的现实世界被摄体是运动员 等与足球关联的人物、球等与足球比赛关联的物体,作为现实 世界的背景,可大致分为进行足球比赛的比赛场(主要是长有草
碎的场所)和除此之外的观众席等。在这种情况下,当考虑了是 足球比赛的情况时,比赛场成为应该关注的背景。因而,关注 区域提取部11能够将规定帧中所包括的区域中与现实世界的比 赛场对应的区域(下面称为比赛场区域)作为关注区域而提取。
例如,图3的帧21是足球比赛的一个场面的图像,区域23 是比赛场区域。关注区域提取部ll将该比赛场区域23作为关注 区域而提取。即将比赛场区域作为关注区域24而提取,作为该 提取的结果得到了图像22。
使用图12至图16在后面说明详细情况,关注区域提取部ll 利用由预先学习所得到的比赛场区域的图像特征模型(例如后 述的HSV直方图模型),判断作为处理对象应该关注的帧(下面 称为关注帧)中是否包括比赛场区域,在判断为包括的情况下,
将该比赛场区域作为关注区域而^是。
此外,比赛场区域是采用足球等运动影像作为运动图像内 容的情况下的关注区域的例示,除此之外,例如采用电视台内 的演播室中使用规定布景拍摄的播放节目影像作为运动图像内 容的情况下,其布景成为关注背景,可以将与该布景对应的区 域作为关注区域进行检测。另外,例如采用音乐会的影像作为 运动图像内容的情况下,其舞台变成关注背景,与其舞台对应 的区域能够作为关注区域检测。即作为拍摄了有颜色特征的现
实世界背景的结果,只要是后述的H S V直方图有特征的图像区 域,可以将任何图像区域作为关注区域进行;险测。
在步骤S2中,对象特征提取部12在每个帧中提取对象特征。
在此,对象特征是指表示关注区域的内部或者邻接的区域 中存在的对象特征的图像信息。另外,关注区域和其它区域的 边界线、2个以上的边界线的交叉点也被视为对象,表示有关对 象特征的图像信息也被包括在对象特征中。图像信息是指除了 对象的颜色信息之外还包括对象位置信息等的广义概念。
例如,在此考虑利用了足球比赛的影像作为运动图像内容 的情况。这种情况下,比赛场区域变成关注区域,因此能够检 测表示比赛场区域内存在的人物、例如运动员等的特征的图像 信息。具体地说,例如在图4的例子中,从帧31检测运动员的面 部41作为对象特征之一。另外,例如在图5的例子中,从帧32 检测球门4 2作为关于比赛场区域的内部、邻接的区域中存在的 人物以外的对象特征信息。另外,例如在图6的例子中,从帧33 检测角位置43、球44,在图7的例子中,比赛场的边界45本身也
作为对象特征之一进行检测。除此之外,虽然没有进行图示, 但是白线等也能够作为对象特征之 一 进行检测。
此外,对象特征检测的详细情况参照图17至图27在后面说明。
返回到图2,在步骤S3中,镜头切换检测部13执行检测运 动图像内容中的各镜头切换的处理(下面称为镜头切换检测处 理)。换言之,检测各镜头切换之间的镜头。
例如在图8的例子中,检测作为足球比赛影像的运动图像 内容中的记述为"Frame25302"和"Frame25303"的两个帧间作为 镜头切换。即在图8中,记述为"Frame25215"至"Frame25339" 的各图像表示具有其帧号的各帧。这种情况下,在图8的例子中, 检测号码25215至25302为止的帧作为第l镜头,检测号码25303 至25339为止的帧作为不同于第1镜头的第2镜头。
此外,镜头切换一全测处理的详细情况参照图28、 29在后面 说明。
返回到图2,在步骤S4中,镜头分类部14执行将运动图像 内容中的各镜头分别分类到预先定义的多个种类中的某一个的 处理(下面称为镜头分类处理)。
例如在图9的例子中,各图像表示l个镜头,如以表示时间 方向的箭头所示,作为足球比赛影像的运动图像内容中8个连续 的镜头被分别分类为 "Long" 、 " Close-up" 、 " Close-up"、 "Medium" 、 "Long"、 " Medium" 、 "Long"、 " Medium"。
此外,有关"Long"等是怎样的种类参照图30等在后面说 明。另外,镜头分类处理的详细情况参照图31至图36在后面说 明。
返回到图2,在步骤S5中,重点检测部15根据例如步骤S2 的处理中提取的各对象特征、步骤S4的处理中分类后的各镜头 的种类等,即根据例如属于各镜头的各帧间的特征量变化、各 镜头间的时间序列特征等,执行从运动图像内容中检测重点的
处理(下面将这样的处理称为重点检测处理)。此外,重点检测 部1 5还可以进一 步根据需要进行根据其重点的概要制作。
在图IO和图ll中表示例如将作为足球比赛影像的运动图
像内容中与角球相当的 一 系列场景作为重点进行检测的情况下 所利用的信息的例子。
例如,图IO表示通过属于各镜头的各帧间的特征量变化来 检测重点的例子。即在图10的例子中,指的是属于规定的镜头 的各帧间的特征量(后述的帧类型)按照"Upper Corner"—
"Unknown"— "Goal Box"— "Goal Box,,进4亍迁移,才艮才居在jt匕 前的其它足球比赛的各种影像中所学习的结杲(对后述的图37 的L ay e r 2的统计模型)来判断,能够认定该特征量迁移的方式是 角球的迁移方式,通过该认定结果检测为重点的情况。此外, 参照图42在后面^>明"Upper Corner"等的各特征量的含义。
另外,例如图ll是表示作为各镜头间的时间序列特征通过 镜头种类推移方式来检测重点的例子。即在图ll的例子中,指 的是各镜头种类按"Close-up"— "Medium"— "Long Shot"—
"Close-up"进行推移,根据在此前的其它足球比赛的各种影像 中所学习的结果(对后述的图37的Layerl的统计模型)来判断, 能够认定该各4竟头的推移方式是角球迁移的方式,通过该认定 结果检测为重点的情况。此外,参照图30在后面说明"Long" 等的各种类。
在这种情况下,有仅根据图IO的例子或者图ll的例子的某 一个的认定结果来检测角球的重点的情况,还有图10的例子和 图ll的例子的两者的认定结果、或者在该两者的认定结果上加 上其它信息进行综合判断来检测角球的重点的情况。
此外,参照图37至图44在后面说明重点斗企测处理的详细情况。
下面按顺序分别说明构成图1的图像处理装置的关注区域 提取部11至重点4企测部15各自的详细情况。此时,为了容易理 解本发明,下面在需要举出运动图像内容的具体例的情况下,
如图3至图11的例子,采用足球比赛影像。
首先,参照图12至图16说明图l的图像处理装置中的关注 区域4是耳又部ll的详细例。
图12表示关注区域提取部11的功能性结构的详细例。
图12的例子的关注区域提取部11,构成为包括HSV直方图 模型保持部51至主机处理部56。HSV直方图模型保持部51保持用于从关注帧检测关注区 域、即在本实施方式中检测比赛场区域的HSV直方图模型。
在此,说明HSV直方图模型。
图13中表示对与足球比赛影像的 一 个场面对应的代表性 采样图像61至63分另l1将3D HSV(3-Dimensions Hue Saturation Value:三维色调饱和值)直方图投射到各个1D上的结果所获得 的各个图表71至图73。
如从图表71至73可知,足球比赛影像大多包括主要包括草 坪影像的比赛场区域,因此其HSV直方图特征(下面称为3D HSV直方图特征)中,各帧相互存在一定的关联性。
因此,本发明人通过解析包括上述采样图像61至63从各种 足球比赛影像收集的数量较多的图像,即白天、傍晚、夜晚的 各种时间带的图像,晴天、阴天、雨的各种天气中的图像等各 3 D H S V直方图特征并实施统计处理,从而得到如下的统计数据 结果。
即得到如下结果包括所关注的比赛场区域的图像中的 HSV可变范围分别为H[22,68]、 S[32,255]、 V[64,175],其范围 宽度最大分别为H:16、 S:128、 V:64。换言之,判明为根据足球
比赛的时间带、气候等的不同,包括比赛场区域的图像中的HSV 的各成分平均值分别变化,但是各成分的分散宽度大致被抑制
在H:16、 S:128、 V:64中。因而,通过利用这种H、 S、 V的各分 散宽度等HSV特征,能够可靠地检测比赛场区域。
因此,在本实施方式中,例如有关分散范围作为HSV直方 图模型被保持在图12的HSV直方图模型保持部51中。
此外,作为用于以学习求出这种HSV直方图才莫型的训练用 采样图像,例如如图14所示的图像71至74那样,还能够采用如 目视就可知的颜色特征不同的各种图像。
返回到图12,下采样部52对关注帧实施用于降低分辨率的 第l处理,另外实施用于将HSV的各个成分分辨率从8Bit压缩到 2-3Bit的第2处理,并且才是供给HSV成分峰值检测部53和关注区 域检测部55。此外,第l处理是指以处理速度提高和图像内噪声 去除为主要目的而进行的处理。另外,第2处理是指以根据照明 变化影响的减低而实现的检测处理可靠性的提高为主要目的进 行的处理。
HSV成分峰值^r测部53运算对于来自下采样部52的关注帧 的3D HSV直方图(如图13的图表71至73的图表等),从该3D HSV 直方图分别检测H、 S、 V的各成分的峰值,将各峰值作为H、 S、 V的各中心值(各平均值)通知给关注区域范围决定部54。
关注区域范围决定部54对H、 S、 V成分的各中心值(各峰值) 的决定分别具有在HSV直方图模型保持部51中作为HSV直方图 模型保持的分别具有上述H、 S、 V的各分散宽度的H、 S、 V的 各范围,将其作为关注区域范围通知给关注区域检测部55。
具体地说,例如在本实施方式中,如上述所述,作为H成 分的范围宽度的"16"、作为S成分的范围宽度的"128"、以及 作为V成分的范围宽度的"64"作为HSV直方图模型保持在HSV直方图模型保持部51中。因此,作为关注区域范围决定以H成
分的中心值(H成分的峰值)为中心具有16的范围宽度的H范围、 以S成分的中心值(S成分的峰值)为中心具有128的范围宽度的S 范围、以及以V成分的中心值(V成分的峰值)为中心具有64的范 围宽度的V范围,并提供给关注区域检测部55。
关注区域;险测部55将构成来自下采样部52的关注帧的各 像素依次作为应该作为处理对象而关注的像素(下面,关注像 素),通过对该关注像素依次实施如下处理来纟企测关注区域、即 在本实施方式中才全测比赛场区域。
即关注区域;险测部55判断关注像素的各H、 S、 V的成分值 是否被包括在从关注区域范围决定部54中通知的关注区域范围 中,在判断为包括的情况下检测为关注像素是比赛场区域的像 素,另一方面,在判断为没有包括的情况下检测为关注像素是 比赛场区域以外的像素。
例如,在图15的例子中,得到图像82作为图像81成为关注 帧而检测比赛场区域的结果。即图82中的黑色区域91-1是检测 出的比赛场区域。同样地,在图16的例子中,得到图像85作为 将图像84作为关注帧而检测比赛场区域的结果。即图像85中的 黑区域92-l是检测出的比赛场区域。
这样一来,将检测出的比赛场区域的关注帧从图12的关注 区域检测部5 5冲是供给主机处理部5 6 。
主机处理部56通过对关注帧实施主机处理、即用于噪声除 去的滤波处理,能够除去比赛场区域内的直线等。换言之,能 够理解为由主机处理部5 6执行以下处理将虽然是比赛场区域 内存在的像素、但是由关注区域检测部55判断为不是比赛场区 域的像素的像素重新判断为是比赛场区域像素的处理。
例如,在图15的例子中,得到图像83作为对上述的图像82
实施主机处理的结果。即图像83中的黑区域91-2是从区域91-1 除去白线、运动员等后的比赛场区域。同样地,在图16的例子 中,得到图像86作为对上述图像85实施了主机处理的结果。即 图像86中的黑区域92-2是从区域92-l除去白线、运动员等后的
比赛场区域。
如以上所说明的那样,图12的关注区域提取部11利用通过 学习足球比赛的各种影像所得到的颜色分布特征、即HSV直方 图模型保持部51中所保持的HSV直方图模型,能够可靠地实时 检测具有足球的现实世界的比赛场中草冲颜色的图像区域、即 比赛场区域。由此能够进行足球比赛的自动解析。
换言之,如上所述,比赛场区域是采用足球比赛影像作为 运动图像内容的情况下的关注区域的简单例示,可以将包括多 个与所采用的运动图像内容种类相应的关注颜色的图像区域设 为关注区域。因此,在从规定种类的运动图像内容检测出关注 区域的情况下,通过学习该规定种类的运动图像内容的各种影 像来生成适合其规定种类的HSV直方图模型,将该HSV直方图 模型保持在HSV直方图模型保持部51中即可。在这种情况下, 只要将该规定种类的运动图像内容输入到关注区域提取部11, 就完全相同地、可靠且实时地检测关于该规定种类的关注区域。 由此可以进行身见定种类运动图像内容的自动解析。
另外,详细情况将在后面说明,但是只要提取关注区域, 就能够进行该关注区域内部或者与其相接的区域中的对象特征 的提取。由此,也能够进行运动影像等各种种类的运动图像内 容解析中的原信息的自动付与。
另外,详细情况将在后面说明,但是只要能够进行关注区 域内与其邻接区域中的对象特征的提取,就还能够进行影像解
析中的高精度镜头检测、镜头分类,最终还能够进行运动图像
内容内的重点提取、概要影像的自动制作。
以上,参照图12至图16说明了图l的图像处理装置中的关
注区域才是耳又部11的详细例。
下面参照图17至图27说明图l的图像处理装置中的对象特 征拔:耳又部12的详细例。即,下面对采用足^求比赛作为运动图<象 内容的情况下、能够由对象特征提取部12提取的对象特征及其 提取方法,说明几个具体例。
图17是说明关注帧的比赛场区域内部中存在对象的情况 下、将该对象的大小、即比赛场区域内对象所占比例大小作为 对象特征提取的情况中的、其提取方法例的图。
在此,以式(l)表示关注帧的比赛场区域中的与比赛场对应 的像素M(i,j)。
M(i,」)ie{1,2,…,H1, je(1'2,…,W1 …(1)
与比赛场对应的像素M(i,j)是指由图12的关注区域检测部 55检测为是比赛场区域像素的像素、即进行由主机处理部56进 行的主机处理而除去运动员、球等对象之前的像素。换言之, 构成比赛场区域的像素中除了表示存在于该比赛场区域内的运 动员、球等对象的像素的像素就是像素M(IJ)。即像素M(I,j)是 具有现实世界上的比赛场区域(草碎)的颜色特征的像素。具体 地说,例如上述图15的比赛场区域91-1、图16的比赛场区域92-l 中的黑色像素与4象素M(I,J)相当。
在式(l)中,H和W分别表示关注帧的垂直方向(Y方向)和水 平方向(X方向)各自的尺寸。
这种情况下,可以使用式(2)所示的垂直方向投影特征量 Ph(i)、和水平方向投影特征量Pv(j)作为表示对象大小特征的特 征量(下面称为投影特征量)。<formula>formula see original document page 24</formula>
例如,图17中表示了在釆用了图像101作为关注帧的情况 下的、表示垂直方向投影特征量Ph(i)推移的图表111-H、和表
示水平方向投影特征量Pv(j)推移的图表11 l-V。
使用图32等在后面说明详细情况,但是在水平方向投影特 征量Pv(j)的变化大、垂直方向投影特征量Ph(i)的变化小的情 况,指的是比赛场区域内部中存在大的对象、即例如运动员等 对象被拍摄得大。另一方面,在水平方向投影特征量Pv(j)的变 化小、垂直方向投影特征量Ph(i)的变化大的情况,指的是比赛 场区域内部中存在小的对象、即例如运动员等对象被拍摄得小。
这样 一 来,对象特征提取部12对关注帧运算垂直方向投影 特征量P h (i)和水平方向投影特征量P v (j),根据垂直方向投影特 征量Ph(i)和水平方向投影特征量Pv(j)的各变化程度,能够将比 赛场区域内部存在的对象的大小作为对象特征之一提取。
图18是说明将关注帧的比赛场区域和其它区域之间的边 界、或者与其边界有关的信息、例如边界线的角度、其它边界 线之间的交叉位置作为对象特征提取的情况、其提取方法例的 图。
即图18中表示有采用了图像121作为关注帧的情况下、作 为黑色比赛场区域122的边界而提取直线123 、 124的情况的例子。
对象特征提取部12以像素单位检测关注帧的比赛场区域 的边界位置。下面将由此^r测出的边界位置如式(3)所示那样记 为B(i)。
式3
B(i), ie{1,2,…,W}, B( i) e {1, 2, ...,H} ... (3)
这种情况下,边界各位置B(i)表示水平方向的W像素的各 位置,因此对象特征提取部12进行在水平方向上进行30分割的 低分辨率化处理、即将边界各位置B (i)的水平方向的个数减缩 为30个,求出连结边界各位置B(i)中的边界线各角度A(i)、即例 如连结各位置B(i)与其前后各位置B(i-l)、 B(i+1)等的直线的各 角度A(i)。此外,低分辨率化的目的在于减低与边界相接的人 物、图形等的影响(噪声),即在作为边界位置B(i)而进行检测的 过程中有不是实际边界而是包括人物、图形位置的情况下除去 它们。
之后,对象特征提取部12按照式(4)运算在水平方向上30进 行分割后的左侧n个(n是1至3 0之间的整数值)的角度Al(n),另外 按照式(5)运算比其靠右侧的角度Ar(n)。
A, (n) = median(A(1),…,A(n)} '…(4)
式5
Ar(n) =median{A(n+1), ..., A(30)} **. (5)
另外,对象特征提取部12分别按照式(6)、式(7)运算左右两 侧角度的各个分散值Dl(n)、 Dr(n)。 式6
D,(n)= 式7
丄Z [A(i)-A,(n)]叶 .' (6)
n i=i
Dr(n) = Z [A(i)-Ar(n)]U …(7)
。u-n i=n+i j
而且,对象特征提取部12将式(8)所示的像素位置N设为左 右两直线的交叉位置。<formula>formula see original document page 26</formula>
式8
8)
最后,在像素位置N中的左右两侧角度Al(n)、 Ar(n)之间的 角度差为10度以上的情况下(即式(9)的情况),对象特征提取部 12将分别具有左右两侧的角度Al(n) 、 Ar(n)的各直线作为不同的 两个边界线分别检测。例如在图18的例子中,将直线123、 124 检测为两个边界线。此外,在像素位置N上的左右两侧的角度 Al(n)、 Ar(n)之间的角度差不足10度的情况下,— 见作 一 个边界线。<formula>formula see original document page 26</formula> (9)
另外,在检测出两个边界线的情况下,如后述的图21所示, 还能够将这些两个边界线的交叉位置作为足球场中的角位置而提取。
由此,对象特征提取部12能够将关注帧的比赛场区域和其 它区域之间的边界、或者与该边界有关的信息、例如边界线角 度、与其它边界线的交叉位置作为对象特征而提取。
进而,如下所述,在检测比赛场区域边界后,对象特征提
框等)作为对象特征之一而提取。
即对象特征提取部12检测与关注帧的各边界线相接的大 致垂直方向的白线。在此之所以记载为大致垂直,是由于现实 世界上的球门的白色结构体(钢筋等)中的垂直方向的部分作为 白线图像包含在关注帧内的情况下未必在关注帧内成正确的垂 直方向。即对象特征才是取部12检测与各边界线相接、且相对关 注帧中的垂直方向具有左右a度(a是0至90度中的任意值)延迟 范围角度的白线。另外,这里所说的白线,并不是指真的白线, 指的是由能够视为白的范围内的颜色构成的线。
而且,在检测出大致垂直方向的2根以上白线的情况下,
对象特征提取部12选择2根以上白线中的规定2根的组,确认被 该组的2根白线所包围的区域内是否存在大致水平方向的白线。 此外,在此设为大致水平方向,是与上述设为大致垂直方向的 意思相同。另外,该确认对所有能组合的组进行。在检测出l 组以上大致垂直方向的2才艮白线组中的存在大致水平方向白线 的组的情况下,对象特征提取部12将这些组作为球门候选来处 理。
然后,对象特征提取部12使用图19所示的球门131的门框 高度133与横梁长度132的关系、横梁长度132与比赛场宽度的比 例关系等尺寸规定、即用球门的语义的规则来提取正确的球门。 即对象特征提取部12从1个以上的球门候选中将满足语义规则 的候选作为球门来选拔。
图20中表示由这种方法检测出的球门的具体例。即图20中 表示采用了图像141作为关注帧的情况下的、提取由与黑色比赛 场区域143的边界线相接的2根大致垂直方向的白线和它们之间 的l根大致水平方向的白线所包围的区域144作为球门的情况的 例子。从图20可知,尽管图像141具有复杂的背景,仍能够可靠 地检测J求门144。
图21是说明将关注帧的比赛场区域中的角位置作为对象 特征而提取的情况下、其提取方法例的图。
即图21中表示采用了图像151作为关注帧的情况下的、提 取黑色比赛场区域161的两个边界线162、 163的交叉位置164作 为角位置的情况的例子。
此外,角位置的检测方法是与使用图18在前面说明的边界 线检测方法基本相同的方法。即对象特征^是取部12对关注帧运
算上述的式(3)至式(9),由此能够将角位置作为对象特征之一来 提取。
除此之外,关于提取方法的具体例已经冗长,因此省略说
明,但是对象特征提取部12能够通过利用已知方法等来提取各 种关注对象特征。
图22至图27表示具体的对象特征提取结果的例子。
即在图22的例子中,提取比赛场区域中存在的运动员171 作为对象特征之一。在图23的例子中,提取比赛场区域上所合 成的得分显示等图形区域172作为对象特征之一 。在图24的例子 中,提取比赛场区域中存在的球173作为对象特征之一。在图25 的例子中,例如使用运动员和裁判的衣服颜色差异,不提取运 动员而提取裁判174作为对象特征之一。在图26的例子中,提取 比赛场区域中存在的运动员运动、即运动员向身见定方向以身见定 速度跑动等运动作为对象特征之一。在图27的例子中,提取运 动员的面部175作为对象特征之一。
以上,参照图17至图27说明了图l的图像处理装置中的对 象特征提取部12的详细例。
下面参照图28和图29说明图l的图像处理装置中的镜头切 换检测部13的详细例。
镜头切换是指镜头和镜头的切换、即镜头变化, 一般大致 分为硬切换、淡入/淡出切换、图形擦除切换这三种。在硬切换 中,在1至2巾贞间切换镜头,因此容易检测其镜头变化,但是淡 入/淡出切换、图形擦除切换在10至30帧程度之间切换镜头,因 此不容易自动检测其镜头变化。
因此,本发明人发明了如下的镜头切换检测方法,其不仅 限于硬切换,而是也应该容易且正确地检测淡入/淡出切换、图 形切换。
即,本发明人认为为了镜头切换的容易且正确检测,必须
同时满足以下条件第1条件,保持相对照相机的移动、帧内对 象移动的可靠性;第2条件,能够敏感地对帧内的颜色特征分布 的变化进行^r测。
这种情况下,为了满足第l条件和第2条件,本发明人认为 相对于帧内对象运动的支配方向分割为2个以上的图像区域来 进行如下的各种运算即可。
作为帧内对象运动的支配方向,如本实施方式那样,在运 动图像内容是足球比赛影像的情况下,能够采用帧的水平方向。 即由于足球比赛的对象是运动员、球等,这些运动员、球大多 是相对于帧沿水平方向运动。
具体地说,例如在本实施方式中,如图28所示,对于各帧 181至183 ,沿水平方向将图像区域从上方以2:5:3的比例进行3 分割,并且进行以下的各种运算。此外,下面结合图28的记载, 将以2:5:3进行3分割后的各个图像区域分别称为区域R1 、 R2、 R3。
在此,以2:5:3进行3分割的理由是由于,在解析了构成足 球比赛一个场面的各种帧之后,综合判断包括最多的比赛场区 域的区域时得到区域R2。即不一定必须采用2:5:3的3分割作为 分割数、分割比例,可以根据想检测镜头切换的运动图像内容 种类特征而任意改变。
如以上所说明的那样,镜头切换检测部13首先将关注帧进 行3分割为区域R1至R3。
接着,镜头切换检测部13对关注帧的各个区域R1至R 3分别 运算上述的3D HSV直方图(参照图13的图表71至73)作为颜色 特征分布。另外,镜头切换检测部13为了提高对帧内的噪声等 的可靠性,将3D HSV直方图的各H、 S、 V的成分分别以2比特
表示,生成作为这些3成分的2比特的集合数据的6比特的数据作 为表示颜色特征分布的特征量。此外,下面将该特征量记述为
颜色特征量HRk。在此,k表示l至3中的某一个。即颜色特征量 HR1是指针对区域R1的颜色特征量,颜色特征量HR2是指针对 区域R2的颜色特征量,颜色特征量HR3是指针对区域R3的颜色
特征量。
而且,镜头切换检测部13对关注帧的各个区域R1至R3分别 运算下式(10)的特征量AHk作为表示帧间不同的特征之一。下 面将特征量AHk称为色差分特征量AHk。
式10<formula>formula see original document page 30</formula>在式(10)中,Htk(i)表示针对关注帧的区域k的颜色特征量。 Htk-A(i)表示针对从关注帧起几帧前的帧区域k的颜色特征量。
即△是表示是否求出与几帧前的特征量的不同的常数。
作为以上结果,得到针对区域R1的色差分特征量AHR1、 针对区域R2的色差分特征量AHR2、针对区域R3的色差分特征 量AHR3。
帧的色差分特征量AH。此外,下面将有关色差分特征量AH称 为综合色差分特征量AH。 式ll
<formula>formula see original document page 30</formula>
在式(ll)中,各个(x、 p、 y是用于分别对针对区域Rl的色差
分特征量AHR1、针对区域R2的色差分特征量AHR2、以及针 对区域R3的色差分特征量AHR3提供权重的规定参数值。其中, 不特别限定a、 p、 Y的具体值,但是如本实施方式那样,对足球
比赛而言,最好是将(3设为最大值。如上所述,区域R2包括最 多的比赛场区域,对于镜头切换检测是最重要的区域,对有关
区域R2提供大的权重是适当的。
然后,镜头切换检测部13比较该综合色差分特征量AH和 预先设定的阈值Tl,在综合色差分特征量AH大于阈值T1的情 况下(AH〉T1的情况下),检测为关注帧是镜头切换。此外,不 特别限定阈值T1,但是最好是采用从足球比赛等影像统计地求 出的值。
与由以上的镜头切换检测部13所执行的 一 系列处理对应 的方法,是由本发明人发明的镜头切换检测方法之一。下面将 这种方法称为综合色特征差分镜头切换检测方法。 进而,本发明人还发明了如下的切换检测方法。 即,在如足球比赛这种体育运动影像中,能够通过利用关 注区域的特征更可靠地检测镜头切换。即足球比赛的关注区域 是指比赛场区域,包括最多该比赛场区域的帧内区域是上述的 区域R2。
因此,也能够利用区域R2内的关注颜色的特4正来进行4竟头 切换的检测。在此,关注颜色是指关注区域中的支配性的颜色, 在关注区域是比赛场区域的情况下是草冲的颜色、即所谓绿色。 换言之,关注颜色的区域是指进行由图12的主机处理部56进行 的主机处理之前的比赛场区域、即不包括运动员、球、白线等 对象的与现实世界上的草碎对应的区域。
具体地说,镜头切换检测部13运算区域R2中的关注颜色区 域所占比例、即关注颜色的像素相对于构成区域R2的像素总数 的个数比。下面将有关比例称为关注色率DCR。
接着,镜头切换检测部13判断关注色率D C R是否超过5 0 %, 在判断为超过了的情况下,认为关注帧有镜头切换可能性,进
行下式(12)的运算。即式(12)也是用于运算作为表示帧间的不同
的特征之一 的特征量ADCR的式。下面将有关的特征量ADCR 称为关注色差分特征量ADCR。 式12
△ DGR= |DGRt—DGRt—A|/DGRt . ' . (12)
在式(12)中,DCRt(i)表示针对关注帧的关注色率。 DCRt-A,表示从关注帧起几帧前的帧的关注色率。即A与上 述的式(10)相同,是表示是否求出与几个帧以前的特征量的不 同的常数。
而且,镜头切换检测部13比较该关注色差分特征量ADCR 和预先设定的阈值T2,在关注色差分特征量ADCR大于阈值T2 的情况下(ADCR〉T2的情况下),检测为关注帧是镜头切换。此 外,不特别限定阈值T2,但是最好是采用从足球比赛等影像统 计求出的值。
与由以上的镜头切换检测部13执行的 一 系列处理对应的 方法,是由本发明人发明的镜头切换检测方法之一。下面将有 关方法称为关注色差分镜头切换检测方法。
此外,综合色特征差分镜头切换检测方法和关注色差分镜 头切换检测方法是分别独立的方法,因此只利用某 一 个就能够 检测镜头切换。但是,通过组合综合色特征差分镜头切换检测 方法和关注色差分镜头切换检测方法,将能够进行更正确的镜 头切换检测。
例如,图29中表示说明组合应用综合色特征差分镜头切换 检测方法和关注色差分镜头切换检测方法的情况的镜头切换检 测处理、即图2的步骤S3的详细处理的一例的流程图。
在步骤S21中,镜头切换检测部13将所输入的帧决定为关
算出针对关注帧的色差分特征量AH。
在步骤S22中,镜头切换检测部13判断色差分特征量AH是 否大于阈值T1(是否AH〉T1)。
在色差分特征量AH大于阈值T1的情况下,在步骤S23的处 理中判断为是,处理进入步骤S24。在步骤S24中,镜头切换斗企 测部13检测为关注帧是镜头切换。由此,处理进入步骤S30。 对于步骤S 3 0以后的处理将在后面说明。
与此相对,在色差分特征量AH是阈值T1以下的情况下, 步骤S23的处理中判断为否,处理进入步骤S25。在步骤S25中, 镜头切换检测部13算出针对关注帧的关注色率D C R 。
在步骤S26中,镜头切换检测部13判断关注色率DCR是否 大于50%(是否DCR〉50)。
在关注色率DCR小于等于50。/。的情况下,在步骤S26的处理 中判断为否,处理进入步骤S27。在步骤S27中,镜头切换检测 部13检测出关注帧不是镜头切换。由此,处理进入步骤S30。 对于步骤S30以后的处理在后面说明。
与此相对,在关注色率DCR超过50。/。的情况下,在步骤S26 的处理中判断为是,处理进入步骤S28。在步骤S28中,镜头切 换检测部13由上述式(12)的运算等算出关注色差分特征量 ADCR。
在步骤S29中,镜头切换检测部13判断关注色差分特征量 ADCR是否大于阈值T2(是否ADCR>T2)。
在关注色差分特征量ADCR大于阈值T2的情况下,在步骤 S29的处理中判断为是,在步骤S24的处理中检测为关注帧是镜 头切换。
与此相对,在关注色差分特征量ADCR小于等于阈值T2的 情况下,在步骤S29的处理中判断为否,步骤S27的处理中检测 为关注帧不是镜头切换。
由此,当步骤S24或者S27的处理结束时,即关注帧是否是 镜头切换的检测结束时,处理进入到步骤S30。在步骤S30中, 镜头切换检测部13判断关注帧是否是最后的帧。
在步骤S30中,当判断为关注帧不是最后的帧时,处理返 回步骤S21,重复其后的处理。
即对构成运动图像内容的各帧重复上述步骤S21至S30的 循环处理,对每个帧进行是否是镜头切换的检测。然后,当对 最后的帧进行是否是镜头切换的检测时,由步骤S 3 0的处理判 断为是是,镜头切换检测处理结束。即图2的步骤S3的处理结 束,继续执行步骤S4的镜头分类处理。
以上,参照图28和图29说明了图l的图像处理装置中的镜 头切换检测部13的详细例。通过采用这种镜头切换检测部13将 图像(帧)全体分别分割为能够对照相机的水平运动、人物的水 平运动以可靠的特征量记述的多个区域,通过使用各个区域内 的色分布特征、关注颜色的区域特征来进行高精度的镜头切换 检测,其结果是能够进行运动影像等解析中的元信息的自动提 供。
下面参照图30至图36说明图1的图像处理装置中的镜头分 类部14的i手细例。
即,作为上述镜头切换检测部13的镜头切换检测处理的结 果,运动图像内容被划分为多个镜头。因此,镜头分类部14将 这些多个镜头一个个分类到预先定义的l种以上的规定种类中。 此外,如后所述,这些种类也被称为镜头类型。
在本实施方式中采用了足球比赛影像作为运动图像内容
的情况下,作为最佳镜头的种类,例如定义了如图30所示的
"Long"、 "Medium"、 "Close-up"、 "0ut"四种。
如从图3 0的各采样图像那样可知,"L o n g "是指知道足球比 赛整体状况那样的镜头、即由比赛场区域和运动员等整体景观 构成的镜头种类。"Medium"是指以照相机变焦的状态使数名运 动员等存在于比赛场区域中的镜头种类。"Close-up"是指聚焦l 至2名运动员等从而能够识别其面部这样的镜头种类。"Out"是 指不包括比赛场区域的镜头种类。
图31表示了说明这种分类为4种中的某一种的镜头分类处 理、即图2的步骤S4的处理的详细例的流程图。
在步骤S51中,镜头分类部14将所输入的镜头设定为关注 镜头。
在步骤S52中,镜头分类部14判断在关注镜头中是否包括 关注区域、即在本实施方式中判断是否包括比赛场区域。
在步骤S52中,在判断为关注镜头中不包括关注区域的情 况下,镜头分类部14在步骤S53中将关注镜头的种类决定为 "0ut"或者场夕卜"Close-up"。其后,处理进入步骤S62。对于 步骤S62以后的处理将在后面说明。
此外,场外"Close-up"是指聚焦l至2名运动员等从而能够 识别其面部的镜头,是几乎不检测比赛场区域的镜头种类。在 其含义中,场夕卜"Close-up,,也能够包括在"Out"中,但是由于 在后述的重点;险测中,也能够利用从场外"Close-up"识别的面 部等,因此在此与"0ut"区别而记述。
与此相对,在关注镜头中包括有比赛场区域的情况下,由 步骤S52的处理判断为是是,处理进入步骤S54。
在步骤S54中,镜头分类部14算出针对关注镜头的关注区 域的投影特征量Ph、 Pv。
具体地说,例如镜头分类部14利用上述式(2)算出垂直方向 的H像素的各垂直方向投影特征量Ph(i)和水平方向的W像素的
各水平方向投影特征量Pv(j)。
并且,为了减少噪声的影响,镜头分类部14对垂直方向的 H像素的各垂直方向投影特征量Ph(i)实施低分辨率处理,成为 10个各垂直方向投影特征量Ph(i),另外对水平方向的W像素的 各水平方向投影特征量Pv(j)实施低分辨率处理,设为30个各水
平方向投影特征量Pv(j)。
而且,作为这种处理的结果,作为对关注镜头的关注区域 的各投影特征量Ph、 Pv会得到表示10个各垂直方向投影特征量 Ph(i)分布的特征量、和表示30个各水平方向投影特征量Pv(j)分
布的特征量。
即表示如上述图17的图表111-H所示的各垂直方向投影特 征量Ph(i)分布的特征量,是垂直方向投影特征量Ph的一例。换 言之,将构成比赛场区域的像素中具有比赛场区域颜色特征的 像素(除了对象的像素)投影到垂直方向的l线上的情况中的其l 条线上的分布的特征量,是垂直方向投影特征量Ph。
另外,表示如上述图17的图表111-V所示的各水平方向投 影特征量Pv(j)分布的特征量,是水平方向投影特征量Pv的一 例。换言之,将构成比赛场区域的像素中具有比赛场区域颜色 特征的像素(除了对象的像素)投影到水平方向的1线上的情况 中的其l线上的分布的特征量,是水平方向投影特征量Pv。
在步骤S55中,镜头分类部14判断基于对关注镜头关注区 域的投影特征量Ph、 Pv的特征是否是"Close-up"or "Medium" 型。
如果基于对关注镜头关注区域的投影特征量Ph、 Pv的特征 是能够将镜头种类进行分类的特征,则不特别限定,但是在此
设为采用图32的表中所示的特征。
另外,"Close-up"或"Medium"型是指关注镜头的类型被分 类为"Close-up"or "Medium"的类型。此外,后面说明的其它 类型也基本相同。
即,图32是表示对镜头的关注区域的投影特征量Ph、 Pv与 镜头种类关系的图。
图32的横轴的垂直投影特征(Vertical Projection Feature), 是表示对规定镜头实施与上述步骤S54的处理相同处理的结果 所得到的3 0个各水平方向投影特征量P v (j)中的最大值与最小 值之间的差分值。即以水平方向投影特征量Pv表示的分布的最 大值和最小值之间的差分值是垂直投影特征。
另 一 方面,图32的纵轴的水平才殳影特征(Horizontal Projection Feature),是表示对规定镜头实施与上述步骤S54的处 理相同的处理的结果所得到的10个各垂直方向投影特征量Ph(i) 中的最大值与最小值之间的差分值。即以垂直方向投影特征量 Ph表示的分布的最大值与最小值之间的差分值是水平投影特 征。
另外,在图32中,小星号的点表示对已知是"Long"的情 况的一个镜头实施与上述步骤S54的处理相同的处理并将其处 理结果描绘(plot)的点。小圆圈标记的点表示对已知是 "Medium"的情况的 一 个镜头实施与上述步骤S54的处理相同 的处理并将其处理结果描绘的点。小方框标记的点表示对已知 是"Close-up,,的情况的 一 个镜头实施与上述步骤S54的处理相 同的处理并将其处理结果描绘的点。
此外,所谓将与上述步骤S 5 4的处理相同的处理的结果描 绘在图32的表上,是指利用进行与步骤S54的处理相同的处理 的结果所分别得到的投影特征量Pv、 Ph来描绘的情况、具体地
说,将由水平方向投影特征量PV所表示的分布的最大值与最小 值之间的差分值作为横轴坐标,将由垂直方向投影特征量Ph所 表示的分布的最大值与最小值之间的差分值作为纵轴坐标,将 点描绘在图32的表格上。
作为对这种种类为已知的多个镜头的各描绘结果,区域
191中包括"Long,,或者"Medium"的镜头点。由此,在将上述 步骤S 5 4的处理结果描绘在图3 2的表格上的情况下,当该所描 绘的点被包括在区域191中时,可知关注镜头能够分类为 "Long,,或者"Medi腿,'。
此外,所谓将上述步骤S 5 4的处理结果描绘在图3 2的表上, 是指利用进行上述步骤S54的处理的结果所分别得到的投影特 征量Pv、 Ph来进行描绘的情况,具体地说,将由水平方向投影 特征量Pv表示的分布的最大值与最小值之间的差分值作为横 轴坐标,将由垂直方向投影特征量Ph表示的分布的最大值与最 小值之间的差分值作为纵轴坐标,将点描绘在图32的表中。
以下同样地,作为对种类为已知的多个镜头的各描绘结 果,区域192中包括"Long,,的镜头点。由此,在将上述步骤S54 的处理结果描绘在图32的表格上的情况下,当该所描绘的点被 包括在区域192中时,可知关注镜头能够分类为"Long"。
作为对种类为已知的多个镜头的各描绘结果,"Long"、 "Medium"、 " Close-up"的镜头点都被包括在区域193中。即, 在将上述步骤S54的处理结果描绘在图32的表中的情况下,当 该所描绘的点被包括在区域193中时,可知关注镜头的分类会困 难。换言之,可以说区域193是所谓灰色地带。
作为对种类为已知的多个镜头的各描绘结果,区域194中 包括"Close-up,,或者"Medium"的镜头点。由此,在将上述步 骤S54的处理结果描绘在图32的表中的情况下,当该所描绘的
点被包括在区域194中时,可知关注镜头能够分类为"Close-up" 或者"Medium"。
此外,虽然说区域193是难以分类为"Long"、 "Medium"、 "Close-up"的任何 一 个中的灰色地带,但实际上分类为"Long" 的情况很少,可以说是接近区域194的区域。因此,在此为了使 镜头种类的分类简便,在将上述的步骤S 5 4的处理结果描绘在 图32的表的情况下,当该所描绘的点被包括在区域193或者区域 194中时,关注镜头被分类为"Close-up"或者"Medium"。
即,在将上述的步骤S 5 4的处理结果描绘在图3 2的表中的 情况下,当该所描绘的点被包括在区域193或者区域194中时, 在步骤S55的处理中判断为是是,即基于对关注镜头的关注区 域的投影特征量Ph、 Pv的特征被判断为是"Close-up"或者 "Medium"型,处理进入步骤S56。
在步骤S56中,镜头分类部14判断对象特征是否是 "Close-up"类型。
在步骤S56中,在判断为对象特征是"Close-up"类型的情 况下,在步骤S57中,镜头分类部14将关注镜头的种类决定为 "Close-up"。其后,处理进入步骤S62。对于步骤S62以后的处 理将在后面说明。
与此相对,在步骤S56中,在判断为对象特征不是 "Clsoe-up"类型的情况下,即判断为对象特征是"Medium"类 型的情况下,在步骤S58中镜头分类部14将关注镜头的种类决 定为"Medium"。之后,处理进入到步骤S62。对于步骤S62以 后的处理将在后面说明。
即,所谓在步骤S55的处理中判断为是是的情况,是指关 注镜头能够分类为"Close-up"或者"Medium"的情况。
因此,这种情况下,在本实施方式中,根据由上述图l的
对象特征提取部12提取的对象特征,将关注镜头分类为
"Close-up"或者"Medium"。
这种情况下,由对象特征提取部12提取的对象特征存在各 种种类,可以利用任意一种,或者也可以将l种以上组合起来进 行利用。
例如在图33的例子中,作为对象特征利用了面部区域。即 从图像201检测面部区域211、 212,另 一方面从图像202检测面 部区域213。比4交面部区域211、 212和面部区域213,可知大小 分别不同。因此,将面部区域的大小作为特征量,可以将其特 征量大于阔值的类型定义为"Close-up"型,将其特征量小于等 于阈值的类型定义为"Medium"型。即,镜头分类部14能够将 包括大小超过阈值的面部区域的关注镜头决定为"Close-up", 另 一 方面将包括阈值以下大小的面部区域的关注镜头决定为 "Medium"。
另外,假如在由对象特征提取部12不进行面部区域的提取 的情况下,例如如果使用运动员运动服的颜色等来提取运动员 区域,则镜头分类部14能够利用其区域的宽度作为特征量来进 行"Medium"或者"Close-up"的分类。
这样一 来,在将上述步骤S54的处理结果描绘在图32的表 中的情况下,当该所描绘的点被包括在区域193或者区域194中 时,由步骤S55的处理判断为是是,由步骤S56至S58的处理将 关注镜头的种类决定为"Close-up"或者"Medium"。
与此相对,在将上述步骤S54的处理结果描绘在图32的表 中的情况下,当该所描绘的点被包括在区域191或者区域192中 时,由步骤S55的处理判断为否,执行以下的步骤S59以后的处 理,将关注镜头的种类决定为"Medium"或者"Long"。
即,在步骤S59中,镜头分类部14算出针对关注镜头的关
注区域中的背景除外区域的投影特征量Phl 、 Pvl 。
在此,背景除外区域是指在足球比赛图像中除去了表示观 众席部分等的背景区域的区域。具体地说,例如在图34的例子
中,对于足球比赛的图像231,比赛场区域241以外是背景区域。 因此,所谓足球比赛的图像231中的背景除外区域,是指在实线 251的下方,被虚线252、 253夹住的范围作为背景除外区域而采 用。同样地,对于足球比赛的图像232,比赛场区域242以外是 背景区域。因此,所谓足球比赛的图像232中的背景除外区域, 是指在实线254的下方,被虚线255、 256夹住的范围作为背景除 外区域而采用。
因此,对于这种背景除外区域镜头分类部14利用上述的式 (2)算出垂直方向的H像素的各垂直方向投影特征量Ph(i)和水平 方向的W像素的各水平方向投影特征量Pv(j)。
进而,镜头分类部14为了减少噪声的影响,对垂直方向的 H像素的垂直方向投影特征量Ph(i)实施低分辨率处理,成为10 个各垂直方向投影特征量Phl(i),另外对水平方向的W像素的水 平方向投影特征量Pv(j)实施低分辨率处理,成为30个各水平方 向投影特征量Pv(j)。
而且,作为这种处理的结果,会得到表示10个各垂直方向 投影特征量Phl(i)分布的特征量和表示30个各水平方向投影特 征量P v 1 (j)分布的特征量作为对背景除外区域的投影特征量 Phl、 Pvl。
因此,在步骤S60中,镜头分类部14判断基于针对背景除 外区域的投影特征量Phl、 Pvl的特征是否是"Meduim"类型。
即,当对被描绘在图32的区域191上的多个镜头分别使用 各背景除外区域而进行重新描绘时,如图36所示,"Long"的背 景除外区域的点被包括在区域191中的区域271中,另 一方面
"Medium"的背景除外区域的点被包括在区域191的区域272中。
由此,在将上述步骤S 5 9的处理结果描绘在图3 2和图3 6的 表中的情况下,当该所描绘的点被包括在区域272中时,由步骤 S60的处理判断为是是,即,判断基于针对背景除外区域的投 影特征量Phl、 Pvl的特征是"Medium"型,在步骤S58中将关注 镜头的种类决定为"Medium"。
与此相对,在将上述步骤S 5 9的处理结果描绘在图3 2和图 3 6的表格上的情况下,当该所描绘的点被包括在区域19 2 (图3 2) 或者区域271(图36)中时,由步骤S60的处理判断为否,即,判 断为基于针对背景除外区域的投影特征量Phl、 Pvl的特征是 "Long"型,处理进入步骤S61。在步骤S61中,4竟头分类部14 将关注镜头的种类决定为"Long"。
由此,当步骤S53、 S57、 S58、或者S61的处理结束时,即 关注镜头的种类决定为是"Out"、场外"Close-up"、 "Close-up"、 "Medium"、或者"Long,,时,处理进入步骤S62。
在步骤S62中,镜头分类部14判断关注镜头是否是最后的 镜头。
在步骤S62中,当判断为关注镜头不是最后的镜头时,处 理返回步骤S51,重复其后的处理。
即,对运动图像内容的各镜头分别重复上述步骤S51至S62 的循环处理,决定各镜头的种类。而且,当决定了最后的镜头 种类时,步骤S62的处理中判断为是是,镜头分类处理结束。 即图2的步骤S 4的处理结束,继续执行步骤S 5的重点检测处理。
以上,参照图30至图36说明了图l的图像处理装置中的镜 头分类部14的详细例。通过采用这种镜头分类部14,能够对各 种镜头类型使用关注区域内的射影特征(例如上述的投影特征
量Ph、 PV等)、其关注区域内、邻接区域中的对象特征,其结果 是能够进行高精度的镜头分类。
下面参照图37至图44说明图l的图像处理装置中的重点检 测部15的详细例。
图37表示用于由重点检测部15进行的重点提取的结构。如 图37所示,重点提取基本上是在三个层Layerl至Layer3中进行。
Layerl是指表示镜头间镜头类型的时间关联性规则、或者 对这种关联性规则的统计模型的层。在此,所谓的镜头类型是 指由镜头分类部14分类的各镜头的种类,例如在关于足球比赛 的本实施方式中,存在上述的图30所示的"Long"、 "Medium"、 "Close-up" 、 "Out,,4种。
例如,准备多个应该作为重点提取的已知是足球角球场景 的镜头组作为学习用图像,从这些多个学习用图像学习镜头类 型的时间推移的规则,如果预先存在表示其学习结果所得到的 规则的统计模型,则重点检测部14识别关于新输入的运动图像 内容的镜头类型的时间推移,例如识别如图11所示的镜头类型 的时间推移,在发现该镜头类型的时间推移与统计模型 一致或 者类似的镜头组的情况下,能够将该镜头组作为重点而提取。
Layer2是指表示构成规定的1个镜头的帧中具有含义的帧 间的时间关联性规则、或者对这种关联性规则的统计模型的层。
例如,准备多个应该作为重点提取的已知是足球角球场景 的镜头组作为学习用图像,从这些多个学习用图像学习构成一 个镜头的各帧的帧类型的时间推移的规则,如果预先存在表示 其学习结果所得到的规则的统计模型,则重点检测部M识别针 对运动图像内容的各镜头内的帧类型的时间推移,例如识别如 图IO所示的镜头类型的时间推移,在发现了与统计模型一致或 者类似的镜头的情况下,能够将该镜头作为重点的至少一部分
提取。此外,对于图10所示的"Upper Corner,,等帧类型,将参 照图42在后面iJL明。
Layer3是指根据帧内特征量进行对该帧添加含义的层。即, 表示使用由该Layer3添加含义后的帧所得到的规则、即帧间时 间关联性的规则的层,就成为Layer2。在此,作为帧内特征量 能够使用例如在本实施方式中采用与足球比赛有关的特征量, 例如图17至图27所述的各种对象特征、即由图l的对象特征提取 部12提取的各种对象特征。或者,在作为Layer2如上述的例子 那样利用了帧类型推移的情况下,可以将帧类型作为帧内特征 量捕捉。此外,帧类型可以根据由图1的对象特征提取部12所提 取的对象特征来决定而得到,参照图42在后面对此进行说明。 图3 8表示重点检测部15的详细的功能性结构例。 图38的例子的重点检测部15构成为包括学习部301至重点 才全测4卩306。
学习部301学习针对上述Layerl、 Layer2的规则,将其学习 结果所得到的统计模型保持在模型保持部302中。此外,参照图 40至图44在后面"^兌明学习部301的详细情况。
将来自图1的镜头类型分类部14的运动图像内容输入到 Layer 1特征量生成部303和Layer3特征量生成部304中。即输入 到Layerl特征量生成部303和Layer3特征量生成部304的运动图 像内容是以下这样的运动图像内容,其在图1中由关注区域提取 部11和对象特征提取部12对每个帧提取对象特征,由镜头切换 检测部13划分为多个镜头,进而这些多个镜头的各镜头类型由 镜头分类部14所决定。
因此,Layerl特征量生成部303生成用于进行Layerl中的重 点提取的特征量(下面称为Layerl特征量),并提供给重点提取 部306。
此外,Layerl特征量可以根据保持在模型保持部302中的 Layerl的统计模型形态而采用各种特征量。
具体地说,例如在提供将镜头类型的时间推移顺序、各镜 头类型设为各状态的状态迁移图等作为Layerl的统计模型的情 况下,能够将如图11所示的镜头类型的时间推移作为Layerl特 征量而采用。
另外,例如满足以下条件的情况是足球角球场景的模型
1) 存在规定范围内的"Long"镜头前的非"Long"镜头数的个数,
2) 非"Long"镜头的总计期间(长度)是规定范围内的长度。在提 供这种模型作为Layerl的统计模型的情况下,可以将能确定是 否满足这些条件l)、 2)的信息、即应该作为处理对象而关注的
"Long"镜头(下面称为关注"Long"镜头)前的非"Long,,镜头数、 以及非Long4竟头的总计期间(长度)的信息作为Layer 1特征量而 采用。
如上所述,Layer3特征量生成部304生成帧内对象特征、帧 类型这样的信息作为Layer3特征量,并提供给Layer2特征量生 成部305。
Layer2特征量生成部305生成用于在Layer2中的重点提取 的特征量(下面称为L a y e r 2特征量),并提供给重点提取部3 0 6 。
此外,Layer2特征量可以根据保持在模型保持部302中的 Layer2的统计模型形态而采用各种特征量。
具体地说,例如在提供镜头类型的时间推移顺序、如后述 的图44那样的状态迁移图等作为Layer2的统计模型的情况下, 可以采用如图IO所示的镜头类型的时间推移来作为Layer2特征 量。
另外,例如满足以下条件的情况是形成足球角球场景的1 个镜头的模型l)在几帧中观测到球门框、2)在球门框前未观
测到中央线、3)推移帧使得球门框从画面两侧向中央运动、以
及4)在镜头一开始未观测到角。在提供了这种模型作为Layer2 的统计模型的情况下,可以将能确定是否满足有关条件1)至4) 的信息作为Layer2特征量而采用。
重点提取部3 06将模型保持部302中所保持的针对Layer 1的 统计模型和来自Layerl生成部303的Layerl特征量进行比较,另 外,将模型保持部3 0 2中所保持的针对L a y e r 2的统计模型和来自 Layer2生成部305的Layer2特征量进行比较,对这些比较进行综 合判断,从而一是取重点。
图39是表示具有这种图38的功能结构的重点检测部15的 处理的 一 例、即图2的步骤S 5的重点#r测处理的详细例的流程 图。
但是,在图39的例子中,设为采用了 "满足第l条件的情况 下是重点"、以及"满足第2条件的情况下是重点"这样的内容的 模型作为模型保持部302中所保持的Layer 1和Layer2的各个统
计模型。
具体地说,例如在将足球的角球作为重点而提取的情况 下,如上所述,能够将以下条件作为第l条件而采用l)存在规 定范围内的"Long"镜头前的非"Long"镜头数的个数、2)非 "Long"镜头的总计期间(长度)是规定范围内的长度。
另外,例如如上所述,能够将以下条件作为第2条件而采 用l)在几帧中观测球门框、2)在球门框前未观测到中央线、 3)推移帧使得球门框从画面两侧向中央运动、以及4)在镜头的 一开始未观测到角。
这种情况下,在步骤S71中,Layerl特征量生成部303生成 关于运动图像内容的Layerl特征量。
在步骤S72中,Layer3特征量生成部304对运动图像内容中
的每个镜头生成针对镜头中的各帧的Layer3特征量。
在步骤S73中,Layer2特征量生成部305对运动图像内容中 的每个镜头生成Layer2特征量。
此外,在图39的例子中,为了方^^,步骤S72以及S73的处 理在步骤S71的处理之后执行,但是并不特别限定其处理顺序。 从图38的例子可知,由Layer 1特征量生成部303进行的步骤S71 的处理、和由Layer3特征量生成部304进行的步骤S72的处理、 以及由L a y e r 2特征量生成部3 0 5进行的步骤S 7 3的处理,是分别 独立并行执行的。
在步骤S74中,重点提取部306将运动图像内容的规定镜头
决定为关注4竟头。
在步骤S75中,重点提取部306对关注镜头判断Layerl特征
量是否满足第l条件。
在步骤S75中对关注镜头判断为Layerl特征量满足第l条件 的情况下,在步骤S78中,重点提取部306将关注镜头认定为是 重点的至少一部分。其后,处理进入步骤S79。对于步骤S79以 后的处理将在后面说明。
与此相对,在步骤S75中对关注镜头判断为Layerl特征量不 满足第l条件的情况下,在步骤S76中重点提取部306对关注镜 头判断Layer2特征量是否满足第2条件。
在步骤S76中对关注镜头判断为Layer2特征量满足第2条件 的情况下,在步骤S78中重点提取部306将关注镜头认定为是重 点的至少一部分。其后,处理进入步骤S79。对于步骤S79以后 的处理将在后面说明。
与此相对,在步骤S 7 6中对关注镜头判断为L a y e r 2特征量不 满足第2条件的情况下,在步骤S77中重点提取部306认定为关 注镜头不是重点。其后,处理进入步骤S79。
总结以上,当步骤S77或者S78的处理结束时、即关注镜头 是否是重点的认定结束时,处理进入步骤S79。
在步骤S79中,重点提取部306判断关注镜头是否是最后的镜头。
在步骤S79中,当判断为关注镜头不是最后的镜头时,处 理返回到步骤S74,重复其后的处理。
即,对构成运动图像内容的各镜头中的几个镜头适当重复 上述步骤S74至S79的循环处理,进行是否是重点的认定。然后, 当进行到最后镜头为止的认定处理时,由步骤S 7 9的处理判断 为是,处理进入步骤S80。
在步骤S80中,重点提取部306根据上述的认定结果提取重点。
这样一来,在图39的例子中,在Layerl特征量满足第l条件 的情况、或者Layer2特征量满足第2条件的情况下认定为是重 点。即作为重点的认定条件,在图39的例子中采用所谓OR条件。 但是,图39的例子仅仅是个例子,也可以采用其它认定条件, 例如所谓AND条件、即在Layerl特征量满足第l条件、且Layer2 特征量满足第2条件的情况下,认定为是重点的条件。
以上,参照图38和图39主要说明了以将统计模型保持在模 型保持部302中的情况为前提、从新的运动图像内容检测重点的 重点;险测处理。
下面参照图40至图44对这种统计模型的生成/更新处理进 行说明。
这种统计才莫型的生成/更新处理由图38的重点^r测部15中 的学习部301进行。图40表示这种学习部301的详细结构例。
在图40的例子中,学习部301构成为包括关注区域提取部 351至重点学习部358。
关注区域提取部351至镜头分类部354分别具有与图l的关 注区域提取部11至镜头分类部14基本上相同的结构和功能。另 外,Layerl特征量生成部355至Layer2特征量生成部357分别具 有与图1的重点4全测部15中的图38的Layerl特4i量生成部303至 Layer2特征量生成部305基本上相同的结构和功能。
即,在学习部301中,将应该设为重点的场景、例如足J求 角球场景的各种影像分别作为学习用影像输入到学习部301的 关注区域提取部351。由此,关注区域提取部351至Layer2特征 量生成部357分别执行上述的一系列处理。作为其结果,将针对 学习用影像的Layerl特征量和Layer2特征量输入到重点学习部 358。
因此,重点学习部358通过学习针对各种学习用影像的各 Layerl特征量,由此生成/更新针对Layerl的统计才莫型,并保持 在模型保持部302中。
具体地说,例如重点学习部358能够解析各镜头间的镜头 类型的关联性规则,求出形态迁移概率模型、例如如图41所示 的HMM(Hidden Markov Model:隐马尔柯夫才莫型),将其作为针 对Layerl的统计模型保持在模型保持部302中。此外,在图41 中,Slk(K是l至4中的任意一个整数值)表示HMM的各状态,分 别与规定的 一 个镜头类型、即在本实施方式中与图30的 "Long"、 "Medium" 、 " Close-up"、 " Out"中的任意 一 个对应。 即,将通过学习针对上述各种学习用影像的各Layerl特征量来 得到各状态的迁移(镜头类型迁移)的概率、其状态(对应的镜头 类型)的发生概率。
同样地,重点学习部358学习针对各种学习用影像的各 Layer2特征量,由此生成/更新关于Layer2的统计才莫型,并保持 在模型保持部302中。
也可以采用HMM作为关于这种情况的Layer2的统计模型, 另外还能够采用帧类型作为与这种HMM的各状态对应的类型。 不特别限定采用哪种帧类型,能够根据应该成为重点的场景, 由设计者以自由的思想决定
例如,在提取上述足球的角球作为重点的情况下,最好是 采用如图42所示的7个帧类型、即"Middel"、 "Goal Box"、 "Upper Corner"、 "Lower Corner"、 "Unknown"、 "Upper Goal"、 "Lower Goal"。
"Middle"是指包括中央白线371的帧类型。"Goal Box"是 指包括球门372、且不包括角位置373的帧类型。"Upper Corner" 是指不包括球门372、且角位置373存在于上方区域的帧类型。 "Lower Corner"是指不包括球门372、且角位置373存在于下方 区域的帧类型。"Unknown"是指不包括中央白线371、球门372、 以及角位置373中的任何一个的帧类型。"Upper Goal"是指包括 球门372 、且角位置373存在于上方区域的帧类型。"Lower Goal" 是指包括球门372、且角位置373存在于下方区域的帧类型。
这样的7个帧类型由图40的Layer3特征量生成部356对每个 帧决定。
具体地说,例如对象特征提取部352尝试从构成学习用影 像的各帧中将中央白线371、球门372、以及角位置373作为对象 特征分别提取。之所以记述为"尝试",是因为也有无法通过帧 进行提取的情况。例如无法从被分类为"Upper Corner"的帧中 提取球门372。
L a y e r 3特征量生成部3 5 6根据对象特征提取部3 5 2的提取结 果,将构成学习用影像的各帧分别分类为7个帧类型中的任意一 个,将这些分类结果作为Layer3特征量通知给Layer2特征量生 成部357。
此外,Layer3特征量生成部304可以构成为才企测各帧的帧类 型的识别器,例如使用了 SVM(Support Vector Machine:支持向 量机)等的分类学习、神经网络等的识别器。在这种情况下,识 别器的参数可以通过使用各个图像样本的统计学习来求出。
Layer2特征量生成部357生成形成足球角球的场景的至少 一部分的镜头内的各帧的帧类型时间推移作为Layer2特征量, 并提供给重点学习部358。
重点学习部358能够求出例如如图43所示的HMM,并将其 作为针对Layer2的统计模型保持在模型保持部302中。此外,在 图43中,S2m(m是l至8中的任意一个整数值)表示HMM的各状 态,分别与规定的l个帧类型、即在本实施方式中是与图42所示 6勺"Middle"、 "GoalBox"、 "Upper Corner"、 "Lower Corner"、 "Unknown", "Upper Goal"、 "Lower Goal"中的4壬^f 一个只十应。 即通过学习关于上述各种学习用影像的各Layer2特征量来得到 各状态的迁移(帧类型迁移)概率、其状态(对应的帧类型)的发生 概率。
具体地说,例如在得到了如图44所示的状态迁移图作为重 点学习部3 5 8的学习结果的情况下,能够将这种状态迁移图作为 针对L a y e r 2的统计模型保持到模型保持部3 0 2中。
以上,参照图37至图44说明图l的图像处理装置中的重点 检测部15的详细例。通过采用这种重点检测部15,能够实现根 据镜头类型间的关联性、帧间关联性的规则解析而设计的重点 检测方法,其结果能够容易地将运动图像内容内的各种场景作 为重点而3是取。
此外,上述的一系列处理可由硬件执行,也可由软件执行。 在由软件执行 一 系列处理的情况下,将构成该软件的程序从程 序记录介质安装到组装在专用硬件上的计算机中、或者通过安
装各种程序而可执行各种功能的例如通用个人计算机等中。
图45是表示通过程序执行上述一 系列处理的个人计算机
结构例的框图。即,可以如图45那样构成图l的图像处理装置的
全部或者一部分、例如几个功能模块。
在图45中,CPU(Central Processing Unit:中央处理单元)401 根据存储在ROM(Read Only Memory:只读存储器)402、或者记 录部408中的程序来执行各种处理。RAM(Random Access Memory:随机存取存储器)403中适当存储有CPU401所执行的 程序、数据等。这些CPU401、 ROM402、以及RAM403通过总 线404相互连接。
CPU401还通过总线404连接有输入输出接口 405。在输入输 出接口 405上连接有如下设备由键盘、鼠标、麦克风等构成的 输入部406,以及由显示器、扬声器等构成的输出部^入CPU401 根据从输入部406输入的指定来执行各种处理。然后CPU401将 处理结果输出到输出部407。
连接在输入输出接口 4 0 5上的记录部4 0 8例如由硬盘构成, 存储CPU401所执行的程序、各种数据。通信部409通过因特网、 局域网等网络与外部装置进行通信。
另外,也可以通过通信部409获取程序,存储在记录部408中。
当连接在输入输出接口405上的驱动器410安装有磁盘、光 盘、光磁盘、或者半导体存储器等可移动介质411时,驱动它们, 获取其中记录的程序、数据等。根据需要将所获取的程序、数 据转送、存储到记录部408中。
保存安装在计算机中、成为可通过计算机执行的状态的程 序的程序记录介质,如图45所示,由磁盘(包含软盘)、光盘(包 含CD-ROM(Compact Disk-Read Only Memory: 光盘只读存储
器))、DVD(Digital Versatile Disk:数字通用盘)、光磁盘、或者 由半导体存储器等构成的作为封装介质的可移动介质411、或者 暂时或永久保存程序的ROM402、构成记录部408的硬盘等构 成。根据需要通过作为路由器、调制解调器等的接口的通信部 409,利用所谓局域网、因特网、数字卫星广播的有线或者无线 的通信介质来进行向程序记录介质的程序的保存。
此外,在本说明书中,对保存在程序存储介质中的程序进 行记述的步骤,不仅包含沿着被记述的顺序按时间序列进行的 处理,而且包含即使未必按时间序列进行,而是并行或者单独 执行的处理。
另外,在本说明书中,系统表示由多个装置或电路构成的 整个装置或电路。
权利要求
1.一种图像处理装置,对能够划分为多个镜头的运动图像实施图像处理,其特征在于,具备保持单元,其使用多个由应该作为重点而提取的1个以上镜头构成的已知镜头组作为学习用运动图像,预先学习各镜头间关联性的第1规则、和1镜头内各帧间关联性的第2规则,将这些学习结果作为判别前述重点的判别模型而保持;以及提取单元,其从新输入的运动图像中将能够由前述保持单元中所保持的前述判别模型认定为是前述重点的镜头组作为前述重点而提取。
2. 根据权利要求l所述的图像处理装置,其特征在于, 基于前述第l规则的前述判別模型是将多个镜头类型作为各状态进行学习的结果所得到的时间序列模型,前述提取单元从新输入的前述运动图像中将能够由前述时 间序列模型认定前述镜头类型的迁移方式是前述重点的镜头组 作为前述重点而提取。
3. 根据权利要求2所述的图像处理装置,其特征在于, 前述时间序列模型是HMM,即隐马尔柯夫模型。
4. 根据权利要求l所述的图像处理装置,其特征在于, 根据前述第2规则的前述判别模型,其是将多个帧类型作为各状态进行学习的结果所得到的时间序列模型,前述提取单元,其从新输入的前述运动图像中将包括能够 由前述时间序列模型认定前述镜头类型迁移方式是前述重点的 镜头的镜头组作为前述重点提取。
5. 根据权利要求4所述的图像处理装置,其特征在于, 前述时间序列模型是HMM,即隐马尔柯夫模型。
6. 根据权利要求5所述的图像处理装置,其特征在于, 前述多个帧类型被根据可包括在帧中的l种以上的对象特 征分别进行定义,前述图像处理装置进一步具备特征提取单元,该特征提取 单元从构成新输入的前述运动图像的多个帧尝试提取前述1种 以上的各个对象特征,前述提取单元根据前述特征提取单元的提取尝试的结果识 別构成新输入的前述运动图像的多个帧的各个前述帧类型,根 据该识别结果提取前述重点。7. —种图像处理方法,是对能够划分为多个镜头的运动图 像实施图像处理的图像处理装置的图像处理方法,其特征在于, 包括如下步骤使用多个由应该作为重点提取的l个以上镜头构成的已知 镜头组作为学习用运动图像,预先学习各镜头间关联性的第1 规则、和1镜头内的各帧间关联性的第2规则,将这些学习结果 作为判别前述重点的判别模型而保持在前述图像处理装置中,从新输入的运动图像中将能够由所保持的前述判别模型认 定为是前述重点的镜头组作为前述重点而提取。8. —种程序,使计算机对能够划分为多个镜头的运动图像 实施图像处理,其特征在于,包括如下步骤使用多个由应该作为重点提取的l个以上镜头构成的已知 镜头组作为学习用运动图像,预先学习各镜头间关联性的第1 规则、和1镜头内的各帧间关联性的第2规则,这些学习结果作 为判别前述重点的判别模型提供给前述计算机,以此为条件,前述计算机从新输入的运动图像中将能够由所保持的前述 判别模型认定为是前述重点的镜头组作为前述重点而提取。
全文摘要
本发明提供一种图像处理装置和方法以及程序,一种用于更高效率地管理并处理影像内容的影像解析技术。例如,重点提取基本上在三个层Layer1至Layer3中进行。Layer1是表示镜头间的镜头类型的时间关联性规则、即表示这种关联性规则的统计模型的层。Layer2是表示构成规定镜头的帧中具有含义的帧间的时间关联性规则的层。Layer3是通过帧内的特征量对该帧进行含义添加的层。即,表示由该Layer3添加了含义后的镜头内的各帧关联性规则的层就成为Layer2。本发明能够应用在处理影像内容的领域中。
文档编号G06K9/46GK101114343SQ20071013056
公开日2008年1月30日 申请日期2007年7月16日 优先权日2006年7月14日
发明者吴伟国, 芦原隆之, 博 韩 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1