视频再现设备和视频再现方法

文档序号:7940883阅读:190来源:国知局
专利名称:视频再现设备和视频再现方法
技术领域
本发明涉及用于将视频记录在记录介质上的诸如数字摄像机之类的视频再现设备和视频再现方法,特别地,涉及例如用于再现以个人水平摄取的视频同时防止诸如视频 摇晃之类的不利影响的视频再现设备和视频再现方法。此外,具体地,本发明涉及用于进行再现同时抑制包括在所摄取视频中的横向摇 晃以防止观看者出现类似于晕船的症状的视频再现设备和视频再现方法,特别地,涉及用 于通过利用图像摄取记录时的脸部检测位置信息来抑制视频再现时脸部的横向摇晃的视 频再现设备和视频再现方法。
背景技术
近来,替代通过利用胶卷或照相底片来执行图像摄取的银盐相机,使图像经过数 字编码处理以供保存的数码相机已广泛普及。这种类型的数码相机通过固态图像摄取元 件来摄取图像,在固态图像摄取元件中,用于执行光电转换和累积的像素阵列的光接收单 元是由光电二极管构成的。固态图像摄取元件的例子例如可以是CCD(电荷耦合器件)、 CMOS(互不金属氧化物半导体)等。由数码相机摄取的图像例如按照诸如MPEG (运动图像专家组)之类的预定编码格 式被编码,并且此后被记录在记录介质中。此外,可以通过解码来再现并输出这种被记录的 图像。例如,这种被记录的图像可以通过安装在数码相机上的诸如LCD(液晶显示器)之类 的显示设备被再现,并且当记录介质被取出并被装载到另一再现设备中时则被进一步显示 和再现。或者,随着近来网络技术的发展,通过将数码相机连接到个人计算机或其它信息装 备,即使不对记录介质执行更换操作,也能够对从记录介质读出以被显示或再现的图像执 行数据传送。顺便提及,对图像摄取技术缺乏经验的个人常常由于操作不熟练而剧烈地移动相 机(例如,大幅度的相机摇晃),这变成在摄取运动图像时会被记录的视频摇晃。当然,大量 数码相机配备有相机摇晃校正功能,例如用于利用光学透镜执行校正的机械类型的相机摇 晃校正装置或者用于通过图像传感器上的图像处理来执行校正的电子类型的相机摇晃校 正装置。然而,不可能移除对较大摇晃的校正,并且所摄取视频的整体大幅地摇晃。如果观看包括摇晃的视频,则会出现导致晕视频(video sickness)的危险。当视 频摇晃被分类为横向摇晃和纵向摇晃时,横向摇晃是类似于晕船的现象。近来,即使在一般 的家庭中,也流行大画面的电视机,并且特别地,当观看大画面上的视频摇晃时,观看者往 往由于视频摇晃而晕视频。在摇晃特别严重的情况中,对人的身体产生了诸如呕吐或头痛 疾病之类的影响,这也是有关于视频安全的问题。在广播制作场合,准备了用于应对这种晕视频的视频创作手册。即,在广播站等中 的先前被控制的视频内容的情况中,提出了一种机构来作为广播系统,其中,在发送侧和接 收侧,通过经由指示不利影响视频的元信息来控制视频信号从而防止不利影响。就此而言, 难以对以个人水平摄取的视频进行调整,并且当以个人水平摄取的视频被再现并输出时,会出现导致晕视频的危险。例如,已提出了一种图像摄取记录再现设备,其中,当所摄取的运动图像被编码并被记录时,添加用于控制的再现控制信息,以便通过检测所摄取运动图像中的大幅摇晃来 减少当再现与大幅摇晃相对应的运动图像时的摇晃,并且当再现运动图像时,基于再现控 制信息来控制再现(例如,参见专利文献1)。然而,上述图像摄取记录再现设备被配置为由 于大幅摇晃被停止并变为静止而预先防止晕视频,而未被配置为在运动图像再现时从再现 画面校正视频摇晃本身。此外,已提出了一种运动图像记录设备和运动图像再现设备,其中,在记录运动图 像数据时,通过已知的图像处理来检测当前帧与前一帧之间的偏离量(包括偏离方向),该 偏离量被记录在一段运动图像数据的子头部(sub header)中作为相机摇晃信息,当再现运 动图像数据时,比原始运动图像数据的整体区域A小的用于相机摇晃校正的区域B被预先 设置,并且用于相机摇晃校正的区域B中的运动图像数据被从原始运动图像数据中切出以 被重新调整为预定图像大小(例如,参见专利文献2)。根据这种运动图像记录设备和运动 图像再现设备,在当前帧与前一帧之间的偏离量被检测作为图像偏离量时,即使可以从运 动图像数据中移除相机摇晃,也认为不能充分地移除脸部的水平摇晃。专利文献1 日本未实审专利申请公报No. 2007-134822专利文献2 日本未实审专利申请公报No. 2004-24817
发明内容
技术问题本发明的一个目的例如是提供优异的视频再现设备和视频再现方法,其中,在防 止诸如视频摇晃之类的不利影响的同时来再现以个人水平摄取的视频。本发明的另一目的是提供优异的视频再现设备和视频再现方法,其中,在对包括 在所摄取视频中的横向摇晃进行抑制的同时执行再现,以使得可以防止观看者出现类似于 晕船的症状。技术方案本发明是鉴于上面的问题而作出的,并且是一种视频再现设备,用于再现与按照 预定运动图像格式伴随的属性信息一起被记录在记录介质上的视频流,由从视频流检测到 的脸部的中心位置坐标构成的脸部检测位置信息作为属性信息被记录在记录介质上,该视 频再现设备的特征在于包括读取装置,被配置为从记录介质读取所记录的视频流以及属性信息;解码装置,被配置为对所读取的视频流进行解码;脸部摇晃校正装置,被配置为基于包括在属性信息中的脸部检测位置信息来预测 画面位移量,并且校正包括在视频流中的脸部摇晃;以及输出装置,被配置为输出脸部摇晃被校正之后的视频流。例如,常常由于操作缺乏经验等而在以个人水平摄取的视频中包括有视频摇晃。 在数字摄像机所摄取的视频由大画面电视机等再现的情况中,当摇晃得厉害的视频被观看 时,很容易因视频摇晃产生晕视频,并且对人的身体产生了诸如呕吐或头痛疾病之类的影 响,这也是有关于视频安全的问题。已提出了几种图像摄取记录再现设备,用于在存在不能通过相机摇晃校正功能充分移除的大幅视频摇晃的情况中预先防止晕视频,然而,不存在 用于防止由于脸部的横向摇晃引起的晕视频的再现设备或再现方法。与此相比,根据本发明,通过脸部检测技术来检测包括在视频中的脸部,由脸部的 中心位置坐标构成的脸部检测位置信息作为属性信息与所摄取的运动图像一起被记录,并 且在视频再现时通过利用所记录的脸部检测位置信息来校正脸部的横向摇晃。结果,即使 在用户在大画面电视机等上观看再现视频的情况中,也可以防止晕视频的发生。
根据本发明的视频再现设备再现例如以MPEG格式进行了编码的、记录在记录介 质上的视频数据。在MPEG格式中,当基于多个帧的图像生成一个画面时,将由多个帧构成 的、称为GOP的组作为一个单位来对待(众所周知的)。然后,由包括在所摄取视频中的被 摄体的所检测脸部的中心位置坐标构成的脸部检测位置信息被记录为GOP的属性信息。例 如,对于以0. 5秒为单位的每个G0P,由所检测脸部的中心位置坐标构成的脸部检测位置信 息作为属性信息被记录在流的属性信息单元中。此外,在视频再现时,根据本发明的视频再现设备对被记录作为属性信息的脸部 检测位置信息执行提前读取,以便以时间连续方式使其经过插值平均,并且对视频的再现 脸部摇晃校正执行控制。此时,再现图像在脸部中心坐标处被放大并被再现。如果所记录 视频是高清晰(HD)图像,则当放大到一定程度时,图像质量的恶化并不明显。当在再现时 读取被记录作为属性信息的脸部检测位置信息时,实现了较长时间的提前读取。因此,由于 随时间流逝的横坐标位置改变数据的时段长,可以通过读取来执行处理,使得以满意的精 确度来实现对脸部的横向摇晃校正。在再现开始时,获得图像精细质量模式和图像长宽比(aspect)模式。当再现包 括了所记录的脸部检测位置信息的视频时,由于针对大量GOP集体地读取了包括GOP流的 脸部中心位置坐标数据的GOP属性信息,因此,以场为单位创建了针对帧再现显示时间和 脸部中心位子坐标的快速一览表(quick reference matrix)(下面也称为“脸部位置信息 表”)。然后,针对脸部中心位置坐标,以GOP为单位来对缺少的时间插值,并且通过以帧为 单位的时间移动平均计算,使得画面中各个帧中的脸部检测中心位置的位移量经过时间轴 平均计算。当以预定放大率执行视频放大处理时,其中,偏移了画面中心的所检测脸部的中 心位置坐标被设为中心,通过以帧为单位向再现图像施加中心偏移放大处理,可以实现对 再现视频的横向校正。应当注意,当在针对再现视频流的再现流缓冲器生成读取更新请求的定时处集体 地读取视频流时,对再现中的脸部中心位置数据的读取更新被执行。此外,对脸部检测位置信息的读取更新请求被执行,并且以场为单位生成脸部位 置信息表,以使得可以通过利用关于GOP属性信息的相关表,来精确且平滑地执行对所检 测脸部的中心位置坐标以及脸部检测的存在与否的预测时间改变校正控制。技术效果根据本发明,例如,能够提供优异的视频再现设备和视频再现方法,其中,在防止 诸如视频摇晃之类的不利影响的同时来再现以个人水平摄取的视频。此外,根据本发明,能够提供优异的视频再现设备和视频再现方法,其中,在对包 括在所摄取视频中的横向摇晃进行抑制的同时执行再现,以使得可以防止观看者出现类似于晕船的症状。此外,根据本发明,能够提供优异的视频再现设备和视频再现方法,其中,通过利用图像摄取记录时的脸部检测位置信息,可以在视频再现时更好地抑制脸部的横向摇晃。根据本发明,通过利用对经编码视频音频流进行相机图像摄取记录再现时的属性 信息并通过流数据的提前读取处理,经过对脸部摇晃的精确预测以及对脸部的横向摇晃校 正,能够有效地防止再现视频中的人横向摇晃。例如,实现了对在再现由数码相机摄取的这 种个人视频时的横向摇晃的防止,并且可以使大画面电视机上的观看变得舒适。将从基于本发明的示例性实施例以及附图的下面的详细描述中清楚本发明的其 它目的、特征和优点。


图1示意性地示出了为本发明的实施例提供的图像摄取记录再现设备100的配置。图2A示出了 UDF文件系统的示例(在SD格式的情况中)。图2B示出了 UDF文件系统的另一示例(在HD格式的情况中)。图3示出了 DVD视频的数据结构。图4A示出了在人的右移位置处执行图像放大校正的状态。图4B示出了在人的左移位置处执行图像放大校正的状态。图5A示出了通过人脸摇晃分布与诸如眼睛和嘴巴之类的脸部部分的图案之间的 匹配来输出脸部中心位置坐标的状态。图5B示出了将脸部检测位置信息作为属性信息记录在流中的状态。图6A是用于描述针对读出从盘再现的每个VOBU(GOP)的属性信息的再现流控制 的示图。图6B示出了被读出并堆积在环形缓冲器上的脸部检测中心坐标信息数据组以及 与各个GOP的导入(lead-in)位置相对应的相应PTS列表信息数据。图7是用于描述再现时的位置信息读取序列的示图。图8是描述用于从再现脸部坐标转换脸部的横向摇晃校正参数的处理的示图。图9A是用于描述如下控制的示图其中,被保存为VOBU属性信息的搜索信息指定 了媒体上的位置信息以用于搜索流。图9B示出了这样的状态其中,累积在数据缓冲器中的VOBU数据被消耗用于再 现,并且当快用完时,下一 RUV数据被读取并被累积。图10是描述用于在从脸部中心位置坐标起经过了帧时间时取低频率横向位置改 变用于校正的控制的示图。图IlA是用于描述针对每场的脸部中心位置坐标的插值计算方法的示图。图IlB示出了存储有每场的位移量δ λ的表。图12是示出用于在执行视频流的记录操作时将脸部检测中心信息写入ARI数据 的过程的序列图。图13是示出了在再现视频流的操作中从ARI数据中读出脸部检测中心信息的过 程的序列图。
图14示出了通过脸部的横向摇晃信息与纵向摇晃信息的组合来执行摇晃校正的 状态。图15是示出用于利用脸部检测位置信息来校正画面摇晃同时执行基带再现视频 放大处理的处理过程的流程图。图16是示出了如下处理过程的流程图当利用脸部检测位置信息在画面横向上施加横向摇晃校正并且还利用风景水平检测位置坐标在纵向上施加纵向校正时,通过组合 它们两者来执行基带再现视频放大处理。标号说明100图像摄取记录再现设备101系统控制单元IOlA静止图像应用格式控制单元IOlB运动图像应用格式控制单元IOlC运动图像HD应用格式控制单元IOlD UDF逻辑文件系统单元IOlE闪速文件系统单元IOlF DVD/HDD驱动控制单元102视频音频输入输出接口102A脸部检测控制单元103编解码器单元103A静止图像编解码器单元103B运动图像编解码器单元
103C运动图像HD编解码器单元104闪存驱动器104A 接口104B CIS信息处理单元104C多路高速缓存104D存储器控制单元104E NVRAM 体105外部驱动器105A 主机接口105B设备信息记录单元
105C驱动器高速缓存105D存储器控制单元105E 盘106驱动控制单元107数据控制单元108程序存储器109 用户接口110PC输入输出接口
111时间数据单元
具体实施例方式下面,将参考附图详细描述本发明的实施例。图1示意性地示出了为本发明的实施例提供的图像摄取记录再现设备100的配 置。如图所示,图像摄取记录再现设备100例如执行数据记录操作,例如对经由视频音频 输入输出接口 102取得的视频音频流数据编码,将经编码数据记录到闪存驱动器104中,将 记录在闪存驱动器104中的数据拷贝到外部驱动器(DVD驱动器或HDD驱动器)105中;以 及数据再现操作,例如从闪存驱动器104或外部驱动器105读出数据、对读出的数据进行解 码处理并且经由PC输入输出接口 110进行画面输出。此外,这些操作实际上是根据经由用 户接口 109的使用操作而被激活的。下面,将描述图像摄取记录再现设备100的各个单元。系统控制单元101通过执行在程序存储器108上得到的程序来总体地控制整个相 关设备100的操作。由系统控制单元101执行的主要管理是针对视频音频流数据的文件格 式管理以及针对闪存驱动器104和外部驱动器105的文件系统管理。静止图像应用格式控制单元IOlA生成诸如文件头部之类的管理信息,用于将 经编码的静止图像数据转换为静止图像应用(AP)格式,例如JPEG(联合摄影专家组)、 JFIFQpeg文件交换格式)、Exif (可交换图像文件格式)、TIFT (标签图像文件格式)等。运动图像应用格式控制单元IOlB生成用于将经编码的运动图像转换为诸如MPEG 之类的运动图像应用文件的管理信息。具体地,当以MPEG格式编码的运动图像数据被输入 时,其被转换为符合DVD视频应用格式的文件组,并且在遵从UDF文件系统的情况下被存 储。运动图像HD应用格式控制单元IOlC生成用于将经编码的HD运动图像转换为诸 如H. 246之类的HD运动图像应用格式的管理信息。UDF (通用盘格式)逻辑文件系统单元IOlD遵从由OSTA (光存储技术学会)建立的 光盘格式UDF,以通过一般文件系统来执行诸如针对基于分组写系统的外部驱动器105 (然 而,应当注意,该情况是诸如DVD驱动器之类的光盘驱动器)的文件添加或删除之类的处 理。闪速文件系统(flash file system)单元IOlE是考虑到闪存驱动器104中的NVRAM(非 易失性RAM)体(bank) 104E的物理特性的文件系统,并且执行对闪存驱动器104的地址的 管理、碎片收集(garbage collection)、擦除次数的平均等等。DVD/HDD驱动控制单元IOlF 相当于外部驱动器105的设备驱动器,并且针对外部驱动器105执行记录、再现等。信息设备或AV设备(数字静止相机、数字摄像机以及用于静止图像或运动图像的 其它源设备)经由视频音频输入输出接口 102以有线或无线方式连接到图像摄取记录再现 设备100,并且静止图像数据或视频音频流数据的交换等被执行。根据本实施例,视频音频输入输出接口 102设置有脸部检测控制单元102A,并且 例如针对来自视频流数据的每个G0P,检测包括在视频中的物体的脸部中心位置坐标,以提 供给后一级中的运动图像编解码器单元103B,该视频流数据是从经由同一接口 102相连的 数字摄像机输入的。脸部检测控制单元102A可以基于已知的脸部识别技术,通过人脸摇晃 分布与诸如眼睛和嘴巴之类的脸各部分的图案之间的匹配,来检测脸部中心位置坐标。尽 管可以从由脸部检测控制单元102A检测到的脸部中心位置坐标来计算视频流中的视频摇晃,下面还是将给出细节。时间数据单元111是用于对当前时间进行计时的设备。根据本实施例,时间数据单元111将静止图像应用时间提供给静止图像编解码器单元103A并且将运动图像应用时 间提供给运动图像编解码器单元103B。编解码器单元103执行数目编码并且对经编码数据执行解码处理。静止图像编解 码器单元103A对从AV装备输入的静止图像数据执行编码,并且对经编码的静止图像数据 执行解码处理。运动图像编解码器单元103B对从AV装备输入的运动图像流数据执行编码, 并且对经编码的运动图像数据执行解码处理。运动图像HD编解码器单元103C对从AV装 备输入的运动图像HD执行编码并且对经编码的运动图像HD数据执行解码处理。根据本实施例,当对经由视频音频输入输出接口发送的视频流数据执行记录时, 运动图像编解码器单元103B针对每个G0P,记录由脸部检测单元102A检测到的脸部中心位 置坐标作为GOP的属性信息,同时与运动图像应用时间相关联。数据控制单元107累积经编码的视频音频数据以及与该视频音频数据有关的管 理信息,以便为记录开始做准备。驱动控制单元106例如遵从ATAPI (AT附属包接口)协议, 获取闪存驱动器104或外部驱动器105的内部驱动场信息以监视驱动媒体状态,并且根据 驱动媒体状态来指示媒体记录再现开始。驱动控制单元106执行对集体地记录RUV (记录 单位视频对象)的控制,其中,多个视频对象单位以包(packet)的形式被设置在媒体上,多 个视频对象单位将视频音频数据以GOP为单位存储为系统流。例如,当数十MB被累积时, 执行重复控制以集体地记录到盘105E上去。应当注意,在光盘中,RUV相当于单元(CELL)。 RUV或CELL是VOBU (视频对象单位)单位,其中,通过单次写操作来执行从缓冲器到记录介 质的集体写(collective write),或者通过单次读操作来执行从再现媒体到缓冲器的集体 读(collective read)0闪存驱动器104经由接口 104A连接到存储器控制单元104D。在CIS(卡信息结 构)信息记录单元104B中,记录了闪存驱动器104的数据格式、分区编组、厂商信息、设备 信息等。存储器控制单元104D将临时存储在多路高速缓存104C中的数据写到NVRAM体 104E中的相关存储器芯片(每个存储器芯片是用于记录数据的IC(集成电路)芯片)上去。外部驱动器105,例如主机接口 105A从驱动控制单元106接收遵循ATA规范的命 令。设备信息记录单元105B记录与设备驱动器有关的诸如型号之类的标识信息。存储器 控制单元105D对光学读取头(或磁头)执行位置控制以记录累积在驱动器高速缓存105C 中的数据,驱动器高速缓存105C是盘105E上的临时记录区域。例如,将DVD的最小记录单 位称为ECC(纠错码)块,并且1个ECC块为32K字节。当从用户接口 109指示对视频音频数据进行再现时,UDF逻辑文件系统单元IOlD 或闪速文件系统单元IOlE搜索相关流文件的起始扇区和结束扇区。驱动控制单元106指 示闪存驱动器104或外部驱动器105读出记录在起始扇区和结束扇区中的数据。接下来, 数据控制单元107将从外部驱动器105读出的数据输出给静止图像编解码器单元103A、运 动图像编解码器单元103B以及运动图像HD编解码器单元103C中的任一个。静止图像编 解码器单元103A对读出的经编码的静止图像数据进行解码,运动图像编解码器单元103B 对读出的经编码运动图像数据进行解码,并且运动图像HD编解码器单元103C对读出的运动图像HD数据进行解码。然后,经解码的数据经由视频音频接口 102被传送到外部装备以 输出到LCD(液晶显示器)、扬声器等(均未在图中示出)。PC,具有大画面的另一视频再现设备等利用诸如USB (通用串行总线)之类的线路 或者无线或光学通信接口连接到PC接口 110。当从用户接口 109指示对视频音频数据进行传送时,UDF逻辑文件系统单元IOlD 或闪速文件系统单元IOlE搜索相关流文件的起始扇区和结束扇区,并且驱动控制单元106 指示闪存驱动器104或外部驱动器105读出记录在起始扇区和结束扇区中的数据。然后, 读出的数据经由PC接口 110被传送到传送目的地处的装备。如上面已经描述的,UDF逻辑文件系统单元IOlD遵从UDF格式以通过一般文件系 统来执行诸如针对外部驱动器105的文件添加或删除之类的处理。UDF逻辑文件系统单元 IOlD构建了闪存驱动器104上的UDF文件系统。图2A示出了 UDF文件系统的示例(SD格式的情况)。图中所示的UDF文件系统 是目录树结构的文件系统,并且在紧邻根目录以下的层中生成了三个目录。运动图像应用 格式控制单元IOlB将经编码的运动图像数据转换为遵循MPEG格式的DVD视频应用格式的 文件组,以存储在紧邻根目录以下的目录“VIDE0_TS”中。遵循DVD视频应用格式的文件组 包括附有扩展名“IF”的管理文件以及附有扩展名“V0B”的数据存储文件,并且这些文件在 UDF文件系统上被管理。图2B示出了 UDF文件系统的另一示例(HD格式的情况)。紧邻根目录以下的 MODELCFG. IND文件是厂商固有定义文件和制造商定义的信息文件。此外,在紧邻根目录 以下的层中,生成了称为AVCHD、AVF_INF和DCIM的三个文件夹。在AVCHD目录中,进一 步提供了 BDMV文件夹,并且在BDMV文件夹中,记录了通过运动图像视频记录应用格式定 义的文件夹和文件组。INDEX. BDM是索引文件并且是用于登记和管理运动图像章节的文 件。M0VIE0BJ. BDM是由应用决定的文件,并且是用于登记和管理运动图像章节的文件。在 CLIPINF文件夹中,存储了点击信息文件(一种用于管理对运动图像章节内部流的访问的 文件)。在PLAYLIST文件夹中,存储了播放列表文件(一种用于管理对每种内容的运动图 像章节的访问的文件)。在STREAM文件夹中,存储了运动图像流文件。根据本实施例,由脸 部检测控制单元102A检测到的脸部检测位置信息被分散到由运动图像流绘制的影像中以 记录作为GOP的属性信息。在AVF_INF文件夹中,存储了用于支持用户操作的类别组登记 信息以及用于管理偏好信息的文件组。在DCIM文件夹中,存储了由静止图像记录应用格式 定义的文件夹以及静止图像摄取文件组。图3示出了 DVD视频的数据结构。光盘具有从半径中心朝向边缘的逻辑地址布置。 在该逻辑地址布置的导入(lead in)处,记录了 UDF的管理信息。在VMG中,写有整个盘的 管理信息。在VTSl至VTSn中,存储了一字幕。各个VTS由VTSI和VTSTT_V0BS构成。在 VTSI中,写有针对各个VTS的管理信息,并且在VSTT_V0BS中,存储了视频主体。VSTT_V0BS 是一组 VOB (V0B1... VOBn)。一个 VOB 由 255 个或更少数目的CELL (RUV) 组成。CELL由多个VOBU组成。VOBU的大小取决于再现时间。每个VOBU的再现时间是 0. 4 1. 0秒。根据本实施例,1个VOBU被设置为1个GOP (0. 5秒)。特殊地,最后的VOBU 的再现时间为1.2秒。VOBU 包括 NV_PCK、V_PCK、A_PCK 和 S_PCK 以及 ARI_PCK。NV_PCK 由用于存储与再现显示有关的管理信息的PCI以及用于存储与访问有关的管理信息的DSI组成。V_PCK存 储MPEG视频数据,A_PCK存储MPEG音频数据,并且S_PCK存储MPEG子影像数据。NV_PCK、 V_PCK、A_PCK和S_PCK被附加有运动图像再现时间管理信息,并且视频、音频和副影像被同 步再现。此外,在ARI_PCK中,存储有检测到的画面上的物体的脸部中心位置坐标,即脸部 检测位置信息,用于与再现时对脸部的横向摇晃校正有关的处理,将在下面的说明中描述 这方面的细节。构成了 VOBU的NV_PCK、V_PCK、A_PCK、S_PCK以及ARI_PCK都为2K字节。 这些文件由运动图像应用格式控制单元IOlB创建。接下来,将描述运动图像应用格式控制单元IOlB中的文件组生成处理。运动图像应用格式控制单元IOlB首先生成¥_ 0(4_ 0(和S_PCK。运动图像应用 格式控制单元IOlB使得输入的MPEG运动图像数据经过多元分离成为MPEG视频数据、MPEG 音频数据和MPEG副影像数据,并且将数据分别存储在均具有2K字节的V_PCK、A_PCK和S_ PCK中。此外,运动图像应用格式控制单元IOlB将由脸部检测控制单元102A检测到的脸部 检测位置信息存储在ARI_PCK中。运动图像应用格式控制单元IOlB在每当这些分组被生 成时更新相关的V0BU_TBL。V0BU_TBL累积针对分组的管理信息。然后,运动图像应用格式控制单元IOlB从V0BU_TBL生成NV_PCK或RDI_PCK,并且 将所生成的NV_PCK添加到V_PCK、A_PCK和S_PCK的头部以生成V0BU。此外,运动图像应用格式控制单元IOlB集中多个VOBU以生成一个CELL。运动图 像应用格式控制单元IOlB在每次生成CELL时更新VTS_TBL。VTS_TBL构成了 PGC(程序 链)。每个CELL被指派有唯一的ID编号。PGC指定CELL的再现顺序。将在PCG中具有 一个或多个连续编号的CELL集中起来,定义为一个程序。此外,将在PCG中具有一个或多 个连续编号的程序集中起来,定义为一个VOB。VOB可与“章节”相当,“章节”是用户访问视 频流的单位(用户可以针对每个章节来指示再现的开始和停止)。运动图像应用格式控制单元IOlB集中多个VOB以生成用于存储VOBU的文件。在 图2A所示的格式示例中,名为“VTS_01_*. V0B”(*是一个数字)的文件是用于存储VOBU的 文件。运动图像应用格式控制单元IOlB创建包括VTS_TBL的VTSI,并且生成用于存储 VTSI的文件。在图2A所示的格式示例中,“VTS_01_*. IF0”是存储VTSI的文件。运动图像 应用格式控制单元IOlB最后生成用于存储VMG的文件,在VMG中,集中了全部的管理信息。 在图2A所示的格式示例中,VIDE0_TS. IFO是用于存储VMG的文件。在根据本实施例的图像摄取记录再现设备100中,当所摄取的视频流从数字摄像机经由视频音频输入输出接口 102输入时,脸部检测控制单元102A以0. 5秒GOP为单位输 出从视频流中检测到的人物的脸部中心位置坐标,作为脸部检测位置信息。然后,当运动图 像编解码器单元103B对视频数据执行编码处理时,在由运动图像应用格式控制单元IOlB 指示创建的流属性信息(ARI_PCK)中设置脸部检测位置信息,以记录在闪存驱动器104或 外部驱动器105中。此外,在执行读取记录在闪存驱动器104或外部驱动器105中的视频流的情况中, 当由运动图像编解码器单元103B执行对视频流的解码处理时,运动图像应用格式控制单 元IOlB还指示从相关流属性信息(ARI_PCK)中获取脸部检测位置信息。然后,在图像放大再现时,基于脸部检测位置信息,可以执行对脸部的横向位置的校正,以使得被摄体的脸部位于所读取的再现视频的中心。结果,即使在通过大画面电视机等来观看再现视频的情况 中,也可以防止用户出现晕视频。应当注意,此外,在本申请以前,存在根据摄取视频进行脸部检测的技术,并且例 如,通常在相机控制单元中执行脸部检测。然而,脸存在与否仅仅被附随并用作运动图像再 现标题画面的章节属性信息,并且不存在用于通过基带视频处理对再现视频中的脸部进行 位置校正(脸部摇晃校正)的技术。图4示出了通过利用脸部检测位置信息来执行再现视频放大以及再现脸部横向 摇晃校正控制的状态。在该图中,示出了这样的示例,其中,特别地执行对物体的脸部位置 的左右校正。执行对脸部位置的左右校正的原因在于由于对人的视觉追随是左右追随,因 此,脸部的横向摇晃使得观看者有很强的错觉以致感觉到左右摇晃从而感到不舒服,通过 经由左右校正更好地移除横向摇晃,能够消除观看者的不舒适感。在再现开始时,获得图像精细质量模式和图像长宽比模式。脸部检测位置信息相 对于画面中心位置的偏移根据模式是HD的1920/1080还是SD的宽/正常(在记录时一律 为720像素)而变化。图4A示出了在人的右移位置处执行图像放大校正的状态。在当再现时原始图像 的脸部偏移到右边位置的情况中,检测脸部中心位置相对于画面中心位置也偏移至右边, 因此通过移除这种偏移,并且还通过经由基带视频处理以预定倍率使再现图像经过放大处 理同时将脸部检测中心位置设置为中心,从而使人的横向摇晃得到校正。此外,图4B示出了在人的左移位置处执行图像放大校正的状态。在当再现时原始 图像的脸部偏移到左边位置的情况中,脸部检测中心位置相对于画面中心位置也偏移到左 边,因此,类似地,通过移除这种偏移,并且还通过经由基带视频处理以预定倍率使再现图 像经过放大处理同时将脸部检测中心位置设置为中心,从而使人的横向摇晃得到校正。应当注意,由于人的身体在纵向上较长,并且在头部和肩部拍摄等的情况中,通常 不必将被摄体的整个身体包括在画面中,因为在一些情况中难以执行纵向摇晃校正。可构 想这样的方法,其中,如上所述,在脸部检测中心位置处校正横向摇晃,而在背景中心位置 处校正纵向摇晃。(当被摄体的脸部被摄取时,由于脸部在画面之外,因此避免了对轮廓的 剪切。与此相比而言,当人体被摄取时,由于常常通过头部和肩部拍摄来执行对人体的图像 摄取并且头部拍摄包括脸部,因此,不能通过整个人体的轮廓、纵向大小以及人影像中心的 位移看见人体纵向上的摇晃。)图5示出了执行脸部中心坐标信息到媒体的记录写控制的状态。如图5A所示,当视频流从数字摄像机等经由视频音频输入输出接口 102输入时, 如果通过肉体颜色检测以及人脸摇晃分布与诸如眼睛和嘴巴之类的脸部部分的图案之间 的匹配,检测到所检测脸部的中心位置坐标,则脸部检测控制单元102A将此作为脸部检测 位置信息输出给后一级的运动图像编解码器单元103B。在运动图像编解码器单元103B中,在记录时对运动图像流数据执行编码并且在 再现时执行数据解码,然而,根据本实施例,当脸部检测位置信息被用作GOP的属性信息 时,记录再现控制被执行。图5B示出了记录再现控制的状态。诸如相机图像摄取时的相机图像摄取信息数据之类的用户数据被记录在运动图像流中作为ARI信息(ARI是附加记录信息的简称)。从 脸部检测控制单元102A获得的所检测脸部的中心位置坐标是ARI信息中的相机图像摄取 信息的扩充数据之一。然后,当0.5秒的1个GOP被创建为记录IVOBU时,包括所检测脸部 的脸部检测标志和中心位置坐标数据的脸部检测位置信息被添加到VOBU属性数据(参见 图3)中并且记录在诸如盘之类的记录介质上。图6图示出了在运动图像数据时获得脸部检测位置信息时对脸部摇晃校正的控 制。
图6A图示出了用于从盘进行再现并读出每个VOBU(GOP)的属性信息的再现流控 制。如图6A所示,ARI数据被记录并且存在于VOBU信息中,并且在运动图像再现时执行读 取。例如,将名称设为“MNFI数据”。每次读取附加到VOBU的ARI数据时,MNFI数据中的 脸部检测位置信息就被累积在环形缓冲器中以用于再现脸部位置校正。环形缓冲器的大小 是针对128个VOBU的。这里,通过集体地读出容纳在称为RUV的缓冲器大小中的数据量的处理,连续流 中的多个VOBU被集体地读出。在图像摄取时被摄体被移动的情况中,其大小为缓冲器大 小,并且即使在其它情况中,由于再现搜索控制,读取也受到128个VOBU的最大数目的限 制。图6B示出了被读取并被堆积在环形缓冲器上的脸部检测位置信息组以及与各个 GOP的导入位置相对应的相应PTS(呈现时间戳)列表信息数据。与GOP的导入位置所对 应的PTS的列表信息数据上的时间信息一起,相对应的脸部检测位置信息经过基带视频处 理。在基带视频处理中,通过在将脸部检测位置信息设为中心的同时以预定的指定倍率对 图像进行放大伸缩再现,能够执行用于校正每帧的再现图像的横向摇晃的处理。图7图示出了再现时的位置信息读取序列。然而,应当注意,同一附图中的“上位 (upper level) ”相当于被指派给用户操作接口的软件层,主要用于处理用户操作,记录、再 现和编辑的开始和结束,编辑点的指定,以及章节内容的编号和时间。此外,“下位(lower level) ”相当于实际上用于如下操作的软件层控制对记录媒体的访问并且控制视频编解 码器上的编码和解码处理,根据记录格式对数据进行数据缓冲并且写入记录媒体,以及根 据记录格式从记录媒体读取并缓冲数据并且发送到视频编解码器。PTS从RUV被读取,RUV是经由流再现数据库从系统文件中读取的。在上位层的处 理中,假定地,在记录时,在一些情况中以时间离散方式来保存数据库。然而,其中,不存在 可以应对可变长度的视频音频流的搜索信息,并且通过估计出的计算来对上位进行估计, 并且仅可以指定近似的时间位置。在脸部索引(index)功能(Face)的情况中,由上位适当指定的PTS的数据库的创 建方法是登记从AVCon接收到的PTS (相当于控制块,用于在记录期间控制运动图像编解码 器单元103B/103C中的编码解码硬件以及时间信息)(在对运动图像进行编码解码控制时, 由于诸如解码时间戳和再现显示时间戳(PTS)之类的时间信息必须彼此匹配,因此可以从 其获得时间信息)。这里提到的脸部索引具有如下功能当在运动影像图像摄取中新检测 到脸部时,对用作脸部索引的缩略图进行索引登记,并且在再现时,布置并显示多个用作脸 部索引的缩略图。在再现控制侧,接收PTS估计值,并且包括其的附近的RUV被访问以累积在再现读取缓冲器中,并且同时,相关VOBU编号的真实PTS被获取并且作为位置信息。如果先前的 再现一直停止,则由于继续信息(resume information)被临时保存在易失性存储器上,因 此,实现了从该位置起的精确再现。在继续信息不存在的情况中,则执行控制,其中,通过接 收在上位处指定的虚拟PTS时间位置,周围的数据被集体地读取以便开始。然后,在附近找 到靠近指定PTS的那个(VOBU)以开始再现。这里提到的“靠近指定PTS的那个”是指被指派给用户操作接口的上层软件通 过时间来指定再现位置,并且相比而言,在下位处的运动图像编解码器单元103B/103C以 及运动图像应用格式控制单元101B/101C中,从媒体读到缓冲器中的经编码流中所包括的 PTS信息被取出,并且与在上位层中指定的再现指定时间最接近的PTS信息被选择(因为上 位层不用于直接控制包括在媒体中的经编码流并且不能直接指定流中的PTS)。当在上位层 中指定再现时间时,首先,以抽象的方式根据在上位中保存的持续时间(Duration)来执行 计算,以指定所假定的PTS。当从上位层接收到所假定的PTS时,下位层读出MAVI (M2PS)、 NV_PCK (DVD)以及MD_PCK (AVCHD),以拾取与从上位接收到的并且被指定用于应用的PTS接 近的VOBU。同样,根据本实施例,执行如下控制,其中,由再现所指定的帧的PTS时间信息以 及相应的脸部检测位置信息被作为组来对待。
如图8A所示,可以利用xy画面坐标系统通过脸部中心位置坐标(xs,ys)和脸部大 小(x。,y。)来在再现画面上表示脸部检测框(然而应当注意,坐标值是以像素为单位来表示 的)。脸部中心位置(xs,ys)是从记录在ARI_DATA中的脸部检测位置信息计算出的,并且 脸部大小(χ。,yc)可以从脸部检测画面帧大小计算出来。脸部中心位置(xs,ys)和脸部大 小(χ。,yc)是再现脸部摇晃校正所需的参数。当运动图像经受放大再现处理时,在脸部中心位置坐标被设为中心的一些情况中 不能简单地执行放大,而需要校正处理。例如,如图8B左边所示,该情况是在将脸部中心 位置坐标设为中心的同时执行放大时,在画面放大之后,脸部检测框的一部分超出了再现 画面的显示范围。在这种情况中,通过向脸部检测框被放入画面内的一侧的位置处提供用 于位移校正的左右宽度限制来执行控制,从而防止异常的再现脸部摇晃校正。如图8B的右 边所示,执行了用于校正脸部中心位置坐标的处理,其中,在放大再现画面的显示范围中, 将脸部检测框的各条边修改到与放大再现画面的显示范围的各条边接触的位置处,并且脸 部检测框刚好被放入放大再现画面的显示范围中。假设脸部检测框是包括整个脸部的框。 因此,如果脸部框坐标刚好被放入放大再现画面的范围中,则脸部框内的整个脸部也刚好 被放入放大再现画面中,从而在不剪裁脸部的情况下执行了更适宜的显示。根据本实施例,在视频再现时,对脸部检测位置信息执行提前读取,脸部检测位置 信息被记录为将经受时间连续方式的插值平均的属性信息,并且对视频的再现脸部摇晃校 正执行控制。如果所记录的脸部检测位置信息在再现时被读取,则实现了较长时间的提前 读取。因此,由于随时间流逝的横坐标位置改变数据的时段长,可以通过读取来执行处理, 使得以满意的精确度来实现对脸部的横向摇晃校正。图9A图示出了这样的控制,其中,被保存为VOBU属性信息的搜索信息指示出媒体 上的位置地址以用于流搜索。搜索信息指示了 VOBU以及媒体上的地址位置,并且是通过 RUV读取获得的。为了提示通过针对包括在VOBU中的GOP (也可以使用1G0P、2G0P等)执行位置搜索而指定的VOBU,搜索信息被使用。然而应当注意,即使在对运动图像流编码之后 比特速率较低并且数据大小小于缓冲器存储容量大小的情况中,也不会将搜索信息保存无 限长的时间,并且作为V0BU,可以针对最大数目的128个VOBU来执行搜索,并且VOBU的最 大数目的搜索信息表被保存。IRUV Max是128到120个V0BU,或者20MB (然而应当注意, 当20MB被用于RUV缓冲器大小的情况)。在正常的运动图像摄取中,由于被摄体视频包括 细微部分的信息,并且还存在移动,因此,即使在编码之后,大小也不会被如此压缩,并且不 会达到128个V0BU,同时不会达到缓冲器大小的上限。当通过再现控制单元读取VOBU视频音频流的流属性、计时器信息等时,VOBU的视频音频属性信息表基于搜索信息被构建。这里,包括在ARI数据中的脸部检测位置信息也 针对每个VOBU被集体地获得。从再现开始起从数据中读取VOBU数据以累积在数据缓冲器中,然而,不久,VOBU 数据就在再现时被消耗。当数据缓冲器中的VOBU数据快用完时(例如,剩下大约10V0BU 或更少),如图9B所示,生成读取更新请求,并且读取并累积下一 RUV数据。在该附图中,还 给出了当数据缓冲器的上限被设为128V0BU或18MB时的描述。图10图示出了如下控制在从脸部中心位置坐标起经过了帧时间时取低频率横 向位置改变用于校正。在再现开始的时刻,为了给搜索做准备,多达128个VOBU被预先读 取以累积在数据缓冲器中。即,当在数据被预先读取到缓冲器中之后执行再现时,包括在预 先被读取的数据中的脸部中心位置坐标的时间改变也可以被预先预测。脸部检测位置信息从ARI数据中被获取,与VOBU —起作为属性信息。对于ARI数 据中的脸部检测位置信息,实际上,相对于每0. 5秒的帧来从盘媒体获取不连续的位置数 据。此外,当被摄体位移到画面区域之外时,脸部丢失,因此还可能存在未检测到脸部的时 段。当以RUV为单位将大量VOBU提前读取到缓冲器中时,平滑被执行,同时帧插值(用于 脸部检测位置信息不存在的区段的插值)以及可靠的将来预测位置被获取,可靠的将来预 测位置是在脸部检测位置信息的不连续画面上以0. 5秒为单位的坐标改变(即,检测到的 被摄体的脸部的中心位置坐标),从而通过对将来预测位置的预先准备实现了高效的横向 摇晃校正,而不会感到视觉上的不舒适。当被摄体的检测脸部中心位置针对每个GOP位移时,在再现画面上执行对脸部的 锯齿状横向摇晃校正。根据上面的描述,使每场的坐标经过插值计算以增加坐标信息量从 而平滑地跟随。图11图示出了用于每场的脸部中心位置坐标的插值计算方法。在图IlA 中,纵轴表示以视频帧为单位的再现视频显示时间的时间轴,横轴表示相应画面上的检测 脸部中心处的横向位置坐标。阵地每个VOBU获得放大再现的脸部中心位置。在基带视频 处理中,使从各个VOBU读取的脸部检测位置信息的水平位移位置经过时间平滑,以设置为 经过放大再现的脸部的横向中心位置。根据每一 GOP (0. 5秒)的脸部中心坐标的两点,计算出1场的位移量(NT = 15, PAL= 12)。然后,最大位移限制量的范围被提供,并且在脸部中心坐标的可移动范围的限 制中,通过可针对每场进行划分的移动平均计算,计算出脸部中心位置坐标的位移量。在图IlA所示的示例中,第一 GOP的脸部中心位置被设为点A,下一 GOP的脸部中 心位置被设为点B,并且第三GOP的脸部中心位置被设为点C,这些位置是分别属于每0. 5 秒读取的VOBU的ARI数据中的脸部检测位置。然后,各个点之间的间隙是由在NTSC中具有15帧并且在PAL中具有12帧的显示时间轴构成的视频帧。这里,用于在以线性的直线方式使A点、B点和C点保持原状的同时将坐标指派给 各个帧时间的计算方法很简单,然而在校正操作中,在画面横向上通过视觉每0.5秒不连 续地确定校正量用于校正,因此不会实现平滑的横向摇晃校正,这是令人不满意的。与此相反,例如,可通过NTSC或PAL中的场数进行划分的0. 5秒被均等地划分为 3等份,在时间间隔中设置两个点,附加给时间前后双向移动平均数的加权系数被获得以执 行平滑,从而取代以GOP或VOBU为单位,而以帧为单位平滑地实现了横向位置校正。根据 下式来计算每一场的位移量δ λ。[式1]<formula>formula see original document page 17</formula>
在上式中,Ngop是GOP中的帧的数目(在NTSC中为15,在PAL中为12),Kave是加 权相加平均的归一化系数。从A到B针对每一 δ ,获取每场的脸部中心坐标位置,从而创建出图IlB所示 的表。通过在基带再现视频放大处理时提供此信息,并且经由坐标中心处的放大处理显 示,有效地校正了脸部的横向摇晃和纵向摇晃。图12是示出用于在执行视频流的记录操作时将脸部检测中心信息写入ARI数据 的过程的序列图。在记录视频流时,建立了这样的状态通过上位处的记录控制来开始记录。此时, 通过控制数据缓冲器而进行编码的编解码器单元103在每当0. 5秒的VOBU被创建时就向 上位发出相机信息更新请求。通过响应于该请求的记录属性控制,相机图像摄取信息分开地从相机块被获取, 伴随着图像摄取的诸如时间和视频信号之类的视频流的VOBU属性信息被提供给编解码器 单元103,并且对视频流的编码在编解码器单元103中执行。然后,为了写ARI信息,相机数据被提供,并且ARI相机数据被创建并更新。在图12所示的序列图上,图示出了这样的操作其中,在被提供作为来自相机的 图像摄取数据的信息未以所希望格式被提供给记录再现时,通过记录控制,来取代设置脸 部位置坐标的处理,并且在记录时针对每个VOBU执行信息更新操作,以用于将作为相机图 像摄取属性信息的ARI数据添加到所摄取的视频流中作为属性信息。图13是示出了在再现视频流的操作中从ARI数据中读出脸部检测中心信息的过 程的序列图。当视频流再现开始时,在执行了如下操作之后开始视频流数据的再现解码 再现显示设置再现速度(正常再现为xl速度),设置视频系统的HD(1920/1080)或 SD (720/712/352等)(类型取决于横向像素大小的差异)、用于累积作为运动图像再现属性 信息的RUV的流缓冲器的累积上限值和下限值、以及流搜索地址的列表的级数,设置解码 信息列表的级数和上下限,并且设置视频音频再现信息表的级数以及上下限。一系列的多个VOBU以RUV为单位被集中起来以从记录介质读出,从计数器数据中 生成由小时、分和秒构成的时间信息以输出作为时间显示数据,并且在上位单元的再现控制中,执行用于视频输出控制的诸如OSD(屏上显示)之类的字符显示或图形显示。这里提 到的上位单元相当于被指派给用户操作或接口的软件层(如上所述)。然后,根据ARI数据的列表,分析ARI信息以获得第一 VOBU数据。上面的描述是直到在视频流再现开始时包括在ARI数据中的脸部检测中心坐标 位置被获得为止的过程。在视频流的再现期间,编解码器单元103在解码再现时消耗累积在其自身的缓冲 器中的V0BU,并且当VOBU数据累积量在所设定的下限之下时,编解码器单元103从记录介 质中集体地读出下一 RUV,并且此外,对于再现属性控制,向数据控制单元107提供对视频 再现信息消耗的通知以及再现信息更新请求。响应于该请求,作为再现属性控制,当前从编解码器单元103再现的VOBU计数器 数据被获得,并且作为HMS显示时间控制,HMS(小时、分和秒)时间值被更新,以输出数据 值。在上位处的再现控制中,HMS更新后的值被用作画面的再现时间前进显示值。此后,系统控制单元101分析用于再现属性控制的ARI信息,以设置并更新ARI数 据。当经由视频音频输入输出接口发送来的视频流数据的再现被执行时,运动图像应用格 式控制单元IOlB利用运动图像编解码器单元103B,并且将由脸部检测单元102A检测到的 每个GOP的脸部中心坐标位置信息与ARI中的运动图像应用时间相关联地记录作为GOP的 属性信息。这里,如果ARI具有值改变并且需要更新,则进入更新处理。此外,ARI信息更 新处理根本不需要并且与先前的VOBU相匹配,其在按原样保持值而不进行更新的同时,待 命直到下一更新场合为止。如果相机图像摄取信息数据即使具有一部分信息更新,则执行ARI数据的更新。 例如,在所检测脸部的中心位置坐标被水平位移并改变的情况中,利用该信息来更新ARI 数据以输出用于上层处的再现控制。这里,在系统控制单元101中执行的视频音频应用格式控制中,存在这样的情况, 其中,可以通过经由视频编辑将预定VOBU数据区段设为非显示来执行对视频的中间部分 删除,因此需要应对此的处理。即,作为针对与此相对应的ARI信息分析的控制,在再现流 数据通过应用格式控制从再现显示属性转变为再现非显示属性的状态中,即使当从原始视 频流的VOBU读取的ARI数据具有差异时,也可通过持续保存而不执行针对ARI的更新控制 来进行应对。此外,当视频流的显示属性为显示非显示属性时,不对ARI数据进行更新控 制。此外,在从视频流的非显示区段转移到显示区段的定时之后,如果ARI数据的内容中存 在不匹配,则执行更新以输出ARI数据用于上位处的再现控制,从而信息被更新。在再现控制中,该信息被提供用于基带再现视频放大处理,并且通过坐标中心处 的放大处理显示(参见图4),画面的横向摇晃和纵向摇晃得到有效地校正。图14示出了通过脸部的横向摇晃信息与纵向摇晃信息的组合来执行摇晃校正的 状态。如上面已经描述过的,画面的横向摇晃信息是基于脸部检测位置信息获得的。此 夕卜,纵向摇晃信息是基于从脸部检测位置信息以外的信息(另一类型的被摄体)获得的图 像位置坐标来获得的。从脸部以外的被摄体获得纵向摇晃信息的原因在于脸部是身体的 一部分,因此在一些情况中难以辨别其上下移动以及位置(如上所述)。此外,作为人的一 种视觉特性,希望对脸部执行横向摇晃校正,然而对于纵向摇晃,在一些情况中,希望基于对主宰整个画面的风景背景中的更轻缓纵向摇晃的检测来执行校正。图14以如下状态为例其中,在人跳跃移动的情况中从视频流校正画面摇晃。在图像摄取时,通过相机控制单元的被摄体位置检测控制,脸部检测中心坐标通 过水平坐标被获得。此时,背景水平线垂直位置摇晃和倾斜信息数据通过垂直坐标被获得, 以与视频流一起记录在记录介质上。此外,在再现时,通过脸部检测位置信息在画面横向上施加横向摇晃校正,而且, 通过风景水平检测位置坐标在垂直方向上施加垂直校正,通过将它们组合,基带再现视频 放大处理被执行,并且通过坐标中心处的放大处理显示,横向摇晃和纵向摇晃两者得到有 效地校正。图15以流程图格式示出了用于利用脸部检测位置信息来校正画面摇晃以执行基 带再现视频放大处理的处理过程。在记录时,假设包括脸部检测位置信息的属性信息与视 频流一起也被记录在记录介质上。作为针对视频流数据和属性信息的读取处理,首先,IRUV的视频流数据以及相对 应的属性信息从记录介质被读取。此时,脸部检测位置信息的数据串从IRUV时段期间的属 性信息中被获取,并且其中写有与读出的视频流的各个帧再现时间相对应的脸部检测位置 信息的脸部位置信息表被创建(步骤Si)。然后,IRUV的数据被集体地写入缓冲存储器(步骤S2)。针对每个RUV重复执行上面的处理。此外,在基带中对属性信息的处理中,作为脸部位置计算处理,修改之后的脸部位 置信息表被创建,其中,伴随着跨越时间轴的视频的GOP的脸部位置信息表上的属性信息 被集体地提前读取,作为存储器上的由多个GOP构成的RUV,并且通过时间的加权移动平均 计算来执行平滑计算(步骤Sll)。然后,对于再现画面上的脸部摇晃校正,在直到对当前IRUV数据的处理被完成时 为止的时段期间(步骤S13 否),与再现显示时间相对应的修改之后的脸部位置信息被顺 序地输出(步骤S12)。此外,对基带中的再现图像的输出控制处理首先被控制为进入静音状态(步骤 S21),然而当使得累积在缓冲存储器中的IRUV的视频流数据经过解码处理后,其被载入存 储器的预定地址位置处(步骤S22)。然后,当通过PTS提供再现图像显示时间,并且获得相对应的脸部检测位置信息 时,对基带中的再现图像的输出控制处理通过使用脸部位置作为中心来提取与再现显示时 间信息相对应的存储器上的再现图像视频(步骤S23),再现图像通过放大的缩放而被输 出,并且施加了脸部摇晃校正的再现图像被输出(步骤S24)。在直到完成对当前IRUV数据的处理为止的时段期间重复执行上面的处理(步骤 S25 否)。此外,图16以流程图格式示出了如下处理过程当利用脸部检测位置信息在画面横向上施加横向摇晃校正并且还利用风景水平检测位置坐标在纵向上施加纵向校正时,通 过组合它们两者来执行基带再现视频放大处理。在记录时,也假设包括脸部检测位置信息 的属性信息与视频流一起被记录在记录介质上。作为针对视频流数据和属性信息的读取处理,首先,IRUV的视频流数据以及相对应的属性信息从记录介质被读取。此时,脸部检测位置信息的数据串从IRUV时段期间的属性信息中被获取,并且其中写有与读出的视频流的各个帧再现时间相对应的脸部检测位置 信息的脸部位置信息表被创建,并且还从水平线信息的数据串中创建与各个再现时间相对 应的背景水平线的画面垂直位置信息表(步骤S101)。然后,IRUV的数据被集体地写入缓冲存储器(步骤S102)。针对每个RUV重复执行上面的处理。此外,在基带中对属性信息的处理中,作为脸部位置计算处理,修改之后的脸部位 置信息表被创建,其中,上述脸部位置信息表从存储器被集体地获取,并且通过第一次加权 移动平均计算来执行平滑处理。此外,背景水平线的画面垂直位置信息从存储器被集体地 获取,并且通过第二次加权移动平均计算执行了平滑处理的、修改之后的画面垂直位置信 息表被创建(步骤Sl 11)。然后,对于再现画面上的脸部摇晃校正,在直到对当前IRUV数据的处理被完成时 为止的时段期间(步骤S113 否),对于每一再现显示时间,合成了修改后的相对应脸部位 置信息与画面垂直位置信息的中心位置信息被顺序地输出(步骤S112)。此外,对基带中的再现图像的输出控制处理首先被控制为进入静音状态(步骤 S121),然而当累积在缓冲存储器中的IRUV的视频流数据经过解码处理后,其被映射到存 储器中(步骤S122)。然后,通过PTS提供再现图像显示时间,并且当获得了合成之后的相对应中心位 置坐标时,存储器上与再现显示时间信息相对应的再现图像视频被提取到相关的中心位置 (步骤S123),再现图像经过放大缩放而被输出,并且施加了脸部摇晃校正的再现图像被输 出(步骤S124)。在直到完成对当前IRUV数据的处理为止的时段期间重复执行上面的处理(步骤 S125 否)。应当注意,当由本发明中的数码相机摄取的视频被再现时的横向摇晃防止处理也 可以在执行计算机上的而非被嵌入专用硬件中的预定程序代码的模式中来实现,并且这种 程序代码指示计算机用作被配置为从记录介质读取视频流以及属性信息的读取装置,被 配置为对所读取的视频流解码的解码装置,被配置为预测包括在属性信息中的脸部检测位 置信息并且校正包括在视频流中的脸部摇晃的脸部摇晃校正装置,以及被配置为输出脸部 摇晃被校正后的视频流的输出装置。这种计算机程序是定义以计算机可读格式描述的计算机程序以在计算机上实现 预定处理的程序。换言之,通过将计算机程序等安装到计算机中,协同动作在计算机上实 行,并且能够获得与根据本申请权利要求1的视频再现设备类似的动作效果。工业应用上面,参考具体实施例详细描述了本发明。然而,显然,本领域技术人员可以在不 脱离本发明的主旨的范围内获得对相关实施例的修改和变更。在本说明书中,主要描述了应用于系统的实施例,其中,通过相机等的图像摄取获 得的视频流伴随着属性信息以MPEG格式的运动图像格式被记录在记录介质上,并且此外, 从记录介质执行再现输出,然而,本发明的主旨不限于此。即使在以MPEG以外的运动图像 格式来记录并再现视频流的情况中,毫无争论地,可以类似地实现本发明。
简言之,本发明以举例的方式被公开,并且不应以限制的方式来解 释所描述的本 说明书的内容。为了确定本发明主旨,应当考虑权利要求的范围。
权利要求
一种视频再现设备,用于再现与按照预定运动图像格式伴随的属性信息一起被记录在记录介质上的视频流,由从所述视频流检测到的脸部的中心位置坐标构成的脸部检测位置信息作为所述属性信息被记录在所述记录介质上,所述视频再现设备的特征在于包括读取装置,被配置为从所述记录介质读取所记录的视频流以及所述属性信息;解码装置,被配置为对所读取的视频流进行解码;脸部摇晃校正装置,被配置为基于包括在所述属性信息中的脸部检测位置信息来预测画面位移量,并且校正所述视频流所包含的脸部摇晃;以及输出装置,被配置为输出所述脸部摇晃被校正之后的视频流。
2.根据权利要求1所述的视频再现设备,特征在于所述视频流被进行编码,其中,多个帧的画面组被设为一个单位,并且,与每个画面组 的导入帧有关的脸部检测位置信息被附加到所述视频流中作为所述属性信息,并被记录在 所述记录介质上,所述读取装置在视频再现时提前读取多个画面组的视频流以及脸部检测位置信息,并且所述脸部摇晃校正装置通过对脸部检测位置以时间连续方式进行插值平均来预测所 述画面位移量,并且对视频的再现脸部摇晃校正执行控制。
3.根据权利要求1所述的视频再现设备,特征在于脸部检测中心位置坐标被作为视频流的属性信息而记录在所述记录介质上,并且所述脸部摇晃校正装置消除所述脸部检测中心位置坐标相对于画面中心位置的偏移, 并且通过中心偏移放大处理来校正脸部摇晃,所述中心偏移放大处理在所述脸部检测中心 位置坐标处以预定放大率来放大供再现的图像。
4.根据权利要求2所述的视频再现设备,特征在于所述读取装置仅提前读取多个画面组,并且所述脸部摇晃校正装置以场为单位创建帧再现显示时间与脸部检测位置信息的对应 关系表,从每个画面组单位的脸部检测位置信息计算每场的脸部检测位置的位移量,还通 过对可在最大位移限制量的范围内进行分割的个数的场集合的移动平均来校正脸部检测 位置坐标。
5.根据权利要求2所述的视频再现设备,特征在于所述读取装置在对视频流的再现流缓冲器的读取更新请求被生成时,集体地提前读取 脸部检测位置信息以及视频流。
6.根据权利要求1所述的视频再现设备,特征在于所述脸部摇晃校正装置通过消除脸部检测中心位置坐标相对于画面中心位置的水平 方向上的偏移来校正横向摇晃,并且还通过消除背景的风景水平检测位置坐标相对于画面 中心位置的偏移来校正纵向摇晃。
7.根据权利要求3所述的视频再现设备,特征在于所述脸部摇晃校正装置在供再现的图像以预定放大率被放大时脸部检测区域部分地 从画面区域中伸出的情况中,提供左右校正宽度限制,用于执行位移校正,校正到脸部检测 区域位于画面内部一侧的位置。
8.一种视频再现方法,用于再现与按照预定运动图像格式伴随的属性信息一起被记录在记录介质上的视频流,由从所述视频流检测到的脸部的中心位置坐标构成的脸部检测位置信息作为所述属性信息被记录在所述记录介质上,所述视频再现方法的特征在于包括 读取步骤,从所述记录介质读取所记录的视频流以及所述属性信息; 解码步骤,对所读取的视频流进行解码;脸部摇晃校正步骤,基于包括在所述属性信息中的脸部检测位置信息来预测画面位移 量,并且校正所述视频流所包含的脸部摇晃;以及输出步骤,输出所述脸部摇晃被校正之后的视频流。
全文摘要
实现了在再现由数码相机摄取的视频时对横向摇晃的防止,并且使得在大画面电视机上进行观看变得舒适。在图像摄取记录时,脸部检测位置中心坐标数据被记录在流的属性信息单元中,作为以0.5秒为单位的每个VOBU(GOP)的ARI数据。在再现时,在再现包括在脸部中心位置坐标的检测数据中的视频时以RUV为单位集体地提前读取GOP流的ARI数据,以预先读取大量VOBU,相对于脸部中心位置坐标以GOP为单位对缺少的时间执行插值,并且以帧为单位通过时间移动平均计算来对画面位移量进行时间轴平滑计算。
文档编号H04N5/93GK101828391SQ20088011209
公开日2010年9月8日 申请日期2008年10月20日 优先权日2007年10月23日
发明者冈田俊二, 有留宪一郎, 矶部幸雄 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1