面部自动标注方法及系统的制作方法

文档序号:9381060阅读:297来源:国知局
面部自动标注方法及系统的制作方法
【技术领域】
[0001] 本发明涉及视频信息和面部标注技术领域,特别涉及一种在社会网络数据视频中 采用半监督学习的面部自动标注方法及系统。
【背景技术】
[0002] 随着视频采集设备的快速发展,近几年,网络宽带迅速的增长和在线和离线以各 种形式的视频共享社会网络视频内容急剧增加。随着上述发展趋势,在广泛的,各种应用 范围中,在大量的视频进行标注具有很大的需求。手动进行视频标注耗时耗力。因此,在最 近几年,视频的自动标注得到很多关注。在视频中,面部是最重要和出现最频繁的对象,然 而,对人体自动标注可以在许多方面,例如安全性、丰富的内容生成、医学分析、视频文件和 存档方面的应用。
[0003] 但是,对于计算机而言,在视频中进行面部标注,其问题在于使用具有已知标识的 预设的先验知识集合(例如,作为训练数据的己标记图像)在视频序列中定位和识别特定 的面部(如给定的面部标识)。面部识别(Face Recognition,FR)是面部标注的重要组成 部分。一般而言,有两种类型的面部识别,其中一种是在约束环境下进行FR,从而使面部识 别能够相对稳定和静态的背景下进行;而另一种则是在无约束环境下进行FR,导致面部识 别需要在非稳定的动态变化背景下进行。由于在方向、亮度以及形状等方面存在大量的变 化,在无约束环境下进行面部识别是很有挑战性的。由于视频内在的多样性,在视频中进行 面部标注属于无约束环境的类型。为了提高标注的准确率,通常采用一些带多种类型的框 架、特征以及分类的方法,其通常也包括使用一些手动操作产生的训练数据(如,已标记的 图像)。
[0004] 本发明公开了一种直接解决如上所述一个或者更多问题的方法和系统。

【发明内容】

[0005] 本发明公开了一种通过在社会网络数据中采用半监督学习实现视频面部自动标 注方法。所述方法包括将一段输入视频分割为多个不同的视频帧集合,然后通过摄像机获 取内容及镜头边界检测算法在所述视频帧集合中提取时间及空间信息。并且,通过抓取社 会网络中的弱标记面部图像从而收集弱标记数据。所述方法还包括:结合迭代优化聚类算 法的面部检测滤除所述弱标记数据中的噪声,生成包含有已优化标记图像的标记数据库作 为训练数据,并依据存储在所述标记数据库中的已优化标记图像,在所述输入视频中寻找 并标记包含一个或者多个面部图像,与所述标记数据库中的已优化标记图像相匹配的目标 视频帧。进一步的,还包括通过半监督学习算法,对输入视频中尚未标记的面部轨迹进行标 记从而标注在所述输入视频中的面部图像,并且输出包含有已标注面部图像的输入视频。
[0006] 本发明公开了一种通过在社会网络数据中采用半监督学习实现视频面部自动标 注系统。所述系统包括摄像机获取内容检测模块,用于通过摄像机获取内容及镜头边界检 测算法分别在一段输入视频形成的多个视频帧集合中提取时间及空间信息。所述系统还 包括:社会网络数据分析模块,用于通过抓取社会网络中的弱标记面部图像收集弱标记数 据,并通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声,以及生成包 含有已优化标记图像的标记数据库作为训练数据,以及面部匹配模块,用于依据存储在所 述标记数据库中的已优化标记图像,在所述输入视频中寻找并标记包含一个或者多个面部 图像,与所述标记数据库中的已优化标记图像相匹配的目标视频帧。进一步的,还包括主动 半监督学习模块,用于对输入视频中尚未标记的面部轨迹进行标记从而标注在所述输入视 频中的面部图像和输出模块,用于输出包含有已标注面部图像的输入视频。
[0007] 本发明的其他方面,所属技术领域技术人员能够依据本发明的权利要求书、说明 书以及附图有效实施并充分公开。
【附图说明】
[0008] 图1为本发明具体实施例的工作系统的示意图。
[0009] 图2为本发明具体实施例的计算系统的示意图。
[0010] 图3为本发明具体实施例的自动视频面部标注系统的结构示意图。
[0011] 图4为本发明具体实施例的通过社会网络数据,在视频中利用半监督学习,完成 面部自动标注的方法的方法流程图。
[0012] 图5为本发明具体实施例的摄像机获取内容检测方法的示意图。
[0013] 图6为本发明具体实施例的将视频流分割为不同的视频组成成分的示意图。 具体实施例
[0014] 附图中展示的部分将被引用以具体说明,阐述本发明具体技术实施方案。说明书 中引用的数字代表附图的相应部分。
[0015] 图1为本发明【具体实施方式】中的工作系统100。如图1所示,所述工作系统100包 括:电视机102,遥控器104,服务器106,用户108,网络系统110。当然还可以包括其他合 适的设备。
[0016] 电视机102可以是任何合适类型的电视机,例如等离子电视,LCD电视,背投式电 视,智能电视或者非智能电视。电视机102还可以包括计算系统,例如个人电脑,掌上电脑 或者智能手机等。进一步的,所述电视机102还可以是任何由遥控器104控制的,能够在一 个到多个频道中演示多个节目的内容演示设备。
[0017] 所述遥控器104可以是任何合适类型的能够遥控操作电视机102的遥控器,例如 配套的电视遥控器,通用电视遥控器,掌上电脑,智能手机或者其他能够实现遥控功能的智 能设备。遥控器104还可以包括其他不同类型的设备,例如动作感应遥控设备,图像感应遥 控设备以及其他一些简单输入设备,例如键盘,鼠标,声控输入设备等。
[0018] 具体的,所述服务器106可以是任何用于提供个人信息内容给用户108的一个或 者多个计算机服务器。所述服务器106还用于辅助在遥控器104和电视机102之间进行通 信连接,数据存储和数据处理。电视机102,遥控器104以及服务器106通过网络系统110 建立通信连接,例如有线网络,手机网络,或者其他具体的网络。
[0019] 用户108使用遥控器104控制电视机102播放不同的节目或者进行其他用户感兴 趣的活动。如果电视机102配备有动作感应或者图像感应装置,用户还可以简单的使用手 势动作进行控制。用户108可以是一个人也可以是多个,例如全部家庭成员在一起观看电 视节目。
[0020] 电视机102,遥控器104和/或服务器106可以在一个合适的电子计算平台实现其 功能。图2为本发明【具体实施方式】中的一种可用于实现上述设备102、104和/或106的功 能的计算系统200的结构框图。
[0021] 如图2所示,所述计算系统200包括处理模块202,存储媒体204,监视器206,通信 模块208,数据库210以及外围设备212。所述计算系统可以减省上述设备,也可以添加一 些其他类型的设备,而不限于上述设备。
[0022] 所述处理模块202可以是任何合适的处理器或处理器组。具体的,所述处理模块 202可以为能够进行多线程处理的多核心处理器。存储媒体204可以是任何合适的存储设 备,例如ROM,RAM,闪存或者大容量存储器,例如CD-ROM,硬盘等。存储媒体204用于存储由 处理器202执行的,为进行各种数据处理而预设的计算机运行程序。
[0023] 所述外围设备212具体包括:各种类型的传感器以及输入,输出设备,例如键盘, 鼠标。通信模块208具体包括:各类网络交互设备,用于在设备间通过网络系统建立连接。 数据库210具体包括一到多个用于存储不同数据以及对数据进行一些处理,例如搜索数据 的数据库。
[0024] 在实际操作中,电视机102,遥控器106和/或服务器104可以为用户108完成面 部自动标注的方法。所述面部自动标注方法可以通过社会网络数据,利用半监督学习方法, 自动地完成对视频的"标记"。
[0025] 图3为本发明具体实施例的面部自动标注系统的结构框图。如图3所示,所述面 部自动标注系统300具体包括:输入视频302, "摄像机获取内容"检测模块304,社会网络 数据分析模块306,主动半监督学习模块308,面部配对模块310以及输出模块312。上述 系统可以减省所述设备,也可以添加一些其他类型的设备,而不限于所述设备。所述系统 300(如多个功能模块组成的)具体可以由硬件实现其功能,也可以由软件实现其功能,还 可以结合硬件和软件一起实现其功能。
[0026] 所述输入视频302具体可以是任何类型的视频内容或者视频资源。输入视频302 的内容包括视频数据以及元数据。输入视频的一系列视频帧包含了视频的内容并用于其他 模块进行其他处理。所述输入视频也可以为一幅的图片。将输入视频划分成多个不同的视 频帧集合。
[0027] 所述"摄像机获取内容"检测模块304可以用于通过"摄像机获取内容"(camera take)和镜头边界检测算法在输入视频的多个视频帧集合中提取时间和空间信息。
[0028] 所述"摄像机获取内容"检测模块304还可以包括"摄像机获取内容"子模块3042, 面部检测子模块3044和面部轨迹子模块3046。也可以包括其他相关的部件和装置。
[0029] "摄像机获取内容"子模块3042可以用于将原始的以交错形式组成的视频分离为 一系列视频序列,其中每一视频序列均与一个"已记录的摄像机"对应。所述"已记录的摄 像机"通过记录源于输入视频帧的每一摄像机,与初始的摄像机设置一致。
[0030] 面部检测子模块3044用于在视频帧序列中自动的定位面部的位置
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1