面部自动标注方法及系统的制作方法_4

文档序号：9381060阅读：来源：国知局

取时间及空间信息的步骤具体包括：将初始的交错形式的视频分离为一系列视频序列，通过记录源于输入视频帧中包含的摄像机设置，将每一视频序列分别与初始的摄像机设置一致的已记录摄像机设置设置对应；在一系列视频帧中进行面部定位，确定面部的位置，并且通过在每一摄像机获取内容的视频帧中进行面部定位，从视频中提取面部轨迹。3. 根据权利要求2所述的方法，其特征在于，所述通过在每一摄像机获取内容的视频帧中进行面部定位，从视频中提取面部轨迹的步骤具体包括：利用每一摄像机获取内容的第一个已检测面部初始化一个新的面部轨迹；对于每一摄像机获取内容余下的视频帧，当分别来自于连续的视频帧的两个已检测面部的距离超过预设的阈值时，初始化一个新的面部轨迹；当分别来自于连续的视频帧的两个检测到的面部的距离没有超过预设的阈值时，则将所述面部加入到当前面部轨迹中。4. 根据权利要求1所述的方法，其特征在于，所述通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声的步骤具体包括：在其中一个社会网络以及内部数据库中进行关键词检索；在社会网络检索结果的集合的每个图像中自动地定位面部的位置；通过滤除所述搜索结果图像中的噪声获取只与电影相关的每个演员的面部图像；存储所述只与电影相关的每个演员的面部图像；使用迭代优化聚类算法优化已标记面部图像；并且将优化后的已标记面部图像存储到标记数据库中作为训练数据。5. 根据权利要求2所述的方法，其特征在于，所述将初始的交错形式的视频分离为一系列视频序列，每一视频序列均与通过记录源于输入视频帧的每一摄像机，与初始的摄像机设置一致的"已记录的摄像机"对应的步骤具体包括：使用颜色的差异性来衡量两个视频帧之间的相似程度；在一段视频序列中检测多个镜头；选出用于代表镜头视频内容的关键帧；并且确定一个摄像机获取内容。6. 根据权利要求5所述的方法，其特征在于，所述在一段视频序列中检测多个镜头的步骤还包括：当视频帧的差异超出预设界限时，定义为一个新的镜头；其中，所述预设界限以视频节目的类型为基础，利用约束生成预设界限；并利用所述预设界限进一步优化检测结果。7. 根据权利要求5所述的方法，其特征在于，所述步骤还包括：匹配每个检测到的镜头和每个摄像机获取内容中的最后一个镜头，其中，所述镜头由镜头的关键帧表不；并且当满足预定的匹配标准时，将所述检测到的镜头加入到对应的摄像机获取内容的末端。8. 根据权利要求1所述的方法，其特征在于，所述半监督学习算法具体包括：不包含约束的目标函数通过如下算式表示：其中，S为具有P个特征的面部轨迹的重点面部特征；Sy为对于第i个面部轨迹重点特征的第j个特征维度的值；K为最终聚类结果的类别总数，并且Q表示标记在第i个面部的聚类的标签；1彡C#K，1<j<p。9. 根据权利要求8所述的方法，其特征在于，所述半监督学习算法还包括：所述面部关系为"cannot-link"的约束通过如下算式表示：当在任何给定的BiiX(i= 1，…，N)中，x#x2时，QQ; 其中，BliX(i= 1，. . .，N)为在每一个视频帧Fi中的矩形框，其中i为视频帧的序号，Cx 为用于标记的聚类标签。10. 根据权利要求8所述的方法，其特征在于，所述半监督学习算法还包括：面部关系为"must-link"的约束通过如下算式表示：当沒物而/'(及并且CameraTakedi2) = 1 时，仏其中，overlap为一个衡量两个矩形框之间重叠程度的函数，0为一个判断两个矩形框之间是否达到重叠标准的预设参数；CameraTake为用于表示两个视频帧是否属于同一个"摄像机获取内容"的指示函数。11. 一种面部自动标注系统，其特征在于，所述系统包括：摄像机获取内容检测模块，用于通过摄像机获取内容及镜头边界检测算法分别在一段输入视频形成的多个视频帧集合中提取时间及空间信息；社会网络数据分析模块，用于通过抓取社会网络中的弱标记面部图像收集弱标记数据，并通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声，以及生成包含有已优化标记图像的标记数据库作为训练数据；面部匹配模块，用于依据存储在所述标记数据库中的已优化标记图像，在所述输入视频中寻找并标记包含一个或者多个面部图像，与所述标记数据库中的已优化标记图像相匹配的目标视频帧；主动半监督学习模块，用于对输入视频中尚未标记的面部轨迹进行标记从而标注在所述输入视频中的面部图像；以及输出模块，用于输出包含有已标注面部图像的输入视频。12. 根据权利要求11所述的系统，其特征在于，所述摄像机获取内容检测模块具体包括：摄像机获取内容子模块，用于将初始的交错形式的视频分离为一系列视频序列，通过记录源于输入视频帧中包含的摄像机设置，将每一视频序列分别与初始的摄像机设置一致的已记录摄像机设置设置对应；面部检测子模块，用于自动地定位面部在一系列视频帧中的位置；面部轨迹子模块，用于通过在每一摄像机获取内容的每一视频帧中进行所述自动定位处理，在视频中提取面部轨迹。13. 根据权利要求12所述的系统，其特征在于，所述面部轨迹子模块具体用于：利用每一摄像机获取内容的第一个已检测面部初始化一个新的面部轨迹；对于每一摄像机获取内容余下的视频帧，当分别来自于连续的视频帧的两个已检测面部的距离超过预设的阈值时，初始化一个新的面部轨迹；当分别来自于连续的视频帧的两个已检测面部的距离没有超过预设的阈值时，则将所述面部加入到当前面部轨迹中。14. 根据权利要求11所述的系统，其特征在于，所述社会网络数据分析模块具体包括：搜索引擎，用于在其中一个社会网络以及内部数据库中进行关键词检索；面部检测子模块，用于在社会网络检索结果的集合的每个图像中自动地定位面部的位置；弱标记面部子模块，用于通过滤除所述搜索结果图像中的噪声获取纯粹与电影相关的每个演员的面部图像以及存储所述纯粹与电影相关的每个演员的面部图像；迭代优化聚类子模块，用于使用迭代优化聚类算法优化已标记面部图像；以及优化标记面部子模块，用于将优化后的已标记面部图像存储到标记数据库中作为训练数据。15. 根据权利要求12所述的系统，其特征在于，所述摄像机获取内容子模块具体用于：使用颜色的差异性来衡量两个视频帧之间的相似程度；在一段视频序列中检测多个镜头；选出最能代表镜头视频内容的关键帧；并且确定一个摄像机获取内容。16. 根据权利要求15所述的系统，其特征在于，所述摄像机获取内容子模块还用于：当视频帧的差异超出预设界限时，定义为一个新的镜头；其中，所述预设界限以视频节目的类型为基础，并应用多个特定的约束最终生成预设界限；并利用所述预设界限进一步优化检测结果。17. 根据权利要求15所述的系统，其特征在于，所述摄像机获取内容子模块还用于：匹配每个检测到的镜头和每个摄像机获取内容中的最后一个镜头，其中，所述镜头由镜头的关键帧表不；并且当满足预定的匹配标准时，将所述检测到的镜头加入到对应的摄像机获取内容的末端。18. 根据权利要求11所述的系统，其特征在于，所述主动半监督学习模块具体用于：不包含任何约束的目标函数通过如下算式表示：其中，S为具有P个特征的面部轨迹的重点面部特征；Su为对于第i个面部轨迹重点特征的第j个特征维度的值；K为最终聚类结果的类别总数（例如，需要标注的人的数量），并且Q表示标记在第i个面部的聚类的标签；1 <CK，1 <j<p。19. 根据权利要求18所述的系统，其特征在于，所述主动半监督学习模块还用于：所述面部关系为"cannot-link"的约束通过如下算式表示：当在任何给定的BliX(i= 1，…，N)中，Xl#x2时，其中，BliX(i= 1，. . .，N)为在每一个视频帧Fi中的矩形框，其中i为视频帧的序号，Cx 为用于标记的聚类标签。20. 根据权利要求18所述的系统，其特征在于，所述主动半监督学习模块还用于：面部关系为"must-link"的约束通过如下算式表示：当over/op(5fi,'丨，并且CameraTakeQ" i2) = 1时，丨-C'_ ; 其中，overlap为一个衡量两个矩形框之间重叠程度的函数，0为一个判断两个矩形框之间是否达到重叠标准的预设参数；CameraTake为用于表示两个视频帧是否属于同一个"摄像机获取内容"的指示函数。
【专利摘要】本发明公开了一种面部自动标注方法及系统。其中，所述方法包括：将输入视频分割为不同的视频帧集合后通过摄像机获取内容及镜头边界检测算法在视频帧集合中提取时间及空间信息。并通过抓取社会网络中的弱标记面部图像来收集弱标记数据。然后结合迭代优化聚类算法的面部检测来滤除所述弱标记数据中的噪声，生成包含有已优化标记图像的标记数据库作为训练数据。依据存储在标记数据库中的已优化标记图像，在输入视频中寻找并标记包含面部图像，与所述标记数据库中任一已优化标记图像相匹配的目标视频帧。通过半监督学习算法，对输入视频中尚未标记的面部轨迹进行标记来完成视频面部的标注。最后，输出包含有已标注面部图像的输入视频。
【IPC分类】H04N7/18, G06K9/00, G06K9/62, H04N21/44
【公开号】CN105100894
【申请号】CN201510524543
【发明人】彭亮, 杨益敏, 汪灏泓
【申请人】Tcl集团股份有限公司
【公开日】2015年11月25日
【申请日】2015年8月24日
【公告号】US9176987

完整全部详细技术资料下载

当前第4页1 2 3 4