面部自动标注方法及系统的制作方法_3

文档序号：9381060阅读：来源：国知局

演员的图片而很少包含其他演员的照片，其中每张照片均会包含一个或者多个演员的面部图像。
[0058] 在前述步骤中的具体的获取结果中的每一张图像上应用面部检测技术。因此，每个演员均有与其对应的检测到的面部图像集合。但是，这些面部图像集合包含有三种类型的噪声：（1)在与所述电影不相关的背景图像中出现目标演员的面部的电影非相关面部图像。（这些面部图像与电影中出现的对应的演员面部图像在姿态、亮度、结构以及形状等方面具有很大的差异，应当从训练数据中剔除）；（2)错误标记为目标图像的其他演员的面部图像；（3)由于面部检测器错误导致的无面部图像。
[0059] 使用迭代优化聚类算法来滤除上述噪声并生成标记数据库作为训练数据。（S412)
[0060] 由于社会网络的内在属性，所述每一演员对应的面部图像集合由占大部分的目标演员图像以及占少部分的上述三种类型的噪声所组成。因此，可以使用迭代优化聚类算法对已标记面部图像进行优化（S414)。使用上述算法并选择最大的聚类从而获取目标演员的图像并消除噪声。
[0061] 所述迭代优化聚类算法的工作过程如下所述。用特征向量（如局部二值模式）表示每一面部。使用第一张面部图像对新的分类标签进行初始化，然后在每一个尚未标记的面部图像集合中循环执行上述操作，并且所述面部识别在最接近的邻近图像之间预设的距离阈值内执行。所述面部识别（FR)可以认为是在矩形框\a上的分类问题。亦即，为每个集合{CJ标记一个类别标签，其中{Cj (i = 1，. . .，K)表示可能进行标注的人或者角色的已标记的分类类别。
[0062] 若无法符合阈值，则创建一个新的分类标签来更新模型。在第一次迭代后，选出每个聚类中的代表性面部（如中心点）并淘汰掉较小的聚类。然后，重复执行上述步骤进行下一迭代，直至收敛（即聚类结果不再改变）。
[0063] 进一步的，存储从前述步骤获得的每个演员与电影相关的图像（S416)。
[0064] 基于所述标记的图像以及SIFT匹配技术，可以找出在电影中出现的那些面部的正确的视频帧（S418)。亦即，执行面部匹配程序来决定在每个"摄像机获取内容"中的面部与存储的面部之间的匹配关系。存储的面部图像完成标记后，所述那些面部图像出现的正确的视频帧的标记是百分百可信的（假设视频帧匹配完全正确）。
[0065] 在执行完上述步骤以后，可以生成面部轨迹并且这些轨迹中与已标记的，在线电影相关的面部数据相匹配的一小部分也可以被标记。
[0066] 在视频中进行面部标注还包括从视频中获取面部轨迹（例如，使用轨迹、位置信息等等）以及在不同面部轨迹中进行面部识别。但是，与现有目标在于一系列静态图像的面部识别不同的是，视频中包含了丰富的时间及空间信息。利用所述时间及空间信息，对剩余的，未标记的面部轨迹进行标记是一个半监督学习问题。特别的，它也是一个部分已标记数据的聚类问题。亦即，在每个聚类中，至少有一个已标记的数据点。
[0067] 在本发明一些具体实施例中，通过主动半监督学习对所有的面部轨迹进行标记从而完成面部标注（S420)。通过"摄像机获取内容"以及镜头边界检测算法提取时间性及空间性信息，并将提取信息应用于求解带约束条件的半监督学习问题，从而极大的提高聚类的准确性。所述问题及解法具体如下所述。
[0068] 令R = {RJ表示视频中的面部轨迹。其中（i = 1，. . .，M)，M为视频中的面部轨迹的总数。对于每一个面部图像，选择对面部自身标识敏感，而在姿态、亮度、以及面部形态改变时基本不变的特征向量（例如局部二值模式（LBP))。实验研究表明：使用面部轨迹的主要趋势的代表能够有效的简化计算量的同时在每一面部轨迹中变化微小，维持良好的代表性。因此，通过平均在每一面部轨迹中的所有面部的显著性特征向量生成每一面部轨迹的重点特征。令S表示具有P个特征的面部轨迹的重点面部特征。所以S li,表示对于第i 个面部轨迹重点特征的第j个特征维度的值。K表示最终聚类结果的聚类类别总数（例如，需要标注的人的数量），并且C1表示标记在第i个面部的聚类的标签，其中，1 < C K。基于k-均值聚类算法的定义，不包含任何约束的目标函数可以通过如下算式表示：
Cl)
[0070] 对于带约束的聚类，多个聚类中的相似项目需要满足一些额外的约束，更具体的，基于视频的时间以及空间信息，所述约束具体如下：
[0071] (l)cannot-link约束用以表示两个实体为cannot-link关系时，不能设置在同一个聚类中。所述面部轨迹包括在同一个视频帧中没有交集的，包含有完全不同的定义的检测面部。对于在视频中的每一个视频帧F1，所述没有交集的面部通过矩形框\x(i = 1，...，N)表示，其中i表示视频帧的序号，Cx表示用于标记的聚类标签。亦即，所述面部关系为"cannot-link"的约束可以用如下算式表示：
[0072] 当在任何给定的 \x (i = 1，· · ·，N)中，x# X 2时，（(2 )
[0073] (2)Must-link约束用以表示两个实体为must-link关系时，应当设置在同一个聚类中。若两个面部轨迹的重点特征在矩形框的位置方面上具有相同的变化，并且上述两个面部轨迹属于同一个"摄像机获取内容"。那么，这两个面部轨迹的重点特征具有相同的定义，must-link关系面部的约束可以表示如下：
[0075] 其中，overlap是一个衡量两个矩形框之间重叠程度的函数，Θ为一个预设的参数，判断两个矩形框之间是否达到重叠标准，CameraTake是一个用于表示两个视频帧是否属于同一个"摄像机获取内容"的指示函数。
[0076] 因此，根据公式（2)和（3)，上述两种cannot-link以及must-link的约束均可以通过公式表示。cannot-link以及must-link约束均表示两个数据实体之间的关系。这些约束可以用作某带约束的聚类算法的指导，从而使形成的聚类中的数据集合能够满足特定的 must-link 和 cannot-link 约束。
[0077] 因此，结合公式（1)、（2)和（3)，所述目标函数可以定义如下：
[0079] 其中，Wiij表示违反"must-1 ink"约束的罚分的权重；（1-w i」）表示违反 "cannot-link"约束的罚分的权重；Z表示所有关系为"must-link"的面部轨迹对的集合，所以（S 1^Sy) e Z表示Su和S "必须分入同一个聚类中；并且，C表示所有关系为 "cannot-link"的面部轨迹对的集合，所以（Si,*，S jiJ e C表示Si,*和S ^必须分入不同的聚类中。
[0080] 在带强约束的聚类中，问题在于将目标函数最小化从而满足所述强约束。亦即，对所有的面部轨迹标记标签C 1从而使公式（4)最小化。将公式（4)定义的目标函数最小化亦相当于使隐马尔科夫随机场的配置后验概率最大化，所述最大化可以通过量度基于成对约束的K-均值聚类（MPCKMeans)算法求解。所述MPCK-Means是一种从K均值聚类算法 (K-Means)结合度量学习以及成对约束衍生而来的半监督学习算法。
[0081] 在对所有面部轨迹完成标记后，及视频中的面部标注完成后，输出带面部标注的视频。（S422)例如，可以向用户播放所述带面部标注的视频，或者将所述带面部标注的视频提供给其他程序或者设备进行后续的处理。
[0082] 通过使用本发明上述具体实施例的方法及其系统，还可以实现其他更多的应用。例如，所述面部标注技术可以应用新的视频领域，其中在视频中的关键人物的面部可以实现自动检测以及标注从而便利于多种多媒体内容的管理任务，例如新视频的集锦，浏览以及回放。
[0083] 应当理解的是，本发明所述的自动面部标注模型不仅限于电视机使用场景，所述方法及系统还可以用于任何具有播放功能的设备，例如智能手机、掌上电脑、个人电脑、智能手表等等。本发明所述的方法还可以作为其他系统的核心功能，例如基于视频内容的推荐系统、基于视频内容的回放系统等等。
[0084] 进一步的，尽管本发明的自动面部标注方法只公开了上述的使用对象，但与本发明相似的概念以及方法均可以应用于其他标注系统，例如图像标注等。将本发明所述系统和方法应用于不同领域，进行改进，替换，调整的具体技术实施方案都是本领域普通技术人员不需要通过创造性劳动就能实现的。
【主权项】
1. 一种面部自动标注方法，其特征在于，所述方法包括：将一段输入视频分割为多个不同的视频帧集合；通过摄像机获取内容及镜头边界检测算法在所述视频帧集合中提取时间及空间信息；通过抓取社会网络中的弱标记面部图像从而收集弱标记数据；通过结合迭代优化聚类算法的面部检测滤除所述弱标记数据中的噪声；生成包含有已优化标记图像的标记数据库作为训练数据；依据存储在所述标记数据库中的已优化标记图像，在所述输入视频中寻找并标记包含一个或者多个面部图像的，与所述标记数据库中的已优化标记图像相匹配的目标视频帧；通过半监督学习算法，对输入视频中尚未标记的面部轨迹进行标记从而标注在所述输入视频中的面部图像，并且输出包含有已标注面部图像的输入视频。2. 根据权利要求1所述的方法，其特征在于，所述通过摄像机获取内容及镜头边界检测算法在所述视频帧集合中提

完整全部详细技术资料下载

当前第3页1 2 3 4