一种对电影人脸图像进行自动标识的方法

文档序号:6600357阅读:437来源:国知局
专利名称:一种对电影人脸图像进行自动标识的方法
技术领域
本发明属于多媒体内容分析领域,涉及一种在电影视频中对自动的人脸图像进行 自动标识的方法。
背景技术
随着电影工业的蓬勃发展,大批的电影相继制作产生。对于海量电影视频数据的 索引、组织和管理也变得越来越重要。在电影中,由于情节皆是围绕人物展开的,因此人物 通常是观众关注的焦点,是电影中需要标注和索引的重要内容。人脸标识技术以往主要是 面向新闻视频,因为在新闻视频中,可以在通过语音转录的文本中获取大量人名,而且该转 录文本与视频在时间上是自动对齐的,可以根据时间的一致性实现人脸与人名的关联。这 种方法可以称为“局部匹配”。然而在电影视频中,局部匹配却并不适用。这是因为电影人物 的对话中并不经常出现人名,所以从语音转录文本中无法提取到足够的人名。在电影剧本 中,虽然包含有人物的姓名,但是却没有时间信息,无法将剧本与视频在时间上进行对齐, 即无法采用局部匹配来实现人脸与人名的匹配。因此目前尚缺乏利用电影剧本对电影视频 中的人脸进行自动标识的方法。

发明内容
本发明的目的是在电影剧本中提取人物的姓名,对电影中的人脸进行识别和标 注,由于剧本中不包含时间信息,无法将其与视频在时间上进行对齐,本发明利用图匹配的 方法,在给定电影视频和剧本的条件下,提出一种对电影人脸图像进行自动标识的方法。为达成所述目的,本发明提出一种对电影人脸图像进行自动标识的方法,本发明 的技术方案通过以下步骤来实现步骤1 利用多视角的人脸检测和跟踪器,在一电影视频中自动获取人脸序列,对 人脸序列进行聚类以对应不同的人物;步骤S2 根据不同人物的人脸序列在相同场景中共同出现的频次,来度量人脸之 间关系,建立人脸关系网络;步骤S3 利用计算机从电影剧本数据库下载并存储与所述一电影视频相对应的 纯文本电影剧本,计算机统计纯文本电影剧本中不同人物的姓名在相同场景中共同出现的 频次;步骤S4 依据所述频次来度量人名之间的关系,建立人名关系网络;步骤S5 计算机将人脸关系网络和人名关系网络分别表示成人脸无向图和人名 无向图的形式,将人脸无向图和人名无向图进行匹配,实现人脸关系网络和人名关系网络 中顶点之间的匹配,即实现将人脸和人名融合的标识。本发明的优点在于本发明的方法与传统的局部匹配方法相比,本发明方法摆脱 了对时间信息的要求,而是在全局范围内,在视频和文本两个模态中分别计算人脸和人名 的统计信息,建立人脸关系网和人名关系网络。然后通过图匹配的方法在两个网络的顶点之间建立对应关系,以实现对人脸的自动标识。本发明给定电影视频以及其对应的剧本,即 可实现自动的人脸标识,为视频中出现的人脸自动标注上其对应人物的姓名,可以为电影 视频检索、视频摘要自动生成等应用提供支持。


图1是本发明对电影人脸图像进行自动标识整体构架示意图;
图2是本发明对电影人脸图像进行自动标识的方法流程图。
具体实施例方式下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。如图1示出本发明对电影人脸图像进行自动标识整体构架示意图,实现本发明的 自动标识整体构架的所需的基本的硬件条件为一台主频为2. 4GHz,内存为IG的计算机; 所需软件条件为编程环境(Visual C++6.0)。利用计算机实现多视角的人脸检测和跟踪 器2、人脸网络建立单元3、纯文本电影剧本存储单元5、人名网络建立单元6和匹配单元7 的功能。图1示出本发明的自动标识整体构架包括电影视频库1、多视角的人脸检测和跟 踪器2、人脸网络建立单元3、电影剧本数据库4、纯文本电影剧本存储单元5、人名网络建立 单元6和匹配单元7,多视角的人脸检测和跟踪器2与电影视频库1连接,多视角的人脸检 测和跟踪器2接收影视频库1中的一电影视频,在电影视频中自动获取人脸序列,对人脸序 列进行聚类以对应不同的人物,根据不同人物的人脸序列在相同场景中共同出现的频次, 来度量人脸之间关系;人脸网络建立单元3与多视角的人脸检测和跟踪器2连接,人脸网络 建立单元3根据人脸之间关系建立人脸关系网络;纯文本电影剧本存储单元5与电影剧本 数据库4连接,纯文本电影剧本存储单元5从电影剧本数据库4下载并存储与所述一电影 视频相对应的纯文本电影剧本,根据纯文本电影剧本中不同人物的姓名在相同场景中共同 出现的频次,依据所述频次来度量人名之间的关系;人名网络建立单元6与纯文本电影剧 本存储单元5连接;人名网络建立单元6根据人名之间的关系建立人名关系网络;匹配单 元 分别与人脸网络建立单元3和人名网络建立单元6连接,匹配单元7将人脸网络建立 单元3生成的人脸关系网络和人脸网络建立单元6生成的人名关系网络,分别表示成人脸 无向图和人名无向图的形式,将人脸无向图和人名无向图进行匹配,实现人脸关系网络和 人名关系网络中顶点之间的匹配,即实现将人脸和人名融合的标识。如图2示出本发明一种对电影人脸图像进行自动标识的方法流程图,该方法的流 程包含五个步骤步骤Sl 人脸检测与聚类、步骤S2 建立人脸关系网络,步骤S3 人名统 计、步骤S4:建立人名关系网络和步骤S5 将人脸关系网络和人名关系网络用图模型来表 示,进行图匹配。1.建立人脸关系网络步骤Sl 在电影视频中,我们采用一个多视角的人脸检测和跟踪器(Y. Li, H. Z. Ai,C. Huang,and S. H. Lao. Robust head tracking with particles based onmultiple cues fusion. In Proceedings of HCI/ECCV, pages 29-39,2006.)自动获取人脸序列,对 人脸序列进行聚类以对应不同的人物。在人脸序列中,每幅人脸图像都被归一化为64X64的灰度图像,并表示成64X64维的灰度特征向量,然后通过局部线性嵌入方法将特征向量 降至4维。在进行人脸序列的聚类时,我们采用泥土搬运距离[2] (Y. Rubner, C. Tomasi, and L. J. Guibas. A metric for distributions with applications to image databases. In Proceedings ofIEEE International Conference on Computer Vision,pages 59—66, 1998.)作为人脸序列之间的距离度量。泥土搬运距离是一种集合之间的距离度量方式,产 生于运输问题,其本质是求解加权点集转换过程中的最小代价,属于约束最优化问题。它具 备以下两个性质(1)允许部分相似,而且不要求两个数据集合的大小相等,这对于含有不 同图像数量的人脸序列之间距离的度量尤为重要。(2)对于数据集合间出现的较为严重的 不相似情况,能够给予惩罚。这主要是因为在电影视频中,由于光照、姿态等因素影响,在有 些情况下不同人物的人脸可能会看起来比较相似。对于这种来自不同人物的人脸序列之间 部分图像的相似性,必须依靠对其它图像的不相似性加以惩罚,才能避免将它们混为同一 人。在确立距离度量方式后,我们采用凝聚层次聚类的方法进行人脸序列的聚类。
步骤S2 根据不同人物的人脸序列在相同场景中共同出现的频次,来度量人脸之 间关系,建立人脸关系网络;在计算人脸之间的关系时,我们统计两两人脸在电影中同一场 景里共同出现的频次。首先,我们统计每一个人脸在各个场景中出现的频次。由于我们已 经完成了对人脸序列的聚类,因此只需统计每个簇内人脸序列在各个场景中的分布情况, 即可得到一个人脸出现频次分布矩阵Ofaee = [OH^^,,其中mf是人脸序列聚类的个 数,nf是视频中场景的个数,矩阵中的元素0ikfara表示第i个人脸在第k个场景中出现的 频次。矩阵中的第i行Opee = (OgcejOgcei ...,OgeeI即为第i个人脸在整部电影各个 场景中出现频次的分布。然后我们计算任两个人脸在同一个场景中共同出现的频次Cijk, 计算方式为= mill (OgceiOgce)其中min(0ikfa。e,oJkface)是取第i和j个人脸在人脸
频次分布矩阵中第k列的元素Oikfac^和两者中较小的值,该式表明为第i和第j个 人脸在第k个场景中共同出现的频次Cijk ;则这两个人脸在整部电影各个场景中共同出现 的频次计算如下:rfce = ElL1Cj 二 Σ^η ι (o|ce,ogce〕,nf为视频中场景的个数。 通过求取两两人脸之间的关系,我们可以建立人脸关系网络。该人脸关系网络由邻接矩阵 Rfac = [1^1_><胃来表示。邻接矩阵为%Xmf的方阵,其非对角线元素ri/aee为对应的
两个人脸在整部电影中共同出现的频次,对角线上的元素r/-为第i个人脸自身在整部 电影中出现的频次。2.建立人名关系网络步骤S3 利用计算机从电影剧本数据库下载并存储与所述一电影视频相对应的 纯文本电影剧本,计算机统计纯文本电影剧本中不同人物的姓名在相同场景中共同出现的 频次;步骤S4:依据所述频次来度量人名之间的关系,建立人名关系网络;与人脸关系网 络建立方法类似,在建立人名关系网络时,其关系也是通过两者在剧本中同一场景里共同 出现的频次来度量。首先我们统计每个人名在各个场景中出现的频次,得到一个人名出现 频次分布矩阵= [OmffljlXm51,其中%是人名的个数,~是剧本中场景的个数。
然后根据公式Ifame = Ζ;=!mm (ofkame,o|ame)计算两两人名之间共同出现的频次生成人名关系网,该网络同样由一个邻接矩阵lame 二 [碍^^^^!^来表示,mn 为人名的个数。3.人脸与人名的匹配步骤S5 计算机将人脸关系网络和人名关系网络分别表示成人脸无向图和人名无向图的形式,将人脸无向图和人名无向图进行匹配,实现人脸关系网络和人名关系网络 中顶点之间的匹配,即实现将人脸和人名融合的标识。在建立了人脸关系网络Rfare和人名 关系网络Rna 后,它们分别可以通过无向图来表示Gface = <Vf, Ef, Wf>, Gname = <Vn, En, Wn>。在人脸无向图Gfaee中,顶点Vf = {f1; f2,…,fj代表%个人脸,边Ef表示 两两人脸之间的关系,边的权重1Vff= {rfee]记录两者间关系的密切程度,顶点的权重 Wf = {r『e勹记录对应的人脸在整部电影中出现的频次。在人名无向图Gname中,顶点Vn= {叫, ,…,nm}代表mn个人名,同样的,边En和 权重Wn表示人名之间的相互关系。由于在建立人脸关系网络与人名关系网络时,视频中人脸序列聚类的数目与剧本 中人名的数目是保持一致的,因此在用无向图来表示这两个网络时,人脸无向图和人名无 向图的顶点数是一致的,这里统一用m来表示。给定人脸无向图、人名无向图为Gfare和Gn_, 分别包含m个顶点,则有mXm种候选的人脸与人名的匹配,我们将它们存储在一个列表L 中。对于每个候选匹配a=汍,叫‘),为了评价人脸&与人名η/之间的匹配程度,我们 定义了一个指标M(a),称为“匹配度”<formula>formula see original document page 7</formula>
其中riif·为人脸无向图Gf_中顶点的权重,IV i' n"e为人名无向图Gnanre中顶点 的权重,σ是调节对噪声容忍程度的敏感系数,可自由调节,exp {}为以e为底的指数函数。 M (a)可以被看作是该匹配的特征,当一个匹配是正确的时候,其匹配度M(a)将会较高。对于任两个人脸与人名的匹配(a,b),其中a = (fi Hi, ),f,为一人脸,Hi,为一 人名,b = (fj; Iij, ),fj为一人脸,Iij,为一人名,在人脸无向图Gfare中,第i个人脸&和第 j个人脸。之间的关系为巧/·;在人名无向图Gnanre中,第i个人名IV和第j个人名IV之 间的关系为IV j' n"e0如果这两个匹配a和b都是正确的,则关系值巧/_和IV j' _应 该是接近的,我们称之为相容;反之这两个关系值相差较大,我们称之为相斥。因此,针对这 两个匹配我们同样定义了一个指标M (a,b),称为“相容度”
<formula>formula see original document page 7</formula> M(a, b)可以看作是这两个匹配的特征,如果它们都是正确的,则它们的相容度 M(a,b)将会较高。基于定义,M(a,b)的取值是非负的,且是对称的(Μ(a,b) =M(b,a))。 与此同时,对于这两个匹配,我们还需考虑人名与人脸之间的一一映射约束,当它们与这一 约束冲突时,如a = (fi; rv ),b = (fi; Iij,),即人脸&既与人名rv匹配又与人名 匹 配,则将这两个匹配的相容度M(a,b)置为0。至此,两个图顶点之间的匹配问题就简化为 在所有可能的候选匹配中搜寻一个匹配集合C,该集合在满足一对一映射约束的同时,其所包含匹配的匹配度和相容度之和能够取得最大值。其目标函数定义为S =Σ a,becM(a,b)+Σ aecM(a)为此,我们用一个新的无向图来表示所有可能的候选匹配,图的顶点对应每个候 选的匹配,其权重即为匹配度M(a),图的边对应两个候选匹配之间的关系,其权重即为相容 度M(a,b)。因为共有mXm个可能的候选匹配,所以图中的顶点数为m2。该图的邻接矩阵 *Mm2xm2,其元素即为各匹配度M(a)和相容度M(a,b)。因此,我们的目标实际上是在 矩阵Ifim2xm2中寻找元素集合C,在满足一对一映射的约束条件下,使得集合内元素之和取 得最大值。为了解决这一带约束的优化问题,我们引入了一种谱的方法[3] (M. Leordeanu and Μ. Hebert. A spectral technique forcorrespondence problems using pairwise constraints. In Proceedings of the IOth IEEEInternational Conference on Computer Vision, pages 1482-1489,2005.)。该方法由 Leordeanu 和 Hebert 提出,能够在矩阵中搜 寻占主导地位的元素集合。首先,我们定义一个归一化的指示向量X G R 、1,其元素值
x(i)为所对应的第i个匹配 属于目标集合C的置信度,其模值为1。我们希望求得最优 解χ*,使得χ" = argxmax (xTMix)。根据匹配度M(a)和相容度M(a,b)的定义可知,矩阵 腿m2xm2为非负对称矩阵。因此,根据Rayleigh商定理,当χ为矩阵鯆的主特征向量时, 叉1腿^可以取得最大值,且根据Perron-Frobenius定理,所求得的主特征向量的元素值严 格分布在区间W,l]内,这恰好符合我们之前对指示向量的定义,遂完成对最优的指示向 量χ*的求解。由于我们已经将所有候选匹配存入列表L中,于是在获得该最优解后,我们首 先搜索到该向量中的最大元素值xia*),其对应的匹配f即为最可能的匹配,遂将其保留。 然后根据一对一映射约束,我们将所有与a*相冲突的匹配从列表L中删除,同时将χ*中的 对应元素值置O。接下来,我们继续寻找χ*中的最大元素值,保留其在列表L中对应的匹配, 并删除与之相冲突的其他匹配。以此类推,循环至对所有的匹配都完成了保留或删除的操 作。最终保留下来的匹配即为所求。这样在步骤Sl中生成的每个人脸序列聚类都匹配了 一个人名,类内的人脸序列皆用该人名进行标识。以上所述,仅为本发明中的具体实施方式
,但本发明的保护范围并不局限于此,任 何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在 本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
一种对电影人脸图像进行自动标识的方法,其特征在于,该方法包括步骤如下步骤1利用多视角的人脸检测和跟踪器,在一电影视频中自动获取人脸序列,对人脸序列进行聚类以对应不同的人物;步骤2根据不同人物的人脸序列在相同场景中共同出现的频次,来度量人脸之间关系,建立人脸关系网络;步骤3利用计算机从电影剧本数据库下载并存储与所述一电影视频相对应的纯文本电影剧本,计算机统计纯文本电影剧本中不同人物的姓名在相同场景中共同出现的频次;步骤4依据所述频次来度量人名之间的关系,建立人名关系网络;步骤5计算机将人脸关系网络和人名关系网络分别表示成人脸无向图和人名无向图的形式,将人脸无向图和人名无向图进行匹配,实现人脸关系网络和人名关系网络中顶点之间的匹配,即实现将人脸和人名融合的标识。
2.如权利要求1所述的自动标识的方法,其特征在于,度量人脸之间关系时首先是统 计人脸序列聚类中包含的人脸序列在各个场景中的分布情况,得到一个人脸出现频次分布 矩阵Ofaee = [ogee]mfXnf,其中mf是人脸序列聚类的个数,nf是视频中场景的个数,矩阵 中的元素oikfara表示第i个人脸在第k个场景中出现的频次。
3.如权利要求1所述的自动标识的方法,其特征在于,计算任两个人脸在同一个场景中共同出现的频次计算方式为c| 二,其中该式表示第i和第j个人脸在第k个场景中共同出现的频次Cijk ;min(oikface,oJkface)是取第i和第j个人脸在人脸 频次分布矩阵中第k列的元素oikfara和两者中较小的值。
4.如权利要求1所述的自动标识的方法,其特征在于,两个人脸在整部电影中共同出 现的频次 ―计算方式为rfce = 2SU畔二 mm(o|fe,ofe),其中第i和第j个人脸在第k个场景中共同出现的频次是ri/ac;%min(0ikfac;%0jkfara)是取第i和第j个人脸在人脸频次分布矩阵中 第k列的元素oikfara和两者中较小的值,nf为视频中场景的个数。
5.如权利要求1所述的自动标识的方法,其特征在于,所述人脸关系网络是由邻接矩阵Rface 二 [rfee〗mfxmf来表示,邻接矩阵为mfXmf的方阵,mf为人脸序列聚类的个数,其非对角线元素为对应的两个人脸在整部电影中共同出现的频次,对角线上的元素 -为第i个人脸自身在整部电影中出现的频次。
6.如权利要求1所述的自动标识的方法,其特征在于,所述度量人名之间的关 系时首先统计每个人名在各个场景中出现的频次,得到一个人名出现频次分布矩阵= [Oiame〗mnxnn,其中mn是人名序列聚类的个数,nn是剧本中场景的个数;矩阵 中的元素oiknanre表示第i个人名在第k个场景中出现的频次。
7.如权利要求6所述的自动标识的方法,其特征在于,根据公式 rfme = mill〔off,计算两两人名之间共同出现的频次,生成人名关 系网络。
8.如权利要求7所述的自动标识的方法,其特征在于,所述人名关系网络由一个邻接矩阵<formula>formula see original document page 3</formula>来表不。
9.如权利要求1所述的自动标识的方法,其特征在于,所述人脸关系网络Rf_和人名 关系网络通过无向图来表示Gf_ = <Vf, Ef,fff>, Gname = <Vn, En,Wn> ;由于在建立人脸 关系网络与人名关系网络时,视频中人脸序列聚类的数目与剧本中人名的数目是保持一致 的,因此在用无向图来表示这两个网络时,人脸无向图和人名无向图的顶点数是一致的,统 一用m来表示,在人脸无向图Gf_中,顶= {f\,f2,...,fm}代表m个人脸,边Ef表示两 两人脸之间的关系,边的权重Wf=rfee〗记录两两人脸之间关系的密切程度,顶点的权 重记录对应的人脸在整部电影中出现的频次;在人名无向图Gn_中,顶点Vn = {ni,n2,..., nffl}代表m个人名,同样的,边En和权重Wn表示人名之间的相互关系。
全文摘要
本发明涉及一种对电影人脸图像进行自动标识的方法,该方法包括步骤1利用多视角的人脸检测和跟踪器,在电影视频中自动获取人脸序列并进行聚类以对应不同的人物;步骤2根据不同人物的人脸序列在相同场景中共同出现的频次度量人脸之间关系,建立人脸关系网络;步骤3利用计算机从电影剧本数据库下载并存储与电影视频相对应的纯文本电影剧本,计算机统计纯文本电影剧本中不同人物的姓名在相同场景中共同出现的频次;步骤4依据频次来度量人名之间的关系,建立人名关系网络;步骤5计算机将人脸关系网络和人名关系网络的人脸无向图和人名无向图进行匹配,实现人脸关系网络和人名关系网络中顶点之间的匹配,实现将人脸和人名融合的标识。
文档编号G06F17/30GK101833569SQ20101014191
公开日2010年9月15日 申请日期2010年4月8日 优先权日2010年4月8日
发明者卢汉清, 张一帆, 徐常胜, 程健 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1