互联网人物视频交互式标注方法及系统的制作方法

文档序号：6627327阅读：409来源：国知局

互联网人物视频交互式标注方法及系统的制作方法
【专利摘要】本发明公开了一种互联网人物视频交互式标注方法和系统，所述方法包括：提取待标注视频中的人脸序列和周边文本中的人名；以人名为文本关键词，利用搜索引擎获得相应人物网络图像集合；计算人脸序列的重要性得分，人脸序列的两两合并推荐得分，以及人脸序列与人物网络图像的相似性，根据上述性质，确定标注时予以显示的人脸序列、人名及人物网络图像；通过多种用户交互操作，产生相应标注行为，实现对视频中人物的标注。本发明通过挖掘多种与待标注视频及人物相关的资源，并设计友好多样的用户交互方式，可简化标注过程，辅助标注决策，有效缓解标注者不认识待标注人物，导致标注过程难以进行的问题，能够大幅度提高人物视频标注的效率和精度。
【专利说明】互联网人物视频交互式标注方法及系统

【技术领域】
[0001] 本发明涉及视频智能分析【技术领域】，更具体的说，涉及一种互联网人物视频交互式标注方法及系统。

【背景技术】
[0002] 随着互联网技术的发展和视频在线分享行为的流行，大量专业和非专业的视频被生产制作出来，上传到互联网，并被世界各地的用户所浏览和观看。由于这类视频通常嵌入在互联网网页内对外提供在线播放服务，因此被统称为互联网视频。人是互联网视频最受关注的主题之一。视频网站中有大量热点视频涉及到人，特别是名人，此外，名人的名字也一直是视频搜索引擎热门查询词的重要组成部分。
[0003] 虽然互联网人物视频广受关注，但在大规模互联网视频库中寻找感兴趣的人物视频并不是一件容易的事情。目前主流的视频搜索引擎都是通过文本关键词匹配的方法实现视频检索。对人物视频来说，这种检索方法存在如下三个方面的不足：1)互联网视频的周边文本（例如标题、标签和用户评论）通常是不完整和带有噪声的，有人出现的视频并不一定标注了该人的名字，与此对应，标注了某人名字的视频中该人不一定会出现，导致视频搜索只能找到一部分相关的视频，且检索结果中通常存在一定比例的噪声；2)周边文本是对整个视频而不是视频内片段的描述，根据人名直接定位到该人出现的视频片段仍然是主流视频网站目前所不能提供的服务，而这种服务对用户浏览视频而言无疑可以提供很大的便利；3)检索结果列表中，出现在前面的视频通常并不是最相关的，因为仅根据人名是否出现难以得到准确的查询相关度判断。因此，产业界迫切需要更加智能有效的人物视频检索、浏览和排序方法。
[0004] 解决上述问题的一个关键在于为视频中出现的人脸标注其相应的人名。换句话说，建立视频中人脸到周边文本中人名的映射关系，这一任务被一般化的称为人脸标注。虽然人脸检测和人名识别已经是比较成熟的技术，但人脸标注，特别是在人脸角度、面部表情、光照、遮挡等不受限制情况下的标注仍然是一个极具挑战的课题。在过去的数年中，针对新闻视频、电影电视剧等特定类型的视频，已经有一些有效的人脸标注方法被提出来。这些方法虽然实现上各有不同，但基本都采用了多模态信息融合的技术路线。首先，它们从新闻讲稿、语音转录文本或互联网等外部渠道获得视频所涉及主要人物（如电影的主要角色）的名字，以及视频的剧本和字幕文本，通过利用新闻讲稿或对齐剧本和字幕，得到特定人物在视频特定时间点的说话内容。同时根据视频中所检测人脸的时间点，初步建立人脸与人名的映射关系，进而利用人脸间的视觉相似性，对这一关系予以精化从而实现标注。由于新闻讲稿、剧本和字幕文本通常可以提供较为丰富和具体的人名和人物出现线索，且电影电视剧等涉及的主要人物数量通常也较为有限，上述方法可以以较高的精度实现对特定新闻节目、电影电视剧中主要人物的全自动标注。
[0005] 然而，互联网视频不同于电影电视剧。互联网视频的网页上虽然也有一些文本信息，但这些文本通常数量有限、不够准确、而且没有得到较好的组织。此外，它们出现在整个视频层次，不像字幕文本那样带有时间戳信息。这些特性决定了上述依赖富文本信息挖掘的方法难以直接推广到互联网视频上。此外，互联网视频内容包罗万象，视频可能涉及的人物涵盖社会生活的方方面面，数量极多，即使是只关注其中的名人，其数量也不是一个小数字。目前，针对大规模开放式互联网视频的人脸自动标注工作仍处在预研阶段。由于难以达到较好的标注效果，目前这方面并没有成熟的方法和系统面世。
[0006] 随着海量互联网视频沉淀在视频网站，且新视频数量还在以更快的速度增加，人物视频标注又成为摆在学术界和产业界面前一个不得不解决的问题。因此，将人引入到标注环节，以提高标注准确性为目标的交互式标注方法开始受到关注。在对天空、草地，建筑等一般性视觉概念的标注上，目前已经有一些有效的交互式标注方法被提出来，但这些方法并不能直接应用到区别标注不同人这一课题上来。究其原因，人工标注上述一般性的视觉概念是较为容易实现的，因为大部分时候仅通过常识即可区分这些概念，但对区别标注不同人物来说，即使是经验丰富的标注者，通常也只认识世界上非常少的人，而人是无法为自己不认识的人标注人名的。若像现有交互式标注系统一样，仅将包含人物的图像或视频帧及（多个）相关人名提交给标注用户，由于很大可能不认识待标注人物，用户很难像标注一般视觉概念那样去标注人物，即使需要标注的都是名人。在交互式人物标注特别是视频人物标注这一方面，目前相关的成果还非常少见。
[0007] 注意到人在图像或视频中看到不认识的人时，为弄清楚他/她是谁，采取的解决方案通常是：从周边文本中寻找人名，用找到的人名作为关键词，利用图像搜索引擎进行检索，然后通过比较搜索引擎返回的结果图像和所看图像中的人，得出图像中人是谁的判断。上述方案采用的基于文本关键词的图像检索，虽然目前也有少数"以图搜图"的检索系统，但由于搜索目标是特定人物的图像，并不要求所有结果图像与查询图像在视觉上高度相似，且视频人脸的视觉表观变化大、分辨率通常较低，也对"以图搜图"系统的精度带来挑战，这一任务上目前主要采取的还是基于文本关键词的搜索方法。由于通过搜索引擎可以找到大量的人物图像特别是名人的，上述方案很多时候不失为一种有效的帮助用户了解之前不认识人物的方法。
[0008] 人的上述做法自然可以借鉴到人物视频的交互式标注方法和系统的设计上来。标注者在进行人物标注时，同样会遇到不认识的人而不得不暂停标注，通过求助于搜索引擎等外部工具了解该人，进而继续推进标注过程。由于需要在标注和搜索比对操作中频繁切换，这一过程无疑是低效和繁琐的。若能通过文本解析和视觉分析技术，提取视频周边文本中的人名，获取相关人物网络图像并在标注过程中予以相应显示；与此同时，对视频中的人脸进行分析和处理，并以易于标注的方式展现出来，使标注者既无需切换到搜索引擎去了解待标注的人物，看到的又是更易加于决策的标注方式和经过组织并友好呈现的视频人脸图像，这样无疑可以简化标注过程，显著提高人物视频标注的效率和精度。然而，在公开的专利数据库中检索时并没有查询到专门针对视频中人物的交互式标注方法和系统，上述背景和认识正是本发明产生动机和原因。

【发明内容】

[0009] 本发明针对互联网人物视频标注时，由于标注者极有可能不认识待标注人物，导致标注过程难以进行的情况，提出一种互联网人物视频交互式标注方法及系统，通过挖掘多种与待标注视频及人物相关的资源，并设计友好多样的用户交互方式，简化标注过程，辅助标注决策，提1?人物视频标注的效率和精度，进而促进互联网人物视频的检索、浏览和排序服务水平的提升。
[0010] 为实现上述目的，本发明提供一种互联网人物视频交互式标注方法，包括以下步骤：
[0011] S1、对待标注视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合；
[0012] S2、以步骤S1得到的人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物的网络图像集合；
[0013] S3、计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与步骤S2得到的与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像；
[0014] S4、根据步骤S3显示的人脸序列、人名及人物网络图像，对人脸序列进行交互标注，进而实现对所述视频的标注。
[0015] 本发明还提出一种互联网人物视频交互式标注系统，包括：
[0016] 用于对待标注视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合的装置；
[0017] 用于以所述人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物的网络图像集合的装置；
[0018] 用于计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像的装置；
[0019] 用于显示要标注的人脸序列、人名及人物网络图像，对人脸序列进行交互标注，进而实现对所述视频进行标注的装置。
[0020] 本发明通过挖掘多种与待标注视频及人物相关的有助于标注的资源并相应设计友好多样的用户交互方式，可简化标注过程，辅助标注决策，有效缓解标注者不认识待标注人物，导致标注难以进行的问题。利用本发明，能够大幅度提高互联网人物视频标注的效率和精度，进而促进互联网人物视频的检索、浏览和排序服务水平的提升。

【专利附图】

【附图说明】
[0021] 图1为依照本发明实施例的一种互联网人物视频交互式标注方法的流程图；
[0022] 图2为依照本发明实施例的一种互联网人物视频交互式标注系统截图及相关模块说明。

【具体实施方式】
[0023] 为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。
[0024] 如图1所示，本发明的互联网人物视频交互式标注方法包括以下步骤：
[0025] S1、对视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合；
[0026] S2、以步骤S1得到的人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物的网络图像集合；
[0027] S3、计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与步骤S2得到的与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像；
[0028] S4、根据步骤S3显示的人脸序列、人名及人物网络图像，对人脸序列进行交互标注，进而实现对所述视频的标注。
[0029] 根据本发明的优选实施例，对视频进行分析，提取该视频中的人脸序列和视频周边文本中的人名的步骤S1的具体过程为：
[0030] 步骤S11、对所述视频进行镜头分割，对每个得到的镜头进行人脸检测和跟踪，获得该镜头中的人脸序列，综合所有镜头得到的人脸序列，得到该视频的人脸序列集合；
[0031] 具体实施时，首先对待标注的互联网人物视频进行镜头边界检测，根据镜头边界点将视频分解为镜头集合；然后调用计算机视觉开源库OpenCV的人脸检测函数对每个镜头进行逐帧人脸检测；接下来，采用基于检测的跟踪方法将不同视频帧上检测到的属于同一个人的人脸聚集起来，生成人脸序列。对所有镜头重复上述人脸序列的生成过程，得到该视频所有检出的人脸序列集合

【权利要求】
1. 一种互联网人物视频交互式标注方法，其特征在于，包括以下步骤： 51、对待标注视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合； 52、以步骤S1得到的人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物的网络图像集合； 53、计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与步骤S2得到的与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像； 54、根据步骤S3显示的人脸序列、人名及人物网络图像，对人脸序列进行交互标注，进而实现对所述视频的标注。
2. 根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：步骤S11、对所述视频进行镜头分割，对每个得到的镜头进行人脸检测和跟踪，获得该镜头中的人脸序列，综合所有镜头得到的人脸序列，得到该视频的人脸序列集合；步骤S12、获取所述人脸序列集合中的每个人脸序列的代表性人脸图像；步骤S13、收集视频周边文本，从该视频周边文本中提取人名。
3. 根据权利要求1所述的方法，其特征在于，所述步骤S2包括以下步骤：步骤S21、以步骤S1得到的人名集合中的人名为文本关键词，在网络上搜索并下载与所述文本关键词相关的图像；步骤S22、对所述下载的与所述文本关键词相关的图像进行人脸检测，滤除没有检测到人脸的或检测到多于一个人脸的图像；步骤S23、对所述人名集合中的所有人名重复上述步骤S21和步骤S22,得到与所述人名集合中每个人名对应的人物网络图像集合。
4. 根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：步骤S31、计算所述人脸序列集合中每个人脸序列的显著性值；步骤S32、计算所述人脸序列集合中人脸序列之间的两两相似性；步骤S33、据步骤S32得到的人脸序列两两相似性和标注时的用户交互信息，计算人脸序列的两两合并推荐得分；步骤S34、利用步骤S31得到的人脸序列显著性值，步骤S32得到的人脸序列两两相似性得分和标注时的用户交互信息，计算人脸序列的重要性得分；步骤S35、计算所述人脸序列集合中人脸序列与所述人物网络图像集合中的人物网络图像的相似度，按相似度的高低进行排序，得到每个人脸序列排序后的人名列表以及每个人名的K个最相似人物网络图像。
5. 根据权利要求4所述的方法，其特征在于，所述步骤S31中人脸序列&的显著性通过如下公式（1)计算：
(1) 其中，sizei和durai分别是人脸序列Fi的平均人脸大小和出现时间长度，sizeθ和 dura0是两个根据经验设置的阈值，分别用来控制人脸大小和出现时间对显著性计算的影响。
6. 根据权利要求4所述的方法，其特征在于，所述步骤S32中人脸序列的两两相似性通过如下公式（2)计算：
(2) 其中，timee是用来控制出现时间差值影响的阈值，Atimey是人脸序列Fi和Fj的出现时间差值，通过如下公式（3)计算：
0) 公式（3)中，
和
分别是人脸序列Fi出现的开始时间和结束时间，时间值小表明人脸序列出现在视频的前面（开始）部分；公式（2)中，COy是表示人脸序列匕和Fj出现时间是否有重叠的二值函数，若二者有重叠，则COy = 1，否则COy = 0 ;vs的，匕）是人脸序列Fi和匕的视觉相似性，用两个人脸序列的代表性人脸集合中，最相似的两个人脸的相似度表示，其计算公式为：
(4) 公式（4)中，
是人脸序列匕的第m个代表性人脸的面部特征向量。
7. 根据权利要求4所述的方法，其特征在于，所述步骤S33中人脸序列的两两合并推荐得分通过如下公式（5)计算： MS(Fi,FJ) = (l-PM^j) (5) 其中ΡΜμ是表示人脸序列匕和匕的组合是否在标注过程中，被用户"跳过"或标注为 "不同";若是则PMy = 1，否则PMy = 0 ;根据公式（5)，相似性高，且在用户标注过程中未被用户"跳过"或标注为"不同"的人脸序列两两组合将被赋予大的两两合并推荐得分；基于此，将所有得分大于等于预先给定阈值的人脸序列组合按照MS(匕，Fp值从高到低排列，得到两两合并推荐得分列表
其中Qk =<匕，匕> #
8. 根据权利要求4所述的方法，其特征在于，所述步骤S34中人脸序列的重要性得分通过如下公式（6)计算：
(6) 其中PA是表征人脸序列匕是否在标注过程中被用户"跳过"，若是则PA = 1，否则PA =〇;
和
分别是最大最小归一化后的显著性Sah和累积相关性ARy后者定义为：
(7) 其中，Lj是人脸序列Fj标注状态函数；若Fi已被标注，则Lj = 1，否则Lj = 0，将人脸序列按照重要性得分IS(Fi)从高到低排列，得到重要性得分列表
9. 根据权利要求4所述的方法，其特征在于，所述步骤S35包括以下步骤：步骤S351、计算所述人脸序列集合中人脸序列与所述人名集合中人名的两两相似性；步骤S352、根据步骤S351计算得到的相似性，对所述人名进行排序；步骤S353、计算人脸序列相对于每个人名的K个最相似人物网络图像。
10. 根据权利要求9所述的方法，其特征在于，所述步骤S351通过如下公式（8)计算人脸序列匕和人物网络图像集合的相似性，并用该相似性作为人脸序列匕和人名％的相似性：
(8) 其中
(9)
是人物网络图像集合Cj中第η个图像的人脸面部特征向量。
11. 根据权利要求10所述的方法，其特征在于，所述步骤S352对每个人脸序列匕，根据vs (匕，Νρ值从高到低对人名进行排序，得到人名序列
12. 根据权利要求11所述的方法，其特征在于，所述步骤S353对每组人脸序列和人名，例如匕和％，根据
值从高到低对&中的人物网络图像进行排序，保留K个最相似的图像，得到与匕和％对应的人物网络图像列表
13. 根据权利要求1所述的方法，其特征在于，所述步骤S4包括以下步骤：步骤S41、初始化标注过程涉及的各种资源；步骤S42、根据多种用户交互操作，产生相应标注行为；步骤S43、利用标签传播算法对其它未标注人脸序列进行标注；步骤S44、对两两合并推荐得分列表和重要性得分列表进行整理和重排序，决定下一轮用户标注时予以呈现的资源；步骤S45、重复步骤S42到步骤S44,直至所有未标注人脸序列都被标注。
14. 根据权利要求13所述的方法，其特征在于，所述步骤S41包括： 5411、令
5412、自动标注满足公式（10)所示条件的人脸序列组合％ =< Fm，Fn >，并将所有已标注组合从RankMS列表中移出 Label (Fj = Label (Fj)，if satisfies vs (Fp Fj) > Ts (10) 其中if satisfies表示"若满足"，Ts是表示两个人脸序列视觉上是否足够相似的阈值； 5413、从RankB和RankIS中分别取出排名最高的元素％ = < Fm，Fn >和F」，即当前两两合并得分最高的人脸序列组合和重要性得分最高的人脸序列，将这些资源在标注系统中予以显示； S414、取出Rank(Fj)中排名最高的人名iV/，以及
中的K个图像，将这些资源在标注系统中予以显示。
15. 根据权利要求13所述的方法，其特征在于，所述步骤S42中多种用户交互操作包括：1)将系统显示的人脸序列组合Qi =< Fm，Fn >标记为"相同"或"不同"的相似人脸合并/区别标记操作；2)选择特定人名标记人脸序列Fj的人名-人脸关联标记操作；3)选择不同人名及其人物网络图像予以显示的交互操作。
16. 根据权利要求13所述的方法，其特征在于，所述步骤S42中多种用户交互操作对应的标注行为分别是： 1) 相似人脸合并/区别标记操作对应的标注行为： a) 若用户用"相同"选项标注％，则令Label (Fm) = Label (Fn),其中Label (Fm)表示人脸序列Fm对应的人名； b) 若用户用"不同"选项标注％，则令Label (Fm)关Label (Fn)，同时令PMm,n = 1 ; c) 若用户对％选择"跳过"选项，则令PMm,n = 1 ; 2) 人名-人脸关联标记操作对应的标注行为： a) 若用户选择用人名 Nk 标记 Fj,则令 ULSets = ULSets\Fj, Label (Fj) = Nk ; b) 若用户对？」选择"跳过"选项，则令PA」=1 ; 3) 人名及人物网络图像选择操作对应的行为： a) 若用户点击"前一个"选项，则令k = k-Ι (当k > 1时），显示人名W，以及人物网络图像列表
中的K个图像； b) 若用户点击"后一个"选项，则令k = k+Ι (当k < CN时），显示人名，以及人物网络图像列表
中的Κ个图像。
17. 根据权利要求13所述的方法，其特征在于，所述步骤S43对满足一定条件的其它未标注人脸序列Fi进行自动标注的具体做法如公式（11)或（12)所示：
if satisfies
(11)
if satisfies
(12) 其中Ts是公式（10)定义的相似度阈值。
18. 根据权利要求13所述的方法，其特征在于，所述步骤S44根据标注结果，对RankMS 和RankIS进行整理和重排序的具体做法为： 1)整理：在RankMS和RankIS中分别删除满足如下公式（13)、（14)或（15)所述条件的元素 Qi = < Fm, Fn >和 Fj :
if satisfies
(13) RankMS = RankMS\Qi，if satisfies Label (Fm) = Label (Fn) (14) RankIS = RankIS\Fj，if satisfies 7'.,.任 dSt".v (15) 2)重排序：对RankMjPRankIS剩下的元素，利用公式（6)和（5)重新计算其两两合并推荐得分和重要性得分，并依此重新生成RankB和RankIS，作为下一轮交互标注时资源显示的依据。
19. 一种互联网人物视频交互式标注系统，其特征在于，包括：用于对待标注视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合的装置；用于以所述人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物的网络图像集合的装置；用于计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像的装置；用于显示要标注的人脸序列、人名及人物网络图像，对人脸序列进行交互标注，进而实现对所述视频进行标注的装置。
【文档编号】G06F17/30GK104217008SQ201410475211
【公开日】2014年12月17日申请日期:2014年9月17日优先权日:2014年9月17日
【发明者】陈智能, 白锦峰, 冯柏岚, 黄向生, 徐波申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈智能;白锦峰;冯柏岚;黄向生;徐波
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。