视频处理方法、装置、电子设备及存储介质与流程

文档序号:31677931发布日期:2022-09-28 03:38阅读:71来源:国知局
视频处理方法、装置、电子设备及存储介质与流程

1.本技术涉及人工智能及音视频处理技术领域,具体而言,本技术涉及一种视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

2.人物集锦可应用于检索、推荐和二次制作等应用领域,在广播电视、网络视听等行业得到广泛应用。
3.相关技术多利用人脸的单模态特征来进行判断,这是因为在深度学习技术的加持下,人脸检测、人脸特征提取和人脸分类/聚类等人脸视觉分析领域取得了长足的进步,某些场景下的准召率甚至能超越人工标注的表现。
4.然而,在实际应用中,视频里的人物存在各种各样的姿态、光照和变形情况,一旦出现人脸被遮挡、人物背对镜头、人物低头等情况,人脸检测就会失败,从而导致漏检的情况。


技术实现要素:

5.本技术实施例提供了一种视频处理的方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决现有技术的上述问题。技术方案如下:
6.根据本技术实施例的一个方面,提供了一种视频处理方法,该方法包括:
7.对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集、第二图像集以及参考视频帧集;第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域;第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域;参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像;
8.对于每个参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系;
9.对第一图像集中的图像进行聚类,获得至少一个第一图像簇,对第二图像集的图像进行聚类,获得至少一个第二图像簇,并对每个第一图像簇设置对象标签;
10.对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签;匹配图像为第二图像簇中具有对应关系的第二图像;
11.根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签,从目标视频中确定各个对象标签对应的目标视频片段。
12.根据本技术实施例的另一个方面,提供了一种视频处理方法,包括:
13.对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集和第二图像集;所述第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域;所述第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域;
14.以人物为单元将所述目标视频对应的音频切分为多个音频片段,对所述多个音频片段进行聚类,获得至少一个音频片段簇;对所述第一图像集中的图像进行聚类,获得至少一个第一图像簇,对所述第二图像集的图像进行聚类,获得至少一个第二图像簇,并对每个所述第一图像簇设置对象标签;
15.对于每个音频片段簇,确定所述音频片段簇与各个待匹配图像簇的匹配程度,所述待匹配图像簇包括所述第一图像簇或第二图像簇中的至少一个图像簇;
16.对于任意一个第一图像簇,将与所述第一图像簇的匹配程度符合第二预设条件的音频片段簇作为参考音频簇,将与所述参考音频簇的匹配程度符合第二预设条件的第二图像簇作为参考第二图像簇,确定所述参考音频簇对应的目标视频帧以及所述参考第二图像簇的对象标签为所述第一图像簇的对象标签;
17.根据各个第一图像簇、已确定对象标签的第二图像簇和目标视频帧对应的对象标签,从所述目标视频中确定各个对象标签对应的目标视频片段。
18.根据本技术实施例的另一个方面,提供了一种视频处理装置,该装置包括:
19.多模检测模块,用于对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集、第二图像集以及参考视频帧集;第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域;第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域;参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像;
20.对应关系确定模块,用于对于每个参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系;
21.聚类模块,用于对第一图像集中的图像进行聚类,获得至少一个第一图像簇,对第二图像集的图像进行聚类,获得至少一个第二图像簇,并对每个第一图像簇设置对象标签;
22.标签确定模块,用于对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签;匹配图像为第二图像簇中具有对应关系的第二图像;
23.视频集锦模块,用于根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签,从目标视频中确定各个对象标签对应的目标视频片段。
24.作为一种可选的方式,多模检测模块还用于:
25.以人物为单元将目标视频对应的音频切分为多个音频片段,对多个音频片段进行聚类,获得至少一个音频片段簇;
26.对于每个音频片段簇,确定音频片段簇与各个待匹配图像簇的匹配程度,待匹配图像簇包括第一图像簇或第二图像簇中的至少一个图像簇;
27.标签确定模块具体用于:
28.对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,以及第二图像簇与各个音频片段簇的匹配程度,确定第二图像簇的对象标签。
29.作为一种可选的方式,装置还包括:
30.镜头切分模块,用于以镜头为单元将目标视频切分为多个视频片段,从每个视频片段中确定预设数目的视频帧,作为至少部分视频帧;
31.视频集锦模块具体用于:
32.对于每个对象标签,将具有对象标签的第一图像簇以及第二图像簇均作为目标图像簇,将目标图像簇中每个图像所对应的视频片段作为对象标签对应的目标视频片段。
33.作为一种可选的方式,标签确定模块具体用于:若第二图像簇中的匹配图像的数量以及匹配图像对应的第一图像的对象标签的离散程度符合第一预设条件,则将所有匹配图像的对象标签中最多数量的对象标签,作为第二图像簇的对象标签。
34.作为一种可选的方式,标签确定模块具体用于:
35.若第二图像簇中匹配图像的数量或匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合第一预设条件,则根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签。
36.作为一种可选的方式,标签确定模块具体用于:
37.若第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件,则将一个第一图像簇对应的对象标签,作为第二图像簇对应的对象标签。
38.作为一种可选的方式,装置还包括:
39.图像移动模块,用于对于第二图像簇中的每个匹配图像,确定匹配图像对应的第一图像的目标对象标签,将匹配图像移动至具有目标对象标签的目标第二图像簇中。
40.作为一种可选的方式,作为一种可选的方式,标签确定模块具体用于:
41.若第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件,则对于第二图像簇中的每个非匹配图像,确定非匹配图像与各个第二图像簇的簇中心的相似度,若最大相似度与次大相似度的差值大于预设阈值,则将非匹配图像移动至最大相似度的第二图像簇;
42.其中,非匹配图像为第二图像簇中不具有对应关系的第二图像。
43.作为一种可选的方式,镜头切分模块包括:
44.置信度单元,用于通过预先训练的镜头分割模型预测每一视频帧的切分置信度;
45.滑动窗口单元,用于通过滑动窗口统计多个视频帧内切分置信度高于切分阈值的视频帧的数量,若数量超过预设值,则将滑动窗口中切分置信度最高的视频帧作为视频切分点;
46.切分模块,用于根据视频切分点对目标视频进行切分。
47.作为一种可选的方式,聚类模块包括:
48.初始特征单元,用于获得每个第一图像的第一特征以及每个第二图像的初始第二特征;
49.邻近图像对单元,用于根据每个第一图像的第一特征,确定各个最邻近第一图像对,根据每个第二图像的初始第二特征,确定各个最邻近第二图像对,每个最邻近第一图像对中的两个第一图像互为最邻近图像;每个最邻近第二图像对中的两个第二图像互为最邻近图像;
50.图像对更新单元,用于根据各个最邻近第一图像对中的两个第一图像的对应关系,更新两个第一图像对应的第二图像所在的最邻近第二图像对;
51.特征更新单元,用于对于每个第二图像,将第二图像的所有更新后的最邻近第二图像对中的最邻近图像作为目标最邻近图像,根据目标最邻近图像的初始第二特征,获得第二图像的目标第二特征;
52.聚类单元,用于对所有第一图像的第一特征进行聚类,获得至少一个第一图像簇;对所有第二图像的目标第二特征进行聚类,获得至少一个第二图像簇。
53.作为一种可选的方式,图像对更新单元具体用于:
54.对于每个最邻近第一图像对,确定最邻近第一图像对中的两个第一图像;若两个第一图像均存在对应的目标第二图像,则将两个对应的目标第二图像确定为最邻近第二图像对。
55.根据本技术实施例的另一个方面,提供了一种视频处理装置,该装置包括:
56.视频帧部位检测模块,用于对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集和第二图像集;所述第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域;所述第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域;
57.多模聚类模块,用于以人物为单元将所述目标视频对应的音频切分为多个音频片段,对所述多个音频片段进行聚类,获得至少一个音频片段簇;对所述第一图像集中的图像进行聚类,获得至少一个第一图像簇,对所述第二图像集的图像进行聚类,获得至少一个第二图像簇,并对每个所述第一图像簇设置对象标签;
58.音频匹配模块,用于对于每个音频片段簇,确定所述音频片段簇与各个待匹配图像簇的匹配程度,所述待匹配图像簇包括所述第一图像簇或第二图像簇中的至少一个图像簇;
59.多模匹配模块,用于对于任意一个第一图像簇,将与所述第一图像簇的匹配程度符合第二预设条件的音频片段簇作为参考音频簇,将与所述参考音频簇的匹配程度符合第二预设条件的第二图像簇作为参考第二图像簇,确定所述参考音频簇对应的目标视频帧以及所述参考第二图像簇的对象标签为所述第一图像簇的对象标签;
60.视频片段筛选模块,用于根据各个第一图像簇、已确定对象标签的第二图像簇和目标视频帧对应的对象标签,从所述目标视频中确定各个对象标签对应的目标视频片段。
61.作为一种可选实施例,视频帧部位检测模块,还用于:
62.获得参考视频帧集,所述参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像;
63.装置还包括:
64.对应关系模块,用于对于每个所述参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系;
65.第二图像簇标签确定模块,用于对于每个所述第二图像簇,根据所述第二图像簇中匹配图像对应的第一图像的对象标签,确定所述第二图像簇的对象标签;所述匹配图像为所述第二图像簇中具有所述对应关系的第二图像。
66.根据本技术实施例的另一个方面,提供了一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述方法的步骤。
67.根据本技术实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
68.根据本技术实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,计
算机程序被处理器执行时实现上述方法的步骤。
69.本技术实施例提供的技术方案带来的有益效果是:
70.通过对目标视频中的至少部分视频帧,进行多模态(第一部位和第二部位)检测,获得第一图像集和第二图像集以及参考视频帧集,对第一图像集和第二图像集分别进行模态内关联,获得至少一个第一图像簇和至少一个第二图像簇,对每个第一图像簇设置对象标签;利用参考视频帧集,确定属于同一个目标对象的第一图像和第二图像的对应关系,对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签,实现模态间的关联,根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签,从目标视频中确定各个对象标签对应的目标视频片段,本技术通过对多个模态的特征,进行模态内的关联以及模态间的关联,基于第一部位检测的高准确性,使得关联的第二图像簇也能够一定程度地对应对象标签,在第一部位不可见时,第二部位提供了额外的指导信息,提高了获得任务集锦的准确率和召回率。
附图说明
71.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
72.图1为本技术实施例提供的方案实施环境的示意图;
73.图2为本技术实施例提供的一种视频处理方法的流程示意图;
74.图3为本技术实施例提供的一种基于多模态特征进行对象标签识别的流程示意图;
75.图4为本技术实施例提供的一种当对象当更换多套衣服时检测的第一图像和第二图像的示意图;
76.图5为本技术实施例提供的一种多模态近邻特征优化方法的流程示意图;
77.图6为本技术实施例提供的一种视频处理方法的流程示意图;
78.图7为本技术实施例提供的一种人物素材检索的流程示意图;
79.图8为本技术实施例提供的一种只观看特定人物的视频片段的流程示意图;
80.图9为本技术实施例提供的另一种视频处理方法的流程示意图;
81.图10为本技术实施例提供的一种视频处理系统的结构示意图;
82.图11为本技术实施例提供的一种视频处理装置的结构示意图;
83.图12为本技术实施例提供的另一种视频处理装置的结构示意图;
84.图13为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
85.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
86.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但
不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
87.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
88.首先对本技术涉及的几个名词进行介绍和解释:
89.人工智能(artificial intelligence,ai),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
90.计算机视觉技术(computer vision,cv),计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本技术实施例提供的技术方案主要涉及计算机视觉技术中的图像识别、视频处理、人脸识别等技术。具体可以通过下述实施例进行说明。
91.镜头,在常见的新闻或者综艺中,镜头往往是最基本的结构单位。在同一个固定机位的镜头里,背景和出现的人物通常保持不变(对于移动机位的情况,也可以通过进一步细分该镜头确保这个前提不变)。
92.人物集锦,即一段视频中包含某个人物的影像的视频帧,所构成的集合。近年来随着深度学习的方法在数据和图像处理领域的广泛应用,越来越多的技术方案涌现了出来。现有的众多技术方案中,按照抽帧方式可分为逐帧处理和隔帧处理,按照提取的特征类型可分为基于人脸特征和基于多模态特征,按照人物帧归类策略可分为分类、检索、聚类等。
93.尽管人物集锦的解决方案层出不穷,不过相关技术方案大多遵循了如下的思路和框架,请见图1,如图所示,先按照一定的策略提取视频帧;针对这些帧,使用基于深度学习方法的检测器和特征提取器获得人物的坐标位置及特征信息,这里的特征信息包括但不限于括人脸图像特征、人头图像特征和人体图像特征中的一种或者多种;在这些图像特征的基础上,采用不同的归类策略生成人物片段集锦,例如训练一个分类器对图像特征进行分
类,根据分类结果确定视频帧对应的人物。相关技术存在以下问题:
94.其一,采用逐帧或者隔帧的抽帧方式,尽管这种方式会获得较高的准确率,但是同时也带来了过高的计算花销。事实上,在常见的新闻或者综艺节目中,镜头往往是最基本的结构单位。在同一个固定机位的镜头里,背景和出现的人物通常保持不变(对于移动机位的情况,也可以通过进一步细分该镜头确保这个前提不变)。
95.其二,目前大多数人物集锦方案只利用人脸的单模态特征来进行判断,这是因为在深度学习技术的加持下,人脸检测、人脸特征提取和人脸分类/聚类等人脸视觉分析领域取得了长足的进步,某些场景下的准召率甚至能超越人工标注的表现。然而,在实际的生产生活中,视频里的人物存在各种各样的姿态、光照和变形情况,一旦出现人脸被遮挡、人物背对镜头、人物低头等情况,人脸检测就会失败,从而导致漏检的情况。
96.其三,目前也有一些技术探索了利用多模态特征来联合建模,实现人物归类。例如,有监督的方案融合了多种模态的特征进行分类,但是这种方法需要大量的人工标注,成本较高。又如,无监督的方案采取检索或者聚类的思路,将同一个人的多种特征归类到一起,再通过一个查询的特征把该人物的所有片段找出来。这类方法的难点在于处理各个模态特征之间的优先级和冲突,当各个模态的聚类结果产生冲突时,现有方案往往会简单地以人脸聚类结果为准,或者把该人物实例丢弃。
97.本技术提供的视频处理方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,旨在解决现有技术的如上技术问题。
98.其一,本技术实施例采取了一种基于镜头分割的抽帧方式,例如,可以先使用镜头分割模型将完整的长视频切割为若干个镜头,再从每个镜头中选取一帧清晰的内部画面(也称为i帧)来代表该镜头。所有镜头的代表帧组成了待处理的视频帧,这个总数量不仅远小于逐帧或者隔帧抽帧方式所得到的待处理帧,还能更有效地保留镜头内出现的人物信息,因此对后续流程带来了很大的速度性能提升。
99.其二,本技术实施例选择了三种模态的特征——人脸特征、人体特征和人声特征。在人脸可见的情况下,以人脸图像特征为准,在人脸不可见时,人体特征和人声特征可以提供额外的指导信息,帮助召回更多的视频片段,使得人物集锦中的有效片段尽可能地得以保留。
100.此外,针对综艺视频里常见的人物换衣问题,人体特征可能会带来干扰,导致同一个人物的实例被归类到多个簇内。本技术实施例提出一种多模态top-k近邻的人体特征图优化方法,有效地改善了人物换衣问题,提升了人体图像特征的可靠性。
101.其三,本技术实施例提出了一种全新的多模态聚类融合的方式,三种模态的特征先分别进行单模态聚类,此时模态间信息不会进行交互,尽量减少模态间的信息冲突,并且可以并行处理节约时间,在融合阶段,人脸聚类结果、人体聚类结果和人声聚类结果的优先级依次降低,在前者信息缺失的情况下,后者可以为前者提供额外的指导信息,使得三种模态的聚类结果能更有效地整合到一起,并且减少引入的误差。
102.下面通过对几个示例性实施方式的描述,对本技术实施例的技术方案以及本技术的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
103.请参考图1,其示出了本技术一个实施例提供的方案实施环境的示意图。该方案实施环境可以实现成为一种视频处理系统。该方案实施环境可以包括:终端设备10和服务器20。
104.视频处理系统通过终端设备10和服务器20,实现确定、投放及存储视频内容中的各个人物的人物集锦。
105.终端设备10可以是诸如手机、平板电脑、pc(personal computer,个人计算机)、可穿戴设备、车载终端设备、vr(virtual reality,虚拟现实)设备和ar(augmented reality,增强现实)设备等电子设备,本技术对此不作限定。终端设备10中可以安装运行有目标应用程序的客户端。例如,目标应用程序可以是视频内容的播放应用程序或其他具有视频内容的播放功能的应用程序,如短视频应用程序、视频播放应用程序、视频剪辑应用程序、浏览器应用程序等,本技术对此不作限定。
106.服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云计算服务的云服务器。服务器20可以是上述目标应用程序的后台服务器,用于为目标应用程序的客户端提供后台服务。服务器20用于为发布者提供生成视频内容中的人物集锦,以及将生成的人物集锦进行投放或者存储。
107.本技术实施例中提供了一种视频处理方法,如图2所示,该方法包括:
108.s101、对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集、第二图像集以及参考视频帧集。
109.本技术实施例的目标视频可以是包含人物的广告视频(或称为“视频广告”,即是指以视频形式展现的广告),也可以是对人物进行拍摄的日常视频,如个人自拍视频、多人合拍视频等,还可以是节目视频,如综艺节目视频、人物访谈视频、新闻播报视频等等,本技术对目标视频的类型不作限定。
110.本技术对于获取至少部分视频帧的方式不作具体的限定,例如可以以间隔预设帧的方式抽取视频帧,还可以通过对目标视频对应的音频进行人声检测,每当检测当说话者变化时,抽取目标视频中对应时刻以及该时刻前后的帧。
111.本技术对抽取的视频帧,分别进行目标对象的第一部位和第二部分的检测,其中,第一部位可以是人脸,第二部分可以是人体,从而获得第一图像集、第二图像集以及参考视频帧集。
112.以第一部位为人脸为例,在进行人脸检测时,本技术实施例可以采用采取预设的神经网络模型,基于预设的人脸数据集进行预训练。在一些可选实施例中,本技术的神经网络模型可以为tinaface模型,人脸数据集可以为wider face数据集。
113.作为一种可选实施例,本技术实施例可以对每张检测出的第一部位进行质量评估,过滤掉过小、过暗、过于模糊、变形程度大的低质量第一图像,以免影响下游流程的处理效果。
114.第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域。也就是说,当一个视频帧中检测出几个目标对象的第一部位时,则该视频帧中存在几个第一图像,比如一个视频帧中检测了3个人物的第一部位,那么从该视频帧中可获取到3个第一图像。各个第一图像的原始尺寸大小不一,与对应的第一部位在视频帧中所占的像素点面积相关,一般地,图像采集设备在采集目标对象时距离越近,使得目标对象在视频帧中
的占比就越大。
115.以第二部位为人体为例,在进行人体检测时,本技术实施例可以采用采取预设的神经网络模型,基于预设的人体数据集进行预训练。在一些可选实施例中,本技术的神经网络模型可以为轻量化的目标检测模型yolo(you only look once)5,数据集可以为微软上下文公共对象(microsoft common objects in context,ms coco)数据集。
116.在一些实施例中,考虑到yolo5模型会检测出实际业务中不需要的人体结果,因此本技术实施例对人体检测结果进行了一些复杂的后处理,过滤掉低质量、不完整及非活体的人物图等等。
117.第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域。当一个视频帧中检测出几个目标对象的第二部位时,则该视频帧中存在几个第二图像。
118.本技术在进行第一部位检测和第二部位检测时,如果确定一个视频中同时存在第一图像和第二图像,则确定该视频帧为参考视频帧,并汇集至参考视频帧集合中。
119.s102、对于每个参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系。
120.考虑到第一部位和第二部位存在天然的连接关系,因此本技术实施例可以通过参考视频帧中各个第一图像和各个第二图像之间的重叠度(intersection over union,iou),当一个第一图像与一个第二图像之间的重叠度较高时,认为该第一图像和第二图像属于同一个目标对象。
121.因视频中的人物存在尺度变化,本技术实施例对标准的iou进行了修改,新的iou表示为人脸和人体面积的交集与人体面积的比值。一般在图像处理领域,二维坐标系的原点为(矩形)图像的左上角顶点,横轴的正方向由左上角顶点指向右上角顶点,纵轴的正方向由左上角顶点指向左下角顶点。
122.若第一图像的左上角坐标表示为[x1,y1,x2,y2],第二图像的右下角坐标表示为[a1,b1,a2,b2],则iou可以表示
[0123][0124]
通过上述iou的计算方法,当一个参考视频帧中存在至少一个第一图像和至少一个第二图像时,即可得到属于同一个目标对象的第一图像和第二图像,应当理解的是,一个参考视频帧中并不一定所有的第一图像和第二图像都存在对应关系,比如可能因为其他物体遮挡或者目标对象的姿态,可能会导致一个参考视频帧中只有目标对象的第一部位或者第二部位。
[0125]
s103、对第一图像集中的图像进行聚类,获得至少一个第一图像簇,对第二图像集的图像进行聚类,获得至少一个第二图像簇,并对每个第一图像簇设置对象标签。
[0126]
本技术实施例通过步骤s103对第一图像集和第二图像集分别进行模态内关联(本技术实施例的模态也即目标对象中不同部位的检测方式)。模态内关联,也即对于同一个模态的信息进行梳理,具体地,通过无监督的聚类方法,分别对第一图像集中的图像、第二图像集中的图像进行聚类,得到至少一个第一图像簇和至少一个第二图像簇,每个第一图像簇中的第一图像彼此相似,每个第二图像簇中的第二图像彼此相似。
[0127]
具体的,本技术实施例可以通过预先训练的特征提取模型,对各个第一图像集和
第二图像集中的图像进行特征提取,再利用提取的图像特征进行聚类。对于特征提取的特征提取模型本技术实施例不作具体的限定,例如,对于第一图像,可基于在ms-celeb-1m人脸数据集上预训练得到的senet50模型,提取第一图像的特征,进一步地,在预训练得到senet50模型后,可以利用vggface2人脸数据集进行微调,从而获得特征提取更加精准的第一特征提取模型。对于第二图像,可基于在大规模行人数据集last上预训练得到的resnet50模型,提取第二图像的特征。
[0128]
对于聚类方法本技术不作具体的限定,例如k-means、密度聚类、谱聚类、层次聚类等,均可应用于本技术。在对第一图像簇进行聚类后,本技术实施例对每个第一图像簇设置对象标签,由于对第一部分的检测精度较高,因此在通过聚类后,可以认为每一个第一图像簇对应一个目标对象,在对每个第一图像簇设置对象标签后,该第一图像簇中的所有图像也具有了该对象标签。
[0129]
本技术的对象标签可以仅用于区分不同的第一图像簇,在一些实施例中,也可以用于表示目标对象的身份信息。换句话说,对象标签可以为阿拉伯数字或任意以示区别的符号,也可以是目标对象的姓名或其他身份信息,本技术不作具体的限定。
[0130]
s104、对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签;匹配图像为第二图像簇中具有对应关系的第二图像。
[0131]
在进行上述模态内的关联后,可以结合属于同一个目标对象的第一图像和第二图像的对应关系,建立模态间的关联,也即建立第一图层簇和第二图像簇之间的关联关系。具体的,通过上一步确定第一图像和第二图像之间的对应关系,可以对每个第二图像簇,确定出该第二图像簇中存在对应关系的第二图像,本技术实施例称之为匹配图像。对于一个第二图像簇中的各个匹配图像,可以确定对应的第一图像(所在第一图像簇)的对象标签,确定第二图像簇的对象标签。例如,当对应的第一图像的对象标签高度集中在某一个对象标签时,可以认为第二图像簇的对象标签也即上述高度集中的对象标签。
[0132]
s105、根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签,从目标视频中确定各个对象标签对应的目标视频片段。
[0133]
每个对象标签至少对应一个第一图像簇,并且还可能对应至少一个第二图像簇,这些第一图像簇和第二图像簇称之为目标图像簇,对于目标图像簇中的每一个图像,都对应了一个视频帧,因此可以将该视频帧置于该对象标签的视频帧集合,该视频帧集合中的所有视频帧即目标视频片段。应当理解的是,一个目标视频片段中不存在重复的视频帧,例如当一个第一图像和对应的第二图像都对应一个视频帧时,由于该第一图像和第二图像都出自同一个视频帧,因此只会将该视频帧置于同一个目标视频片段中一次。
[0134]
在一些实施例中,本技术可以对目标视频中的每个视频帧设置唯一标识,并且在检测到任意一个视频帧中的第一图像和/或第二图像时,会设置第一图像和/或第二图像的唯一标识,并建立第一图像的唯一标识与视频帧的唯一标识间的对应关系,第二图像的唯一标识与视频帧的唯一标识间的对应关系,为检索视频标签对应的目标视频片段奠定基础。
[0135]
本技术实施例通过对目标视频中的至少部分视频帧,进行多模态(第一部位和第二部位)检测,获得第一图像集和第二图像集以及参考视频帧集,对第一图像集和第二图像集分别进行模态内关联,获得至少一个第一图像簇和至少一个第二图像簇,对每个第一图
像簇设置对象标签;利用参考视频帧集,确定属于同一个目标对象的第一图像和第二图像的对应关系,对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签,实现模态间的关联,根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签,从目标视频中确定各个对象标签对应的目标视频片段,本技术通过对多个模态的特征,进行模态内的关联以及模态间的关联,基于第一部位检测的高准确性,使得关联的第二图像簇也能够一定程度地对应对象标签,在第一部位不可见时,第二部位提供了额外的指导信息,提高了获得任务集锦的准确率和召回率。
[0136]
在上述各实施例的基础上,作为一种可选实施例,本方法还包括:
[0137]
以人物为单元将目标视频对应的音频切分为多个音频片段,对多个音频片段进行聚类,获得至少一个音频片段簇;
[0138]
对于每个音频片段簇,确定音频片段簇与各个待匹配图像簇的匹配程度,待匹配图像簇包括第一图像簇或第二图像簇中的至少一个图像簇。
[0139]
以人物为单元将目标视频对应的音频切分为多个音频片段,即对音频按时序进行检测,每当检测出发声对象发生变化,即对音频进行切分。本技术实施例可基于开源语音分析工具包pyannote-audio,将完整的音频内容切分为不同人物说话的音频片段(即每当说话人物发生变化,就切分出一个音频片段),并过滤掉背景的杂音,此时仅知道任意相邻的音频片段的说话人物不同,但并不知道哪个人物对应了哪个或者哪些音频片段,通过对各个音频片段进行聚类,从而获得至少一个音频片段簇,每个音频片段簇可以认为对应一个说话人物。在一些实施例中,对于有多人同时在说话的音频片段予以丢弃,避免对于后续的语音聚类造成干扰。
[0140]
对于得到的多个音频片段,本技术实施例可以进一步获得每个音频片段的语音特征,利用语音特征对多个音频片段进行聚类,获得至少一个音频片段簇,可以理解的是,一个音频片段簇中的所有音频片段的语音特征的相似度较高。本技术实施例对于语音特征提取的具体方式不作具体的限定,在一些实施例中,可基于语音数据集voxceleb2预训练的thin-resnet-34模型提取每个音频片段的语音特征。
[0141]
在综艺场景中,经常出现某位嘉宾在说话,但镜头突然切换到其它观众的情形。仅通过人脸或人体的视觉特征,几乎不可能召回这些目标人物正在说话的镜头,语音正好可以解决该痛点问题。
[0142]
对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签,包括:
[0143]
对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,以及第二图像簇与各个音频片段簇的匹配程度,确定第二图像簇的对象标签。
[0144]
本技术实施例在确定第二图像簇的对象标签时,在参考第一图像的对象标签的基础上,还考虑了第二图像簇与各个音频片断簇的匹配程度。
[0145]
由于第二图像簇中的每个图像所在的视频帧在目标视频中具有时间信息,同时音频片段簇中的每个音频片段在音频上也具有时间信息,因此可以计算第二图像簇中各个图像的时间信息与每个音频片段簇中各个音频片段的时间信息的重合度(即时序iou),作为第二图像簇与各个音频片断簇的匹配程度。当一个第二图像簇与一个音频片段簇的匹配程度较高时,可以确定该第二图像簇中的第二图像对应的对象,也即该音频片段的发声对象,
当该音频片段同时与一个第一图像簇的匹配程度较高时,也就建立了该第二图像簇和第一图像簇间的关联关系,本技术实施例利用三种模态的聚类结果来确定第二图像簇的对象标签,针对性地解决了镜头拍摄内容和音频不一致时,召回视频帧不准确的问题。
[0146]
在上述各实施例的基础上,作为一种可选实施例,对目标视频中的部分视频帧,进行目标对象的第一部位和第二部位的检测,之前还包括:
[0147]
以镜头为单元将目标视频切分为多个视频片段,从每个视频片段中确定预设数目的视频帧,作为至少部分视频帧。
[0148]
通常意义上,一个镜头是由一个摄像机捕捉到的一段时间连续、视觉连续的片段。镜头可分为短镜头和长镜头,一般时长由几秒到几分钟不等。除了移动镜头等少部分情况,在同一个镜头内,出现的主体对象往往保持不变(对于移动镜头来说,也可以通过进一步切分该镜头确保这个条件成立),因此镜头内某些清晰的帧已经包含了该镜头所出现的主体人物信息。
[0149]
基于此,本技术实施例采用了一种基于镜头分割的抽帧方式,在一些实施例中,先使用预先训练的镜头分割模型将目标视频切割为若干个镜头,再从每个镜头中采样一帧清晰的帧图像来代表该镜头。具体的,本技术实施例在获得各个镜头的视频片段后,对于每个视频片段,可以将视频片段输入至预先训练的清晰度识别模型中,获得清晰度识别模型输出的该视频片段中各帧图像的清晰度,并将最高清晰度的图像代表该镜头。在一些实施例中,还可以将视频片段中的帧图像依次输入至清晰度识别模型中,当出现首个清晰度超过预设清晰度阈值的帧图像时,将该帧图像代表该镜头。也即,本技术实施例可以对每个镜头中的第一帧清晰的内部画面代表该镜头。
[0150]
具体可通过如下方式训练得到清晰度识别模型:首先,收集一定数量的样本图像,获取每个样本图像的清晰度,随即,基于样本图像以及样本图像的清晰度对初始模型进行训练,其中,以样本图像作为训练样本,以样本图像的清晰度作为样本标签,从而得到清晰度识别模型。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
[0151]
在一些可选实施例中,本技术实施例可以使用视频片段中的i帧代表镜头,i帧(i frame)又称为内部画面(intra picture),i帧通常是每个gop,的第一个帧,经过适度地压缩,做为随机访问的参考点,可以当成图像。在视频传输领域,视频发送端发送给接收端,并不是每次都把完整的一幅幅图片发送到远端,而只是发送后一幅画面在前一幅画面基础上发生变化的部分,而i帧即是所有画面的参考点,本技术实施例直接将i帧代表镜头,可以省略对各视频片段中视频帧的清晰度检测的步骤,显著提升视频处理效率。
[0152]
本技术实施例相对于传统的逐帧或者隔帧抽帧方式,基于镜头分割的抽帧方式利用了各个镜头的视觉特征来智能化地压缩待处理数据量,减少特征的冗余,更有效地保留镜头内出现的人物信息,因此对下游流程带来了很大的速度性能提升。
[0153]
在上述各实施例的基础上,作为一种可选实施例,从目标视频中确定各个对象标签对应的目标视频片段,包括:
[0154]
对于每个对象标签,将具有对象标签的第一图像簇以及第二图像簇均作为目标图像簇,将目标图像簇中每个图像所对应的视频片段作为对象标签对应的目标视频片段。
[0155]
应当理解的是,本技术实施例每个第一图像簇都具有对应的对象标签,当存在至
少一个第二图像簇与第一图像簇具有同样的对象标签时,则该对象标签的目标图像簇即包括第一图像簇,也包括第二图像簇,当不存在第二图像簇与第一图像簇具有同样的对象标签时,则该对象标签的目标图像簇只包括第一图像簇。由于目标图像簇中每个图像都是从一个镜头的视频片段中选取的一个视频帧中提取的,因此当该图像具有对象标签时,该图像所在的视频帧也同样具有该对象标签,进一步该视频帧所在的视频片段也同样具有该对象标签。本技术通过以镜头为单元,将目标视频切分为多个视频片段,从每个视频片段中确定预设数目的视频帧,利用镜头中的对象通常固定不变的先验知识,当一个视频帧中确定对应某一或某些对象标签的图像时,则认为整个镜头的视频片段也对应某一或某些对象标签,从而答复提升了获得对象的视频帧集锦的效率。
[0156]
在上述各实施例的基础上,作为一种可选实施例,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签,包括:
[0157]
若第二图像簇中的匹配图像的数量以及匹配图像对应的第一图像的对象标签的离散程度符合第一预设条件,则将所有匹配图像的对象标签中最多数量的对象标签,作为第二图像簇的对象标签。
[0158]
本技术实施例在基于第一图像簇的对象标签,确定第二图像簇的对象标签时,考虑了两个信息,一个是匹配图像的数量——匹配图像的数量越多,说明该第二图像簇中具有明确的第一部位和第二部位的对应关系的第二图像越多,也就说明该第二图像簇中具有明确的对象标签的第二图像越多(这些具有对应关系的第二图像具有极大的概率是与对应的第一图像的对象标签相同),另一个是匹配图像对应的第一图像的对象标签的离散程度,离散程度越高,说明第二图像簇中混杂的对象的数量越多,该第二图像簇对应同一个对象标签的可能性越低。在一些实施例中,当第二图像簇中的匹配图像的数量占该第二图像簇中的图像的总量的比例超过第一数值,且离散程度小于第二数值,则确定该第二图像簇的第二图像比较统一,均对应同一个对象标签,将所有匹配图像的对象标签中最多数量的对象标签,作为第二图像簇的对象标签。
[0159]
本技术实施例通过确定第二图像簇中匹配图像的数量和对应的第一图像的对象标签的离散程度,匹配图像的数量越多,表示该第二图像簇中具有明确对象标签的第二图像越多,离散程度越小,表示该第二图像簇对应同一个对象标签的概率以及该第二图像簇中各第二图像对应的对象标签的可靠性越大。本技术提供了基于对应关系确定第二图像簇的对象标签的可行性方案。
[0160]
在上述各实施例的基础上,作为一种可选实施例,根据第二图像簇中匹配图像对应的第一图像的对象标签,以及每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,包括:
[0161]
若第二图像簇中匹配图像的数量或匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合第一预设条件,则根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签。
[0162]
本技术实施例的三种模态的融合过程采用了逐级融合的方式,先利用第一图像簇确定各个对象的最准确的图像,然后利用第一图像和第二图像的对应关系,确定与各个对象对应的第二图像簇,这一步的准确率虽然无法等同于利用第一图像簇确定各个对象的图像,但准确率仍然较高,具有可行性,且能够挖掘出对象在第一部位不清楚或未出现时的视
频帧,对于无法利用对应关系确定出对应的对象的第二图像簇,则需要进一步借助音频簇进行判断。
[0163]
需要说明的是,当第二图像簇中匹配图像的数量或匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合第一预设条件时,说明第二图像簇中各图像的对象标签可靠性偏低,此时利用音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,体现了逐级确定第二图像簇对应的人物标签的思想,可有效提高识别效率。
[0164]
在上述各实施例的基础上,作为一种可选实施例,根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,包括:
[0165]
若第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件,则将一个第一图像簇对应的对象标签,作为第二图像簇对应的对象标签。
[0166]
在本技术实施例,可以计算图像簇中各图像对应的视频帧的时间与音频片段簇中各音频片段的时间的重合度,例如,若图像簇中存在3个图像,3个图像对应的视频帧的时间为15:12、16:30和17:58,而音频片段簇中的3个音频片段的时间为[15:10,15:14]、[16:29,16:31]、[17:58,18:01],3个视频帧的时间分别位于3个音频片段的时间内,因此可以认为每个图像均存在匹配的音频,图像簇和音频片段簇的匹配程度为100%。
[0167]
当第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件,则可以认为第二图像簇在时间上与第一图像簇存在高度的重合,因此可以将第二图像簇的对象标签设置为该第一图像簇对应的对象标签。
[0168]
在上述各实施例的基础上,作为一种可选实施例,根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,之前还包括:
[0169]
对于第二图像簇中的每个匹配图像,确定匹配图像对应的第一图像的目标对象标签,将匹配图像移动至具有目标对象标签的目标第二图像簇中。
[0170]
在本技术实施例,如果通过第一图像和第二图像间的对应关系无法确定第二图像簇的对应关系,则可以先确定匹配图像对应的第一图像的目标对象标签,然后将匹配图像,移动至具有目标对象标签的目标第二图像簇中。
[0171]
在实际应用中,上述情况常出现在某一对象出现了变装,且变装出现的时间较短的情形,如果已经确定了第一图像和第二图像的对应关系,先确定第一图像所在的图像簇的目标对象标签,可以明确知道该第一图像对应的对象,然后确定具有该目标对象标签的目标第二图像簇,即找到了该对象的第二部位的特征集合,将该第二图像移动至目标第二图像簇,实现了识别对象出现变装时的视频帧。
[0172]
在上述各实施例的基础上,作为一种可选实施例,根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,包括:
[0173]
若第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件,则对于第二图像簇中的每个非匹配图像,确定非匹配图像与各个第二图像簇的簇中心的相似度,若最大相似度与次大相似度的差值大于预设阈值,则将非匹配图像移动至最大相似度的第二图像簇。
[0174]
在本技术实施例中,若一个第二图像簇既没有基于对应关系确定出对象标签,也没有基于与音频片段簇的匹配程度确定出对象标签,则可以任务该第二图像簇中的非匹配图像为异常图像,对于异常图像,本技术计算其与各个第二图像簇的簇中心的相似度,其
中,簇中心为第二图像簇的中心特征进行表示,若最大相似度与次大相似度的差值大于预设阈值,则将非匹配图像移动至最大相似度的第二图像簇。该方法基于的假设是当一个样本属于某个簇,其应该靠近所属簇中心,同时足够远离其它簇的中心。通过三种模态的综合判定,可以较为准确地分配异常图像的人体标签。
[0175]
请参见图3,其示例性地示出了本技术实施例的基于多模态特征进行对象标签识别的流程示意图,如图所示,包括:
[0176]
对第一图像集中的图像进行聚类,获得至少一个第一图像簇,由于第一图像集中的各个图像是基于对第一部位的检测确定的,而对第一部位的检测的准确率相当高,因此认为对第一图像集的分类结果的准确率也相当高,进而可以对每个第一图像簇设置对象标签;
[0177]
对第二图像集的图像进行聚类,获得至少一个第二图像簇,由于第二图像簇中各个图像是基于对第二部位的检测确定的,而对第二部位的检测的准确率相比对第一部位的准确率要低,并且在视频中常常出现部分对象更换衣服的情况,因此并不能认为直接认定不同的第二图像簇对应的是不同的对象;
[0178]
对于每个参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系;
[0179]
根据第二图像簇中的匹配图像的数量以及匹配图像对应的第一图像的对象标签的离散程度,判断第二图像簇中各匹配图像对应的第一图像的对象标签是否可靠;
[0180]
若可靠,则将所有匹配图像的对象标签中最多数量的对象标签,作为第二图像簇的对象标签;
[0181]
若不可靠,则确定匹配图像对应的第一图像的目标对象标签,将匹配图像移动至具有目标对象标签的目标第二图像簇中;
[0182]
确定各个第一图像簇和各个音频片段簇在时序上的匹配程度,若第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件,则将一个第一图像簇对应的对象标签,作为第二图像簇对应的对象标签;
[0183]
若第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件,则对于第二图像簇中的每个非匹配图像,确定非匹配图像与各个第二图像簇的簇中心的相似度,若最大相似度与次大相似度的差值大于预设阈值,则将非匹配图像移动至最大相似度的第二图像簇;
[0184]
其中,非匹配图像为第二图像簇中不具有对应关系的第二图像。
[0185]
在上述各实施例的基础上,作为一种可选实施例,以镜头为单元将目标视频切分为多个视频片段,包括:
[0186]
s201、通过预先训练的镜头分割模型预测每一视频帧的切分置信度;
[0187]
s202、通过滑动窗口统计多个视频帧内切分置信度高于切分阈值的视频帧的数量,若数量超过预设值,则将滑动窗口中切分置信度最高的视频帧作为视频切分点;
[0188]
s203、根据视频切分点对目标视频进行切分。
[0189]
相关技术中已经公开了很多种镜头分割模型,通过向镜头分割模型输入视频,镜头分割模型能够输出该视频中每一视频帧的切分置信度,切分置信度越高,则以该视频帧作为视频切分点的概率越大,一般地可以将切分置信度高于阈值的视频帧,作为视频切分
点,在切分时,每当遇到视频切分点,则基于预设的规则将视频切分点作为视频片段的首个帧或者最后一帧。
[0190]
在一些实施例中,本技术可采用镜头分割模型transnetv2预测每一视频帧的切分置信度。
[0191]
需要注意的,一般的镜头分割模型采用了固定的切分阈值,只要高于切分阈值的视频帧帧一律作为视频切分点。然而,在很多视频场景中,例如广电或综艺视频里,普遍存在移动镜头和特殊转场镜头,在这些镜头内的帧往往切分置信度都比较高,如果采用固定的切分阈值,会导致镜头被切分得过于细碎,甚至出现丢失重要帧的情况。
[0192]
针对上述问题,本技术在固定切分阈值的基础上进行了优化,采用滑动窗口统计一段视频帧内高于切分阈值的视频帧的数量,如果该数量较多,则判定为存在移动镜头和特殊转场镜头,因而只选择滑动窗口内置信度最高的帧作为切分点。经过验证,本技术实施例的基于滑动窗口动态选择视频切分点的方法使得镜头切分的鲁棒性得到了显著的提升。
[0193]
在广电或综艺场景中,同一位对象出席不同活动或者参加不同节目通常着装不同,导致仅通过外观特征难以召回换衣后的样本。请参见图4,其示例性地示出了某位对象在一场节目中更换了多套衣服(以衣服上的不同图案进行表示)时识别的第一图像和第二图像,出于绘图时简单考虑,本实施例中假设采样时对象都保持同一个动作,有些镜头对象的面部背对或侧对摄像机,导致识别不到有效人脸,图中
“×”
表示识别不到人脸。如果仅通过身体服饰特征来召回换衣后的样本是非常有挑战性的。
[0194]
针对该问题,本技术实施例提供了一种多模态近邻特征优化方法,该方法包括3个部分,分别为模态内关联、模态间关联以及第二特征(即第二部位的特征)更新,具体的,如图5所示,包括:
[0195]
s301、获得每个第一图像的第一特征以及每个第二图像的初始第二特征。
[0196]
应当理解的是,本技术中第一图像的第一特征,即第一图像中第一部位的特征,第二图像的初始第二特征,即第二图像中第二部位的初始特征,以第二图像为例,若第二图像的总数为n,则所有第二图像的初始第二特征的集合可以表示为fb=[f1,f2,...,fn]。
[0197]
s302、根据每个第一图像的第一特征,确定各个最邻近第一图像对,根据每个第二图像的初始第二特征,确定各个最邻近第二图像对,每个最邻近第一图像对中的两个第一图像互为最邻近图像;每个最邻近第二图像对中的两个第二图像互为最邻近图像。
[0198]
本技术在计算每个图像的最邻近图像时,可以以欧式距离进行衡量,当然,也可以以其他距离,例如马氏距离、余弦距离等等,本技术实施例不作具体的限定。
[0199]
以第二图像的初始第二特征的集合为例,可以获得任意两个第二图像之间的距离构成的矩阵:
[0200][0201]
以d12为例,d12即表示第二图像1的初始第二特征与第二图像2的初始第二特征间的距离。
[0202]
矩阵dn×n中的每一行表示为一个第二图像的距离向量,即对应一个第二图像与所有第二图像的距离。对距离向量中的n个值按大小进行排序,可得到每个第二图像的k个最
近邻图像(top-k近邻)。
[0203]
若两个第二图像互为最邻近图像,则两个第二图像可构成一个最邻近第二图像对。例如,若第二图像i的k个最邻近图像中包括第二图像j,同时第二图像j的k个各最邻近图像中包括第二图像i,则第二图像i和第二图像j构成一个最邻近第二图像对。
[0204]
类似地,可以通过上述方法确定各个最邻近第一图像对。
[0205]
s303、根据各个最邻近第一图像对中的两个第一图像的对应关系,更新两个第一图像对应的第二图像所在的最邻近第二图像对。
[0206]
在一些实施例中,对于每个最邻近第一图像对,确定最邻近第一图像对中的两个第一图像;若两个第一图像均存在对应的目标第二图像,则将两个对应的目标第二图像确定为最邻近第二图像对。具体而言,若第一图像a和第一图像b为一对最邻近第一图像对,并且第一图像a与第二图像i存在对应关系,第一图像b与第二图像j存在对应关系,那么认为第二图像i和第二图像j也为最邻近第二图像对。若通过步骤s402没有将第二图像i和第二图像j作为最邻近第一图像对,则需要创建为第二图像i和第二图像j组成的最邻近第二图像对。
[0207]
s304、对于每个第二图像,将第二图像的所有更新后的最邻近第二图像对中的最邻近图像作为目标最邻近图像,根据目标最邻近图像的初始第二特征,获得第二图像的目标第二特征。
[0208]
本技术实施例更新完第二图像的最邻近第二图像对后,即可对第二图像的初始的第二特征进行更新,具体地,可以根据以下公式计算:
[0209][0210]
其中,fi表示第i个第二图像,α∈(0,1),表示权重系数,βm表示第m个最邻近图像对中的最邻近图像的权重,该值与距离呈反比,并且满足β1+β2+

+βm=1,m表示第i个第二图像的最邻近第二图像对的总数。
[0211]
s305、对所有第一图像的第一特征进行聚类,获得至少一个第一图像簇;对所有第二图像的目标第二特征进行聚类,获得至少一个第二图像簇。
[0212]
请参见图6,其示例性地示出了本技术另一个实施例的视频处理方法的流程示意图,如图所示,该方法总归包括5个步骤,分别为基于镜头分割的抽帧、多模态检测、特征提取(embedding)、多模态特征优化以及多模态融合。
[0213]
具体地,对于基于镜头分割的抽帧的步骤:
[0214]
本技术实施例以镜头为单元将目标视频切分为多个视频片段,从每个视频片段中确定预设数目的视频帧,作为至少部分视频帧;
[0215]
对于多模态检测的步骤:
[0216]
本技术实施例对抽取的视频帧进行目标对象的第一部位和第二部位的检测,获得第一图像集和第二图像集;针对目标视频对应的音频,本技术实施例以人物为单元将音频切分为多个音频片段,获得音频片段集;
[0217]
对于特征提取的步骤:
[0218]
本技术实施例对第一图像集中的图像进行特征提取,获得第一特征集,对第二图
像集中的图像进行特征提取,获得第二特征集;对每个音频片段进行声纹识别,获得声纹特征集;
[0219]
对于多模态特征优化的步骤:
[0220]
本技术通过参考视频帧确定属于同一个目标对象的第一图像和第二图像的对应关系,并且分别对第一特征集和第二特征集进行模态内的关联,即基于top-k近邻算法确定各个最邻近第一图像对和最邻近第二图像对;再根据各最邻近第一图像对和对应关系更新最邻近第二图像对;利用更新后的最邻近第二图像对更新第二图像的第二特征;
[0221]
对于多模态融合的步骤:
[0222]
本技术实施例对第一图像集中的图像进行聚类,获得至少一个第一图像簇,对第二图像集的图像进行聚类,获得至少一个第二图像簇,对多个音频片段进行聚类,获得至少一个音频片段簇;对每个第一图像簇设置对象标签;
[0223]
若第二图像簇中的匹配图像的数量以及匹配图像对应的第一图像的对象标签的离散程度符合第一预设条件,则将所有匹配图像的对象标签中最多数量的对象标签,作为第二图像簇的对象标签;
[0224]
若第二图像簇中匹配图像的数量或匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合第一预设条件,则确定匹配图像对应的第一图像的目标对象标签,将匹配图像移动至具有目标对象标签的目标第二图像簇中;
[0225]
若第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件,则将一个第一图像簇对应的对象标签,作为第二图像簇对应的对象标签;
[0226]
若第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件,则对于第二图像簇中的每个非匹配图像,确定非匹配图像与各个第二图像簇的簇中心的相似度,若最大相似度与次大相似度的差值大于预设阈值,则将非匹配图像移动至最大相似度的第二图像簇。
[0227]
本技术的应用场景为人物素材检索、视频播放人物“只看”、视频内容推荐等。
[0228]
人物素材检索,指根据人物的唯一标识进行人物的高效检索,可定位到不同粒度(视频、时间区间、帧),支撑人物维度的二次制作,如图7所示,通过本技术实施例提供的视频处理方法对视频进行处理,获得多个对象的视频片段,也即人物集锦,并将各个人物集锦存储至媒体库中,当检测方想要检索某个对象的人物集锦时,则向媒体库发送检索请求,例如获取王五的人物集锦,媒体库根据检索请求获取王五的人物集锦并返回检索方。
[0229]
视频播放人物“只看”,指在视频播放的过程中,支持通过人物标签进行内容的快速跳转或内容的筛选。呈现的效果如图8所示。当观众确定只观看综艺节目中的角色“张三”时,则在视频播放的时间轴上仅对出现“张三”的视频帧进行展示,对未出现“张三”的视频帧则做灰度处理或隐藏处理,用户将无法选定未出现“张三”的视频帧,从而当用户对时间轴进行滑动时,只会跳转到出现“张三”的视频帧并进行播放。
[0230]
请参见图9,其示例性地示出了本技术另一个实施例的视频处理方法的流程示意图,如图所示,包括:
[0231]
s401、对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集和第二图像集;第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域;第二图像集中的每个第二图像为一个视频帧中一个目标对
的视频帧,即将仅出现对象声音的视频帧也归于该对象的视频集锦中,丰富了视频集锦的内容。
[0242]
在上述各实施例的基础上,作为一种可选实施例,对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,还包括:
[0243]
获得参考视频帧集,参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像。
[0244]
本技术实施例获得参考视频帧集的方式可参考上述各个实施例,在此不再赘述。
[0245]
本技术实施例的方法还包括:
[0246]
对于每个参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系;
[0247]
对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签;匹配图像为第二图像簇中具有对应关系的第二图像。
[0248]
本技术实施例通过参考视频帧确定第一图像和第二图像间属于同一目标对象的对应关系,从而利用该对应关系,实现第二图像簇和第一图像簇的关联,确定第二图像簇的对象标签。
[0249]
在上述各实施例的基础上,作为一种可选实施例,对目标视频中的部分视频帧,进行目标对象的第一部位和第二部位的检测,之前还包括:
[0250]
以镜头为单元将目标视频切分为多个视频片段,从每个视频片段中确定预设数目的视频帧,作为至少部分视频帧;
[0251]
在上述各实施例的基础上,作为一种可选实施例,从目标视频中确定各个对象标签对应的目标视频片段,包括:
[0252]
对于每个对象标签,将具有对象标签的第一图像簇以及第二图像簇均作为目标图像簇,将目标图像簇中每个图像所对应的视频片段作为对象标签对应的目标视频片段。
[0253]
根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签,包括:
[0254]
若第二图像簇中的匹配图像的数量以及匹配图像对应的第一图像的对象标签的离散程度符合第一预设条件,则将所有匹配图像的对象标签中最多数量的对象标签,作为第二图像簇的对象标签。
[0255]
在上述各实施例的基础上,作为一种可选实施例,根据第二图像簇中匹配图像对应的第一图像的对象标签,以及每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,包括:
[0256]
若第二图像簇中匹配图像的数量或匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合第一预设条件,则根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签。
[0257]
在上述各实施例的基础上,作为一种可选实施例,根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,包括:
[0258]
若第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件,则将一个第一图像簇对应的对象标签,作为第二图像簇对应的对象标签
[0259]
在上述各实施例的基础上,作为一种可选实施例,根据每个音频片段簇与各个待
匹配图像簇的匹配程度,确定第二图像簇的对象标签,之前还包括:
[0260]
对于第二图像簇中的每个匹配图像,确定匹配图像对应的第一图像的目标对象标签,将匹配图像移动至具有目标对象标签的目标第二图像簇中。
[0261]
在上述各实施例的基础上,作为一种可选实施例,根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签,包括:
[0262]
若第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件,则对于第二图像簇中的每个非匹配图像,确定非匹配图像与各个第二图像簇的簇中心的相似度,若最大相似度与次大相似度的差值大于预设阈值,则将非匹配图像移动至最大相似度的第二图像簇;
[0263]
其中,非匹配图像为第二图像簇中不具有对应关系的第二图像。
[0264]
下面结合一个具体的应用场景说明本技术的视频处理方法,请参见图10,其示例性地示出了本技术的一种视频处理系统的结构示意图,该视频处理系统包括用户终端、视频数据库、特征检测服务器、视频服务器。
[0265]
用户终端可以通过网络与视频服务器通信连接,用户终端可以是任一视频浏览者的用户终端。本技术实施例对用户终端上运行的视频播放应用的类型不作限定,可以是需要用户下载安装的视频播放应用,也可以是云视频播放应用,还可以是小程序中的视频播放应用,用户终端在视频播放应用运行时,通过网络向视频服务器发送视频播放请求,视频服务器根据视频播放请求,从视频数据库中获取对应的目标视频以及该目标视频的相关信息,并返回用户终端,目标视频的相关信息可以包括该目标视频的各个角色信息。
[0266]
用户终端能够播放该目标视频,响应于视频浏览者从主角信息中选择相关至少一个目标角色,生成视频集锦获取请求,视频集锦获取请求中包括目标角色信息。
[0267]
视频服务器将目标视频发送至特征检测服务器,特征检测服务器中包括预先训练的镜头分割模型、第一部位检测模型、第二部位检测模型以及声纹检测模型,通过镜头分割模型将目标视频以镜头为单元进行切分,获得多个视频片段,将各个视频片段分别发送至第一部位检测模型和第二部位检测模型,获得第一图像集和第二图像集,并且根据第一图像集和第二图像集中各图像所在的视频帧,可获得参考视频帧集;声纹检测模型将目标视频对应的音频以人物为单元将所述目标视频对应的音频切分为多个音频片段;第一部位检测模型、第二部位检测模型以及声纹检测模型还可以分别对第一图像、第二图像以及音频片段进行特征提取,获得对应的第一特征、第二特征以及声纹特征;
[0268]
视频服务器通过对所述第一图像集中的图像进行聚类,获得至少一个第一图像簇,对所述第二图像集的图像进行聚类,获得至少一个第二图像簇,对声纹特征进行聚类,获得至少一个音频片段簇,对每个所述第一图像簇设置对象标签,对于每个第二图像簇,根据所述第二图像簇中匹配图像对应的第一图像的对象标签,以及所述第二图像簇与各个音频片段簇的匹配程度,确定所述第二图像簇的对象标签。
[0269]
视频服务器将目标角色对应的对象标签作为目标对象标签,将具有目标对象标签的第一图像簇和第二图像簇作为目标图像簇,将目标图像簇中每个图像所对应的视频片段作为所述对象标签对应的目标视频片段,根据目标视频片段生成人物集锦返回至用户终端。
[0270]
由此可知,在人物集锦的这个任务里,输入数据是一段完整的视频,输出结果是这
段视频里待查找人物或者主要人物有效出现的所有时间段。
[0271]
若一段完整视频s是由n帧组成的序列[f1,f2,...fn],第i帧fi在时间轴上代表一个时间点ti,因此这段视频也可以表示为一个时间点序列[t1,t2,...tn]。设m个待查找的主要人物表示为p1,p2,...pm,经过本技术实施例处理后,可输出每个主要人物有效出现的所有时间点,组成一个子序列[t1,t2,...ti]。例如,对于第j个主要人物而言,该过程可表示为:
[0272]
g(s,pj)=[t1,t2,...ti]
[0273]
进一步简化表示,如果在一个时间段内,该主要人物出现在了每一帧里,则可将这个时间段内的所有时间点表示为一个闭区间[ts,te],其中ts和te表示该主要人物在这个时间段首次出现的时间点和最后出现的时间点。上式可转化为:
[0274]
g(s,pj)=[[t1,ti]]
[0275]
本技术实施例采取了基于镜头分割的抽帧方式,比起传统的逐帧或者隔帧抽帧方式,不仅抽帧总数量大幅减少,还能更有效地保留镜头内出现的人物信息。因此,下游的处理数据量也有了明显的下降,算法的总体效率得到了显著的提升。
[0276]
本技术实施例还开展了一个测试实验来说明基于镜头分割的抽帧方式对于算法效率的提升。以一个时长90分钟的长综艺视频作为测试视频,总帧数为137014,基于镜头分割的抽帧方式提取了1475帧图像,对比的隔帧抽帧方式每隔1秒提取一帧图像,总共提取了5229帧图像。
[0277]
除了抽帧方法以外,两种方案在后续的流程上保持一致。表1展示了两种方案在算法各个部分的耗时(涉及深度学习模型推理的部分运行在一张tesla v100显卡上):
[0278][0279][0280]
表1 不同抽帧方式的耗时比较表
[0281]
由表1可知,本技术实施例基于镜头分割的抽帧方式比隔帧抽帧方式节约了将近三分之二的处理时间,极大地提升了算法的处理效率。
[0282]
进一步地,本技术采取了基于多模态特征的聚类融合方案,比起相关技术仅基于人脸单模态特征聚类,可显著提高人物集锦的准确率和召回率。
[0283]
为了说明本方案在算法性能上的提升,发明人开展了一个测试实验。以15个综艺长视频作为测试视频,评价指标为实例级别的pairwise f-score、bcubed f-score、nmi和镜头级别的shot recall,实验结果为15个视频的平均评价结果。方案一只利用了人脸单模态特征进行聚类,方案二则对多个模态的特征进行聚类,而后融合多个聚类结果。以下表格
展示了两种方案的算法性能表现(涉及深度学习模型推理的部分运行在一张tesla v100显卡上):
[0284][0285]
表2 不同聚类方式的性能比较表
[0286]
表2中,pairwise f分值表用于衡量分类的准确性,bcubed f分值综合衡量了分类的召回率和准确率,标准化互信息用于衡量评估聚类结果的相似程度,镜头召回率用于衡量所有准确的人物集锦有多少被检索出来。从结果中可以看出,方案二比方案一取得了更高的准确率和召回率,尤其在镜头召回率这项指标上获得了约12个百分点的提升,这个结果进一步说明了多模态信息对于复杂场景下的人物集锦是十分重要的。
[0287]
本技术实施例提供了一种视频处理装置,如图11所示,该视频处理装置可以包括:多模检测模块101、对应关系确定模块102、聚类模块103、标签确定模块104以及视频集锦模块105,其中,
[0288]
多模检测模块101,用于对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集、第二图像集以及参考视频帧集;第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域;第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域;参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像;
[0289]
对应关系确定模块102,用于对于每个参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系;
[0290]
聚类模块103,用于对第一图像集中的图像进行聚类,获得至少一个第一图像簇,对第二图像集的图像进行聚类,获得至少一个第二图像簇,并对每个第一图像簇设置对象标签;
[0291]
标签确定模块104,用于对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签;匹配图像为第二图像簇中具有对应关系的第二图像;
[0292]
视频集锦模块105,用于根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签,从目标视频中确定各个对象标签对应的目标视频片段。
[0293]
本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
[0294]
在上述各实施例的基础上,作为一种可选实施例,多模检测模块还用于:
[0295]
以人物为单元将目标视频对应的音频切分为多个音频片段,对多个音频片段进行聚类,获得至少一个音频片段簇;
[0296]
对于每个音频片段簇,确定音频片段簇与各个待匹配图像簇的匹配程度,待匹配图像簇包括第一图像簇或第二图像簇中的至少一个图像簇;
[0297]
标签确定模块具体用于:
[0298]
对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,以及第二图像簇与各个音频片段簇的匹配程度,确定第二图像簇的对象标签。
[0299]
在上述各实施例的基础上,作为一种可选实施例,装置还包括:
[0300]
镜头切分模块,用于以镜头为单元将目标视频切分为多个视频片段,从每个视频片段中确定预设数目的视频帧,作为至少部分视频帧;
[0301]
视频集锦模块具体用于:
[0302]
对于每个对象标签,将具有对象标签的第一图像簇以及第二图像簇均作为目标图像簇,将目标图像簇中每个图像所对应的视频片段作为对象标签对应的目标视频片段。
[0303]
在上述各实施例的基础上,作为一种可选实施例,标签确定模块具体用于:若第二图像簇中的匹配图像的数量以及匹配图像对应的第一图像的对象标签的离散程度符合第一预设条件,则将所有匹配图像的对象标签中最多数量的对象标签,作为第二图像簇的对象标签。
[0304]
在上述各实施例的基础上,作为一种可选实施例,标签确定模块具体用于:
[0305]
若第二图像簇中匹配图像的数量或匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合第一预设条件,则根据每个音频片段簇与各个待匹配图像簇的匹配程度,确定第二图像簇的对象标签。
[0306]
在上述各实施例的基础上,作为一种可选实施例,标签确定模块具体用于:
[0307]
若第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件,则将一个第一图像簇对应的对象标签,作为第二图像簇对应的对象标签。
[0308]
在上述各实施例的基础上,作为一种可选实施例,装置还包括:
[0309]
图像移动模块,用于对于第二图像簇中的每个匹配图像,确定匹配图像对应的第一图像的目标对象标签,将匹配图像移动至具有目标对象标签的目标第二图像簇中。
[0310]
在上述各实施例的基础上,作为一种可选实施例,在上述各实施例的基础上,作为一种可选实施例,标签确定模块具体用于:
[0311]
若第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件,则对于第二图像簇中的每个非匹配图像,确定非匹配图像与各个第二图像簇的簇中心的相似度,若最大相似度与次大相似度的差值大于预设阈值,则将非匹配图像移动至最大相似度的第二图像簇;
[0312]
其中,非匹配图像为第二图像簇中不具有对应关系的第二图像。
[0313]
在上述各实施例的基础上,作为一种可选实施例,镜头切分模块包括:
[0314]
置信度单元,用于通过预先训练的镜头分割模型预测每一视频帧的切分置信度;
[0315]
滑动窗口单元,用于通过滑动窗口统计多个视频帧内切分置信度高于切分阈值的视频帧的数量,若数量超过预设值,则将滑动窗口中切分置信度最高的视频帧作为视频切分点;
[0316]
切分模块,用于根据视频切分点对目标视频进行切分。
[0317]
在上述各实施例的基础上,作为一种可选实施例,聚类模块包括:
[0318]
初始特征单元,用于获得每个第一图像的第一特征以及每个第二图像的初始第二特征;
[0319]
邻近图像对单元,用于根据每个第一图像的第一特征,确定各个最邻近第一图像对,根据每个第二图像的初始第二特征,确定各个最邻近第二图像对,每个最邻近第一图像对中的两个第一图像互为最邻近图像;每个最邻近第二图像对中的两个第二图像互为最邻近图像;
[0320]
图像对更新单元,用于根据各个最邻近第一图像对中的两个第一图像的对应关系,更新两个第一图像对应的第二图像所在的最邻近第二图像对;
[0321]
特征更新单元,用于对于每个第二图像,将第二图像的所有更新后的最邻近第二图像对中的最邻近图像作为目标最邻近图像,根据目标最邻近图像的初始第二特征,获得第二图像的目标第二特征;
[0322]
聚类单元,用于对所有第一图像的第一特征进行聚类,获得至少一个第一图像簇;对所有第二图像的目标第二特征进行聚类,获得至少一个第二图像簇。
[0323]
在上述各实施例的基础上,作为一种可选实施例,图像对更新单元具体用于:
[0324]
对于每个最邻近第一图像对,确定最邻近第一图像对中的两个第一图像;若两个第一图像均存在对应的目标第二图像,则将两个对应的目标第二图像确定为最邻近第二图像对。
[0325]
本技术实施例提供了一种视频处理装置,如图12所示,该视频处理装置可以包括:视频帧部位检测模块201、多模聚类模块202、音频匹配模块203、多模匹配模块204和视频片段筛选模块205,具体地:
[0326]
视频帧部位检测模块201,用于对目标视频中的至少部分视频帧,进行目标对象的第一部位和第二部位的检测,获得第一图像集和第二图像集;所述第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域;所述第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域;
[0327]
多模聚类模块202,用于以人物为单元将所述目标视频对应的音频切分为多个音频片段,对所述多个音频片段进行聚类,获得至少一个音频片段簇;对所述第一图像集中的图像进行聚类,获得至少一个第一图像簇,对所述第二图像集的图像进行聚类,获得至少一个第二图像簇,并对每个所述第一图像簇设置对象标签;
[0328]
音频匹配模块203,用于对于每个音频片段簇,确定所述音频片段簇与各个待匹配图像簇的匹配程度,所述待匹配图像簇包括所述第一图像簇或第二图像簇中的至少一个图像簇;
[0329]
多模匹配模块204,用于对于任意一个第一图像簇,将与所述第一图像簇的匹配程度符合第二预设条件的音频片段簇作为参考音频簇,将与所述参考音频簇的匹配程度符合第二预设条件的第二图像簇作为参考第二图像簇,确定所述参考音频簇对应的目标视频帧以及所述参考第二图像簇的对象标签为所述第一图像簇的对象标签;
[0330]
视频片段筛选模块205,用于根据各个第一图像簇、已确定对象标签的第二图像簇和目标视频帧对应的对象标签,从所述目标视频中确定各个对象标签对应的目标视频片
段。
[0331]
本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
[0332]
在上述各实施例的基础上,作为一种可选实施例,视频帧部位检测模块,还用于:
[0333]
获得参考视频帧集,所述参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像;
[0334]
装置还包括:
[0335]
对应关系模块,用于对于每个所述参考视频帧,确定属于同一个目标对象的第一图像和第二图像的对应关系;
[0336]
第二图像簇标签确定模块,用于对于每个所述第二图像簇,根据所述第二图像簇中匹配图像对应的第一图像的对象标签,确定所述第二图像簇的对象标签;所述匹配图像为所述第二图像簇中具有所述对应关系的第二图像。
[0337]
本技术实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现视频处理方法的步骤,与相关技术相比可实现:通过对目标视频中的至少部分视频帧,进行多模态(第一部位和第二部位)检测,获得第一图像集和第二图像集以及参考视频帧集,对第一图像集和第二图像集分别进行模态内关联,获得至少一个第一图像簇和至少一个第二图像簇,对每个第一图像簇设置对象标签;利用参考视频帧集,确定属于同一个目标对象的第一图像和第二图像的对应关系,对于每个第二图像簇,根据第二图像簇中匹配图像对应的第一图像的对象标签,确定第二图像簇的对象标签,实现模态间的关联,根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签,从目标视频中确定各个对象标签对应的目标视频片段,本技术通过对多个模态的特征,进行模态内的关联以及模态间的关联,基于第一部位检测的高准确性,使得关联的第二图像簇也能够一定程度地对应对象标签,在第一部位不可见时,第二部位提供了额外的指导信息,提高了获得任务集锦的准确率和召回率。。
[0338]
在一个可选实施例中提供了一种电子设备,如图13所示,图13所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
[0339]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0340]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci
(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0341]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
[0342]
存储器4003用于存储执行本技术实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
[0343]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
[0344]
本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
[0345]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
[0346]
应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
[0347]
以上仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1