目标识别方法、目标识别装置以及计算机存储介质与流程

文档序号:31631901发布日期:2022-09-24 02:11阅读:67来源:国知局
目标识别方法、目标识别装置以及计算机存储介质与流程

1.本技术涉及计算机视觉技术领域,特别是涉及一种目标识别方法、目标识别装置以及计算机存储介质。


背景技术:

2.随着监控摄像头布控规模逐年增大,身份识别技术得到广泛的应用。传统的人员身份识别主要通过人脸识别实现。然而,对于一些真实的非约束场景,例如结构化场景中经常出现的人脸低分辨率,人脸模糊等问题,以及非配合模式下的人脸大偏转角、人脸遮挡等情况,单独使用人脸模态进行识别的识别效果并不理想。目前也有一些通过人体特征和语音特征进行识别的方法。然而人体特征过度依赖于目标人物的衣着、体态、身高等因素,而语音特征易受身体状况、年龄、情绪等的影响,例如目标人物因感冒导致的声带特性发生变化,或环境中出现干扰噪声等。因此单独使用人体模态或语音模态进行识别也存在各自的局限性。


技术实现要素:

3.本技术提供一种目标识别方法、目标识别装置以及计算机存储介质。
4.本技术采用的一个技术方案是提供一种目标识别方法,所述目标识别方法包括:获取待处理视频,及其近邻视频特征,其中,所述近邻视频特征基于多个近邻视频的特征确定,所述近邻视频为具有不同模态中至少一种模态的特征的视频,所述近邻视频通过视频库的视频的视频特征与所述待处理视频的视频特征的相似度大小选择;基于至少一种模态的特征对所述待处理视频的所有视频帧进行聚类,从而将所述待处理视频为若干待处理子视频;对每一待处理子视频的多个模态的原始视频特征进行编码,得到所述每一待处理子视频的多模态编码特征;基于所述每一待处理子视频的多模态编码特征,以及所述近邻视频特征构建图网络;利用所述图网络将所述每一待处理子视频的多模态编码特征,以及所述近邻视频特征进行融合,得到最终的融合特征,并基于所述最终的融合特征对所述目标对象进行识别。
5.其中,所述基于所述每一待处理子视频的多模态编码特征,以及所述近邻视频特征构建图网络,包括:确定由所述近邻视频特征和所述多模态编码特征共同组成的特征矩阵;获取与所述特征矩阵对应的邻接矩阵;其中,所述邻接矩阵表征所述特征矩阵中不同特征之间进行融合的连接关系;基于所述特征矩阵和所述邻接矩阵,构建所述图网络;所述利用所述图网络将所述每一待处理子视频的多模态编码特征,以及所述近邻
视频特征进行融合,得到最终的融合特征,包括:通过对所述特征矩阵以及所述邻接矩阵进行聚合,得到所述待处理视频的融合特征。
6.其中,所述获取所述特征矩阵对应的邻接矩阵,包括:确定所述多所述特征矩阵中每两个特征之间进行融合的连接权重;根据确定的连接权重,得到由所述确定的连接权重组成的邻接矩阵。
7.其中,所述确定所述多所述特征矩阵中每两个特征之间进行融合的连接权重,包括:获取不同待处理子视频的多模态编码特征之间的第一距离,基于所述第一距离以及预设指数函数,确定所述不同待处理子视频的多模态编码特征之间的第一连接权重;获取所述近邻视频特征与所述待处理子视频的多模态编码特征之间的第二距离,基于所述第二距离、所述预设指数函数以及平衡因子,确定所述近邻视频特征与所述待处理子视频的多模态编码特征之间的第二连接权重。
8.其中,所述通过对所述特征矩阵以及所述邻接矩阵进行聚合,得到所述待处理视频的融合特征,包括:对所述特征矩阵以及所述邻接矩阵进行聚合,得到所述待处理视频的图特征;利用预设特征更新机制对所述待处理视频的图特征进行特征融合,得到所述待处理视频的融合特征。
9.其中,所述对每一待处理子视频的多个模态的原始视频特征进行编码,得到所述每一待处理子视频的多模态编码特征,包括:对所述每一待处理子视频中至少一种模态的原始视频特征进行第一池化操作,得到第一池化视频特征;对所述每一待处理子视频中其他模态的原始视频特征进行第二池化操作,得到第二池化视频特征;将所述第一池化视频特征与所述第二池化视频特征进行拼接;对拼接后的视频特征进行编码,得到所述每一待处理子视频的多模态编码特征。
10.其中,所述第一池化操作为平均池化操作,所述第二池化操作为全局池化操作。
11.其中,所述至少一种模态为人脸模态;所述基于至少一种模态的特征对所述待处理视频的所有视频帧进行聚类,从而将所述待处理视频为若干待处理子视频,包括:按照人脸质量将所述待处理视频划分为若干待处理子视频,其中,所述待处理子视频按照所述人脸质量高低,定义为高质量区视频和低质量区视频。
12.其中,所述目标识别方法,还包括:分别计算所述待处理视频的多个特征中每个特征与预设视频中各个特征之间的相似度值,得到所述多个特征中每个特征的多个相似度值;按照所述相似度值的大小,对所述多个特征中每个特征的多个相似度值进行排列,并取排列在目标位置的相似度值对应的预设视频作为近邻视频;提取各个近邻视频中的所述不同模态的特征,并将提取出的特征作为所述待处理视频对应的近邻视频特征。
13.本技术采用的另一个技术方案是提供一种目标识别装置,所述目标识别装置包括:视频获取模块、视频聚类模块、特征编码模块、特征融合模块以及目标识别模块;其中,所述视频获取模块,用于获取待处理视频,及其近邻视频特征,其中,所述近邻视频特征基于多个近邻视频的特征确定,所述近邻视频为具有不同模态中至少一种模态的特征的视频,所述近邻视频通过视频库的视频的视频特征与所述待处理视频的视频特征的相似度大小选择;所述视频聚类模块,用于基于至少一种模态的特征对所述待处理视频的所有视频帧进行聚类,从而将所述待处理视频为若干待处理子视频;所述特征编码模块,用于对每一待处理子视频的多个模态的原始视频特征进行编码,得到所述每一待处理子视频的多模态编码特征;所述特征融合模块,用于基于所述每一待处理子视频的多模态编码特征,以及所述近邻视频特征构建图网络;所述特征融合模块,还用于利用所述图网络将所述每一待处理子视频的多模态编码特征,以及所述近邻视频特征进行融合,得到最终的融合特征;所述目标识别模块,用于基于所述最终的融合特征对所述目标对象进行识别。
14.本技术采用的另一个技术方案是提供一种目标识别装置,所述目标识别装置包括存储器以及与所述存储器耦接的处理器;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的目标识别方法。
15.本技术采用的另一个技术方案是提供一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如上述的目标识别方法。
16.本技术的有益效果是:目标识别装置获取待处理视频,及其近邻视频特征,其中,近邻视频特征基于多个近邻视频的特征确定,近邻视频为具有不同模态中至少一种模态的特征的视频,所述近邻视频通过视频库的视频的视频特征与所述待处理视频的视频特征的相似度大小选择;基于至少一种模态的特征对待处理视频的所有视频帧进行聚类,从而将待处理视频为若干待处理子视频;对每一待处理子视频的多个模态的原始视频特征进行编码,得到每一待处理子视频的多模态编码特征;基于每一待处理子视频的多模态编码特征,以及近邻视频特征构建图网络;利用图网络将每一待处理子视频的多模态编码特征,以及近邻视频特征进行融合,得到最终的融合特征,并基于最终的融合特征对目标对象进行识别。本技术的目标识别方法能够通过一种全新的建模方式实现近邻级、视频级和多模态级这三类不同层面信息的自适应融合,提高特征识别效果。
附图说明
17.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本技术提供的目标识别方法一实施例的流程示意图;
图2是本技术提供的目标识别方法总流程的示意图;图3是图1所示目标识别方法步骤s13的具体流程示意图;图4是本技术提供的目标识别方法步骤s14的具体流程示意图;图5是本技术提供的目标识别装置一实施例的结构示意图;图6是本技术提供的目标识别装置另一实施例的结构示意图;图7是本技术提供的计算机存储介质一实施例的结构示意图。
具体实施方式
19.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
20.多模态视频人物识别是指利用视频中目标人物的人脸、人体、语音等多种模态信息,确认其身份。由于不同模态信息之间的互补性,相比单一生物特征识别,采用多模态融合的方式可以解决单模态无法解决的复杂场景身份识别问题,此外,相较于传统身份识别任务中常用的图片数据,其利用了内容更丰富的视频信息,因此通过融合多模态信息与视频信息可以获得更好的可靠性和识别效果。
21.基于多模态视频人物识别的技术原理,本技术提出的一种建模方法及其目标识别方法,具体请参阅图1和图2,图1是本技术提供的目标识别方法一实施例的流程示意图,图2是本技术提供的目标识别方法总流程的示意图。
22.如图1所示,本技术实施例的目标识别方法包括以下步骤:步骤s11:获取待处理视频,及其近邻视频特征,其中,近邻视频特征基于多个近邻视频的特征确定,近邻视频为具有不同模态中至少一种模态的特征的视频,近邻视频通过视频库的视频的视频特征与待处理视频的视频特征的相似度大小选择。
23.在本技术实施例中,待处理视频可以视频监控系统,如交通监控系统实时采集的监控视频,也可以为存储器存储的监控视频,用于对监控视频内的目标进行识别和跟踪。
24.进一步地,为了提高目标识别效率,目标识别装置还可以提取监控视频中的多张图像组成待处理视频,其提取方式具体可以为:等间隔提取监控视频中的多张图像,并将提取出的多张图像作为待处理视频中的图像。在这里的等间隔可以是预设时间段、也可以是预设图像数量,在此不做限制。
25.进一步地,目标识别装置采用卷积神经网络对待处理视频中每一帧图像进行各类视觉特征的提取,并采用长短期记忆网络进行语音特征的提取。其中,各类视觉特征包括不同模态的特征,例如人脸特征、人头特征、人体特征等模态特征。
26.具体地,目标识别装置分别对从各张图像中提取的同一模态的多个特征进行加权求和,即计算得到同一模态对应的一个特征,进而多种不同模态对应的多个特征,并且将计算得到的不同模态对应的多个特征作为待处理视频的不同模态的多个特征。
27.具体来说,不同模态表征目标对象的两种以及两种以上的模态,本技术实施例中可以基于目标对象的不同形态的特征划分不同模态,如目标对象为人时,可以将人的声音、肢体/动作、步态、穿戴等信息分别作为一种模态;本技术实施例中还可以基于目标对象的
不同构件/部位的特征划分不同模态,如目标对象为人时,可以将人的人脸、手部、身体、头肩、腿等信息分别作为一种模态;且本技术实施例中的不同模态可以包括按照不同方法划分的模态中的任意多种模态,如目标对象为人时,本技术实施例中的模态可以包括目标对象的人脸、头部、身体、语音等。
28.在这里,可以针对每一个模态提取相应的模态特征,例如提取目标对象的人脸特征、头部特征、身体特征、语音特征等。
29.确定待处理视频之后,目标识别装置还需要根据待处理视频确定近邻视频,即图2所示中的近邻选择视频。
30.具体地,在提取出待处理视频中目标对象的不同模态的多个特征后,目标识别装置分别计算这多个特征中每个特征与预设视频中各个特征之间的相似度值,得到这多个特征中每个特征的多个相似度值,并按照计算得到的相似度值的大小,对这多个特征中每个特征的多个相似度值进行排列,然后取排列在目标位置的相似度值对应的预设视频作为近邻视频,最后提取各个近邻视频中的不同模态的特征,并将提取出的特征作为待处理视频对应的近邻视频特征。
31.在这里,上述近邻视频特征为基于多个近邻视频的特征确定的特征,上述近邻视频为具有待处理视频的不同模态中至少一种模态的特征的视频。
32.具体来说,在通过提取待处理视频中目标对象的不同模态的多个特征后,基于提取目标对象的不同模态,从预设数据库中选取符合要求的预设视频。
33.举例来说,若提取待处理视频中目标对象的人脸、人体和语音这三种模态的三个特征,则从预设数据库中提取具有人脸、人体或语音这三种模态中任意一种或多种模态的特征的预设视频。
34.例如,若预设视频1中具有人脸这一种模态的特征,预设视频2中具有人脸、人体这两种模态的特征,预设视频3中具有人脸、人体、语音和头部这四种模态的特征,预设视频4中具有头部这一种模态的特征,则可以提取预设视频1、预设视频2、预设视频3。
35.在确定预设视频后,分别计算待处理视频的多个特征中每个特征与预设视频的各个特征之间的相似度值,得到待处理视频的多个特征中每个特征的多个相似度值。
36.然后,按照计算得到的相似度值的大小,对这多个特征中每个特征的多个相似度值进行排列,具体排列方式可以按照从小到大对相似度值进行排序,也可以按照从大到小对相似度值进行排序,取排列在目标位置的相似度值对应的预设视频作为近邻视频。
37.值得说明的是,上述目标位置可以是一种预先设定的位置,可以是通过预设阈值来确定的位置,也可以是根据实际应用情况确定的位置。
38.具体来说,可以通过一种k近邻的方法来筛选近邻视频,具体筛选方法为:针对待处理视频的多个特征的每个模态进行检索,并且取前k2个结果的交集作为待处理视频的k近邻视频,k近邻视频即为k个近邻视频。
39.在这里,上述k2可以是确定的,即为目标位置的一种情况,上述对不同模态进行检索,确定的近邻视频的数量k是不确定的,具体需要根据实际交集结果来确定的。
40.进一步,为便于本领域技术人员理解上述结果的交集,以3个模态特征a{2,3,4}和3个模态特征b{3,4,5}为例,其中每个数字用于标识这个模态特征所属的对象,即得到结果的交集为{3,4},即结果的交集为:模态特征a{3,4},模态特征b{3,4}。
41.值得说明的是,上述通过k近邻方式确定近邻视频为一种确定近邻视频的可能的方式,在此还可以通过其他方式来确定近邻视频,确定近邻视频的目的是为了提取近邻视频中的近邻视频特征,基于近邻视频特征对待处理视频的多个特征进行融合,使得融合得到的融合特征更具有辨别性以及鲁棒性,以提高融合特征的质量。
42.需要说明的是,由于人脸特征相较于其他模态具有最好的识别效果和鲁棒性,本技术实施例的目标识别装置可以借助人脸模态进行近邻视频的近邻选择。其具体操作为:目标识别装置提取待处理视频中人脸质量最高的图像的特征进行相似度比对,筛选出与待处理视频相似度最高的前k2个近邻视频,其过程在此不再赘述。通过近邻级信息的引入,本技术可以借助近邻子空间信息辅助待处理视频修补其特征表达从而提高在全局空间的辨别能力,进而提高整体识别效果。
43.其中,上述人脸质量的高低可以通过图像质量分数来评价,图像质量分数可以用于表征图像的清晰程度和/或该图像中目标对象遮挡区域与目标对象区域的比例等,即若图像越清晰和/或该图像中目标对象区域存在越低占比的目标对象遮挡区域,则计算得到的图像质量分数便越高;若图像越模糊和/或该图像中目标对象区域存在越高占比的目标对象遮挡区域,则计算得到的图像质量分数便越低。
44.在这里,当目标对象为人时,各张图像的图像质量分数具体可以包括但不限于:各张图像中人脸图像的人脸质量分数、各张图像中人体图像的人体质量分数。
45.以人脸质量分数为例,目标对象区域可以为图像中目标对象人脸所在的区域,若人脸越清晰和/或人脸越完整,则该图像计算的人脸质量分数越高;若人脸越模糊、人脸偏转角越大和/或人脸遮挡越多,则该图像计算的人脸质量分数越低。
46.需要说明的是,本技术的待处理视频和近邻视频,在获取后,可以经过相同的处理流程,即本实施例中的所有特征处理操作,从而得到待处理视频的多模态编码特征,以及近邻视频的近邻视频特征。在本实施例的描述过程中,以待处理视频的特征处理为例进行表述,其特征处理同样适用于近邻视频。
47.步骤s12:基于至少一种模态的特征对待处理视频的所有视频帧进行聚类,从而将待处理视频为若干待处理子视频。
48.进一步地,为了提高视频特征编码的准确性,本技术实施例的目标识别装置还可以利用至少一种模态特征作为视频特征编码的编码因素,即利用该模态特征对待处理视频进行划分,然后对划分后的若干待处理子视频根据模态特征的差别采用不同的编码方式,从而提高视频特征编码的特异性的准确性。
49.具体地,目标识别装置可以利用人脸模态的特征对待处理视频中的所有视频帧进行聚类,从而将人脸特征相近的多个视频帧组成一个待处理子视频。另外,目标识别装置也可以根据待处理视频中每一个视频帧的人脸模态特征计算视频帧的人脸质量,然后按照人脸质量对待处理视频进行划分,从而划分出高质量区视频和低质量区视频等。
50.步骤s13:对每一待处理子视频的多个模态的原始视频特征进行编码,得到每一待处理子视频的多模态编码特征。
51.在本技术实施例中,由于视频中相邻帧间相似度较高,而间隔较远的帧间又存在差异,因此希望通过某种方法从原始视频特征中提炼出视频的代表特征,保证视频信息完整性与多样性的同时减少冗余。
52.因此,本技术实施例提出一种对视频进行编码的方式来实现整个效果。具体地,目标识别装置可以对每个待处理子视频多个模态的原始视频特征分别进行编码,然后将编码后的多个原始视频特征进行融合,得到每个待处理子视频的多模态编码特征。
53.其中,将编码后的多个原始视频特征进行融合的方式有多种,包括但不限于:将每个待处理子视频多个模态的原始视频特征求取平均值,作为融合后的多模态编码特征;将每个待处理子视频多个模态的原始视频特征求取中值,作为融合后的多模态编码特征;将每个待处理子视频多个模态的原始视频特征求取众值,作为融合后的多模态编码特征等。在本技术实施例中,对视频特征融合方式不作具体限制。
54.具体地,人脸质量是衡量识别效果的一个重要因素,且人脸质量与特征相似度间存在强相关性。因此,本技术实施例的视频特征编码过程的具体操作可以为:根据某人脸质量阈值将视频划分为高质量区和低质量区,对两个区域各自的视频帧以及视频的全部视频帧进行平均池化操作,得到k1(k1=3)个表示不同质量的视频编码特征。其他类特征由于区分度不如人脸,因此我们只对人脸特征进行上述操作,对于其他模态直接对所有帧进行全局池化操作。
55.需要说明的是,在其他实施例中,目标识别装置也可以采用其他模态特征作为视频编码的编码因素,在此不一一列举。
56.具体编码过程请继续参阅图3,图3是图1所示目标识别方法步骤s13的具体流程示意图。
57.如图3所示,本技术实施例的目标识别方法包括以下步骤:步骤s131:对每一待处理子视频中至少一种模态的原始视频特征进行第一池化操作,得到第一池化视频特征。
58.在本技术实施例中,目标识别装置对于作为编码因素的至少一种模态的原始视频特征进行平均池化处理,从而得到第一池化视频特征。
59.具体地,目标识别装置还可以根据该模态对待处理视频进行划分,例如,当编码因素为人脸模态时,目标识别装置可以根据人脸质量阈值,将高于等于人脸质量阈值的视频帧划分为高质量区视频,将低于人脸质量阈值的视频帧划分为低质量区视频。此时,目标识别装置可以得到关于人脸模态的三个视频:待处理视频、高质量区视频以及低质量区视频。
60.进一步地,目标识别装置分别对关于人脸模态的三个视频进行平均池化操作,得到三个表示不同人脸质量的视频编码特征。通过这种质量划分视频的方式,可以让不同质量的视频各自进行平均池化,提高各自的特征表现。
61.步骤s132:对每一待处理子视频中其他模态的原始视频特征进行第二池化操作,得到第二池化视频特征。
62.在本技术实施例中,由于其他模态特征的区分度不如人脸模态,目标识别装置对待处理视频其他模态的原始视频特征可以直接进行全局池化操作,得到第二池化视频特征。
63.需要说明的是,在其他实施例中,第一池化操作和第二池化操作还可以为其他可选的池化技术方案或组合技术方案,在此不一一列举。
64.步骤s133:将第一池化视频特征与第二池化视频特征进行拼接。
65.步骤s134:对拼接后的视频特征进行编码,得到每一待处理子视频的多模态编码
特征。
66.在本技术实施例中,目标识别装置通过步骤s131和步骤s132得到多个代表不同人脸质量的池化视频特征,以及其他模态的池化视频特征,然后对以上池化视频特征进行拼接操作。然后,目标识别装置通过一个全连接层对拼接后的包含多模态信息的视频特征进行多模态编码。
67.具体地,多模态特征编码层的作用主要有两点:从多模态信息融合的角度考虑,编码后的特征可以充分利用多模态特征之间的互补性,改善表达能力并降低模态特征间冗余。从多层面信息融合角度考虑,在编码后的多模态特征空间中构建了待处理视频与近邻视频之间的关联关系,为模型实现三类信息的自适应融合奠定基础。通过上述方式得到每个视频的多个编码后特征,将其作为待处理视频的图节点特征。
68.步骤s14:基于每一待处理子视频的多模态编码特征,以及近邻视频特征构建图网络。
69.在本技术实施例中,目标识别装置可以将近邻视频特征和多模态编码特征进行特征融合,特征融合的方式可以采用常用的技术方式,如concat(系列特征融合)、add(并行策略)等。
70.进一步地,目标识别装置还可以采用图数据的方式将近邻视频特征和多模态编码特征进行融合,具体请继续参阅图4,图4是本技术提供的目标识别方法步骤s14的具体流程示意图。
71.如图4所示,本技术实施例的目标识别方法包括以下步骤:步骤s141:确定由近邻视频特征和多模态编码特征共同组成的特征矩阵。
72.在本技术实施例中,目标识别装置将近邻视频特征和多模态编码特征融合到一个特征矩阵。
73.步骤s142:获取与特征矩阵对应的邻接矩阵;其中,邻接矩阵表征特征矩阵中不同特征之间进行融合的连接关系。
74.在本技术实施例中,目标识别装置通过确定特征矩阵中多个特征中每个特征与特征矩阵中每个特征之间进行融合的连接权重,得到由确定的连接权重组成的邻接矩阵。
75.具体地,将待处理视频本身的多模态编码特征所在节点称为主节点,近邻视频的近邻视频特征所在节点称为近邻节点。则邻接矩阵的构建方式具体如下:目标识别装置获取不同多模态编码特征之间的余弦距离,基于余弦距离以及预设指数函数,确定不同多模态编码特征之间的第一连接权重。目标识别装置获取近邻视频特征与多模态编码特征之间的余弦距离,基于余弦距离、预设指数函数以及平衡因子,确定近邻视频特征与多模态编码特征之间的第二连接权重。对于近邻视频特征与近邻视频特征之间的连接权重,则设置为一个固定值,例如“1”。
76.邻接矩阵的构建过程通过公式体现如下:
其中,为特征矩阵的邻接矩阵,表示特征矩阵中第i个目标节点和第j个近邻节点之间的连接权重,表示节点i和第j个近邻节点之间的余弦距离。为主节点集合,为近邻节点集合,为第i个节点的多模态编码特征,为temperature parameter(温度参数),为平衡因子。
77.本技术设计上述邻接矩阵的构建方案主要考虑以下三点:1.通过指数函数exp提高可靠节点之间的连接度,并降低不可靠节点之间的连接度。
78.2.希望gcn(graph convolution neural networks,图卷积神经网络)只关心主节点之间的信息融合,因此抑制了其他图节点对近邻节点的信息传递,将其连接权重置为0,只保留近邻节点自身的信息。
79.3.考虑到视频与近邻这两类不同level信息之间存在差异,因此通过设置平衡因子调节模型对这两类信息的融合度。
80.进一步地,通过上述公式计算得到的邻接矩阵为非对称矩阵,其度矩阵的计算方式如下式所示:归一化后图拉普拉斯矩阵计算方式如下:步骤s143:基于特征矩阵和邻接矩阵,构建图网络。
81.在本技术实施例中,目标识别装置可以用一个局部图对待处理视频进行建模。其中v表示由待处理视频及其近邻视频所构成的图节点。对于由某一待处理视频所构成的图中,根据步骤s11所述方式筛选出待处理视频的k2个近邻视频,根据步骤s12所述方式提取待处理视频及近邻视频的编码后的k1个特征作为图节点。因此,图节点个数,其中1代表待处理视频本。表示由邻接矩阵构建方案中的计算出的图节点之间的连接边的集合。
82.目标识别装置将构建好的局部图输入gcn中,通过gcn的特征更新机制对构造的局部图进行特征融合,其具体更新公式如下:其中,和是两个超参数,为激活函数,为初始的输入特征,为更新后的第层特征,可学习的权重矩阵。式中第一项为初始残差的连接,通过参数来调节。第二项将单位矩阵i与权重矩阵w进行加权,通过参数来实现权重矩阵的衰减随着层数的增加而自适应增加。
83.进一步地,的计算方式如下:其中为超参数。
84.步骤s15:利用图网络将每一待处理子视频的多模态编码特征,以及近邻视频特征进行融合,得到最终的融合特征,并基于最终的融合特征对目标对象进行识别。
85.在本技术实施例中,目标识别装置根据步骤s14得到待处理视频的融合后特征,并在此基础上级联融合前的图节点编码特征后,得到最终分类层的输入特征,通过fc层和softmax层对每个图节点进行分类。为加快网络的收敛,本技术的目标识别装置在训练时使用目标节点的及其进行共同监督,而在测试时,则可以仅选取目标视频的高质量视频特征所对应的预测结果作为其最终结果。
86.本技术提出的目标识别方法针对多模态视频人物识别任务,提出了一种全新的建模方式,将目标视频及其近邻视频的多个编码了多模态信息的视频特征作为图节点,该方式将近邻信息、视频信息以及多模态信息这三类不同层次的信息构建在一张图中,通过gcn的关系挖掘与信息汇聚机制,充分利用各层次信息以及他们之间的相关性,实现三类层次的自适应融合,提高整体识别效果。本技术提出的目标识别方法,在iqiyi-vid-2019数据集上测试,达到了截至目前最好的效果。
87.另外,基于上述建模方式,本技术还设计了相应的图节点编码方式与邻接矩阵计算方式。通过视频特征编码和多模态特征编码模块在为每个视频生成充分包含目标视频信息的图节点特征的同时,降低了视频信息的冗余。通过设计相应的邻接矩阵计算方式对各节点之间的连接程度进行调节,提高融合特征的可靠性。上述构建方式为gcn的融合提供了更简单且可靠地输入,有助于提高整体的识别效果。
88.以上实施例,仅是对本技术的其中一种常见案例而已,并非对本技术的技术范围做任何限制,故凡是依据本技术方案的实质对以上内容所做的任何细微修改、等同变化或者修饰,均仍属于本技术技术方案的范围内。
89.请继续参见图5,图5是本技术提供的目标识别装置一实施例的结构示意图。本技术实施例的目标识别装置400包括:视频获取模块41、视频聚类模块42、特征编码模块43、特征融合模块44以及目标识别模块45。
90.其中,所述视频获取模块41,用于获取待处理视频,及其近邻视频特征,其中,所述
近邻视频特征基于多个近邻视频的特征确定,所述近邻视频为具有所述不同模态中至少一种模态的特征的视频,所述近邻视频通过视频库的视频的视频特征与所述待处理视频的视频特征的相似度大小选择。
91.所述视频聚类模块42,用于基于至少一种模态的特征对所述待处理视频的所有视频帧进行聚类,从而将所述待处理视频为若干待处理子视频。
92.所述特征编码模块43,用于对每一待处理子视频的多个模态的原始视频特征进行编码,得到所述每一待处理子视频的多模态编码特征。
93.所述特征融合模块44,用于基于所述每一待处理子视频的多模态编码特征,以及所述近邻视频特征构建图网络。
94.所述特征融合模块44,还用于利用所述图网络将所述每一待处理子视频的多模态编码特征,以及所述近邻视频特征进行融合,得到最终的融合特征。
95.所述目标识别模块45,用于基于所述最终的融合特征对所述目标对象进行识别。
96.请继续参见图6,图6是本技术提供的目标识别装置另一实施例的结构示意图。本技术实施例的目标识别装置500包括处理器51、存储器52、输入输出设备53以及总线54。
97.该处理器51、存储器52、输入输出设备53分别与总线54相连,该存储器52中存储有程序数据,处理器51用于执行程序数据以实现上述实施例所述的目标识别方法。
98.在本技术实施例中,处理器51还可以称为cpu(central processing unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp,digital signal process)、专用集成电路(asic,application specific integrated circuit)、现场可编程门阵列(fpga,field programmable gate array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
99.本技术还提供一种计算机存储介质,请继续参阅图7,图7是本技术提供的计算机存储介质一实施例的结构示意图,该计算机存储介质600中存储有程序数据61,该程序数据61在被处理器执行时,用以实现上述实施例的目标识别方法。
100.本技术的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
101.以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,方式利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1