本申请涉及视频处理领域,尤其是一种物体特征的确定方法、装置及设备。
背景技术:
1、随着互联网技术的不断发展,视频成为最流行的媒体之一,面对海量的视频,从视频中准确检索到用户感兴趣的物体显得日益重要。为了从视频中准确检索到用户感兴趣的物体,可以训练网络模型,通过网络模型从视频中检测用户感兴趣的物体。但是,为了训练网络模型,就需要对样本视频中的物体进行细粒度的时空标注,例如,在样本视频中标注物体所在帧,在物体所在帧中标注物体所在位置。显然,为了对样本视频中的物体进行细粒度的时空标注,需要极大的人工代价,服务器需要消耗大量资源来完成样本视频中物体的时空标注,且服务器需要花费较长时间来完成样本视频中物体的时空标注,从而导致样本视频的标注时间比较长,标注速度比较慢,且资源消耗比较大。
技术实现思路
1、本申请提供一种物体特征的确定方法,所述方法包括:
2、获取样本视频中的关键帧对应的多个目标物体特征,获取所述样本视频对应的样本文本对应的文本特征;基于所述文本特征和所述多个目标物体特征,确定所述文本特征与所述关键帧之间的空间定位分数和时间定位分数;基于所述空间定位分数和所述时间定位分数确定所述样本视频对应的第一损失值;
3、针对样本视频中每个关键帧,从该关键帧对应的多个目标物体特征中选取代表性物体特征,确定所述代表性物体特征对应的特征效应分数;从样本视频的多个关键帧中选取代表性关键帧,确定所述代表性关键帧对应的帧效应分数;基于所述特征效应分数和所述帧效应分数确定所述样本视频对应的第二损失值;
4、基于第一损失值和第二损失值确定目标损失值,基于目标损失值训练得到目标网络模型,所述目标网络模型用于确定待检测视频对应的物体特征。
5、本申请提供一种物体特征的确定装置,所述装置包括:
6、获取模块,用于获取样本视频中的关键帧对应的多个目标物体特征,获取所述样本视频对应的样本文本对应的文本特征;
7、确定模块,用于基于所述文本特征和所述多个目标物体特征,确定所述文本特征与所述关键帧之间的空间定位分数和时间定位分数;基于所述空间定位分数和所述时间定位分数确定所述样本视频对应的第一损失值;
8、所述确定模块,还用于针对样本视频中每个关键帧,从该关键帧对应的多个目标物体特征中选取代表性物体特征,确定所述代表性物体特征对应的特征效应分数;从样本视频的多个关键帧中选取代表性关键帧,确定所述代表性关键帧对应的帧效应分数;基于所述特征效应分数和所述帧效应分数确定所述样本视频对应的第二损失值;基于第一损失值和第二损失值确定目标损失值;
9、处理模块,用于基于所述目标损失值训练得到目标网络模型,其中,所述目标网络模型用于确定待检测视频对应的物体特征。
10、本申请提供一种电子设备,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;其中,所述处理器用于执行机器可执行指令,以实现上述示例的物体特征的确定方法。
11、由以上技术方案可见,本申请实施例中,可以基于关键帧对应的目标物体特征和样本文本对应的文本特征训练得到目标网络模型,并通过目标网络模型从视频中检测用户感兴趣的物体,实现弱监督情况下的视频物体定位,即只有视频和文本(自然语言描述),而没有细粒度的物体标注信息,也可以训练得到目标网络模型。在目标网络模型的训练过程中,不需要对样本视频中的物体进行细粒度的时空标注,而是直接基于目标物体特征和文本特征完成目标网络模型的训练过程,从而避免极大的人工代价,只需要较短时间就可以完成目标网络模型的训练(即训练过程中没有人工标注的大量耗时),且只消耗少量资源就可以完成目标网络模型的训练(即训练过程中没有人工标注的大量资源消耗),从而使得目标网络模型的训练时间短,训练速度快,且资源消耗小。通过在时间和空间上对视频中的物体进行全方位的对比学习,减少时空模糊性问题,显著提高根据自然语言对视频中物体进行定位的能力,提升鉴别能力。
1.一种物体特征的确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,基于所述文本特征和所述多个目标物体特征,确定所述文本特征与所述关键帧之间的空间定位分数,包括:
4.根据权利要求1所述的方法,其特征在于,基于所述文本特征和所述多个目标物体特征,确定所述文本特征与所述关键帧之间的时间定位分数,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述空间定位分数和所述时间定位分数确定所述样本视频对应的第一损失值,包括:
6.根据权利要求1-5任一项所述的方法,其特征在于,
7.根据权利要求6所述的方法,其特征在于,
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
9.一种物体特征的确定装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,包括:处理器和机器可读存储介质,所0述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;其中,