时空动作定位模型生成方法、时空动作定位方法及其装置与流程

文档序号:37221952发布日期:2024-03-05 15:19阅读:32来源:国知局
时空动作定位模型生成方法、时空动作定位方法及其装置与流程

本技术涉及人工智能领域,更具体地讲,涉及一种时空动作定位模型生成方法、时空动作定位方法及其装置。


背景技术:

1、时空动作定位(stad)任务是视频分析的重要子领域之一,在安全生产、智慧体育等领域中有着重要应用。时空动作定位任务致力于识别视频中不同目标对象(例如,人)以及其正在进行的动作。目前学术界包括业界主流的实践方法是先通过对象检测器,检测出视频当前帧中所存在的人或物体的候选框。输出的候选框会通过非极大值抑制(nms)生成最后的候选框。在检测出候选框之后,基于候选框的时空动作定位模型通过输入当前帧及前后相邻的一部分帧,对候选框进行分类来确定当前帧中目标对象的动作类型。然而,这种建模方式存在如下2个问题:

2、1、对象检测器与动作分类器解耦合,不能联合进行训练与优化,存在着一定的性能差距;

3、2、对象检测器的计算量要远大于动作分类器,导致用于时空动作检测的模型大部分算力花在检测目标对象上,这与时空动作定位任务的核心(即,识别目标对象的动作)相违背。


技术实现思路

1、本公开提供一种时空动作定位模型生成方法、时空动作定位方法及其装置,以至少解决相关技术中存在的上述问题和缺点。

2、根据本发明的一方面,提供了一种时空动作定位模型生成方法,其特征在于,所述方法包括:获取训练样本,其中,训练样本包括:包括目标帧的一组连续视频帧以及针对目标帧中的目标对象的真实定位标注和真实动作分类标注;基于训练样本对时空动作定位模型进行训练,得到第一时空动作定位模型,其中,所述时空动作定位模型包括:特征提取模块,用于从所述训练样本的各视频帧中分别提取特征图;对象检测模块,用于基于所述目标帧的关联特征图,对所述目标帧中的目标对象进行对象检测,得到所述目标帧中针对所述目标对象的候选定位;动作分类模块,用于基于所述连续视频帧的特征图与所述候选定位,确定所述目标帧中针对所述目标对象的候选动作分类。

3、可选地,基于训练样本对时空动作定位模型进行训练的步骤包括至少一轮优化过程,任意一轮所述优化过程可包括:通过时空动作定位模型获得针对目标帧中的目标对象的候选定位和候选动作分类;基于针对目标帧中的目标对象的候选定位和真实定位标注获得定位损失,并基于针对目标帧中的目标对象的候选动作分类和真实动作分类标注获得动作分类损失;基于定位损失和动作分类损失,调整所述时空动作定位模型的模型参数。

4、可选地,特征提取模块在用于任意一个视频帧的特征提取时,可具体用于:按照不同的特征尺度分别对该视频帧进行特征提取,得到该视频帧对应的一组特征图,该组特征图包括具有不同预设特征尺度的多个特征图。

5、可选地,特征提取模块可包括:多个特征提取子模块,所述多个特征提取子模块逐级相连并预设有逐级递减的预设特征尺度,每个特征提取子模块被配置为从接收到的视频帧或从上一级特征提取子模块接收的特征图产生具有对应预设特征尺度的特征图。

6、可选地,对象检测模块可用于通过确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,当所述像素点属于目标对象时,所述候选定位包括所述像素点所映射的目标帧中的区域的定位。

7、可选地,对象检测模块可包括:至少一个特征融合子模块,被预设有不同的特征尺度,每个特征融合子模块被配置为基于从特征提取子模块接收的特征图和从其他特征融合子模块接收的融合特征图中的至少一个来执行特征融合操作,生成对应融合特征图;以及对象定位子模块,被配置为确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,所述目标帧的关联特征图包括:特征提取模块生成的与目标帧对应的至少一个特征图,或者基于特征提取模块生成的与目标帧对应的至少一个特征图执行特征融合操作而获得的至少一个融合特征图,或者特征提取模块生成的与目标帧对应的至少一个特征图以及所述至少一个融合特征图。

8、可选地,动作分类模块可被配置为基于针对目标帧中的目标对象的候选定位以及特征提取模块生成的具有预定义特征尺度的特征图来获得对目标帧中的目标对象的候选动作分类。

9、可选地,获取训练样本的步骤可包括:从视频数据集的视频所包括的视频帧中选择有标注视频帧作为目标帧,并从所述视频提取以目标帧为中间帧的一组连续视频帧,其中,有标注视频帧具有针对目标对象的真实定位标注和真实动作分类标注;基于提取的所述一组连续视频帧以及针对目标帧中的目标对象的真实定位标注和真实动作分类标注生成训练样本。

10、可选地,所述时空动作定位模型可与目标动作分类模型相关联,所述目标动作分类模型可包括所述特征提取模块与所述动作分类模块。

11、根据本发明的另一方面,提供了一种时空动作定位模型生成方法,其特征在于,所述方法包括:获取第一训练样本,其中,第一训练样本包括:包括第一目标帧的一组连续视频帧以及针对第一目标帧中的目标对象的真实定位标注和真实动作分类标注;基于第一训练样本对时空动作定位模型进行训练,得到第一时空动作定位模型;基于所述第一时空动作定位模型,对视频数据集中的无标注视频帧进行赋标签处理,获取第二训练样本,其中,第二训练样本包括:包括第二目标帧的一组连续视频帧以及针对第二目标帧中的目标对象的伪定位标注和伪动作分类标注,其中,第二目标帧为无标注视频帧;基于第一训练样本和第二训练样本对第一时空动作定位模型进行训练,得到第二时空动作定位模型,其中,时空动作定位模型包括:特征提取模块,用于从训练样本的各视频帧中分别提取特征图;对象检测模块,用于基于目标帧的关联特征图,对目标帧中的目标对象进行对象检测,得到目标帧中针对目标对象的候选定位;动作分类模块,用于基于训练样本的一组连续视频帧的特征图与所述候选定位,确定目标帧中针对目标对象的候选动作分类。

12、可选地,基于所述第一时空动作定位模型,对所述视频数据集中的无标注视频帧进行赋标签处理,获取第二训练样本的步骤可包括:将包括第二目标帧的一组连续视频帧输入到第一时空动作定位模型,获得针对第二目标帧中的目标对象的候选定位和候选动作分类,并将针对第二目标帧中的目标对象的候选定位确定为针对第二目标帧中的目标对象的伪定位标注;基于针对第二目标帧中的目标对象的伪定位标注和候选动作分类,以及所述视频中与第二目标帧最接近的至少两个有标注视频帧中的目标对象的真实定位标注和真实动作分类标注,对第二目标帧中的目标对象分配伪动作分类标注。

13、可选地,基于针对第二目标帧中的目标对象的伪定位标注和候选动作分类以及所述视频中与第二目标帧最接近的至少两个有标注视频帧中的目标对象的真实定位标注和真实动作分类标注,对第二目标帧中的目标对象分配伪动作分类标注,可包括:基于所述至少两个有标注视频帧中的目标对象的真实定位标注和真实动作分类标注,形成定位标注集和动作分类标注集,其中,定位标注集中的真实定位标注和动作分类标注集中的真实动作分类标注具有对应关系;基于针对第二目标帧中的目标对象的伪定位标注和候选动作分类,在定位标注集和动作分类标注集中确定与第二目标帧中的目标对象匹配的真实定位标注和真实动作分类标注;将与第二目标帧中的目标对象的匹配的真实动作分类标注设置为针对第二目标帧中的目标对象的伪动作分类标注。

14、可选地,在定位标注集和动作分类标注集中确定与第二目标帧中的目标对象匹配的真实定位标注和真实动作分类标注,可包括:计算当第二目标帧中的目标对象的动作分类标注被设置为动作分类标注集中的不同真实动作分类标注时的代价,其中,所述代价指示第二目标帧中的目标对象与所述两个有标注视频帧中的目标对象之间的差异;将代价最小时对第二目标帧中的目标对象设置的真实动作分类标注确定为与第二目标帧中的目标对象匹配的真实动作分类标注,并将定位标注集中与所述匹配的真实动作分类标注对应的真实定位标注确定为与第二目标帧中的目标对象匹配的真实定位标注。

15、可选地,基于第一训练样本和第二训练样本对第一时空动作定位模型进行训练的步骤包括至少一轮优化过程,任意一轮所述优化过程可包括:基于第一训练样本对第一时空动作定位模型进行训练,获取有标注损失;基于第二训练样本对第一时空动作定位模型进行训练,获取无标注损失;基于所述有标注损失和所述无标注损失来调整第一时空动作定位模型的模型参数。

16、可选地,基于第一训练样本对第一时空动作定位模型进行训练,获取有标注损失的步骤可包括:通过第一时空动作定位模型获得针对第一目标帧中的目标对象的第一候选定位和第一候选动作分类;基于所述第一候选定位和所述真实定位标注获得第一定位损失并基于所述第一候选动作分类和所述真实动作分类标注获得第一动作分类损失;基于所述第一定位损失和所述第一动作分类损失来获取所述有标注损失。基于第二训练样本对第一时空动作定位模型进行训练,获取无标注损失的步骤可包括:通过第一时空动作定位模型获得针对第二目标帧中的目标对象的第二候选定位和第二候选动作分类;基于所述第二候选定位和所述伪定位标注获得第二定位损失并基于所述第二候选动作分类和所述伪动作分类标注获得第二动作分类损失;基于所述第二定位损失和所述第二动作分类损失来获取所述无标注损失。

17、可选地,基于所述有标注损失和所述无标注损失来调整第一时空动作定位模型的模型参数的步骤可包括:基于所述有标注损失和所述无标注损失的加权和来调整第一时空动作定位模型的模型参数,其中,所述无标注损失的权重小于所述有标注损失的权重。

18、可选地,基于第一训练样本对时空动作定位模型进行训练的步骤包括至少一轮优化过程,任意一轮所述优化过程可包括:通过时空动作定位模型获得针对第一目标帧中的目标对象的第一候选定位和第一候选动作分类;基于针对第一目标帧中的目标对象的第一候选定位和真实定位标注获得定位损失,并基于针对第一目标帧中的目标对象的第一候选动作分类和真实动作分类标注获得动作分类损失;基于定位损失和动作分类损失,调整所述时空动作定位模型的模型参数。

19、可选地,特征提取模块在用于任意一个视频帧的特征提取时,可具体用于:按照不同的特征尺度分别对该视频帧进行特征提取,得到该视频帧对应的一组特征图,该组特征图包括具有不同预设特征尺度的多个特征图。

20、可选地,特征提取模块可包括:多个特征提取子模块,所述多个特征提取子模块逐级相连并预设有逐级递减的预设特征尺度,每个特征提取子模块被配置为从接收到的视频帧或从上一级特征提取子模块接收的特征图产生具有对应预设特征尺度的特征图。

21、可选地,对象检测模块可用于通过确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,当所述像素点属于目标对象时,所述候选定位包括所述像素点所映射的目标帧中的区域的位置。

22、可选地,对象检测模块可包括:至少一个特征融合子模块,被预设有不同的特征尺度,每个特征融合子模块被配置为基于从特征提取子模块接收的特征图和从其他特征融合子模块接收的融合特征图中的至少一个来执行特征融合操作,生成对应融合特征图;以及对象定位子模块,被配置为确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,所述目标帧的关联特征图包括:特征提取模块生成的与目标帧对应的至少一个特征图,或者基于特征提取模块生成的与目标帧对应的至少一个特征图执行特征融合操作而获得的至少一个融合特征图,或者特征提取模块生成的与目标帧对应的至少一个特征图以及所述至少一个融合特征图。

23、可选地,动作分类模块可被配置为基于针对目标帧中的目标对象的候选定位以及特征提取模块生成的具有预定义特征尺度的特征图来获得对目标帧中的目标对象的候选动作分类。

24、可选地,所述时空动作定位模型可与目标动作分类模型相关联,所述目标动作分类模型可包括所述特征提取模块与所述动作分类模块。

25、根据本发明的另一方面,提供了一种时空动作定位方法,其特征在于,所述方法包括:获取包括待检测视频帧的一组视频帧;将所述一组视频帧输入到时空动作定位模型,获得针对待检测视频帧中的目标对象的预测定位和预测动作分类,基于所述预测定位和所述预测动作分类确定针对待检测视频帧中的目标对象的定位结果和动作分类结果,其中,所述时空动作定位模型是前述时空动作定位模型生成方法生成的模型。

26、根据本发明的另一方面,一种时空动作定位模型生成装置,其特征在于,所述装置包括:样本获取单元,被配置为获取训练样本,其中,训练样本包括:包括目标帧的一组连续视频帧以及针对目标帧中的目标对象的真实定位标注和真实动作分类标注;训练单元,被配置为基于训练样本对时空动作定位模型进行训练,得到第一时空动作定位模型,其中,所述时空动作定位模型包括:特征提取模块,用于从所述训练样本的各视频帧中分别提取特征图;对象检测模块,用于基于所述目标帧的关联特征图,对所述目标帧中的目标对象进行对象检测,得到所述目标帧中针对所述目标对象的候选定位;动作分类模块,用于基于所述连续视频帧的特征图与所述候选定位,确定所述目标帧中针对所述目标对象的候选动作分类。

27、可选地,所述训练单元可被配置为通执行至少一轮优化过程对时空动作定位模型进行训练,任意一轮所述优化过程可包括:通过时空动作定位模型获得针对目标帧中的目标对象的候选定位和候选动作分类;基于针对目标帧中的目标对象的候选定位和真实定位标注获得定位损失,并基于针对目标帧中的目标对象的候选动作分类和真实动作分类标注获得动作分类损失;基于定位损失和动作分类损失,调整所述时空动作定位模型的模型参数。

28、可选地,特征提取模块在用于任意一个视频帧的特征提取时,可具体用于:按照不同的特征尺度分别对该视频帧进行特征提取,得到该视频帧对应的一组特征图,该组特征图包括具有不同预设特征尺度的多个特征图。。

29、可选地,特征提取模块可包括:多个特征提取子模块,所述多个特征提取子模块逐级相连并预设有逐级递减的预设特征尺度,每个特征提取子模块被配置为从接收到的视频帧或从上一级特征提取子模块接收的特征图产生具有对应预设特征尺度的特征图。

30、可选地,对象检测模块可用于通过确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,当所述像素点属于目标对象时,所述候选定位包括所述像素点所映射的目标帧中的区域的定位。

31、可选地,对象检测模块可包括:至少一个特征融合子模块,被预设有不同的特征尺度,每个特征融合子模块被配置为基于从特征提取子模块接收的特征图和从其他特征融合子模块接收的融合特征图中的至少一个来执行特征融合操作,生成对应融合特征图;以及对象定位子模块,被配置为确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,所述目标帧的关联特征图包括:特征提取模块生成的与目标帧对应的至少一个特征图,或者基于特征提取模块生成的与目标帧对应的至少一个特征图执行特征融合操作而获得的至少一个融合特征图,或者特征提取模块生成的与目标帧对应的至少一个特征图以及所述至少一个融合特征图。

32、可选地,动作分类模块可被配置为基于针对目标帧中的目标对象的候选定位以及特征提取模块生成的具有预定义特征尺度的特征图来获得对目标帧中的目标对象的候选动作分类。

33、可选地,样本获取单元可被配置为:从视频数据集的视频所包括的视频帧中选择有标注视频帧作为目标帧,并从所述视频提取以目标帧为中间帧的一组连续视频帧,其中,有标注视频帧具有针对目标对象的真实定位标注和真实动作分类标注;基于提取的所述一组连续视频帧以及针对目标帧中的目标对象的真实定位标注和真实动作分类标注生成训练样本。

34、可选地,所述时空动作定位模型可与目标动作分类模型相关联,所述目标动作分类模型可包括所述特征提取模块与所述动作分类模块。

35、根据本发明的另一方面,提供了一种时空动作定位模型生成装置,其特征在于,所述装置包括:样本获取单元,被配置为获取第一训练样本,其中,第一训练样本包括:包括第一目标帧的一组连续视频帧以及针对第一目标帧中的目标对象的真实定位标注和真实动作分类标注;训练单元,被配置为基于第一训练样本对时空动作定位模型进行训练,得到第一时空动作定位模型,其中,样本获取单元还被配置为:基于所述第一时空动作定位模型,对视频数据集中的无标注视频帧进行赋标签处理,获取第二训练样本,其中,第二训练样本包括:包括第二目标帧的一组连续视频帧以及针对第二目标帧中的目标对象的伪定位标注和伪动作分类标注,其中,第二目标帧为无标注视频帧,训练单元还被配置为:基于第一训练样本和第二训练样本对第一时空动作定位模型进行训练,得到第二时空动作定位模型,其中,时空动作定位模型包括:特征提取模块,用于从训练样本的各视频帧中分别提取特征图;对象检测模块,用于基于目标帧的关联特征图,对目标帧中的目标对象进行对象检测,得到目标帧中针对目标对象的候选定位;动作分类模块,用于基于训练样本的一组连续视频帧的特征图与所述候选定位,确定目标帧中针对目标对象的候选动作分类。

36、可选地,样本获取单元可被配置为通过以下操作获取第二训练样本:将包括第二目标帧的一组连续视频帧输入到第一时空动作定位模型,获得针对第二目标帧中的目标对象的候选定位和候选动作分类,并将针对第二目标帧中的目标对象的候选定位确定为针对第二目标帧中的目标对象的伪定位标注;基于针对第二目标帧中的目标对象的伪定位标注和候选动作分类,以及所述视频中与第二目标帧最接近的至少两个有标注视频帧中的目标对象的真实定位标注和真实动作分类标注,对第二目标帧中的目标对象分配伪动作分类标注。

37、可选地,样本获取单元可被配置为通过以下操作对第二目标帧中的目标对象分配伪动作分类标注:基于所述至少两个有标注视频帧中的目标对象的真实定位标注和真实动作分类标注,形成定位标注集和动作分类标注集,其中,定位标注集中的真实定位标注和动作分类标注集中的真实动作分类标注具有对应关系;基于针对第二目标帧中的目标对象的伪定位标注和候选动作分类,在定位标注集和动作分类标注集中确定与第二目标帧中的目标对象匹配的真实定位标注和真实动作分类标注;将与第二目标帧中的目标对象的匹配的真实动作分类标注设置为针对第二目标帧中的目标对象的伪动作分类标注。

38、可选地,样本获取单元可被配置为通过以下操作来确定与第二目标帧中的目标对象匹配的真实定位标注和真实动作分类标注:计算当第二目标帧中的目标对象的动作分类标注被设置为动作分类标注集中的不同真实动作分类标注时的代价,其中,所述代价指示第二目标帧中的目标对象与所述两个有标注视频帧中的目标对象之间的差异;将代价最小时对第二目标帧中的目标对象设置的真实动作分类标注确定为与第二目标帧中的目标对象匹配的真实动作分类标注,并将定位标注集中与所述匹配的真实动作分类标注对应的真实定位标注确定为与第二目标帧中的目标对象匹配的真实定位标注。

39、可选地,训练单元可被配置为通过至少一轮优化过程对第一时空动作定位模型进行训练,任意一轮所述优化过程可包括:基于第一训练样本对第一时空动作定位模型进行训练,获取有标注损失;基于第二训练样本对第一时空动作定位模型进行训练,获取无标注损失;基于所述有标注损失和所述无标注损失来调整第一时空动作定位模型的模型参数。

40、可选地,训练单元可被配置为通过以下操作获取有标注损失:通过第一时空动作定位模型获得针对第一目标帧中的目标对象的第一候选定位和第一候选动作分类;基于所述第一候选定位和所述真实定位标注获得第一定位损失并基于所述第一候选动作分类和所述真实动作分类标注获得第一动作分类损失;基于所述第一定位损失和所述第一动作分类损失来获取所述有标注损失。训练单元可被配置为通过以下操作获取无标注损失:通过第一时空动作定位模型获得针对第二目标帧中的目标对象的第二候选定位和第二候选动作分类;基于所述第二候选定位和所述伪定位标注获得第二定位损失并基于所述第二候选动作分类和所述伪动作分类标注获得第二动作分类损失;基于所述第二定位损失和所述第二动作分类损失来获取所述无标注损失。

41、可选地,训练单元可被配置为基于所述有标注损失和所述无标注损失的加权和来调整第一时空动作定位模型的模型参数,其中,所述无标注损失的权重小于所述有标注损失的权重。

42、可选地,训练单元可被配置为通过至少一轮优化过程对时空动作定位模型进行训练,任意一轮所述优化过程可包括:通过时空动作定位模型获得针对第一目标帧中的目标对象的第一候选定位和第一候选动作分类;基于针对第一目标帧中的目标对象的第一候选定位和真实定位标注获得定位损失,并基于针对第一目标帧中的目标对象的第一候选动作分类和真实动作分类标注获得动作分类损失;基于定位损失和动作分类损失,调整所述时空动作定位模型的模型参数。

43、可选地,特征提取模块在用于任意一个视频帧的特征提取时,可具体用于:按照不同的特征尺度分别对该视频帧进行特征提取,得到该视频帧对应的一组特征图,该组特征图包括具有不同预设特征尺度的多个特征图。

44、可选地,特征提取模块可包括:多个特征提取子模块,所述多个特征提取子模块逐级相连并预设有逐级递减的预设特征尺度,每个特征提取子模块被配置为从接收到的视频帧或从上一级特征提取子模块接收的特征图产生具有对应预设特征尺度的特征图。

45、可选地,对象检测模块可用于通过确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,当所述像素点属于目标对象时,所述候选定位包括所述像素点所映射的目标帧中的区域的位置。

46、可选地,对象检测模块可包括:至少一个特征融合子模块,被预设有不同的特征尺度,每个特征融合子模块被配置为基于从特征提取子模块接收的特征图和从其他特征融合子模块接收的融合特征图中的至少一个来执行特征融合操作,生成对应融合特征图;以及对象定位子模块,被配置为确定目标帧的关联特征图中的像素点是否属于目标对象,得到针对目标帧中的目标对象的候选定位,其中,所述目标帧的关联特征图包括:特征提取模块生成的与目标帧对应的至少一个特征图,或者基于特征提取模块生成的与目标帧对应的至少一个特征图执行特征融合操作而获得的至少一个融合特征图,或者特征提取模块生成的与目标帧对应的至少一个特征图以及所述至少一个融合特征图。

47、可选地,动作分类模块可被配置为基于针对目标帧中的目标对象的候选定位以及特征提取模块生成的具有预定义特征尺度的特征图来获得对目标帧中的目标对象的候选动作分类。

48、可选地,所述时空动作定位模型可与目标动作分类模型相关联,所述目标动作分类模型可包括所述特征提取模块与所述动作分类模块。

49、根据本发明的另一方面,提供了一种时空动作定位装置,所述装置包括:数据获取单元,被配置为获取包括待检测视频帧的一组视频帧;预测单元,被配置为将所述一组视频帧输入到时空动作定位模型,获得针对待检测视频帧中的目标对象的预测定位和预测动作分类,并且基于所述预测定位和所述预测动作分类确定针对待检测视频帧中的目标对象的定位结果和动作分类结果,其中,所述时空动作定位模型是使用前述时空动作定位模型生成方法生成的模型。

50、根据本发明的另一方面,提供了一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现前述时空动作定位模型生成方法和/或前述时空动作定位方法。

51、根据本发明的另一方面,提供了一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行前述时空动作定位模型生成方法和/或前述时空动作定位方法。

52、根据本发明的另一方面,提供了一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现前述时空动作定位模型生成方法和/或前述时空动作定位方法。

53、有益效果

54、通过应用根据本公开的时空动作定位模型生成方法、时空动作定位方法及其装置,使得时空动作定位模型将用于检测视频帧中的目标对象的对象检测器与用于对目标对象的动作进行分类的动作分类器结合在同一时空动作定位模型中,对对象检测器和动作分类器进行联合训练和调优,提升了时空动作定位模型的性能。

55、此外,在本公开的时空动作定位模型生成方法中,不仅利用具有真实标注的有标注视频帧来训练时空动作定位模型,还对不具有标注的视频帧(即,未标注视频帧)分配伪标注,对时空动作定位模型进行训练,从而进一步利用了未标注视频帧提升了时空动作定位模型的性能。

56、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1