本技术涉及多媒体应用领域,具体涉及一种对象检测方法及装置、电子设备、存储介质。
背景技术:
1、近年来,在影视剧中植入广告等对象已成为一种新的宣传方式,被广泛应用于国内外影视剧作品中。其中,为了不影响观众对影视剧的观感,目前会将广告自然地植入到影视剧场景中,如将影视剧出现的广告牌或显示屏等广告坑位替换为需要植入的对应广告等。
2、为了确定影视剧等视频中广告坑位,通常需要工作人员人工反复阅读视频的每一图像帧,时间成本过高,且很容易因人工疏忽,导致广告坑位检测不完整,从而产生广告植入穿帮问题,也会降低广告坑位召回时长,影响广告植入效益。
技术实现思路
1、为解决上述技术问题,本技术实施例提供如下技术方案:
2、本技术提出了一种对象检测方法,所述对象检测方法包括:
3、获得目标视频;所述目标视频为需要植入第一对象的视频;
4、对所述目标视频进行对象检测,获得每个目标图像组的目标检测结果;其中,每个所述目标图像组包括所述目标视频中的连续多帧目标图像,且所述多帧目标图像包含同一个第二对象,所述目标检测结果至少包括每一帧所述目标图像中的第二对象的位置信息和类别预测信息,所述类别预测信息是预测所述第二对象属于目标类别的结果,所述目标类别是预先定义的用以植入所述第一对象的对象类别;
5、将所述目标视频分割成多个场景视频,确定属于同一所述场景视频的各所述目标图像组;一个所述场景视频包含所述目标视频中的连续多帧图像;
6、依据属于每一所述场景视频的各所述目标图像组和所述目标检测结果,从各所述目标图像组包含的多个第二对象中,获得同一个第二对象对应的各所述目标图像组;
7、依据所述目标检测结果以及同一个第二对象对应的各所述目标图像组,获得该同一个第二对象在所述目标视频中的检测结果,用以按照所述检测结果植入对应类别的所述第一对象。
8、可选的,所述对所述目标视频进行对象检测,获得每个目标图像组的目标检测结果,包括:
9、将所述目标视频输入目标检测网络,获得每个目标图像组中每一帧目标图像包含的第二对象的位置信息,以及所述第二对象属于所述目标类别的类别预测信息;;
10、获得每个所述目标图像组包含的多帧目标图像的帧序号;
11、由每个所述目标图像组对应的所述帧序号、所述位置信息以及所述类别预测信息,组成所述目标图像组的目标检测结果。
12、可选的,所述将所述目标视频分割成多个场景视频,确定属于同一所述场景视频的各所述目标图像组,包括:
13、对所述目标视频进行场景分割,得到相应的场景分割信息;所述场景分割信息表征所述目标视频被分割成的多个场景视频各自包含的连续多帧图像;
14、基于所述场景分割信息和各所述目标图像组对应的所述帧序号,确定属于同一所述场景视频的各所述目标图像组。
15、可选的,所述依据属于每一所述场景视频的各所述目标图像组和所述目标检测结果,从各所述目标图像组包含的第二对象中,获得同一个第二对象对应的各所述目标图像组,包括:
16、获得属于同一所述场景视频的各所述目标图像组对应的所述帧序号;
17、依据所述第二对象的位置信息以及同一所述场景视频对应的所述帧序号,对属于同一所述场景视频的多帧所述目标图像进行相似对象聚类,得到相应所述场景视频内属于同一个第二对象的对象聚类结果;
18、依据所述多个场景视频各自的所述对象聚类结果以及对应所述第二对象的所述类别预测信息,对所述多个场景视频包含同一所述目标类别第二对象的所述目标图像进行场景相似聚类,获得所述多个场景视频内包含同一个第二对象的场景聚类结果;
19、依据所述场景聚类结果,确定所述目标视频中同一个第二对象对应的各所述目标图像组。
20、可选的,所述依据所述第二对象的位置信息以及同一所述场景视频对应的所述帧序号,对属于同一所述场景视频的多帧所述目标图像进行相似对象聚类,得到相应所述场景视频内属于同一个第二对象的对象聚类结果,包括:
21、依据属于同一所述场景视频的各所述目标图像组对应的所述帧序号,从各所述目标图像组中获得相同预设帧数的待处理图像;
22、利用各所述待处理图像中所述第二对象的所述位置信息,提取对应所述待处理图像中的第二对象区域图像;
23、依据所述待处理图像中所述第二对象的类别预测信息,对从同一所述场景视频内提取到的同一所述目标类别第二对象对应的各所述第二对象区域图像进行相似度计算,得到相应的对象相似度;
24、依据所述对象相似度和所述目标检测结果,获得相应所述场景视频内属于同一个第二对象的对象聚类结果。
25、可选的,所述依据所述多个场景视频各自的对象聚类结果以及对应所述第二对象的所述类别预测信息,对所述多个场景视频包含同一所述目标类别第二对象的所述目标图像进行相似场景聚类,获得所述多个场景视频内包含同一个第二对象的场景聚类结果,包括:
26、依据每个所述场景视频的对象聚类结果以及所述第二对象的类别预测信息,从相应所述场景视频内针对同一个第二对象的各所述目标图像组中,获得该第二对象的最大类别预测信息对应的一帧待检测图像;
27、对所述多个场景视频内同一所述目标类别第二对象对应的各帧所述待检测图像进行相似度计算,得到相应的场景相似度;
28、依据所述场景相似度,对所述多个场景视频内的同一个第二对象进行聚类,获得所述目标视频中同一个第二对象的场景聚类结果。
29、可选的,所述对所述多个场景视频内同一所述目标类别第二对象对应的各帧所述待检测图像进行相似度计算,得到相应的场景相似度,包括:
30、将获得的各帧所述待检测图像输入场景相似检测网络,对包含同一所述目标类别第二对象的任意两帧所述待检测图像进行相似度计算,获得相应的场景相似度;
31、所述依据所述场景相似度,对所述多个场景视频内的同一个第二对象进行聚类,获得所述目标视频中同一个第二对象的场景聚类结果,包括:
32、确定所述场景相似度大于场景相似阈值的各所述场景视频为一组待聚类场景视频;
33、将每一组所述待聚类场景视频内的同一所述目标类别第二对象聚合为同一个第二对象,得到所述多个场景视频内的同一个第二对象的场景聚类结果。
34、本技术还提出了一种对象检测装置,所述对象检测装置包括:目标视频获得模块,用于获得目标视频;所述目标视频为需要植入第一对象的视频;
35、目标检测结果获得模块,用于对所述目标视频进行对象检测,获得每个目标图像组的目标检测结果;其中,每个所述目标图像组包括所述目标视频中的连续多帧目标图像,且所述多帧目标图像包含同一个第二对象,所述目标检测结果至少包括每一帧所述目标图像中的第二对象的位置信息和类别预测信息,所述类别预测信息是预测所述第二对象属于目标类别的结果,所述目标类别是预先定义的用以植入所述第一对象的对象类别;
36、场景视频分割模块,用于将所述目标视频分割成多个场景视频,确定属于同一所述场景视频的各所述目标图像组;一个所述场景视频包含所述目标视频中的连续多帧图像;
37、目标图像处理模块,用于依据属于每一所述场景视频的各所述目标图像组和所述目标检测结果,从各所述目标图像组包含的多个第二对象中,获得同一个第二对象对应的各所述目标图像组;
38、检测结果获得模块,用于依据所述目标检测结果以及同一个第二对象对应的各所述目标图像组,获得该同一个第二对象在所述目标视频中的检测结果,用以按照所述检测结果植入对应类别的所述第一对象。
39、本技术还提出了一种电子设备,所述电子设备包括:至少一个存储器和至少一个处理器,其中:
40、所述处理器,用于加载执行所述存储器存储的计算机指令,以实现如上述对象检测方法。
41、本技术还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载执行,实现如上述对象检测方法。
42、由此可见,本技术提出了一种对象方法及装置、电子设备,通过对目标视频进行对象检测,快速且准确获得该目标视频包含的多个目标图像组的目标检测结果,由于每个目标图像组包含连续多帧目标图像,且这多帧目标图像包含同一个第二对象,其对应的目标检测结果可以包括每一帧目标图像中的位置信息以及该第二对象属于用以植入第一对象的对象类别(即目标类别)的类别预测信息等,无需人工查阅各帧图像是否存在目标类别的第二对象,大大提高了对象检测效率,之后,可以依据属于每个场景视频的各目标图像组以及目标检测结果,获得同一个第二对象对应的各目标图像组,从而依据目标检测结果以及同一个第二对象对应的各目标图像组,获得该第二对象在目标视频中精准且完整的检测结果,缩小了第二对象召回时长,以提高按照该检测结果实现的第一对象植入效率,且避免产生第一对象植入穿帮问题,保证如广告等第一对象的植入效益。