本技术涉及人工智能,尤其涉及一种视频字幕的检测方法及相关产品。
背景技术:
1、随着各种视频的爆炸性增长,对视频的管理难度越来越大,而在视频中存在字幕的情况下字幕通常与视频的内容相关,因此可将视频中的字幕作为管理视频的依据,以此降低视频管理的难度,例如,以视频中内的字幕为依据进行视频推荐,又例如,以视频中内的字幕为依据搜索视频。因此,如何将带有字幕的视频中的字幕文字提取出来具有非常重要的意义。目前的方法是通过对视频中的视频帧进行文字检测(optical characterrecognition,ocr),以得到视频帧中的文本,再通过人工判断所得到的文本是否有字幕,该种方法检测字幕的效率低。
技术实现思路
1、本技术提供一种视频字幕的检测方法及相关产品。
2、第一方面,提供了一种视频字幕的检测方法,所述方法包括:
3、获取待检测视频中的至少一个第一文本和所述至少一个第一文本在所述待检测视频中的位置;
4、通过将位于所述待检测视频中的位置相同的第一文本分为一类,对所述至少一个第一文本进行划分,得到至少一个文本类;
5、确定所述至少一个文本类中包含的第一文本的数量大于或等于第一阈值的文本类为目标文本类;
6、将所述目标文本类中的第一文本作为所述待检测视频的字幕。
7、结合本技术任一实施方式,在获取待检测视频中的至少一个第一文本和所述至少一个第一文本在所述待检测视频中的位置之后,在所述通过将位于所述待检测视频中的位置相同的第一文本分为一类,对所述至少一个第一文本进行划分,得到至少一个文本类之前,所述方法还包括:
8、在第一文本的数量大于1的情况下,根据所述至少一个第一文本在所述待检测视频中的位置,确定所述至少一个第一文本中的任意两个第一文本的面积的交并比;
9、在所述交并比大于或等于第二阈值的情况下,确定所述交并比所对应的两个第一文本在所述待检测视频中的位置相同。
10、结合本技术任一实施方式,所述待检测视频的像素坐标系包括横轴和纵轴,所述横轴的方向为横向,所述纵轴的方向为纵向;
11、在确定所述至少一个第一文本中的任意两个第一文本的面积的交并比之后,所述方法还包括:
12、在所述交并比小于所述第二阈值的情况下,根据所述交并比所对应的两个第一文本在所述待检测视频中的位置,确定所述交并比所对应的两个第一文本的中心在所述横向上的中心横向距离,以及确定所述交并比所对应的两个第一文本的中心在所述纵向上的中心纵向距离,以及确定所述交并比所对应的两个第一文本在所述横向上的横向最大距离,以及确定所述交并比所对应的两个第一文本在所述纵向上的纵向最大距离;
13、在所述中心横向距离与所述横向最大距离的比值大于或等于第三阈值,且所述中心纵向距离与所述纵轴最大距离的比值大于或等于所述第三阈值的情况下,确定所述交并比所对应的两个第一文本在所述待检测视频中的位置相同。
14、结合本技术任一实施方式,所述获取待检测视频中的至少一个第一文本,包括:
15、获取所述待检测视频中的至少一个第二文本和所述至少一个第二文本在所述待检测视频中的持续时长;
16、从所述至少一个第二文本中选取持续时长处于预设区间内的文本,得到所述至少一个第一文本。
17、结合本技术任一实施方式,所述获取所述待检测视频中的至少一个第二文本,包括:
18、获取所述待检测视频;
19、对所述待检测视频进行文字检测,得到至少一个第三文本;
20、合并所述至少一个第三文本中相同的第三文本,得到所述至少一个第二文本。
21、结合本技术任一实施方式,所述获取所述至少一个第二文本在所述待检测视频中的持续时长,包括:
22、将第三文本所对应的视频帧的时间戳作为第三文本的时间戳;
23、确定与第二文本对应的第三文本的最小时间戳作为第二文本的起始时间;
24、确定与第二文本对应的第三文本的最大时间戳作为第二文本的结束时间;
25、根据所述至少一个第二文本的起始时间和所述至少一个第二文本的结束时间,得到所述至少一个第二文本在所述待检测视频中的持续时长。
26、结合本技术任一实施方式,所述合并所述至少一个第三文本中相同的第三文本,得到所述至少一个第二文本,包括:
27、合并所述至少一个第三文本中相同的第三文本,得到所述至少一个第四文本;
28、在第四文本的数量大于1,且所述至少一个第四文本中的存在相似度大于或等于第四阈值的第五文本和第六文本的情况下,合并所述至少一个第四文本中的所述第五文本和所述第六文本,得到所述至少一个第二文本;
29、在所述至少一个第四文本中不存在相似度大于或等于第四阈值的两个第四文本的情况下,将所述至少一个第四文本作为所述至少一个第二文本。
30、结合本技术任一实施方式,所述合并所述至少一个第四文本中的所述第五文本和所述第六文本,得到所述至少一个第二文本,包括:
31、获取所述第五文本的起始时间、所述第五文本的结束时间、所述第六文本的起始时间和所述第六文本的结束时间,所述第五文本的起始时间早于所述第六文本的起始时间;
32、确定所述第五文本的起始时间与所述第六文本的结束时间的第一时间差;
33、确定所述第五文本的起始时间和所述第五文本的结束时间的中值,得到所述第五文本的时间中值;
34、确定所述第六文本的起始时间和所述第六文本的结束时间的中值,得到所述第六文本的时间中值;
35、确定所述第五文本的时间中值与所述第六文本的时间中值的第二时间差;
36、在所述第一时间差与所述第二时间差的比值小于或等于第五阈值的情况下,合并所述至少一个第四文本中的所述第五文本和所述第六文本,得到所述至少一个第二文本。
37、第二方面,提供了一种视频字幕的检测装置,所述检测装置包括:
38、获取单元,用于获取待检测视频中的至少一个第一文本和所述至少一个第一文本在所述待检测视频中的位置;
39、划分单元,用于通过将位于所述待检测视频中的位置相同的第一文本分为一类,对所述至少一个第一文本进行划分,得到至少一个文本类;
40、确定单元,用于确定所述至少一个文本类中包含的第一文本的数量大于或等于第一阈值的文本类为目标文本类;
41、处理单元,用于将所述目标文本类中的第一文本作为所述待检测视频的字幕。
42、所述确定单元,还用于:
43、在第一文本的数量大于1的情况下,根据所述至少一个第一文本在所述待检测视频中的位置,确定所述至少一个第一文本中的任意两个第一文本的面积的交并比;
44、在所述交并比大于或等于第二阈值的情况下,确定所述交并比所对应的两个第一文本在所述待检测视频中的位置相同。
45、结合本技术任一实施方式,所述待检测视频的像素坐标系包括横轴和纵轴,所述横轴的方向为横向,所述纵轴的方向为纵向;
46、所述确定单元,还用于:
47、在所述交并比小于所述第二阈值的情况下,根据所述交并比所对应的两个第一文本在所述待检测视频中的位置,确定所述交并比所对应的两个第一文本的中心在所述横向上的中心横向距离,以及确定所述交并比所对应的两个第一文本的中心在所述纵向上的中心纵向距离,以及确定所述交并比所对应的两个第一文本在所述横向上的横向最大距离,以及确定所述交并比所对应的两个第一文本在所述纵向上的纵向最大距离;
48、在所述中心横向距离与所述横向最大距离的比值大于或等于第三阈值,且所述中心纵向距离与所述纵轴最大距离的比值大于或等于所述第三阈值的情况下,确定所述交并比所对应的两个第一文本在所述待检测视频中的位置相同。
49、结合本技术任一实施方式,所述获取单元,用于:
50、获取所述待检测视频中的至少一个第二文本和所述至少一个第二文本在所述待检测视频中的持续时长;
51、从所述至少一个第二文本中选取持续时长处于预设区间内的文本,得到所述至少一个第一文本。
52、结合本技术任一实施方式,所述获取单元,用于:
53、获取所述待检测视频;
54、对所述待检测视频进行文字检测,得到至少一个第三文本;
55、合并所述至少一个第三文本中相同的第三文本,得到所述至少一个第二文本。
56、结合本技术任一实施方式,所述获取单元,用于:
57、将第三文本所对应的视频帧的时间戳作为第三文本的时间戳;
58、确定与第二文本对应的第三文本的最小时间戳作为第二文本的起始时间;
59、确定与第二文本对应的第三文本的最大时间戳作为第二文本的结束时间;
60、根据所述至少一个第二文本的起始时间和所述至少一个第二文本的结束时间,得到所述至少一个第二文本在所述待检测视频中的持续时长。
61、结合本技术任一实施方式,所述获取单元,用于:
62、合并所述至少一个第三文本中相同的第三文本,得到所述至少一个第四文本;
63、在第四文本的数量大于1,且所述至少一个第四文本中的存在相似度大于或等于第四阈值的第五文本和第六文本的情况下,合并所述至少一个第四文本中的所述第五文本和所述第六文本,得到所述至少一个第二文本;
64、在所述至少一个第四文本中不存在相似度大于或等于第四阈值的两个第四文本的情况下,将所述至少一个第四文本作为所述至少一个第二文本。
65、结合本技术任一实施方式,所述获取单元,用于:
66、获取所述第五文本的起始时间、所述第五文本的结束时间、所述第六文本的起始时间和所述第六文本的结束时间,所述第五文本的起始时间早于所述第六文本的起始时间;
67、确定所述第五文本的起始时间与所述第六文本的结束时间的第一时间差;
68、确定所述第五文本的起始时间和所述第五文本的结束时间的中值,得到所述第五文本的时间中值;
69、确定所述第六文本的起始时间和所述第六文本的结束时间的中值,得到所述第六文本的时间中值;
70、确定所述第五文本的时间中值与所述第六文本的时间中值的第二时间差;
71、在所述第一时间差与所述第二时间差的比值小于或等于第五阈值的情况下,合并所述至少一个第四文本中的所述第五文本和所述第六文本,得到所述至少一个第二文本。
72、第三方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
73、第四方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式。
74、第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任一实施方式。
75、第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一实施方式。
76、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。
77、本技术中,检测装置在获取待检测视频中的至少一个第一文本和至少一个第一文本在待检测视频中的位置后,通过将位于待检测视频中的位置相同的第一文本分为一类,对至少一个第一文本进行划分,得到至少一个文本类。然后通过从至少一个文本类中确定包含的第一文本的数量大于或等于第一阈值的目标文本类,确定所对应的位置为出现字幕的位置的目标文本类。最后将目标文本类中的第一文本作为待检测视频的字幕,由此可检测出待检测视频中的字幕,并可提高检测字幕的效率。