本公开涉及电子信息,具体地,涉及一种视频字幕生成方法、装置、介质及电子设备。
背景技术:
1、为了提升用户观看视频的体验,需要为视频添加字幕。而在自动添加字幕技术中,只是展示了语音识别模型输出的文字内容。
技术实现思路
1、提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、第一方面,本公开提供一种视频字幕生成方法,包括:
3、获取目标音频;
4、确定所述目标音频中的事件在所述目标音频中持续的事件时间范围,所述事件包括在所述目标音频中的语音片段中发生的事件和在所述目标音频中的非语音片段中发生的事件;
5、根据所述事件在所述目标音频中持续的事件时间范围,将所述事件对应的事件标签作为字幕添加到视频对应该事件时间范围的视频帧中,所述视频为与所述目标音频对应的视频。
6、第二方面,本公开提供一种视频字幕生成装置,包括:
7、获取模块,用于获取目标音频;
8、确定模块,用于确定所述目标音频中的事件在所述目标音频中持续的事件时间范围,所述事件包括在所述目标音频中的语音片段中发生的事件和在所述目标音频中的非语音片段中发生的事件;
9、生成模块,用于根据所述事件在所述目标音频中持续的事件时间范围,将所述事件对应的事件标签作为字幕添加到视频对应该事件时间范围的视频帧中,所述视频为与所述目标音频对应的视频。
10、第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面中所述方法的步骤。
11、第四方面,本公开提供一种电子设备,包括:
12、存储装置,其上存储有至少一个计算机程序;
13、至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现第一方面中所述方法的步骤。
14、通过上述技术方案,确定目标音频中的事件在目标音频中持续的事件时间范围,进而根据事件在目标音频中持续的事件时间范围,将事件对应的事件标签作为字幕添加到视频对应该事件时间范围的视频帧中,这样,能够使用户根据视频中的字幕有效定位在视频中发生的事件及事件对应的时间,从而提高用户基于字幕展示对视频的内容理解。
15、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
1.一种视频字幕生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标音频中的事件在所述目标音频中持续的事件时间范围,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一识别结果和所述第二识别结果,确定所述目标音频中的事件在所述目标音频中持续的事件时间范围,包括:
4.根据权利要求3所述的方法,其特征在于,所述针对所述第二识别结果中与分句相匹配的事件,以消除发音时间范围与事件时间范围之间的重叠部分为目标调整该事件在所述目标音频中持续的事件时间范围,或者调整与该分句所对应的发音时间范围,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求4所述的方法,其特征在于,所述针对所述第二识别结果中与分句相匹配的事件,确定该事件在所述目标音频中的音效所对应的发音字符集,包括:
8.一种视频字幕的生成装置,其特征在于,包括:
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括: