本技术涉及视频处理的领域,尤其是涉及视频和音频的同步方法、装置、电子设备及介质。
背景技术:
1、在生活中的一些场景中,需要基于视频内容为视频配置一段音频,如基于某个ppt生成的视频,需要基于ppt的文字内容做讲述人的配音;又如朋友圈发布的带有文字的图像后生成视频,也需要基于图像里的文字内容对视频进行配音。
2、但是,在相关技术中,均是直接提取视频中的文字内容,然后生成音频,再直接将音频和视频混合在一起,但这有可能会造成视频在播放时,音频内容与视频内容不匹配,造成较差的观看体验。
3、因此,如何提升音频内容与视频内容的匹配度,是一个亟需解决的问题。
技术实现思路
1、为了提升音频内容与视频内容的匹配度,本技术提供一种视频和音频的同步方法、装置、电子设备及介质。
2、第一方面,本技术提供一种视频和音频的同步方法,采用如下的技术方案:
3、一种视频和音频的同步方法,包括:
4、获取待配音的目标视频;
5、从所述目标视频中提取构成所述目标视频的各个元素对象;
6、识别所述元素对象中的文字内容,并将所述文字内容转换得到所述元素对象对应的音频段,以得到所述各个元素对象各自对应的音频段;
7、将所述元素对象生成子视频,以得到所述各个元素对象各自对应的子视频,所述子视频的时长为所述元素对象对应的音频段的时长;
8、基于所述各个元素对象各自对应的音频段以及所述各个元素对象各自对应的子视频进行同步融合,得到所述目标视频的配音视频。
9、通过采用上述技术方案,对于没有配音的目标视频,通过提取得到各个元素对象,然后通过对每个元素对象中的文字内容进行识别,将元素对象中的文字内容转换成音频段;再将每个元素对象生成子视频,且每个子视频的时长与对应的音频段的时长相同,以使得后续融合后的语音内容和视频内容能够同步;进而将每个子视频与对应的音频段进行融合,得到配音后的各个子视频,然后将各个子视频进行拼接融合,最终得到对目标视频进行配音后的配音视频,并且能够使得语音内容和视频内容相同步。
10、在一种可能实现的方式中,若所述目标视频的时长小于等于预设的时长阈值,所述从所述目标视频中提取构成所述目标视频的各个元素对象,包括:
11、对所述目标视频的进行邻帧分析,确定每组相邻帧的相似度;
12、确定相似度低于预设值的所述相邻帧为元素对象的分割节点;
13、基于各个所述分割节点从所述目标视频中提取构成所述目标视频的各个元素对象。
14、在一种可能实现的方式中,若所述目标视频的时长大于预设的时长阈值,所述从所述目标视频中提取构成所述目标视频的各个元素对象,包括:
15、对所述目标视频进行降帧率处理,得到调整后的目标视频;
16、对所述调整后的目标视频进行邻帧分析,确定每组相邻帧的相似度;
17、确定相似度低于预设值的所述相邻帧为元素对象的分割节点;
18、基于各个所述分割节点从所述目标视频中提取构成所述目标视频的各个元素对象。
19、在一种可能实现的方式中,所述确定每组相邻帧的相似度,包括:
20、对每组相邻帧中的两张图像进行灰度处理,得到两张灰度图像;
21、对每张所述灰度图像进行识别,确定每张灰度图像中的文字区域;
22、将所述文字区域内每个文字标定为一个目标点,并基于所述文字区域内的各个目标点进行绘连,得到每张灰度图像对应的轮廓图案;
23、将两个所述轮廓图案进行相似度分析,确定两个所述轮廓图案的相似度作为每组相邻帧的相似度。
24、在一种可能实现的方式中,所述将所述文字内容转换得到所述元素对象对应的音频段,包括:
25、从所述灰度图像的文字区域中确定所述文字内容,并确定所述文字内容中的各个标点符号;
26、确定所述文字内容的风格类型;
27、基于所述风格类型确定所述各个标点符号各自对应的停顿时长;
28、将所述文字内容转换得到初始音频,并在所述初始音频中添加所述各个标点符号各自对应的停顿时长,以得到所述元素对象对应的音频段。
29、在一种可能实现的方式中,所述标点符号包括第一符号和第二符号,所述基于所述风格类型确定所述各个标点符号各自对应的停顿时长,包括:
30、基于所述风格类型确定各个所述第一符号各自对应的停顿时长;
31、确定各个所述第二符号在所述文字内容中的位置;
32、基于所述风格类型以及所述各个所述第二符号在所述文字内容中的位置确定各个所述第二符号各自对应的停顿时长。
33、在一种可能实现的方式中,所述基于所述各个元素对象各自对应的音频段以及所述各个元素对象各自对应的子视频进行同步融合,得到所述目标视频的配音视频,包括:
34、将每个所述元素对象对应的音频段和子视频进行同步融合,以得到所述各个元素对象各自对应的融合后的子视频;
35、获取所述各个元素对象的序位,所述序位表征所述元素对象在所述目标视频中出现的顺序;
36、基于所述各个元素对象的序位将所述各个元素各自对应的融合后的子视频进行融合,得到所述目标视频的配音视频。
37、第二方面,本技术提供一种视频和音频的同步装置,采用如下的技术方案:
38、一种视频和音频的同步装置,包括:
39、目标视频获取模块,用于获取待配音的目标视频;
40、元素对象提取模块,用于从所述目标视频中提取构成所述目标视频的各个元素对象;
41、识别模块,用于识别所述元素对象中的文字内容,并将所述文字内容转换得到所述元素对象对应的音频段,以得到所述各个元素对象各自对应的音频段;
42、子视频生成模块,用于将所述元素对象生成子视频,以得到所述各个元素对象各自对应的子视频,所述子视频的时长为所述元素对象对应的音频段的时长;
43、融合模块,用于基于所述各个元素对象各自对应的音频段以及所述各个元素对象各自对应的子视频进行同步融合,得到所述目标视频的配音视频。
44、通过采用上述技术方案,对于没有配音的目标视频,该装置通过提取得到各个元素对象,然后通过对每个元素对象中的文字内容进行识别,将元素对象中的文字内容转换成音频段;再将每个元素对象生成子视频,且每个子视频的时长与对应的音频段的时长相同,以使得后续融合后的语音内容和视频内容能够同步;进而将每个子视频与对应的音频段进行融合,得到配音后的各个子视频,然后将各个子视频进行拼接融合,最终得到对目标视频进行配音后的配音视频,并且能够使得语音内容和视频内容相同步。
45、在一种可能实现的方式中,元素对象提取模块从所述目标视频中提取构成所述目标视频的各个元素对象时,具体用于:
46、对所述目标视频的进行邻帧分析,确定每组相邻帧的相似度;
47、确定相似度低于预设值的所述相邻帧为元素对象的分割节点;
48、基于各个所述分割节点从所述目标视频中提取构成所述目标视频的各个元素对象。
49、在一种可能实现的方式中,元素对象提取模块从所述目标视频中提取构成所述目标视频的各个元素对象时,具体用于:
50、对所述目标视频进行降帧率处理,得到调整后的目标视频;
51、对所述调整后的目标视频进行邻帧分析,确定每组相邻帧的相似度;
52、确定相似度低于预设值的所述相邻帧为元素对象的分割节点;
53、基于各个所述分割节点从所述目标视频中提取构成所述目标视频的各个元素对象。
54、在一种可能实现的方式中,元素对象提取模块在确定每组相邻帧的相似度时,具体用于:
55、对每组相邻帧中的两张图像进行灰度处理,得到两张灰度图像;
56、对每张所述灰度图像进行识别,确定每张灰度图像中的文字区域;
57、将所述文字区域内每个文字标定为一个目标点,并基于所述文字区域内的各个目标点进行绘连,得到每张灰度图像对应的轮廓图案;
58、将两个所述轮廓图案进行相似度分析,确定两个所述轮廓图案的相似度作为每组相邻帧的相似度。
59、在一种可能实现的方式中,识别模块在将所述文字内容转换得到所述元素对象对应的音频段时,具体用于:
60、从所述灰度图像的文字区域中确定所述文字内容,并确定所述文字内容中的各个标点符号;
61、确定所述文字内容的风格类型;
62、基于所述风格类型确定所述各个标点符号各自对应的停顿时长;
63、将所述文字内容转换得到初始音频,并在所述初始音频中添加所述各个标点符号各自对应的停顿时长,以得到所述元素对象对应的音频段。
64、在一种可能实现的方式中,识别模块基于所述风格类型确定所述各个标点符号各自对应的停顿时长时,具体用于:
65、基于所述风格类型确定各个所述第一符号各自对应的停顿时长;
66、确定各个所述第二符号在所述文字内容中的位置;
67、基于所述风格类型以及所述各个所述第二符号在所述文字内容中的位置确定各个所述第二符号各自对应的停顿时长。
68、在一种可能实现的方式中,融合模块在基于所述各个元素对象各自对应的音频段以及所述各个元素对象各自对应的子视频进行同步融合,得到所述目标视频的配音视频时,具体用于:
69、将每个所述元素对象对应的音频段和子视频进行同步融合,以得到所述各个元素对象各自对应的融合后的子视频;
70、获取所述各个元素对象的序位,所述序位表征所述元素对象在所述目标视频中出现的顺序;
71、基于所述各个元素对象的序位将所述各个元素各自对应的融合后的子视频进行融合,得到所述目标视频的配音视频。
72、第三方面,本技术提供一种电子设备,采用如下的技术方案:
73、一种电子设备,该电子设备包括:
74、至少一个处理器;
75、存储器;
76、至少一个应用程序,其中所述至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行上述视频和音频的同步方法。
77、第四方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:
78、一种计算机可读存储介质,包括:存储有能够被处理器加载并执行上述视频和音频的同步方法的计算机程序。
79、综上所述,本技术包括以下至少一种有益技术效果:
80、1.对于没有配音的目标视频,通过提取得到各个元素对象,然后通过对每个元素对象中的文字内容进行识别,将元素对象中的文字内容转换成音频段;再将每个元素对象生成子视频,且每个子视频的时长与对应的音频段的时长相同,以使得后续融合后的语音内容和视频内容能够同步;进而将每个子视频与对应的音频段进行融合,得到配音后的各个子视频,然后将各个子视频进行拼接融合,最终得到对目标视频进行配音后的配音视频,并且能够使得语音内容和视频内容相同步。