视频生成方法、装置、电子设备及存储介质与流程

文档序号:33095914发布日期:2023-01-31 23:56阅读:20来源:国知局
视频生成方法、装置、电子设备及存储介质与流程

1.本公开涉及多媒体技术领域,特别涉及一种视频生成方法、装置、电子设备及存储介质。


背景技术:

2.随着互联网技术的发展,观看视频直播已成为广大用户常用的一种娱乐方式。视频直播中包括精彩内容的视频片段往往比较少,用户如果想不错过精彩内容,需要长时间集中精力观看视频直播,导致用户观看视频直播的效率不高。如何提高用户观看视频直播的效率,是一个研究方向。
3.现有技术中,通常是利用人工智能技术来识别视频直播中的精彩内容的起止时间,然后自动对包含精彩内容的视频片段进行剪辑,生成包含精彩内容的视频。用户通过观看包含精彩内容的视频就能获取到视频直播中的精彩内容,而无需长时间观看视频直播。
4.但是,采用上述方案,终端识别的精彩内容的起止时间可能并不准确,导致生成的视频中可能包含非精彩内容,降低了生成的视频的质量。


技术实现要素:

5.本公开提供一种视频生成的方法、装置、电子设备及存储介质,能够提示生成的目标视频的质量。本公开的技术方案如下:
6.根据本公开实施例的一方面,提供一种视频生成方法,包括:
7.通过多模态技术对直播视频进行分类,得到所述直播视频的直播类别;
8.基于所述直播类别,从所述直播视频中提取至少一个第一视频片段,所述第一视频片段用于呈现所述直播视频中的属于所述直播类别的至少一个直播事件;
9.对于任一第一视频片段,从所述第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到所述第一视频片段对应的第二视频片段,所述事件关联度用于表示视频帧中的内容与直播事件的关联程度;
10.基于至少一个第二视频片段,生成目标视频。
11.在一些实施例中,所述对于任一第一视频片段,从所述第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到所述第一视频片段对应的第二视频片段,包括:
12.对于任一第一视频片段,通过多模态技术、动作检测技术以及场景检测技术中的至少一种,确定所述第一视频片段中各个视频帧与对应的直播事件的事件关联度;
13.从所述第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到所述第一视频片段对应的第二视频片段。
14.在一些实施例中,所述通过多模态技术对直播视频进行分类,得到所述直播视频的直播类别,包括:
15.对所述直播视频进行切片,得到至少一个第三视频片段;
16.对于任一第三视频片段,通过所述多模态技术对所述第三视频片段进行分类,得
到所述第三视频片段的直播类别;
17.基于所述至少一个第三视频片段的直播类别,确定所述直播视频的直播类别。
18.在一些实施例中,所述基于所述至少一个第三视频片段的直播类别,确定所述直播视频的直播类别,包括:
19.基于所述至少一个第三视频片段的直播类别,确定占比最高的目标直播类别;
20.将所述目标直播类别,确定为所述直播视频的直播类别。
21.在一些实施例中,所述方法还包括:
22.获取新采集的至少一个第四视频片段;
23.基于所述至少一个第四视频片段的直播类别,更新所述直播视频的直播类别。
24.在一些实施例中,所述基于所述直播类别,从所述直播视频中提取至少一个第一视频片段,包括:
25.对于任一第三视频片段,基于所述直播类别,确定属于所述直播类别的至少一个直播事件;
26.对于任一个直播事件,在所述第三视频片段中确定所述直播事件的最早出现的第一时刻和最晚出现的第二时刻;
27.基于所述第一时刻和所述第二时刻,从所述第三视频片段中提取包括所述直播事件的第一视频片段。
28.在一些实施例中,所述第一视频片段的数量为多个;
29.所述方法还包括:
30.对于时长小于预设时长的多个第一视频片段,将相邻且属于同一直播事件的第一视频片段按照时间先后顺序进行拼接,得到至少一个第一视频片段。
31.根据本公开实施例的另一方面,提供一种视频生成装置,包括:
32.分类单元,被配置为通过多模态技术对直播视频进行分类,得到所述直播视频的直播类别;
33.提取单元,被配置为基于所述直播类别,从所述直播视频中提取至少一个第一视频片段,所述第一视频片段用于呈现所述直播视频中的属于所述直播类别的至少一个直播事件;
34.删除单元,被配置为对于任一第一视频片段,从所述第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到所述第一视频片段对应的第二视频片段,所述事件关联度用于表示视频帧中的内容与直播事件的关联程度;
35.生成单元,被配置为基于至少一个第二视频片段,生成目标视频。
36.在一些实施例中,所述删除单元,被配置为对于任一第一视频片段,通过多模态技术、动作检测技术以及场景检测技术中的至少一种,确定所述第一视频片段中各个视频帧与对应的直播事件的事件关联度;从所述第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到所述第一视频片段对应的第二视频片段。
37.在一些实施例中,所述分类单元,包括:
38.切片子单元,被配置为对所述直播视频进行切片,得到至少一个第三视频片段;
39.分类子单元,被配置为对于任一第三视频片段,通过所述多模态技术对所述第三视频片段进行分类,得到所述第三视频片段的直播类别;
40.确定子单元,被配置为基于所述至少一个第三视频片段的直播类别,确定所述直播视频的直播类别。
41.在一些实施例中,所述确定子单元,被配置为基于所述至少一个第三视频片段的直播类别,确定占比最高的目标直播类别;将所述目标直播类别,确定为所述直播视频的直播类别。
42.在一些实施例中,所述装置还包括:
43.获取单元,被配置为获取新采集的至少一个第四视频片段;
44.更新单元,被配置为基于所述至少一个第四视频片段的直播类别,更新所述直播视频的直播类别。
45.在一些实施例中,所述提取单元,被配置为对于任一第三视频片段,基于所述直播类别,确定属于所述直播类别的至少一个直播事件;对于任一个直播事件,在所述第三视频片段中确定所述直播事件的最早出现的第一时刻和最晚出现的第二时刻;基于所述第一时刻和所述第二时刻,从所述第三视频片段中提取包括所述直播事件的第一视频片段。
46.在一些实施例中,所述第一视频片段的数量为多个;所述装置还包括:
47.拼接单元,被配置为对于时长小于预设时长的多个第一视频片段,将相邻且属于同一直播事件的第一视频片段按照时间先后顺序进行拼接,得到至少一个第一视频片段。
48.根据本公开实施例的另一方面,提供一种电子设备,该电子设备包括:
49.一个或多个处理器;
50.用于存储该处理器可执行程序代码的存储器;
51.其中,该处理器被配置为执行该程序代码,以实现上述视频生成方法。
52.根据本公开实施例的另一方面,提供一种计算机可读存储介质,当该计算机可读存储介质中的程序代码由电子设备的处理器执行时,使得电子设备能够执行上述视频生成方法。
53.根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频生成方法。
54.本公开实施例提供了一种视频生成方法,通过多模态技术对直播视频进行分类,得到直播视频的直播类别,基于直播类别,从直播视频中提取至少一个第一视频片段,对于任一第一视频片段,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段,基于至少一个第二视频片段,生成目标视频,使得目标视频为直播事件构成的视频,提高了目标视频的质量。
55.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
56.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
57.图1是根据一示例性实施例示出的一种视频生成方法的实施环境示意图。
58.图2是根据一示例性实施例示出的一种视频生成方法的流程图。
59.图3是根据一示例性实施例示出的另一种视频生成方法的流程图。
60.图4是根据一示例性实施例示出的一种处理方式的示意图。
61.图5是根据一示例性实施例示出的一种生成目标视频的流程图。
62.图6是根据一示例性实施例示出的另一种生成目标视频的流程图。
63.图7是根据一示例性实施例示出的另一种生成目标视频的流程图。
64.图8是根据一示例性实施例示出的一种视频生成装置的框图。
65.图9是根据一示例性实施例示出的另一种视频生成装置的框图。
66.图10是根据一示例性实施例示出的一种电子设备1000的框图。
具体实施方式
67.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
68.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
69.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的直播视频数据都是在充分授权的情况下获取的。
70.电子设备可以被提供为终端或者服务器,当电子设备被提供为终端时,可以由该终端实现视频生成的方法所执行的操作;当被提供为服务器时,可以由该服务器实现视频生成的方法所执行的操作,该服务器基于直播视频,生成目标视频;也可以由该服务器和终端交互来实现视频生成的方法所执行的操作;也可以由终端向服务器发送视频生成请求,由服务器来进行视频生成,然后将生成的目标视频反馈给终端,由终端输出目标视频。
71.图1是根据一示例性实施例示出的一种视频生成方法的实施环境示意图。以电子设备被提供为服务器为例,参见图1,该实施环境具体包括:终端101和服务器102。
72.终端101可以为智能手机、智能手表、台式电脑、手提电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等设备中的至少一种。终端101上可以安装并运行有应用程序,用户可以通过终端101登录该应用程序来获取该应用程序提供的服务。终端101可以通过无线网络或有线网络与服务器102相连。
73.终端101可以泛指多个终端中的一个,本实施例以终端101来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以为几个,或者上述终端为几十个或几百个,或者更多数量,本公开实施例对终端的数量和设备类型均不加以限定。
74.服务器102是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102和终端101二者之间采用分布式计算架构进行协同计算。服务器102可以通过无线网络或有线网络与终端101和其他终端相连,可选地,上述服务器的数量可以更多或更少,本公开实施例对此不加以限定。当然,服务器102还可以包括其他功能服务器,以便提供更全面且多样化的服务。
75.图2是根据一示例性实施例示出的一种视频生成的方法的流程图,如图2所示,该方法由电子设备执行,包括以下步骤:
76.在步骤s201中,通过多模态技术对直播视频进行分类,得到直播视频的直播类别。
77.在本公开实施例中,电子设备可以安装并运行有目标应用程序,该目标应用程序能够提供观看直播视频的功能。可选地,该直播视频为通过目标虚拟空间录制的视频,该目标虚拟空间可以是目标应用程序提供的直播间、三维虚拟空间或者二维虚拟空间等,本公开实施例对此不进行限制。
78.电子设备获取目标虚拟空间中的直播视频,通过多模态技术对目标虚拟空间中的直播视频进行分类,以得到直播视频的直播类别。
79.在本公开实施例中,不同直播视频的直播类别不同,或者,同一直播视频内不同时间段的内容不同,使得直播视频中包括的内容所属的直播类别不同。其中,直播视频的直播类别包括但不限于:才艺表演、语言表演、日常生活、兴趣分享、科普教育以及多人表演等,本公开实施例对不进行限制。可选地,上述每个直播类别分别包括多个属于该类别的直播事件,属于每个直播类别的直播事件如表1所示。
80.表1
81.82.在本公开实施例中,电子设备可以通过多模态技术,从语音、视觉以及文本等角度对直播视频进行分类,以确定直播视频的直播类别。相应的,对于任一直播视频,电子设备可以通过多模态技术提取直播视频中的多种模态的特征。然后,电子设备将多种模态的特征进行融合,基于融合得到的特征确定该直播视频的直播类别。其中,多种模态的特征包括但不限于:音频特征、视频特征、文本特征以及图像特征等。可选地,电子设备可以通过将直播视频输入至音频处理模型、视频处理模型、文本处理模型以及图像处理模型,来分别提取直播视频中的音频特征、视频特征、文本特征以及图像特征。通过基于多种模态的特征来确定直播视频的直播类别,能够从多个角度来对直播视频进行分类,从而能够较为准确地确定直播视频的直播类别。
83.在步骤s202中,基于直播类别,从直播视频中提取至少一个第一视频片段,第一视频片段用于呈现直播视频中的属于直播类别的至少一个直播事件。
84.在本公开实施例中,电子设备基于直播类别,对直播视频进行事件检测,得到直播视频中属于该直播类别的至少一个直播事件。电子设备将用于呈现直播视频中的属于直播类别的至少一个直播事件的多个视频帧提取出来,即可得到至少一个第一视频片段。
85.在步骤s203中,对于任一第一视频片段,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到该第一视频片段对应的第二视频片段,事件关联度用于表示视频帧中的内容与直播事件的关联程度。
86.在本公开实施例中,对于任一第一视频片段,电子设备确定第一视频片段中每个视频帧的事件关联度。其中,事件关联度用于表示视频帧中的内容与直播事件的关联程度,事件关联度越大,该视频帧中的内容与直播事件的关联程度越高,表示该视频帧中包含直播事件的概率越大。电子设备从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。第二视频片段包括用于呈现与直播事件关联程度不小于关联度阈值的多个视频帧,相对于第一视频片段,第二视频片段中的视频帧与直播事件的关联程度更高,提升了第二视频片段的质量。
87.在步骤s204中,基于至少一个第二视频片段,生成目标视频。
88.本公开实施例中,电子设备得到至少一个第二视频片段之后,对至少一个第二视频操作进行编辑操作,生成目标视频,目标视频为直播事件构成的视频,提高了目标视频的质量。其中,编辑操作包括但不限于:将至少一个第二视频片段进行聚合、生成目标视频的标题、为至少一个第二视频片段添加背景音乐、为至少一个第二视频片段添加滤镜、为至少一个第二视频片段添加贴纸、为至少一个第二视频片段添加字幕、对至少一个第二视频片段进行视觉创作以及对至少一个第二视频片段进行特效渲染等编辑操作。
89.本公开实施例提供了一种视频生成方法,通过多模态技术对直播视频进行分类,得到直播视频的直播类别,基于直播类别,从直播视频中提取至少一个第一视频片段,对于任一第一视频片段,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段,基于至少一个第二视频片段,生成目标视频,使得目标视频为直播事件构成的视频,提高了目标视频的质量。
90.在一些实施例中,对于任一第一视频片段,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段,包括:
91.对于任一第一视频片段,通过多模态技术、动作检测技术以及场景检测技术中的
至少一种,确定第一视频片段中各个视频帧与对应的直播事件的事件关联度;
92.从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。
93.在本公开实施例中,通过从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段,使得第二视频片段中的视频帧与直播事件的关联程度更高,提升了第二视频片段的质量。
94.在一些实施例中,通过多模态技术对直播视频进行分类,得到直播视频的直播类别,包括:
95.对直播视频进行切片,得到至少一个第三视频片段;
96.对于任一第三视频片段,通过多模态技术对第三视频片段进行分类,得到第三视频片段的直播类别;
97.基于至少一个第三视频片段的直播类别,确定直播视频的直播类别。
98.在本公开实施例中,能够对直播视频进行切片,得到至少一个第三视频片段,并通过多模态技术对至少一个第三视频片段进行分类,得到第三视频片段的直播类别,便于对直播切片并行处理,提高了处理效率。
99.在一些实施例中,基于至少一个第三视频片段的直播类别,确定直播视频的直播类别,包括:
100.基于至少一个第三视频片段的直播类别,确定占比最高的目标直播类别;
101.将目标直播类别,确定为直播视频的直播类别。
102.在本公开实施例中,通过将占比最高的目标直播类别作为直播视频的直播类别,提升了确定直播类别的准确性。
103.在一些实施例中,方法还包括:
104.获取新采集的至少一个第四视频片段;
105.基于至少一个第四视频片段的直播类别,更新直播视频的直播类别。
106.在本公开实施例中,通过更新直播视频的直播类别,提升了确定直播视频的直播类别的实时性。
107.在一些实施例中,基于直播类别对应的事件种类,从直播视频中提取至少一个第一视频片段,包括:
108.对于任一第三视频片段,基于直播类别,确定属于直播类别的至少一个直播事件;
109.对于任一个直播事件,在第三视频片段中确定直播事件的最早出现的第一时刻和最晚出现的第二时刻;
110.基于第一时刻和第二时刻,从第三视频片段中提取包括直播事件的第一视频片段。
111.在本公开实施例中,通过确定第三视频片段中直播事件的最早出现的第一时刻和最晚出现的第二时刻,并从第三视频片段中截取包含该直播事件的视频帧,得到第一视频片段,该第一视频片段中包括上述至少一个直播事件,提升了第一视频片段的质量。
112.在一些实施例中,第一视频片段的数量为多个;
113.方法还包括:
114.对于时长小于预设时长的多个第一视频片段,将相邻且属于同一直播事件的第一
视频片段按照时间先后顺序进行拼接,得到至少一个第一视频片段。
115.在本公开实施例中,通过对时长较短的第一视频片段按照时间先后顺序进行拼接,可以减少第一视频片段的数量,提高处理效率。还可以提高第一视频片段的长度,提高处理的精度。
116.上述图2所示为本公开的基本流程,下面基于一种应用场景,来对本公开提供的方案进行进一步阐述,图3是根据一示例性实施例示出的另一种视频生成的方法的流程图,由电子设备执行。参见图3,该方法包括:
117.在步骤s301中,对直播视频进行切片,得到至少一个第三视频片段。
118.在一些实施例中,电子设备可以在直播过程中,实时采集直播视频。电子设备在采集到直播视频之后,可以按照一定的时间间隔对直播视频进行切片,将该直播视频切分为至少一个第三视频片段。其中,每个第三视频片段包含至少一个视频帧。
119.在一些实施例中,电子设备按照时间间隔对直播视频进行切片的过程中,时间间隔可以是固定的,也可以是随机的,本公开实施例对时间间隔不做限定。其中,时间间隔即为第三视频片段的长度,可以为10秒、1分钟或者5分钟等。通过对直播视频进行切片,得到至少一个第三视频片段,便于后续对至少一个第三视频片段进行并行处理,提高处理的效率。
120.例如,电子设备设置时间间隔为一分钟,则按照一分钟的时间间隔对直播视频进行切片,得到的第三视频片段的时长均为一分钟。或者,电子设备设置的时间间隔为随机时长,则得到的第三视频片段的时长是随机的。
121.在步骤s302中,对于任一第三视频片段,通过多模态技术对第三视频片段进行分类,得到第三视频片段的直播类别。
122.在一些实施例中,电子设备可以通过多模态技术,从语音、视觉以及文本等角度对第三视频片段进行分类,以确定各个第三视频片段的直播类别。相应的,对于任一第三视频片段,电子设备可以通过多模态技术提取第三视频片段中的多种模态的特征。然后,电子设备将多种模态的特征进行融合,基于融合得到的特征确定该第三视频片段的直播类别。其中,多种模态的特征包括但不限于:音频特征、视频特征、文本特征以及图像特征等。可选地,电子设备可以通过将第三视频片段输入至音频处理模型、视频处理模型、文本处理模型以及图像处理模型,来分别提取第三视频片段中的音频特征、视频特征、文本特征以及图像特征。通过基于多种模态的特征来确定第三视频片段的直播类别,能够从多个角度来对第三视频片段进行分类,从而能够较为准确地确定第三视频片段的直播类别。
123.在步骤s303中,基于至少一个第三视频片段的直播类别,确定直播视频的直播类别。
124.在本公开实施例中,在直播过程中,电子设备可以将至少一个第三视频片段的直播类别进行融合,得到直播视频的直播类别。
125.在一些实施例中,电子设备基于至少一个第三视频片段的直播类别,确定占比最高的目标直播类别;将目标直播类别,确定为直播视频的直播类别。电子设备可以基于直播类别所占的比例,来确定直播视频的直播类别。对于任一直播类别,在属于该直播类别的第三视频片段在全部第三视频片段中所占的比例最高的情况下,电子设备可以将该直播类别作为直播视频的直播类别。
126.例如,在所有参与融合的第三视频片段中,直播类别为才艺表演的第三视频片段所占的比例最高,则电子设备确定直播视频的直播类别为才艺表演。
127.在一些实施例中,电子设备获取新采集的至少一个第四视频片段;基于至少一个第四视频片段的直播类别,更新直播视频的直播类别。在直播过程中,电子设备可以持续对直播开始时刻与当前时刻之间的至少一个视频片段的直播类别进行融合,更新直播视频的直播类别,直至直播结束,得到直播视频最终的直播类别。
128.在步骤s304中,对于任一第三视频片段,基于直播类别,确定属于该直播类别的至少一个直播事件。
129.在本公开实施例中,电子设备可以将任一第三视频片段输入至事件检测模型,由事件检测模型对该第三视频片段进行事件检测,确定该第三视频片段中包含至少一个直播事件的多个视频帧。其中,事件检测模型可以为语音检测模型、文本检测模型、图像检测模型等模型中的一个或多个模型,本公开实施例对事件检测模型的类别和数量不做限定。直播事件是指具有观看价值的内容,如才艺表演相关的直播事件是唱歌、跳舞以及乐器演奏,语言表演相关的直播事件是有语言输出的内容。相应的,除直播事件以外的是指直播视频中没有观看价值的内容,如才艺表演时的无效内容是没有主播的画面、跳舞前的场地布置以及唱歌前选歌的过程等。
130.在一些实施例中,对于任一第三视频片段,电子设备基于该第三视频片段的直播类别可以获该直播类别相关的至少一个事件检测模型。然后,电子设备可以将该第三视频片段输入该至少一个事件检测模型中,得到属于该直播类别的至少一个直播事件。可选的,对于任一第三视频片段,电子设备还可以确定属于第三视频片段的直播类别的直播事件,获取与该直播事件相关的至少一个事件检测模型。其中,与直播事件相关的事件检测模型包括但不限于:乐器演奏模型、音乐模型、唱歌模型和舞蹈模型等。
131.例如,电子设备确定某个第三视频片段的直播类别为才艺表演之后,确定才艺表演相关的直播事件为乐器演奏。电子设备获取乐器演奏模型,然后将该第三视频片段输入至乐器演奏模型,乐器演奏模型检测出包含至少一个乐器演奏内容的多个视频帧。
132.在步骤s305中,对于任一个直播事件,在第三视频片段中确定该直播事件的最早出现的第一时刻和最晚出现的第二时刻。
133.在本公开实施例中,对于任一个直播事件,电子设备可以在第三视频片段中确定该直播事件的最早出现的视频帧和最晚出现的视频帧,基于上述视频帧确定该直播事件最早出现的第一时刻和最晚出现的第二时刻。
134.例如,第三视频片段的直播类别为才艺表演,第三视频片段中包括唱歌这一直播事件。电子设备在第三视频片段中确定伴奏音乐开始播放的视频帧和停止播放的视频帧。电子设备将伴奏音乐开始播放的视频帧作为该直播事件的最早出现的视频帧,将伴奏音乐停止播放的视频帧作为最晚出现的视频帧。
135.在步骤s306中,基于第一时刻和第二时刻,从第三视频片段中提取包括直播事件的第一视频片段。
136.在本公开实施例中,电子设备基于第一时刻和第二时刻,确定第三视频片段中包含直播事件的视频帧的起止时刻,从第三视频片段中截取包含该直播事件的视频帧,得到第一视频片段,该第一视频片段中包括上述至少一个直播事件。
137.例如,对于某一个第三视频片段,该第三视频片段的长度为60秒。电子设备确定包含直播事件的视频帧的起止时刻为第10秒至第60秒,则电子设备截取第三视频片段中的第10秒至第60秒的视频帧,得到第一视频片段。或者,电子设备确定包含直播事件的视频帧的起止时刻为第20秒至第30秒和第50秒至第60秒,则电子设备截取第三视频片段中的第20秒至第60秒的视频帧,得到第一视频片段。对于某一个第三视频片段,该第三视频片段的长度为60秒。
138.在一些实施例中,第一视频片段的数量为多个,对于时长小于预设时长的多个第一视频片段,电子设备将相邻且属于同一直播事件的第一视频片段按照时间先后顺序进行拼接,得到至少一个第一视频片段。由于相邻的两个第一视频片段之间的时间间隔较小,将这两个第一视频片段按照时间先后顺序进行拼接之后,不会产生跳跃感,不影响生成的第一视频片段的连续性,那么即使这两个第一视频片段并没有真正相邻,也能将它们进行拼接,以保留用于呈现直播事件的视频帧。通过对时长较短且属于同一直播事件的第一视频片段进行拼接,可以减少第一视频片段的数量,提高处理效率。还可以提高第一视频片段的长度,提高处理的精度。
139.例如,对于某一个第三视频片段,该第三视频片段的长度为60秒。电子设备确定属于同一直播事件的视频帧的起止时刻为第20秒至第30秒和第50秒至第60秒,则电子设备截取第三视频片段中的第20秒至第30秒以及第50秒至第60秒的视频帧,得到两个时长为10秒的第一视频片段,将这两个第一视频片段按照时间先后顺序进行拼接,得到一个时长为20秒的第一视频片段。又如,对于相邻的两个第三视频片段,对于第一个第三视频片段,电子设备确定直播事件的视频帧的起止时刻为第50秒至第60秒。对于第二个第三视频片段,电子设备确定直播事件的视频帧的起止时刻为第5秒至第25秒。电子设备截取第一个第三视频片段中的第50秒至第60秒的视频帧以及第二个第三视频片段中的第5秒至第25秒的视频帧。由于截取到的两个第一视频片段的长度均小于30秒。电子设备将两个第一视频片段按照时间先后顺序进行拼接,得到一个时长为30秒的第一视频片段。
140.在步骤s307中,对于任一第一视频片段,通过多模态技术、动作检测技术以及场景检测技术中的至少一种,确定第一视频片段中各个视频帧与对应的直播事件的事件关联度。
141.在本公开实施例中,第一视频片段中包括至少一个直播事件,第一视频片段中还包括与对应的直播事件的事件关联度较低的视频帧。其中,需要提取事件关联度较高的视频帧,例如呈现唱歌过程的视频帧、呈现跳舞过程的视频帧等。电子设备可以通过多模态技术、动作检测技术以及场景检测技术中的至少一种,确定第一视频片段中各个视频帧与对应的直播事件的事件关联度。
142.例如,在包括唱歌内容的第一视频片段中,可能包括播放原唱的视频帧;在包括跳舞的第一视频片段中,可能包含说话、播放背景音乐、表演水平较低和动作单一的视频帧;在包括闲聊互动的第一视频片段中,可能包含答谢礼物、方言直播以及违规内容的视频帧。上述均为事件关联度较低的视频帧。表2列举了部分事件关联度较低的视频帧。
143.表2
[0144][0145][0146]
在步骤s308中,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。
[0147]
在本公开实施例中,对于不同直播类别的第一视频片段,电子设备通过多模态技术、动作检测技术以及场景检测技术中的至少一种,确定第一视频片段中各个视频帧与对应的直播事件的事件关联度之后,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段,以提高第二视频片段的精度。参见下述六种方式。
[0148]
方式一,在第一视频片段呈现的是才艺表演相关的直播事件的情况下,电子设备对第一视频片段进行未表演检测、去留白检测和原唱检测中的至少一种,确定第一视频片段中各个视频帧与才艺表演的事件关联度。电子设备基于事件关联度对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第二视频片段。其中,未表演检测用于检测未进行才艺表演的视频帧,去留白检测用于检测留白的视频帧,原唱检测用于检测放原唱的视频帧,上述视频帧的事件关联度较小。通过对第一视频片段进行未表演检测、去留白检测和原唱检测中的至少一种,能够剔除第一视频片段中事件关联度小于关联度阈值的视频帧,提高了生成的第二视频的精度。
[0149]
方式二,在第一视频片段呈现的是语言表演相关的直播事件情况下,电子设备对第一视频片段进行方言检测、语音内容检测以及语音安全检测中的至少一种,确定第一视频片段中各个视频帧与语言表演的事件关联度。电子设备基于事件关联度,对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第二视频片段。其中,方言检测用于检测方言内容的视频帧,语音内容检测用于检测语音内容的视频帧,语音安全检测用于检测安全内容的视频帧。通过对第一视频片段进行方言检测、语音内容检测以及语音
安全检测中的至少一种,能够剔除第一视频片段中事件关联度小于关联度阈值的视频帧,提高了生成的第二视频的精度。
[0150]
方式三,在第一视频片段呈现的是日常生活相关的直播事件的情况下,电子设备对第一视频片段进行场景检测、对象检测和动作检测中的至少一种,确定第一视频片段中各个视频帧与日常生活的事件关联度。电子设备基于事件关联度,对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。其中,场景检测用于检测第一视频片段的拍摄场景,对象检测用于检测第一视频片段中的拍摄对象,动作检测用于检测第一视频片段中的对象动作。通过对第一视频片段进行场景检测、对象检测和动作检测中的至少一种,能够剔除第一视频片段中事件关联度小于关联度阈值的视频帧,提高了生成的第二视频的精度。
[0151]
方式四,在第一视频片段呈现的是兴趣分享相关的直播事件的情况下,电子设备对第一视频片段进行对象检测、动作检测、语音检测以及音频检测中的至少一种,确定第一视频片段中各个视频帧与兴趣分享的事件关联度。电子设备基于事件关联度,对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。其中,语音检测用于检测第一视频片段中目标语音内容的视频帧,音频检测用于检测第一视频片段中的目标音频内容的视频帧。通过对第一视频片段进行对象检测、动作检测、语音检测以及音频检测中的至少一种处理方式,能够剔除第一视频片段中事件关联度小于关联度阈值的视频帧,提高了生成的第二视频的精度。
[0152]
方式五,在第一视频片段呈现的是科普教育相关的直播事件的情况下,电子设备对第一视频片段进行对象检测、语音检测和文本检测中的至少一种,确定第一视频片段中各个视频帧与科普教育的事件关联度。电子设备基于事件关联度,对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。其中,文本检测用于检测第一视频片段中的文本内容的视频帧。通过对第一视频片段进行对象检测、语音检测和文本检测中的至少一种,能够剔除第一视频片段中事件关联度小于关联度阈值的视频帧,提高了生成的第二视频的精度。
[0153]
方式六,在第一视频片段呈现的是多人表演相关的直播事件的情况下,电子设备对第一视频片段进行对象检测、语音检测、动作检测、音乐检测和舞蹈检测中的至少一种,确定第一视频片段中各个视频帧与多人表演的事件关联度。电子设备基于事件关联度,对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。其中,音乐检测用于检测第一视频片段中的音乐内容的视频帧,舞蹈检测用于检测第一视频片段中的舞蹈内容的视频帧。通过第一视频片段进行对象检测、语音检测、动作检测、音乐检测和舞蹈检测中的至少一种处理方式,能够剔除第一视频片段中事件关联度小于关联度阈值的视频帧,提高了生成的第二视频的精度。
[0154]
图4是根据一示例性实施例示出的一种处理方式的示意图,如图4所示,对第一视频片段的处理方式包括:音频事件检测、音频指纹、跨模态检索、人脸识别、唇动检测等。上述处理方式能够有效去除放原唱、表演水平低、安全问题、留白长、未表演、劣质内容等内容。其中,音频事件检测用于检测出第一视频片段中直播事件对应的音频内容,音频指纹用于识别第一视频片段中的目标声音,跨模态检索能够基于第一视频片段中多个模态的特征确定直播事件,人脸识别用于识别第一视频片段中的目标对象,唇动检测用于识别第一视
频片段中目标对象的唇部动作。服务器还能够基于asr(automatic speech recognition,自动语音识别技术)模型、nlp(natural language processing,自然语言处理)模型、说话人日志结合视觉等相关技术来解决不文明用语、内容不够精彩等内容和无实质内容问题,能够有效保证生成的第二视频片段的质量和安全性。
[0155]
需要说明的是,第二视频片段中的视频帧与直播事件的关联度高于关联度阈值,第二视频片段也可以被称为高光视频片段、精彩内容片段等。
[0156]
在步骤s309中,基于至少一个第二视频片段,生成目标视频。
[0157]
在本公开实施例中,电子设备可以采用智能创作模块来对上述至少一个第二视频片段进行标题生存、音频生成、视觉创作、特效渲染等处理,得到目标视频。
[0158]
在一些实施例中,电子设备还可以在直播结束后获取录制的直播视频,然后通过本公开提供的方案对该直播视频进行事件检测、裁剪和编辑创作,生成目标视频。
[0159]
下面对第一视频片段呈现的直播事件为才艺表演相关的直播事件的情况下,生成目标视频的流程进行说明,如图5所示,才艺表演相关的直播事件包括乐器表演、舞蹈/健身以及唱歌等。首先电子设备获取直播视频,按照一定的时间间隔对直播视频进行切片,将该直播视频切分为至少一个第三视频片段。然后电子设备对第三视频片段进行分类,确定第三视频片段的直播类别标签为乐器演奏。然后电子设备将第三视频片段输入至乐器演奏模型,乐器演奏模型检测出包含乐器演奏的才艺表演内容的时间戳。电子设备基于该时间戳,从第三视频片段中截取包含该乐器演奏的视频帧,得到至少一个第一视频片段。然后电子设备对第一视频片段进行乐器演奏检测、去留白检测,确定第一视频片段中各个视频帧与乐器演奏的事件关联度。电子设备基于事件关联度对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第二视频片段。电子设备再经过智能创作模块对第二视频片段进行编辑操作,生成目标视频。其中,在第三视频片段的直播类别标签为舞蹈、健身和唱歌的情况下,也能够将第三视频片段输入至与其直播类别相关的模型中进行事件检测,确定属于该直播类别的直播事件的时间戳,后续再进行上述的裁剪和智能创作,生成目标视频,在此不再赘述。
[0160]
下面对第一视频片段呈现的直播事件为语言表演相关的直播事件的情况下,生成目标视频的流程进行说明,如图6所示。语言表演相关的直播事件包括鸡汤励志、情感互动和闲聊互动等。对于语言表演相关的直播事件,生成目标视频是将直播视频中互动性好或者搞笑有趣的视频片段裁剪出来,并生成目标视频。首先电子设备获取直播视频,按照一定的时间间隔对直播视频进行切片,将该直播视频切分为至少一个第三视频片段。然后电子设备对第三视频片段进行分类,确定第三视频片段的直播类别标签为闲聊互动。电子设备将第三视频片段输入至语音识别模型,语音识别模型检测出包含语音交互的时间戳。电子设备基于该时间戳,从直播视频片段中截取包含该语音交互的视频帧,得到至少一个第一视频片段。然后电子设备对第一视频片段进行方言检测、精彩程度检测、无实质内容检测和安全问题检测,确定第一视频片段中各个视频帧与闲聊互动相关的直播事件的事件关联度。电子设备基于事件关联度对第一视频片段进行裁剪,删除事件关联度小于关联度阈值的视频帧,得到第二视频片段。电子设备再经过智能创作模块对第二视频片段进行编辑操作,生成目标视频。其中,精彩程度检测用于对第二视频片段进行语音检测、动作检测和文本检测来判断第二视频片段中目标对象的说话密集程度和说话情绪,对于说话密集程度
高、情绪比较积极的视频帧,可以认为其精彩程度较高,对于说话密集程度较低,情绪比较平淡的视频帧,可以认为其精彩程度较低。安全问题检测用于检测第二视频片段中有安全问题的视频帧。
[0161]
在一些实施例中,电子设备还可以在直播结束后获取录制的直播视频,然后通过本公开提供的方案对该直播视频进行事件检测、裁剪和编辑创作,生成目标视频,如图7所示。电子设备将直播视频切分为至少一个第三视频片段,对至少一个第三视频片段进行分类,得到至少一个第三视频片段的直播类别,然后对任一个第三视频片段中的音频信息和视频信息进行事件检测,得到包括直播事件的第一视频片段,再对第一视频片段进行裁剪,去除第一视频片段中事件关联度小于关联度阈值的视频帧,得到第二视频片段,再对第二视频片段进行编辑创作,生成目标视频。电子设备还能够将生成的目标视频分享至其他终端,由其他终端展示该目标视频,能够进一步提高直播视频的影响力。
[0162]
基于直播视频生成目标视频的整体流程如图7所示,电子设备按照一定的时间间隔对直播视频进行切片,将该直播视频切分为至少一个第三视频片段。电子设备对至少一个第三视频片段进行分类,得到至少一个第三视频片段的直播类别,其中,第三视频片段的直播类别包括但不限于:才艺表演、语言、日常生活、兴趣分享、科普教育以及多人表演等。然后电子设备对任一个第三视频片段中的音频信息和视频信息进行事件检测,得到包括直播事件的第一视频片段。其中,事件检测的方式包括但不限于:唱歌检测、舞蹈检测、乐器检测、笑声检测、人脸检测等。电子设备对第三视频片段中直播事件的出现时刻进行识别,得到直播事件的时间戳。电子设备基于直播事件的时间戳,从第三视频片段中提取包括直播事件的第一视频片段。电子设备还可以从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段。其中,确定事件关联度的方式包括但不限于:原唱检测、未表演检测、去留白检测、方言检测以及对象检测。电子设备对第二视频片段进行编辑创作,生成目标视频。电子设备还能够将生成的目标视频分享至其他终端,由其他终端展示该目标视频,能够进一步提高直播视频的影响力,
[0163]
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0164]
图8是根据一示例性实施例示出的一种视频生成装置的框图。如图8所示,该装置包括:分类单元801、提取单元802、删除单元803以及生成单元804。
[0165]
分类单元801,被配置为通过多模态技术对直播视频进行分类,得到直播视频的直播类别;
[0166]
提取单元802,被配置为基于直播类别,从直播视频中提取至少一个第一视频片段,第一视频片段用于呈现直播视频中的属于直播类别的至少一个直播事件;
[0167]
删除单元803,被配置为对于任一第一视频片段,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段,事件关联度用于表示视频帧中的内容与直播事件的关联程度;
[0168]
生成单元804,被配置为基于至少一个第二视频片段,生成目标视频。
[0169]
在一些实施例中,删除单元803,被配置为对于任一第一视频片段,通过多模态技术、动作检测技术以及场景检测技术中的至少一种,确定第一视频片段中各个视频帧与对应的直播事件的事件关联度;从第一视频片段中删除事件关联度小于关联度阈值的视频
帧,得到第一视频片段对应的第二视频片段。
[0170]
在一些实施例中,图9是根据一示例性实施例示出的另一种视频生成装置的框图。参见图9所示,分类单元801,包括:
[0171]
切片子单元8011,被配置为对直播视频进行切片,得到至少一个第三视频片段;
[0172]
分类子单元8012,被配置为对于任一第三视频片段,通过多模态技术对第三视频片段进行分类,得到第三视频片段的直播类别;
[0173]
确定子单元8013,被配置为基于至少一个第三视频片段的直播类别,确定直播视频的直播类别。
[0174]
在一些实施例中,确定子单元8013,被配置为基于至少一个第三视频片段的直播类别,确定占比最高的目标直播类别;将目标直播类别,确定为直播视频的直播类别。
[0175]
在一些实施例中,参见图9所示,装置还包括:
[0176]
获取单元805,被配置为获取新采集的至少一个第四视频片段;
[0177]
更新单元806,被配置为基于至少一个第四视频片段的直播类别,更新直播视频的直播类别。
[0178]
在一些实施例中,提取单元802,被配置为对于任一第三视频片段,基于直播类别,确定属于直播类别的至少一个直播事件;对于任一个直播事件,在第三视频片段中确定直播事件的最早出现的第一时刻和最晚出现的第二时刻;基于第一时刻和第二时刻,从第三视频片段中提取包括直播事件的第一视频片段。
[0179]
在一些实施例中,第一视频片段的数量为多个;参见图9所示,装置还包括:
[0180]
拼接单元807,被配置为对于时长小于预设时长的多个第一视频片段,将相邻且属于同一直播事件的第一视频片段按照时间先后顺序进行拼接,得到至少一个第一视频片段。
[0181]
本公开实施例提供了一种视频生成装置,通过多模态技术对直播视频进行分类,得到直播视频的直播类别,基于直播类别,从直播视频中提取至少一个第一视频片段,对于任一第一视频片段,从第一视频片段中删除事件关联度小于关联度阈值的视频帧,得到第一视频片段对应的第二视频片段,基于至少一个第二视频片段,生成目标视频,使得目标视频为直播事件构成的视频,提高了目标视频的质量。
[0182]
需要说明的是,上述实施例提供的装置在进行视频生成时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将电子设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0183]
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0184]
图10是根据一示例性实施例示出的一种电子设备1000的框图。通常,电子设备1000包括有:处理器1001和存储器1002。
[0185]
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用dsp(digital signal processing,数字信号处理)、fpga(field programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程
emitting diode,有机发光二极管)等材质制备。
[0191]
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0192]
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
[0193]
电源1008用于为电子设备1000中的各个组件进行供电。电源1008可以是交流电、直流电、一次性电池或可充电电池。当电源1008包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0194]
本领域技术人员可以理解,图10中示出的结构并不构成对电子设备1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0195]
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1002,上述指令可由终端1000的处理器1001执行以完成上述多媒体资源下载方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0196]
一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频生成方法。
[0197]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0198]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1