视频生成方法、装置、电子设备和存储介质与流程

文档序号：37269865发布日期：2024-03-12 20:57阅读：12来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及视频合成，尤其涉及一种视频生成方法、装置、电子设备和存储介质。

背景技术：

1、视频，即动态影像，其可以向用户直观、动态地展示图像作品，相较于文本的呈现形式，视频更加易于用户观赏和理解。

2、相关技术中，视频创作者在制作视频的过程中，需要人工选择图片、视频、背景音乐等素材，然后对挑选的素材进行人工剪辑、整合、编排等，最终生成所需的视频文件，人工制作视频的过程比较繁琐。

技术实现思路

1、本发明提供一种视频生成方法、装置、电子设备和存储介质，用以解决现有技术中人工制作视频比较繁琐的问题。

2、本发明提供一种视频生成方法，包括：

3、对获取的目标文本信息进行语义理解，并基于语义理解结果确定目标场景；所述目标文本信息基于用户输入的文本信息和/或语音信号确定；

4、提取所述目标文本信息中所述目标场景对应的至少一个目标关键词，并在所述目标场景对应的素材库中查找各所述目标关键词对应的原始素材；

5、针对各所述目标关键词，确定所述目标文本信息中与所述目标关键词关联的目标子文本信息；

6、基于所述目标子文本信息和所述目标关键词对应的所述原始素材生成目标素材；

7、基于各所述目标素材生成目标视频。

8、根据本发明提供的一种视频生成方法，所述确定所述目标文本信息中与所述目标关键词关联的目标子文本信息，包括：

9、在所述原始素材中未包括所述目标关键词对应的元素之外的其他元素的情况下，在所述目标文本信息中获取包含所述目标关键词的第一目标语句；

10、将所述第一目标语句确定为所述目标子文本信息。

11、根据本发明提供的一种视频生成方法，还包括：

12、在所述原始素材中包括所述目标关键词对应的元素之外的其他元素的情况下，在所述目标文本信息中查找是否存在与所述其他元素相关的第二目标语句；

13、在所述目标文本信息中查找到所述第二目标语句、且所述第二目标语句和所述第一目标语句在所述目标文本信息中为连续语句的情况下，将所述第一目标语句和所述第二目标语句确定为所述目标子文本信息。

14、根据本发明提供的一种视频生成方法，所述基于所述目标子文本信息和所述目标关键词对应的所述原始素材生成目标素材，包括：

15、确定所述原始素材中与所述目标关键词匹配的目标元素；

16、在所述原始素材中确定所述目标元素对应的背景区域；

17、将所述目标子文本信息添加至所述背景区域中，得到所述目标素材；所述背景区域的重心位置与所述目标元素的重心位置之间的距离小于或等于预设距离。

18、根据本发明提供的一种视频生成方法，所述基于各所述目标素材生成目标视频，包括：

19、获取所述目标场景对应的目标视频模板；

20、基于所述目标文本信息将各所述目标素材添加至所述目标视频模板中，得到所述目标视频。

21、根据本发明提供的一种视频生成方法，所述基于所述目标文本信息将各所述目标素材添加至所述目标视频模板中，得到所述目标视频，包括：

22、对所述目标文本信息进行语音合成转换，得到目标语音；

23、基于所述目标文本信息将各所述目标素材添加至所述目标视频模板中，并将添加素材后得到的视频与所述目标语音进行合成，得到所述目标视频。

24、根据本发明提供的一种视频生成方法，还包括：

25、获取初始文本信息；所述初始文本信息包括用户输入的文本信息和/或对用户输入的所述语音信号进行语音转换后得到的文本信息；

26、将所述初始文本信息输入大语言模型中，得到所述大语言模型输出的所述目标文本信息；所述初始文本信息的内容丰富度小于所述目标文本信息的内容丰富度。

27、根据本发明提供的一种视频生成方法，还包括：

28、将所述目标视频输入视频优化模型中，得到所述视频优化模型输出的优化后的目标视频；

29、其中，所述视频优化模型是基于样本视频和所述样本视频对应的标签数据对初始视频优化模型进行训练得到的。

30、本发明还提供一种视频生成装置，包括：

31、语义理解模块，用于对获取的目标文本信息进行语义理解，并基于语义理解结果确定目标场景；所述目标文本信息基于用户输入的文本信息和/或语音信号确定；

32、关键词提取模块，用于提取所述目标文本信息中所述目标场景对应的至少一个目标关键词；

33、素材查找模块，用于在所述目标场景对应的素材库中查找各所述目标关键词对应的原始素材；

34、文本确定模块，用于针对各所述目标关键词，确定所述目标文本信息中与所述目标关键词关联的目标子文本信息；

35、素材生成模块，用于基于所述目标子文本信息和所述目标关键词对应的所述原始素材生成目标素材；

36、视频生成模块，用于基于各所述目标素材生成目标视频。

37、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述视频生成方法。

38、本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频生成方法。

39、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视频生成方法。

40、本发明提供的视频生成方法、装置、电子设备和存储介质，通过对获取的目标文本信息进行语义理解，并基于语义理解结果确定目标场景，提取目标文本信息中目标场景对应的至少一个目标关键词，并在素材库中查找各目标关键词对应的原始素材，针对各目标关键词，确定目标文本信息中与目标关键词关联的目标子文本信息，基于目标子文本信息和目标关键词对应的原始素材生成目标素材，然后基于各目标素材生成目标视频，能够根据获取的目标文本信息自动生成目标视频，其中的目标文本信息是基于用户输入的文本信息和/或语音信号确定的，用户仅需输入文本或语音即可得到所需的目标视频，视频制作简单方便。

技术特征：

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的视频生成方法，其特征在于，所述确定所述目标文本信息中与所述目标关键词关联的目标子文本信息，包括：

3.根据权利要求2所述的视频生成方法，其特征在于，还包括：

4.根据权利要求1所述的视频生成方法，其特征在于，所述基于所述目标子文本信息和所述目标关键词对应的所述原始素材生成目标素材，包括：

5.根据权利要求1所述的视频生成方法，其特征在于，所述基于各所述目标素材生成目标视频，包括：

6.根据权利要求5所述的视频生成方法，其特征在于，所述基于所述目标文本信息将各所述目标素材添加至所述目标视频模板中，得到所述目标视频，包括：

7.根据权利要求1至6任一项所述的视频生成方法，其特征在于，还包括：

8.根据权利要求1至6任一项所述的视频生成方法，其特征在于，还包括：

9.一种视频生成装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的视频生成方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的视频生成方法。

技术总结
本发明提供一种视频生成方法、装置、电子设备和存储介质，涉及视频合成技术领域，该方法包括：对获取的目标文本信息进行语义理解，并基于语义理解结果确定目标场景，目标文本信息基于用户输入的文本信息和/或语音信号确定；提取目标文本信息中目标场景对应的至少一个目标关键词，并在目标场景对应的素材库中查找各目标关键词对应的原始素材；针对各目标关键词，确定目标文本信息中与目标关键词关联的目标子文本信息；基于目标子文本信息和目标关键词对应的原始素材生成目标素材；基于各目标素材生成目标视频。本发明提供的技术方案可以根据目标文本信息自动生成目标视频，视频制作简单方便。

技术研发人员：王泽,李良斌
受保护的技术使用者：北京声智科技有限公司
技术研发日：
技术公布日：2024/3/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王泽,李良斌
技术所有人：北京声智科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。