视频处理方法、视频处理装置、电子设备及存储介质与流程

文档序号：33713250发布日期：2023-04-01 01:23阅读：来源：国知局

技术特征：
1.一种视频处理方法，其特征在于，所述方法包括：获取原始视频数据；对所述原始视频数据进行人脸识别，得到目标人脸视频帧，并根据所述目标人脸视频帧，生成目标视频封面；对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据所述说话风格特征和所述语音内容特征，生成目标视频字幕；对所述原始视频数据进行关键词识别，得到视频关键词，并根据所述视频关键词确定视频关键节点；基于预设的候选场景数据对所述视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据；基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据。2.根据权利要求1所述的视频处理方法，其特征在于，所述对所述原始视频数据进行人脸识别，得到目标人脸视频帧，并根据所述目标人脸视频帧，生成目标视频封面，包括：基于预设的人脸识别模型对所述原始视频数据进行人脸识别，得到初始人脸视频帧；对所述初始人脸视频帧进行筛选，得到目标视频帧；基于预设的视频标题、所述目标视频帧进行封面生成，得到所述目标视频封面。3.根据权利要求1所述的视频处理方法，其特征在于，所述对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据所述说话风格特征和所述语音内容特征，生成目标视频字幕，包括：基于预设的语音识别模型对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征；基于所述说话风格特征对预设的候选展示模板进行筛选，得到目标展示模板；基于所述目标展示模板对所述语音内容特征进行布局处理，得到所述目标视频字幕。4.根据权利要求1所述的视频处理方法，其特征在于，所述对所述原始视频数据进行关键词识别，得到视频关键词，并根据所述视频关键词确定视频关键节点，包括：对所述原始视频数据进行文本内容提取，得到视频文本数据；对所述视频文本数据进行分词处理，得到多个视频文本词段；基于预设算法对所述视频文本词段进行关键词识别，得到所述视频关键词；根据预设的词语类型对所述视频关键词进行风格标注，得到标签关键词；基于所述标签关键词的风格标签信息和词语位置信息，确定所述视频关键节点。5.根据权利要求1所述的视频处理方法，其特征在于，所述基于预设的候选场景数据对所述视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据，包括：获取所述视频关键节点的词语特征；基于所述词语特征对所述候选场景数据进行筛选，得到所述视频关键节点的目标场景数据，其中，所述目标场景数据包括目标场景动画和目标场景音效。6.根据权利要求1所述的视频处理方法，其特征在于，所述基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据，包括：
根据所述目标场景数据、所述目标视频字幕对所述原始视频数据进行渲染处理，得到渲染视频数据；将所述视频封面添加至所述渲染视频数据，得到所述目标视频数据。7.根据权利要求1至6任一项所述的视频处理方法，其特征在于，在所述基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据之后，所述方法还包括：获取用于指示发布操作的触发请求；根据所述触发请求生成视频审批提醒信息，将所述视频审批提醒信息发送至审核端；获取所述审核端根据所述视频审批提醒信息反馈的审批反馈数据，其中，所述审批反馈数据包括用于指示批准所述发布操作的同意发布信息；根据所述同意发布信息执行所述发布操作，以将所述目标视频数据发送至目标对象。8.一种视频处理装置，其特征在于，所述装置包括：数据获取模块，用于获取原始视频数据；封面生成模块，用于对所述原始视频数据进行人脸识别，得到目标人脸视频帧，并根据所述目标人脸视频帧，生成目标视频封面；字幕生成模块，用于对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据所述说话风格特征和所述语音内容特征，生成目标视频字幕；关键节点确定模块，用于对所述原始视频数据进行关键词识别，得到视频关键词，并根据所述视频关键词确定视频关键节点；场景选择模块，用于基于预设的候选场景数据对所述视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据；剪辑模块，用于基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据。9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的视频处理方法。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的视频处理方法。

技术总结
本申请提供了一种视频处理方法、视频处理装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：对原始视频数据进行人脸识别，得到目标人脸视频帧，并根据目标人脸视频帧，生成目标视频封面；对原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据说话风格特征和语音内容特征，生成目标视频字幕；对原始视频数据进行关键词识别，得到视频关键词，并根据视频关键词确定视频关键节点；基于候选场景数据对视频关键节点进行场景选择，得到视频关键节点对应的目标场景数据；基于目标视频封面、目标视频字幕、目标场景数据对原始视频数据进行剪辑处理，得到目标视频数据。本申请能够使得目标视频数据更加符合用户需求。户需求。户需求。

技术研发人员：温梦
受保护的技术使用者：中国平安人寿保险股份有限公司
技术研发日：2022.11.17
技术公布日：2023/3/31

完整全部详细技术资料下载

当前第2页1 2