视频处理方法、视频处理装置、电子设备及存储介质与流程

文档序号：33713250发布日期：2023-04-01 01:23阅读：42来源：国知局

1.本技术涉及人工智能技术领域，尤其涉及一种视频处理方法、视频处理装置、电子设备及存储介质。

背景技术：

2.随着网络技术的发展，视频处理技术被广泛用于短视频平台等多种业务场景，而常用的视频处理方法常常需要基于人工处理的方式对视频进行剪辑，这一方式往往需要依赖于操作人员的操作水平，存在着一定的误操作风险，会影响剪辑的视频质量，因此，如何提高生成视频的准确性，成为了亟待解决的技术问题。

技术实现要素：

3.本技术实施例的主要目的在于提出一种视频处理方法、视频处理装置、电子设备及存储介质，旨在提高生成视频的准确性，使得目标视频数据更加符合用户需求。
4.为实现上述目的，本技术实施例的第一方面提出了一种视频处理方法，所述方法包括：
5.获取原始视频数据；
6.对所述原始视频数据进行人脸识别，得到目标人脸视频帧，并根据所述目标人脸视频帧，生成目标视频封面；
7.对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据所述说话风格特征和所述语音内容特征，生成目标视频字幕；
8.对所述原始视频数据进行关键词识别，得到视频关键词，并根据所述视频关键词确定视频关键节点；
9.基于预设的候选场景数据对所述视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据；
10.基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据。
11.在一些实施例，所述对所述原始视频数据进行人脸识别，得到目标人脸视频帧，并根据所述目标人脸视频帧，生成目标视频封面，包括：
12.基于预设的人脸识别模型对所述原始视频数据进行人脸识别，得到初始人脸视频帧；
13.对所述初始人脸视频帧进行筛选，得到目标视频帧；
14.基于预设的视频标题、所述目标视频帧进行封面生成，得到所述目标视频封面。
15.在一些实施例，所述对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据所述说话风格特征和所述语音内容特征，生成目标视频字幕，包括：
16.基于预设的语音识别模型对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征；
17.基于所述说话风格特征对预设的候选展示模板进行筛选，得到目标展示模板；
18.基于所述目标展示模板对所述语音内容特征进行布局处理，得到所述目标视频字幕。
19.在一些实施例，所述对所述原始视频数据进行关键词识别，得到视频关键词，并根据所述视频关键词确定视频关键节点，包括：
20.对所述原始视频数据进行文本内容提取，得到视频文本数据；
21.对所述视频文本数据进行分词处理，得到多个视频文本词段；
22.基于预设算法对所述视频文本词段进行关键词识别，得到所述视频关键词；
23.根据预设的词语类型对所述视频关键词进行风格标注，得到标签关键词；
24.基于所述标签关键词的风格标签信息和词语位置信息，确定所述视频关键节点。
25.在一些实施例，所述基于预设的候选场景数据对所述视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据，包括：
26.获取所述视频关键节点的词语特征；
27.基于所述词语特征对所述候选场景数据进行筛选，得到所述视频关键节点的目标场景数据，其中，所述目标场景数据包括目标场景动画和目标场景音效。
28.在一些实施例，所述基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据，包括：
29.根据所述目标场景数据、所述目标视频字幕对所述原始视频数据进行渲染处理，得到渲染视频数据；
30.将所述视频封面添加至所述渲染视频数据，得到所述目标视频数据。
31.在一些实施例，在所述基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据之后，所述方法还包括：
32.获取用于指示发布操作的触发请求；
33.根据所述触发请求生成视频审批提醒信息，将所述视频审批提醒信息发送至审核端；
34.获取所述审核端根据所述视频审批提醒信息反馈的审批反馈数据，其中，所述审批反馈数据包括用于指示批准所述发布操作的同意发布信息；
35.根据所述同意发布信息执行所述发布操作，以将所述目标视频数据发送至目标对象。
36.为实现上述目的，本技术实施例的第二方面提出了一种视频处理装置，所述装置包括：
37.数据获取模块，用于获取原始视频数据；
38.封面生成模块，用于对所述原始视频数据进行人脸识别，得到目标人脸视频帧，并根据所述目标人脸视频帧，生成目标视频封面；
39.字幕生成模块，用于对所述原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据所述说话风格特征和所述语音内容特征，生成目标视频字幕；
40.关键节点确定模块，用于对所述原始视频数据进行关键词识别，得到视频关键词，并根据所述视频关键词确定视频关键节点；
41.场景选择模块，用于基于预设的候选场景数据对所述视频关键节点进行场景选
择，得到每一视频关键节点对应的目标场景数据；
42.剪辑模块，用于基于所述目标视频封面、所述目标视频字幕、所述目标场景数据对所述原始视频数据进行剪辑处理，得到目标视频数据。
43.为实现上述目的，本技术实施例的第三方面提出了一种电子设备，所述电子设备包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
44.为实现上述目的，本技术实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。
45.本技术提出的视频处理方法、视频处理装置、电子设备及存储介质，其通过获取原始视频数据；对原始视频数据进行人脸识别，得到目标人脸视频帧，并根据目标人脸视频帧，生成目标视频封面，能够较好地符合视频剪辑的封面剪辑需求，提高了用户的使用体验。进一步地，对原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据说话风格特征和语音内容特征，生成目标视频字幕，能够使得原始视频数据中的语音内容可以以目标视频字幕的形式清楚地呈现出来。进一步地，对原始视频数据进行关键词识别，得到视频关键词，并根据视频关键词确定视频关键节点；基于预设的候选场景数据对视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据，能够较为方便地提取原始视频数据中的视频关键词，从而确定视频关键节点，在视频关键节点插入与视频关键节点对应的场景特效，提高视频场景特效的设置准确性。最后，基于目标视频封面、目标视频字幕、目标场景数据对原始视频数据进行剪辑处理，得到目标视频数据，实现了对原始视频数据的剪辑处理，能够使得生成的目标视频数据更为准确，能够符合用户的当前需求。
附图说明
46.图1是本技术实施例提供的视频处理方法的流程图；
47.图2是图1中的步骤s102的流程图；
48.图3是图1中的步骤s103的流程图；
49.图4是图1中的步骤s104的流程图；
50.图5是图1中的步骤s105的流程图；
51.图6是图1中的步骤s106的流程图；
52.图7是本技术实施例提供的视频处理方法的另一流程图；
53.图8是本技术实施例提供的视频处理装置的结构示意图；
54.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
55.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
56.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示
出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
57.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
58.首先，对本技术中涉及的若干名词进行解析：
59.人工智能(art ificia l i nte l l igence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
60.自然语言处理(natura l l anguage process i ng，nlp)：nlp用计算机来处理、理解以及运用人类语言(如中文、英文等)，nlp属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
61.信息抽取(i nformat i on extract i on，ner)：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。
62.编码(encoder)：将输入序列转化成一个固定长度的向量。
63.解码(decoder)：就是将之前生成的固定向量再转化成输出序列；其中，输入序列可以是文字、语音、图像、视频；输出序列可以是文字、图像。
64.隐马尔可夫模型(h i dden markov mode l，hmm)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数作进一步的分析，例如模式识别。它是结构最简单的动态贝叶斯网，是一种有向图模型，主要用于时序数据建模。
65.随着网络技术的发展，视频处理技术被广泛用于短视频平台等多种业务场景，而常用的视频处理方法常常需要基于人工处理的方式对视频进行剪辑，这一方式往往需要依赖于操作人员的操作水平，存在着一定的误操作风险，会影响剪辑的视频质量，因此，如何提高生成视频的准确性，成为了亟待解决的技术问题。
66.基于此，本技术实施例提供了一种视频处理方法、视频处理装置、电子设备及存储介质，旨在提高生成视频的准确性，使得目标视频数据更加符合用户需求。
67.本技术实施例提供的视频处理方法、视频处理装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本技术实施例中的视频处理方法。
68.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(art i f i c i a l i nte l l i gence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
69.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
70.本技术实施例提供的视频处理方法，涉及人工智能技术领域。本技术实施例提供的视频处理方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现视频处理方法的应用等，但并不局限于以上形式。
71.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
72.图1是本技术实施例提供的视频处理方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤s101至步骤s106。
73.步骤s101，获取原始视频数据；
74.步骤s102，对原始视频数据进行人脸识别，得到目标人脸视频帧，并根据目标人脸视频帧，生成目标视频封面；
75.步骤s103，对原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据说话风格特征和语音内容特征，生成目标视频字幕；
76.步骤s104，对原始视频数据进行关键词识别，得到视频关键词，并根据视频关键词确定视频关键节点；
77.步骤s105，基于预设的候选场景数据对视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据；
78.步骤s106，基于目标视频封面、目标视频字幕、目标场景数据对原始视频数据进行剪辑处理，得到目标视频数据。
79.本技术实施例所示意的步骤s101至步骤s106，通过获取原始视频数据；对原始视
频数据进行人脸识别，得到目标人脸视频帧，并根据目标人脸视频帧，生成目标视频封面，能够较好地符合视频剪辑的封面剪辑需求，提高了用户的使用体验。进一步地，对原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据说话风格特征和语音内容特征，生成目标视频字幕，能够使得原始视频数据中的语音内容可以以目标视频字幕的形式清楚地呈现出来。进一步地，对原始视频数据进行关键词识别，得到视频关键词，并根据视频关键词确定视频关键节点；基于预设的候选场景数据对视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据，能够较为方便地提取原始视频数据中的视频关键词，从而确定视频关键节点，在视频关键节点插入与视频关键节点对应的场景特效，提高视频场景特效的设置准确性。最后，基于目标视频封面、目标视频字幕、目标场景数据对原始视频数据进行剪辑处理，得到目标视频数据，实现了对原始视频数据的剪辑处理，能够使得生成的目标视频数据更为准确，能够符合用户的当前需求。
80.在一些实施例的步骤s101中，可以通过摄像机或者其他摄影设备拍摄得到原始视频数据，也可以通过网络爬虫等方式对预设的数据源进行数据爬取，得到原始视频数据，还可以从预设的视频数据库或者各种网络平台上下载原始视频数据，其中，原始视频数据为目标对象拍摄的带有人物图像和音频内容的数据，目标对象可以是普通用户或者各个业务领域的工作人员等等，不做限制。
81.请参阅图2，在一些实施例中，步骤s102可以包括但不限于包括步骤s201至步骤s203：
82.步骤s201，基于预设的人脸识别模型对原始视频数据进行人脸识别，得到初始人脸视频帧；
83.步骤s202，对初始人脸视频帧进行筛选，得到目标视频帧；
84.步骤s203，基于预设的视频标题、目标视频帧进行封面生成，得到目标视频封面。
85.在一些实施例的步骤s201中，预设的人脸识别模型可以是深度卷积网络也可以是循环神经网络，还可以是基于其他神经网络模型构建而成，不做限制。以深度卷积网络为例，人脸识别模型包括卷积层和预测层，通过卷积层度原始视频数据进行视频帧特征提取，并将提取到的视频帧特征输入至预测层，基于预测层对视频帧特征中的图像内容进行预测，得到含有人物特征的初始人脸视频帧。
86.在一些实施例的步骤s202中，根据预设的表情类型对初始人脸视频帧进行筛选，即对初始人脸视频帧中的表情特征进行识别，确定该初始人脸视频帧的表情类型，其中，表情类型包括微笑、大笑等等。根据当前业务需求，从包含多种表情类型的初始人脸视频帧中，选取含有目标表情类型的初始人脸视频帧作为目标视频帧。例如，目标视频帧可以是含有人物微笑表情的视频帧。
87.在一些实施例的步骤s203中，可以提取操作人员输入的视频标题，对视频标题赋予文字特效，其中该文字特效可以是将视频标题设置成所需要的字体和颜色，随机选取一个特效作为该视频标题的标题特效，再基于常用的人脸检测算法对目标视频帧中的人脸位置进行识别，从而确定目标视频帧中的人脸位置，根据人脸位置将含有特效的视频标题插入到目标视频帧中，实现人脸信息和特效标题的封面布局，从而得到目标视频封面。
88.通过上述步骤s201至步骤s203能够较为方便地从原始视频数据中筛选出能够用于作为封面的目标视频帧，该目标视频帧包含有人物表情的人脸特征，同时，还可以为预设
的视频标题添加特效，将含有特效的视频标题和目标视频帧进行合并，得到目标视频封面，该目标视频封面还有标题信息和人物信息，能够较好地符合视频剪辑的封面剪辑需求，提高了用户的使用体验。
89.请参阅图3，在一些实施例中，步骤s103可以包括但不限于包括步骤s301至步骤s303：
90.步骤s301，基于预设的语音识别模型对原始视频数据进行语音识别，得到语音内容特征和说话风格特征；
91.步骤s302，基于说话风格特征对预设的候选展示模板进行筛选，得到目标展示模板；
92.步骤s303，基于目标展示模板对语音内容特征进行布局处理，得到目标视频字幕。
93.在一些实施例的步骤s301中，预设的语音识别模型可以是基于隐马尔可夫模型或者深度神经网络模型构建而成，其中，语音识别模型包括编码层、解码层，通过编码层将原始视频数据的音频部分按照预设的时间间隔切分成多个音频帧，再提取音频帧中的梅尔倒谱特征，将音频帧中的梅尔倒谱特征进行向量化，从而得到该音频帧在向量维度的特征，即音频帧向量；再通过解码层对相邻的音频帧向量进行组合，得到音素特征，再对音素特征进行逻辑调整，调整不合逻辑的字词，得到原始视频数据的语音内容特征，其中，说话风格特征可以通过编码层对原始视频数据的音频部分的音色特征进行提取得到。
94.在一些实施例的步骤s302中，说话风格特征包括音高、音调等声音特征信息，基于不同人物的不同说话风格特征，可以选取不同的候选展示模板来进行字幕布局，例如，针对不同年龄段的人群，选取符合其年龄特征的候选展示模板。不同的候选展示模板的字幕的字体样式可以各不相同。因此，基于说话风格特征对预设的候选展示模板进行筛选时，可以选择符合当前人物的声音特点和年龄特点的候选展示模板作为目标展示模板。
95.在一些实施例的步骤s303中，基于当前人物的说话风格特征，在目标展示模板上生成语音内容特征对应的字幕内容。例如，根据说话风格特征中的语速信息，在目标展示模板上设置语音内容特征的字幕内容的展示速度，并对目标展示模板上设置的语音内容特征的字幕内容进行样式调整，该样式调整包括字幕内容的字体大小、字体类型、字体颜色等等。
96.通过上述步骤s301至步骤s303能够较为方便地提取原始视频数据中的音频特征信息，即提取语音内容特征和说话风格特征，并基于说话风格选取出目标展示模板，在目标展示模板上生成语音内容特征对应的字幕内容，能够使得原始视频数据中的语音内容可以以目标视频字幕的形式清楚地呈现出来，以便将目标视频字幕添加至最终的视频中，提高最终生成的目标视频数据的内容可视性和播放效果。
97.请参阅图4，在一些实施例中，步骤s104可以包括但不限于包括步骤s401至步骤s405：
98.步骤s401，对原始视频数据进行文本内容提取，得到视频文本数据；
99.步骤s402，对视频文本数据进行分词处理，得到多个视频文本词段；
100.步骤s403，基于预设算法对视频文本词段进行关键词识别，得到视频关键词；
101.步骤s404，根据预设的词语类型对视频关键词进行风格标注，得到标签关键词；
102.步骤s405，基于标签关键词的风格标签信息和词语位置信息，确定视频关键节点。
103.在一些实施例的步骤s401中，可以基于常用的文本识别工具(例如，ocr文本识别工具)来对原始视频数据进行文本内容提取，得到视频文本数据；也可以采用脚本程序等调用该原始视频数据对应的视频脚本数据，并对该视频脚本数据进行内容提取，得到视频文本数据。
104.在一些实施例的步骤s402中，可以利用jieba分词器或者命名实体识别算法等对视频文本数据进行分词处理，得到多个视频文本词段，jieba分词器内预设符合需求的字段长度、语句类别等等，从而通过jieba分词器对视频文本数据进行分割处理，得到多个视频文本词段。
105.在一些实施例的步骤s403中，预设算法可以为tf-i df算法。具体地，通过tf-i df算法计算视频文本数据中每一句子的每一视频文本词段出现的频率，得到每一视频文本词段的词频(term frequency，tf)，其中，tf＝视频文本词段w出现的次数/视频文本数据中的视频文本词段数量；进一步地，计算每一视频文本词段的逆向文件频率(i nverse document frequency，i df)，其中，i df＝l og(视频文本数据的文本总数/(包含视频文本词段w的视频文本数据的数量+1))，最后，根据词频和逆向文件频率计算出每一视频文本词段的综合频率值，综合频率值＝词频*逆向文件频率。在视频文本数据中选取综合频率值最大的视频文本词段作为视频关键词。
106.在一些实施例的步骤s404中，利用预设函数对视频关键词进行分类预测，即计算每一视频关键词在不同的词语类型上的概率分布情况，根据概率分布情况确定该视频关键词的词语类型，将对应的词语类型标注在视频关键词上，得到标签关键词。其中，预设函数可以是softmax函数，词语类型包括名词、动词、专有名词、业务领域词(例如，医疗领域用语、金融领域用词)、积极词语、非积极词语等等。
107.在一些实施例的步骤s405中，获取标签关键词的词语位置信息，该词语位置信息可以表征该标签关键词是出现在原始视频数据中每一句子的开头位置、中间位置或者结尾位置，因此，可以根据视频播放进度和词语位置信息，尽量选取处于一句台词的结尾位置或者重要位置的标签关键词作为目标关键词，同时将目标关键词在原始视频数据中所处的位置作为视频关键节点，以便在视频关键节点插入与视频关键节点的视频关键词的标签风格对应的场景特效。
108.通过上述步骤s401至步骤s405能够较为方便地提取原始视频数据中的视频关键词，并根据视频关键词的词语标签和所处的位置信息，将部分视频关键词所处位置设置视频关键节点，以便在视频关键节点插入与视频关键节点对应的场景特效，提高视频场景特效的设置准确性。
109.请参阅图5，在一些实施例中，步骤s105可以包括但不限于包括步骤s501至步骤s502：
110.步骤s501，获取视频关键节点的词语特征；
111.步骤s502，基于词语特征对候选场景数据进行筛选，得到视频关键节点的目标场景数据，其中，目标场景数据包括目标场景动画和目标场景音效。
112.在一些实施例的步骤s501中，可以通过预设的脚本程序提取视频关键节点的词语特征，该词语特征即为该视频关键节点对应的视频关键词的词语信息和词语类型。
113.在一些实施例的步骤s502中，基于词语特征包含的视频关键词的词语特点，将词
语特征和候选场景数据的场景特征进行匹配，选取匹配度最高的场景特征所对应的候选场景数据作为目标场景数据，其中，候选场景数据包括的场景特征有医学场景特征、金融场景特征等多种不同风格的特征。针对不同风格的场景特征，设置有不同的场景特效，场景特效包括场景动画和场景音效。因此，在将词语特征和候选场景数据的场景特征进行匹配，可以计算词语特征和场景特征之间的相似度、欧氏距离等等，根据相似度或者欧式距离值来确定词语特征和场景特征的匹配度大小，即相似度越大或者欧式距离值越小，则匹配度越高。基于此，这一方式能够选取与词语特征之间的匹配度最高的场景特征所对应的候选场景数据作为目标场景数据，得到视频关键节点应当设置的目标场景动画和目标场景音效等目标场景数据。
114.通过上述步骤s501至步骤s502能够较为方便地从多个候选场景数据中选取与视频关键节点最相关的场景数据，得到目标场景数据，使得能够基于目标场景数据对视频关键节点进行场景特效设置，从而改善视频关键节点的处理效果，提高生成视频的准确性，使得最终的目标视频数据更加符合用户需求。
115.请参阅图6，在一些实施例，步骤s106包括但不限于包括步骤s601至步骤s602：
116.步骤s601，根据目标场景数据、目标视频字幕对原始视频数据进行渲染处理，得到渲染视频数据；
117.步骤s602，将视频封面添加至渲染视频数据，得到目标视频数据。
118.在一些实施例的步骤s601中，首先可以获取目标场景数据中的场景时间，根据该场景时间查询原始视频数据只能怪与该场景时间对于的视频帧，将目标场景数据中的场景特效添加至与该场景时间对应的视频帧。进一步地，将目标视频字幕插入含有场景特效的原始视频数据中，得到渲染视频数据。其中，渲染视频数据可以理解为通过目标场景数据和目标视频字幕实现字幕高亮、关键词显示、插入弹幕等场景特效的方式对原始视频数据进行处理得到的视频流。场景特效可以理解为是用于对场景内容进行突出显示的方式。
119.在一些实施例的步骤s602中，将视频封面添加至渲染视频数据的起始位置，并基于视频封面中的人物图像和预设的结尾特效，生成结尾封面，将结尾封面插入至渲染视频数据的结束位置，从而得到目标视频数据。
120.通过上述步骤s601至步骤s602能够较为方便地利用目标场景数据、目标视频字幕对原始视频数据进行渲染，得到渲染视频数据，并将视频封面添加入渲染视频数据，实现了对原始视频数据的剪辑处理，能够使得生成的目标视频数据更为准确，能够符合用户的当前需求，且本技术实施例的视频处理方法无需使用第三方应用程序等进行视频剪辑，较大地提高了视频处理的效率。
121.请参阅图7，在一些实施例的步骤s106之后，视频处理方法还可以包括但不限于包括步骤s701至步骤s704：
122.步骤s701，获取用于指示发布操作的触发请求；
123.步骤s702，根据触发请求生成视频审批提醒信息，将视频审批提醒信息发送至审核端；
124.步骤s703，获取审核端根据视频审批提醒信息反馈的审批反馈数据，其中，审批反馈数据包括用于指示批准发布操作的同意发布信息；
125.步骤s704，根据同意发布信息执行发布操作，以将目标视频数据发送至目标对象。
126.在一些实施例的步骤s701中，通过预设的脚本程序获取用于指示发布操作的触发请求，该触发请求包含指示用于发布目标视频数据的发布操作。为了提高视频发布的安全性，需要进一步地进行发布操作复核，以提高视频发布的安全性。
127.在一些实施例的步骤s702中，根据触发请求生成视频审批提醒信息，该视频审批提醒信息包含待审核的视频名称、发布请求的用户信息以及发布诉求信息等等，并将视频审批提醒信息以邮件或者其他形式发布至审核端进行发布审核，通过审核端的审核人员或者预设的审核程序对该视频审批提醒信息进行内容核查，以确认该触发请求是否符合要求。
128.在一些实施例的步骤s703中，在审核端对上述视频审批提醒信息进行审核之后，获取审核端根据视频审批提醒反馈的审批反馈数据，该审批反馈数据用于表征审核端是否同意该触发请求，审批反馈数据包含用于指示批准发布操作的同意发布信息或者指示不批准发布操作的反对发布信息。
129.在一些实施例的步骤s704中，当审批反馈数据为同意发布信息时，根据该同意发布信息将目标视频数据发布至目标对象，该目标对象可以是用户端或者其他第三方，不做限制。此外，当审批反馈数据为反对发布信息时，则将审批反馈数据以邮件形式等发送至操作对象，该操作对象即为指示发布操作的触发请求的对象。
130.通过上述步骤s701至步骤s704能够对发布操作进行审核，使得能够根据接收到的审核反馈数据进行视频发布，有效地避免了目标视频数据发布错误等情况出现，提高了视频发布的安全性。
131.本技术实施例的视频处理方法，其通过获取原始视频数据；对原始视频数据进行人脸识别，得到目标人脸视频帧，并根据目标人脸视频帧，生成目标视频封面，能够较好地符合视频剪辑的封面剪辑需求，提高了用户的使用体验。进一步地，对原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据说话风格特征和语音内容特征，生成目标视频字幕，能够使得原始视频数据中的语音内容可以以目标视频字幕的形式清楚地呈现出来。进一步地，对原始视频数据进行关键词识别，得到视频关键词，并根据视频关键词确定视频关键节点；基于预设的候选场景数据对视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据，能够较为方便地提取原始视频数据中的视频关键词，从而确定视频关键节点，在视频关键节点插入与视频关键节点对应的场景特效，提高视频场景特效的设置准确性。最后，基于目标视频封面、目标视频字幕、目标场景数据对原始视频数据进行剪辑处理，得到目标视频数据，实现了对原始视频数据的剪辑处理，能够使得生成的目标视频数据更为准确，能够符合用户的当前需求，且本技术实施例的视频处理方法无需使用第三方应用程序等进行视频剪辑，较大地提高了视频处理的效率。
132.请参阅图8，本技术实施例还提供一种视频处理装置，可以实现上述视频处理方法，该装置包括：
133.数据获取模块801，用于获取原始视频数据；
134.封面生成模块802，用于对原始视频数据进行人脸识别，得到目标人脸视频帧，并根据目标人脸视频帧，生成目标视频封面；
135.字幕生成模块803，用于对原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据说话风格特征和语音内容特征，生成目标视频字幕；
136.关键节点确定模块804，用于对原始视频数据进行关键词识别，得到视频关键词，并根据视频关键词确定视频关键节点；
137.场景选择模块805，用于基于预设的候选场景数据对视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据；
138.剪辑模块806，用于基于目标视频封面、目标视频字幕、目标场景数据对原始视频数据进行剪辑处理，得到目标视频数据。
139.该视频处理装置的具体实施方式与上述视频处理方法的具体实施例基本相同，在此不再赘述。
140.本技术实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述视频处理方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
141.请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：
142.处理器901，可以采用通用的cpu(centra l process i ngunit，中央处理器)、微处理器、应用专用集成电路(app l icat ionspecific i ntegratedci rcuit，asi c)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术实施例所提供的技术方案；
143.存储器902，可以采用只读存储器(readon lymemory，rom)、静态存储设备、动态存储设备或者随机存取存储器(randomaccessmemory，ram)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本技术实施例的视频处理方法；
144.输入/输出接口903，用于实现信息输入及输出；
145.通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wi f i、蓝牙等)实现通信；
146.总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；
147.其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
148.本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述视频处理方法。
149.存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
150.本技术实施例提供的视频处理方法、视频处理装置、电子设备及计算机可读存储
介质，其通过获取原始视频数据；对原始视频数据进行人脸识别，得到目标人脸视频帧，并根据目标人脸视频帧，生成目标视频封面，能够较好地符合视频剪辑的封面剪辑需求，提高了用户的使用体验。进一步地，对原始视频数据进行语音识别，得到语音内容特征和说话风格特征，并根据说话风格特征和语音内容特征，生成目标视频字幕，能够使得原始视频数据中的语音内容可以以目标视频字幕的形式清楚地呈现出来。进一步地，对原始视频数据进行关键词识别，得到视频关键词，并根据视频关键词确定视频关键节点；基于预设的候选场景数据对视频关键节点进行场景选择，得到每一视频关键节点对应的目标场景数据，能够较为方便地提取原始视频数据中的视频关键词，从而确定视频关键节点，在视频关键节点插入与视频关键节点对应的场景特效，提高视频场景特效的设置准确性。最后，基于目标视频封面、目标视频字幕、目标场景数据对原始视频数据进行剪辑处理，得到目标视频数据，实现了对原始视频数据的剪辑处理，能够使得生成的目标视频数据更为准确，能够符合用户的当前需求，且本技术实施例的视频处理方法无需使用第三方应用程序等进行视频剪辑，较大地提高了视频处理的效率。
151.本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
152.本领域技术人员可以理解的是，图1-7中示出的技术方案并不构成对本技术实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
153.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
154.本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
155.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
156.应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
157.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅
仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
158.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
159.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
160.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-on ly memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介质。
161.以上参照附图说明了本技术实施例的优选实施例，并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本技术实施例的权利范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：温梦
技术所有人：中国平安人寿保险股份有限公司
我是此专利的发明人

上一篇：一种直升机集装货运系统及其控制方法与流程
上一篇：负载控制系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。