视频处理方法及装置、存储介质与流程

文档序号：20040238发布日期：2020-02-28 11:49阅读：96来源：国知局

本申请涉及视频技术领域，尤其涉及一种视频处理方法及装置、存储介质。

背景技术：

视频是一种结合的图像和视频的综合多媒体信息，在播放后能够观看到动态的图像和声音。在录制或者获取了一个原始视频之后，用户可能需要加工原始视频的需求。但是现有方案完全依赖人工听取和合成重点语音片段：用户听到视频中的重点片段，手动选取时间范围，打上有关标签。例如，现有的视频标注需要用户反复拖动视频播放条，对视频内容反复查看，操作繁琐特别是在直播型报道中，操作极其不便；用户不能第一时间将多段标注的素材输出成一段视频。

技术实现要素：

有鉴于此，本申请实施例期望提供一种视频处理方法及装置、存储介质。

本申请实施例第一方面提供一种视频处理方法，包括：

获取原始视频；

识别所述原始视频以确定出所述原始视频所包含的视频对象，其中，所述视频对象包括：人物对象、物体对象和事件对象的至少其中之一；

基于所述视频对象，标注所述原始视频生成视频标签。

基于上述方案，所述方法还包括：

在识别所述原始视频之前，过滤掉所述原始视频所包含的无效镜头，其中，所述无效镜头包括以下至少之一：

单一色彩镜头，其中，所述单一色彩镜头包括：黑屏镜头和/或蓝屏接头；

视频片头片尾镜头；

广告镜头；

二维码镜头。

基于上述方案，所述过滤掉所述原始视频所包含的无效镜头，包括以下至少之一：

利用颜色直方图或者灰度差，从所述原始视频中挑选出所述单一色彩镜头；

将所述原始视频与片头片尾资源库进行匹配，从所述原始视频中去除匹配度满足第一条件的镜头；

将所述原始视频与广告资源库进行匹配，从所述原始视频中去除匹配度满足第二条件的镜头；

将所述原始视频的视频帧转换灰度图，根据所述灰度图确定出原始视频的视频帧中是否包含二维码，并剔除包含二维码的镜头。

基于上述方案，所述识别所述原始视频以确定出所述原始视频所包含的视频对象，包括以下至少之一：

基于人脸检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的人物对象；

检测提出了所述无效镜头之后的所述原始视频，确定所述原始视频是否包含特殊事件的镜头；

检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的物体对象。

基于上述方案，所述基于人脸检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的人物对象，包括：

通过人脸检测算法，确定所述原始视频的视频帧中是否有包含人物对象；

当包含人物对象时，将所述人物对象与人脸库中的人脸进行匹配；

若匹配成功，根据所述人脸库中人脸信息生成所述视频标签中的人脸标签；若匹配失败，将所述人物对象添加到临时库并记录所述人物对象在视频中的出现信息。

基于上述方案，所述检测提出了所述无效镜头之后的所述原始视频，确定所述原始视频是否包含特殊事件的镜头，包括以下至少之一：

对所述原始视频的视频帧进行采样，将采样的视频帧输入到设备自主学习模型中，得到所述设备自主学习模型输出的特殊事件识别结果。

基于上述方案，所述检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的物体对象，包括：

利用神经网络识别所述原始视频包含的视频帧，将识别出的物体对象按照预定顺序进行排序，并获得所述物体对象在视频中的出现信息。

基于上述方案，所述方法还包括：

根据所述视频标签，得到所述原始视频的结构化视频；

根据视频模板，合成一个或多个所述结构化视频得到目标视频。

基于上述方案，所述视频模板至少包含：视频合成配置；

所述视频合成配置，包括以下至少之一：

触发规则，用于触发所述目标视频的合成；

背景音频配置，用于在所述目标视频添加背景音频；

特效配置，用于在所述目标视频中添加特效。

本申请实施例第二提供一种视频处理装置，包括：

获取模块，用于获取原始视频；

识别模块，用于识别所述原始视频以确定出所述原始视频所包含的视频对象，其中，所述视频对象包括：人物对象、物体对象和事件对象的至少其中之一；

标注模块，用于基于所述视频对象，标注所述原始视频生成视频标签。

本申请实施例第三方面提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够用于前述任意实施例提供的视频处理方法。

本申请实施例第三方面提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够用于实现前述一个或多个技术方案提供的视频处理方法。

本申请实施例提供的视频处理方法及装置、存储介质，获得原始视频之后，设备采用视频处理技术，识别原始视频中包含的声学特征，基于视频识别技术得到原始视频中包含的视频对象，例如，人物对象、物体对象和/或视频所包含的特殊事件，设备自动根据识别得到的视频对象，标注原始视频得到视频标签。如此，设备就可以在无需人工操作的情况下，对原始视频进行自动标注，而设备的自动标注相对于人工标注，具有效率高及操作简单的特点；与此同时，由于设备标注，减少了标注人员的业务不熟练或者标注疲劳引入的标注错误现象，提升了视频标注的精确度。

附图说明

图1为本申请实施例提供的一种视频处理方法的流程示意图；

图2为本申请实施例提供的一种视频处理方法的流程示意图；

图3为本申请实施例提供的一种视频处理装置的结构示意图；

图4为本申请实施例提供的一种视频处理方法的流程示意图；

图5为本申请实施例提供的结构化视频的视频信息的显示示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例提供一种视频处理方法，包括：

s110：获取原始视频；

s120：识别所述原始视频以确定出所述原始视频所包含的视频对象，其中，所述视频对象包括：人物对象、物体对象和事件对象的至少其中之一；

s130：基于所述视频对象，标注所述原始视频生成视频标签。

该视频处理方法可应用于视频处理终端或者视频服务器中。

s110中获取的原始视频可包括：离线视频流和/或直播视频流。

在一些实施例中，所述方法还包括：

在获取到原始视频之后，确定原始视频是否为预定格式的视频；

若原始视频不是预定格式的视频，则进行视频转码，将原始视频转码称预定格式的视频之后，再对转码后的原始视频进行s120至s130等步骤处理。

若原始视频是预定格式的视频，则直接进入到步骤s120至s130。

例如，将不同格式的原始视频统一转换为：mp4h.264格式的视频。

如此，可以通过视频转码，将不同格式的视频转换为统一格式的视频之后进行视频标注和合并，从而减少不同格式视频所引入的误差和报错现象。

在一些实施例中，所述方法还包括：

在所述原始视频的格式被转换为预定视频格式之后，按照镜头对所述原始视频进行切分，得到视频分段。一个所述视频分段可包括一个或多个镜头。

在进行原始视频的按镜头切分时，可以根据相邻两个镜头之间内容的关联性，将满足预设关联性的多个镜头划分到一个视频分段中，否则一个视频分段可对应于一个所述镜头。

比对相邻两个镜头的相邻两个视频帧之间的差异，若差异大于预设值，则表示这两个镜头不满足预设关联性；若差异小于预设值，则表示这两个镜头满足预设关联性。

例如，在球类比赛的原始视频进行切分时，拍摄同一个进球的两个相邻镜头，在前一个镜头的结尾一个视频帧与后一个镜头的首个视频帧，由于拍摄上的连续性差异很小，这种差异很小的两个相邻镜头即为满足所述预设关联性的镜头。

将具有关联性的多个镜头归纳到一个视频分段之后，后续基于视频分段的识别时，减少跨视频分段对同一个视频对象的反复检测所导致的运算量，且减少逐个镜头切分导致的视频分段过于零散的现象。

在s130中根据视频对象标注原始视频得到视频标签。

所述视频标签包括以下标签至少之一：

基于所述人脸对象生成的人物标签；

基于所述物体生成的物体标签；

基于所述特殊事件生成的事件标签。

所述视频标签可包括：对象信息和/或位置信息；所述对象信息指明了被标签的视频对象的类型或标识；所述位置信息指明了对应视频对象在原始视频中出现的位置，该出现的位置可为在原始视频的时间轴上的时间位置，或者，原始视频中所包含镜头的排序。

当然以上是对视频标签进行举例说明，具体的实现过程中，可根据需要设置标签内容。

所述事件对象可为所述原始视频包含的特定事件。

例如，球类视频中的进球事件；再例如，街拍视频中车辆事故事件；消防视频中的爆炸事件或火灾事件等。

再例如，综艺视频中的喝彩事件和/或掌声事件等。

在本申请实施例中，视频包括图像和音频两个维度的数据，在进行原始视频识别时，可以采用图像视频技术和综合音频识别技术，对原始视频进行识别，得到原始视频所包含的视频对象。

例如，图像识别技术可以对原始视频所包含的视频帧进行图像处理，通过图像特征的提取得到可识别的一个或多个视频对象。

在例如，音频识别技术可以对原始视频所包含的音频数据进行音频处理，从而得到音频数据的声学特这姑娘，基于声学特这姑娘提取出该原始视频所包含的一个或多个视频。该声学特征包括但不限于声纹特征。在一些实施例中，该声学特征还可包括：音调特征、音色特征和/或声视频率特征等。通过声学特征的提取，可以定位出原始视频中特殊事件所包含的特殊声音。例如，将提取的声学特征与掌声的声学特征进行匹配，确定出特殊事件中的掌声事件。再例如，将提取的声学特征与评书视频中惊堂木拍打桌面的声学特征进行匹配，确定出特殊事件中的惊堂木拍击事件。

再例如，将提取出的声学特征与喝彩声的声学特征进行匹配，确定出特殊事件中的喝彩事件。例如，针对户外采集的视频，将从视频中提取出的声学特征与枪声的声学特征进行匹配，确定出特殊事件中的枪声事件。再例如，针对户外采集的视频，将从原始视频中提取的声学特征与户外的车辆碰撞声音的声学特征、车辆刹车声音的声学特征进行匹配，得到特殊事件中车辆事故事件。又例如，将原始视频中提取的声学特征与笑声或哭声等表征强烈情绪声音的声学特征进行匹配，得到特殊事件中的笑声事件和/或哭声事件。还例如，将原始视频中提取的声纹特征与各种爆破音的声学特征进行匹配，得到爆破事件。该爆破事件可为烟花爆破的烟花燃放事件、炸弹爆破的炸弹爆破事件等。在一些实施例中，上述特殊事件的提取方式是通过声学特征匹配的方式，此时各种特殊事件的特殊视频的声学特征都可以存档在一个特殊视频的声学特征库中。

通过视频标签的生成，则完成了对原始视频的设备自动标注，具有识别效率高及识别错误率低的现象。

在一些实施例中，为了加速识别，减少不必要的识别，所述方法还包括：

在识别所述原始视频之前，过滤掉所述原始视频所包含的无效镜头，其中，所述无效镜头包括以下至少之一：

单一色彩镜头，其中，所述单一色彩镜头包括：黑屏镜头和/或蓝屏接头；

视频片头片尾镜头；

广告镜头；

二维码镜头。

剔除了无效镜头之后的原始视频仅剩下了有效镜头。有效镜头为视频帧中包含有效信息的镜头。

所述过滤掉所述原始视频所包含的无效镜头，包括以下至少之一：

利用颜色直方图或者灰度差，从所述原始视频中挑选出所述单一色彩镜头；

将所述原始视频与片头片尾资源库进行匹配，从所述原始视频中去除匹配度满足第一条件的镜头；此处的匹配度满足第一条件，可为：匹配度大于第一匹配度阈值，例如，匹配度达到70％或者80或者85等第一匹配度阈值，此处的第一匹配度阈值可为动态调整的设置至，具体取值不限于上述举例；

将所述原始视频与广告资源库进行匹配，从所述原始视频中去除匹配度满足第二条件的镜头；此处的匹配度满足第二条件，可为：匹配度大于第二匹配度阈值，例如，匹配度达到70％或者80或者85等第一匹配度阈值，此处的第二匹配度阈值可为动态调整的设置至，具体取值不限于上述举例；

将所述原始视频的视频帧转换灰度图，根据所述灰度图确定出原始视频的视频帧中是否包含二维码，并剔除包含二维码的镜头。

通过颜色直方图，可以明确的看到某一个镜头的视频帧的某一种颜色的占比达到了特定阈值，此时，通常可认为单一色彩镜头，是无效镜头的一种。典型的无效镜头包括但不限于黑屏镜头和/或蓝屏镜头。

在一些实施例中无效镜头还可包括：花屏镜头，例如，雪花屏镜头也是无法提供任何有用信息的镜头。

将彩色镜头转换为灰度图像，若灰度图像中灰度差很小甚至为零，说明这也是单一颜色的镜头。

视频片头片尾镜头的去除方式有很多种，有一些原始视频自带片头标签和片尾标签，此时，可以直接根据原始视频自带的片头标签和片尾标签去除掉片头镜头和/或片尾镜头。

在还有一些实施例中，广告镜头的识别可以通过视频帧文字内容的提取来确定，但是在具体实现时，可以通过广告库中广告镜头的匹配来发现插入在原始视频中的广告镜头。

二维码镜头是指视频帧显示有二维码的镜头，二维码的图形特征是一定的，例如，二维码为矩形图像，在4个角中的3个角出形成有比较大块的黑色定位块，黑色定位块以内是比黑色定位块小的黑白交叉矩形块或矩形块组合。通过二维码自身的图像特点可以快速识别出包含二维码的镜头。但是在另一些实施例中，还可以通过灰度图处理等加速二维码镜头的识别，此处就不再做进一步的限定。

在一些实施例中，所述s120可包括以下至少之一：

基于人脸检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的人物对象；

检测提出了所述无效镜头之后的所述原始视频，确定所述原始视频是否包含特殊事件的镜头；

检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的物体对象。

在识别人物对象时，可以采用人脸识别技术来识别人脸，并基于识别的人脸获得人物对象。具体地如，调用人脸识别算法(facenet)用于识别人脸是谁，主要是通过比对检测图像中的人脸特征点和人脸库中已注册人脸的特征点位置的几何距离，从而算出两张人脸的相似度)，从而通过人脸识别实现人物识别。

在另一些实施例中，可以将人脸识别技术和人体识别技术结合使用，来识别人物对象。例如，在一个原始视频的多个镜头中，有的镜头内人脸被遮挡，例如，采集的背部图像，此时，可以结合有人脸的镜头中人体身形与无人脸图像的人体身形镜头，实现人物对象的识别。结合人脸识别技术和人体识别技术，可以增加原始视频中人物对象的识别范围和识别精确度。

在识别事件对象时，可以结合镜头内单帧或综合多帧图像进行识别，确定该镜头是否是拍摄特定事件形成的。

例如，火灾爆炸识别：对视频帧进行采样，使用训练好的图片分类器对图片进行分类，在图片分类结果上使用平均池化(averagepool)计算片段分类结果，在片段分类结果上使用判定策略，检测出视频中的完整的火灾爆炸的视频片段，并输出代表视频帧。

再例如，火灾爆炸对应的视频帧包括：火的图像，火灾爆炸形成的烟雾的图像。若识别的多个物体对象组合之后就是出现在火灾爆炸的情形下，就可以认为是识别到火灾事件对象，并为该火灾爆炸事件配置火灾标签。此处的火灾标签为前述视频标签的一种。

该篮球进球识别：利用一次性查看(youonlylookonce，yolo)检测算法检测到篮球视频片段里的所有篮球和篮筐，利用篮球和篮筐的相对位置关系来定位到所有投篮的视频片段。然后利用时间敏感性网络(tsn)视频分类模型对篮网摆动、防守球员底线发球、进攻球员远离底线跑动等等这些特征进行建模，模型对所有投篮片段进行分类，分为进球片段和未进球片段，从而实现进球判断。为该进球事件分配进球标签。该进球标签为前述视频标签的一种。

在识别出来的进球中，根据得分归纳成三类，三分球，两分球和一分的罚球等进球标签中包含的标签信息。对于进球而言，标签信息科为进球得分信息。对于火灾标签而言，若该火灾标签内携带有标签信息，该标签信息可包括：火灾发生的地点、火灾类型、火灾等级等多种信息中的一种或多种。

故在一些实施例中，所述视频标签除了包括前述的对象信息、位置信息以外，还可以包括标签信息。该标签信息可为特殊事件的事件信息、人物对象的人物特点信息及物体对象的物体属性信息等。人物特点信息可指示该人物对象的年龄、职业、性别、穿着打扮特点或者其他可以关联上的人物画像。物体属性信息可包括：描述该物体的当前状态或者分类状态的信息。例如，识别出一个篮球，可以描述该篮球的新旧状态和./或品牌信息等。

在一些实施例中，所述方法还包括以下至少之一：

当识别出的人物对象有多个时，根据人物对象的出现信息和/或人物对象的属性信息进行排序；

当识别出的物体对象有多个时，根据物体对象的出现信息和/或物体对象的属性信息进行排序；

当识别出的事件对象有多个时，根据事件对象的出现信息和/或事件对象的事件信息进行排序。

例如，上述出现信息可包括：出现次数。

人物对象的属性信息可包括：人物对象的热度，例如，流量明星的热度高于普通人的热度。

物体的属性信息可包括：类型信息等，例如，球类运动中球属性，与当前视频的主旨相关，根据该属性信息进行排序。

事件信息可包括：事件类型、不同事件的严重程度信息等。

按照上述方式进行排序，可以后续方便快速找到对应视频对象的标签，快速定位出需要合成的视频分段，从而提升目标视频合成的效率。

在一些实施例中，如图2所示，所述s120可包括：

s121：通过人脸检测算法，确定所述原始视频的视频帧中是否有包含人物对象；

s122：当包含人物对象时，将所述人物对象与人脸库中的人脸进行匹配；

s123：若匹配成功，根据所述人脸库中人脸信息生成所述视频标签中的人脸标签；

s124：若匹配失败，将所述人物对象添加到临时库并记录所述人物对象在视频中的出现信息。

在一些实施例中，若临时库中的人物对象在视频中的出现信息表明出现次数达到预设次数，则为该人物对象分配一个标识(identification，id)，并将该人物对象添加到人脸库中。或者，若临时库中的人物对象在视频中的出现信息表明出现次频率到预频频率，则为该人物对象分配一个标识(identification，id)，并将该人物对象添加到人脸库中。例如，在一个镜头包含的24个视频帧中，某一个人脸在这24帧视频中出现12次，出现频率为0.5，远大于预设频率0.1，则表明该人脸会频分出现在原始视频中，故分配id并转移到人脸库，方便提升后续匹配效率。

当然，在一些实施例中，也可以是在某一个人脸出现一次时，就分配id，并转移到人脸库，减少人物对象的检测遗漏。

在另一些实施例中，还可以与第三方数据库进行打通，例如，与户籍系统或者公安系统进行打通，通过人脸识别明确出视频所包含人脸的身份信息，而非仅是获取分配前述指代该人物对象的id。

所述s120，包括以下至少之一：

对所述原始视频的视频帧进行采样，将采样的视频帧输入到设备自主学习模型中，得到所述设备自主学习模型输出的特殊事件识别结果。

该设备自主学习模型可包括：机器学习模型和/或深度学习模型。机器学习模型可包括向量机等。深度学习模型可包括：神经网络等。

此处的对原始频的视频帧进行采样为：对原始频的视频帧进行下采样，例如，一个镜头包含24个视频帧，若采样系数为0.5，则每一个镜头抽取12个视频帧输入到设备自主学习模型中，由设备自主学习模型识别出该镜头是否包含特殊事件。总之该采用系数还可为0.3或0.6等其他取值，总之可为小于1的正数，具体取值此处不做限定。

所述自主学习模型可包括：图像分类器，例如，由神经网络构成的图像分类器，可以识别出归属不同场景的视频帧，从而确定是否包含特殊事件，例如，识别交通事故场景、火灾场景、建筑倒塌事件、地面坍塌事件、人员踩踏事件或者烟花燃放事件等。

再例如，在一些情况下，该设备自主学习模型可为经验模型，通过检测视频帧中某一个对象运动曲线，可以识别出是否发生特殊事件，例如，足球视频中检测足球的运动轨迹，确定是否出现进球事件。

在一些实施例中，所述检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的物体对象，包括：

利用神经网络识别所述原始视频包含的视频帧，将识别出的物体对象按照预定顺序进行排序，并获得所述物体对象在视频中的出现信息。

该排序可按照识别时间，从前到后排序或者从后到前排序。

按照出现在视频帧中的次数，按照次数从多到少排序或者从少到多排序。按照一定的顺序进行排序，方便后续确定该物体对象在视频中的重要性等。

物体对象在视频中的出现信息包括但不限于以下至少之一：出现次数及出现位置；

在一些实施例中，所述方法还包括：

根据所述视频标签，得到所述原始视频的结构化视频；

根据视频模板，合成一个或多个所述结构化视频得到目标视频。

在一些实施例中，该结构化视频可包括：原始视频和该原始视频的视频标签。例如，若原始视频为一个歌曲的mv，则该结构化视频可包括：该原始视频本身和该原始视频的歌曲标签。此处的歌曲标签为前述视频标签的一种。

在另一些实施例中，该结构化视频可包括：原始视频的一个或多个处理过的视频数据和对应的视频标签。若该原始视频包含人物对象时，则此处处理过的视频数据可包括前述人物对象所在的镜头；此时，所述视频标签可包括：前述人物标签。

若该原始视频包含特殊事件，则处理过的视频数据可包括：从原始视频中截取的包含特殊事件的视频段，此时，该结构化视频所包含的视频标签至少包含事件标签。

在还有一些实施例中，若该原始视频包含物体对象，则该原始视频对应的结构化视频中还可包括：物体标签。

该视频模板可为视频设备预先配置的或者动态配置的。该视频模板中包含了合成目标视频的各种配置信息。

该视频合成配置可用于在选择出多个结构化视频之后，指导设备具体如何将多个结构化视频合成目标视频。

在一些实施例中，所述视频模板至少包含：视频合成配置；

所述视频合成配置，包括以下至少之一：

触发规则，用于触发所述目标视频的合成；

背景音频配置，用于在所述目标视频添加背景音频；

特效配置，用于在所述目标视频中添加特效。

例如，所述触发规则可包括：

手动触发规则，即在检测到用户输入时，触发目标视频的合成；

定时触发规则，按照预定的时间间隔，在前一次和视频合成间隔预定的时间间隔后，设备自动启动再次视频合成；

事件规则，即在识别出视频中包含到特定事件时，触发目标视频的合成。例如，在一台晚会的视频流中，检测到某一个演员登台表演等特定事件，就启动目标视频的合成。具体，确定是否有出现事件规则中的特定事件，可以根据前述的视频标签来简便实现。

bgm(backgroundmusic，bgm)配置可用于指示是否在目标视频中引入背景音乐或旁白等背景视频；

bgm配置还可用于指示在目标视频中引入背景视频时，引入的背景视频的类型/或背景音参数。背景视频的类型可包：背景音乐、旁白或环境音等。该环境音可包括：风声、水声、树叶摇曳声、马蹄声、车辆驶过的声音。旁白包括：他人旁白和/或内心旁白。

此处的背景音参数可包括：背景音的音量、背景音出现的起止时间、背景音的播放规则。

背景音的播放规则可包括以下至少之一：

循环播放规则；

自动切换规则，该自动切换规则可包括：顺序切换、随机切换或者逆序切换等。

音效配置可包括：目标视频的整体音效配置和/或目标视频中某一个声音的音效配置。例如，背景音的音效配置，或者，主发言人的音效配置。

该音效配置可包括：声音的出场方式配置、声音的离场方式配置及音量配置等。

声音的出场方式配置可包括：淡入出场方式配置或者插入出场方式配置。淡入出场方式配置会使得某一个声音从小到大慢慢引入。插入出场方式配置会使得一个声音突然以较大的音量突兀的出现。

声音离场方式配置可包括：淡入离场方式配置或者插入出场方式配置。淡入离场方式配置会使得某一个声音从大到小慢慢离开。插入出场方式配置会使得一个声音突然以较大的音量终止。

特效配置，可为在目标视频中增加特性的配置，例如，送鲜花或送掌声的特效、燃放烟花的特效、增加人物对象中游戏对象的招式发射效果的特效。

特效配置可包括以下至少之一：

指示是否添加特效的第一配置；

指示所添加特效类型的第二配置；

指示特效添加参数的第三配置，例如，第三配置可用于指示特效持续时间、特效添加位置和/或特效添加频次。

在一些实施例中，所述方法还包括：按照视频预处理规则，对所述原始视频进行预处理得到满足符合标注条件的原始视频，以方便形成期望的结构化视频，以提升目标视频合成的效果。

例如，所述按照视频预处理规则，对所述原始视频进行预处理得到满足符合标注条件的原始视频，包括：对所述原始视频进行音量调整，获得音量处于人耳的舒适区的所述原始视频；和/或，对所述原始视频进行频率调整，获得频率处于人耳的舒适区的所述原始视频。

人耳的音量是有一定的舒适区的，可以利用视频过滤规则将舒适区以外的视频都过滤掉。该舒适区可为20分布到85分贝之间，当然此处仅是举例。

例如，有些尖锐声音，人耳听到非常不舒服，可以通过频率调整去除掉。例如，通过声音的频率变化或者干脆将舒服区外的频率成分去掉，就可以得到人耳处于舒服区的原始视频。

如图3所示，本实施例提供一种视频处理装置，其特征在于，包括：

获取模块110，用于获取原始视频；

识别模块120，用于识别所述原始视频以确定出所述原始视频所包含的视频对象，其中，所述视频对象包括：人物对象、物体对象和事件对象的至少其中之一；

标注模块130，用于基于所述视频对象，标注所述原始视频生成视频标签。

在一些实施例中，所述获取模块110、识别模块120及标注模块130可为程序模块，所述程序模块被处理器执行后能够实现上述视频处理。所述处理器可为各种类型的处理器，例如，微处理器、中央处理器、数字信号处理器、图像处理器等。

在另一些实施例中，所述获取模块110、识别模块120及标注模块130，可对应于软件和硬件的结合模块，例如，各种类型的可编程阵列；所述可编程阵列可包括：现场可编程阵列或者复杂可编程阵列。

在还有一些实施例，所述获取模块110、识别模块120及标注模块130，可对应于纯硬件模块；所述纯硬件模块可包括专用集成电路等。

在一些实施例中，所述装置还包括：

过滤模块，用于在识别所述原始视频之前，过滤掉所述原始视频所包含的无效镜头，其中，所述无效镜头包括以下至少之一：

单一色彩镜头，其中，所述单一色彩镜头包括：黑屏镜头和/或蓝屏接头；

视频片头片尾镜头；

广告镜头；

二维码镜头。

在一些实施例例中，所述过滤模块至少用于执行以下之一：

利用颜色直方图或者灰度差，从所述原始视频中挑选出所述单一色彩镜头；

将所述原始视频与片头片尾资源库进行匹配，从所述原始视频中去除匹配度满足第一条件的镜头；

将所述原始视频与广告资源库进行匹配，从所述原始视频中去除匹配度满足第二条件的镜头；

将所述原始视频的视频帧转换灰度图，根据所述灰度图确定出原始视频的视频帧中是否包含二维码，并剔除包含二维码的镜头。

在一些实施例中，所述识别模块120，至少用于执行以下之一；

基于人脸检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的人物对象；

检测提出了所述无效镜头之后的所述原始视频，确定所述原始视频是否包含特殊事件的镜头；

检测剔除了所述无效镜头之后的所述原始视频，得到所述原始视频所包含的物体对象。

在一些实施例中，所述识别模块120，具体用于执行通过人脸检测算法，确定所述原始视频的视频帧中是否有包含人物对象；当包含人物对象时，将所述人物对象与人脸库中的人脸进行匹配；若匹配成功，根据所述人脸库中人脸信息生成所述视频标签中的人脸标签；若匹配失败，将所述人物对象添加到临时库并记录所述人物对象在视频中的出现信息。

在一些实施例中，所述执行模块，具体用于执行以下之一：

对所述原始视频的视频帧进行采样，将采样的视频帧输入到设备自主学习模型中，得到所述设备自主学习模型输出的特殊事件识别结果。

在一些实施例中，所述执行模块，具体用于利用神经网络识别所述原始视频包含的视频帧，将识别出的物体对象按照预定顺序进行排序，并获得所述物体对象在视频中的出现信息。

在一些实施例中，所述装置还包括：

结构化模块，用于根据所述视频标签，得到所述原始视频的结构化视频；

合成模块，用于根据视频模板，合成一个或多个所述结构化视频得到目标视频。

在一些实施例中，所述视频模板至少包含：视频合成配置；

所述视频合成配置，包括以下至少之一：

触发规则，用于触发所述目标视频的合成；

背景音频配置，用于在所述目标视频添加背景音频；

特效配置，用于在所述目标视频中添加特效。

本实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够用于实现前述一个或多个技术方案提供的视频处理方法，例如，图、图2/或图4所的视频处理方法。本实施例提供的计算机存储介质可为非瞬间存储介质。

以下结合上述任意实施例提供一个具体示例：

示例1

参考图4所示，本示例提供一个视频处理方法，利用算法能力对视频内容(人脸、字幕，物体等)，特殊事件等的识别和分析，再结合镜头区分规则，从而高亮需要重点标注片段或者合成片段。

可以实现提高效率，减少人工成本。先检测视频质量，再对视频中出现的人脸，字幕，事件等对进行标注预处理。配置对应的视频生产模板规则，当机器标注命中规则，合成所有的命中片段生成新的视频。

在一些情况下，若视频包含字幕，则所述视频对象还可包括：字幕对象，根据字幕为对应的镜头分配视频标签，例如，分配高潮标签或者过度标签。若目标视频是视频集锦时，可以将多个具有高潮标签的镜头剪辑到一个视频中，形成高潮视频锦集。

图4所示为本示例提供的一种视频处理方法基本流程图，可包括：

1)获取原始视频，即获取视频数据，获取的来源包括离线视频或者直播流；

2)对视频进行转码，统一成mp4h.264格式，方便后续进行识别切分

3)将视频以单个镜头做切分，再每个切分片段进行逐一筛查；

4)剔除或标记无效镜头，例如黑屏，蓝屏，视频片头片尾，二维码广告等；蓝屏，黑屏识别方法：利用可以采用彩色直方图或者直接灰度差方法；视频片头片尾，广告：建立片头片尾和广告资源库，将需要标注视频和资源库中的样本进行对比，打上标签；二维码的监测：需要先把输入图像转换成灰度图像并进行裁剪，再根据转化好的数据，生成二维码(hybirdbinarizer)对象，通过多格式阅读器(multiformatreader)解析后标记出来。

5)对有效视频片段进行人脸或者人物识别，并标记出命中名人人脸库，或者视频中人脸出场率高的视频片段；人脸识别：调用人脸识别算法(facenet用于识别人脸是谁，主要是通过比对检测图像中的人脸特征点和人脸库中已注册人脸的特征点位置的几何距离，从而算出两张人脸的相似度)，流程如下：通过人脸检测算法(使用了mtcnn模型，即多任务卷积神经网络，可以用于图像中是否出现了人脸，并对图像中的人脸特征点进行标定)来判断当前画面中是否包含人脸。注册通过上一步骤中的人脸照片进入人脸临时库。通过人脸识别算法facenet，识别当前画面中出现的人，是否能命中现有人脸库的人脸，如果能命中，则给画面打上标签(人名及注册时用的人物id)，并记录该人脸出现的次数。若没有命中现有人脸库，暂存在临时人脸库，并记录该人脸出现的次数。

6)在有效片段中加入对特殊事件的检测，例如火灾爆炸，篮球扣篮等，高亮出来该视频片段；

火灾爆炸识别：对视频帧进行采样，使用训练好的图片分类器对图片进行分类，在图片分类结果上使用averagepool计算片段分类结果，在片段分类结果上使用判定策略，检测出视频中的完整的火灾爆炸的片段，并输出代表视频帧。

该篮球进球识别：利用yolo检测算法检测到篮球视频片段里的所有篮球和篮筐，利用篮球和篮筐的相对位置关系来定位到所有的投篮片段。然后利用tsn视频分类模型对篮网摆动、防守球员底线发球、进攻球员远离底线跑动等等这些特征进行建模，模型对所有投篮片段进行分类，分为进球片段和未进球片段，从而实现进球判断。在识别出来的进球中，根据得分归纳成三类，三分球，两分球和一分的罚球

7)物体识别：基于nyudepthv2的场景数据库，用深度卷积神经网络对物体进行识别。对识别出来的物体以一定逻辑顺序进行排序(物体识别时间顺序，识别次数累积正序或者倒序等)。

8)配置视频模板，模板配置中包括：

触发规则——手动触发、定时触发、事件触发(规定特殊事件出现、规定人物出现等)

背景音乐配置——音乐来源(视频本身音乐/其他音频素材)、背景音乐循环规则、切换规则等

特殊效果配置——包括视频转场效果、视频特效、片头片尾、放水印等

9)标注工具预处理待标注数据，结合视频模板，生成新的视频。通过对视频的画面内容还有特定事件的分析，自动高亮出来待标注的有效视频片段，从而提高了标注效率和用户体验。

再利用视频模板，可以实现批量生产视频的效果，真正实现了无需人工值守，快速，批量生产各类视频的效果。

图5为一种结构化视频的视频信息的显示效果示意图，表明识别出火灾镜头，在火宅现场有一个小女孩出现等火灾事件对象和人物对象。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨文谨;周玎;吴璘;徐常亮
技术所有人：新华智云科技有限公司
我是此专利的发明人

上一篇：一种快递基站货物包装系统及其包装工艺的制作方法
上一篇：一种便捷式斜面滑动模板系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。