一种视频摘要的生成方法和装置以及计算机可读存储介质与流程

文档序号：15200753发布日期：2018-08-19 11:37阅读：160来源：国知局

本发明涉及计算机技术领域，尤其涉及一种视频摘要的生成方法和装置以及计算机可读存储介质。

背景技术：

随着互联网技术的发展，网络视频越来越受到用户的欢迎。为了实现更好的用户体验，视频网站通常提供视频摘要，以引导用户观看视频内容。

现有技术中，不同的网络视频所需要提取的视频摘要往往是不相同的，例如体育赛事直播类软件需要提供精彩赛事的视频摘要，战术竞技类游戏需要提供精彩的游戏战斗视频摘要。现有技术中视频摘要的提供工作往往由人工完成，需要大量人员以人工的方式浏览一遍网络视频，从中找到精彩的片段，然后用视频编辑软件对视频片段进行剪辑，完成视频摘要的生成工作。

现有技术提供的视频摘要的生成方法中，若网络视频很长，且需要剪辑出很多的视频片段时，存在视频摘要的处理速度慢以及可能存在误筛选的问题，降低了视频摘要的生成效率。

技术实现要素：

本发明实施例提供了一种视频摘要的生成方法和装置以及计算机可读存储介质，用于提高视频摘要的处理速度，实现视频摘要的快速生成。

本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种视频摘要的生成方法，包括：

获取待处理的目标视频，所述目标视频包括：连续多个的图像帧；

使用图像分类预测模型对所述连续多个的图像帧进行识别，从所述连续多个的图像帧中识别出至少一个目标图像帧，所述目标图像帧是所述图像分类预测模型预测出的属于预设目标类型的画面，所述图像分类预测模型使用属于预设目标类型的画面样本和不属于预设目标类型的画面样本通过机器学习算法完成模型训练；

从所述目标视频中分别截取所述至少一个目标图像帧对应的视频片段，所述视频片段包括所述目标图像帧以及与所述目标图像帧相邻的图像帧；

根据截取到的所述至少一个目标图像帧对应的视频片段，生成所述目标视频的视频摘要，所述视频摘要包括所述视频片段。

第二方面，本发明实施例还提供一种视频摘要的生成装置，包括：

视频获取模块，用于获取待处理的目标视频，所述目标视频包括：连续多个的图像帧；

图像识别模块，用于使用图像分类预测模型对所述连续多个的图像帧进行识别，从所述连续多个的图像帧中识别出至少一个目标图像帧，所述目标图像帧是所述图像分类预测模型预测出的属于预设目标类型的画面，所述图像分类预测模型使用属于预设目标类型的画面样本和不属于预设目标类型的画面样本通过机器学习算法完成模型训练；

片段截取模块，用于从所述目标视频中分别截取所述至少一个目标图像帧对应的视频片段，所述视频片段包括所述目标图像帧以及与所述目标图像帧相邻的图像帧；

摘要生成模块，用于根据截取到的所述至少一个目标图像帧对应的视频片段，生成所述目标视频的视频摘要，所述视频摘要包括所述视频片段。

在第二方面中，视频摘要的生成装置的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤，详见前述对第一方面以及各种可能的实现方式中的说明。

第三方面，本发明实施例提供一种视频摘要的生成装置，该视频摘要的生成装置包括：处理器、存储器；存储器用于存储指令；处理器用于执行存储器中的指令，使得视频摘要的生成装置执行如前述第一方面中任一项的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

在本发明实施例中，由于本发明实施例中可以提前训练好图像分类预测模型，该图像分类预测模型可以识别出目标视频中所有的图像帧是否是目标图像帧，并且还可以从目标视频中截取出目标图像帧对应的视频片段，通过目标图像帧对应的视频片段可以视频摘要。本发明实施例中视频摘要的生成可以通过图像分类预测模型以及视频片段的截取来自动完成，因此可以使目标视频的视频摘要生成工作免去人工操作的麻烦，可以实现视频摘要的自动化生成，另外通过图像分类预测模型具有很高的识别准确度和精确度，提高视频摘要的生成效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的一种视频摘要的生成方法的流程方框示意图；

图2为本发明另一个实施例提供的一种视频摘要的生成方法的流程方框示意图；

图3为本发明另一个实施例提供的一种视频摘要的生成方法的流程方框示意图；

图4为本发明另一个实施例提供的一种视频摘要的生成方法的流程方框示意图；

图5为本发明实施例提供的视频摘要的生成方法的一种应用场景示意图；

图6为本发明实施例提供的图像分类预测模型的样本采集过程示意图；

图7为本发明实施例提供的图像分类预测模型的模型训练过程示意图；

图8为本发明实施例提供的视频摘要的生成方法的视频片段合并过程示意图；

图9-a为本发明实施例提供的一种视频摘要的生成装置的组成结构示意图；

图9-b为本发明实施例提供的一种图像识别模块的组成结构示意图；

图9-c为本发明实施例提供的一种片段截取模块的组成结构示意图；

图9-d为本发明实施例提供的一种摘要生成模块的组成结构示意图；

图9-e为本发明实施例提供的另一种视频摘要的生成装置的组成结构示意图；

图10为本发明实施例提供的视频摘要的生成方法应用于终端的组成结构示意图；

图11为本发明实施例提供的视频摘要的生成方法应用服务器的组成结构示意图。

具体实施方式

本发明实施例提供了一种视频摘要的生成方法和装置以及计算机可读存储介质，用于提高视频摘要的处理速度，实现视频摘要的快速生成。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明视频摘要的生成方法的一个实施例，具体可以应用于从目标视频中自动生成相应的视频摘要。本发明实施例中视频摘要的生成可以通过图像分类预测模型以及视频片段的截取来自动完成，使目标视频的视频摘要生成工作免去人工操作的麻烦，通过图像分类预测模型具有很高的识别准确度和精确度。本发明实施例中图像分类预测模型采用的机器学习方法可以有多种，例如卷积神经网络(convolutionalneuralnetwork,cnn)算法，或者循环神经网络(recurrentneuralnetworks,简称rnn)算法，只要训练出的图像分类预测模型能够用于图像的分类识别都可以用于本发明实施例提供的视频摘要的生成方法中，详见后续实施例中的举例说明。

请参阅图1所示，本发明一个实施例提供的视频摘要的生成方法，本实施例以该视频摘要的生成方法可以由视频摘要的生成装置来执行，该视频摘要的生成装置具体可以为终端或者服务器，后续步骤先以服务器执行视频摘要的生成方法为例进行说明，视频摘要的生成方法可以包括如下步骤：

101、获取待处理的目标视频，目标视频包括：连续多个的图像帧。

在本发明实施例中，服务器实时获取或者每隔预定时间间隔获取一个视频，将该视频确定为待处理的目标视频。预定时间间隔是默认设置的时间间隔，或者是用户自定义设置的时间间隔。本实施例对此不加以限定。

目标视频是待生成视频摘要的视频。目标视频可以是离线视频，也可以是在线视频。按照视频内容的不同进行分类，目标视频包括游戏视频、赛事视频和电竞视频中的至少一种。

在本发明实施例中，每个目标视频中都包括有连续多个的图像帧，其中图像帧指的是在目标视频中的每个播放时刻对应的视频画面，该视频画面的画面内容可以用于确定该图像帧是否符合是预设目标类型的画面，例如预设目标类型的画面指的是视频精彩时刻。

需要说明的是，本发明实施例仅以目标视频的数量为一个为例进行说明，目标视频的数量还可以是两个或两个以上，对于每个目标视频都可以采用本发明实施例提供的方法执行生成目标视频的视频摘要的步骤，在此不再赘述。

102、使用图像分类预测模型对连续多个的图像帧进行识别，从连续多个的图像帧中识别出至少一个目标图像帧，目标图像帧是图像分类预测模型预测出的属于预设目标类型的画面。

其中，图像分类预测模型使用属于预设目标类型的画面样本和不属于预设目标类型的画面样本通过机器学习算法完成模型训练。

本发明实施例中，可以预先训练出图像分类预测模型，图像分类预测模型的训练过程如下：首先获取训练样本，该训练样本可以包括：属于预设目标类型的画面样本和不属于预设目标类型的画面样本，其中预设目标类型可以是精彩的视频画面，或者结合目标视频的视频内容确定的目标类型，例如在球类赛事的直播视频中，预设目标类型可以是进球。在游戏直播视频中，预设目标类型可以是使用某种先进武器等。使用前述的训练样本通过机器学习算法进行模型训练，以此可以获取到图像分类预测模型。举例说明如下，可以选取精彩时刻视频截图，作为训练集正样本，选取非精彩时刻的视频截图，作为训练集负样本，例如以击杀提示类截图做为精彩时刻正样本，以其他类截图做为负样本，通过机器学习算法进行模型训练，以此可以获取到图像分类预测模型，该图像分类预测模型可以预测出输入的图像帧是否为视频精彩时刻，输出0/1表示识别结果是精彩时刻/非精彩时刻。

在本发明实施例中使用图像分类预测模型对连续多个的图像帧进行识别，从而图像分类预测模型预测出哪些图像帧属于预设目标类型的画面，哪些图像帧不属于预设目标类型的画面，本发明实施例中将属于预设目标类型的画面称为目标图像帧，则通过图像分类预测模型可以从目标视频中识别出至少一个目标图像帧。

103、从目标视频中分别截取至少一个目标图像帧对应的视频片段，视频片段包括目标图像帧以及与目标图像帧相邻的图像帧。

在本发明实施例中，通过图像分类预测模型可以从目标视频中识别出至少一个目标图像帧之后，对于每个目标图像帧可以从目标视频中截取出一个视频片段，其中，截取出的视频片段包括目标图像帧以及与目标图像帧相邻的图像帧，需要说明的是，本发明实施例中每个截取出的视频片段的视频长度都小于目标视频，本发明实施例中截取出的视频片段中包括有目标图像帧以及与目标图像帧相邻的图像帧，即截取出的视频片段中至少存在两个图像帧，一个是目标图像帧，另一个是与目标图像帧相邻的图像帧，对于视频片段的截取长度此处不做限定。

104、根据截取到的至少一个目标图像帧对应的视频片段，生成目标视频的视频摘要，视频摘要包括视频片段。

在本发明实施例中，通过前述步骤103截取至少一个目标图像帧对应的视频片段之后，再根据截取到的视频片段可以生成目标视频的视频摘要，视频摘要包括视频片段。

可选的，截取到的至少一个目标图像帧对应的视频片段，包括但不限于以下两种可能的实现方式。

例如，将目标图像帧与视频片段之间存在对应关系，在确定出目标图像帧之后就可以确定出视频片段。又如目标图像帧作为采样中间时刻，根据获取到的采样中间时刻基于预设计算规则确定目标图像帧对应的视频片段，例如该预设计算规则可以是采样的中间时刻之前的某个时刻作为采样起始时刻，采样中间时刻之后的某个时刻作为采样结束时刻，从而可以从目标视频中截取出视频片段。

可选的，根据截取到的至少一个目标图像帧对应的视频片段，生成目标视频的视频摘要，包括：将所有的视频片段进行合并得到目标视频的视频摘要。

其中，所有的视频片段之间均不存在交集，或者所有的视频片段中存在至少两个视频片段之间存在交集。

综上举例说明可知，由于本发明实施例中可以提前训练好图像分类预测模型，该图像分类预测模型可以识别出目标视频中所有的图像帧是否是目标图像帧，并且还可以从目标视频中截取出目标图像帧对应的视频片段，通过目标图像帧对应的视频片段可以视频摘要。本发明实施例中视频摘要的生成可以通过图像分类预测模型以及视频片段的截取来自动完成，因此可以使目标视频的视频摘要生成工作免去人工操作的麻烦，可以实现视频摘要的自动化生成，另外通过图像分类预测模型具有很高的识别准确度和精确度，提高视频摘要的生成效率。

请参考图2，其示出了本发明另一个实施例提供的视频摘要的生成方法的流程图，在本发明的一些实施例中，步骤102使用图像分类预测模型对连续多个的图像帧进行识别，从连续多个的图像帧中识别出至少一个目标图像帧，包括：

1021、使用图像分类预测模型预测第一图像帧是否属于预设目标类型的画面，第一图像帧为连续多个的图像帧中的任意一个图像帧。

其中，以目标视频中的任意一个图像帧的识别过程为例，例如第一图像帧为连续多个的图像帧中的任意一个图像帧，该第一图像帧具体可以是目标视频中处于最早播放时刻的图像帧。首先将第一图像帧输入到本发明实施例中已经训练完成的图像分类预测模型中，则通过图像分类预测模型可以预测第一图像帧是否属于预设目标类型的画面，若第一图像帧属于预设目标类型的画面，执行步骤1022，若第一图像帧不属于预设目标类型的画面，执行步骤1023。

1022、若第一图像帧属于预设目标类型的画面，将第一图像帧保存到目标图像帧数组。将第一图像帧保存到目标图像帧数组之后，触发执行步骤1023。

在本发明实施例中，新建一个目标图像帧数组，该目标图像帧数组用于存储属于预设目标类型的画面，而对于不属于预设目标类型的画面，目标图像帧数组不做存储，该目标图像帧数组可以保存在存储器或者内存中。

1023、将第一图像帧保存到目标图像帧数组之后，或者当第一图像帧不属于预设目标类型的画面时，使用图像分类预测模型预测第二图像帧是否属于预设目标类型的画面，第二图像帧为连续多个的图像帧中除第一图像帧以外的另一个画面帧。

其中，步骤1021和步骤1022描述了第一图像帧的处理方式，接下来从目标图像帧获取到另一个图像帧，定义为第二图像帧，则通过与不厚1021类似的模型预测方式来确定第二图像帧是否属于预设目标类型的画面。

1024、若第二图像帧属于预设目标类型的画面，将第二图像帧保存到目标图像帧数组。

1025、若第二图像帧不属于预设目标类型的画面，按照前述对第一图像帧和第二图像帧的处理方式，遍历完成对连续多个的图像帧中所有图像帧的处理，得到目标图像帧数组，目标图像帧数组中保存有至少一个目标图像帧。

综上举例说明可知，对于目标视频中的所有图像帧都可以依次使用图像分类预测模型预测出是否属于预设目标类型的画面，对于属于预设目标类型的图像帧都可以保存在目标图像帧数组中，当需要使用目标图像帧进行视频截取时只需要读取目标图像帧数组中即可，当目标图像帧数组位于内存中时可以快速读取到目标图像帧。

请参考图3，其示出了本发明另一个实施例提供的视频摘要的生成方法的流程图，如图3所示，在本发明的一些实施例中，步骤103从目标视频中分别截取至少一个目标图像帧对应的视频片段，包括：

1031、确定至少一个目标图像帧在目标视频中对应的播放时刻。

在本发明实施例中，目标视频中的每个图像帧都对应有一个播放时刻，对于被确定预测为目标图像帧来说，在目标视频中也可以获取到对应的播放时刻。

1032、以播放时刻为中心，从目标视频中截取处于播放时刻之前的n个图像帧，以及从目标视频中截取处于播放时刻之后的m个图像帧，n和m为正整数。

其中，本发明实施例中可以制定视频片段的剪辑规则，例如取目标图像帧对应的播放时刻的前n秒、后m秒的视频片段，对于n和m的取值不做限定。例如目标视频的视频长度很大，则对于每个目标图像帧来说，都可以设置n和m的取值稍大些，则从而可以截取到包括目标图像帧的视频片段。

1033、根据目标图像帧、n个图像帧和m个图像帧生成视频片段。

在本发明实施例中，n个图像帧和m个图像帧都是目标图像帧的相邻图像帧，通过相邻图像帧和目标图像帧的合成可以生成目标图像帧对应的视频片段。举例说明，输入目标视频，取每秒视频截图，用图像分类预测模型找出视频精彩时刻，将视频精彩时刻的前n秒、后m秒的所有图像帧合并，得到视频片段。

在本发明实施例中，n和m的取值根据目标图像帧在目标视频中所处的播放时刻确定。其中目标图像帧在目标视频中所处的播放时刻是指在目标视频中目标图像帧对应的图像序列位置，若该目标图像帧的播放时刻位于目标视频的中间，则n的取值可以等m，若目标图像帧的播放时刻位于目标视频的开头部分，则n的取值可以小于m，若该目标图像帧的播放时刻位于目标视频的结尾部分，则n的取值大于m，此处仅作举例说明，不作为对本发明的限定。

请参考图4，其示出了本发明另一个实施例提供的视频摘要的生成方法的流程图，在本发明的一些实施例中，步骤104根据截取到的至少一个目标图像帧对应的视频片段，生成目标视频的视频摘要，包括：

1041、分别获取至少一个目标图像帧对应的视频片段的起始时刻和结束时刻。

在本发明实施例中，对于每个目标图像帧对应的视频片段，都获取到视频片段的起始时刻和结束时刻。例如一个视频片段的起始时刻至结束时刻为第20～35秒。

1042、根据每个视频片段的起始时刻和结束时刻确定各个视频片段的播放顺序。

在本发明实施例中，根据每个视频片段的起始时刻和结束时刻，可以确定出各个视频片段在目标视频中的播放顺序，例如视频片段1的起始时刻至结束时刻为第20～35秒，视频片段2的起始时刻至结束时刻为第38～53秒，则视频片段2的播放顺序晚于视频片段1的播放顺序。

1043、按照各个视频片段的播放顺序将各个视频片段合并在一起，得到视频摘要。

在本发明实施例中，对于播放顺序早的视频片段合并后在视频摘要中的位置靠前，对于播放顺序晚的视频片段合并后在视频摘要中的位置靠后。

在一个示意性的例子中，以视频时长为一段时长的目标视频为例，对于目标图像帧数组a，目标图像帧数组中视频片段1的播放位置最靠前，视频片段2的播放位置居中，视频片段3的播放位置最后，则将各个视频片段合并在一起得到视频摘要之后，该视频摘要中依次包括：视频片段1、视频片段2、视频片段3。

进一步的，在本发明的一些实施例中，步骤104根据截取到的至少一个目标图像帧对应的视频片段，生成目标视频的视频摘要，还包括：

1044、分别获取至少一个目标图像帧对应的视频片段的起始时刻和结束时刻之后，确定是否存在重叠的视频片段；

1045、若存在重叠的视频片段，去除掉重叠的视频片段，然后再触发执行如下步骤102：根据每个视频片段的起始时刻和结束时刻确定各个视频片段的播放顺序。

其中，重叠的视频片段指的是在两个视频片段中至少存在同一个播放时刻的图像帧。举例说明如下，设定截取精彩时刻前n＝10秒至后m＝5秒的视频片段做为精彩时刻。输入目标视频，遍历每一秒截图，输入图像分类预测模型以判断该截图是否为精彩时刻。其中目标视频中的第30秒，50秒，90秒，93秒，120秒，125秒为精彩时刻，此时目标图像帧数组a＝[30,50,90,93,120,125]，30秒对应的视频片段为20～35，50秒对应的视频片段为40～55，90秒对应的视频片段为80～95，93秒对应的视频片段为83～98，120秒对应的视频片段为110～125，125秒对应的视频片段为115～130，则选取精彩时刻前n秒后m秒的视频片段、去除重叠片段，80～95与83～98合并得到80～98，110～125与115～130合并得到110～130，因此可以得到第20～35秒，40～55秒，80～98秒，110～130秒的视频片段

本发明实施例中，存在重叠的视频片段时，各个视频片段的合并规则描述如下，做一条横坐标表示时刻，单位秒，对每个视频片段，把该视频片段所属的线段图色，涂色可能有重叠的部分，涂色完成后，即可得到合并后的视频片段的开始时刻和结束时刻。

在本发明的一些实施例中，步骤104根据截取到的至少一个目标图像帧对应的视频片段，生成目标视频的视频摘要之后，本发明实施例提供的方法还包括：

根据目标视频的视频摘要为目标视频提供播放增强服务，播放增强服务包括：视频摘要提示服务，和/或视频摘要播放服务。

示意性的，视频摘要提示服务用于提示该目标视频是具有视频摘要的视频，视频摘要提示服务为以预设方式进行提示的服务。该预设方式包括文字形式、图像形式、音频形式和视频形式中的至少一种。

视频摘要播放服务为对目标视频的视频摘要进行播放的服务。

通过以上实施例对本发明实施例的描述可知，由于本发明实施例中可以提前训练好图像分类预测模型，该图像分类预测模型可以识别出目标视频中所有的图像帧是否是目标图像帧，并且还可以从目标视频中截取出目标图像帧对应的视频片段，通过目标图像帧对应的视频片段可以视频摘要。本发明实施例中视频摘要的生成可以通过图像分类预测模型以及视频片段的截取来自动完成，因此可以使目标视频的视频摘要生成工作免去人工操作的麻烦，可以实现视频摘要的自动化生成，另外通过图像分类预测模型具有很高的识别准确度和精确度，提高视频摘要的生成效率。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本发明实施例提供的方案中，通过图像分类预测模型可以识别游戏视频内容(击杀、死亡)来判断精彩时刻，然后根据剪辑规则，取精彩时刻的前n秒后m秒的视频片段，作为视频摘要。比如直播视频，20分钟有3～5个击杀，那么就有3～5个精彩片段，拼接这些片段，得到一个视频摘要。根据游戏类型而定，比如游戏识别击杀镜头，作为精彩时刻，那么n＝15m＝1，n、m的取值可以根据具体场景来设置。

示意性的，服务器为视频网站的后台服务器，视频网站的维护人员通过命令行工具输入代码：“python3clip.pyinput.mp4output.mp4”。对应的，服务器根据输入的代码获取到待处理的目标视频即input.mp4，对该目标视频进行处理得到对应的视频摘要即output.mp4，通过服务器中的视频客户端播放该目标视频的视频摘要。

图5所示，为本发明实施例提供的视频摘要的生成方法的一种应用场景示意图，主要包括如下过程：

s01、输入视频。

s02、新建数组a用于保存精彩时刻。

s03、遍历每秒截图。

s04、遍历是否完成。

s05、cnn图像识别算法。

其中，以图像分类预测模型具体采用cnn图像识别算法为例。图6为本发明实施例提供的图像分类预测模型的样本采集过程示意图。选取精彩时刻视频截图，作为训练集正样本。选取非精彩时刻的视频截图，作为训练集负样本，如图6所示，以击杀提示类截图做为精彩时刻正样本，以其他类截图做为负样本。

如图7所示，为本发明实施例提供的图像分类预测模型的模型训练过程示意图。用训练集样本，训练cnn图像识别算法，输入截图，输出0/1表示识别结果是/非精彩时刻。

s06、将截图对应的时刻保存到数组a。

s07、对数组a的每个精彩时刻，取前n秒后m秒的片段。

s08、去除重叠的视频片段。

s09、合并视频片段作为视频摘要。

制定精彩时刻的剪辑规则，如：取精彩时刻前n秒后m秒的视频片段，作为视频摘要。

输入视频，取每秒视频截图，用图像识别算法找出精彩时刻，将精彩时刻的前n秒后m秒的视频片段剪辑下来，去除重叠的视频片段，合并作为视频摘要输出。例如，重叠的视频片段，指开始结束时刻重叠的片段，比如第一个精彩片段是00:20-00:35，第二个精彩片段00:30-00:45，那么取00:20-00:45作为输出的视频片段，以去除重复的视频片段。

s10、输出视频摘要。

举例说明：以一段战术竞技类游戏视频为例，设定截取精彩时刻前n＝10秒至后m＝5秒的视频片段做为精彩时刻。输入游戏视频，遍历每一秒截图，输入cnn图像识别算法，以判断该截图是否为精彩时刻。其中视频第30秒，50秒，90秒，93秒，120秒，125秒为精彩时刻，此时数组a＝[30,50,90,93,120,125]。选取精彩时刻前n秒后m秒的视频片段、去除重叠片段，得到第20～35秒，40～55秒，80～98秒，110～130秒的视频片段，如图4蓝色区域所示。最后合并输出，得到视频摘要。

在另一个示意性的例子中，如图8所示，获取待处理的目标视频，通过图像分类预测模型可以预测出目标图像帧，获取到目标图像帧各自对应的视频片段，分别为视频片段1、视频片段2、视频片段3和视频片段4。将这4个视频片段进行合并，得到目标视频的视频摘要s，该视频摘要s包括视频片段1、视频片段2、视频片段3和视频片段4。

通过本发明实施例提供的方案，可以使战术竞技类游戏视频摘要工作自动化，节省人力，提升效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图9-a所示，本发明实施例提供的一种视频摘要的生成装置900，可以包括：视频获取模块901、图像识别模块902、片段截取模块903、摘要生成模块904，其中，

视频获取模块901，用于获取待处理的目标视频，所述目标视频包括：连续多个的图像帧；

图像识别模块902，用于使用图像分类预测模型对所述连续多个的图像帧进行识别，从所述连续多个的图像帧中识别出至少一个目标图像帧，所述目标图像帧是所述图像分类预测模型预测出的属于预设目标类型的画面，所述图像分类预测模型使用属于预设目标类型的画面样本和不属于预设目标类型的画面样本通过机器学习算法完成模型训练；

片段截取模块903，用于从所述目标视频中分别截取所述至少一个目标图像帧对应的视频片段，所述视频片段包括所述目标图像帧以及与所述目标图像帧相邻的图像帧；

摘要生成模块904，用于根据截取到的所述至少一个目标图像帧对应的视频片段，生成所述目标视频的视频摘要，所述视频摘要包括所述视频片段。

在本发明的一些实施例中，请参阅图9-b所示，所述图像识别模块902，包括：

预测单元9021，用于使用所述图像分类预测模型预测第一图像帧是否属于预设目标类型的画面，所述第一图像帧为所述连续多个的图像帧中的任意一个图像帧；

数组维护单元9022，用于若所述第一图像帧属于预设目标类型的画面，将所述第一图像帧保存到目标图像帧数组；

所述预测单元9021，还用于所述数组维护单元将所述第一图像帧保存到目标图像帧数组之后，或者当所述第一图像帧不属于预设目标类型的画面时，使用所述图像分类预测模型预测第二图像帧是否属于预设目标类型的画面，所述第二图像帧为所述连续多个的图像帧中除所述第一图像帧以外的另一个画面帧；

所述数组维护单元9022，还用于若所述第二图像帧属于预设目标类型的画面，将所述第二图像帧保存到目标图像帧数组；

所述数组维护单元9022，还用于若所述第二图像帧不属于预设目标类型的画面，按照前述对所述第一图像帧和所述第二图像帧的处理方式，遍历完成对所述连续多个的图像帧中所有图像帧的处理，得到目标图像帧数组，所述目标图像帧数组中保存有所述至少一个目标图像帧。

在本发明的一些实施例中，请参阅图9-c所示，所述片段截取模块903，包括：

播放时刻确定单元9031，用于确定所述至少一个目标图像帧在所述目标视频中对应的播放时刻；

图像帧截取单元9032，用于以所述播放时刻为中心，从所述目标视频中截取处于所述播放时刻之前的n个图像帧，以及从所述目标视频中截取处于所述播放时刻之后的m个图像帧，所述n和所述m为正整数；

片段生成单元9033，用于根据所述目标图像帧、所述n个图像帧和所述m个图像帧生成所述视频片段。

在本发明的一些实施例中，所述n和所述m的取值根据所述目标图像帧在所述目标视频中所处的播放时刻确定。

在本发明的一些实施例中，请参阅图9-d所示，所述摘要生成模块904，包括：

片段解析单元9041，用于分别获取所述至少一个目标图像帧对应的视频片段的起始时刻和结束时刻；

播放顺序确定单元9042，用于根据每个视频片段的起始时刻和结束时刻确定各个视频片段的播放顺序；

片段合并单元9043，用于按照所述各个视频片段的播放顺序将所述各个视频片段合并在一起，得到所述视频摘要。

在本发明的一些实施例中，所述摘要生成模块904，还包括：片段去重单元9044，用于所述片段解析单元9041分别获取所述至少一个目标图像帧对应的视频片段的起始时刻和结束时刻之后，确定是否存在重叠的视频片段；若存在重叠的视频片段，去除掉所述重叠的视频片段，然后再触发执行所述播放顺序确定单元9042。

在本发明的一些实施例中，请参阅图9-e所示，所述视频摘要的生成装置900，还包括：

增强服务模块905，用于所述摘要生成模块904根据截取到的所述至少一个目标图像帧对应的视频片段，生成所述目标视频的视频摘要之后，根据目标视频的视频摘要为所述目标视频提供播放增强服务，所述播放增强服务包括：视频摘要提示服务，和/或视频摘要播放服务。

通过以上对本发明实施例的描述可知，由于本发明实施例中可以提前训练好图像分类预测模型，该图像分类预测模型可以识别出目标视频中所有的图像帧是否是目标图像帧，并且还可以从目标视频中截取出目标图像帧对应的视频片段，通过目标图像帧对应的视频片段可以视频摘要。本发明实施例中视频摘要的生成可以通过图像分类预测模型以及视频片段的截取来自动完成，因此可以使目标视频的视频摘要生成工作免去人工操作的麻烦，可以实现视频摘要的自动化生成，另外通过图像分类预测模型具有很高的识别准确度和精确度，提高视频摘要的生成效率。

本发明实施例还提供了另一种终端，如图10所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、pda(personaldigitalassistant，个人数字助理)、pos(pointofsales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图10示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频(radiofrequency，rf)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wirelessfidelity，wifi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

rf电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，rf电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(lownoiseamplifier，lna)、双工器等。此外，rf电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystemofmobilecommunication，gsm)、通用分组无线服务(generalpacketradioservice，gprs)、码分多址(codedivisionmultipleaccess，cdma)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、长期演进(longtermevolution，lte)、电子邮件、短消息服务(shortmessagingservice，sms)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经rf电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

wifi属于短距离无线传输技术，手机通过wifi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了wifi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的视频摘要的生成方法流程。

图11是本发明实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

上述实施例中由服务器所执行的视频摘要的生成方法的步骤可以基于该图11所示的服务器结构。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘笑江;王文;王丰;李俊;郑萌
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。