视频集锦生成方法及装置、电子设备及存储介质与流程

文档序号：17477285发布日期：2019-04-20 06:12阅读：243来源：国知局

本发明涉及信息技术领域，尤其涉及一种视频集锦生成方法及装置、电子设备及存储介质。

背景技术：

视频集锦是将具有类似内容的不同视频或视频段剪辑成一个视频。例如，针对球类比赛，视频集锦可为进球集锦。在现有技术中视频集锦的生成，都需要工作人员观看各个视频然后，然后手动截取再拼接成视频集锦，这种方式一方面效率低下，另一方面由于有纷繁复杂的视频场景或者视频海量导致各种不同类别的人工视频集锦的剪辑对工作人员的技术要求高；且由于人工疲劳等问题会导致不同程度的遗漏；再一方面还可能由于人工错误导致各种不精确的问题。

技术实现要素：

有鉴于此，本发明实施例期望提供一种视频集锦生成方法及装置、电子设备及存储介质。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供一种视频集锦生成方法，包括：

对视频帧的内容进行分类，得到分类结果；

根据所述分类结果，确定出包含预定内容的特定视频段；

基于所述特定视频段生成视频集锦。

基于上述方案，在所述对视频帧的内容进行分类，得到分类结果之前，所述方法还包括：

从目标视频中提取所述视频帧；

所述从目标视频中提取所述视频帧，包括以下至少之一：

从所述目标视频中提取图像帧；

从所述目标视频中提取音频帧。

基于上述方案，所述根据视频帧的内容进行分类，得到分类结果包括以下至少之一：

对所述图像帧进行分类，获得图像分类结果；

对所述音频帧进行分类，获得音频分类结果；

所述根据所述分类结果，确定出包含预定内容的特定视频段，包括以下至少之一：

根据所述图像分类结果，从所述图像帧所在的视频段确定出包含所述预定图像内容的特定视频段；

根据所述音频分类结果，从所述音频帧所在的视频段中确定出包含有预定音频内容的所述特定视频段。

基于上述方案，所述方法还包括：

获取所述图像帧中的文字信息；

确定出满足预设条件的文字信息所在的视频帧；

所述基于所述特定视频段生成视频集锦，包括：

选取所述满足预设条件的文字信息所在的视频帧，作为特定视频段；

根据所述特定视频段，生成所述视频集锦。

基于上述方案，所述文字信息包括：比分信息；

所述确定出满足预设条件的文字信息所在的视频帧，包括：

根据所述比分信息确定出比分值发生变化的两个图像帧。

基于上述方案，所述获取所述图像帧中的文字信息之前，所述方法还包括：定位所述图像帧中比分信息的所在区域。

基于上述方案，所述定位所述图像帧中比分信息的所在区域，包括：

统计目标视频中多个历史图像帧中比分信息所在位置进行统计，获得统计特征；

根据所述统计特征，定位当前图像帧中所述比分信息的所在区域。

基于上述方案，所述根据分类结果，确定出包含预定内容的特定视频段，包括以下至少之一：

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分发生变化的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分遗憾未发生变化的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝彩内容的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝倒彩内容的所述特定视频段。

基于上述方案，所述从目标视频中提取视频帧，包括：

从所述目标视频的一个镜头中提取n个视频帧，其中，一个所述镜头包括m个视频帧，所述n小于所述m，且所述n及所述m均为正整数。

基于上述方案，所述根据视频帧的内容进行分类，包括：

利用多模态分类模型基于所述视频帧的内容进行分类。

第二方面，本发明实施例提供一种视频集锦生成装置，包括：

分类模块，用于根据视频帧的内容进行分类，得到分类结果；

第一确定模块，用于分类结果根据所述分类结果，确定出包含预定内容的特定视频段；

生成模块，用于基于所述特定视频段生成视频集锦。

基于上述方案，所述装置还包括：

提取模块，用于在所述对视频帧的内容进行分类，得到分类结果之前，从目标视频中提取所述视频帧；

所述提取模块，具体用于执行以下至少之一：

从所述目标视频中提取图像帧；

从所述目标视频中提取音频帧。

基于上述方案，所述分类模块，具体用于执行以下至少之一：

对所述图像帧进行分类，获得图像分类结果；

对所述音频帧进行分类，获得音频分类结果；

所述第一确定模块具体用于执行以下至少之一：

根据所述图像分类结果，从所述图像帧所在的视频段确定出包含所述预定图像内容的特定视频段；

根据所述音频分类结果，从所述音频帧所在的视频段中确定出包含有预定音频内容的所述特定视频段。

基于上述方案，所述装置还包括：

获取模块，用于获取所述图像帧中的文字信息；

第二确定模块，用于确定出满足预设条件的文字信息所在的视频帧；

所述生成模块，用于选取所述满足预设条件的文字信息所在的视频帧，作为特定视频段；根据所述特定视频段，生成所述视频集锦。

基于上述方案，所述文字信息包括：比分信息；

所述第二确定模块，具体用于根据所述比分信息确定出比分值发生变化的两个图像帧。

基于上述方案，所述装置还包括：

定位模块，用于在获取所述文字信息之前，定位所述图像帧中比分信息的所在区域。

基于上述方案，所述定位模块，具体用于统计目标视频中多个历史图像帧中比分信息所在位置进行统计，获得统计特征；根据所述统计特征，定位当前图像帧中所述比分信息的所在区域

基于上述方案，所述第一确定模块，具体用于执行以下至少之一：

根据所述分类结果，确定所述视频帧所在的视频段是否为包含比分发生变化的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分遗憾未发生变化的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝彩内容的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝倒彩内容的所述特定视频段。

基于上述方案，所述提取模块，具体用于从所述目标视频的一个镜头中提取n个视频帧，其中，一个所述镜头包括m个视频帧，所述n小于所述m，且所述n及所述m均为正整数。

基于上述方案，所述分类模块，具体用于利用多模态分类模型基于所述视频帧的内容进行分类。

第三方面，本发明实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现第一方面任意技术方案提供的视频集锦生成方法。

第四方面，本发明实施例提供一种计算机程序产品，所述程序产品包括计算机可执行指令；所述计算机可执行指令被执行后，能够实现第一方面任意技术方案提供的视频集锦生成方法。

第五方面，本发明实施例提供一种电子设备，包括：

存储器，用于存储信息；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现第一方面任意技术方案提供的视频集锦生成方法。

本发明实施例提供的视频集锦生成方法及装置、电子设备及存储介质，电子设备可以自动从目标视频中提取出视频帧，然后对视频帧进行分类；基于分类结果选择出包含特定内容的特定视频段，然后基于选择出的特定视频段生成包含特定内容的视频集锦，如此，替代人工实现了视频集锦的自动生成，提升了视频集锦的生成效率，降低了视频集锦引入的人工错误等问题；此外还降低了对工作人员的技术要求，即简化了视频集锦的生成。

附图说明

图1a为本发明实施例提供的第一种视频集锦生成方法的流程示意图；

图1b为本发明实施例提供的第二种视频集锦生成方法的流程示意图

图2为本发明实施例提供的第三种视频集锦生成方法的流程示意图；

图3为本发明实施提供的一种视频集锦生成装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图；

图5为本发明实施例提供的第四种视频集锦生成方法的流程示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1a所示，本实施例提供一种视频集锦生成方法，包括：

步骤s110：根据视频帧的内容进行分类，得到分类结果；

步骤s120：分类结果根据所述分类结果，确定出包含预定内容的特定视频段；

步骤s130：基于所述特定视频段生成视频集锦。

本实施提供的方法可以应用于各种类型的电子设备中，例如，可以应用于视频服务器中、视频剪辑服务器、视频集锦的生成服务器中等，当然这里仅是可执行该方法的电子设备的举例，具体实现不局限于该举例。

如图1b所示，所述方法还包括：所述方法还包括：

步骤s100：从目标视频中提取所述视频帧。从目标视频中提取

在本实施例中从目标视频中提取出所述视频帧，可包括：逐帧进行提取，还可以是通过降采样的方式进行视频帧的提取。例如，1秒中可能包括25个图像帧，为了减少不必要的数据量，充分利用视频中图像内容的渐变性，可以在1秒的时长内提取少于25帧的视频帧。

在步骤s110中可以利用各种自动处理模型基于视频的内容进行分类，例如，利用样本数据训练得到的大数据模型，典型的大数据模型可包括：神经网络、二叉树、多叉树、各种回归模型或向量机等深度学习模型，基于视频的内容进行分类，从而得到分类结果。例如，基于视频的图像帧的图像内容进行分类和/或对于视频的音频帧的音频内容进行分类。

例如，所述目标视频为各种赛事的视频，则所述基于图像内容进行分类，可包括：确定该图像帧的图像内容是否是对得分场景的图像采集，进行分类。在完成分类之后，可以对所述图像帧打上分类标签。然后基于分类标签，可以确定该视频帧是否为包含预定内容的特定视频段。例如通过视频帧的分类标签的统计，得到该视频帧所在视频段的是否为包含预定内容的特定视频段。

若确定出了特定视频段，则可以从所述目标视频中截取出所述特定视频段生成视频集锦。

例如，所述目标视频为搞笑视频，搞笑视频中包括含有笑点的视频段和不含有笑点的视频段，通过视频帧的视频内容处理，可以得到包含笑点的特定视频段，然后将多个含有笑点的特定视频段剪辑到一个视频中，生成一个笑点密集型的视频文件，该视频文件即可为前述的一个视频集锦之一。

在本发明实施例中利用电子设备对视频帧的分类，得到视频段的属性类型，该属性类型可以表征该视频段是否为特定视频段，从而实现特定视频段集锦的自动生成，无需人工进行海量视频的观看和剪辑，大大的提升了效率；与此同时减少了人工疲倦或懈怠时产生的不精确问题，同时也减少了因为不同人对特定视频段的理解不一致导致的标准不一的问题；此外，由于使用电子设备自动生成显然即便有海量数据和海量场景，也不会产生人工遗漏，减少了遗漏现象。

可选地，如图2所示，所述步骤s100可包括以下至少之一：

步骤s101：从所述目标视频中提取图像帧；

步骤s102：从所述目标视频中提取音频帧。

在本发明实施中可以将视频帧分散为图像帧和音频帧。一个图像帧可以对应于一个图像；一个音频帧可以对应于播放时长等于指定时长的音频段。

在一些实施例中，所述步骤s110可以利用一个同时支持图像分类和音频分类的复合模型进行图像分类和音频分类。

在另一些实施例中，所述步骤s110也可以利用图像分类模型对图像帧进行分类，并利用音频分类模型对音频帧进行音频分类。

总之，在步骤s110中得到的分类结果，可以直接是图像分类结果和/或音频分类结果，然后结合图像分类结果及音频分类结果共同确定是否为特定视频段。

在一些实施例中，步骤s120可包括步骤s121；所述步骤s121可包括：在图像分类结果和音频分类结果中的至少一个表示包含预定内容时，确定该图像帧或音频帧所在的视频段即为所述特定视频段。

在另一些实施中，步骤s120可包括：在图像分类结果和音频分类结果均表示包含预定内容时，确定该图像帧或音频帧所在的视频段即为所述特定视频段。

例如，在一些实施中，所述视频集锦是基于生成策略生成的。例如，所述步骤s120可包括：

根据第一生成策略，在图像分类结果和音频分类结果中的其中一个表示包含预定内容时，确定该图像帧或音频帧所在的视频段即为第一类特定视频段；

或，

根据第二生成策略，在图像分类结果和音频分类结果均表示包含预定内容时，确定该图像帧或音频帧所在的视频段即为第二类特定视频段。

如此，在步骤s130可包括：组合多个所述第一类特定视频段，生成第一类视频集锦；和/或，组合多个所述第二类特定视频段，生成所述第二类视频集锦。

在本实施例中的步骤s130中生成的一个所述视频集锦包括多个所述特定视频段，多个所述特定视频段组合后可以生成一个视频集锦文件，播放该视频集锦文件时，会依次播放该视频集锦文件中的多个特定视频段。被集锦到同一个视频集锦文件中的特定视频段可能都包含相同的特定内容，如此，方便用于一次性观看来自不同原始视频的均具有特定内容的视频段集合。例如，针对于世界杯进球集锦，进球集锦中的进球视频段可能来自不同届世界杯的视频，或同一届世界杯的不同场次赛事的进球视频。

第二类视频集锦中的视频同时在图像信息和音频信息中均包含预定内容，如此，一方面精确度更高，另一方面用户观看感受更加全面不会产生预定内容该对应的图像信息缺失或音频信息缺失的现象，提升了用户体验。

在一些实施例中，所述方法还包括：

根据视频集锦的发布位信息、视频集锦的分布时间信息、接收的选择指示、视频集锦的生成参数及目标视频的视频参数的至少其中之一，选择所述生成策略，从而确定出当前是采用第一生成策略还是第二生成策略。

例如，所述发布位信息包括：用于指示在网页中的发布位置的第一指示信息、用于指示在应用界面中的发布位置的第二指示信息。若发布位信息指示当前组合多个特定视频段生成的视频集锦发布在第一类发布位，优先采用所述第一生成策略。所述第一类发布位可为中心发布位、统计点击率超过预定阈值的发布位及位于网站主页或应用首页的发布位。所述中心发布位可为位于一个页面中间区域的发布位。若发布位信息指示组合多个特定视频段生成的视频集锦发布在第二类发布位，可以随机选择或基于其他方式生成策略。所述第二类发布位不同于所述第一类发布位，例如，可为所述第一类发布位以外的发布位。

发布时间不同可能会视频集锦的点击率有着不同的影像，例如，有的深夜发布，有的节假日发布，有的一天用户观看视频热度很高的时间段发布。总之，发布时间按照点击热度分为多类，点击热度越高的发布时间段，则有更高的优先级选择所述第二生成策略。

所述选择指示可为：电子设备预设设置的内置选择指示，例如，不同的电子设备可能会用来生成不同类的视频集锦，故内置选择指示就不同。在另一些实施例中，所述选择指示可为从人机交互接口接收的选择指示，或者从其他设备接收的选择指示。

所述视频集锦的生成参数可包括：视频集锦的时长、个数等信息。所述目标视频的视频参数可包括：视频个数和/或视频时长等信息。若目标视频较少但是视频集锦的时长较长，可以优先选择第一生成策略，否则可以选择所述第二生成策略。

当然以上仅是举例，具体实现时生成策略的选择不局限于上述举例。

可选地，所述步骤s110可包括以下至少之一：

步骤s111：对所述图像帧进行分类，获得图像分类结果；

步骤s112：对所述音频帧进行分类，获得音频分类结果；

所述步骤s120可包括以下至少之一：根据所述图像分类结果，从所述图像帧所在的视频段确定出包含所述预定图像内容搞得特定视频段；根据所述音频分类结果，从所述音频帧所在的视频段中确定出包含有预定音频内容的所述特定视频段。

可选地，如图2所示，所述方法还包括：

步骤s103：获取所述图像帧中的文字信息；

步骤s104：确定出满足预设条件的文字信息所在的视频帧；

所述步骤s130可包括：根据所述特定视频段及满足所述预定条件的文字信息，生成所述视频集锦。

在图像帧中可能包括：字幕以及弹幕等文字信息。

所述文字信息可包括：字幕以及弹幕的至少其中之一。这些文字信息同样可以反映该视频帧所在视频段是否为包含预定内容的特定视频段。

如此，在步骤s122中可包括确定该文字信息是否满足预定条件，可包括：文字信息中是否包含预定内容的文本。例如，针对于比赛视频，弹幕或字幕中直接包含有“进球”、“得分”等内容的文本。该文字信息可以包括各种语言的文字信息，例如，中文文字信息、英文文字信息。所述文字信息可包括一个或多个字符，这些字符可包括：汉字、字母、数字、标点符号和/或其他类型的文字等。

可选地，所述文字信息包括：比分信息；

所述步骤s122包括：

根据所述比分信息确定出比分值发生变化的两个图像帧。

例如，针对体育比赛(典型的足球、篮球、棒球等球类比赛)、赛跑、铅球等各种田径比赛，都可能会在图像帧中附加有比分信息，该比分信息可直接包括：比分值。若检测到不同图像帧之间的比分值发生变换，则这两个图像帧所在的视频段必然是存在比分值变化的预定内容，例如，至少一个球类比赛中的一方进球了，田径比赛有运动员取胜了。

可选地，所述方法还包括：在获取所述文字信息之前，定位所述图像帧中比分信息的所在区域。

例如，定位所述比分信息的所在区域包括但不限于：统计目标视频中多个历史图像帧中比分信息所在位置进行统计，获得统计特征；根据所述统计特征，定位当前图像帧中所述比分信息的所在区域。

由于不同的视频，比分值的显示位置可能不同，故在提取比分值之前，可以对目标图像的多个图像进行图像视频，基于统计特征确定出比分信息的所在区域，后续可以直接从该区域提取所述比分信息，如此，加快了信息处理速率。

具体如，对于目标视频的首个图像帧，可以通过光学符号识别(opticalcharacterrecognition，ocr)识别出文字信息，然后结合比分信息的表达格式，提取出所述比分信息，在确定比分信息之后，就能够定位出首个图像帧中比分信息所在的位置。在非首个图像帧中，优先根据首个图像帧中比分信息所在位置，确定比分信息获取的备选区域，利用ocr等文本识别技术确定是否包含所述比分信息。若发现有预设个数的图像帧的比分信息位于同一个图像区域内，则认为该目标视频的比分信息应该是显示在图像区域内，该图像区域即为当前图像帧需要定位比分信息的所在区域。

可选地，所述步骤s120可包括以下至少之一：

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分发生变化的所述特定视频段；例如，进球了比分自然会发生变化；

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分即将发生变化的所述特定视频段；例如，解说员的讲解和观众的欢呼及图像内容表示有导致比分变化的内容，则可能是会产生比分即将发生变化的特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分遗憾未发生变化的所述特定视频段；例如，针对足球比赛，有些场景即将进球但是达到了球门杆上或被守门员给守住了，同样是非常精彩扣人心弦的片段，同样可以作为所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝彩内容的所述特定视频段；观众喝彩可能比赛很精彩，可作为精彩视频段之一；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝倒彩内容的所述特定视频段；观众喝倒彩可能存在乌龙球或者其他导致观众喝倒彩的视频段，该视频段可称为糟糕视频段之一。

所述精彩视频段和糟糕视频段都可以作为特定视频段之一，但是特定视频段的种类不局限于此，例如，还有前述的搞笑视频段等。

所述观众的喝彩或喝倒彩的内容，可以基于视频帧来确定，也可以基于图像帧的观众的手势和/或面部表情的成像来确定。

可选地，所述步骤s100可包括：

从所述目标视频的一个镜头中提取n个视频帧，其中，一个所述镜头包括m个视频帧，所述n小于所述m，且所述n及所述m均为正整数。

一个镜头通常包括很多视频帧，例如，一个镜头的标准播放速率的播放时长可为2到3秒，其中包括的视频帧可为100至120帧之间。在本实施例中，为了减少处理数据量并提升处理效率，可以从一个镜头中抽出少量视频帧进行处理，例如，抽取8到15帧，例如，抽取9帧、10帧或12帧进行分类。

例如，从一个镜头所包含的m个视频帧中进行平均抽取n个视频帧，从而避免几种分布在局部位置导致的该镜头为特定镜头。在一些实施例中一个所述特定视频段可包括：一个或多个所述镜头。

可选地，所述步骤s110可包括：

利用多模态分类模型基于所述视频帧的内容进行分类。

此处的多模态分类模型是相对于单模态分类模型而言的，通常单模态分类模型仅对单一模态(预定该内容发生的单一场景、预定内容的单一维度)进行分类，但是多模态会从多个模态(例如，多场景、多维度)进行分类，从而可以提升分类的精准度。利用多模态分类模型会从输入的视频帧提取更多的特征点进行分类，从而确保了分类的精确性。

在一些实施中，所述方法还包括：

从备选视频中选择所述目标视频。

例如，根据备选视频的当前播放率和/或当前推广参数，选择所述目标视频。

例如，某一个综艺节目是一个点击率很高的综艺，在正式上线某一集之前可能需要生成该集的视频集锦。而该综艺节目的当前视频之所以被选择作为目标视频，是根据多个综艺节目之前的播放率来选择的。所述当前推广参数可以用于表征对应视频的推广力度，例如，在各种社交媒体和/或播放平台的广告次数和/或频次等，这些信息都可能会是用户急切通过视频集锦了解该视频的原因之一，故还可以根据所述当前推广信息来选择目标视频。

在一些实施例中，所述方法还包括：

利用预定视频处理技术处理包含所述预定内容的所述特定视频段，得到具有特定视频效果的特定视频段。

例如，所述利用预定视频处理技术处理包含所述预定内容的所述特定视频段，得到具有特定视频效果的特定视频段，包括：利用视频回放技术处理包含预定内容的特定镜头，使得在特定镜头位置处插入一个或多个所述特定镜头的复制镜头，如此在播放包含有该特定视频段的视频集锦时，就会产生有特定镜头回放效果的特定视频效果。例如，针对球赛而言，可利用视频回放技术在进球镜头处再插入一个或多个进球镜头的复制镜头，从而实现进球镜头的回放。

又例如，针对特定镜头可以通过慢镜头处理，特定镜头所对应的慢镜头；例如，慢镜头包含的视频帧数多于标准镜头的视频帧数，如此，播放包含有该特定视频的视频集锦时在播放该特定视频段时，就会有慢镜头回放的技术效果。

例如，所述特定视频段包含一个或多个镜头，所述特定镜头可为所述特定视频段中的某一个镜头，如此，通过以镜头为单元的回放或慢镜头回放，可以使得用户重点关注的地方通过视频回放处理进行进一步强调。如此，本实施例中提供的视频集锦生成方法，不仅可以自动生成视频集锦，还可以自动利用视频处理技术处理包含特定内容的视频段中的全部或部分内容，从而得到强调某一个或多个精彩视频帧的技术效果，满足用户的观看视频集锦的需求，进一步凸显视频集锦的集锦效果。

在还有一些实施例中，所述利用预定视频处理技术处理包含所述预定内容的所述特定视频段，得到具有特定视频效果的特定视频段，包括：

利用视频剪辑技术，以高于预定的频率连续重复一个或多个特定视频帧，从而生成一个包含有鬼畜视频效果的特定视频段。所述特定视频帧可包括：乌龙球的进球视频帧、搞笑表情所在的视频帧等。此处的特定视频帧可为直接包含前述特定内容的视频帧。

在还有一些实施中，所述利用预定视频处理技术处理包含所述预定内容的所述特定视频段，得到具有特定视频效果的特定视频段，包括：

利用视频特效，在一个或多个特定视频帧添加特效信息，生成包含视频特效的特定视频端。例如，在球赛中球员滑倒的图像帧中加入带有拟人表情的香蕉皮等，如此生成的视频集锦不仅包括球赛中的精彩内容，同时通过特效信息的加入，可以增加视频的搞笑效果、或改变视频所产生的情绪效果等，从而提升了视频集锦的产生效果。

以上仅是几个举例，具体实现有很多种方法，不局限于上述举例。

如图3所示，本实施例提供一种视频集锦生成装置，包括：

分类模块110，用于根据视频帧的内容进行分类，得到分类结果；

第一确定模块120，用于分类结果根据所述分类结果，确定出包含预定内容的特定视频段；

生成模块130，用于基于所述特定视频段生成视频集锦。

本实施例中所述视频集锦生成装置可应用于前述的服务器等电子设备中。

在一些实施例中，所述视频集锦生成装置，还包括：

提取模块100，用于从目标视频中提取视频帧。

所述提取模块100、分类模块110、第一确定模块120及生成模块130均可为程序模块，这些程序模块被处理器执行后，能够自动生成所述视频集锦。

可选地，所述提取模块100，具体用于执行以下至少之一：从所述目标视频中提取图像帧；从所述目标视频中提取音频帧。

在一些实施例中，所述分类模块110，具体用于执行以下至少之一：

对所述图像帧进行分类，获得图像分类结果；

对所述音频帧进行分类，获得音频分类结果；

所述第一确定模块120，具体用于执行以下至少之一：

根据所述图像分类结果，从所述图像帧所在的视频段确定出包含所述预定图像内容的特定视频段；

根据所述音频分类结果，从所述音频帧所在的视频段中确定出包含有预定音频内容的所述特定视频段。

进一步地，所述装置还包括：

获取模块，用于获取所述图像帧中的文字信息；

第二确定模块，用于确定出满足预设条件的所述文字信息；

所述生成模块130，用于根据所述特定视频段及满足所述预定条件的文字信息，生成所述视频集锦。

进一步地，所述文字信息包括：比分信息；

所述第二确定模块，具体用于根据所述比分信息确定出比分值发生变化的两个图像帧。

此外，在还有些实施例中，所述装置还包括：定位模块，用于在获取所述文字信息之前，定位所述图像帧中比分信息的所在区域。

在一些实施例中，所述定位模块，具体用于统计目标视频中多个历史图像帧中比分信息所在位置进行统计，获得统计特征；根据所述统计特征，定位当前图像帧中所述比分信息的所在区域。

在一些实施例中，所述第一确定模块，具体用于执行以下至少之一：

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分发生变化的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分即将发生变化的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含比分遗憾未发生变化的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝彩内容的所述特定视频段；

根据所述分类结果，从所述视频帧所在的视频段确定出包含观众喝倒彩内容的所述特定视频段。

可选地，所述提取模块100，具体用于从所述目标视频的一个镜头中提取n个视频帧，其中，一个所述镜头包括m个视频帧，所述n小于所述m，且所述n及所述m均为正整数。

可选地，所述分类模块110，具体用于利用多模态分类模型基于所述视频帧的内容进行分类。

以下结合上述任意实施例提供几个具体示例：

示例1：

本示例提供一种视频集锦的自动生成方法，以足球视频为例进行说明但是不限于足球视频。例如，在本示例中，利用深度学习框架解决足球视频集锦自动生成的问题。通过深度神经网络强大的学习能力，分别对视频图像和音频信息进行建模。利用文字识别功能，经过统计特征，检测出比赛画面中的比分位置与实时比分，输出比分信息。本示例提出的基于深度学习的多模态方法，可以更准确地定位足球比赛视频中的精彩片段。

本示例的视频集锦可包括以下几个步骤：

第一步：用镜头切割方法对视频进行切割。

第二步：对每个切割了的视频进行抽帧(每个镜头抽取9帧)，并将每个视频的音频提取出来。

第三步，使用深度学习网络对分割后的每个镜头的所有帧进行分类并取其投票最多的结果，判断是否是精彩的镜头。

第四步，使用深度学习网络对每个镜头的音频进行分类，判断是否是精彩的镜头。

第五步，对所有的帧进行文字识别，通过正则匹配和文字框坐标统计，得到比分信息所在的文字框坐标。

第六步，通过第五步得到的比分文字框坐标和文字识别结果，得到每帧的比分信息，并通过有比分变化的两帧定位进球的视频位置。

利用此方法可以同时用到多种模态的信息(视频、音频以及比分信息)，结合多种模态提供的信息中抽取的特征，以更高的recall和precision找到精彩的镜头。

在一些场景中，使用通用的文字检测器就可以准确定位出比分的位置，而不需要训练比分板检测器。

使用深度学习作为各个模态信息的提取方法，免去了高成本的手工特征设计，并能够自动学习到更好的特征。

例如，对一个足球输入视频，使用镜头切割模型进行切分，得到多个镜头片段。对每一个镜头片段shot_i进行音频提取，得到音频audio_i。使用卷积神经网络对audio_i进行分类，得到分类结果cls_audio_i。对每个shot_i进行抽帧，得到帧集合frames_i。对frames_i中的每帧使用卷积神经网络进行分类，并投票得到结果cls_frames_i。将音频分类结果cls_audio_i与帧投票结果cls_frames_i进行融合，得到融合后的结果cls_i。文字信息：对一个所有帧进行文字检测，用正则表达式过滤出比分文字，并对这些过滤后得到的文字框的四个坐标进行统计，取其众数，作为最终的文字坐标。在得到所有的镜头的分类结果cls_all后，对所有的抽取的帧进行比分检测，利用比分有变化的帧的位置，来对镜头的分类结果cls_all中判断为进球的镜头进行过滤和修改，得到最终的分类结果cls_all_final。结合最终分类结果cls_all_final与切分的镜头视频，拼接起来得到足球比赛集锦视频。

利用文字识别功能，经过统计特征，检测出比赛画面中的比分位置与实时比分，输出比分信息。本示例提出的基于深度学习的多模态方法，可以更准确地定位足球比赛视频中的精彩片段。

示例2：

如图5所示，本实施例提供一种视频集锦生成方法，包括：

利用视频镜头切割模型对视频进行镜头切割得到一个个分离的镜头；在一些场景中还会对镜头进行编号，以标记这些分离的镜头在视频中的顺序；

抽取镜头的图像帧，得到抽取的n个图像帧，可选地，一个镜头所包含的图像帧多于n；

利用神经网络对n个图像帧进行分类并对分类结果进行平均，基于平均得到最终的图像分类结果；

从图像内容的角度，基于图像分类结果得到镜头分类的一次分类结果；

提取各镜头的音频，一个镜头所包含的所有音频可包括一个或多个音频帧；

利用卷积神经网络对音频进行分类，从音频内容的角度，基于音频分类结果得到镜头分类的一次分类结果；

综合两个分类结果，例如，包括：综合从音频内容角度和图像内容角度得到的两个镜头分类的一次分类结果，得到镜头分类的二次分类结果；

对图像帧进行文字检测获得文字检测的结果，可包括：定位出比分信息所在的显示区域；从该区域中提取比分信息；例如，通过正则表达式定位该显示区域，或者基于统计方式确定出比分信息的显示区域。在图5中包含有利用统计规则进行文本过滤，得到比分信息。

利用比分信息对分类结果进行修正，得到镜头分类结果的最终结果。此处，比分信息修正的是镜头分类的二次分类结果。

基于最终的镜头分类结果生成视频集锦，例如，生成足球视频集锦。

如图4所示，本实施例提供了一种电子设备，包括：

存储器；

处理器，与所述存储器连接，用于通过执行位于所述存储器上的计算机可执行指令，能够实现前述一个或多个应用于终端设备、数据库、目标私有网络中一个或多个技术方案提供的视频集锦生成方法，例如，图1、图2及图5所示视频集锦生成方法中的一个或多个。

该存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储，例如，存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令，例如，目标程序指令和/或源程序指令等。

所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。

在一些实施例中，所述电子设备还可包括：通信接口，该通信接口可包括：网络接口、例如，局域网接口、收发天线等。所述通信接口同样与所述处理器连接，能够用于信息收发。

在一些实施例中，所述电子设备还包括人机交互接口，例如，所述人机交互接口可包括各种输入输出设备，例如，键盘、触摸屏等。

该电子设备可为前述的视频集锦生成装置的应用设备，例如，视频集锦的自动生成服务器。

本实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被执行后，能够应用于终端设备、数据库、目标私有网络中一个或多个技术方案提供的视频集锦生成方法，例如，图1、图2及图5所示视频集锦生成方法中的一个或多个。

所述计算机存储介质可为包括具有记录功能的各种记录介质，例如，cd、软盘、硬盘、磁带、光盘、u盘或移动硬盘等各种存储介质。可选的所述计算机存储介质可为非瞬间存储介质，该计算机存储介质可被处理器读取，从而使得存储在计算机存储机制上的计算机可执行指令被处理器获取并执行后，能够实现前述任意一个技术方案提供的信息处理方法，例如，执行应用于终端设备中的信息处理方法或应用服务器中的信息处理方法。

本实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令；所述计算机可执行指令被执行后，能够实现前述一个或多个技术方案提供的信息处理方法，例如。

所述包括有形地包含在计算机存储介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢宇;范宏伟;罗思伟
技术所有人：深圳市商汤科技有限公司
我是此专利的发明人

上一篇：一种从硫酸盐中分离氯、氟等卤素离子的方法与流程
上一篇：主筋夹紧装置及钢筋笼成型机器人的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。