一种获取视频摘要图像的方法和装置与流程

文档序号：12123664阅读：175来源：国知局

本发明涉及计算机技术领域，特别涉及一种获取视频摘要图像的方法和装置。

背景技术：

随着视频技术和网络技术的飞速发展，网络视频得到了快速的推广，成为了人们生活中最常用的娱乐方式之一。网络视频包括直播视频和录播视频。一般在提供网络视频的网站或应用程序的页面中，展示有不同的网络视频的摘要图像(在这种场景下摘要图像可称作封面图像)，摘要图像一般可以为网络视频的截图。用户点击页面中展示的摘要图像，则可以触发播放对应的网络视频。

一般对主播演艺类的网络视频截取摘要图像的方法是，在网络视频中随机选取包含人脸图像的一个图像帧，作为摘要图像。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

在直播的过程中，主播经常会出现起身、拿东西等做不同动作的情况，所以，通过上述方式获取的摘要图像，经常会出现美观性较差的问题，例如，主播的面部较偏(如在图像的左上角)。用户看到这样的摘要图像后，想要观看相应的网络视频的可能性就会比较低，从而，导致网络视频的访问量较低。

技术实现要素：

为了解决现有技术的问题，本发明实施例提供了一种获取视频摘要图像的方法和装置。所述技术方案如下：

第一方面，提供了一种获取视频的摘要图像的方法，所述方法包括：

在目标视频中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在图像帧的预设区域范围内的目标图像帧；

根据所述目标图像帧中的人脸区域的尺寸和位置，在所述目标图像帧中截取区域图像，使所述人脸区域在所述区域图像中的位置和占比满足预设条件；

将所述区域图像设置为所述目标视频的摘要图像。

可选的，所述在目标视频中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在预设区域范围内的目标图像帧，包括：

对目标视频中的各图像帧进行图像相似性聚类，得到多个类，每个类包括至少一个图像帧；

在每个类中选取一个候选图像帧；

在所有候选图像帧中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在预设区域范围内的目标图像帧。

这样，可以通过聚类筛选出较少的一部分图像帧，再进行占比、闭眼、位置等的判断，无需对所有图像帧进行这些判断，可以提高处理的效率。

可选的，所述在每个类中选取一个候选图像帧，包括：

选取每个类的聚类中心图像帧，作为候选图像帧。

可选的，所述方法还包括：

如果在所有候选图像帧中不存在人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在预设区域范围内的图像帧，则转至重新执行对目标视频中的图像帧进行图像相似性聚类的处理。

这样，可以防止候选图像帧都不能满足占比、闭眼、位置的条件。

可选的，所述根据所述目标图像帧中的人脸区域的尺寸和位置，在所述目标图像帧中截取区域图像，使所述人脸区域在所述区域图像中的位置和占比满足预设条件，包括：

根据所述目标图像帧中的人脸区域的尺寸、位置和人脸朝向，在所述目标图像帧中截取区域图像，使所述人脸区域在所述区域图像中的位置和占比满足预设条件。

这样，可以基于人脸朝向进行区域图像截取，进一步提高摘要图像的美观性，提高网络视频的访问量。

可选的，所述根据所述目标图像帧中的人脸区域的尺寸、位置和人脸朝向，在所述目标图像帧中截取区域图像，使所述人脸区域在所述区域图像中的位置和占比满足预设条件，包括：

如果所述目标图像帧中人脸区域的人脸朝向与摄像方向所在直线的夹角小于预设阈值，则根据所述目标图像帧中的人脸区域的尺寸、位置，在所述目标图像帧中截取区域图像，使所述人脸区域位于所述区域图像中心，且所述人脸区域在所述区域图像中的占比等于第一预设比例值；

如果所述目标图像帧中人脸区域的人脸朝向与摄像方向所在直线的夹角大于或等于预设阈值，且所述人脸朝向在摄像位置的左侧，则根据所述目标图像帧中的人脸区域的尺寸、位置，在所述目标图像帧中截取区域图像，使所述人脸区域的左边缘位于所述区域图像左侧1/3位置处，且所述人脸区域在所述区域图像中的占比等于第二预设比例值；

如果所述目标图像帧中人脸区域的人脸朝向与摄像方向所在直线的夹角大于或等于预设阈值，且所述人脸朝向在摄像位置的右侧，则根据所述目标图像帧中的人脸区域的尺寸、位置，在所述目标图像帧中截取区域图像，使所述人脸区域的右边缘位于所述区域图像右侧1/3位置处，且所述人脸区域在所述区域图像中的占比等于第二预设比例值。

这样，可以进一步提高摘要图像的美观性，提高网络视频的访问量。

第二方面，提供了一种获取视频的摘要图像的装置，所述装置包括：

选取模块，用于在目标视频中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在图像帧的预设区域范围内的目标图像帧；

截图模块，用于根据所述目标图像帧中的人脸区域的尺寸和位置，在所述目标图像帧中截取区域图像，使所述人脸区域在所述区域图像中的位置和占比满足预设条件；

设置模块，用于将所述区域图像设置为所述目标视频的摘要图像。

可选的，所述选取模块，用于：

对目标视频中的各图像帧进行图像相似性聚类，得到多个类，每个类包括至少一个图像帧；

在每个类中选取一个候选图像帧；

可选的，所述选取模块，用于：

选取每个类的聚类中心图像帧，作为候选图像帧。

可选的，所述选取模块，还用于：

可选的，所述截图模块，用于：

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，在目标视频中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在图像帧的预设区域范围内的目标图像帧，根据目标图像帧中的人脸区域的尺寸和位置，在目标图像帧中截取区域图像，使该人脸区域在该区域图像中的位置和占比满足预设条件，将该区域图像设置为目标视频的摘要图像。这样，可以提高目标视频的摘要图像的美观性，用户看到这样的摘要图像后，想要观看目标网络视频的可能性就会得到提升，从而，可以提高网络视频的访问量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种获取视频的摘要图像的方法的流程示意图；

图2a、2b是本发明实施例提供的确定人脸朝向的方法的示意图；

图3a、3b是本发明实施例提供的截取区域图像的方法的示意图；

图4是本发明实施例提供的一种获取视频的摘要图像的装置的结构示意图；

图5是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种获取视频的摘要图像的方法，该方法可以由服务器或终端实现。本发明实施例所提供获取视频的摘要图像的方法，可以对视频提取摘要图像，该视频可以是直播视频也可以是录播视频。

本发明实施例以执行主体为服务器、提取摘要图像的视频为直播视频为例进行方案的具体说明，其它情况与之类似，本实施例不再累述。

其中，服务器可以是网络视频的应用程序的后台服务器或网络视频的网站的服务器。该服务器可以包括处理器、存储器、收发器等。其中，处理器可以用于检测图像中的人脸区域，检测人脸区域是否发生闭眼，在图像帧中截取区域图像，将区域图像设置为视频的摘要图像等处理，处理器可以是CPU(Central Processing Unit，中央处理单元)等。存储器，可以用于存储处理过程中产生的数据和需要的数据，如目标视频、候选图像帧、目标图像帧、预设条件、摘要图像等，存储器可以是RAM(Random Access Memory，随机存取存储器)、Flash(闪存)等。收发器可以用于与终端进行数据传输，例如，接收主播的终端发送的视频，向观众的终端发送摘要图像、视频等，收发器可以包括天线、匹配电路、调制解调器等。

如图1所示，该方法的处理流程可以包括如下的步骤：

步骤101，在目标视频中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在图像帧的预设区域范围内的目标图像帧。

其中，目标视频可以是录播视频的全部或部分视频，也可以是直播视频中的某一段视频。目标视频可以是包含人像的视频。

在实施中，主播可以在终端上通过网络直播的应用程序进行视频直播。在直播过程中，终端可以通过应用程序将拍摄直播视频实时发送给服务器。服务器接收终端发送的直播视频，每隔一定的时长(如10分钟或15分钟，该时长可以由技术人员预先设置)，可以在过去的这段间隔时长内获取一段视频(即目标视频)，这段视频可以是这段间隔时长内的全部或部分视频。

在服务器，技术人员可以预先设置人脸区域在图像帧中占比的比例范围，该比例范围用于挑选图像帧，防止图像帧中的人脸过小或过大。人脸过小的情况可能是主播起身那东西的时候站在远离摄像头的位置等，人脸过大的情况可能是主播坐下之前俯身而导致面部贴近摄像头等，这些情况都会影响摘要图像的美观性，所以可以通过比例范围的设置将这些情况排除。例如，该预设比例范围可以是(1/30，1/5)。

另外，技术人员还可以预先设置人脸区域在图像帧中应该位于的范围。该预设区域范围应该是图像帧的整个区域中靠近中部的范围，不包含靠近边缘的部分。该预设区域范围的设置可以防止人脸在图像帧中位置过偏，摘要图像的美观性受到影响。例如，该预设区域范围，可以是图像帧的区域中，在上下边缘处去除掉宽度为人脸区域的高度的长条，并在左右边缘处去除掉宽度为人脸区域的宽度的长条，所得到的区域范围。

服务器在获取目标视频后，可以获取目标视频的候选图像帧(可以是目标视频的部分或全部图像帧)，通过人脸检测工具，对每个候选图像帧检测人脸区域。检测得到的人脸区域可以是一个矩形，矩形的上边在眉毛处、下边在下嘴唇处、左边和右边在两侧脸颊处。具体的人脸检测工具可以根据技术人员的需求任意选择，人脸检测工具一般是基于边缘检测确定一个包含人脸的区域。人脸检测工具的输出结果可以为人脸区域的左上角的坐标、宽和高。这里可以设图像帧左上角为坐标系原点，横轴正向向右，纵轴正向向下。进而，可以基于人脸区域的左上角的坐标、宽和高，通过计算，判断人脸区域在图像帧中的占比是否在预设比例范围内，并判断人脸区域的位置是否在图像帧的预设区域范围内。另外，通过图像识别对人脸区域进行闭眼检测，判断是否双眼都处于闭眼状态，这里，单眼闭眼的图像帧是可以被选取的。进行闭眼检测的工具多种多样，技术人员可以根据需求任意设置，闭眼检测的工具输出值可以为双眼闭眼的置信度，如果置信度小于预设阈值(如20％)，则可以判定没有双眼闭眼，否则可以判定存在双眼闭眼。如果上述三个判断的结果均为“是”，那么相应的图像帧则可以被选取为目标图像帧。如果存在多个图像帧对应的三个判断结果均为“是”，则可以在其中选取一张作为目标图像帧。

可选的，可以通过图像聚类的方式先选取候选图像帧，然后再在其中选取目标图像帧，相应的处理可以如下：

步骤一，对目标视频中的各图像帧进行图像相似性聚类，得到多个类，每个类包括至少一个图像帧。

在实施中，可以基于图像帧的相似程度对目标视频的各图像帧进行聚类，将相似度较高的图像帧聚为一类，采用的算法可以多种多样，例如可以采用k-centroid(一种算法名称)聚类算法。经过聚类可以得到多个类，每个类中包括一个或多个图像帧。

步骤二，在每个类中选取一个候选图像帧。

在实施中，在每个类中选取候选图像帧的方式可以多种多样。以下给出其中几种可行的方式：方式一，选取每个类的聚类中心图像帧，作为候选图像帧。其中，任一类的聚类中心图像帧，可以是在该类的所有图像帧中，与其它图像帧的平均相似度值最高的图像帧。方式二，在每个类中随机选取一个候选图像帧。

步骤三，在所有候选图像帧中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在预设区域范围内的目标图像帧。

在实施中，相应的处理可以参考上面的说明内容。

可选的，如果在所有候选图像帧中不存在人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在预设区域范围内的图像帧，则可以转至重新执行对目标视频中的图像帧进行图像相似性聚类的处理。即转至步骤一，重新执行上述步骤一至步骤三的处理。在重新进行聚类时，可以调整聚类的初始输入参数。

或者，可选的，如果在所有候选图像帧中不存在人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在预设区域范围内的图像帧，则可以转至重新执行在每个类中选取一个候选图像帧的处理。即转至步骤二，重新执行上述步骤二至步骤三的处理。

步骤102，根据目标图像帧中的人脸区域的尺寸和位置，在目标图像帧中截取区域图像，使该人脸区域在该区域图像中的位置和占比满足预设条件。

在实施中，人脸区域的位置可以用左上角的坐标表示，尺寸可以用宽和高标识。基于上述人脸检测工具确定的人脸区域的左上角坐标、宽和高，可以在目标图像帧中截取区域图像。上述预设条件可以基于实际需求任意设置，例如，预设条件可以是人脸区域在区域图像中心，且人脸区域在区域图像中的占比为1/15。

可选的，在进行区域图像的截取时，还可以考虑人脸朝向，相应的处理可以如下：根据目标图像帧中的人脸区域的尺寸、位置和人脸朝向，在目标图像帧中截取区域图像，使人脸区域在区域图像中的位置和占比满足预设条件。

在实施中，可以通过人脸朝向检测工具检测人脸朝向。技术人员可以根据实际需求选取任意人脸朝向检测工具，检测工具的输入可以为人脸区域的图像，输出可以为人脸朝向与摄像方向(即主播的摄像头的摄像方向)所在直线的夹角。此外，技术人员可以预先为夹角设置一个预设阈值，以判断人脸朝向为正向还是侧向。服务器在基于人脸朝向检测工具，确定人脸朝向与摄像方向所在直线的夹角后，可以将该夹角与预设阈值进行比较，如果夹角小于预设阈值，则可以判定人脸朝向为正向，如果夹角大于或等于预设阈值，则可以判定人脸朝向为侧向。如图2a、2b所示，为人脸朝向检测的示意图，图2a为正向，图2b为侧向(右侧)。进而服务器可以分别针对正向的情况和侧向的情况进行不同的处理。具体的处理方式的设置可以多种多样，以下给出了一种可行的处理方式：

情况一，人脸朝向正向

如果目标图像帧中人脸区域的人脸朝向与摄像方向所在直线的夹角小于预设阈值，则根据目标图像帧中的人脸区域的尺寸、位置，在目标图像帧中截取区域图像，使人脸区域位于区域图像中心，且人脸区域在区域图像中的占比等于第一预设比例值。

情况二，人脸朝向侧向向左

如果目标图像帧中人脸区域的人脸朝向与摄像方向所在直线的夹角大于或等于预设阈值，且人脸朝向在摄像位置的左侧(这里的左右可以认为是主播的左右)，则根据目标图像帧中的人脸区域的尺寸、位置，在目标图像帧中截取区域图像，使人脸区域的左边缘位于区域图像左侧1/3位置处，且人脸区域在区域图像中的占比等于第二预设比例值。

情况三，人脸朝向侧向向右

如果目标图像帧中人脸区域的人脸朝向与摄像方向所在直线的夹角大于或等于预设阈值，且人脸朝向在摄像位置的右侧(这里的左右可以认为是主播的左右)，则根据目标图像帧中的人脸区域的尺寸、位置，在目标图像帧中截取区域图像，使人脸区域的右边缘位于区域图像右侧1/3位置处，且人脸区域在区域图像中的占比等于第二预设比例值。

在实施中，这里可以设图像帧左上角为坐标系原点，横轴正向向右，纵轴正向向下。所述人脸区域的位置可以为左上角的坐标，所述人脸区域的尺寸可以为宽和高。下面对于每种情况给出了一个具体的例子：

情况一

根据公式x_out＝x_f-a*w_f、y_out＝y_f-b*h_f，计算所述区域图像的左上角的坐标，根据公式w_out＝(2a+1)*w_f，计算所述区域图像的的宽，根据公式计算所述区域图像的的高，其中，x_f、y_f分别为所述人脸区域的左上角的横坐标和纵坐标，x_out、y_out为所述区域图像的左上角的横坐标和纵坐标，w_f、h_f分别为所述人脸区域的宽和高，w_out、h_out分别为所述区域图像的宽和高，为预设的所述区域图像(即摘要图像)的高宽比，a、b为预设的常数系数，可以由技术人员根据的取值预先设置，在为3/4时，a、b可以分别取值2、1。截取的过程可以如图3a所示。

情况二

根据公式x_out＝x_f-a*w_f、y_out＝y_f-b*h_f，计算所述区域图像的左上角的坐标，根据公式w_out＝3*a*w_f，计算所述区域图像的的宽，根据公式计算所述区域图像的的高，其中，a、b为预设的常数系数，可以由技术人员根据的取值预先设置，在为3/4时，a、b可以分别取值1.5、1。

情况三

根据公式x_out＝x_f-2*a*w_f、y_out＝y_f-b*h_f，计算所述区域图像的左上角的坐标，根据公式w_out＝(3a+1.5)*w_f，计算所述区域图像的的宽，根据公式计算所述区域图像的的高，其中，a、b为预设的常数系数，可以由技术人员根据的取值预先设置，在为3/4时，a、b可以分别取值1.5、1。截取的过程可以如图3b所示。

对于以上各种情况，如果基于计算出的区域图像左上角的坐标、宽和高，确定区域图像超出了目标图像帧的范围，可以通过调节区域图像左上角的坐标，将区域图像中超出目标图像帧范围的边(可称作第一边)，平移至目标图像帧中与该第一边最接近的边处。例如，计算出的区域图像的下边超出了目标图像帧的下边界，则可以将区域图像左上角的坐标向上调节，使区域图像的下边与目标图像帧的下边界齐平。图3b中就对区域图像进行了上移。

步骤103，将该区域图像设置为目标视频的摘要图像。

在实施中，将截取的区域图像设置为目标视频的摘要图像后，可以在数据库中将摘要图像与目标视频对应存储。该摘要图像可以被作为封面图像。当接收到终端发送的视频列表请求时，可以将多个直播间的直播视频的摘要图像发送给终端，这样，终端就可以在显示视频列表时，在视频列表中显示每个直播间对应的直播视频的摘要图像。用户浏览各直播间的摘要图像，以选择自己心仪的直播间加入。

基于相同的技术构思，本发明实施例还提供了一种获取视频的摘要图像的装置，该装置可以是上述实施例中的服务器，也可以是服务器中的一个组件，如图4所示，该装置包括：

选取模块410，用于在目标视频中，选取人脸区域在图像帧中的占比在预设比例范围内、人脸区域没有发生闭眼、且人脸区域的位置在图像帧的预设区域范围内的目标图像帧；

截图模块420，用于根据所述目标图像帧中的人脸区域的尺寸和位置，在所述目标图像帧中截取区域图像，使所述人脸区域在所述区域图像中的位置和占比满足预设条件；

设置模块430，用于将所述区域图像设置为所述目标视频的摘要图像。

可选的，所述选取模块410，用于：

对目标视频中的各图像帧进行图像相似性聚类，得到多个类，每个类包括至少一个图像帧；

在每个类中选取一个候选图像帧；

可选的，所述选取模块410，用于：

选取每个类的聚类中心图像帧，作为候选图像帧。

可选的，所述选取模块410，还用于：

可选的，所述截图模块420，用于：

需要说明的是：上述实施例提供的获取歌曲信息的装置在获取歌曲信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的获取歌曲信息的装置与获取歌曲信息的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器1900可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

根据所述目标图像帧中的人脸区域的尺寸和位置，在所述目标图像帧中截取区域图像，使所述人脸区域在所述区域图像中的位置和占比满足预设条件；

将所述区域图像设置为所述目标视频的摘要图像。

对目标视频中的各图像帧进行图像相似性聚类，得到多个类，每个类包括至少一个图像帧；

在每个类中选取一个候选图像帧；

这样，可以通过聚类筛选出较少的一部分图像帧，再进行占比、闭眼、位置等的判断，无需对所有图像帧进行这些判断，可以提高处理的效率。

可选的，所述在每个类中选取一个候选图像帧，包括：

选取每个类的聚类中心图像帧，作为候选图像帧。

可选的，所述方法还包括：

这样，可以防止候选图像帧都不能满足占比、闭眼、位置的条件。

这样，可以基于人脸朝向进行区域图像截取，进一步提高摘要图像的美观性，提高网络视频的访问量。

这样，可以进一步提高摘要图像的美观性，提高网络视频的访问量。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许鹏;
技术所有人：广州华多网络科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。