图像选取方法、装置、计算机可读存储介质及电子设备与流程

文档序号：20513934发布日期：2020-04-24 18:51阅读：127来源：国知局

本公开涉及计算机技术领域，具体而言，涉及一种图像选取方法、图像选取装置、计算机可读存储介质及电子设备。

背景技术：

随着视频节目类型的多样化，人们通过挑选感兴趣的视频节目进行观看可以满足娱乐、休闲、学习等目的。一般来说，人们是通过视频节目的标题结合视频节目的封面图来进行初步判断该视频节目自己是否感兴趣。因此，对于一档视频节目而言，除了标题很重要之外，封面图的制作也尤为重要。封面图一般是由设计人员从视频节目的内容中选取素材，进而根据素材进行定制的。但是，随着视频节目的数量日益增加，由人工进行素材选择的方式会存在效率较低的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

本公开的目的在于提供一种图像选取方法、图像选取装置、计算机可读存储介质及电子设备，能够克服人工进行素材选择效率较低的问题，通过对视频帧的提取分析可以确定出用于合成视频封面的素材，进而提升素材选择的效率。

根据本公开的一方面，提供一种图像选取方法，包括：

对视频文件进行视频帧抽取，得到图像序列；

根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集；

根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像，目标图像用于合成代表视频文件的特定图像。

根据本公开的另一方面，提供一种图像选取装置，包括视频帧抽取单元、图像聚类单元、目标图像选取单元以及特定图像合成单元，其中：

视频帧抽取单元，用于对视频文件进行视频帧抽取，得到图像序列；

图像聚类单元，用于根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集；

目标图像选取单元，用于根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像，目标图像用于合成代表视频文件的特定图像。

根据本公开的另一方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一示例实施方式所提供的图像选取方法中，可以对视频文件(如，某综艺节目的第一期视频文件)进行视频帧抽取，得到图像序列；进而，可以根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集；进而，可以根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从所述图像集中选取目标图像，目标图像用于合成代表视频文件的特定图像(如，视频封面)。依据上述方案描述，本公开一方面能够在克服人工进行素材选择效率较低的问题，通过对视频帧的提取分析可以确定出用于合成视频封面的素材(即，目标图像)，进而提升素材选择的效率；另一方面，能够通过对图像的聚类以及多维度评价，保证视频封面素材的选取质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种图像选取方法及图像选取装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一个实施例的图像选取方法的流程图；

图4示意性示出了根据本公开的一个实施例的根据图像序列中各图像对应的图像特征对图像序列进行聚类的流程图；

图5示意性示出了根据本公开的一个实施例的图像选取方法的实施方式示意图；

图6示意性示出了根据本公开的一个实施例的图像选取方法的应用示意图；

图7示意性示出了根据本公开的另一个实施例的图像选取方法的流程图；

图8示意性示出了根据本公开的又一个实施例的图像选取方法的流程图；

图9示意性示出了根据本公开的一个实施例中的图像选取装置的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种图像选取方法及图像选取装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的图像选取方法一般由服务器105执行，相应地，图像选取装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的图像选取方法也可以由终端设备101、102、103执行，相应的，图像选取装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，服务器105可以对视频文件进行视频帧抽取，得到图像序列；根据图像序列中各图像对应的图像特征对所述图像序列进行聚类，得到至少一个图像集；根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像，目标图像用于合成代表视频文件的特定图像。本公开实施例所提供的图像选取方法也可以由终端设备和服务器105共同执行。在另一种示例性实施例中，服务器105可以对视频文件进行视频帧抽取，得到图像序列，并根据图像序列中各图像对应的图像特征对所述图像序列进行聚类，得到至少一个图像集，并将该图像集传输至终端设备101、102、103中至少一个，以使得对应的终端设备101、102和/或103根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像；其中，目标图像用于合成代表视频文件的特定图像。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。该电子设备可以是图1所示的终端设备或服务器。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(cpu)201，其可以根据存储在只读存储器(rom)202中的程序或者从存储部分208加载到随机访问存储器(ram)203中的程序而执行各种适当的动作和处理。在ram203中，还存储有系统操作所需的各种程序和数据。cpu201、rom202以及ram203通过总线204彼此相连。输入/输出(i/o)接口205也连接至总线204。

以下部件连接至i/o接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至i/o接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(cpu)201执行时，执行本申请的方法和装置中限定的各种功能。

以下对本公开实施例的技术方案进行详细阐述：

对于视频节目而言，通常需要制作代表该视频节目的封面图用于宣传或作为视频节目窗口的入口。而封面图的制作通常是由人工进行选材，再进行制作。但是，在批量处理视频节目时，这种方法容易造成人力浪费以及效率较低的问题。

基于上述一个或多个问题，本示例实施方式提供了一种图像选取方法。该图像选取方法可以应用于上述服务器105，也可以应用于上述终端设备101、102、103中的一个或多个，本示例性实施例中对此不做特殊限定。参考图3所示，该图像选取方法可以包括以下步骤s310至步骤s340：

步骤s310：对视频文件进行视频帧抽取，得到图像序列。

步骤s320：根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集。

步骤s330：根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像，目标图像用于合成代表视频文件的特定图像。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤s310中，对视频文件进行视频帧抽取，得到图像序列。

其中，视频文件是一种多媒体文件，视频文件中可以包括一个或多个视频，视频由时间上连续的视频帧组成，一个视频帧可以理解为一张图像，多个视频帧可以理解为多张图像。另外，视频文件的格式可以包括但不限于mp4、mkv、mov、avi、swf、flv以及webm。图像序列中包括多张图像，图像序列中的多张图像可以为按照时间顺序依次抽取的视频帧。图像序列可以为在拍摄时间上连续的多张图像，也可以为在拍摄时间上不连续的多张图像，本公开实施例不作限定。

在本公开实施例中，可选的，对视频文件进行视频帧抽取，得到图像序列，包括：根据视频文件的时间轴上用于表示重要内容的视频帧标识抽取重要内容对应的视频帧，以得到图像序列；或者，抽取视频文件中包含目标对象的视频内容对应的视频帧，以得到图像序列。

其中，视频帧标识可以为对视频文件中某一时间点的数据标记，该数据标记用于指示客户端或服务器抽取一个或多个视频帧，视频帧标识的数量可以为一个或多个，本公开实施例不作限定。视频帧标识所处的时间轴位置对应的视频帧可以认定为重要内容。在一个视频文件中，可以包含一个或多个视频帧标记，如果包含多个视频帧标记，该多个视频帧标记可以相同也可以不同，本公开实施例不作限定。另外，重要内容可以为视频文件的正文内容，举例来说，如果视频文件为综艺视频，那么，片头和片尾可以为非重要内容，其他内容可以作为重要内容。另外，视频文件的时间轴用于表示视频文件的拍摄时长，时间轴上各时间点分别对应一视频帧。

此外，根据视频文件的时间轴上用于表示重要内容的视频帧标识抽取重要内容对应的视频帧的方式具体可以为：识别时间轴上用于表示重要内容的视频帧开始标识以及视频帧结束标识，抽取在时间轴上视频帧开始标识与视频帧结束标识之间对应的视频帧；其中，视频帧标识可以为预先设定的，上述的视频帧标识包括视频帧开始标识和视频帧结束标识。通过上述实施方式可以更快定位到需进行视频帧抽取的时间轴位置，提升对于视频帧的抽取效率。

此外，抽取视频文件中包含目标对象的视频内容对应的视频帧，以得到图像序列的方式具体可以为：根据目标对象的特征点识别视频文件中包含目标对象的视频内容，并抽取该视频内容对应的视频帧；其中，目标对象可以包括但不限于人物、动物、植物、商品等，本公开实施例不作限定；视频内容可以对应一段拍摄时间也可以对应一个视频帧，若视频内容对应一段拍摄时间，则视频内容对应的视频帧为多个。根据这种方式可以针对性地抽取到视频文件中有关目标对象的视频内容，举例来说，当本公开应用于影视剧领域时，视频文件可以为电影，而电影中的出演者通常分为主角和配角，若需要根据主角在电影中的形象制作电影封面，则可以将主角作为目标对象，提取包含目标对象的视频内容对应的视频帧，进而便于根据视频帧确定出用于代表该电影的特定图像(即，视频封面)，这样可以提升影视作品封面的制作效率，有利于推动影视业的快速发展。

可见，实施该可选的实施例，能够通过对于视频帧的抽取，得到所需的图像，相较于人工选择图像能够提升图像选取的效率。

在本公开实施例中，另一可选的，对视频文件进行视频帧抽取，得到图像序列，包括：根据预设时长(如，30秒)对视频文件进行视频帧抽取，得到图像序列；其中，图像序列中每两个相邻的图像之间相隔预设时长。可以理解为，如果一个视频文件为3分钟，那么，每隔30秒对其进行一次视频帧抽取，可以得到6个视频帧组成的图像序列。

其中，预设时长可以为自定义时长也可以为默认时长，本公开实施例不作限定，自定义时长可以为用户手动设置的时长，默认时长可以为系统初始化的采集视频帧的相隔时长。

当对视频文件的视频帧抽取过程为该可选的实施过程时，本申请可以应用于拍摄对象为缓慢变化的视频文件。例如，本申请可以应用于拍摄花朵绽放过程的视频，一般来说，花朵由花苞到绽放需要经过较长的时间(如，30小时)，对于拍摄这一过程的视频，可以通过采集相隔预设时长(如，30分钟)的视频帧，得到花朵由花苞到绽放过程中的每个阶段的显著特征，进而有利于研究人员根据每个阶段的显著特征研究该花的生命周期，以提升人们对于该生物的了解程度。

在本公开实施例中，又一可选的，对视频文件进行视频帧抽取，得到图像序列，包括：对视频文件进行随机视频帧抽取，得到图像序列。

在本公开实施例中，再一可选的，对视频文件进行视频帧抽取，得到图像序列，包括：抽取视频文件中的关键帧，得到图像序列；其中，视频文件是基于h.264编码原理进行编码的。h.264是一种编码标准，在h.264中定义了三种帧，完整编码的帧为i帧，参考之前的i帧生成的只包含差异部分编码的帧为p帧，参考前后的帧编码的帧为b帧。h.264的核心算法是帧内压缩和帧间压缩，帧内压缩是生成i帧的算法，帧间压缩是生成b帧和p帧的算法。具体地，i帧为帧内编码，表示关键帧，即，将一帧画面进行完整保留，解码时只需本帧数据就可以生成对应的画面。p帧为前向预测编码帧。p帧表示的是这一帧与前一个关键帧(或p帧)的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成对应的画面。b帧为双向预测内插编码帧，记录的是本帧与前后帧的差别，通过前后画面的与本帧数据的叠加可以生成对应的画面。

在步骤s320中，根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集。

其中，图像特征可以为特征向量，用于表示该图像在向量空间中所处的位置。图像特征可以为场景特征，也可以为人物特征，也可以为商品特征，也可以为整体特征等，本公开的实施例不作限定。图像集中包括至少一个图像，图像集中的图像可以理解为相似图像。举例来说，若图像特征为场景特征，则图像集中的图像为场景相似的图像；若图像特征为人物特征，则图像集中的图像为同一个人物对应的图像。

在本公开实施例中，可选的，根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集的方式具体可以为：生成图像序列中各图像分别对应的图像直方图，通过计算图像直方图重合度确定出每两个图像之间的相似度，根据相似度对图像序列进行聚类，得到至少一个图像集。其中，图像直方图用于表征图像像素值的分布情况，通过一定数量的小区间指定表征像素值的范围，每个小区间会得到落入该小区间表示范围的像素数量。两个图像的图像直方图的重合度越高表示两个图像的相似度越高。

在本公开实施例中，另一可选的，请参阅图4，图4示意性示出了根据本公开的一个实施例的根据图像序列中各图像对应的图像特征对图像序列进行聚类的流程图。如图4所示，根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集，包括步骤s410和步骤s420，其中：

步骤s410：计算图像序列中各图像对应的哈希值，将哈希值作为图像对应的图像特征。

步骤s420：根据图像特征确定每两个图像之间的相似度，并根据相似度对图像序列进行聚类，得到至少一个图像集。

可见，实施该可选的实施例，能够通过对图像的聚类，便于从不同类别的图像中获取用于合成视频封面的素材。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

步骤s410：计算图像序列中各图像对应的哈希值，将哈希值作为图像对应的图像特征。

其中，哈希值为一段用于代表图像的数据，可以理解为图像的指纹，图像序列中各图像对应的哈希值均不同。

在本公开实施例中，可选的，计算图像序列中各图像对应的哈希值，包括：将图像序列中各图像的尺寸调整为目标尺寸(如，8*8)并进行图像灰度化，以得到各图像对应的灰度图像；以及，根据灰度图像中各像素的灰度值计算灰度图像对应的平均灰度值，根据平均灰度值重置各像素的灰度值；以及，将各像素重置后的灰度值进行组合，将组合结果确定为对应的图像的哈希值，以得到各图像对应的哈希值。

其中，将图像序列中各图像的尺寸调整为目标尺寸，可以去除图像中的高频信息和细节信息，进而减少图像间的差异；其中，目标尺寸中可以包括64个像素。进而，将目标尺寸的图像进行图像灰度化，可以理解为，将图像转换为64级灰度，即，上述的图像中所有像素点共64种颜色。进而，可以根据灰度图像中各像素的灰度值计算灰度图像对应的平均灰度值。进而，根据平均灰度值重置各像素的灰度值的方式具体可以为：将灰度图像中各像素的灰度值分别于平均灰度值进行比对，将比对结果中大于平均灰度值的像素的灰度值置1，将比对结果中小于平均灰度值的像素的灰度值置0。进而，可以将重置后的灰度值进行组合，可以得到该图像对应的哈希值，该哈希值可以为64位的整数(如，1010111001011010011010010101101010111001011010011010010101101010111001011010011010010101101001)；其中，对于图像序列中每张图像重置后的灰度值的组合次序相同。

可见，实施该可选的实施例，能够通过计算各图像对应的哈希值得到各图像的指纹，便于根据图像的指纹确定图像之间相似性。

在本公开实施例中，另一可选的，计算图像序列中各图像对应的哈希值的方式可以为：将图像序列中各图像的尺寸调整为目标尺寸(如，8*8)并进行图像灰度化，以得到各图像对应的灰度图像；以及，对灰度图像进行离散余弦变换(discretecosinetransform，dct)，得到各图像对应的矩阵，矩阵的尺寸可以为32*32；以及，计算矩阵中用于表示图像低频信息的目标数据的均值并将该均值分别与目标数据进行比对，其中，目标数据可以为8*8的矩阵，均值可以为64位的整数；以及，将比对结果中大于均值的目标数据置为第一数据(如，1)，将比对结果中小于均值的目标数据置为第二数据(如，0)；以及，根据第一数据与第二数据的组合确定出图像对应的哈希值。

其中，对灰度图像进行离散余弦变换(discretecosinetransform，dct)，得到各图像对应的矩阵可以依据如下公式进行：

其中，f(i，j)为灰度图像的像素点对应的像素值；其中，i为该像素点在图像中的横坐标，j为该像素点在图像中的纵坐标；f(u，v)为该像素点在dct变换后在矩阵中对应的数值；其中，u为该像素点在矩阵中对应的行数，v为该像素点在矩阵中对应的列数；c(u)和c(v)为补偿系数；n为图像中像素点的个数。

需要说明的是，图像经dct变换之后得到矩阵中，矩阵左上角的数据(即，目标数据)用于表示图像低频信息，右下角的数据用于表示图像高频信息；图像低频信息用于表征图像主体框架，以及，用于表示图像中灰度连续渐变的区域；高频信息用于记录图像细节，以及，用于表示图像中灰度变化较快的区域，如，图像中对象(如，人脸)的轮廓。其中，dct变换通常用于数据或图像的压缩，可以将空域的信号转换至频域。

在本公开实施例中，又一可选的，计算图像序列中各图像对应的哈希值的方式可以为：将图像序列中各图像的尺寸调整为目标尺寸(如，9*8)并进行图像灰度化，以得到各图像对应的灰度图像；以及，将灰度图像中每行的前一像素值与后一像素值进行比对，将比对结果中大于后一像素值的前一像素值置为第一数据(如，1)，将比对结果中小于后一像素值的前一像素值置为第二数据(如，0)；以及，根据第一数据与第二数据的组合确定出图像对应的哈希值。

步骤s420：根据图像特征确定每两个图像之间的相似度，并根据相似度对图像序列进行聚类，得到至少一个图像集。

其中，每两个图像之间的相似度可以通过相似和不相似进行表示。另外，可选的，每两个图像之间的相似度也可以通过渐进式的多种程度进行表示，如，相似、较为相似、一般相似、……、不太相似、不相似等，本公开实施例不作限定。

在本公开实施例中，可选的，根据图像特征确定每两个图像之间的相似度，并根据相似度对图像序列进行聚类，得到至少一个图像集，包括：

根据哈希值计算图像序列中每两个图像之间的汉明距离，将汉明距离作为每两个图像之间的相似度，并将小于预设距离(如，5)的汉明距离(如，1)对应的图像归类为同一图像集，以得到图像序列对应的至少一个图像集。

其中，汉明距离可以为两个哈希值之间不相同位的数量，如，哈希值1为1001，哈希值2为1101，那么哈希值1和哈希值2中有且只有第2位置的数不相同，因此，哈希值1和哈希值2之间的汉明距离为1。

具体地，根据哈希值计算图像序列中每两个图像之间的汉明距离的方式具体可以为：确定每两个图像对应的哈希值之间不相同位置的数量，将该数量确定为两个图像之间的汉明距离。另外，图像集中的图像可以理解为相似图像。该可选的实施例对应的代码如下：

可见，实施该可选的实施例，能够通过比对图像之间的相似度，将相似图像归类为同一图像集，有利于提升选取视频封面素材的效率。

在本公开实施例中，另一可选的，根据图像特征确定每两个图像之间的相似度，并根据相似度对图像序列进行聚类，得到至少一个图像集，包括：将图像的哈希值作为图像向量，计算图像序列中每两个图像之间的余弦距离；将大于预设阈值的余弦距离进行聚类，得到至少一个图像集；其中，余弦距离的取值范围为[0,2]，余弦距离的计算公式为：a和b分别为待计算的两个图像对应的向量。

或者，将图像的哈希值作为图像向量，计算图像序列中每两个图像之间的欧式距离；将大于预设阈值的欧式距离进行聚类，得到至少一个图像集；其中，欧氏距离的计算公式为：

在本公开实施例中，又一可选的，根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集之后，上述方法还可以包括以下步骤：

对图像序列中各图像进行对象识别，并根据对象识别结果对至少一个图像集中的图像进行调整，以使得图像集中各图像均对应同一对象。

其中，对图像序列中各图像进行对象识别的方式具体可以为：根据待识别对象的特征点识别图像序列中包含待识别对象的图像；其中，待识别对象可以为人物、动物、景物、商品、植物等，本公开实施例不作限定。举例来说，若待识别对象为人物，对图像序列中各图像进行对象识别的方式则可以为：根据人脸特征点识别图像序列中各图像中的人脸，其中，人脸特征点包括但不限于眼部特征、嘴部特征等。

可见，实施该可选的实施例，能够通过对于图像中对象的识别，进而确定出包含具体要素的视频封面素材，提升对于视频封面制作的效率。

在步骤s330中，根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像。

其中，预设评价标准用于对图像在各维度的输出效果进行评价。上述的多维度评价可以包括但不限于清晰度评价、美观度评价、亮度评价、对比度评价等，本公开实施例不作限定。另外，目标图像可以理解为在各维度的输出效果均优于图像集中其他图像的图像，目标图像可以作为合成视频封面的素材。

在本公开实施例中，可选的，根据预设评价标准对图像集中各图像进行多维度评价，包括：

根据清晰度评价标准确定图像集中各图像对应的清晰度类型，并根据美观度评价标准确定图像集中各图像对应的美观度评分；其中，预设评价标准包括清晰度评价标准和美观度评价标准。

其中，清晰度评价标准为通过多个且无交集的阈值范围规定了图像所属的每个清晰度类型对应的数值标准，美观度评价标准为通过多个且无交集的阈值范围规定了图像所属的每个美观度类型对应的数值标准。其中，清晰度评价标准的阈值范围与美观度评价标准的阈值范围也可以不同也可以相同，本公开实施例不作限定。

可见，实施该可选的实施例，能够通过清晰度和美观度对图像进行评价，进而能够从中选取较优的图像作为素材，以优化合成的视频封面的输出效果。

进一步的，根据清晰度评价标准确定图像集中各图像对应的清晰度类型，包括：

通过清晰度分类网络对图像集中各图像进行卷积，得到图像对应的第一特征向量，并对第一特征向量应用激活函数，得到图像对应的第二特征向量；

通过清晰度分类网络对第二特征向量进行池化，得到图像对应的第三特征向量，并将第一特征向量、第二特征向量以及第三特征向量进行全连接；

通过清晰度分类网络根据全连接结果计算图像属于各清晰度类型的概率，并根据概率以及清晰度评价标准确定图像集中各图像对应的清晰度类型。

其中，清晰度分类网络可以为vgg16网络，通过vgg网络可以证明增加网络的深度能够在影响网络的性能，其中，vgg16网络表示该网络的深度为16，即，该网络包含16个隐藏层，在该网络中使用的是3*3的卷积以及2*2的池化。

具体地，通过清晰度分类网络对图像集中各图像进行卷积，得到图像对应的第一特征向量的方式具体可以为：通过预设尺寸(如，3*3)的卷积核以及预设步长(如，1)对图像集中各图像进行卷积计算，得到各图像对应的第一特征向量，第一特征向量用于通过相较原图像维度更低的维度来表征图像。

另外，对第一特征向量应用激活函数，得到图像对应的第二特征向量的方式具体可以为：通过激活函数将第一特征向量中的数值转换为预设的值域范围内，例如，[-1,1]；得到图像对应的第二特征向量，第二特征向量与第一特征向量的维度相同，第二特征向量中各位置对应的数据属于预设的值域范围内；其中，激活函数可以为恒等函数(identityfunction)、阶跃函数(stepfunction)、s型函数(sigmoidalfunction)、斜坡函数(rampfunction)、双曲正切函数(tanh)、反正切函数(arctan)、反平方根函数(inversesquarerootunit、isru)、反平方根线性函数(inversesquarerootlinearunit，isrlu)、平方非线性函数(squarenonlinearity，sqnl)、线性整流函数(rectifiedlinearunit，relu)、二级线性整流函数(bipolarrectifiedlinearunit，brelu)、参数化线性整流函数(parametericrectifiedlinearunit，prelu)等，本公开实施例不作限定。

另外，通过清晰度分类网络对第二特征向量进行池化，得到图像对应的第三特征向量的方式具体可以为：对第二特征向量进行平均池化，得到图像对应的第三特征向量，第三特征向量的维度低于第二特征向量的维度，第三特征向量用于通过相较于第二特征向量更低的维度表征对应的图像。以及，可选的，还可以包括以下步骤：对第三特征向量应用激活函数，以使得第三特征向量中各位置对应的数值属于预设的值域范围内。

另外，将第一特征向量、第二特征向量以及第三特征向量进行全连接，可以得到全连接结果，该全连接结果可以表示为一种特征向量，用于综合表示第一特征向量、第二特征向量以及第三特征向量，通过该全连接结果能够计算出图像属于各清晰度类型的概率(如，属于清晰类型的概率为20％、属于一般类型的概率为60％、属于模糊类型的概率为20％)；其中，清晰度类型可以包括但不限于：清晰、一般、模糊。

另外，根据概率以及清晰度评价标准确定图像集中各图像对应的清晰度类型的方式具体可以为：将概率最高的清晰度类型确定为图像所属的清晰度类型。

可见，实施该可选的实施例，能够通过简洁的vgg16网络确定出图像的清晰度类型，减少了对于计算资源的占用，提高了对于图像的清晰度评价效率。

进一步的，根据美观度评价标准确定图像集中各图像对应的美观度评分，包括：

通过美观度评价网络计算输入的样本图像集的美观度评分分布；

计算美观度评分分布与样本图像集对应的原始美观度评分分布之间的损失函数；

根据损失函数更新美观度评价网络的参数；

通过参数更新后的美观度评价网络对图像集中各图像进行美观度预测，预测结果中包括图像对应的美观度评分。

其中，美观度评价网络可以为图像质量评估网络(neuralimageassessment，nima)，其中，nima是基于深度物体识别的神经网络，能够从直接观感和吸引程度预测人类对图像的评估意见的分布。可选的，美观度评分分布可以包括10档，即，美观度评分为1分、2分、3分、4分、5分、6分、7分、8分、9分、10分。可选的，样本图像集中清晰度类型为模糊的样本图像对应的原始美观度评分可以设置为1分/2分/3分。

具体地，通过美观度评价网络计算输入的样本图像集的美观度评分分布的方式具体可以为：通过nima计算输入的样本图像集的美观度评分分布；以及，通过表达式计算美观度评分分布的平均值μ(如，5)；其中，n为美观度评分分布中的评分个数，si为第i个评分，为图像属于si的概率；以及，该步骤中还可以包括：通过表达式计算美观度标准差σ(如，0.4)；其中，美观度评分分布可以包括10个评分，也可以理解为，将图像的美观度划分为10档，第10档比第9档的图像更美观，以此类推，后一档的图像比前一档的图像更加美观。

另外，计算美观度评分分布与样本图像集对应的原始美观度评分分布之间的损失函数的方式具体可以为：基于表达式可以计算美观度评分分布与样本图像集对应的原始美观度评分分布之间的损失函数；其中，为样本图像集对应的原始美观度评分分布，cdfp(k)为的累积分布函数，为的累积分布函数，r为常数。

另外，根据损失函数更新美观度评价网络的参数中，美观度评价网络的参数可以表示为矩阵权重。可选的，可以根据损失函数更新美观度评价网络的参数，直到美观度评分分布的平均值μ和美观度标准差σ均属于标准数据范围内为止。

另外，通过参数更新后的美观度评价网络对所述图像集中各图像进行美观度预测的方式具体可以为：将图像集中各图像进行尺寸调整，并将调整后的图像(如，256*256)进行随机裁剪，将裁剪后的图像(如224*224)输入参数更新后的nima网络，以使得nima网络计算出图像对应的美观度评分分布(即，属于每一档美观度的概率)；以及，将美观度评分分布中对应概率最高的美观度评分确定为图像集中该图像的美观度评分，进而得到图像集中各图像对应的美观度评分。另外，上述的预测结果中还包括美观度标准差。

可见，实施该可选的实施例，能够通过对各图像进行美观度评价，区分出图像的优劣，进而有利于从中选取较优的图像作为视频封面素材，以提升视频封面的制作效果。

在本公开实施例中，可选的，根据多维度评价结果从图像集中选取目标图像，包括：

根据图像集中各图像对应的清晰度类型对图像序列进行排序，并根据图像集中各图像对应的美观度评分对排序结果进行调整；

识别图像序列中各图像的对象特征，并根据对象特征对调整后的排序结果进行筛选；其中，对象特征用于表征各图像中对象的形态；

根据筛选结果从图像集中选取目标图像。

其中，若图像序列中包括3张清晰度类型为清晰的图像、2张清晰度类型为一般的图像以及1张清晰度类型为不清晰的图像。根据图像集中各图像对应的清晰度类型对图像序列进行排序的方式可以为：根据各图像对应的清晰度类型由清晰至不清晰的顺序对图像进行排序。那么，排序结果可以为：3张清晰图像排名第一，2张一般图像排名第二，1张不清晰图像排名第三。若3张清晰图像的美观度评分分别为10分、9分、8分，2张一般图像的美观度评分分别为6分、5分，1张不清晰图像的美观度评分为1分。根据图像集中各图像对应的美观度评分对排序结果进行调整，得到的调整后的排序结果可以为：10分的清晰图像排名第一、9分的清晰图像排名第二、8分的清晰图像排名第三、6分的一般图像排名第四、5分的一般图像排名第五、1分的不清晰图像排名第六。另外，上述的对象特征可以为图像焦点的特征，图像焦点可以为人物、动物、植物、商品等，本公开实施例不作限定。若图像焦点为人物，对象特征可以为人脸特征。另外，若对象为人物，对象的形态可以理解为对人物的拍摄角度。根据对象特征对调整后的排序结果进行筛选，可以将调整后的排序结果中不包括对象特征的8分的清晰图像、5分的一般图像、1分的不清晰图像进行筛除，得到的筛选结果可以包括：10分的清晰图像、9分的清晰图像、6分的一般图像。此外，目标图像的数量可以为一个或多个，若目标图像的数量为一个，那么根据筛选结果从图像集中选取的目标图像则为10分的清晰图像；其中，目标图像的美观度和清晰度均为最优且包含所需的对象特征，可以作为合成视频封面的素材，目标图像对应的美观度评分大于预设美观度评分(如，5分)。

另外，可选的，根据筛选结果从图像集中选取目标图像的方式可以为：根据筛选结果从各图像集中分别选取目标图像，其中，目标图像的数量可以为一个或多个，从各图像集中选取的目标图像的数量相同。

可见，实施该可选的实施例，能够根据图像的清晰度和美观度选取图像质量最优的一个或多个目标图像，作为视频封面的制作素材，进而提升视频封面的质量。

进一步的，识别图像序列中各图像的对象特征，包括：

通过人脸检测算法提取图像序列中各图像的人脸特征点；

根据人脸特征点确定对象特征，对象特征包括如下至少一种：人脸偏转角度、人眼闭合状态、人脸与图像的边框之间的距离以及人脸面积。

其中，人脸特征点可以包括但不限于眼部特征、鼻部特征、嘴部特征、耳部特征、脸轮廓特征等，本公开实施例不作限定。人脸偏转角度可以理解为对于人脸的拍摄角度，人眼闭合状态可以包括但不限于睁眼、半睁眼、闭眼。另外，人脸特征点还可以包括但不限于嘴部张合状态等，本公开实施例不作限定。

具体地，通过人脸检测算法提取图像序列中各图像的人脸特征点的方式具体可以为：通过faceboxes提取图像序列中各图像的人脸特征点；其中，faceboxes是一种实时人脸检测算法，包括快速消化卷积层(rdcl)和多尺度卷积层(mscl)，rdcl用于保证实时人脸检测速度，mscl用于丰富感受野并对不同卷积层不同尺度的人脸进行离散化。

可见，实施该可选的实施例，能够通过对于图像中对象特征的识别，进一步区分图像的优劣，以便于从中选取满足要求的图像作为视频封面素材。

进一步的，根据筛选结果从图像集中选取目标图像，包括：

若合成参数为1，则根据筛选结果从图像集中选取美观度评分(如，10分)最高的图像确定为目标图像；

若合成参数大于1，则计算筛选结果中每两个图像之间的第一帧间距离和第二帧间距离，并选取第一帧间距离和第二帧间距离差值最大的两张图像，将差值最大的两张图像确定为目标图像；第一帧间距离和第二帧间距离用于表示每两个图像之间的相似度，第一帧间距离和第二帧间距离不属于预设距离范围。

其中，合成参数表示合成用于代表视频文件的特定图像所需的目标图像数量(如，2个)。预设距离范围内的帧间距离对应的图像为一般图像，选取的目标图像的第一帧间距离越大表示两个图像的人脸高度、人脸面积、图像饱和度、图像亮度以及图像锐度相似度越高，第二帧间距离越小表示两个图像的人脸朝向方向越不相似，如，图1中的人脸朝向为朝右，图2中的人脸朝向为朝左，图1和图2中的人脸高度、人脸面积、图像饱和度、图像亮度以及图像锐度相同。

另外，可选的，若图像集中美观度评分最高的图像集为至少两个(如，至少两个图像的美观评分为10分)，根据筛选结果从图像集中选取美观度评分最高的图像，将美观度评分最高的图像确定为目标图像的方式具体可以为：根据筛选结果从图像集中选取美观度评分最高的图像，根据视频文件的主题(如，老张去动物园)从美观度评分最高的图像中选取最贴合主题的图像(如，老张与动物的合影)作为目标图像。

可见，实施该可选的实施例，能够通过需要的目标图像的数量选取最优的一个或多个目标图像，以用于合成视频封面，提升合成效率以及合成效果。

更进一步的，计算筛选结果中每两个图像之间的第一帧间距离和第二帧间距离，包括：

确定筛选结果中各图像的第一图像特征和第二图像特征；其中，第一图像特征包括人脸高度、人脸面积、图像饱和度、图像亮度以及图像锐度中至少一种；第二图像特征包括人脸朝向；

根据第一图像特征计算筛选结果中每两个图像之间的第一帧间距离，并根据第二图像特征计算筛选结果中每两个图像之间的第二帧间距离。

其中，人脸高度用于表示人脸在与图像边缘的距离，人脸面积用于表示人脸在图像中所占的面积，人脸朝向用于表示人脸在图像中所面向的方向。

具体地，确定筛选结果中各图像的第一图像特征的方式可以为：根据人脸特征点确定筛选结果中各图像的人脸位置，并根据人脸位置与图像边缘的距离确定出人脸高度，人脸高度用于表示人脸偏离图像中心的程度，作为第一图像特征；其中，人脸位置可以包括人脸在图像中的坐标；以及，根据人脸特征点在图像中的坐标描绘筛选结果中各图像的人脸轮廓，根据人脸轮廓计算各图像中的人脸面积，作为第一图像特征；以及，获取筛选结果中各图像的图像饱和度、图像亮度以及图像锐度，作为第一图像特征。

具体地，确定筛选结果中各图像的第二图像特征的方式可以为：根据人脸特征点确定筛选结果中各图像的人脸朝向。举例来说，人脸特征点中包括左脸、左耳，那么，可以认定人脸朝向是朝右。

可见，实施该可选的实施例，能够通过对第一图像特征和第二图像特征的确定，进而保证选择出的目标图像的图像质量。

在本公开实施例中，可选的，上述方法还可以包括以下步骤：

若目标图像的数量为1，在目标图像中添加贴图素材并调整目标图像的尺寸(如，1024*1024)，并将尺寸调整后的目标图像确定为用于代表视频文件的特定图像；若目标图像的数量大于1，根据图像合成规则将目标图像合成为用于代表视频文件的特定图像。

其中，用于代表视频文件的特定图像可以理解为视频文件的封面，用于进行展示或作为进入视频文件的窗口。另外，图像合成规则可以包括拼接规则、重叠规则等，本公开实施例不作限定；其中，拼接规则用于规定如何拼接目标图像，例如，将人脸朝向为左的图像的左侧边缘作为第一拼接处，将人脸朝向为右的图像的右侧边缘作为第二拼接处，将第一拼接处与第二拼接处进行拼接，得到特定图像；重叠规则用于对顶如何重叠。另外，在目标图像中添加的贴图素材可以从贴图库中进行提取，贴图素材可以包括各类型的标识(如，闪电标识、对战标识等)，用于增强特定图像的表现力。

另外，可选的，根据图像合成规则将目标图像合成为用于代表视频文件的特定图像的方式具体可以为：根据图像合成规则中的拼接规则对目标图像进行拼接，并将拼接得到的图像进行尺寸调整，进而得到用于代表视频文件的特定图像。

可见，实施该可选的实施例，能够通过选取的目标图像合成用于代表视频文件的特定图像，进而提升视频封面合成的自动化程度，改善视频封面的合成效果。

可见，实施图3所示的图像选取方法，能够在克服人工进行素材选择效率较低的问题，通过对视频帧的提取分析可以确定出用于合成视频封面的素材(即，目标图像)，进而提升素材选择的效率；以及，能够通过对图像的聚类以及多维度评价，保证视频封面素材的选取质量。

请参见图5，图5示意性示出了根据本公开的一个实施例的图像选取方法的实施方式示意图。如图5所示，包括视频文件501、图像序列502、n个图像集503、排序结果504、筛选结果505以及目标图像506；其中，n为正整数。

具体地，可以对视频文件501进行视频帧抽取，得到包括多个视频帧的图像序列502；进而，可以根据图像序列中各视频帧(即，各图像)对应的图像特征对图像序列502进行聚类，得到n个图像集503，n个图像集503中包括图像集1、图像集2、……、图像集n，各图像集中可以包括一个或多个图像；进而，可以根据清晰度评价标准和美观度评价标准对n个图像集503中的图像进行排序，得到排序结果504，排序结果504中包括的图像为按顺序进行排列的图像集2中的图像1、图像集1中的图像1、图像集2中的图像2、图像集n中的图像1、图像集1中的图像2、图像集n中的图像2、……、图像集n中的图像m、图像集1中的图像以及图像集2中的图像m，m为正整数；进而，可以根据上述的排序结果504从各图像集中筛选图像，得到筛选结果505，筛选结果505包括图像集2中的图像1、图像集1中的图像集1、……、图像集n中的图像1；进而，可以从筛选结果505中选取用于合成代表视频文件501的特定图像(即，封面)的目标图像506，目标图像506为筛选结果中最优的一个或多个图像，如，图像集1中的图像集1。

可见，实施图5所示的图像选取方法的实施方式，能够在克服人工进行素材选择效率较低的问题，通过对视频帧的提取分析可以确定出用于合成视频封面的素材(即，目标图像)，进而提升素材选择的效率。

请参见图6，图6示意性示出了根据本公开的一个实施例的图像选取方法的应用示意图。如图6所示，可以对视频文件601进行视频帧抽取得到多个视频帧，即，图像序列602；进而，可以根据图像序列中各视频帧(即，各图像)对应的图像特征对图像序列602进行聚类，得到5个图像集603，即，图像集6031、图像集6032、图像集6033、图像集6034、图像集6035；其中，各图像集中分别包含多个图像；进而，根据清晰度评价标准和美观度评价标准对5个图像集603进行排序之后得到的排序结果604中可以包括按顺序进行排列的图像6041、图像6042、图像6043、图像6044、……、图像6049，其中，排序结果中604包括的图像数量与各图像集的图像数量之和相等；进而，可以对排序结果604进行筛选，得到的筛选结果605中可以包括图像6051、图像6052、图像6053、图像6054和图像6055；进而，可以从筛选结果605中选取用于合成代表视频文件601的特定图像(即，封面)的目标图像606，在图6的示例性示出中，目标图像的数量可以为2，即，图像6061和图像6062；进而，可以通过对图像6061和图像6062的拼接，以合成用于代表视频文件601的特定图像608。

可见，实施图6所示的图像选取方法的实施方式，能够在克服人工进行素材选择效率较低的问题，通过对视频帧的提取分析可以确定出用于合成视频封面的素材(即，目标图像)，进而提升素材选择的效率。

请参见图7，图7示意性示出了根据本公开的另一个实施例的图像选取方法的流程图，该图像选取方法可以由图1中所示的服务器105和/或终端设备101、102、103执行，本公开实施例不作限定。如图7所示，该方法包括步骤s710～步骤s760，其中：

步骤s710：对视频文件进行视频抽取，得到图像序列。

步骤s720：图像序列聚类，得到至少一个图像集。

步骤s730：识别各图像集的图像中的人物。

步骤s740：检测图像中是否包含人物，如果是则执行步骤s750；如果否，则结束本次流程。

步骤s750：合并同一人物所在图像集。

步骤s760：根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像，目标图像用于合成代表视频文件的特定图像。

其中，可以对视频文件进行视频抽取，得到图像序列，进而对图像序列进行聚类，得到至少一个图像集，此时，每个图像集对应了一个人物，例如，图像集1对应老王，图像集2对应老张，而聚类过程中有可能将少量老张的图像归类于图像集1中。而根据对各图像集中图像的人物识别，可以将误分类的图像调整回其真实所属的图像集，以便于进而根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像。

请参见图8，图8示意性示出了根据本公开的又一个实施例的图像选取方法的流程图，该图像选取方法可以由图1中所示的服务器105和/或终端设备101、102、103执行，本公开实施例不作限定。如图8所示，该方法包括步骤s800～步骤s824，其中：

步骤s800：对视频文件进行视频帧抽取，得到图像序列。

步骤s802：将图像序列中各图像的尺寸调整为目标尺寸并进行图像灰度化，以得到各图像对应的灰度图像。

步骤s804：根据灰度图像中各像素的灰度值计算灰度图像对应的平均灰度值，根据平均灰度值重置各像素的灰度值。

步骤s806：将各像素重置后的灰度值进行组合，将组合结果确定为对应的图像的哈希值，以得到各图像对应的哈希值。

步骤s808：根据哈希值计算图像序列中每两个图像之间的汉明距离，将汉明距离作为每两个图像之间的相似度，并将小于预设距离的汉明距离对应的图像归类为同一图像集，以得到图像序列对应的至少一个图像集。

步骤s810：对图像序列中各图像进行对象识别，并根据对象识别结果对至少一个图像集中的图像进行调整，以使得图像集中各图像均对应同一对象。

步骤s812：根据清晰度评价标准确定图像集中各图像对应的清晰度类型，并根据美观度评价标准确定图像集中各图像对应的美观度评分。

步骤s814：根据图像集中各图像对应的清晰度类型对图像序列进行排序，并根据图像集中各图像对应的美观度评分对排序结果进行调整；进一步地，若合成参数为1，则执行步骤s816；若合成参数大于1，则执行步骤s818。

步骤s816：根据筛选结果从图像集中选取美观度评分最高的图像，将美观度评分最高的图像确定为目标图像。

步骤s818：确定筛选结果中各图像的第一图像特征和第二图像特征；其中，第一图像特征包括人脸高度、人脸面积、图像饱和度、图像亮度以及图像锐度中至少一种；第二图像特征包括人脸朝向。

步骤s820：根据第一图像特征计算筛选结果中每两个图像之间的第一帧间距离，并根据第二图像特征计算筛选结果中每两个图像之间的第二帧间距离。

步骤s822：选取第一帧间距离和第二阵间距离差值最大的两张图像确定为目标图像，第一帧间距离和第二帧间距离用于表示每两个图像之间的相似度，第一帧间距离和第二帧间距离不属于预设距离范围。

步骤s824：根据目标图像生成用于代表视频文件的特定图像。

其中，需要说明的是，步骤s800～步骤s824与图3中所述的实施方式相对应，因此，步骤s800～步骤s824对应的实施例及限定请参阅图3对应的实施例内容，此处不再赘述。

可见，实施图8所示的，能够在克服人工进行素材选择效率较低的问题，通过对视频帧的提取分析可以确定出用于合成视频封面的素材，进而提升素材选择的效率；以及，能够通过对图像的聚类以及多维度评价，保证视频封面素材的选取质量。

进一步的，本示例实施方式中，还提供了一种图像选取装置。该图像选取装置可以应用于服务器或终端设备。参考图9所示，该图像选取装置900可以包括视频帧抽取单元901、图像聚类单元902以及目标图像选取单元903，其中：

视频帧抽取单元901，用于对视频文件进行视频帧抽取，得到图像序列；

图像聚类单元902，用于根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集；

目标图像选取单元903，用于根据预设评价标准对图像集中各图像进行多维度评价，并根据多维度评价结果从图像集中选取目标图像，目标图像用于合成代表视频文件的特定图像。

可见，实施图9所示的图像选取装置，能够在克服人工进行素材选择效率较低的问题，通过对视频帧的提取分析可以确定出用于合成视频封面的素材(即，目标图像)，进而提升素材选择的效率；以及，能够通过对图像的聚类以及多维度评价，保证视频封面素材的选取质量。

在本公开的一种示例性实施例中，视频帧抽取单元901对视频文件进行视频帧抽取，得到图像序列的方式具体可以为：

视频帧抽取单元901根据视频文件的时间轴上用于表示重要内容的视频帧标识抽取重要内容对应的视频帧，以得到图像序列；或者，

视频帧抽取单元901抽取视频文件中包含目标对象的视频内容对应的视频帧，以得到图像序列。

可见，实施该示例性实施例，能够通过对于视频帧的抽取，得到所需的图像，相较于人工选择图像能够提升图像选取的效率。

在本公开的一种示例性实施例中，图像聚类单元902根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集的方式具体可以为：

图像聚类单元902计算图像序列中各图像对应的哈希值，将哈希值作为图像对应的图像特征；

图像聚类单元902根据图像特征确定每两个图像之间的相似度，并根据相似度对图像序列进行聚类，得到至少一个图像集。

可见，实施该示例性实施例，能够通过对图像的聚类，便于从不同类别的图像中获取用于合成视频封面的素材。

在本公开的一种示例性实施例中，图像聚类单元902计算图像序列中各图像对应的哈希值的方式具体可以为：

图像聚类单元902将图像序列中各图像的尺寸调整为目标尺寸并进行图像灰度化，以得到各图像对应的灰度图像；

图像聚类单元902根据灰度图像中各像素的灰度值计算灰度图像对应的平均灰度值，根据平均灰度值重置各像素的灰度值；

图像聚类单元902将各像素重置后的灰度值进行组合，将组合结果确定为对应的图像的哈希值，以得到各图像对应的哈希值。

可见，实施该示例性实施例，能够通过计算各图像对应的哈希值得到各图像的指纹，便于根据图像的指纹确定图像之间相似性。

在本公开的一种示例性实施例中，图像聚类单元902根据图像特征确定每两个图像之间的相似度，并根据相似度对图像序列进行聚类，得到至少一个图像集的方式具体可以为：

图像聚类单元902根据哈希值计算图像序列中每两个图像之间的汉明距离，将汉明距离作为每两个图像之间的相似度，并将小于预设距离的汉明距离对应的图像归类为同一图像集，以得到图像序列对应的至少一个图像集。

可见，实施该示例性实施例，能够通过比对图像之间的相似度，将相似图像归类为同一图像集，有利于提升选取视频封面素材的效率。

在本公开的一种示例性实施例中，上述装置还可以包括对象识别单元(未图示)，其中：

对象识别单元，用于在图像聚类单元根据图像序列中各图像对应的图像特征对图像序列进行聚类，得到至少一个图像集之后，对图像序列中各图像进行对象识别，并根据对象识别结果对至少一个图像集中的图像进行调整，以使得图像集中各图像均对应同一对象。

可见，实施该示例性实施例，能够通过对于图像中对象的识别，进而确定出包含具体要素的视频封面素材，提升对于视频封面制作的效率。

在本公开的一种示例性实施例中，目标图像选取单元903根据预设评价标准对图像集中各图像进行多维度评价的方式具体可以为：

目标图像选取单元903根据清晰度评价标准确定图像集中各图像对应的清晰度类型，并根据美观度评价标准确定图像集中各图像对应的美观度评分；其中，预设评价标准包括清晰度评价标准和美观度评价标准。

可见，实施该示例性实施例，能够通过清晰度和美观度对图像进行评价，进而能够从中选取较优的图像作为素材，以优化合成的视频封面的输出效果。

在本公开的一种示例性实施例中，目标图像选取单元903根据清晰度评价标准确定图像集中各图像对应的清晰度类型的方式具体可以为：

目标图像选取单元903通过清晰度分类网络对图像集中各图像进行卷积，得到图像对应的第一特征向量，并对第一特征向量应用激活函数，得到图像对应的第二特征向量；

目标图像选取单元903通过清晰度分类网络对第二特征向量进行池化，得到图像对应的第三特征向量，并将第一特征向量、第二特征向量以及第三特征向量进行全连接；

目标图像选取单元903通过清晰度分类网络根据全连接结果计算图像属于各清晰度类型的概率，并根据概率以及清晰度评价标准确定图像集中各图像对应的清晰度类型。

可见，实施该示例性实施例，能够通过简洁的vgg16网络确定出图像的清晰度类型，减少了对于计算资源的占用，提高了对于图像的清晰度评价效率。

在本公开的一种示例性实施例中，目标图像选取单元903根据美观度评价标准确定图像集中各图像对应的美观度评分的方式具体可以为：

目标图像选取单元903通过美观度评价网络计算输入的样本图像集的美观度评分分布；

目标图像选取单元903计算所述美观度评分分布与所述样本图像集对应的原始美观度评分分布之间的损失函数；

目标图像选取单元903根据所述损失函数更新所述美观度评价网络的参数；

目标图像选取单元903通过参数更新后的美观度评价网络对所述图像集中各图像进行美观度预测，预测结果中包括所述图像对应的美观度评分。

可见，实施该示例性实施例，能够通过对各图像进行美观度评价，区分出图像的优劣，进而有利于从中选取较优的图像作为视频封面素材，以提升视频封面的制作效果。

在本公开的一种示例性实施例中，目标图像选取单元903根据多维度评价结果从图像集中选取目标图像的方式具体可以为：

目标图像选取单元903根据图像集中各图像对应的清晰度类型对图像序列进行排序，并根据图像集中各图像对应的美观度评分对排序结果进行调整；

目标图像选取单元903识别图像序列中各图像的对象特征，并根据对象特征对调整后的排序结果进行筛选；其中，对象特征用于表征各图像中对象的形态；

目标图像选取单元903根据筛选结果从图像集中选取目标图像。

可见，实施该示例性实施例，能够根据图像的清晰度和美观度选取图像质量最优的一个或多个目标图像，作为视频封面的制作素材，进而提升视频封面的质量。

在本公开的一种示例性实施例中，目标图像选取单元903识别图像序列中各图像的对象特征的方式具体可以为：

目标图像选取单元903通过人脸检测算法提取图像序列中各图像的人脸特征点；

目标图像选取单元903根据人脸特征点确定对象特征，对象特征包括如下至少一种：人脸偏转角度、人眼闭合状态、人脸与图像的边框之间的距离以及人脸面积。

可见，实施该示例性实施例，能够通过对于图像中对象特征的识别，进一步区分图像的优劣，以便于从中选取满足要求的图像作为视频封面素材。

在本公开的一种示例性实施例中，目标图像选取单元903根据筛选结果从图像集中选取目标图像的方式具体可以为：

若合成参数为1，目标图像选取单元903根据筛选结果从图像集中选取美观度评分最高的图像，将美观度评分最高的图像确定为目标图像；

若合成参数大于1，目标图像选取单元903计算筛选结果中每两个图像之间的第一帧间距离和第二帧间距离，并选取第一帧间距离和第二帧间距离差值最大的两张图像，将差值最大的两张图像确定为目标图像；第一帧间距离和第二帧间距离用于表示每两个图像之间的相似度，第一帧间距离和第二帧间距离不属于预设距离范围。

可见，实施该示例性实施例，能够通过需要的目标图像的数量选取最优的一个或多个目标图像，以用于合成视频封面，提升合成效率以及合成效果。

在本公开的一种示例性实施例中，目标图像选取单元903计算筛选结果中每两个图像之间的第一帧间距离和第二帧间距离的方式具体可以为：

目标图像选取单元903确定筛选结果中各图像的第一图像特征和第二图像特征；其中，第一图像特征包括人脸高度、人脸面积、图像饱和度、图像亮度以及图像锐度中至少一种；第二图像特征包括人脸朝向；

目标图像选取单元903根据第一图像特征计算筛选结果中每两个图像之间的第一帧间距离，并根据第二图像特征计算筛选结果中每两个图像之间的第二帧间距离。

可见，实施该示例性实施例，能够通过对第一图像特征和第二图像特征的确定，进而保证选择出的目标图像的图像质量。

在本公开的一种示例性实施例中，上述装置还可以包括图像合成单元(未图示)，其中：

图像合成单元，用于在目标图像的数量为1时，在目标图像中添加贴图素材并调整目标图像的尺寸，并将尺寸调整后的目标图像确定为用于代表视频文件的特定图像；在目标图像的数量大于1时，根据图像合成规则将目标图像合成为用于代表视频文件的特定图像。

可见，实施该示例性实施例，能够通过选取的目标图像合成用于代表视频文件的特定图像，进而提升视频封面合成的自动化程度，改善视频封面的合成效果。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

由于本公开的示例实施例的图像选取装置的各个功能模块与上述图像选取方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的图像选取方法的实施例。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高洵;沈招益;刘军煜;杨天舒
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：压缩释放式发动机缸内制动系统的制作方法
上一篇：用改进的引发剂体系制备方法生产异烯烃聚合物的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。