视频标签的添加方法及装置、电子设备、计算机可读存储介质与流程

文档序号：22324488发布日期：2020-09-25 17:52阅读：150来源：国知局

本发明涉及视频搜索领域，尤其涉及一种视频标签的添加方法及装置、电子设备、计算机可读存储介质。

背景技术：

召回率是搜索领域的重要指标之一，简单来讲就是被搜索到的相关数据与数据库中所有相关数据的比值。例如某次搜索时，用户输入搜索词，搜索到100条与搜索词相关的数据，并展示给用户；而数据库中存储有1000条与搜索词相关的数据，则召回率为10％。

针对于视频搜索领域，由于视频数据的实质是一组组连续的图像，因此在存储视频数据时，需要同时对应存储一些文字性描述，例如主题、简介等。这样，在搜索视频数据时，只需要根据这部分文字性描述，就可以搜索到对应的视频数据。

然而，针对视频数据生成对应的文字性描述的方法，通常是对视频数据进行视频分析，根据视频分析的结果生成文字性描述。由于目前针对视频数据进行视频分析的技术并不完善，导致生成的文字性描述不够全面，无法指示视频的大部分内容。在通过搜索词搜索视频时，即使视频的内容与搜索词相关，但视频没有对应的文字性描述，其仍然无法被召回，从而导致召回率低的问题。

技术实现要素：

鉴于上述问题，本发明实施例提供一种视频标签的添加方法及装置、电子设备、计算机可读存储介质，以解决现有技术中，采用视频分析的方式对视频数据添加的文字性描述不够全面，导致视频搜索召回率过低的问题。

在本发明实施的第一方面，提供了一种视频标签的添加方法，所述方法包括：

获取目标视频中的多个视频帧；

对第一视频帧集合中的视频帧进行划分，得到多个帧类；其中，所述第一视频帧集合是所述多个视频帧中添加有文字标签的视频帧的集合；同一所述帧类中的视频帧的文字标签均相同；

根据每个所述帧类中的所述视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定所述第二视频帧集合中的视频帧与所述多个帧类的对应关系；其中，所述第二视频帧集合是所述多个视频帧中未添加有文字标签的视频帧的集合；

根据所述对应关系，对所述第二视频帧集合中的视频帧分别添加其对应的所述帧类指示的文字标签；其中，所述帧类指示的文字标签为所述帧类中的视频帧的文字标签；

根据所述第一视频帧集合中添加有文字标签的视频帧的文字标签以及所述第二视频帧集合中添加有文字标签的视频帧的文字标签，对所述目标视频添加文字标签。

在本发明实施的第二方面，还提供了一种视频标签的添加装置，所述装置包括：

获取模块，用于获取目标视频中的多个视频帧；

划分模块，用于对第一视频帧集合中的视频帧进行划分，得到多个帧类；其中，所述第一视频帧集合是所述多个视频帧中添加有文字标签的视频帧的集合；同一所述帧类中的视频帧的文字标签均相同；

映射模块，用于根据每个所述帧类中的所述视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定所述第二视频帧集合中的视频帧与所述多个帧类的对应关系；其中，所述第二视频帧集合是所述多个视频帧中未添加有文字标签的视频帧的集合；

第一添加模块，用于根据所述对应关系，对所述第二视频帧集合中的视频帧分别添加其对应的所述帧类指示的文字标签；其中，所述帧类指示的文字标签为所述帧类中的视频帧的文字标签；

第二添加模块，用于根据所述第一视频帧集合中添加有文字标签的视频帧的文字标签以及所述第二视频帧集合中添加有文字标签的视频帧的文字标签，对所述目标视频添加文字标签。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述视频标签的添加方法的步骤。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一所述的视频标签的添加方法。

在本发明实施的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述视频标签的添加方法。

针对在先技术，本发明具备如下优点：

本发明提供的视频标签的添加方法，获取目标视频中的多个视频帧；对第一视频帧集合中的视频帧进行划分，得到多个帧类。其中，第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合；同一帧类中的视频帧的文字标签均相同。通过划分将具有相同文字标签的视频帧，划归到一个帧类中，从而生成多个帧类。由于视频帧的内容与视频帧的文字标签相关，每个帧类中的所有视频帧均具有相同的文字标签。因此针对于一个帧类，该帧类中的所有视频帧的内容均与该帧类对应的文字标签相关。其中，帧类对应的文字标签为帧类中视频帧的文字标签。根据每个帧类中的视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定第二视频帧集合中的视频帧与多个帧类的对应关系。其中，第二视频帧集合是多个视频帧中未添加有文字标签的视频帧的集合。通过图片特征比对的方式，确定未添加文字标签的视频帧与帧类的对应关系。即针对未添加文字标签的视频帧，对其和与其内容相关的文字标签指示的帧类建立对应关系。根据对应关系，对第二视频帧集合中的视频帧分别添加其对应的帧类指示的文字标签；其中，帧类指示的文字标签为帧类中的视频帧的文字标签。从而使得添加有文字标签的视频帧的数量得到了增加。根据第一视频帧集合中添加有文字标签的视频帧的文字标签以及第二视频帧集合中添加有文字标签的视频帧的文字标签，对目标视频添加文字标签。本发明避免采用视频分析技术对视频添加一些文字性描述；而是根据视频帧的文字标签，对视频添加文字标签。通过添加有文字标签的视频帧，对未添加文字标签的视频帧添加文字标签，从而提升添加有文字标签的视频帧的数量。根据所有添加有文字标签的视频帧的文字标签，对视频添加文字标签，使得视频的文字标签可以指示大部分视频内容。也就是说当一视频的视频内容与搜索词相关时，该视频很大程度上具有与该搜索词相关的文字标签；从而在使用搜索词搜索时，可以召回视频内容与搜索词相关的大部分视频，提升搜索召回率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频标签的添加方法的步骤流程图；

图2为本发明实施例提供的确定视频帧与帧类的对应关系的步骤流程图；

图3为本发明实施例提供的视频标签的添加装置的结构框图；

图4为本发明实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参见图1，本发明实施例提供了一种视频标签的添加方法，该方法包括：

步骤101，获取目标视频中的多个视频帧。

应当说明的是，多个视频帧为目标视频中的部分或者全部视频帧。目标视频为视频数据，例如目标视频可以为至少一个视频分割而成的视频片段。其中，在分割至少一个视频得到视频片段时，可以按照时长，将视频分割成具有预设时长的视频片段；也可以根据视频内容对视频进行分割。较佳的，可以分别对至少一个视频中的每个视频进行镜头检测，将所述每个视频中属于同一镜头的多个连续视频帧切割为一个视频片段，得到多个视频片段。即将相邻两个相似度值小于预设阈值的视频帧之间作为镜头分割点对视频进行分割，从而得到多个视频片段，每个视频片段的相邻两个视频帧之间的相似度值均高于预设阈值。在得到多个视频片段之后，每一个视频片段均为一个目标视频，然后针对每个视频片段分别进行处理。

步骤102，对第一视频帧集合中的视频帧进行划分，得到多个帧类。

应当说明的是，在获取目标视频中的多个视频帧之后，对多个视频帧中的部分视频帧添加文字标签。被添加文字标签的视频帧的内容与被添加的文字标签相关。第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合。对第一视频帧集合中的视频帧进行划分，也就是对该多个视频帧中添加有文字标签的视频帧进行划分。这里，第一视频帧集合中的视频帧在对多个视频帧中的部分视频帧添加文字标签之后，就已经确定。针对没有被添加文字标签的视频帧，即使后续被重新添加文字标签，其也不属于第一视频帧集合。较佳的，同一帧类中的视频帧的文字标签均相同。

步骤103，根据每个帧类中的视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定第二视频帧集合中的视频帧与多个帧类的对应关系。

应当说明的是，第二视频帧集合是多个视频帧中未添加有文字标签的视频帧的集合。第一视频帧集合和第二视频帧集合中的视频帧来源于同一目标视频。较佳的，可以基于图像识别技术对目标视频的多个视频帧，添加文字标签。采用添加文字标签成功的视频帧组成第一视频帧集合；采用添加文字标签失败的视频帧组成第二视频帧集合。某一视频帧在确定其归属的视频帧集合之后，不会再根据其是否具有文字标签再重新划分其归属。由于同一帧类中的视频帧的文字标签均相同，视频帧的内容与被添加的文字标签相关。因此针对一个帧类，该帧类中的所有视频帧的内容均与同一文字标签相关，各视频帧的图片特征之间具有一定相似度。若第二视频帧集合中的某一个或者多个视频帧的内容与该帧类指示的文字标签相关，即该第二视频帧集合中的某一个或者多个视频帧的图片特征与该帧类下的视频帧的图片特征之间具有一定相似度，则建立该第二视频帧集合中的某一个或者多个视频帧与该帧类的对应关系。其中，帧类指示的文字标签为帧类中的视频帧的文字标签。

步骤104，根据对应关系，对第二视频帧集合中的视频帧分别添加其对应的帧类指示的文字标签。

应当说明的是，帧类指示的文字标签为帧类中的视频帧的文字标签。若第二视频帧集合中的某一个或者多个视频帧与某一帧类具有对应关系，则对该第二视频帧集合中的某一个或者多个视频帧，添加该帧类指示的文字标签，从而增加目标视频中添加有文字标签的视频帧的数量。

步骤105，根据第一视频帧集合中添加有文字标签的视频帧的文字标签以及第二视频帧集合中添加有文字标签的视频帧的文字标签，对目标视频添加文字标签。

应当说明的是，根据所有添加有文字标签的视频帧的文字标签，对目标视频添加文字标签。该所有添加有文字标签的视频帧均属于目标视频。较佳的，可以汇总目标视频中所有添加有文字标签的视频帧，根据每种不同文字标签下的视频帧的数量从大到小进行排序，将排序靠前的若干个文字标签作为目标视频的文字标签。还可以添加预设条件，在符合预设条件时，对目标视频添加文字标签成功。在不符合预设条件时，则对目标视频添加文字标签失败。其中，预设条件与添加有文字标签的视频帧的数量相关，添加有文字标签的视频帧的数量直接决定着目标视频能否成功添加文字标签。例如，在对目标视频添加文字标签时，汇总目标视频中所有添加有文字标签的视频帧，根据每种不同文字标签下的视频帧的数量计算得到目标视频的可信分数，当可信分数超过预设阈值，则应当对目标视频添加文字标签；当可信分数未超过预设阈值，则不对目标视频添加文字标签。

本发明实施例中，获取目标视频中的多个视频帧；对第一视频帧集合中的视频帧进行划分，得到多个帧类。其中，第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合；同一帧类中的视频帧的文字标签均相同。通过划分将具有相同文字标签的视频帧，划归到一个帧类中，从而生成多个帧类。由于视频帧的内容与视频帧的文字标签相关，每个帧类中的所有视频帧均具有相同的文字标签。因此针对于一个帧类，该帧类中的所有视频帧的内容均与该帧类对应的文字标签相关。其中，帧类对应的文字标签为帧类中视频帧的文字标签。根据每个帧类中的视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定第二视频帧集合中的视频帧与多个帧类的对应关系。其中，第二视频帧集合是多个视频帧中未添加有文字标签的视频帧的集合。通过图片特征比对的方式，确定未添加文字标签的视频帧与帧类的对应关系。即针对未添加文字标签的视频帧，对其和与其内容相关的文字标签指示的帧类建立对应关系。根据对应关系，对第二视频帧集合中的视频帧分别添加其对应的帧类指示的文字标签；其中，帧类指示的文字标签为帧类中的视频帧的文字标签。从而使得添加有文字标签的视频帧的数量得到了增加。根据第一视频帧集合中添加有文字标签的视频帧的文字标签以及第二视频帧集合中添加有文字标签的视频帧的文字标签，对目标视频添加文字标签。本发明避免采用视频分析技术对视频添加一些文字性描述；而是根据视频帧的文字标签，对视频添加文字标签。通过添加有文字标签的视频帧，对未添加文字标签的视频帧添加文字标签，从而提升添加有文字标签的视频帧的数量。根据所有添加有文字标签的视频帧的文字标签，对视频添加文字标签，使得视频的文字标签可以指示大部分视频内容。也就是说当一视频的视频内容与搜索词相关时，该视频很大程度上具有与该搜索词相关的文字标签；从而在使用搜索词搜索时，可以召回视频内容与搜索词相关的大部分视频，提升搜索召回率。

可选的，上述步骤102：对第一视频帧集合中的视频帧进行划分，得到多个帧类，可以包括：

将文字标签作为类别对第一视频帧集合中的视频帧进行聚类，得到多个帧类。

应当说明的是，第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合。在获取目标视频中的多个视频帧之后，对多个视频帧中的部分视频帧添加文字标签。被添加文字标签的视频帧的内容与被添加的文字标签相关。

在对视频帧添加文字标签时，可以利用图像识别技术，识别视频帧的内容，然后根据视频帧的内容添加文字标签，但不限于此。例如还可以采用如下方法：

通过计算视频帧与多个预设图片的相似度，得到相似图片；其中，相似图片为多个预设图片按照与视频帧的相似度从大到小进行排序之后的前预设数量的图片；每个预设图片对应至少一个用于表征预设图片的图片内容的文字标签。将全部或者部分相似图片对应的文字标签，确定为视频帧的文字标签。

第一视频帧集合中的视频帧的数量通常较大，不同视频帧的文字标签可以相同或者不同。因此视频帧的文字标签可能涉及多个不同的文字标签。通过聚类算法对第一视频帧集合中的视频帧进行聚类，并以文字标签为类别。使得聚类之后得到的帧类中，同一帧类中的视频帧的文字标签均相同。

本发明实施例中，将文字标签作为类别对第一视频帧集合中的视频帧进行聚类，得到多个帧类。其中，第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合；同一帧类中的视频帧的文字标签均相同。通过聚类的方式将具有相同文字标签的视频帧，划归到一个帧类中，从而生成多个帧类。由于每个帧类中的所有视频帧均具有相同的文字标签，因此针对于一个帧类，该帧类中的所有视频帧的内容均与该帧类对应的文字标签相关。帧类对应的文字标签为帧类中视频帧的文字标签。本发明采用聚类的方式，以文字标签为类别进行聚类，可以快速得到多个帧类，并且不同帧类对应不同文字标签；每一帧类中的所有视频帧的文字标签均相同。

可选的，参见图2，在上述发明实施例的基础上，本发明实施例中，上述步骤103：根据每个帧类中的视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定第二视频帧集合中的视频帧与多个帧类的对应关系，可以包括：

步骤201，根据每个帧类中的视频帧的图片特征，计算得到每个帧类的聚类中心。

应当说明的是，视频帧的图片特征为视频帧的特征向量。该视频帧的特征向量为视频帧的多个特征组成的n维向量，其中n为正整数，并且大于或者等于2。而特征向量中包含的具体特征以及聚类中心的具体计算方式，可以根据采用的聚类算法确定。较佳的，根据每个帧类中的视频帧的图片特征，计算得到每个帧类的聚类中心，具体包括：根据预先训练好的图片特征提取模型，计算每个帧类中的视频帧的特征向量；将每个帧类中的所有视频帧的特征向量的均值，确定为所述帧类的聚类中心。

当然，还可以采用k均值聚类算法(k-meansclusteringalgorithm)对第一视频帧集合中的视频帧进行聚类及求解聚类中心。针对于任一帧类，可以先提取该帧类中视频帧的多个特征值，然后组成对应该视频帧的特征向量。基于该帧类中每个视频帧对应的特征向量求均值，得到该帧类的聚类中心。其中，提取视频帧的特征值以及求取多个特征向量的均值为k均值聚类算法中的常规方法，在此不再赘述。当然计算聚类中心时，并不限于k均值聚类算法，也可以采用其他聚类算法。

步骤202，计算第二视频帧集合中的每个视频帧的图片特征分别与每个聚类中心的距离。

应当说明的是，可以根据两个向量在向量空间上的距离算法，计算第二视频帧集合中的每个视频帧的特征向量分别与每个聚类中心的距离。其中，距离算法可以包括：欧氏距离算法、曼哈顿距离算法、切比雪夫距离算法、余弦距离算法，但不限于此。

步骤203，选择第二视频帧集合中的目标视频帧。

应当说明的是，当第二视频帧集合中的一个视频帧的图片特征，与该多个帧类中的某个帧类的聚类中心之间的距离小于预设阈值，则将该视频帧确定为目标帧类。也就是说多个帧类中至少存在一个帧类的聚类中心与目标视频帧的图片特征之间的距离小于预设阈值。目标视频帧为第二视频帧集合中的视频帧。当目标视频帧的特征向量与所有聚类中心中的第一聚类中心之间的距离最小，并且距离值小于预设阈值时，说明该目标视频帧的内容与第一聚类中心指示的帧类中的视频帧的内容相似度较高，则建立该目标视频帧与第一聚类中心指示的帧类之间的对应关系。

步骤204，建立目标视频帧与目标帧类之间的对应关系。

应当说明的是，目标帧类为多个帧类中距离目标视频帧最近的帧类。也就是说，当每个帧类的聚类中心与目标视频帧的图片特征之间的距离值中，存在多个距离值小于预设阈值。将最小距离值对应的帧类作为目标帧类。

本发明实施例中，根据每个帧类中的视频帧的图片特征，计算得到每个帧类的聚类中心。计算第二视频帧集合中的每个视频帧的图片特征分别与每个聚类中心的距离。选择第二视频帧集合中的目标视频帧；多个帧类中至少存在一个帧类的聚类中心与目标视频帧的图片特征之间的距离小于预设阈值。建立目标视频帧与目标帧类之间的对应关系；目标帧类为多个帧类中距离目标视频帧最近的帧类。由于视频帧的图片特征与聚类中心的距离，可以表征视频帧与聚类中心所属帧类的相关程度，距离越近越相关。因此与目标帧类建立对应关系的目标视频帧，可以认定为与目标帧类特别相关，通过对目标视频帧添加文字标签，不仅可以提升添加有文字标签的视频帧的数量，同时保证了目标视频帧的文字标签与目标视频帧的内容具有一定相关程度，使得目标视频帧的文字标签可以准确表征目标视频帧的内容。

可选的，在上述发明实施例的基础上，本发明实施例中，上述步骤104：根据对应关系，对第二视频帧集合中的视频帧分别添加其对应的帧类指示的文字标签，可以包括：

根据对应关系，将目标视频帧加入其对应的帧类中。

应当说明的是，在采用聚类的方式得到多个帧类之后，通过在帧类中添加目标视频帧，可以调整帧类中所包含的视频帧的数量；进而对帧类的聚类中心产生影响。通过对帧类添加目标视频帧，然后重新计算聚类中心以及重新确定目标视频帧，再次将重新确定的目标视频帧添加至对应的帧类中；按此规律可以实现迭代计算方式。因此通过将目标视频帧加入帧类的方式，为迭代计算方式提供了先决条件。

对每个帧类中的视频帧添加帧类指示的文字标签。

应当说明的是，将目标视频帧加入其对应的帧类之后，部分或者全部帧类中将同时存在添加有文字标签的视频帧以及未添加有文字标签的视频帧。在对帧类中的视频帧添加文字标签时，仅对其中未添加有文字标签的视频帧添加文字标签。

本发明实施例中，根据对应关系，将目标视频帧加入其对应的帧类中，对每个帧类中的视频帧添加帧类指示的文字标签。其中，帧类指示的文字标签为帧类中的视频帧的文字标签。从而使得添加有文字标签的视频帧的数量得到了增加。本发明在对目标视频添加文字标签的过程中，将目标视频帧添加到其对应的帧类中，为迭代计算方式提供了先决条件。

在本发明的又一个实施例中，提供了一种视频标签的添加方法，该方法包括：

采用迭代的方式执行根据每个帧类中的视频帧的图片特征，计算得到每个帧类的聚类中心；计算第二视频帧集合中的每个视频帧的图片特征分别与每个聚类中心的距离；选择第二视频帧集合中的目标视频帧；建立目标视频帧与目标帧类之间的对应关系；根据对应关系，将目标视频帧加入其对应的帧类中；对每个帧类中的视频帧添加帧类指示的文字标签的步骤；

在迭代次数达到预设数值或者每个帧类中的视频帧的数量均不再增加时，停止迭代。

本发明实施例中，采用迭代的方式将未添加有文字标签的视频帧，添加到不同帧类中，从而实现对未添加有文字标签的视频帧添加文字标签。可以最大程度的提升添加有文字标签的视频帧的数量，同时简化整个过程的计算复杂程度。

以上介绍了本发明实施例提供的视频标签的添加方法，下面将结合附图介绍本发明实施例提供的视频标签的添加装置。

参见图3，本发明实施例还提供了一种视频标签的添加装置，该装置包括：

获取模块31，用于获取目标视频中的多个视频帧；

划分模块32，用于对第一视频帧集合中的视频帧进行划分，得到多个帧类；其中，第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合；同一帧类中的视频帧的文字标签均相同；

映射模块33，用于根据每个帧类中的视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定第二视频帧集合中的视频帧与多个帧类的对应关系；其中，第二视频帧集合是多个视频帧中未添加有文字标签的视频帧的集合；

第一添加模块34，用于根据对应关系，对第二视频帧集合中的视频帧分别添加其对应的帧类指示的文字标签；其中，帧类指示的文字标签为帧类中的视频帧的文字标签；

第二添加模块35，用于根据第一视频帧集合中添加有文字标签的视频帧的文字标签以及第二视频帧集合中添加有文字标签的视频帧的文字标签，对目标视频添加文字标签。

可选地，划分模块32，具体用于将文字标签作为类别对第一视频帧集合中的视频帧进行聚类，得到多个帧类。

可选地，映射模块33包括：

第一计算单元，用于根据每个帧类中的视频帧的图片特征，计算得到每个帧类的聚类中心；

第二计算单元，用于计算第二视频帧集合中的每个视频帧的图片特征分别与每个聚类中心的距离；

选择单元，用于选择第二视频帧集合中的目标视频帧；其中，多个帧类中至少存在一个帧类的聚类中心与目标视频帧的图片特征之间的距离小于预设阈值；

映射单元，用于建立目标视频帧与目标帧类之间的对应关系；其中，目标帧类为多个帧类中距离目标视频帧最近的帧类。

可选地，第一添加模块34包括：

第一添加单元，用于根据对应关系，将目标视频帧加入其对应的帧类中；

第二添加单元，用于对每个帧类中的视频帧添加帧类指示的文字标签。

可选地，该装置还包括：第一迭代模块，用于采用迭代的方式执行根据每个帧类中的视频帧的图片特征，计算得到每个帧类的聚类中心；计算第二视频帧集合中的每个视频帧的图片特征分别与每个聚类中心的距离；选择所述第二视频帧集合中的目标视频帧；建立目标视频帧与目标帧类之间的对应关系；根据对应关系，将目标视频帧加入其对应的帧类中；对每个帧类中的视频帧添加帧类指示的文字标签的步骤。第二迭代模块，用于在迭代次数达到预设数值或者每个帧类中的视频帧的数量均不再增加时，停止迭代。

可选地，第一计算单元，具体用于根据预先训练好的图片特征提取模型，计算每个帧类中的视频帧的特征向量；将每个帧类中的所有视频帧的特征向量的均值，确定为帧类的聚类中心。

本发明实施例提供的视频标签的添加装置能够实现图1至图2的方法实施例中视频标签的添加方法实现的各个过程，为避免重复，这里不再赘述。

本发明的实施例中，获取模块，用于获取目标视频中的多个视频帧；划分模块，用于对第一视频帧集合中的视频帧进行划分，得到多个帧类；其中，第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合；同一帧类中的视频帧的文字标签均相同。通过划分将具有相同文字标签的视频帧，划归到一个帧类中，从而生成多个帧类。由于每个帧类中的所有视频帧均具有相同的文字标签，因此针对于一个帧类，该帧类中的所有视频帧的内容均与该帧类对应的文字标签相关。帧类对应的文字标签为帧类中视频帧的文字标签。映射模块，用于根据每个帧类中的视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定第二视频帧集合中的视频帧与多个帧类的对应关系；其中，第二视频帧集合是多个视频帧中未添加有文字标签的视频帧的集合。通过图片特征比对的方式，确定未添加文字标签的视频帧与帧类的对应关系。即针对未添加文字标签的视频帧，对其和与其内容相关的文字标签指示的帧类建立对应关系。第一添加模块，用于根据对应关系，对第二视频帧集合中的视频帧分别添加其对应的帧类指示的文字标签；其中，帧类指示的文字标签为帧类中的视频帧的文字标签。从而使得添加有文字标签的视频帧的数量得到了增加。第二添加模块，用于根据第一视频帧集合中添加有文字标签的视频帧的文字标签以及第二视频帧集合中添加有文字标签的视频帧的文字标签，对目标视频添加文字标签。本发明避免采用视频分析技术对视频添加一些文字性描述；而是根据视频帧的文字标签，对视频添加文字标签。通过添加有文字标签的视频帧，对未添加文字标签的视频帧添加文字标签，从而提升添加有文字标签的视频帧的数量。根据所有添加有文字标签的视频帧的文字标签，对视频添加文字标签，使得视频的文字标签可以指示大部分视频内容。也就是说当一视频的视频内容与搜索词相关时，该视频很大程度上具有与该搜索词相关的文字标签；从而在使用搜索词搜索时，可以召回视频内容与搜索词相关的大部分视频，提升搜索召回率。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信；

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

获取目标视频中的多个视频帧；

对第一视频帧集合中的视频帧进行划分，得到多个帧类；其中，第一视频帧集合是多个视频帧中添加有文字标签的视频帧的集合；同一帧类中的视频帧的文字标签均相同；

根据每个帧类中的视频帧的图片特征以及第二视频帧集合中的视频帧的图片特征，确定第二视频帧集合中的视频帧与多个帧类的对应关系；其中，第二视频帧集合是多个视频帧中未添加有文字标签的视频帧的集合；

根据对应关系，对第二视频帧集合中的视频帧分别添加其对应的帧类指示的文字标签；其中，帧类指示的文字标签为帧类中的视频帧的文字标签；

根据第一视频帧集合中添加有文字标签的视频帧的文字标签以及第二视频帧集合中添加有文字标签的视频帧的文字标签，对目标视频添加文字标签。

上述终端提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory，简称ram)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digitalsignalprocessing，简称dsp)、专用集成电路(applicationspecificintegratedcircuit，简称asic)、现场可编程门阵列(field－programmablegatearray，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频标签的添加方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的视频标签的添加方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余海铭
技术所有人：北京奇艺世纪科技有限公司
我是此专利的发明人

上一篇：一种湖羊的自动投饲料装置的制作方法
上一篇：饲喂装置、系统、饲喂控制方法和控制器与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。