视频的情感标注方法、装置、电子设备及存储介质与流程

文档序号：21728279发布日期：2020-08-05 01:20阅读：267来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及视频技术领域，尤其涉及一种视频的情感标注方法、装置、电子设备及存储介质。

背景技术：
能

随着数字媒体处理技术和计算机网络技术的快速发展以及智能设备的不断普及，数字图像、音频、视频已经逐渐成为信息传播的主要方式。视频由于具有直观生动的特点，应用越来越广泛。

视频内容不仅包含事件和动作,还包含丰富的情感语义信息。而对视频情感语义的研究,既可以提升数字媒体的检索、标注效率,又能够提高数字娱乐产品的情感交互能力和促进人工智能的发展。

现有技术中存在多种情感标注方法，如基于单帧进行情感识别与标注，又如使用3d卷积或者lstm方法对整个视频或者视频中片段进行情感识别与标注。

现有技术中的情感标注方法通常只针对整个视频进行情感标注，但在一个视频中往往存在着多种情感，特别是视频中的不同人物会有不同的情感。现有技术中的情感标注方法无法针对视频中的人物进行个性化的情感标注。

技术实现要素：

本发明实施例提供一种视频的情感标注方法、装置、电子设备及存储介质，用以解决现有技术中的视频情感标注方法无法针对视频中的人物进行个性化的情感标注的缺陷。

本发明第一实施例提供一种视频的情感标注方法，包括：

从待处理视频中获取图像与音频信息；

对所获取的图像进行人脸识别，将同一人的、时间上相邻的人脸图像构建成人脸图像序列；

根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为每一个人脸图像序列确定情感类别。

上述技术方案中，还包括：

确定所述人脸图像序列的情感分数；其中，所述情感分数用于描述情感的强烈程度；

根据所述人脸图像序列的情感类别与情感分数，结合所述待处理视频的时间信息，确定所述待处理视频所包含的情感类别以及所述待处理视频所包含的情感类别的时间信息。

上述技术方案中，所述根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为每一个人脸图像序列确定情感类别包括：

根据所述人脸图像序列中的图像提取所述人脸图像序列的图像情感特征；其中，所述图像情感特征是图像中用于反映人类情感的特征；

根据所述人脸图像序列所对应的音频信息提取人脸图像序列的音频情感特征；其中，所述音频情感特征是音频中用于反映人类情感的特征；

根据所述人脸图像序列的图像情感特征和音频情感特征为所述人脸图像序列计算多个候选情感类别的分数，根据所述多个候选情感类别的分数的比较结果确定所述人脸图像序列的情感类别。

上述技术方案中，所述确定所述人脸图像序列的情感分数包括：

将确定为所述人脸图像序列的情感类别的候选情感类别的分数作为所述人脸图像序列的第一情感分数；

根据所述人脸图像序列的第一情感分数以及所述人脸图像序列所对应的人物的权重计算所述人脸图像序列的情感分数。

上述技术方案中，还包括：

将所述人脸图像序列的第一情感分数与可信度阈值进行比较，根据比较结果去除第一情感分数低于可信度阈值的人脸图像序列。

上述技术方案中，所述人物的权重根据所述人物在待处理视频中的角色以及在待处理视频中的出场时间确定。

上述技术方案中，所述根据所述人脸图像序列的情感类别与情感分数，结合所述待处理视频的时间信息，确定所述待处理视频所包含的情感类别以及所述待处理视频所包含的情感类别的时间信息包括：

人脸图像序列选取步骤，包括从当前未处理的人脸图像序列中选取情感分数最高的人脸图像序列；

标注时间信息步骤，包括将所选取的人脸图像序列所对应的时间段标记为该人脸图像序列的情感类别，判断所选取的人脸图像序列所对应的时间段是否与其他人脸图像序列所对应的时间段重合，如果有重合，在情感分数较低的人脸图像序列中去除重合时间段的图像；

重复执行所述的人脸图像序列选取步骤和标注时间信息步骤，直至待处理视频中的所有人脸图像序列都已经被处理；

根据待处理视频中的时间段所标记的情感类别，得到所述待处理视频所包含的情感类别以及所述待处理视频所包含的情感类别的时间信息。

本发明第二方面实施例提供一种视频的情感标注装置，包括：

信息获取模块，用于从待处理视频中获取图像与音频信息；

人脸识别与人脸图像序列构建模块，用于对所获取的图像进行人脸识别，将同一人的、时间上相邻的人脸图像构建成人脸图像序列；

情感类别确定模块，用于根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为每一个人脸图像序列确定情感类别。

本发明第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述视频的情感标注方法的步骤。

本发明第四方面实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述视频的情感标注方法的步骤。

本发明实施例提供的视频的情感标注方法、装置、电子设备及存储介质能够从待处理的视频中区分出不同的人物，并为这些人物实现了个性化的情感标注。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频的情感标注方法的流程图；

图2为对本发明实施例提供的视频的情感标注方法进行说明的一个实例；

图3为本发明实施例提供的一种视频的情感标注装置的示意图；

图4示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的视频的情感标注方法的流程图，如图1所示，本发明实施例提供的视频的情感标注方法包括：

步骤101、从待处理视频中获取图像与音频信息。

在本发明实施例中，待处理视频可以是符合现有技术中的所有编码格式的视频，如符合avi、mov、rmvb、rm、flv、mp4、3gp等编码格式。

待处理视频可以是一个已有视频的全部或部分。例如，从互联网上可获取一部电影的完整视频，在本发明实施例中，可将这整部电影作为待处理的视频，也可以将这部电影的一部分作为待处理视频。

从待处理视频获取图像，首先需要从待处理视频中抽取视频帧，然后根据视频帧获取图像。

如何从待处理视频中抽取视频帧为本领域技术人员的公知常识，因此不在此处重复描述。在本发明实施例中，获取视频帧为获取待处理视频的所有视频帧，在本发明其他实施例中，获取视频帧也可以是获取待处理视频的部分视频帧。例如，从一个电影中获取视频帧时，剔除电影片头和片尾的视频帧。

根据视频帧获取图像也是本领域技术人员的公知常识。例如，对于采用帧内编码模式的视频帧，由单个视频帧即可获取图像，对于采用帧间编码模式的视频帧，根据相邻的多个视频帧可获取图像。

如何从视频中提取音频信息为本领域技术人员的公知常识，因此不在此处重复描述。在本发明实施例中，提取音频信息为提取待处理视频的所有音频信息，在本发明其他实施例中，提取音频信息也可以是提取待处理视频的部分音频信息。例如，从一个电影中提取音频信息时，剔除电影片头和片尾的音频信息。

步骤102、对所获取的图像进行人脸识别，将同一人的、时间上相邻的人脸图像构建成人脸图像序列。

对图像进行人脸识别可采用现有技术中已知的人脸检测算法，如mtcnn、cascadecnn、faceness-net等。

从待处理视频所获取的图像并非都包含人脸，在本步骤中，仅保留包含人脸的图像，并对这些包含人脸的图像进行分组。在本发明实施例中，将包含人脸的图像称为人脸图像，将对人脸图像进行分组所得到的各个组称为人脸图像组。

所述分组是按人分组，即将包含同一个人脸的所有图像分成一组，组内的图像按照在待处理视频中的顺序进行排列。

一个图像中有时会包含多个人脸，因此一个图像有可能会识别出多个人脸。在根据人脸对人脸图像分组时，一个人脸图像有可能会同时包含在多个人脸图像组中。

待处理视频中一般包括有多个人脸，因此所得到的人脸图像组也会有多个。一个人对应一个人脸图像组。

在得到人脸图像组后，在本发明实施例中，采用聚类的方法将时间上相邻的人脸图像构建成人脸图像序列。所述聚类的方法可采用现有技术中已知的聚类算法，如dbscan聚类算法，均值漂移聚类。

以dbscan聚类算法举例，选择待处理视频中出现的某一个人，从第一帧图像开始，统计该图像前后各n帧(例如5帧)范围内出现该人物人脸的帧数，如果大于或等于m(m为阈值，如m的值为5)，则将这些帧归为一类；然后再选择未经统计的某一图像(一般为与已统计图像相邻的未统计图像)做同样的统计和处理；依次处理，直至组内的所有图像均已完成统计。最后将同一类的这些图像作为一个人脸图像序列。需要说明的是，如果某一图像的前帧或后帧数目不足n，那么在统计时可将这些不足n个的前帧或后帧都统计进去。

如果某一图像前后各n帧范围内出现该人物人脸的帧数小于m，而且又没有与其他图像归为一类，则该图像可以忽略。

一般而言，一个人脸图像组中的人脸图像在时间上并不是全部连续的，因此一个人脸图像组可形成一个或多个人脸图像序列。

步骤103、根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为每一个人脸图像序列确定情感类别。

顾名思义，情感类别是指情感的类别，如喜、怒、哀、乐等。对情感可以通过打分的方式来描述情感的强烈程度，如分数越高，则与该分数所对应的情感越强。

在本发明实施例中，基于某一人脸图像序列中的图像以及同一人脸图像序列所对应的音频信息，可以为该人脸图像序列确定情感类别。具体的说，可包括以下步骤：

步骤1031、为每一个人脸图像序列提取图像情感特征。

在本发明实施例中，所述图像情感特征是指图像中能够反映人类情感的特征。图像情感特征是以视频图像信息为输入，通过人工智能算法提取的能被用于情感分类的特征。这些特征难以被人类所理解，但能被基于人工智能算法的分类器所理解，对于情感的类别具有一定的区分度。

在本发明实施例中，采用2d卷积与lstm(longshort-termmemory，长短期记忆网络)相结合的方法或采用3d卷积与lstm相结合的方法提取图像情感特征。

以3d卷积与lstm相结合的方法为例，将某一个人脸图像序列以16帧为一组分成一系列小的片段，使用c3d网络提取每一个小片段的时域和空域特征，再将人脸图像序列中所有小片段的时域特征和空域特征按照时间顺序组成一个用于表征人脸图像序列的特征序列，最后使用lstm算法对所得到的用于表征人脸图像序列的特征序列进行处理，得到所述人脸图像序列的图像情感特征。

步骤1032、为每一个人脸图像序列提取音频情感特征。

在本发明实施例中，所述音频情感特征是指音频中能够反映人类情感的特征。音频情感特征是以视频中的音频信息作为输入，使用算法提取到的可以用于情感分类的特征、具体的说，音频情感特征可以是通过信号处理方法得到的特征如mfcc、短时傅里叶变换，也可以是使用一维卷积网络或者全连接网络提取的特征。

在本发明实施例中，为人脸图像序列提取音频情感特征包括：从提取的音频中将该人脸图像序列对应的时间段截取出来，再根据所述时间段从截取出的音频信息中分离出该人脸图像序列所对应的人物的语音。对分离出的人物语音，首先通过分帧、傅里叶变换得到时域特征和频域特征，然后将这些时域特征和频域特征组合起来，将组合后的特征通过全连接网络提取出该人脸图像序列的音频情感特征。特别的，如果人脸图像序列所对应的音频片段中没有该人脸图像序列所对应的人物的语音，则使用整个片段的音频信息作为处理对象，参照人物语音的音频情感特征提取方法提取整个片段的音频信息的音频情感特征，将提取出的音频情感特征作为人脸图像序列的音频情感特征。

步骤1033、根据所述人脸图像序列的图像情感特征和音频情感特征为所述人脸图像序列计算多个候选情感类别的分数，根据所述多个候选情感类别的分数的比较结果确定所述人脸图像序列的情感类别。

在本发明实施例中，将从同一人脸图像序列提取到的图像情感特征和音频情感特征拼接起来，使用分类器进行情感分类，得到多个候选情感类别以及这些候选情感类别的分数。所述候选情感类别是指人脸图像序列中可能包含的情感类别，如常见的喜怒哀乐等。这些候选情感类别都有对应的分数，以描述情感的强烈程度。

从多个候选情感类别中选取分数最高的情感类别作为人脸图像序列的情感类别，这一情感类别也被称为人脸图像序列的情感标签。例如，一个人脸图像序列有喜、怒、哀和乐这四种情感，这些情感有不同的分数，假如怒这一情感的分数最高，则该人脸图像序列的情感标签为怒。

在本发明实施例中，所述分类器为svm(supportvectormachine，支持向量机)，在本发明的其它实施例中，所述分类器为多层全连接网络与softmax相结合的分类器。所述分类器的样本数据为从已标注好情感的一段视频中提取到的图像情感特征、音频情感特征以及对应的情感信息。

通过以上步骤，实现了对待处理视频中所包含的人脸图像序列的情感类型的确定。由于人脸图像序列对应于某一个特定人物，因此也就得到了待处理视频中各个人物的情感。

本发明实施例提供的视频的情感标注方法能够从待处理的视频中区分出不同的人物，并为这些人物实现了个性化的情感标注。

基于上述任一实施例，在本发明实施例中，还包括：

确定所述人脸图像序列的情感分数；

众所周知，在视频中，不同的情感会出现在视频的不同时间段，持续的时间也有长有短，只靠标注情感类别的标签信息无法体现出情感在视频中出现的位置。因此在本发明实施例中，还需要为情感类别标注时间信息。

具体的说，确定所述人脸图像序列的情感分数进一步包括：

将确定为所述人脸图像序列的情感类别的候选情感类别的分数作为所述人脸图像序列的第一情感分数；

根据所述人脸图像序列的第一情感分数以及所述人脸图像序列所对应的人物的权重计算所述人脸图像序列的情感分数。

不同的人物在视频中有各自的权重。在本发明实施例中，人物在视频中的权重与所扮演的角色有关，也和在视频中出场的时间有关。例如，一个人是主角，权重设置为1，如果是主要配角设置为0.8，如果是次要配角则设置0.6。出场时间的权重可以设定为人物出场的时间占整个视频长度的百分比。人物的权重根据这两部分权重得到，如在一个实施例中，人物权重为角色权重和出场时间权重之和，在另一个实施例中，将角色权重与第一系数的积、出场时间权重与第二系数的积相加，得到人物权重。第一系数、第二系数的具体取值可以根据实际情况确定。

在本发明实施例中，根据人脸图像序列的第一情感分数以及人脸图像序列所对应的人物的权重为每一个人脸图像序列计算情感分数包括：将人脸图像序列的第一情感分数与人脸图像序列所对应的人物的权重相乘，得到该人脸图像序列的情感分数。在本发明其他实施例中，根据人脸图像序列的第一情感分数以及人脸图像序列所对应的人物的权重为每一个人脸图像序列计算情感分数还可以是，将人脸图像序列的第一情感分数以及人脸图像序列所对应的人物的权重各自乘以第三系数和第四系数，然后再将乘以第三系数后的人脸图像序列的第一情感分数与乘以第四系数后的人脸图像序列所对应的人物的权重相乘，得到该人脸图像序列的情感分数。第三系数、第四系数的具体取值可以根据实际情况确定。

通过上述操作，待处理视频中的所有人脸图像序列都会有各自的情感分数。

在本发明实施例中，可采用类似nms((non-maximumsuppression，非极大值抑制)的方法对待处理视频中的所有人脸图像序列的情感分数进行整合，根据整合结果为待处理视频确定所述待处理视频所包含的情感类别以及所述待处理视频所包含的情感类别的时间信息。

具体的说，进一步包括：

人脸图像序列选取步骤，包括从当前未处理的人脸图像序列中选取情感分数最高的人脸图像序列；

重复执行所述的人脸图像序列选取步骤和标注时间信息步骤，直至待处理视频中的所有人脸图像序列都已经被处理；

根据待处理视频中的时间段所标记的情感类别，得到所述待处理视频所包含的情感类别以及所述待处理视频所包含的情感类别的时间信息。

通过上述操作得到了情感在视频中出现的时间标注信息。

本发明实施例提供的视频的情感标注方法增加了对情感出现时间的标注。所增加的时间信息不仅可以提高与情感相关的信息的丰富程度，还能够应用到视频剪辑、精彩部分回放等多种应用场景中。

基于上述任一实施例，在本发明实施例中，还包括：

将人脸图像序列的第一情感分数与可信度阈值进行比较，根据比较结果去除第一情感分数低于可信度阈值的人脸图像序列。

在计算出人脸图像序列的第一情感分数后，可以先将第一情感分数与可信度阈值进行比较，如果低于可信度阈值，证明这一人脸图像序列的可信度较差，可直接去除。无需再为其计算权重、计算情感分数等后续操作。

本发明实施例提供的视频的情感标注方法能够识别出低可信度的人脸图像序列，增加了情感识别的准确性，也有助于降低对计算资源与存储资源的占用。

下面结合一个实例，对本发明实施例提供的视频的情感标注方法进行说明。

图2为对本发明实施例提供的视频的情感标注方法进行说明的一个实例。

在这个实例中，待处理视频中有人物a和人物b。从待处理视频中可得到人物a的两个人脸图像序列，可得到人物b的两个人脸图像序列。

经计算得到人物a的自身权重为1.0，出场时间占比为0.6，其两个人脸图像序列的情感类别和第一情感分数分别为：生气0.6，高兴0.9。

经计算得到人物b的自身权重为0.8，出场时间占比为0.4，其两个人脸图像序列的情感类别和第一情感分数分别为：生气0.9，害怕0.8。

将人物权重与第一情感分数相乘，得到人物a的情感类别为生气的人脸图像序列的情感分数最高，将这一人脸图像序列对应的时间段标注到时间轴上，同时标注生气这一情感类别；将人物b的情感类别为害怕的人脸图像序列中与该时间段重合的部分去掉。

以此类推，将所有情感都在时间轴上标注出来。

所得到的结果为：高兴[18s-28.5s，42s-60s]；生气[0s-18s]；害怕[31.5s-42s]。

基于上述任一实施例，图3为本发明实施例提供的一种视频的情感标注装置的示意图，如图3所示，该装置包括：

信息获取模块301，用于从待处理视频中获取图像与音频信息；

人脸识别与人脸图像序列构建模块302，用于对所获取的图像进行人脸识别，将同一人的、时间上相邻的人脸图像构建成人脸图像序列；

情感类别确定模块303，用于根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为所述人脸图像组内的每一个人脸图像序列确定情感类别。

本发明实施例提供的视频的情感标注装置能够从待处理的视频中区分出不同的人物，并为这些人物实现了个性化的情感标注。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(communicationsinterface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：从待处理视频中获取图像与音频信息；对所获取的图像进行人脸识别，将同一人的、时间上相邻的人脸图像构建成人脸图像序列；根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为每一个人脸图像序列确定情感类别。

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为pc机，还可以为其他设备，只要其结构中包括如图4所示的处理器410、通信接口420、存储器430和通信总线440，其中处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信，且处理器410可以调用存储器430中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：从待处理视频中获取图像与音频信息；对所获取的图像进行人脸识别，将同一人的、时间上相邻的人脸图像构建成人脸图像序列；根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为每一个人脸图像序列确定情感类别。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：从待处理视频中获取图像与音频信息；对所获取的图像进行人脸识别，将同一人的、时间上相邻的人脸图像构建成人脸图像序列；根据所述人脸图像序列中的图像以及所述人脸图像序列所对应的音频信息，为每一个人脸图像序列确定情感类别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵家成
技术所有人：咪咕文化科技有限公司;中国移动通信集团有限公司
我是此专利的发明人

上一篇：一种施工工程放线绑线器的制作方法
上一篇：一种电芯整形装置及其系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。