本发明属于视频技术领域,尤其涉及一种视频情感内容的获取方法及系统。
背景技术:
随着视频数量的爆炸性增长,自动化的视频内容分析技术在很多应用场景中承担着重要的角色,比如视频检索、视频总结、视频质量评估等。因此,亟需一种能够自动分析视频内容的技术来帮助更好地管理和组织视频,同时通过这些技术可以帮助用户更快的找到满足其期待的视频集合。传统的视频内容分析技术关注点侧重于视频的语义内容,比如视频内容是关于运动类别的还是新闻事件的。众所周知,当观众观看视频的时候,他们的情绪状态很容易受到视频的内容影响。比如看恐怖电影的时候,观众会感到非常恐怖,相应地,看喜剧的时候会感觉到高兴。如今越来越多的人在互联网上检索视频以满足各种情感需求,比如释放压力、打发无聊。因此有必要去分析视频内容能够给观看者带来怎样的情绪,以及预计视频内容对观众情绪影响的程度大小。不同于传统的视频内容分析技术关注点是视频里面发生的主要事件,视频情感内容分析则是侧重于去预测视频可能带来的情绪反应。通过视频情感内容分析技术,电影制作者和导演可以改变其技术去制作更加符合当前用户情感趋势的电影,用户也可以通过输入其情感需求关键字等去获取更加符合心意的视频作品。
视频情感内容分析技术大致可以分为两种:一种是直接去分析视频的内容来预测其可能产生的情绪,另一种是间接的通过一些物理设备去分析观看者的情绪响应。上述两种方法均大致可以分成两个步骤:特征提取、特征映射。本申请的发明人在实施本申请的过程中发现,在预测观众观看视频后可能产生的情绪方面,间接的方法具有较高的预测准确率,但是在特征提取这一步,需要用户穿戴一些传感器和脑电仪等设备,无形中干扰了观众真实的想法,同时使用该方法收集特征也需要较多的人力和财力去收集生理信号等。而不同于间接的方法需要其他的设备和全程的人员参与,直接的视频情感内容分析技术仅仅需要分析视频内容去预测其可能带给观看者的情绪,仅仅在训练阶段需要收集用户的打分,后期预测完全不需要观看者的参与。目前关于直接的视频情感内容分析技术大多数关注于怎样有效的提取更多的特征用于视频情感内容分析,而没有通过技术去分析在大量的高维特征中哪些与情绪相关,同时哪些特征能够有效地传播视频的情感信息。
技术实现要素:
本发明所要解决的技术问题在于提供一种视频情感内容的获取方法及系统,旨在解决现有技术中没有通过技术去分析在大量的高维特征中哪些与情绪相关,同时哪些特征能够有效地传播视频的情感信息。
本发明是这样实现的,一种视频情感内容的获取方法,包括:
接收待分析视频;
获取所述待分析视频的音频和视频特征及关键帧;
将所述关键帧分割成若干感兴趣块,并提取所述感兴趣块的图片特征;
根据所述音频和视频特征和所述感兴趣块的图片特征进行视频情感内容分析,得到所述待分析视频的视频情感内容。
进一步地,所述将所述关键帧分割成若干感兴趣块,并提取所述感兴趣块的图片特征包括:
对所述关键帧进行距离顺序排序,得到排序后的关键帧序列;
按照预置提取规则从所述关键帧序列中提取若干待分割关键帧;
利用尺寸不变特征变换算法检测所述待分割关键帧的关键点,根据检测结果对所述待分割关键帧进行分割,得到若干所述感兴趣块;
利用卷积神经网络提取所述感兴趣区域的图片特征。
进一步地,所述对所述关键帧进行距离顺序排序,得到排序后的关键帧序列包括:
获取每一关键帧的颜色直方图,并根据所有所述关键帧的颜色直方图计算平均颜色直方图;
计算每一关键帧的颜色直方图与所述平均颜色直方图的曼哈顿距离;
按照曼哈顿距离由短到长的顺序,对所述关键帧进行排序,得到排序后的关键帧序列。
进一步地,在对所述关键帧进行顺序排序,得到排序后的关键帧序列之后,还包括:
对所述关键帧序列中的关键帧进行人脸检测,根据检测结果得到包含人脸的关键帧和不包含人脸的关键帧;
按照预置排序规则构成不包含人脸的关键帧的无人脸序列,及包含人脸的关键帧的人脸序列;
则所述按照预置提取规则从所述关键帧序列中提取若干待分割关键帧包括;
保留所述无人脸序列和所述人脸序列中的每一关键帧在所述关键帧序列中的相对顺序;
根据所述无人脸序列和所述人脸序列构建新的关键帧序列;
从所述新的关键帧序列中顺序提取若干关键帧,作为待分割关键帧。
进一步地,所述根据所述音频和视频特征和所述感兴趣块的图片特征进行视频情感内容分析,得到所述待分析视频的视频情感内容包括:
将所述音频和视频特征和所述感兴趣块的图片特征进行线性融合,得到特征集合;
以径向基函数为核函数,采用支持向量机和支持向量回归将所述特征集合映射到情感空间中,得到所述待分析视频的视频情感内容。
本发明还提供了一种视频情感内容的获取系统,包括:
获取单元,用于接收待分析视频,获取所述待分析视频的音频和视频特征及关键帧;
分割单元,用于将所述关键帧分割成若干感兴趣块,并提取所述感兴趣块的图片特征;
分析单元,用于根据所述音频和视频特征和所述感兴趣块的图片特征进行视频情感内容分析,得到所述待分析视频的视频情感内容。
进一步地,所述分割单元包括:
关键帧排序模块,用于对所述关键帧进行距离顺序排序,得到排序后的关键帧序列;
关键帧提取模块,用于按照预置提取规则从所述关键帧序列中提取若干待分割关键帧;
关键帧分割模块,用于利用尺寸不变特征变换算法检测所述待分割关键帧的关键点,根据检测结果对所述待分割关键帧进行分割,得到若干所述感兴趣块;
特征提取模块,用于利用卷积神经网络提取所述感兴趣区域的图片特征。
进一步地,所述关键帧排序模块具体用于:
获取每一关键帧的颜色直方图,并根据所有所述关键帧的颜色直方图计算平均颜色直方图;
计算每一关键帧的颜色直方图与所述平均颜色直方图的曼哈顿距离;
按照曼哈顿距离由短到长的顺序,对所述关键帧进行排序,得到排序后的关键帧序列。
进一步地,所述关键帧排序模块还用于:
对所述关键帧序列中的关键帧进行人脸检测,根据检测结果得到包含人脸的关键帧和不包含人脸的关键帧;
按照预置排序规则构成不包含人脸的关键帧的无人脸序列,及包含人脸的关键帧的人脸序列;
则所述关键帧提取模块还用于;
保留所述无人脸序列和所述人脸序列中的每一关键帧在所述关键帧序列中的相对顺序;
根据所述无人脸序列和所述人脸序列构建新的关键帧序列;
从所述新的关键帧序列中顺序提取若干关键帧,作为待分割关键帧。
进一步地,所述分析单元具体用于:
将所述音频和视频特征和所述感兴趣块的图片特征进行线性融合,得到特征集合;
以径向基函数为核函数,采用支持向量机和支持向量回归将所述特征集合映射到情感空间中,得到所述待分析视频的视频情感内容。
本发明与现有技术相比,有益效果在于:本发明实施例通过获取待分析视频的音频和视频特征及关键帧,将该关键帧分割成若感兴趣块并获取该感兴趣块的图片特征,最后用待分析视频的音频和视频特征集图片特征进行视频情感内容的分析,并最终得到该待分析视频的视频情感内容。本发明不仅仅利用传统的音频和视频特征,还利用了待分析视频的图片特征来进行视频情感内容的分析,相较于传统的视频情感内容分析方法,本发明实施例在分类问题上提高了视频情感内容识别的准确率,在预测问题上降低了均方误差。
附图说明
图1是本发明一实施例提供的视频情感内容的获取方法的流程图;
图2是本发明另一实施例提供的视频情感内容的获取方法的流程图;
图3是本发明又一实施例提供的视频情感内容的获取方法的流程图;
图4是本发明又一实施例提供的视频情感内容的获取系统的结构示意图;
图5是本发明又一实施例提供的分割单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明一实施例提供视频情感内容的获取方法,包括:
s101,接收待分析视频。
s102,获取所述待分析视频的音频和视频特征及关键帧。
s103,将所述关键帧分割成若干感兴趣块,并提取所述感兴趣块的图片特征。
在本步骤中,利用尺度不变特征变换(scale-invariantfeaturetransform,sift)描述子来检测关键帧中的关键点,并根据检测结果将关键帧分割成一个个的感兴趣块(patch),最后利用卷积神经网络(convolutionalneuralnetwork,cnn)提取这些感兴趣块的深度特征用于下一步地视频情感内容分析。
s104,根据所述音频和视频特征和所述感兴趣块的图片特征进行视频情感内容分析,得到所述待分析视频的视频情感内容。
图2示出了本发明提供另一实施例,一种视频情感内容的获取方法,包括:
s201,接收待分析视频。
s202,获取所述待分析视频的音频和视频特征及关键帧。
s203,对所述关键帧进行距离顺序排序,得到排序后的关键帧序列。
s204,按照预置提取规则从所述关键帧序列中提取若干待分割关键帧。
在本步骤中,提取关键帧序列中的前几个关键帧用于视频情感内容分析。
s205,利用尺寸不变特征变换算法检测所述待分割关键帧的关键点,根据检测结果对所述待分割关键帧进行分割,得到若干所述感兴趣块;
s206,利用卷积神经网络提取所述感兴趣区域的图片特征。
s207,将所述音频和视频特征和所述感兴趣块的图片特征进行线性融合,得到特征集合。
s208,以径向基函数为核函数,采用支持向量机和支持向量回归将所述特征集合映射到情感空间中,得到所述待分析视频的视频情感内容。
在上述步骤s203中,获取每一关键帧的rgb颜色直方图,并根据所有所述关键帧的rgb颜色直方图计算平均颜色直方图,计算每一关键帧的颜色直方图与所述平均颜色直方图的曼哈顿距离,最后按照曼哈顿距离由短到长的顺序,对所述关键帧进行排序,得到排序后的关键帧序列。
为了能够根据待分析视频中的关键人物,特别是主角的情绪变化进行视频情感内容分析,在步骤203之后,还包括:对所述关键帧序列中的关键帧进行人脸检测,根据检测结果得到包含人脸的关键帧和不包含人脸的关键帧;按照预置排序规则构成不包含人脸的关键帧的无人脸序列,及包含人脸的关键帧的人脸序列,则步骤s204具体包括:保留所述无人脸序列和所述人脸序列中的每一关键帧在所述关键帧序列中的相对顺序;根据所述无人脸序列和所述人脸序列构建新的关键帧序列;从所述新的关键帧序列中顺序提取若干关键帧,作为待分割关键帧。
下面结合图3对本实施例进行进一步地解释:
本发明实施例提供的视频情感内容的获取方法的主要流程如图3所示,对于进入获取系统的每一待分析视频,提取其音频和视频特征,以及关键帧等特征。在提取完关键帧后采用人脸检测的方法提取关键帧中包含人脸的关键帧,利用sift算子将这些带人脸的关键帧分割成多个的感兴趣块(patch)。对于从同一个视频中提取的感兴趣块标记相同的标签。接下来需要利用卷积神经网络(cnn)提取感兴趣块对应的图片特征。这里采用之前在imagenet上训练好的模型来初始化整个网络,从关键帧中提取的感兴趣块则作为网络的输入部分,网络fc7层的权值则作为最终的图片特征输出。在获得了待分析视频的这些特征(音频、视频、图片)后,采用svm(supportvectormachine,支持向量机)和svr(supportvectorregression,支持向量回归)进行视频情感内容分析。
以下为各个部分的详细介绍:
一、特征提取
在发明提供的实施例中,采用三种不同的特征来进行情感分析:音频、视频和静态图像特征。关于视频和音频特征本实施例采用的有:melfrequencycepstralcoefficents(梅尔频率倒谱系数)、audioflatness(音频平整度)、colorfulness(色度)、medianlightness(平均亮度)、normalizednumberofwhiteframes(归一化白帧数)、numberofscenecutsperframe(每帧镜头数)、cutlength(镜头长度)、zero-crossingrate(高过零比)、maxsaliencycount(最大显著数)。
以下介绍静态图像特征的提取过程:
假设一个待分析视频v包含n个关键帧,v={f1,f2,...,fn-1,fn},其中fi定义为待分析视频v中的第i个关键帧,第i个关键帧的rgb颜色直方图定义为h(fi).两个关键帧i和j之间的曼哈顿距离d通过下面的公式计算获得:
d(fi,fj)=|h(fi)-h(fj)|(1)
对应的关键帧通过公式(2)计算,它被定义为距离待分析视频v中所有关键帧的平均rgb颜色直方图最近的帧。
其中
二、基于主角属性的视频情感内容分析
而在实际观影效果中,观众在观看视频的时候更容易受到关键人物的人脸,特别是主角的吸引进而产生对应的情绪,因此在本实施例中还考虑到不能仅仅是将整个关键帧用于视频情感内容分析,而应该有所甄别。在上述的关键帧提取中获得了一个关键帧序列l={f1′,f2′,...,f′n-1,fn′}。为了获得更加强有力的特征用于情感分析,本实施例对上述序列l中的关键帧进行人脸检测,那些不包含人脸的关键帧构成一个新的序列la,剩下包含人脸的则构成序列lb。序列a和b中的关键帧都保留了他们在原始序列l中相对的顺序。最终得到了一个待分析视频v中新的所有关键帧的序列l'如下:
l′={lb,la}(3)
考虑到一个关键帧不够用来表征待分析视频的情感内容,本实施例中采用新的所有关键帧的序列l′的前几个关键帧用来进行情感内容分析。对于任一个关键帧,并不是所有的部分都能够用来表征视频的情感内容,因此本实施例采用sift描述子去检测关键帧中的关键点,然后基于这些关键点将关键帧分割成一个个的感兴趣块。假设待分析视频片段v中,x是从待分析视频v中提取的音频和视频特征,经过关键帧提取和分割的步骤后获得了n个感兴趣块,则v={p1,p2,...,pn-1,pn},其中pn是从v中提取的第n个感兴趣块。对于感兴趣块pn,采用一个提前训练好的卷积神网络模型,获得了一个4096维度的特征向量
其中f(pi)被定义为第i个感兴趣块用于视频情感内容分析的特征集合。对于待分析视频v,最终用于情感计算的特征集合f(v)如下:
经过上述几个特征提取步骤后,待分析视频v被扩充到n个感兴趣块(patch)用来进行情感分析,在本实施例中,从同一个待分析视频v中提取的感兴趣块的标签都是相同的。在将这些特征用于情感分析之前,本实施例对所有提取到的特征进行数据标准化操作,最后采用svm和svr将特征映射到情感空间中,具体地,本实施例利用libsvm实现svm和svr,其中采用rbf作为核函数,利用网格搜索获取c,γ和p参数的值。
对比之前用于视频情感内容分析的方法,本实施例一定程度上提高了视频情感内容识别的准确率(在分类问题上)、降低了均方误差(在预测问题上),这主要得益于以下几点:
1、在特征提取这一步,不止利用传统的音频和视频等特征,还加入了视频的静态图像特征,同时提取特征的方法也不是采用简单的纹理、颜色、形状等较为底层的特征,而是利用卷积神经网络去提取更加深层的特征。
2、将关键帧用于情感内容分析过程中不是粗暴的直接将整个关键帧用于情感分析,而是利用sift描述子检测到关键点后再根据关键点提取感兴趣块并用于最后的结果分析。
3、传统的特征提取仅仅考虑提取更多的特征,而忽略了在这些特征中哪些特征是能够有效地用来传递情感信息,本实施例中首次提出并采用基于主角属性(即人脸)进行视频情感内容分析。
本发明还提供了如图4所示的一种视频情感内容的获取系统,包括:
获取单元401,用于接收待分析视频,获取所述待分析视频的音频和视频特征及关键帧;
分割单元402,用于将所述关键帧分割成若干感兴趣块,并提取所述感兴趣块的图片特征;
分析单元403,用于根据所述音频和视频特征和所述感兴趣块的图片特征进行视频情感内容分析,得到所述待分析视频的视频情感内容。
进一步地,如图5所示,分割单元402包括:
关键帧排序模块4021,用于对所述关键帧进行距离顺序排序,得到排序后的关键帧序列;
关键帧提取模块4022,用于按照预置提取规则从所述关键帧序列中提取若干待分割关键帧;
关键帧分割模块4023,用于利用尺寸不变特征变换算法检测所述待分割关键帧的关键点,根据检测结果对所述待分割关键帧进行分割,得到若干所述感兴趣块;
特征提取模块4024,用于利用卷积神经网络提取所述感兴趣区域的图片特征。
进一步地,关键帧排序模块4021具体用于:
获取每一关键帧的颜色直方图,并根据所有所述关键帧的颜色直方图计算平均颜色直方图;
计算每一关键帧的颜色直方图与所述平均颜色直方图的曼哈顿距离;
按照曼哈顿距离由短到长的顺序,对所述关键帧进行排序,得到排序后的关键帧序列。
进一步地,关键帧排序模块4021还用于:
对所述关键帧序列中的关键帧进行人脸检测,根据检测结果得到包含人脸的关键帧和不包含人脸的关键帧;
按照预置排序规则构成不包含人脸的关键帧的无人脸序列,及包含人脸的关键帧的人脸序列;
则关键帧提取模块4022还用于;
保留所述无人脸序列和所述人脸序列中的每一关键帧在所述关键帧序列中的相对顺序;
根据所述无人脸序列和所述人脸序列构建新的关键帧序列;
从所述新的关键帧序列中顺序提取若干关键帧,作为待分割关键帧。
进一步地,分析单元403具体用于:
将所述音频和视频特征和所述感兴趣块的图片特征进行线性融合,得到特征集合;
以径向基函数为核函数,采用支持向量机和支持向量回归将所述特征集合映射到情感空间中,得到所述待分析视频的视频情感内容。
本发明提供的上述实施例可用于自动识别、预测电影可能带来的情绪响应,像大型视频网站可以利用本发明提供的上述实施例进行视频分类和标注。上述实施例对于构造具有情感的机器人具有一定的启发作用,机器人通过获取其所看到的画面去预测一个正常人应该有的反应从而自身(机器人)做出符合人类反应的情绪响应。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。