视频分类快速识别的方法及装置的制造方法

文档序号:9645971阅读:565来源:国知局
视频分类快速识别的方法及装置的制造方法
【技术领域】
[0001]本发明属于计算机视觉技术领域,尤其涉及视频分类快速识别的方法及装置。
【背景技术】
[0002] 视频中内容的识别技术在视频监控、检索、人机交互等领域被广泛应用。近年来, 基于稠密轨迹的特征提取方法以及基于双神经网络(即图像深度网络和光流深度网络)方 法展现出了较好的动作识别能力。然而,虽然所述基于稠密轨迹的特征提取方法以及基于 双神经网络方法可以有效的提高动作识别的准确率,但是由于基于稠密轨迹的特征提取方 法以及基于双神经网络方法都需要计算光流(Opticalflow)信息,而光流信息的计算非常 耗时,从而导致现有基于稠密轨迹的特征提取方法以及基于双神经网络方法在进行视频中 内容识别时耗时较长。

【发明内容】

[0003] 鉴于此,本发明实施例提供一种视频分类快速识别的方法及装置,以解决现有技 术在进行视频中内容识别时耗时较长的问题。
[0004] 第一方面,本发明实施例提供了一种视频分类快速识别的方法,所述方法包括:
[0005] 获取待测试视频,从所述待测试视频的视频码流中提取出运动向量和原始RGB图 像;
[0006] 将所述运动向量转换为运动向量图像;
[0007] 将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中,以获得所述待 测试视频的基于RGB的分类类别置信度;
[0008] 将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中,以获得 所述测试视频的基于运动向量的分类类别置信度;
[0009] 将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融 合,获得所述待测试视频的分类类别置信度;
[0010]将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述 待测试视频中内容所对应的类别。
[0011] 第二方面,一种视频分类快速识别的装置,所述装置包括:
[0012] 测试提取单元,用于获取待测试视频,从所述待测试视频的视频码流中提取出运 动向量和原始RGB图像;
[0013] 转换单元,用于将所述运动向量转换为运动向量图像;
[0014] 第一处理单元,用于将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网 络中,以获得所述待测试视频的基于RGB的分类类别置信度;
[0015] 第二处理单元,用于将所述运动向量图像输入至预定的基于运动向量的增强卷积 神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度;
[0016]融合单元,用于将所述基于RGB的分类类别置信度和所述基于运动向量的分类类 别置信度进行融合,获得所述待测试视频的分类类别置信度;
[0017] 识别单元,用于将所述待测试视频的分类类别置信度中分值最高的一项所对应的 类别作为所述待测试视频中内容所对应的类别。
[0018] 本发明实施例与现有技术相比存在的有益效果是:本发明实施例在测试阶段不需 要计算光流信息,而是直接使用从视频码流中解码得到的运动向量信息,由于不需要通过 相邻两帧计算光流信息,从而解决了现有技术在进行视频中内容识别时耗时较长的问题, 满足了对视频的实时处理需求。而且,与光流信息一样,所述运动向量信息也可以表征相邻 两帧之间的运动信息,并能与原始RGB图像信息互补,从而提升视频中内容识别的能力,具 有较强的易用性和实用性。
【附图说明】
[0019] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些 附图获得其他的附图。
[0020] 图1是本发明实施例提供的视频分类快速识别的方法的实现流程示意图;
[0021] 图2是本发明实施例提供的运动向量与光流的示意图;
[0022] 图3是本发明实施例提供的视频分类快速识别的装置的组成结构示意图。
【具体实施方式】
[0023] 以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具 体细节,以便透切理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体 细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电 路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
[0024] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0025] 请参阅图1,图1示出了本发明实施例提供的视频分类快速识别的方法的实现流 程,该方法可适用于各类终端设备,如个人计算机、平板电脑、手机等。该方法过程详述如 下:
[0026] 步骤S101,获取待测试视频,从所述待测试视频的视频码流中提取出运动向量和 原始RGB图像。
[0027] 在本实施例中,所述运动向量表示相邻两帧图像中,局部图像块的平移量。由于视 频压缩标准如H.264、MPEG等利用运动向量实现对视频数据的压缩,因此运动向量可以快速 从视频中提取。例如,使用视频解码器对所述待测试视频进行解码,从解码后的视频码流中 获得具有运动信息的运动向量以及原始RGB图像。
[0028] 在步骤S102中,将所述运动向量转换为运动向量图像。
[0029] 在本实施例中,由于所述运动向量是基于视频编码中宏块的模式进行编码,运动 向量表示的是宏块的运动信息,而宏块的大小为8X8或16X16。因此,在将所述运动向量转 换为运动向量图像时,本发明采用填充的方式,将所述运动向量赋值给大小为8X8或16X 16的宏块。另外,由于在视频编码中存在自编码帧(I-frame),I-frame不包含任何运动向量 信息。所以针对I-frame,本发明I-frame将前一帧的运动向量直接赋值到该I-frame中,而 视频编码中存在的另外两种编码帧:P-frame和B-frame都具有运动信息,所以无需进一步 处理。
[0030] 在步骤S103中,将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络 中,以获得所述待测试视频的基于RGB的分类类别置信度;
[0031] 在步骤S104中,将所述运动向量图像输入至预定的基于运动向量的增强卷积神经 网络中,以获得所述测试视频的基于运动向量的分类类别置信度。
[0032] 在本实施例中,所述预定的基于RGB图像的卷积神经网络以及基于运动向量的增 强卷积神经网络是在训练阶段获得,具体的是:
[0033] 从训练集中抽取出训练视频,并从所述训练视频的视频码流中提取出运动向量图 和原始RGB图像;
[0034] 将所述运动向量转换为运动向量图像;
[0035] 基于视频的类别标定信息和所述训练视频的视频码流中提取出的原始RGB图像训 练获得基于RGB图像的卷积神经网络,并基于视频的类别标定信息、该运动向量图像和已经 训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。
[0036] 较佳的,由于训练基于运动向量的增强卷积神经网络需要运动向量图像以及已经 训练完成的基于光流的卷积神经网络的参数,因此下面具体说明如何从运动向量图像中训 练得到基于运动向量的增强卷积神经网络:
[0037] 设定已经训练完成的基于光流的卷积神经网络为T,其参数为 J;二彳/^^.,^^,...,埘…为丁的层数义定待训练的基于运动向量的增强卷积神经网络 为S,其参数为1=试:,<,...,仏《 = 1,...,]¥}』为5的层数,1'与5的结构相同,巧与?^的结构 相同;
[0038] 通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于 运动向量的增强卷积神经网络S的参数,即# = ,k=l,. . .,N;其中,<、巧分别为S和T关 于第k层的参数;
[0039] 设定所述训练视频中内容所对应的类别为Q,S的第N层输出为Sf,第N-1层输出为 5^-l,.其中 (.SgUhsoftmax表示softmax函数,softmax函数设定为:
'x表示softmax函数的输入向量,m表示x的维度,i 表示输入或输出向量的某一维(例如第1维、第2维等)的指标,示将输入向量X的每一 维计算#之后进行相加,并设定Q与Sf的损失函数Ζ丨,其中1[χ]为 示性函数,当Q=i时,l[Q=i] =l,其余情况均等于0,#切表示S的第Ν层输出的第i维; m
[0040] 设定T的第N-1层输出为If'损失函数=-Σ*Ρ/丨Ι,Ρ??_丨,其中m为PsU}和Ρτ /-1 {i}的维度,Ps和Ρτ分别为
车中Temp为温度参数, 用来调节输出分布,Ps {i}表示Ps的第i项,Ρτ{i}表示Ρτ的第i项;
[0041 ]通过最小化损失函数L获得基于运动向量的增强卷积神经网络,其中L=Lct+wLtsl,w为预先设定的Lgt和Ltsl的权重,例如w=Temp2。
[
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1