视频分类快速识别的方法及装置的制造方法_2

文档序号:9645971阅读:来源:国知局
0042] 在步骤S105中,将所述基于RGB的分类类别置信度(RGBScore)和所述基于运动向 量的分类类别置信度(MVScore)进行融合,获得所述待测试视频的分类类别置信度。
[0043]其中,所述融合可以是将基于RGB的分类类别置信度与基于运动向量的分类类别 置信度求均值。
[0044]在步骤S106中,将所述待测试视频的分类类别置信度中分值最高的一项所对应的 类别作为所述待测试视频中内容所对应的类别。
[0045]需要说明的是,现有无论是基于特征向量及特征描述的算法,或是基于深度学习 的算法都需要提前计算光流。但光流的计算是十分耗时的,在特征向量及特征描述这类算 法中,光流的计算可以占到50%,而在深度学习的算法中,即使有GPU进行加速计算,计算光 流的时间仍然开销很大。每秒只能处理16.7帧,无法达到实时视频处理的要求。基于此,本 发明使用运动向量代替光流计算,由于运动向量在视频编码阶段被直接编码在视频码流 中,所以只需从码流中解码即可,其每秒可以处理735帧,从而解决了现有视频中内容识别 的速度瓶颈,满足了对视频的实时处理需求。另外,由于所述运动向量具有较光流更为粗糙 的结构以及不准确的运动信息,例如包含比光流更多的噪声信息,如图2所示(图2是运动向 量与光流的示意图,左侧图为原始图像,中间图为X分量的运动向量和光流的可视化图像, 右侧图为Y分量的运动向量和光流的可视化图像。其中MotionVector代表运动向量, OpticalFlow代表光流。从图2中可以看出运动向量比光流更为粗糙,并且包含更多噪声 点),因此如果直接使用运动向量代替光流会导致识别的准确率降低。因此,本发明还提出 了一种基于运动向量的增强卷积神经网络的算法,该算法能够在测试阶段通过运动向量获 得一个能够实时处理的网络,并且在数据集的测试过程中,此网络能够在不影响运行速度 的情况下获得与光流网络识别准确率相近的效果。
[0046]本发明经过大量实验,在多个测试数据集上使用本发明所述方法均获得较好的视 频中内容识别效果以及较高的识别速度,如表1、表2所示:
[0047]
[0049]表1
[0050]
[0051] 表 2
[0052]图3为本发明实施例提供的视频分类快速识别的装置的组成结构示意图。为了便 于说明,仅示出了与本发明实施例相关的部分。
[0053]所述视频分类快速识别的装置可应用于各种终端设备,例如口袋计算机(Pocket PersonalComputer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(Personal DigitalAssistant,Η)Α)等,可以是运行于这些终端内的软件单元、硬件单元或者软硬件 相结合的单元,也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统 中。
[0054]所述视频分类快速识别的装置包括:
[0055]测试提取单元31,用于获取待测试视频,从所述待测试视频的视频码流中提取出 运动向量和原始RGB图像;
[0056]转换单元32,用于将所述运动向量转换为运动向量图像;
[0057] 第一处理单元33,用于将所述原始RGB图像输入至预定的基于RGB图像的卷积神经 网络中,以获得所述待测试视频的基于RGB的分类类别置信度;
[0058]第二处理单元34,用于将所述运动向量图像输入至预定的基于运动向量的增强卷 积神经网络中,以获得所述测试视频的基于运动向量的分类类别置信度;
[0059]融合单元35,用于将所述基于RGB的分类类别置信度和所述基于运动向量的分类 类别置信度进行融合,获得所述待测试视频的分类类别置信度;
[0060]识别单元36,用于将所述待测试视频的分类类别置信度中分值最高的一项所对应 的类别作为所述待测试视频中内容所对应的类别。
[0061]进一步的,所述装置还包括:
[0062]训练提取单元37,用于从训练集中抽取出训练视频,并从所述训练视频的视频码 流中提取出运动向量图和原始RGB图像;
[0063]所述转换单元32,用于将所述训练视频的视频码流中提取出的运动向量转换为运 动向量图像;
[0064]第三处理单元38,用于基于所述训练视频的视频码流中提取出的原始RGB图像和 视频的类别标定信息训练获得基于RGB图像的卷积神经网络,并基于该运动向量图像、视频 的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增 强卷积神经网络。
[0065] 进一步的,所述第三处理单元38包括:
[0066]第一设定模块381,用于设定已经训练完成的基于光流的卷积神经网络为T,其参 数为^^丨匕:^^:^:^^…州为丁的层数义定待训练的基于运动向量的增强卷积神 经网络为S,其参数为5;,. = {5;1,.,5^...4> = 1,...,#)4为5的层数,1'与5的结构相同,1^与1^ 的结构相同;
[0067]初始化模块382,用于通过所述已经训练完成的基于光流的卷积神经网络T的参数 初始化待训练的基于运动向量的增强卷积神经网络S的参数,即< = <汴=1,...,N;其中, <、G分别为S和T关于第k层的参数;
[0068] 第二设定模块383,用于设定所述训练视频中内容所对应的类别为Q,S的第N层输 出为#.,第N-1层输出为Sf-S其中f'vo/hmix(S^Hsoftmax表示softmax函数, softmax函数设定为
_*softmax函数的输入 向量,m表示x的维度,i表示输入或输出向量的某一维的指标,Σι表示将输入向量x的每一 维计算#之后进行相加,并设定Q与Sf的损失函
其中l[x]为 示性函数,当Q=i时,l[Q=i] =l,否则为0; 辑表示S的第N层输出的第i维;
[0069] 第三设定模块3 8 4,用于设定T的第N- 1层输出为If1,损失函数
其中m为Ps {i}和Ρτ{i}的维度,Ps和Ρτ分别为:
中Temp为温度参数,Ps{i}表示Ps的第i项,PT{i}表 不Ρτ的第i项;
[0070] 获得模块385,用于通过最小化损失函数L获得基于运动向量的增强卷积神经网 络,其中L=Lgt+wLtsl,w为预先设定的Lgt和Ltsl的权重。
[0071] 进一步的,所述转换单元32具体用于:
[0072] 采用填充的方式,将所述运动向量赋值给大小为8X8或16X16的宏块,并将所述 宏块中不包含运动向量信息的自编码帧的前一帧的运动向量赋值给所述自编码帧,以得到 所述运动向量图像。
[0073] 综上所述,本发明实施例与现有技术相比存在的有益效果是:1)使用运动向量代 替光流计算,解决了现有技术需要计算光流信息导致的耗时较长的问题,满足了对视频的 实时处理需求;2)考虑了光流网络与运动向量网络的互补性,提出了增强运动向量的卷积 神经网络,从而提升了基于运动向量的卷积神经网络的效果;3)将增强运动向量的卷积神 经网络与基于RGB图像的卷积神经网络相结合,获得了较好的识别效果以及较高的识别速 度。另外,本发明实施例在实现上述过程中,不需要增加额外的硬件,可有效降低成本,具有 较强的易用性和实用性。
[0074] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功 能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能 单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述 的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可 以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名 称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中各单元的具体 工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0075] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单 元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟 以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员 可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出 本发明的范围。
[0076] 在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的 方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为 一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或 者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互 之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连 接,可以是电性,机械或其它的形式。
[0077]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1