一种视频语义分析方法

文档序号:9922279阅读:575来源:国知局
一种视频语义分析方法
【技术领域】
[0001] 本发明涉及视频语义检测技术领域,具体而言涉及一种视频语义分析方法。
【背景技术】
[0002] 为了实现视频语义概念的检测,使用了卷积神经网络模型对视频的关键帧集合进 行特征提取的方法,实验证明不同于其他的手动设计特征的提取方式,卷积神经网络模型 本身是从数据中提取出分布式特征,即得到的特征是数据驱动形式的从而能够适应更广的 领域。然而卷积神经网络是有监督学习模型,即在对卷积神经网络模型进行训练的时候,需 要训练数据集,也需要训练数据集对应的标签,而且卷积神经网络的收敛也需要大量的样 本不断的迭代,这对于海量的视频数据的分类检测等任务来说,无法得到每个视频对应的 标签。
[0003] 针对于视频数据上采用具有有监督训练特性的卷积神经网络模型,虽然前人基于 无监督训练的基础上提出了无监督预训练的方法,解决了传统的卷积神经网络收敛慢的问 题;而相比较于图片数据,视频数据在内容上会有着同一个目标的旋转,缩放,平移等现象, 这就需要所使用的特征提取器能够抓取更多复杂不变性的特征,所以如何很好的提取具有 较强不变性的特征成了所需要解决问题。

【发明内容】

[0004] 本发明目的在于提供一种视频语义分析方法,通过将无监督预训练方法的优势和 拓扑特性相结合,使得卷积神经网络能够使用比以往更少的有标签样本,且能够加速收敛 到稳定值。并且基于拓扑特性的引入,使得模型能够提取到具有更强应对目标平移,物体缩 放,对象旋转的特征,提高模型对语义分析检测的准确性和鲁棒性。
[0005] 为了解决以上技术问题,本发明采用的具体技术方案如下:
[0006] -种视频语义分析方法,其特征在于包括以下步骤:
[0007] S1:对视频训练集进行预处理,并构建稀疏线性解码器;
[0008] S2:在稀疏线性解码器上加入拓扑特性约束得到拓扑线性解码器,并将视频训练 集进行图像分块处理建立基于图像块的训练集从而训练拓扑线性解码器;
[0009] S3:将训练好的拓扑线性解码器的权重参数作为卷积神经网络中卷积层的初始参 数;
[0010] S4:采用多倍交叉验证的方式,并基于视频训练集建立关键帧集合对卷积神经网 络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到 的特征输入到支持向量机中进行基于视频语义的分类。
[0011] 在所述的稀疏线性解码器模型构造过程中,先定义一个线性解码器模型,然后在 该模型上引入权重衰减和稀疏正则化项,通过对应的项系数来调整该正则项与整个目标函 数之间的重要相关性,具体实现过程如下:
[0012] 过程si 1:令视频训练集中的视频数量用m表示,其中第mf个视频的共有mF(mf >帧图 像帧,且该视频的标签为y(mf);先将这m个视频的所有图像帧提取出来,并令每个图像帧的 大小为nXnX3,其中η每幅图像帧的宽和高,3表示采用的是RGB彩色制式;设立滑框大小为 kXk,滑动步长为p,则通过滑框滑动,一幅图像帧可提取共[>-Α + 1)/ρ」χ^?-Α + 1)//>」个 图像块,整个视频训练集共可提取
个图像块; 将每个图像块拉成长度为kXkX3的向量X,并将所有的图像块之间进行乱序,并按每批次 为bS个训练样本,分成nbS=M/bS个批次,最后得到的数据集作为训练拓扑线性解码器的训 练集;
[0013]过程S12:先定义线性解码器的模型,由第一层为输入层,第二层为隐藏层,第三层 为输出层构成,其中每层神经元个数分别为41,42,43,其中1^1=1^3;第一层、第二层间 与第二层、第三层间的权重参数分别为和wf、咬},分别表示第nl + 1层的第j个神 经元与第η 1层的第i个神经元之间连接上的权值和第η 1+1层的第j个神经元的偏置值,η 1 e {1,2};第二层神经元的激活函数为式(1):
[0015] ?f为第二层第j个神经元的输出,#为第二层第j个神经元的输入式⑵:
[0017] 为第一层每个神经元的输出,这里为图像块向量的每个元素值,即a(1) = x;第 三层神经元的激活函数为式(3):
[0019]即第三层神经元的激活函数为第二层每个神经元的线性组合如式(4)
[0021]得到自动编码器目标函数值如式(5)
[0023] 其中支为X输入到该模型中得到的输出向量;
[0024] 过程S13:在建立最基础的线性解码器之后,为了防止产生权重爆炸现象而导致的 过拟合问题,在目标函数上增加权重衰减项,得到目标函数如式(6)
[0026]其中N1为模型的层数,这里Nl = 3;Si为第nl层的神经元的个数;Si+Ι为第nl+1层的 神经元的个数;λ为权重衰减项与整个目标函数的重要相关性的权衡系数;
[0027]过程S14:在S13的基础上,对该模型进行稀疏特性的引入,即对于隐藏层的神经元 来说,大部分神经元在每次的样本输入过程中激活程度接近于-1而达到抑制状态,只有少 部分神经元的激活程度接近于1,从而提取到输入数据的稀疏性特征;在目标函数上增加稀 疏正则项,得到目标函数为:
[0029] 即,该稀疏正则化项是为了让隐藏层的每个神经元的平均激活程度Λ能够低于某 个值,其中每个神经元的平均激活程度为:
[0031]式(8)表示第i个输入样本的基础上,隐藏层的每个神经元的激活值的均值,并且Ρ 是稀疏项系数,用来控制隐藏层的平均激活程度的值;通过以L1正则式来限制模型隐藏层 的激活程度能够接近于既定的值:
[0033] 所述的拓扑线性解码器是建立在稀疏线性解码器基础上的,通过对隐藏层的神经 元的激活情况进行拓扑约束,使得该模型成为一个拓扑线性解码器,即通过对隐藏层的神 经元进行按顺序分组,使得同一组内的神经元有相似的激活程度,而不同组的神经元互相 独立,使得该模型能够学习到数据中的拓扑特性,其实现过程如下:
[0034] 过程S21:在过程S14后,就得到了一个稀疏线性解码器;过程S14是基于过程S13的 基础上,将隐藏层所有的神经元的平均激活程度使用L1正则式限定在某个值附近。这里的 拓扑是通过先将隐藏层的所有神经元先进行分组。即对于模型来说,第二层有nL2个神经 元,则将所有的神经元排列成一个
的矩阵,记为拓扑分组选择矩阵T,在该矩阵 中,任何一点的激活情况都会受到以该点为中心,sk X sk大小的范围内的神经元的影响,即 以某点为中心,周边skXsk范围内的作为一组,因为隐藏层神经元一共有nL2个,所以一共 分成nL2组;
[0035] 通过将同一组所有神经元的激活值的平方和作为该组的目标值。即得到拓扑线性 解码器的目标函数为:
[0036]
[0037] 其中V为nL2XnL2大小的分组矩阵,构建过程为:对于其中的每一组,即每行向量, 先定义一个基于拓扑分组选择矩阵T同样大小的标记矩阵F;
[0039] if5表示V中第t组的标记矩阵中第i行第j列的值;Sg(t)为第t组的拓扑选择区域
[0040]
[0041 ] mod函数为取模函数;从而对于分组矩阵有:
[0044] 即当V(r,c) = 1时,表示第c个神经元属于第r组;公式(10)中S为隐藏层神经元组 成的nL2XbS大小的矩阵,ε为为了防止奇异值开根的平滑参数;γ为拓扑正则项与整个目 标函数重要相关性的权衡系数;
[0045] 过程S22:通过将过程S11得到的训练集中所有视频帧的图像块构成一个nPXvS的 矩阵,其中vS表示拓扑稀疏线性解码器输入层的神经元个数,即,vS = nLl = k X k X 3,为一 个基于RGB三通道滑框的所有像素点的个数;模型中间层为隐藏层,也是该模型训练后,将 该层的输出值作为输入对应的特征值;因为构成的nPXvS矩阵过大,所以先将该矩阵按照 bSXvS的大小分成多个批次,采用BP算法一次训练一个批次,所有的训练数据训练一次表 示完成一个epoch;训练多个印och以达到模型收敛的目的。
[0046] 所述的训练好的拓扑线性解码器的权重参数作为卷积神经网络的初始参数,并通 过后续的少量有标签样本微调卷积神经网络从而得到更优的参数,具体实现过程如下: [0047]过程S31:令卷积神经网络的模型输入层为视频图像帧,即η Xη X 3;对于卷积层来 说,同一个卷积层中有多个特征图,每个特征图共享同一个卷积核,每个卷积核的感受野大 小即为kXkX3,卷积层与前层之间采用全连接的方式,即卷积层的每一个特征图都会与前 层的每一个特征图相关联:
[0049] <表示第1层的第j个特征图;表示第
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1