一种视频语义分析方法_4

文档序号：9922279阅读：来源：国知局

高，3表示采用的是RGB彩色制式;设立滑框大小为k X k，滑动步长为P，则通过滑框滑动，一幅图像帖可提取共柄-A + l)/p」xl>-A + l)/P」个图像块，整个视频训练集共可提取个图像块;将每个图像块拉成长度为kXkX3的向量X，并将所有的图像块之间进行乱序，并按每批次为bS 个训练样本，分成nbS = M/bS个批次，最后得到的数据集作为训练拓扑线性解码器的训练集；过程S12:先定义线性解码器的模型，由第一层为输入层，第二层为隐藏层，第Ξ层为输出层构成，其中每层神经元个数分别为化1，化2,化3,其中化1=化3;第一层、第二层间与第二层、第Ξ层间的权重参数分别为<、啤>和Μ贫、巧1，分别表示第nl+i层的第j个神经元与第nl层的第i个神经元之间连接上的权值和第nl+1层的第j个神经元的偏置值，nle{l, 2};第二层神经元的激活函数为式(1):(1) "f为第二层第j个神经元的输出，皆'为第二层第j个神经元的输入式(2):(2) 为第一层每个神经元的输出，运里为图像块向量的每个元素值，即aW = x;第Ξ层神经元的激活函数为式(3):(3) 即第Ξ层神经元的激活函数为第二层每个神经元的线性组合如式(4)(4) 得到自动编码器目标函数值如式巧）(5) 其中i为X输入到该模型中得到的输出向量；过程S13:在建立最基础的线性解码器之后，为了防止产生权重爆炸现象而导致的过拟合问题，在目标函数上增加权重衰减项，得到目标函数如式(6)(6) 其中N1为模型的层数，运里Nl = 3;Si为第nl层的神经元的个数;Si+1为第nl+1层的神经元的个数;λ为权重衰减项与整个目标函数的重要相关性的权衡系数；过程S14:在S13的基础上，对该模型进行稀疏特性的引入，即对于隐藏层的神经元来说，大部分神经元在每次的样本输入过程中激活程度接近于-1而达到抑制状态，只有少部分神经元的激活程度接近于1，从而提取到输入数据的稀疏性特征;在目标函数上增加稀疏正则项，得到目标函数为：(7) 良Ρ，该稀疏正则化项是为了让隐藏层的每个神经元的平均激活程度爲能够低于某个值，其中每个神经元的平均激活程度为：C8) 式(8)表示第i个输入样本的基础上，隐藏层的每个神经元的激活值的均值，并且Ρ是稀疏项系数，用来控制隐藏层的平均激活程度的值;通过WL1正则式来限制模型隐藏层的激活程度能够接近于既定的值：(9)。3.根据权利要求1所述的一种视频语义分析方法，其特征在于:所述的拓扑线性解码器是建立在稀疏线性解码器基础上的，通过对隐藏层的神经元的激活情况进行拓扑约束，使得该模型成为一个拓扑线性解码器，即通过对隐藏层的神经元进行按顺序分组，使得同一组内的神经元有相似的激活程度，而不同组的神经元互相独立，使得该模型能够学习到数据中的拓扑特性，其实现过程如下：过程S21:在过程S14后，就得到了一个稀疏线性解码器;过程S14是基于过程S13的基础上，将隐藏层所有的神经元的平均激活程度使用L1正则式限定在某个值附近。运里的拓扑是通过先将隐藏层的所有神经元先进行分组。即对于模型来说，第二层有化2个神经元，贝U 将所有的神经元排列成一个V；；!!X V立玄的矩阵，记为拓扑分组选择矩阵T，在该矩阵中，任何一点的激活情况都会受到W该点为中屯、，skXsk大小的范围内的神经元的影响，即W某点为中屯、，周边skXsk范围内的作为一组，因为隐藏层神经元一共有化2个，所W-共分成 nL2 组；通过将同一组所有神经元的激活值的平方和作为该组的目标值。即得到拓扑线性解码器的目标函数为：(10) 其中V为nL2X化2大小的分组矩阵，构建过程为:对于其中的每一组，即每行向量，先定义一个基于拓扑分组选择矩阵T同样大小的标记矩阵F;αι> 巧"表示V中第t组的标记矩阵中第i行第j列的值;SgW为第t组的拓扑选择区域即当V(r，c) = l时，表示第C个神经元属于第r组；公式（10)中S为隐藏层神经元组成的 nL2 X bS大小的矩阵，ε为为了防止奇异值开根的平滑参数；丫为拓扑正则项与整个目标函数重要相关性的权衡系数；过程S22:通过将过程S11得到的训练集中所有视频帖的图像块构成一个ηΡΧ^的矩阵，其中vS表示拓扑稀疏线性解码器输入层的神经元个数，即，vS =化l = kXkX3,为一个基于RGBS通道滑框的所有像素点的个数;模型中间层为隐藏层，也是该模型训练后，将该层的输出值作为输入对应的特征值；因为构成的nPXvS矩阵过大，所W先将该矩阵按照bS XvS的大小分成多个批次，采用BP算法一次训练一个批次，所有的训练数据训练一次表示完成一个巧och;训练多个巧ochW达到模型收敛的目的。4.根据权利要求1所述的一种视频语义分析方法，其特征在于，所述的训练好的拓扑线性解码器的权重参数作为卷积神经网络的初始参数，并通过后续的少量有标签样本微调卷积神经网络从而得到更优的参数，具体实现过程如下：过程S31:令卷积神经网络的模型输入层为视频图像帖，即nXnX3;对于卷积层来说，同一个卷积层中有多个特征图，每个特征图共享同一个卷积核，每个卷积核的感受野大小即为kXkX3,卷积层与前层之间采用全连接的方式，即卷积层的每一个特征图都会与前层的每一个特征图相关联：(14) 表示第1层的第j个特征图；皆嗦示第1-1层的第i个特征图；4表示第1层的第j个特征图与第^1层的第i个特征图之间的连接权重;6;表示第1层第j个特征图的偏置；过程S32:由过程S22训练好的拓扑线性解码器的结构为化1、化2、化3,其中拓扑线性解码器的隐藏层的每个神经元与输入层的每个神经元也为全连接形式，如公式(2)和公式(3) 所示，将拓扑线性解码器中隐藏层一个隐藏单元与输入层之间的权重赋值给卷积神经网络的卷积层中每个特征图上的像素点对应前层感受野上所有的像素点，即卷积核上的权重值。5.根据权利要求1所述的一种视频语义分析方法，其特征在于:所述的建立基于视频的通用特征提取器是通过多倍交叉验证的方式将视频训练集中的多帖关键帖组成的新的训练集对卷积神经网络模型进行微调从而得到的，在得到该通用特征提取器之后，将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类，实现过程如下：过程S41:采用多倍交叉验证的方式，将视频集分成训练集和测试集，上述过程是在训练集的所有视频帖上完成的，运里先对训练集的所有视频W每隔sF帖进行视频帖的选取，将运些帖作为该视频的关键帖，即令第mf个视频的共有mFfmn帖图像帖，则WlisFimFfmfl的视频帖标记为该视频的图像关键帖，并对应的标记上视频类别则训练集视频的所有关键帖作为卷积神经网络模型微调的数据集；过程S42:将Sof tmax作为卷积神经网络模型的顶层模型，通过BP算法对卷积神经网络模型进行微调直至收敛。将顶层Softmax层除去，获得关于该视频数据集的通用特征提取器，并令卷积神经网络的输出层单元个数为化0; 过程S43:在过程S41获得的训练集和测试集的视频关键帖上进行卷积神经网络模型的特征提取，令第mf个视频有关键帖为mKF(mf 1帖，则每个视频得到mKF X nLo的特征矩阵，其中行表示关键帖的个数，列表示对应的关键帖上所提取的特征。将该特征矩阵的行分成pS份，则每份为(mKF/pS)X化0的矩阵，即mKF/pS行化0列的矩阵，对该矩阵进行W行为轴的求均值，得到该份上长度为化0的特征向量，通过将不同部分的特征向量首尾相连，得到长度为 nLo X pS的特征向量作为该视频的特征向量；过程S44:前述过程分别得到训练集和测试集的特征矩阵和标签矩阵，将该特征数据放入支持向量机模型中进行最后的语义概念预测。
【专利摘要】本发明提供了一种视频语义分析方法，该方法包括以下步骤：S1：对视频训练集进行预处理，并构建稀疏线性解码器；S2：加入拓扑特性约束建立拓扑线性解码器，并将视频训练集进行图像分块处理从而训练拓扑线性解码器；S3：将训练好的拓扑线性解码器的参数作为卷积神经网络中卷积层的初始参数；S4：采用多倍交叉验证的方式并基于视频训练集建立关键帧集合对卷积神经网络进行微调，建立一个基于视频数据的通用特征提取器，最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类。本发明提出的模型训练方法更具有应对内容多变的视频类数据样本，提高模型的准确性和鲁棒性。
【IPC分类】G06K9/00, G06K9/72
【公开号】CN105701480
【申请号】CN201610107770
【发明人】詹永照, 詹智财, 张建明, 彭长生
【申请人】江苏科海智能系统有限公司, 江苏大学
【公开日】2016年6月22日
【申请日】2016年2月26日

完整全部详细技术资料下载

当前第4页1 2 3 4