一种基于三维卷积神经网络的视频分类方法_2

文档序号：9249502阅读：来源：国知局

[0049] 下面对上述步骤进行详述：
[0化0] 1.读取视频库中的视频，对视频帖进行灰度化处理。
[0化1] 采用〇：_￥邸视频库，该库包含24类视频，将视频帖进行灰度化处理，降低计算量，提高运行速度。
[0化2] 2.通过等间隔采样，对已有视频库进行扩增处理，使原有视频库的每个视频扩增为多个固定帖数为k的视频段，且任意视频段均无重复的帖。
[0化3] 设视频段的帖数固定为k，分段方法如下所示：
[0054] 设视频所有帖为F。Fg,…，F。，则分成的视频段数为m=floor(n,k)，其中floor 函数为向下取整，分成的视频段为：
[005引视频段 1 ;Fi,Fi+m,Fi+2m，…，Fl+(k-l)Xm
[0056]视频段 2 恥F2+m，F2+2m，…，Fwk-l)Xm[0057]视频段rn:Fm，F2m，F3m，…，Fkxm
[005引实验中，视频段的帖数固定为7帖，图1展示了视频分段方法，展示视频长为14 帖，根据视频段帖数为7的要求，通过2倍平移等间隔采样的方法将该视频分为两段。
[0化9] 根据上述分段方法，CC_WEB_VIDEO视频库中每个视频均被分为多个7帖的视频段，如第一类的第2个视频被分为68段，第二类的第1个视频被分为195段等，此分段方法扩增了数据库，便于3D 从大量数据中学习规律。
[0060] 3.对经过扩增处理的视频库，按照原有标签信息，对每一类视频，将由该类视频经等间隔采样得到的视频段作为该类正样本，其他类视频的视频段作为负样本，制作其训练测试数据集。
[0061] CC_WEB_VIDEO视频库中视频的类别总数为24,则需针对每一类制定不同的训练样本。
[0062]W第一类为例；第一类中随机取3个视频，将该3个视频分成的视频段作为正样本，根据视频库中的视频分段后可得311个视频段，训练负样本为随机选取不属于第1类，属于其它23类的视频段，选取的负样本的个数也为311，训练样本标签为{1，0}，其中1表示属于第1类，0表示不属于第1类。
[0063] 第二类与第一类相似：第二类中随机取3个视频，将该3个视频分成的视频段作为正样本，根据视频库中的视频分段后可得1155个视频段，训练负样本为随机选取不属于第 2类，属于其它23类的视频段，选取的负样本的个数也为1155,训练样本标签为{1，0}，其中 1表示属于第2类，0表示不属于第2类。
[0064] 其他类均按上述方法制定其训练样本。
[0065] 每一类的测试样本是相同的，分为S种；属于该类的视频段、不属于该类，属于其他类的视频段、不属于任意类的视频段。实验中，除训练样本使用视频外，随机选取每类其他17个视频W及不属于任意类的120个视频，即测试视频共528个，按上述分段方法得测试视频段为81746个。
[0066] 4.构建C个3DC順网络，C是数据集中的类别数，每个3DCNNW视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3DCNN，使C个3D 网络分别能够对C类视频进行是否属于该类的二分类识别。
[0067] 图2为3DC順的结构图，图中网络结构为3-3-6-6,输出节点个数设为2,即可使 3DCNN对类内和类外多个视频段进行两类别分类。
[0068] 3D的卷积层：卷积核为=维，卷积后得到的特征图也为=维。卷积层第i层第j个特征图在（X，y，Z)位置处的值为：
[0069]
[0070] 其中，sigm(?)为sigmoid函数，by是第i层第j个特征图的偏置，n指与当前特征图连接的上一层特征图的集合，分别指第i层卷积核的长、宽、高，<''是与上层特征图连接的卷积核在（p，q，r)处的值。
[0071] 3D 的采样层；只将上一层特征图第一维和第二维下采样，第=维维数不变。采样层第i层第j个特征图表示为：
[0072] fu=sigm(|3udown(f(H)j)+b。')
[0073] 其中，eu和bu分别是第i层第j个特征图的乘子偏差和附加偏差，down( ?)是降采样函数，该个函数使输入的数据在第一维和第二维每一个不同的nXn区域求和取平均，使第一维和第二维的维数均减小n倍，其它维数保持不变。
[0074] 3DC順的输出层；输出层全连接，输出节点数为2,实现该类两分类问题。
[0075] 图3为训练阶段结构示意图，CC_WEB库类别数C为24,则构建24个3DCNN，根据步骤3中制定的每一类的训练样本训练每一类的3DCNN网络。
[0076] 5.构建并行分布式3D多分类模型，将C个训练好的3D进行并联，在并联末端设置分类机制，通过比较C个3D对输入视频的视频段的分类效果将该输入视频分类。
[0077] 图4为并行分布式3D 多分类模型，针对CC_W邸库类别数C为24,将训练好的 24个3D 网络并联，在并联末端设置分类机制判断视频类别，分类机制为：
[007引将待分类视频的视频段送入到并联网络中，计算每个类中视频段的识别率，视频类别C的判别方法为：
[0079]
[0080] 其中，0= 0表示该视频不属于库中任意类，r康示第1个网络的视频段识别率， T为判断视频类别阔值，取50%，CC_WEB实验中C= 24。
[0081] 视频段识别率的定义为
[0082] 6.待分类视频只需随机输入其部分视频段到此多分类网络模型中，即可判断其类别。
[0083] 等间隔采样后的视频段能最大化的呈现视频的全部内容，所W只需随机输入部分视频段即可完整表示视频内容，节省分类所需时间，经实验验证，只需随机输入20%的视频段即可达到较高的识别率。测试视频528个，每个视频随机输入20%的视频段进行分类，分类识别正确率为85. 2%。
【主权项】
1. 一种基于三维卷积神经网络3DCNN的视频分类方法，其特征在于，该方法构建了并行分布式的三维卷积神经网络多分类模型，并对视频库进行扩增处理，该方法包括以下步骤： (1) 读取视频库中的视频，对视频帧进行灰度化处理； (2) 通过等间隔采样，对已有视频库进行扩增处理，使原有视频库的每个视频扩增为多个固定帧数为k的视频段，且任意视频段均无重复的帧； (3) 对经过扩增处理的视频库，按照原有标签信息，对每一类视频，将由该类视频经等间隔采样得到的视频段作为该类正样本，其他类视频的视频段作为负样本，制作其训练测试数据集； (4) 构建C个3DCNN网络，C是数据集中的类别数，每个3DCNN以视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3DCNN，使C个3DCNN网络分别能够对C类视频进行是否属于该类的二分类识别； (5) 构建并行分布式3DCNN多分类模型，将C个训练好的3DCNN进行并联，在并联末端设置分类机制，通过比较C个3DCNN对输入视频的视频段的分类效果将该输入视频分类； (6) 待分类视频只需随机输入其部分视频段到此多分类网络模型中，即可判断其类别。2. 根据权利要求1所述的基于三维卷积神经网络3DCNN的视频分类方法，其特征在于，步骤（2)中视频段的分段方法为等间隔采样，设视频段的帧数固定为k，分段方法如下：设视频所有帧为FpF2,…，Fn，贝Ij分成的视频段数为m=floor(n，k)，其中floor函数为向下取整，分成的视频段为：视频段I=F1,F1+m,F1+2m，…，F1+(k_1)Xm 视频段 2 :F2,F2+m,F2+2m,…，F2t(H)Xm 视频段m:Fm,F2m,F3m,…，FkXm。3. 根据权利要求I所述的基于三维卷积神经网络3DCNN的视频分类方法，其特征在于，步骤（3)中针对每一类视频的训练测试数据集的制作方法为：设视频库中视频的类别总数为C，则第a类视频的训练正样本为属于第a类视频的视频段，训练负样本为不属于第a类视频的视频段，样本标签为{1，0}，其中1表示属于第a类，〇表示不属于第a类；每一类的测试样本是相同的，分为三种：属于该类的视频段、不属于该类而属于其他类的视频段、不属于任意类的视频段。4. 根据权利要求1所述的基于三维卷积神经网络3DCNN的视频分类方法，其特征在于，步骤（4)中以视频段作为输入的3DCNN的结构模型为： 3DCNN的卷积层：卷积核为三维，卷积后得到的特征图也为三维。卷积层第i层第j个特征图在（x，y，z)位置处的值为：其中，sigm( ?)为sigmoid函数，IDij是第i层第j个特征图的偏置，n指与当前特征图连接的上一层特征图的集合，Pi、1、巧分别指第i层卷积核的长、宽、高，是与上层特征图连接的卷积核在（P,q,r)处的值； 3DCNN的采样层：只将上一层特征图第一维和第二维下采样，第三维维数不变，采样层第i层第j个特征图表示为： fij=sigm(|3iJdown(f(i_1)J)+biJ) 其中，0u和bu分别是第i层第j个特征图的乘子偏差和附加偏差，down( ?)是降采样函数，这个函数使输入的数据在第一维和第二维每一个不同的nXn区域求和取平均，使第一维和第二维的维数均减小n倍，其它维数保持不变； 3DCNN的输出层：输出层全连接，输出节点数为2,实现该类两分类问题。5. 根据权利要求1所述的基于三维卷积神经网络3DCNN的视频分类方法，其特征在于，步骤（5)中并联末端视频分类机制方法如下：将输入的未知类别视频的视频段分别送入不同类的CNN网络中，计算每个类中视频段的识别率，视频类别c的计算公式为：其中，c=O表示该视频不属于库中任意类，^表示第i个网络的视频段识别率，T为判断视频类别阈值。6. 根据权利要求5所述的基于三维卷积神经网络3DCNN的视频分类方法，其特征在于，视频段识别率^的定义为：7. 根据权利要求5所述的基于三维卷积神经网络3DCNN的视频分类方法，其特征在于，判断视频类别阈值T为50 %。
【专利摘要】本发明公开了一种基于三维卷积神经网络的视频分类的方法，属于视频处理技术领域。此方法将视频等间隔采样为多个视频段，扩增了视频数据库，将三维视频段直接输入到3D CNN中，同时提取视频的时域和空域特征，改善了传统视频分类方法因人工选取视频特征及视频建模方式的局限性。并行分布式3D CNN多分类模型降低了3D CNN学习的复杂度，同时使得分类系统更方便的实现分布式并行计算。基于3D CNN多分类系统能够仅用较少的视频段就达到较高的识别率，并能够将不属于任意类别的视频分类为新增类别，避免了对新增类别的分类错误。
【IPC分类】G06N3/04, G06K9/62
【公开号】CN104966104
【申请号】CN201510380973
【发明人】孙建德, 赵冬, 李静
【申请人】孙建德
【公开日】2015年10月7日
【申请日】2015年6月30日

完整全部详细技术资料下载

当前第2页1 2