一种基于三维卷积神经网络的视频分类方法

文档序号：9249502阅读：889来源：国知局

一种基于三维卷积神经网络的视频分类方法
【技术领域】
[0001] 本发明设及一种视频分类的方法，属于视频处理技术领域。
【背景技术】
[0002] 随着多媒体技术和互联网技术的发展，现在人们可W从各种渠道方便的获得许多的视频数据，但是由于该些海量的视频数据太过于庞大，如何对该些视频数据进行分类，使人们能够更加方便的获取自己感兴趣的数据成为计算机视觉领域里面非常重要同时也非常具有挑战性的研究热点之一。
[0003] 对视频的分类技术主要包括基于视频的视觉信息、文字信息和音频信息=种方法，视觉信息作为视频中最重要的信息，也是包含视频信息最多，最能代表视频类别的信息，因此也最值得研究。传统的基于视觉信息的视频分类技术设及到特征提取、视频建模、分类技术=个方面的内容。在特征提取环节，研究者通常自主选择视频帖的全局或局部特征来表示视频，如HSV、LBP等特征，但该种表示方法不能全面而准确的描述视频内容，也忽略了视频的时域特征。视频是连续的图像序列，因此具有时间和空间上的相关性，对视频的准确描述应该能够同时捕捉视频空域和时域两个方面的特性。=维卷积神经网络（3DCNN) 可W直接将视频作为=维数据输入，避免了人为选择视频特征的局限性，并且=维的输入模式保证了视频在时间上的连续性，为同时提取视频的时域和空域特征提供了新的途径。同时，基于机器学习的卷积神经网络避免了视频建模环节，而是从大量的视频数据中通过学习的方式得到较优的分类效果，改善了因人工建模选取的不适对分类效果的影响。
[0004] 虽然=维卷积神经网络在处理视频方面具有优势，但目前其应用受到数据资源不足、S维卷积神经网络的训练过程复杂等问题的制约。基于机器学习的卷积神经网络的训练需要大量的视频数据，数量级应达到几千甚至几万，而现有的视频数据库每一类视频的数量基本在100个左右，如CC_WEB_VEIDEO数据库的第二类拷贝视频数量为122,第六类数量为45等，视频数据的数量远远满足不了卷积神经网络的要求。另外，在视频分类应用中，基于卷积神经网络的模式分类通常采用多类别模型，即网络输出端设计多个节点表示多个类别。由此导致的结果是，当类别数目增加时，网络的构建难度W及计算复杂度会急剧增加，对硬件配置的要求也较高。同时，多类别模型只能对已有类别的视频正确分类，当输入类别之外的视频时，网络会将其错误分到已有类别中的某类中。因此，如何克服上述问题，在现有视频数据资源和硬件配置的条件下，降低网络构建难度，实现快速、实用的视频分类系统已成为大数据多媒体应用的一个重要课题。

【发明内容】

[0005] 本发明的目的在于提供一种基于小规模视频数据集和较低配置硬件条件下的视频分类方法，该方法通过数据集扩增和=维卷积神经网络的分布式并行运算方式，将视频多分类问题转化为二分类问题，既解决了视频数据资源不足的难题，又大大降低了=维卷积神经网络学习的复杂度。在分类识别阶段，本发明提出的方法能够仅用较少的几个视频段就达到较高的识别率，并能够将不属于任意类别的视频分类为新增类别，避免了对新增类别的分类错误。
[0006] 本发明采用W下技术方案：
[0007] 一种基于S维卷积神经网络3DC順的视频分类方法，该方法构建了并行分布式的 =维卷积神经网络多分类模型，并对视频库进行扩增处理，该方法包括W下步骤：
[000引（1)读取视频库中的视频，对视频帖进行灰度化处理；
[0009] (2)通过等间隔采样，对已有视频库进行扩增处理，使原有视频库的每个视频扩增为多个固定帖数为k的视频段，且任意视频段均无重复的帖；
[0010] (3)对经过扩增处理的视频库，按照原有标签信息，对每一类视频，将由该类视频经等间隔采样得到的视频段作为该类正样本，其他类视频的视频段作为负样本，制作其训练测试数据集；
[0011] (4)构建C个3DC順网络，C是数据集中的类别数，每个3DCNNW视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点，利用每一类视频的训练数据集训练属于该类的3DCNN，使C个3D 网络分别能够对C类视频进行是否属于该类的二分类识别；
[001引妨构建并行分布式3DC順多分类模型，将C个训练好的3DCNN进行并联，在并联末端设置分类机制，通过比较C个3D 对输入视频的视频段的分类效果将该输入视频分类；
[0013] (6)待分类视频只需随机输入其部分视频段到此多分类网络模型中，即可判断其类别。
[0014] 针对本发明的上述方法，对视频帖进行灰度化处理使计算量降低，速度提高；等间隔采样对视频分段的方法保证了每个视频段都能最大化的呈现视频的全部内容；利用3D 的=维输入特性为同时提取视频的时域和空域特征提供了新的途径；采用并行分布式 3DCNN多分类框架便于多机分布式并行计算，解决了类别数目增加带来的网络构建难度W 及计算复杂度急剧增加的问题，降低了对硬件的配置高要求。
[0015] 在进一步改进的方案中，上述基于=维卷积神经网络的视频分类方法，步骤（2) 中视频段的分类方法为等间隔采样，设视频段的帖数固定为k，分段方法如下：
[0016] 设视频所有帖为Fi，F2,…，F。，则分成的视频段数为m=floor(n，k)，其中floor 函数为向下取整，分成的视频段为：
[0017] 视'频段 1 ;Fi，Fi+m，Fi巧m，…，F"(k-l)xm [001引视频段2 ;尸2,Fg+m,尸2+2"1,…，尸2+化-1)Xm
[0019] 视频段rn:Fm，F2m，F3m，…，Fkxm
[0020] 上述基于=维卷积神经网络的视频分类方法，步骤（3)中针对每一类视频的训练测试数据集的制作方法为：
[0021] 设视频库中视频的类别总数为C，则第a类视频的训练正样本为属于第a类视频的视频段，训练负样本为不属于第a类视频的视频段，样本标签为{1，0}，其中1表示属于第a 类，0表示不属于第a类；每一类的测试样本是相同的，分为=种；属于该类的视频段、不属于该类而属于其他类的视频段、不属于任意类的视频段。
[0022] 上述基于=维卷积神经网络的视频分类方法，步骤（4)中W视频段作为输入的3D c順的结构模型为；
[0023] 3D 的卷积层：卷积核为=维，卷积后得到的特征图也为=维。卷积层第i层第j个特征图在（X，y，Z)位置处的值为：
[0024]
[0025] 其中，sigm(?)为sigmoid函数，by是第i层第j个特征图的偏置，n指与当前特征图连接的上一层特征图的集合，分别指第i层卷积核的长、宽、高，是与上层特征图连接的卷积核在（p，q，r)处的值。
[0026] 3D 的采样层；只将上一层特征图第一维和第二维下采样，第=维维数不变。采样层第i层第j个特征图表示为：
[0027] fu= si卵（0 udown(f(H)j)+b。')
[002引其中，0U和bU分别是第i层第j个特征图的乘子偏差和附加偏差，down( ?)是降采样函数，该个函数使输入的数据在第一维和第二维每一个不同的nXn区域求和取平均，使第一维和第二维的维数均减小n倍，其它维数保持不变。
[0029] 3D C順的输出层；输出层全连接，输出节点数为2,实现该类两分类问题。
[0030] 上述基于=维卷积神经网络的视频分类方法，步骤巧）中并联末端分类机制为：
[0031] 将输入的未知类别视频的视频段分别送入不同类的C順网络中，计算每个类中视频段的识别率，视频类别C的计算公式为：
[0032]
[003引其中，0=0表示该视频不属于库中任意类，r康示第1个网络的视频段识别率， T为判断视频类别阔值，取50%。 r。。。" 第/个网络中被判定巧属于该类的视频段个数
[0034] 视频段识别率r;的定义为：C-视频段的总个数-
[0035] 基于=维卷积神经网络的视频分类技术直接W视频段作为输入，通过学习的方式提取特征进行分类，避免了人工特征提取和视频建模阶段，提升了分类性能，并且视频的= 维输入模式保证了视频在时间上的连续性，同时提取视频的时域和空域特征，全面而准确的表示视频内容。等间隔采样的分段方法扩增了视频数据库，解决了视频数据资源不足的难题，并且此分段方法保证每个视频段均能最大化呈现视频内容，在测试阶段，只需输入少数视频段就能达到较高的识别率，大大节省了识别时间，为视频分类的实时处理提供了新途径。为每类视频构建一个3D 网络两两分类，降低了同时构建多类别网络的网络复杂度，同时并联多分类模型方便系统进行分布式并行运行。除此之外，基于=维卷积神经网络的多网络视频分类系统能够将不属于任意类别的视频分类为新增类别，避免了对新增类别的分类错误。
【附图说明】
[0036] 图1为视频分段方法示意图；
[0037] 图2为S维卷积神经网络结构图；
[003引图3为视频分类训练阶段示意图；
[0039] 图4为视频分类测试阶段示意图。
【具体实施方式】
[0040] 下面结合附图对发明作进一步描述：
[0041] 依据本发明，提供一种视频分类方法，首先读取视频库中的视频，对视频帖进行灰度化处理；其次通过等间隔采样的方式将灰度化后的视频采样为固定帖数的视频段；针对每一类视频，W视频段为单元，制定不同的训练测试数据集，为每个视频段设定标签，标签分为属于该一类与不属于该一类两种；为每一类视频初始化一个3D 网络，用该类对应的训练样本训练该网络，使3DCNN对类内和类外多个视频段进行两类别分类；将训练好的多个3D 进行并联，在并联末端设置分类机制，通过比较多个3DCWU只别的该视频段的比例即可判断该视频的类别。
[0042] 依据本发明的视频分类方法主要包括W下步骤：
[0043] (1)读取视频库中的视频，对视频帖进行灰度化处理；
[0044] (2)通过等间隔采样，对已有视频库进行扩增处理，使原有视频库的每个视频扩增为多个固定帖数为k的视频段，且任意视频段均无重复的帖；
[0045] (3)对经过扩增处理的视频库，按照原有标签信息，对每一类视频，将由该类视频经等间隔采样得到的视频段作为该类正样本，其他类视频的视频段作为负样本，制作其训练测试数据集；
[0046] (4)构建C个3DC順网络，C是数据集中的类别数，每个3DCNNW视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3DCNN，使C个3D 网络分别能够对C类视频进行是否属于该类的二分类识别；
[0047] 妨构建并行分布式3DC順多分类模型，将C个训练好的3DCNN进行并联，在并联末端设置分类机制，通过比较C个3D 对输入视频的视频段的分类效果将该输入视频分类；
[0048] (6)待分类视频只需随机输入其部分视频段到此多分类网络模型中，即可判断其类别。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙建德;赵冬;李静;
技术所有人：孙建德;
我是此专利的发明人

上一篇：一种鲁棒机器错误检索方法与系统的制作方法
上一篇：一种翻译平台的稿件分析方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。