一种基于卷积神经网络的视频台标识别装置及工作方法与流程

文档序号：12133981阅读：323来源：国知局

本发明属于计算机视觉领域，具体涉及一种基于卷积神经网络的视频台标识别装置及工作方法。

背景技术：

随着互联网及电视的飞速发展，互联网视频、电视视频数量膨胀式增多，数量庞大、种类繁多。目前，互联网视频、电视视频已成为多媒体数据中最重要的组成元素之一，它可以从时间、空间等维度上更逼真地记录更多细节内容。但是，互联网视频、电视视频信息给人们带来方便的同时，也带来了很多负面的影响。一些包含不良信息(如暴力恐怖、低俗等)的视频的广泛传播严重威胁了网络安全，污染了网络环境。目前，互联网视频、电视视频数量已经远远超过人工审查的处理能力，因此为了网络环境的健康纯净，需要能够自动、快速、准确地在海量视频中分析出不良视频并予以处理。互联网视频、电视视频数据场景、环境纷繁复杂，变化剧烈，而且通常伴随着大量噪声，对有害视频的自动识别过滤造成了巨大困难。在互联网视频和电视视频中，大量视频具有台标信息，包括正常电视台视频、互联网视频以及发布暴力恐怖、低俗组织的电视台及网络视频，而且台标信息在视频中相对于背景变化较小而且特征相对显著，所以本发明提出了基于卷积神经网络的视频台标自动识别技术，通过精确识别有害台标发现有害视频，为有害视频过滤、网络环境净化提供重要技术支撑。

技术实现要素：

发明目的：本发明的目的是为了解决现有技术中的不足，针对互联网视频和电视视频，提出一种基于卷积神经网络的视频台标识别装置。该方法基于ffmpeg库，caffe源码，能够处理多种标准格式下的视频文件(mpeg、mp4、flv、avi、3gp、m4v、hevc、h264等)，然后基于卷积神经网络识别视频台标信息。

技术方案：本发明的一种基于卷积神经网络的视频台标识别装置，包括视频数据库、解码模块、关键帧提取模块、关键帧融合模块、台标模型库、台标扩充模块和深度卷积神经网络台标识别模块；连接关系为视频数据库、解码模块、关键帧提取模块、关键帧融合模块、深度卷积神经网络台标识别模块依序连接，台标扩充模块与深度卷积神经网络台标识别模块单独连接。

进一步的，所述视频数据库包括互联网视频和电视视频。

进一步的，所述台标扩充模块还包括台标背景变换模块、台标均衡化处理模块、台标镜像化处理模块、台标模糊锐化处理模块、台标亮度对比度调节模块、台标高斯噪声添加模块。

进一步的，所述解码模块还包括视频时长识别模块，所述视频时长识别模块，可识别视频时长，并输出视频时长识别结果，所述视频时长识别结果为长视频或短视频。

进一步的，深度卷积神经网络台标识别模块包括卷积层、全连接层和softmax层，所述卷基层包括Conv1、Conv2、Conv3、Conv4和Conv5；所述Conv1、Conv2和Conv5后面设有一个max-pooling层。

进一步的，所述关键帧融合模块的融合策略公式为S_i＝αS_i-1+(1-α)F_i；其中，i表示关键帧序号，F_i表示第i帧关键帧，S_i表示i个关键帧融合后的图像帧。

本发明还公开了上述一种基于卷积神经网络的视频台标识别装置的工作方法，包括如下步骤：

a.将台标模型库载入所述台标扩充模块，将扩充后的台标模型库载入所述深度卷积神经网络台标识别模块存储；

b.解码模块对视频数据库信息解码，然后获取所述视频数据库中视频总时长，当视频长度大于2分钟时，视为所述长视频，否则视为所述短视频；

c.当解码模块鉴定为所述长视频时，首先在压缩域上进行等间隔采样，定位距离每个采样时间点最近的关键帧位置并通过所述关键帧提取模块进行解码，获取关键帧内容，一个视频获取十帧关键帧信息，用九宫格裁剪方法提取出现在视频左上、右上、左下、右下四个角落的关键帧信息，然后以opencv的Mat形式保存；

d.当解码模块鉴定为所述短视频时，首先对完整视频通过所述关键帧提取模块进行解码，然后等间隔采样十帧内容，用九宫格裁剪方法提取出现在视频左上、右上、左下、右下四个角落的关键帧信息，以opencv的Mat形式保存；

e.所述关键帧融合模块读取关键帧提取模块的关键帧信息后，基于图像加权平均算法将各个角落的多帧关键帧进行融合，并将融合后的关键帧送入所述深度卷积神经网络台标识别模块；

f.所述深度卷积神经网络台标识别模块接收所述融合后的关键帧图像，卷积处理，所述Conv1、Conv2和Conv5后接的max-pooling层，对卷积后的所述关键帧进行下采样，从而实现降维；为了提高模型的收敛速度，卷积层和全连接层的激活函数采用ReLU，为了防止出现过拟合，采用迁移学习的方式训练网络，首先使用ImageNet 2012数据集预先训练一个模型，用其参数对所述卷积层进行初始化，所述全连接层参数则采用高斯分布小随机数进行初始化，将所述卷积层的学习速率调为0.001，所述全连接层以两倍的速率更新参数。

g.根据深度卷积神经网络的输出结果判断输入视频中是否存在有害台标。

附图说明

图1为本发明的工作流程图；

图2为本发明的台标扩充算法效果图。

具体实施方式

如图1和图2所示的一种基于卷积神经网络的视频台标识别装置，包括视频数据库S100、解码模块S101、关键帧提取模块S102、关键帧融合模块S103、台标模型库S200、台标扩充模块S201和深度卷积神经网络台标识别模块S300；连接关系为视频数据库S100、解码模块S101、关键帧提取模块S102、关键帧融合模块S103、深度卷积神经网络台标识别模块S300依序连接，台标扩充模块S201与深度卷积神经网络台标识别模块S300单独连接。视频数据库S100包括互联网视频和电视视频。台标扩充模块S201还包括台标背景变换模块、台标均衡化处理模块、台标镜像化处理模块、台标模糊锐化处理模块、台标亮度对比度调节模块、台标高斯噪声添加模块。解码模块S101还包括视频时长识别模块，所述视频时长识别模块，可识别视频时长，并输出视频时长识别结果，所述视频时长识别结果为长视频S111或短视频S112。深度卷积神经网络台标识别模块包括卷积层、全连接层和softmax层，所述卷基层包括Conv1、Conv2、Conv3、Conv4和Conv5；所述Conv1、Conv2和Conv5后面设有一个max-pooling层。关键帧融合模块的融合策略公式为S_i＝αS_i-1+(1-α)F_i；(其中，i表示关键帧序号，F_i表示第i帧关键帧，S_i表示i个关键帧融合后的图像帧)。

本发明还公开了上述一种基于卷积神经网络的视频台标识别装置的工作方法，包括如下步骤：

a.将台标模型库S200载入所述台标扩充模块S201，将扩充后的台标模型库S200载入所述深度卷积神经网络台标识别模块S300存储；

b.解码模块S101对视频数据库S100信息解码进行解码，然后获取所述视频数据库S100中视频总时长，当视频长度大于2分钟时，视为所述长视频S112，否则视为所述短视频S111；

c.当解码模块S101鉴定为所述长视频S112时，首先在压缩域上进行等间隔采样，定位距离每个采样时间点最近的关键帧位置并通过所述关键帧提取模块S102进行解码，获取关键帧内容，一个视频获取十帧关键帧信息，用九宫格裁剪方法提取出现在视频左上、右上、左下、右下四个角落的关键帧信息，然后以opencv的Mat形式保存；

d.当解码模块S101鉴定为所述短视频S111时，首先对完整视频通过所述关键帧提取模块S102进行解码，然后等间隔采样十帧内容，用九宫格裁剪方法提取出现在视频左上、右上、左下、右下四个角落的关键帧信息，以opencv的Mat形式保存；

e.所述关键帧融合模块S103读取关键帧提取模块S102的关键帧信息后，基于图像加权平均算法将各个角落的多帧关键帧进行融合，并将融合后的关键帧送入所述深度卷积神经网络台标识别模块S300；

f.所述深度卷积神经网络台标识别模块S300接收所述融合后的关键帧图像，卷积处理，所述Conv1、Conv2和Conv5后接的max-pooling层，对卷积后的所述关键帧进行下采样，从而实现降维；为了提高模型的收敛速度，卷积层和全连接层的激活函数采用ReLU，为了防止出现过拟合，采用迁移学习的方式训练网络，首先使用ImageNet 2012数据集预先训练一个模型，用其参数对所述卷积层进行初始化，所述全连接层参数则采用高斯分布小随机数进行初始化，将所述卷积层的学习速率调为0.001，所述全连接层以两倍的速率更新参数。

g.根据深度卷积神经网络台标识别模块S300的输出结果S400判断输入视频中是否存在有害台标。

本发明提出的基于卷积神经网络的视频台标识别技术，其测试环境及实验数据为：

(1)测试环境：

系统环境：ubuntu14.04；

依赖软件：GCC 4.8，OpenCV 2.4.9，CUDA 7.5；

硬件环境：CPU：至强E5-2620v4 8核，内存：32GB，GPU：Titan X，硬盘：2TB；

测试使用在ffmpeg库、caffe开源代码基础上修改编写的算法程序。

(2)实验数据

本发明测试实验数据来自twitter实网更新数据，选取一段时间内特定人群在2016年4月20日至2016年5月3日在Twitter发布的视频进行台标识别，共1889段，测试结果如下：

时间：总运行时间230.9s，平均每秒可以处理8.18段视频；

精度：台标识别精度达到96.1％；

召回率：台标识别召回率达到87.4％。

从上述实验效果可以看出，本发明提出的基于卷积神经网络的视频台标识别技术在实网数据下取得了良好的效果，证明了本发明的有效性和在实际应用下的良好可用性。

本发明所述的一种基于卷积神经网络的视频台标识别装置，在实际检测中，因为台标信息通常显示在视频的四个角落(左上、右上、左下、右下)，因此算法将关键帧采用九宫格裁剪方法提取四个角落的关键帧信息，然后分别就进行关键帧融合，最后用离线训练好的台标模型进行识别，台标模型自动过滤掉不存在台标信息的背景角落，显示识别出的台标信息，如果其存在于有害台标列表中，则提示报警发现有害内容。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘勇;
技术所有人：南京中密信息科技有限公司;
我是此专利的发明人

上一篇：一种用于检测RS485通信网络最大负载量的系统及方法与流程
上一篇：一种视频播放方法及终端与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。