基于深度残差学习的限制级直播视频自动检测方法与系统与流程

文档序号：13472871阅读：425来源：国知局

本发明涉及计算机模式识别、深度学习模型和视频内容传播控制技术，具体地，涉及一种基于深度残差学习的限制级直播视频自动检测方法与系统。

背景技术：

随着近年来移动互联网的迅速发展，人们越来越频繁地接触网络信息。网络直播作为一种可以实时透过网络系统在不同的社交平台观看影片的新兴网络社交方式，迅速受到了民众特别是广大青少年人群的喜爱，网络直播平台也成为了一种崭新的社交媒体，例如，国内斗鱼、yy、熊猫直播平台等。而由于网络直播平台的监管机制并不完善，大量“擦边球”及违法信息(例如，色情表演、赌博游戏、暴恐内容、自虐或虐待他人等)快速泛滥，严重影响了以青少年为主体的广大网民的身心健康。在此背景下，限制级直播视频内容的自动化检测工作变得十分重要。

例如在对图像、视频等内容进行色情检测方面，许多学者都进行了不同程度的研究，提出了许多不同的检测方法，传统的色情检测算法，大多是基于复杂的手工特征训练模型，有的也能达到不错的效果，但缺点是提取特征过程太过复杂，特别是在提取多维特征的情况下，需要训练多个弱分类器迭代输出最后的检测结果。目前尚无针对视频直播色情、暴恐、赌博等有效的实时、自动监控方法、工具及系统公开发表。

深度学习神经网络模型近年来在图像识别领域取得了巨大成功，然而，想要达到更好的识别效果意味着需要不断增加深度学习神经网络模型的深度。在现有基础下，想要进一步训练更深层次的神经网络是非常困难的，甚至一味地增加神经网络的层数也并不能继续提升识别的精准度。

经过对现有色情检测技术的检索发现，中国专利公开号为cn106557527a的专利记载了“一种色情图像检测和系统”，公开日为2017年04月05日。该技术基于图像的全局特征，包括在六角锥体模型空间上的颜色直方图特征、区域形状特征和局部区域的梯度方向直方图特征等手工特征，初步判断图片是否包含色情信息，在得到疑似色情图片的结果后，再进行人工确认。该技术虽然对色情图像有一定的识别能力，然而提取特征过程及判别过程都十分复杂，且仅用于通信系统中，应用场景十分有限。

发表在2017年03月22日的第230期“neurocomputing”上的一篇名为“videopornographydetectionthroughdeeplearningtechniquesandmotioninformation”的文章，记载了一种基于深度学习模型和动作信息的视频色情检测算法。文中采用了深度卷积网络(cnn)对图像进行静态特征提取，与传统手工特征相比，拥有更简单的系统结构和更好的检测效果，为了进一步提升检测精确度，又引入了视频动态特征，综合两种特征给出最后的判别结果。该方法针对的是视频色情内容的识别，但性能受限于cnn模型结构，虽然使用动态特征进行补充，同时也增加了系统的复杂程度。

技术实现要素：

针对现有技术中的缺陷，本发明的目的是提供一种基于深度残差学习的限制级直播视频自动检测方法与系统。

根据本发明提供的一种基于深度残差学习的限制级直播视频自动检测方法，包括：

步骤1、制作样本管理工具，利用样本管理工具建立起训练图片样本的数据库，得到用于训练深度残差学习网络模型的图片样本记录；

步骤2、用图片样本记录训练深度残差学习网络模型，得到训练好的能对图片进行评分的深度残差学习网络模型；

步骤3、将直播视频解码成测试图片流，输入已训练好的深度残差学习网络模型中，得到测试图片评分流；

步骤4、根据测试图片评分流判定是否存在限制传播内容，若判定结果为存在则发出警告。

优选的，所述步骤1包括：

步骤1.1、用mysql制作样本管理工具；

步骤1.2、在样本管理工具中新建图片数据库；

步骤1.3、在新建图片数据库中新建图片类别；

步骤1.4、录入图片样本得到图片样本记录，每个图片样本记录包含图片id、图片名称以及图片路径。

优选的，所述步骤2包括：

步骤2.1、从图片样本记录中读取图片样本的图片id和图片路径；

步骤2.2、以图片样本作为训练数据、图片id作为标签，训练深度残差学习网络模型。

优选的，所述步骤3包括：

步骤3.1、用opencv工具将直播视频解码成测试图片流；

步骤3.2、将测试图片流作为输入，利用训练好的深度残差学习网络模型，得到测试图片评分流。

优选的，所述步骤4包括：

步骤4.1、将帧数变量n置零；

步骤4.2、按顺序从步骤3中得到的测试图片评分流中读取一个测试图片评分；

步骤4.3、判断测试图片评分是否大于评分阈值，大于则将帧数变量n加1，否则返回步骤4.1；

步骤4.4、判断帧数变量n是否大于帧数阈值，大于则发出警告，否则返回步骤4.2读取下一个测试图片评分，直到读取完测试图片评分流中的所有测试图片评分。

优选的，所述深度残差学习网络模型为resnet-50网络模型。

优选的，图片类别包括正常图片和限制传播图片。

优选的，所述正常图片的所述图片id为0，所述限制传播图片的所述图片id为1。

根据本发明提供的一种基于深度残差学习的限制级直播视频自动检测系统，包括：

训练图片样本数据库建立模块：制作样本管理工具，利用样本管理工具建立起训练图片样本的数据库，得到用于训练深度残差学习网络模型的图片样本记录；

深度残差学习网络模型训练模块：用图片样本记录训练深度残差学习网络模型，得到训练好的能对图片进行评分的深度残差学习网络模型；

测试图片流评分模块：将直播视频解码成测试图片流，输入已训练好的深度残差学习网络模型中，得到测试图片评分流；

检测模块：根据测试图片评分流判定是否存在限制传播内容，若判定结果为存在则发出警告。

优选的，所述训练图片样本数据库建立模块包括：

样本管理工具制作子模块：用mysql制作样本管理工具；

图片数据库建立子模块：在样本管理工具中新建图片数据库；

图片类别建立子模块：在新建图片数据库中新建图片类别；

图片样本录入子模块：录入图片样本得到图片样本记录，每个图片样本记录包含图片id、图片名称以及图片路径；

所述深度残差学习网络模型训练模块包括：

图片样本记录读取子模块：从图片样本记录中读取图片样本的图片id和图片路径；

深度残差学习网络模型训练子模块：以图片样本作为训练数据、图片id作为标签，训练深度残差学习网络模型；

所述测试图片流评分模块包括：

直播视频解码子模块：用opencv工具将直播视频解码成测试图片流；

测试图片流输入子模块：将测试图片流作为输入，利用训练好的深度残差学习网络模型，得到测试图片评分流；

所述检测模块包括：

帧数变量置零子模块：将帧数变量n置零；

测试图片评分读取子模块：按顺序从得到的测试图片评分流中读取一个测试图片评分；

测试图片评分判断子模块：判断测试图片评分是否大于评分阈值，大于则将帧数变量n加1，否则触发帧数变量置零子模块，将帧数变量n置零；

帧数变量判断子模块：判断帧数变量n是否大于帧数阈值，大于则发出警告，否则触发测试图片评分读取子模块，按顺序从得到的测试图片评分流中读取下一个测试图片评分，直到读取完测试图片评分流中的所有测试图片评分。

与现有技术相比，本发明具有如下的有益效果：

本发明采用了深度残差学习网络模型，能够进一步提升限制传播内容(如色情、暴恐等)检测的准确度且将系统模型的复杂度控制在一定的范围，其效果是同等复杂度的cnn模型达不到的。且本发明主要针对直播形式的色情内容检测，可以检测包括视频、图像在内的限制传播信息，适用于更多应用场景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于深度残差学习的限制级直播视频自动检测方法与系统的流程图；

图2为本发明样本管理工具建立训练图片样本数据库的流程图；

图3为本发明图片样本记录的组成示意图；

图4为resnet-50网络结构模型图；

图5为根据评分流判定是否存在限制传播内容的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供的一种基于深度残差学习的限制级直播视频自动检测方法，在本实施例中，深度残差学习网络模型以resnet-50网络模型为例进行说明，具体包括：

步骤1、用mysql(关系型数据库管理系统)制作样本管理工具，利用样本管理工具建立起训练图片样本的数据库，得到用于训练resnet-50网络模型的图片样本记录；

步骤2、用图片样本记录训练resnet-50网络模型，得到训练好的能对图片进行评分的resnet-50网络模型；

步骤3、用opencv工具将直播视频解码成测试图片流，输入已训练好的resnet-50网络模型中，得到测试图片评分流；

步骤4、根据测试图片评分流判定是否存在限制传播内容，若判定结果为存在则发出警告。

如图2所示，步骤1具体包括：

步骤1.1、用mysql制作样本管理工具，用样本管理工具建立训练样本数据库的流程如图2所示，利用此样本管理工具可以很方便的实现录入、删除、修改样本记录。

步骤1.2、在样本管理工具中新建图片数据库。

步骤1.3、在新建图片数据库中新建图片类别，本系统中，图片类别包含正常图片和限制传播图片两类，其中，正常图片的id为0，限制传播图片的id为1。

步骤1.4、录入图片样本得到图片样本记录，如图3所示，每个图片样本记录包含图片id、图片名称以及图片路径。

步骤2具体包括：

步骤2.1、从图片样本记录中读取图片样本的图片id和图片路径；

步骤2.2、以图片样本作为训练数据、图片id作为标签，训练resnet-50网络模型。resnet-50网络的模型结构图如图4所示，它对每层的输入做一个reference，学习形成残差函数，而不是学习一些没有reference的函数，这种残差函数更容易优化，且总本质上来说，网络层数变得更深了。

步骤3包括：

步骤3.1、用opencv工具将直播视频解码成测试图片流；

步骤3.2、将测试图片流作为输入，利用训练好的resnet-50网络模型，得到测试图片评分流。

如图5所示，步骤4包括：

步骤4.1、帧数变量n置零；

步骤4.2、按顺序从步骤3中得到的测试图片评分流中读取一个测试图片评分；

步骤4.3、判断评分是否大于评分阈值，大于则将帧数变量n加1，否则返回步骤4.1；

根据测试图片评分流判定是否存在特殊限制传播(色情、暴恐、赌博等)内容，若判定结果为存在，则发出警告，同时加载马赛克遮蔽不良内容区域。本发明能够进一步提升视频直播环境下特殊限制传播内容(如，色情，暴恐等)检测的准确度，且将系统模型的复杂度控制在一定的范围(可以在服务器端、pc终端、智能终端等加载)，适用于多种场景(如，pc端直播、手机端直播等不良内容实时监控)。

本发明还提供一种基于深度残差学习的直播视频自动检测系统，所述基于深度残差学习的直播视频自动检测系统可以通过所述基于深度残差学习的直播视频自动检测方法的步骤流程实现。具体地，所述基于深度残差学习的直播视频自动检测系统，包括：

深度残差学习网络模型训练模块：用图片样本记录训练深度残差学习网络模型，得到训练好的能对图片进行评分的深度残差学习网络模型；

测试图片流评分模块：将直播视频解码成测试图片流，输入已训练好的深度残差学习网络模型中，得到测试图片评分流；

检测模块：根据测试图片评分流判定是否存在限制传播内容，若判定结果为存在则发出警告。

其中，训练图片样本数据库建立模块包括：

样本管理工具制作子模块：用mysql制作样本管理工具；

图片数据库建立子模块：在样本管理工具中新建图片数据库；

图片类别建立子模块：在新建图片数据库中新建图片类别；

图片样本录入子模块：录入图片样本得到图片样本记录，每个图片样本记录包含图片id、图片名称以及图片路径；

深度残差学习网络模型训练模块包括：

图片样本记录读取子模块：从图片样本记录中读取图片样本的图片id和图片路径；

深度残差学习网络模型训练子模块：以图片样本作为训练数据、图片id作为标签，训练深度残差学习网络模型；

测试图片流评分模块包括：

直播视频解码子模块：用opencv工具将直播视频解码成测试图片流；

测试图片流输入子模块：将测试图片流作为输入，利用训练好的深度残差学习网络模型，得到测试图片评分流；

检测模块包括：

帧数变量置零子模块：将帧数变量n置零；

测试图片评分读取子模块：按顺序从得到的测试图片评分流中读取一个测试图片评分；

测试图片评分判断子模块：判断测试图片评分是否大于评分阈值，大于则将帧数变量n加1，否则触发帧数变量置零子模块，将帧数变量n置零；

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙锬锋;蒋兴浩;许可
技术所有人：上海交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。