视频检测方法、装置、设备及计算机可读存储介质与流程

文档序号：21104108发布日期：2020-06-16 21:06阅读：141来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及视频处理技术领域，尤其涉及一种视频检测方法、装置、设备及计算机可读存储介质。

背景技术：

随着互联网的广泛应用，用户在获得大量有用信息的同时也可能遇到许多不良信息，其中以色情视频最为严重。而这些视频往往具有内容复杂度高，隐蔽性强，数量多，时变性强等特点，经过分析传播后对社会公众危害大。因此对色情视频的检测和过滤具有重要意义。

目前，对色情视频的检测主要通过视频本身的视觉特征进行检测，例如，一些基于画面人体肤色程度的算法检测视频是否为色情视频。

但是这种基于人体肤色判别的方式，常常会将一些衣着较少、暴露皮肤较多的图像认为是色情图像，从对一些非色情视频产生误判，即误杀率较高，准确率较低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

本发明的主要目的在于提供一种视频检测方法、装置、设备及计算机可读存储介质，旨在解决现有色情视频检测的准确率较低的技术问题。

为实现上述目的，本发明提供一种视频检测方法，所述视频检测方法包括以下步骤：

若待检测视频中存在目标身体部位，则确定所述目标身体部位与预设身体部位是否匹配；

若所述目标身体部位与预设身体部位匹配，则基于所述待检测视频获取预设时长内的目标检测视频，并获取所述目标检测视频中预设数量的目标视频帧，其中，所述目标视频帧包括所述目标身体部位；

获取各个所述目标视频帧对应的帧向量，以获得帧向量集，其中，所述帧向量包括所述目标视频帧在所述目标检测视频中的第一播放时刻，以及所述预设身体部位对应的身体部位位置信息；

若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频。

进一步地，在一实施例中，所述若基于马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频的步骤之前，所述视频检测方法还包括：

确定所述第一马尔科夫预测链中，是否存在与帧向量集对应的待检测图形匹配的目标图形；

若存在与帧向量集对应的待检测图形匹配的目标图形，则基于马尔科夫预测链确定所述帧向量集满足第一预设条件。

进一步地，在一实施例中，所述确定所述第一马尔科夫预测链中，是否存在与帧向量集对应的待检测图形匹配的目标图形的步骤包括：

确定所述第一马尔科夫预测链中，是否存在与所述待检测图形的相似度大于预设相似度的图形，其中，若存在，则确定存在与帧向量集对应的待检测图形匹配的目标图形。

进一步地，在一实施例中，所述若基于马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频的步骤包括：

若基于马尔科夫预测链确定所述帧向量集满足第一预设条件，则基于所述待检测视频，获取各个所述目标视频帧对应的第一音量；

获取各个所述音量对应的音量向量，以获得音量向量集，其中，所述音量向量包括所述第一播放时刻以及所述第一播放时刻对应的音量；

若基于第二马尔科夫预测链确定所述音量向量集满足第二预设条件，则确定所述待检测视频为色情视频。

进一步地，在一实施例中，所述若基于马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频的步骤包括：

若基于马尔科夫预测链确定所述帧向量集满足第一预设条件，则基于所述待检测视频，获取各个所述目标视频帧对应的声谱图参数，其中，所述声谱图参数包括所述第一播放时刻以及所述第一播放时刻对应的声音频率；

获取各个所述声谱图参数对应的声谱向量，以获得声谱向量集；

若基于第三马尔科夫预测链确定所述声谱向量集满足第三预设条件，则确定所述待检测视频为色情视频。

进一步地，在一实施例中，所述若待检测视频中存在目标身体部位，则确定所述目标身体部位与预设身体部位是否匹配的步骤之前，所述视频检测方法还包括：

在多个视频样本中，获取预设时长内包括预设身体部位的目标视频样本，并获取各个目标视频样本中预设数量的视频帧样本，其中，所述视频帧样本包括所述预设身体部位；

获取各个所述视频帧样本对应的帧样本向量，以获得帧样本向量集，其中，所述帧样本向量包括所述视频帧样本在所述目标视频样本中的第二播放时刻，以及所述预设身体部位对应的身体部位位置信息；

对各个所述帧样本向量集进行聚类，以获得多个第一聚类，并基于多个所述第一聚类生成所述第一马尔科夫预测链。

进一步地，在一实施例中，所述基于多个所述第一聚类生成所述第一马尔科夫预测链的步骤包括：

确定各个第一聚类对应的聚类图形，并基于多个所述聚类图形生成所述第一马尔科夫预测链。

进一步地，在一实施例中，所述视频检测方法还包括：

基于各个所述目标视频样本，获取各个所述视频帧样本对应的第二音量；

获取各个所述第二音量对应的音量样本向量，以获得音量样本向量集，其中，所述音量样本向量包括所述第二播放时刻以及所述第二播放时刻对应的音量；

对各个所述音量样本向量集进行聚类，以获得多个第二聚类，并基于多个所述第二聚类生成第二马尔科夫预测链。

进一步地，在一实施例中，所述视频检测方法还包括：

基于各个所述目标视频样本，获取各个所述视频帧样本对应的声谱图参数样本，其中，所述声谱图参数样本包括所述第二播放时刻以及所述第二播放时刻对应的声音频率；

获取各个所述声谱图参数样本对应的声谱样本向量，以获得声谱样本向量集；

对各个所述声谱样本向量集进行聚类，以获得多个第三聚类，并基于多个所述第三聚类生成第三马尔科夫预测链。

进一步地，在一实施例中，所述视频检测方法还包括：

若确定所述待检测视频为色情视频，则确定所述待检测视频的视频标识为色情视频标识；

若所述目标身体部位与预设身体部位不匹配，或者，确定所述待检测视频为非色情视频，则确定所述待检测视频的视频标识为非色情视频标识。

进一步地，在一实施例中，所述获取待检测视频中的目标身体部位的步骤之前，所述视频检测方法还包括：

在检测到新上传的第一视频或者播放中的第二视频时，确定所述第一视频/第二视频是否存在视频标识；

若所述第一视频或第二视频不存在视频标识，则将所述第一视频或第二视频作为所述待检测视频。

此外，为实现上述目的，本发明还提供一种视频检测装置，所述视频检测装置包括：

第一获取模块，用于获取待检测视频中的目标身体部位，并确定所述目标身体部位与预设身体部位是否匹配；

第二获取模块，用于若所述目标身体部位与预设身体部位匹配，则基于所述待检测视频获取预设时长内的目标检测视频，并获取所述目标检测视频中预设数量的目标视频帧，其中，所述目标视频帧包括所述目标身体部位；

第三获取模块，用于获取各个所述目标视频帧对应的帧向量，以获得帧向量集，其中，所述帧向量包括所述目标视频帧在所述目标检测视频中的第一播放时刻，以及所述预设身体部位对应的身体部位位置信息；

确定模块，用于若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频。

此外，为实现上述目的，本发明还提供一种视频检测设备，所述视频检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频检测程序，所述视频检测程序被所述处理器执行时实现前述的视频检测方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频检测程序，所述视频检测程序被处理器执行时实现前述的视频检测方法的步骤。

本发明通过若待检测视频中存在目标身体部位，则确定所述目标身体部位与预设身体部位是否匹配，接着若所述目标身体部位与预设身体部位匹配，则基于所述待检测视频获取预设时长内的目标检测视频，并获取所述目标检测视频中预设数量的目标视频帧，而后获取各个所述目标视频帧对应的帧向量，以获得帧向量集，然后若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频，通过马尔科夫预测链对包含目标身体部位的待检测视频进行检测，能够准确检测待检测视频是否属于色情视频，在待检测视频对应的帧向量集满足第一预设条件时其必然为色情视频，与基于人体肤色判别的方式相比，其不存在误判准确率更高，提高了色情视频检测的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中视频检测设备的结构示意图；

图2为本发明视频检测方法第一实施例的流程示意图；

图3为本发明一实施例中目标身体部位的示意图；

图4为本发明一实施例中的应用场景示意图；

图5为本发明另实施例中的应用场景示意图；

图6为本发明一实施例中第一马尔科夫预测链的示意图；

图7为本发明一实施例中待检测图形的示意图；

图8为本发明一实施例中第一聚类的示意图；

图9为本发明一实施例中的聚类图形示意图；

图10为本发明另一实施例中的聚类图形示意图；

图11为本发明又一实施例中的聚类图形示意图；

图12为本发明视频检测装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中视频检测设备的结构示意图。

本发明实施例视频检测设备可以是pc，也可以是智能手机、平板电脑、电子书阅读器、mp3(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)播放器、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该视频检测设备可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，视频检测设备还可以包括摄像头、rf(radiofrequency，射频)电路，传感器、音频电路、wifi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。当然，视频检测设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的视频检测设备结构并不构成对视频检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频检测程序。

在图1所示的视频检测设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频检测程序。

在本实施例中，视频检测装置包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的视频检测程序，其中，处理器1001调用存储器1005中存储的视频检测程序时，并执行下述视频检测方法中的操作。

本发明还提供一种视频检测方法，参照图2，图2为本发明视频检测方法第一实施例的流程示意图。

本实施例中，该视频检测方法包括：

步骤s110，若待检测视频中存在目标身体部位，则确定所述目标身体部位与预设身体部位是否匹配；

其中，预设设置预设身体部位，例如，大多数的色情视频中有几个关键场景，比如性器官运动、口部运动等等，目标身体部位可以包括嘴唇和男性第一特征，或者，目标身体部位可以包括男性第一特征以及女性第一特征。本实施例中，以口部运动来进行详细阐述，即目标身体部位包括嘴唇和男性第一特征。

本实施例中，先对待检测视频进行整体检测，确定待检测视频中是否存在目标身体部位，若存在，则确定目标身体部位与预设身体部位是否匹配，即确定目标身体部位是否包括嘴唇和男性第一特征，其中嘴唇为女性嘴唇。

可以理解的是，色情视频中的口部运动中嘴唇贴近男性第一特征之间，因此，在确定目标身体部位包括女性嘴唇和男性第一特征时，确定嘴唇和男性第一特征之间的距离是否小于预设距离，若是，则确定目标身体部位与预设身体部位匹配，该预设距离可进行合理设置，例如，预设距离设置为3cm等。

步骤s120，若所述目标身体部位与预设身体部位匹配，则基于所述待检测视频获取预设时长内的目标检测视频，并获取所述目标检测视频中预设数量的目标视频帧，其中，所述目标视频帧包括所述目标身体部位；

其中，预设时长可进行合理设置，该预设时长与生成第一马尔科夫预测链时目标视频样本的时长一致，一般情况下，在色情视频中存在口部运动，其口部运动的持续时长较长，因此，本实施例中，可将预设时长设置为1s、2s等，以使目标检测视频为口部运动的持续过程，即目标检测视频中均包括目标身体部位。预设数量可进行合理设置，例如，预设数量为16、24等。

本实施例中，若目标身体部位与预设身体部位匹配，则基于待检测视频获取预设时长内的目标检测视频，以使目标检测视频中均包括目标身体部位，并获取目标检测视频中预设数量的目标视频帧，具体地，可采用等间距截取目标检测视频得到预设数量的目标视频帧，或者，随机截取目标检测视频得到预设数量的目标视频帧。需要说明的是，由于目标检测视频中均包括目标身体部位，因此，各个目标视频帧同样包括目标身体部位。

步骤s130，获取各个所述目标视频帧对应的帧向量，以获得帧向量集，其中，所述帧向量包括所述目标视频帧在所述目标检测视频中的第一播放时刻以及所述目标身体部位对应的身体部位位置信息；

本实施例中，在获取到目标视频帧时，获取各个目标视频帧对应的帧向量，以获得帧向量集，针对任一目标视频帧，识别该目标视频帧的嘴唇和男性第一特征，对男性第一特征做标记，在嘴唇和男性第一特征之间定义位置，即定义一个数据轴，记录嘴唇沿男性第一特征的目标位置即身体部位位置信息，如图3所示，数据轴男性第一特征的顶端为1000，男性第一特征的底端为0，目标位置即为口部运动轨迹中的嘴唇位置。

具体地，先获取各个目标视频帧在目标检测视频中的第一播放时刻，而后对各个目标视频帧进行识别，以确定目标身体部位对应的身体部位位置信息，进而得到各个目标视频帧对应的帧向量，例如，各个帧向量如下：

{“time”:0.001}{“value”:998}

{“time”:0.031}{“value”:870}

{“time”:0.56}{“value”:667}

…

{“time”:0.987}{“value”:10}

其中，time为各个目标视频帧对应的第一播放时刻，value为各个目标视频帧对应的身体部位位置信息。

步骤s140，若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频。

其中，第一马尔科夫预测链为基于现有的色情视频中的口部运动进行处理得到的马尔科夫链，其包括多个典型的口部运动的图形。

本实施例中，在获取到帧向量集时，根据第一马尔科夫预测链确定帧向量集是否满足第一预设条件，若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频，进而通过目标身体部位以及第一马尔科夫预测链准确检测待检测视频是否属于色情视频，提高了色情视频检测的准确性。

可以理解的是，目标检测视频可包括多个，可通过对多个目标检测视频进行检测，若多个目标检测视频对应的帧向量集中存在满足第一预设条件的目标帧向量集，则判定该待检测视频为色情视频。

进一步地，在一实施例中，该视频检测方法还包括：

步骤a，若确定所述待检测视频为色情视频，则确定所述待检测视频的视频标识为色情视频标识；

步骤b，若所述目标身体部位与预设身体部位不匹配，或者，确定所述待检测视频为非色情视频，则确定所述待检测视频的视频标识为非色情视频标识。

本实施例中，通过设定待检测视频的视频标识，以便于后续对该视频标识进行相应的处理，例如，对为色情视频的待检测视频进行封堵，或者，对于后续再次遇到该待检测视频时，可直接根据该视频标识进行判断而无需再次检测。

进一步地，又一实施例中，步骤s110之前，该视频检测方法还包括：

步骤c，在检测到新上传的第一视频或者播放中的第二视频时，确定所述第一视频/第二视频是否存在视频标识；

步骤d，若所述第一视频或第二视频不存在视频标识，则将所述第一视频或第二视频作为所述待检测视频。

本实施例中，可通过判断新上传的第一视频或者播放中的第二视频是否存在视频标识，判断第一视频或第二视频是否已经进行检测，若所述第一视频或第二视频不存在视频标识，则将所述第一视频或第二视频作为所述待检测视频，以对第一视频或第二视频进行检测。

本实施例中，如图4和图5所示，该视频检测方法可以应用与网关部署的设备(检测分析引擎)上，也可以放在云端的检测平台(云端检测引擎)上，也可以部署在数据中心服务器上。以对用户上传上来的视频在平台端发布时、发布前，在检测分析引擎上进行检测，或者在网关、云端端(云端检测引擎)进行检测和封堵用，其中，云端不限于公有云，也可以部署为私有云、混合云。另外云端所部署的平台和程序，可以由安全网关厂商维护，也可以由受保护区域的组织自行维护。

本实施例提出的视频检测方法，通过若待检测视频中存在目标身体部位，则确定所述目标身体部位与预设身体部位是否匹配，接着若所述目标身体部位与预设身体部位匹配，则基于所述待检测视频获取预设时长内的目标检测视频，并获取所述目标检测视频中预设数量的目标视频帧，而后获取各个所述目标视频帧对应的帧向量，以获得帧向量集，然后若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频，通过马尔科夫预测链对包含目标身体部位的待检测视频进行检测，能够准确检测待检测视频是否属于色情视频，在待检测视频对应的帧向量集满足第一预设条件时其必然为色情视频，与基于人体肤色判别的方式相比，其不存在误判准确率更高，提高了色情视频检测的准确性。

基于第一实施例，提出本发明视频检测方法的第二实施例，在本实施例中，该步骤s140之前，该视频检测方法还包括：

步骤s150，确定所述第一马尔科夫预测链中，是否存在与帧向量集对应的待检测图形匹配的目标图形；

步骤s160，若存在与帧向量集对应的待检测图形匹配的目标图形，则基于马尔科夫预测链确定所述帧向量集满足第一预设条件。

其中，第一马尔科夫预测链为基于现有的色情视频中的口部运动进行处理得到的马尔科夫链，参照图6，第一马尔科夫预测链包括多个典型的口部运动的图形。

本实施例中，在确定帧向量集时，确定该帧向量集对应的待检测图形，如图7所示，然后确定所述第一马尔科夫预测链中，是否存在与帧向量集对应的待检测图形匹配的目标图形，具体的可按照第一马尔科夫预测链的时间轴将待检测图形与第一马尔科夫预测链进行逐次比较，以确定第一马尔科夫预测链中是否存在与帧向量集对应的待检测图形匹配的目标图形，例如，按照预设时间间隔依次获取第一马尔科夫预测链中预设时长的图形，并比较获取到的图像与待检测图形，其中，预设时间间隔可根据预设时长进行合理设置，预设时长为1s时，预设时间间隔可设置为0.1s、0.2s或0.5s等。若存在与帧向量集对应的待检测图形匹配的目标图形，则基于马尔科夫预测链确定所述帧向量集满足第一预设条件。

进一步地，在一实施例中，该步骤s150包括：

具体地，按照预设时间间隔依次获取第一马尔科夫预测链中预设时长的图形，并比较获取到的图像与待检测图形，以得到该获取到的图像与待检测图形之间的相似度，直至第一马尔科夫预测链中未获取的图形的持续时长小于预设时长，而后确定各个相似度中的最大相似度是否大于预设相似度，若大于，则确定第一马尔科夫预测链中存在与所述待检测图形的相似度大于预设相似度的图形，进而确定存在与帧向量集对应的待检测图形匹配的目标图形，该最大相似度所对应的图像即为目标图形。

其中，预设相似度可进行合理设置，例如，预设相似度为80％、70％等。

本实施例提出的视频检测方法，通过确定所述马尔科夫预测链中，是否存在与帧向量集对应的待检测图形匹配的目标图形；接着若存在与帧向量集对应的待检测图形匹配的目标图形，则基于马尔科夫预测链确定所述帧向量集满足第一预设条件，进而能够准确判定帧向量集是否满足第一预设条件，进一步，提高了色情视频检测的准确性。

基于第一实施例，提出本发明视频检测方法的第三实施例，在本实施例中，步骤s140包括：

步骤s141，若基于马尔科夫预测链确定所述帧向量集满足第一预设条件，则基于所述待检测视频，获取各个所述目标视频帧对应的第一音量；

步骤s142，获取各个所述音量对应的音量向量，以获得音量向量集，其中，所述音量向量包括所述第一播放时刻以及所述第一播放时刻对应的音量；

步骤s143，若基于第二马尔科夫预测链确定所述音量向量集满足第二预设条件，则确定所述待检测视频为色情视频。

一般情况下，视频包括视频、音频的结合，大多数的色情视频都包括音频特征信息，音频特征信息主要有音量和声谱图。所以从整个视频帧的角度而言，都有对应的两个具体信息，音量、声谱图，具体来讲，音频的特征信息主要有音量和声谱图。这些音频特征在参数上对视频感情进行了描述。而音频特征信息中的音量包括音量的大小以及音量的变化等，其可从整个视频的动态角度对视频的感情基调进行描述。因此，可通过视频中的音量判断其是否为色情视频。

在本实施例中，基于待检测视频，获取各个目标视频帧对应的第一音量，即播放各个目标视频帧时的音量，而后获取各个所述音量对应的音量向量，以获得音量向量集，其中，音量向量包括所述第一播放时刻以及所述第一播放时刻对应的音量；而后根据第二马尔科夫预测链确定音量向量集是否满足第二预设条件，若基于第二马尔科夫预测链确定所述音量向量集满足第二预设条件，则确定所述待检测视频为色情视频，进一步增加音量检测过程，通过对待检测视频的音量检测，进一步提高色情视频检测的准确性。

可以理解的是，音量向量中第一播放时刻对应的音量可以为实际音量值，也可以参照第一实施例中设置身体部位位置信息的方式，即将实际最大音量设置为1000，实际最小音量设置为0，1000*实际音量值/实际最大音量为音量向量中第一播放时刻对应的音量。

需要说明的是，基于第二马尔科夫预测链确定音量向量集是否满足第二预设条件的方式，与基于第一马尔科夫预测链确定帧向量集是否满足第一预设条件的方式类似，再次不再赘述。

本实施例提出的视频检测方法，通过基于所述待检测视频，获取各个所述目标视频帧对应的第一音量，接着获取各个所述音量对应的音量向量，以获得音量向量集，而后若基于第二马尔科夫预测链确定所述音量向量集满足第二预设条件，则确定所述待检测视频为色情视频，增加对待检测视频的音量检测，通过对待检测视频的音量检测，进一步提高色情视频检测的准确性。

基于第一实施例，提出本发明视频检测方法的第四实施例，在本实施例中，步骤s140包括：

步骤s144，若基于马尔科夫预测链确定所述帧向量集满足第一预设条件，则基于所述待检测视频，获取各个所述目标视频帧对应的声谱图参数，其中，所述声谱图参数包括所述第一播放时刻以及所述第一播放时刻对应的声音频率；

步骤s145，获取各个所述声谱图参数对应的声谱向量，以获得声谱向量集；

步骤s146，若基于第三马尔科夫预测链确定所述声谱向量集满足第三预设条件，则确定所述待检测视频为色情视频。

一般情况下，视频包括视频、音频的结合，大多数的色情视频都包括音频特征信息，音频特征信息主要有音量和声谱图。所以从整个视频帧的角度而言，都有对应的两个具体信息，音量、声谱图。这些音频特征在参数上对视频感情进行了描述。声谱图指的是针对每一帧的视频，都有对应的音频描述单元。因此，可通过视频中的者声谱图参数判断其是否为色情视频。

可以理解的是，声谱向量中第一播放时刻对应的声音频率可以为实际声音频率值，也可以参照第一实施例中设置身体部位位置信息的方式，即将实际最大声音频率值设置为1000，实际最小声音频率值设置为0，1000*实际声音频率值/实际最大声音频率值为声谱向量中第一播放时刻对应的声音频率。

通过根据第三马尔科夫预测链确定声谱向量集是否满足第三预设条件，若基于第三马尔科夫预测链确定声谱向量集满足第三预设条件，则确定所述待检测视频为色情视频，进一步增加声谱图参数检测过程，通过对待检测视频的声谱图参数检测，进一步提高色情视频检测的准确性。

需要说明的是，基于第三马尔科夫预测链确定声谱向量集是否满足第三预设条件的方式，与基于第一马尔科夫预测链确定帧向量集是否满足第一预设条件的方式类似，再次不再赘述。

进一步地，在一实施例中，可将本实施例与第三实施例相结合，即若基于第二马尔科夫预测链确定所述音量向量集满足第二预设条件，则基于所述待检测视频，获取各个所述目标视频帧对应的声谱图参数，其中，所述声谱图参数包括所述第一播放时刻以及所述第一播放时刻对应的声音频率；获取各个所述声谱图参数对应的声谱向量，以获得声谱向量集；若基于第三马尔科夫预测链确定所述声谱向量集满足第三预设条件，则确定所述待检测视频为色情视频；进而实现通过音量、声谱图参数、视频相结合的方式检测待检测视频是否为色情视频，进一步提高色情视频检测的准确性。

本实施例提出的视频检测方法，通过基于所述待检测视频，获取各个所述目标视频帧对应的声谱图参数，接着获取各个所述声谱图参数对应的声谱向量，以获得声谱向量集；而后若基于第三马尔科夫预测链确定所述声谱向量集满足第三预设条件，则确定所述待检测视频为色情视频，增加对待检测视频的声谱图参数检测，通过对待检测视频的声谱图参数检测，进一步提高色情视频检测的准确性。

基于第一实施例，提出本发明视频检测方法的第五实施例，在本实施例中，步骤s110之前，该视频检测方法还包括：

步骤s170，在多个视频样本中，获取预设时长内包括预设身体部位的目标视频样本，并获取各个目标视频样本中预设数量的视频帧样本，其中，所述视频帧样本包括所述预设身体部位；

步骤s180，获取各个所述视频帧样本对应的帧样本向量，以获得帧样本向量集，其中，所述帧样本向量包括所述视频帧样本在所述目标视频样本中的第二播放时刻以及所述预设身体部位对应的身体部位位置信息；

步骤s190，对各个所述帧样本向量集进行聚类，以获得多个第一聚类，并基于多个所述第一聚类生成所述第一马尔科夫预测链。

本实施例中，先获取多个视频样本，例如2000个色情视频，而后在多个视频样本中，获取预设时长内包括预设身体部位的目标视频样本，即分别在每一个视频样本中截取一个预设时长内包括预设身体部位的目标视频样本，得到多个目标视频样本，并获取各个目标视频样本中预设数量的视频帧样本，具体地，可采用等间距截取目标视频样本得到预设数量的视频帧样本，或者，随机截取目标视频样本得到预设数量的视频帧样本。需要说明的是，预设身体部位与目标身体部位相对应。

而后，获取各个所述视频帧样本对应的帧样本向量，以获得帧样本向量集，其中，预设身体部位对应的身体部位位置信息的获取方式与目标身体部位对应的身体部位位置信息的获取方式类似，再次不在赘述。

接着，对各个所述帧样本向量集进行聚类，以获得多个第一聚类，具体地，采用k均值聚类算法针对帧样本向量进行聚类，得到聚类结果即多个第一聚类，基于多个第一聚类生成所述第一马尔科夫预测链，进而提高第一马尔科夫预测链与色情视频的关联性，提高通过第一马尔科夫预测链进行色情视频检测的准确性。

进一步地，在一实施例中，步骤s190包括：

确定各个第一聚类对应的聚类图形，并基于多个所述聚类图形生成所述第一马尔科夫预测链。

本实施例中，在获取到各个第一聚类时，可对各个第一聚类进行处理以得到各个第一聚类对应的聚类图形，例如，预设时长为1秒、预设数量为16时，某一第一聚类的图像如图8所示，对该图像进行处理即可得到该第一聚类对应的聚类图形，如图9至图11。而后对对个第一聚类对应的聚类图形进行整合以得到第一马尔科夫预测链，如图4所示，图4为包括100个第一聚类对应的聚类图形的第一马尔科夫预测链。

本实施例提出的视频检测方法，通过在多个视频样本中，获取预设时长内包括预设身体部位的目标视频样本，并获取各个目标视频样本中预设数量的视频帧样本，接着获取各个所述视频帧样本对应的帧样本向量，以获得帧样本向量集，而后对各个所述帧样本向量集进行聚类，以获得多个第一聚类，并基于多个所述第一聚类生成所述第一马尔科夫预测链，通过根据预设身体部位得到第一马尔科夫预测链，提高通过第一马尔科夫预测链进行色情视频检测的准确性。

基于第五实施例，提出本发明视频检测方法的第六实施例，在本实施例中，该视频检测方法还包括：

步骤s200，基于各个所述目标视频样本，获取各个所述视频帧样本对应的第二音量；

步骤s210，获取各个所述第二音量对应的音量样本向量，以获得音量样本向量集，其中，所述音量样本向量包括所述第二播放时刻以及所述第二播放时刻对应的音量；

步骤s220，对各个所述音量样本向量集进行聚类，以获得多个第二聚类，并基于多个所述第二聚类生成第二马尔科夫预测链。

本实施例中，音量样本向量中第二播放时刻对应的音量的获取方式，与音量向量中第一播放时刻对应的音量的获取方式类似；对各个所述音量样本向量集进行聚类的方式与对各个所述帧样本向量集进行聚类的方式类似；且第二马尔科夫预测链的生成方式与第一马尔科夫预测链的生成方式类似，在此均不再赘述。

本实施例提出的视频检测方法，通过基于各个所述目标视频样本，获取各个所述视频帧样本对应的第二音量；接着获取各个所述第二音量对应的音量样本向量，以获得音量样本向量集，而后对各个所述音量样本向量集进行聚类，以获得多个第二聚类，并基于多个所述第二聚类生成第二马尔科夫预测链，通过根据第二音量得到第二马尔科夫预测链，提高通过第二马尔科夫预测链进行色情视频检测的准确性，通过在色情视频检测时增加音量检测，进一步提高了色情视频检测的准确性。

基于第五实施例，提出本发明视频检测方法的第七实施例，在本实施例中，该视频检测方法还包括：

步骤s230，基于各个所述目标视频样本，获取各个所述视频帧样本对应的声谱图参数样本，其中，所述声谱图参数样本包括所述第二播放时刻以及所述第二播放时刻对应的声音频率；

步骤s240，获取各个所述声谱图参数样本对应的声谱样本向量，以获得声谱样本向量集；

步骤s250，对各个所述声谱样本向量集进行聚类，以获得多个第三聚类，并基于多个所述第三聚类生成第三马尔科夫预测链。

本实施例中，声谱图参数样本中第二播放时刻对应的声音频率的获取方式，与音量向量中第一播放时刻对应的音量的获取方式类似；对各个所述声谱样本向量集进行聚类的方式与对各个所述帧样本向量集进行聚类的方式类似；且第三马尔科夫预测链的生成方式与第一马尔科夫预测链的生成方式类似，在此均不再赘述。

本实施例提出的视频检测方法，通过基于各个所述目标视频样本，获取各个所述视频帧样本对应的声谱图参数样本，接着获取各个所述声谱图参数样本对应的声谱样本向量，以获得声谱样本向量集，而后对各个所述声谱样本向量集进行聚类，以获得多个第三聚类，并基于多个所述第三聚类生成第三马尔科夫预测链，通过根据声谱图参数得到第三马尔科夫预测链，提高通过第三马尔科夫预测链进行色情视频检测的准确性，通过在色情视频检测时增加声谱图参数检测，进一步提高了色情视频检测的准确性。

此外，本发明实施例还提出一种视频检测装置，参照图12，图12为本发明视频检测装置一实施例的功能模块示意图，本实施例中，该视频检测装置包括：

第一获取模块110，用于获取待检测视频中的目标身体部位，并确定所述目标身体部位与预设身体部位是否匹配；

第二获取模块120，用于若所述目标身体部位与预设身体部位匹配，则基于所述待检测视频获取预设时长内的目标检测视频，并获取所述目标检测视频中预设数量的目标视频帧，其中，所述目标视频帧包括所述目标身体部位；

第三获取模块130，用于获取各个所述目标视频帧对应的帧向量，以获得帧向量集，其中，所述帧向量包括所述目标视频帧在所述目标检测视频中的第一播放时刻，以及所述预设身体部位对应的身体部位位置信息；

确定模块140，用于若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定所述待检测视频为色情视频。

需要说明的是，视频检测装置的各个实施例与上述视频检测方法的各实施例基本相同，在此不再详细赘述。

本实施例提出的视频检测装置，通过若待检测视频中存在目标身体部位，则第一获取模块110确定所述目标身体部位与预设身体部位是否匹配，接着若所述目标身体部位与预设身体部位匹配，则第二获取模块120基于所述待检测视频获取预设时长内的目标检测视频，并获取所述目标检测视频中预设数量的目标视频帧，而后第三获取模块130获取各个所述目标视频帧对应的帧向量，以获得帧向量集，然后若基于第一马尔科夫预测链确定所述帧向量集满足第一预设条件，则确定模块140确定所述待检测视频为色情视频，通过马尔科夫预测链对包含目标身体部位的待检测视频进行检测，能够准确检测待检测视频是否属于色情视频，在待检测视频对应的帧向量集满足第一预设条件时其必然为色情视频，与基于人体肤色判别的方式相比，其不存在误判准确率更高，提高了色情视频检测的准确性。

此外，本发明实施例还提出一种计算机可读存储介质。

本发明计算机可读存储介质上存储有视频检测程序，所述视频检测程序被处理器执行时实现如上所述的视频检测方法的步骤。

其中，在所述处理器上运行的视频检测程序被执行时所实现的方法可参照本发明视频检测方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨金柱
技术所有人：深信服科技股份有限公司
我是此专利的发明人

上一篇：适用于高动态自组织网络的分布式安全加密机制的制作方法
上一篇：盒体夹取装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。