一种视频检测方法及装置的制造方法_2

文档序号：9631785阅读：来源：国知局

得距离的取值小于距离阈值的所述关键词，并基于所述关键词所在等级确定不良话音的等级，所述话音检测结果包括所述不良话音和所述不良话首的等级。
[0044] 与现有技术相比，本发明提供的上述技术方案具有如下优点：
[0045] 本发明提供的上述技术方案，可以基于待检测视频中相邻帧图像的相似度，将待检测视频分割成多个子段视频，然后对各个子段视频进行图像检测、文本检测和话音关键词检测，这样就可以基于图像检测得到的各个子段视频的图像检测结果、基于文本检测得到的各个子段视频的文本检测结果和基于话音关键词检测得到的话音检测结果来判定待检测视频的检测结果，即判定待检测视频是否为不良视频。也就是说本发明在判定待检测视频是否为不良视频是基于图像、文本和话音关键词这三个方面，与现有技术中单纯的图像检测相比，本发明从多个方面对待检测视频进行检测，从而更加全面的对待检测视频进行分析，提高视频检测的准确度。
【附图说明】
[0046] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0047] 图1是本发明实施例提供的视频检测方法的流程图；
[0048] 图2是本发明实施例提供的光流轨迹图；
[0049] 图3是本发明实施例提供的对子段视频进行图像检测的示意图；
[0050] 图4是本发明实施例提供的目标对象的单位检测区域；
[0051] 图5是本发明实施例提供的梯度直方图；
[0052] 图6是本发明实施例提供的对子段视频进行文本检测的示意图；
[0053] 图7是本发明实施例提供的对子段视频进行话音检测的示意图；
[0054] 图8是本发明实施例提供的基于DTW的序列比对不意图；
[0055] 图9是本发明实施例提供的视频检测装置的结构示意图；
[0056] 图10是本发明实施例提供的视频检测装置中检测单元的结构示意图。
【具体实施方式】
[0057] 本发明实施例提供的视频检测方法及装置的核心思想之一是：通过对待检测视频的各个子段视频进行图像检测、文本检测和话音关键词检测来判定待检测视频是否为不良视频，这样相对于现有技术中单纯的图像检测相比，本发明实施例提供的视频检测方法及装置可以从多个方面对待检测视频进行检测，从而更加全面的对待检测视频进行分析，提高视频检测的准确度。
[0058] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0059] 请参阅图1，本发明实施例提供的视频检测方法的一种流程图，可以包括以下步骤：
[0060] 101 :基于待检测视频中相邻帧图像的相似度，将待检测视频分割成多个子段视频。其中待检测视频中相邻帧图像的相似度是指相邻帧图像的相似程度，在本发明实施例中可以通过光流轨迹来确定相邻帧图像之间是否相似。其过程如下：
[0061] 首先，为每帧图像中的每个像素点设置一个光流矢量，基于光流矢量采用光流计算方法提取相邻帧图像间各个像素点的运动轨迹，并将二维坐标图上绘制各个像素点的运动轨迹即得到光流轨迹图，如图2中第三张附图所示，其中图2中第三张附图是前两张图像对应像素值对比计算得到的光流轨迹图，前两张图像是从同一段视频中提取的前后两帧图像；然后统计光流轨迹图上运动速度超过一定运动速度阈值的像素点的数目，并当超过一定运动速度阈值的像素点的数目与像素总数的比例大于预设像素阈值时，判定这两帧图像为相似图像，这样就可以将这两帧图像为分割边界，待检测视频则可以以这个分割边界进行分割得到子段视频。
[0062] 例如当相似图像的两帧图像为第3帧图像和第4帧图像，则以这两帧图像作为分割边界进行分割时，可以将第3帧图像与第3帧图像之前的，即第1帧图像和第2帧图像分割在同一个子段视频中，而第4帧图像及第4帧图像之后的图像分割在另一个子段视频中，若第4帧图像及第4帧图像之后的图像中仍存在相似图像，则会对子段视频进一步分割来得到多个子段视频。
[0063] 在本发明实施例中，上述基于光流矢量采用的光流计算方法可以是现有光流计算中的任意一种方法，如LK(LUCaS-Kanade)算法，且上述运动速度阈值和预设像素阈值可以根据实际情况来设定，对此本发明实施例并不限定其具体取值。
[0064] 102:分别对各个子段视频进行图像检测、文本检测和话音关键词检测，得到各个子段视频的图像检测结果、各个子段视频的文本检测结果和各个子段视频的话音检测结果，其中图像检测结果用于指示基于图像检测得到的子段视频的检测结果，文本检测结果用于指示基于文本检测得到的子段视频的检测结果，话音检测结果用于指示基于话音关键词检测得到的子段视频的检测结果。
[0065] 即上述图像检测结果、文本检测结果和话音检测结果可以用于指示相对应的子段视频中是否包括目标对象。以图像检测结果为例，若基于图像检测得到子段视频中包括：恐怖分子首领的画像和恐怖分子的徽章，则图像检测结果指示子段视频中包括目标对象。
[0066] 103:基于各个子段视频的图像检测结果、各个子段视频的文本检测结果和各个子段视频的话音检测结果，得到相应子段视频的检测结果。因为子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果分别是对子段视频的一个方面进行检测得到的检测结果，其并不能够完全指示子段视频是否为不良视频字段，所以在本发明实施例需要基于这三个检测结果来得到相应子段视频的检测结果。
[0067] 在本发明实施例中，得到相应子段视频的检测结果的一种方式是：当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中任意一项检测结果指示检测到目标对象，且目标对象的等级为一级时，得到指示子段视频为不良视频子段的检测结果；
[0068] 当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中至少两项检测结果指示检测到目标对象，且目标对象的等级为二级时，得到指示子段视频为不良视频子段的检测结果；
[0069] 当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中任意一项检测结果指示检测到目标对象，且目标对象的等级为二级时，得到指示子段视频为疑似不良视频子段的检测结果；
[0070] 除上述图像检测结果、文本检测结果和话音检测结果可以指示子段视频为不良视频字段或者疑似不良视频字段的检测结果之外，其他情况则可以得到指示子段视频为正常视频字段的检测结果。
[0071] 在本发明实施例中，目标对象是子段视频中包含的不良信息，如在图像检测结果中目标对象可以是恐怖分子首领的画像、恐怖分子的徽章和色情视频中的裸体等；在文本检测结果中目标对象可以是暴恐视频中的"圣战"、色情视频中的"色情选秀"、诈骗广告视频中的"一次根治不复发"等；而在话音检测结果中目标对象可以是如暴恐视频中的"杀戮和自杀"、诈骗广告视频中的"治愈率100% "等。并且在本发明实施例中目标对象的等级指示目标对象的重要程度，即重要程度越高说明目标对象更可能是不良信息，在本发明实施例中，二级的重要程度小于一级的重要程度。
[0072] 104 :基于各个子段视频的检测结果，得到待检测视频的检测结果。其可行方式是：基于检测结果，得到为不良视频子段的第一子段视频数量以及疑似不良视频字段的第二子段视频数量；当第一子段视频数量与子段视频总数的比例大于第一阈值时，得到指示待检测视频为不良视频的检测结果；当第二子段视频数量与子段视频总数的比例大于第二阈值时，得到指示待检测视频为不良视频的检测结果，其中第一阈值小于第二阈值。
[0073] 例如第一阈值为60%，第二阈值为80%。在这里需要说明的是：60%和80%仅是举例说明，在不同情况下第一阈值和第二阈值可以设定不同的取值。
[0074] 从上述技术方案可知，本发明实施例提供的视频检测方法可以基于待检测视频中相邻帧图像的相似度，将待检测视频分割成多个子段视频，然后对各个子段视频进行图像检测、文本检测和话音关键词检测，这样就可以基于图像检测得到的各个子段视频的图像检测结果、基于文本检测得到的各个子段视频的文本检测结果和基于话音关键词检测得到的话音检测结果来判定待检测视频的检测结果，即判定待检测视频是否为不良视频。也就是说本发明在判定待检测视频是否为不良视频是基于图像、文本和话音关键词这三个方面，与现有技术中单纯的图像检测相比，本发明从多个方面对待检测视频进行检测，从而更加全面的对待检测视频进行分析，提高视频检测的准确度。
[0075] 下面则详细介绍本发明实施例对子段视频进行图像检测、文本检测和话音关键词检测的可行方式，如图3所示，其示出

完整全部详细技术资料下载

当前第2页1 2 3 4 5