一种视频检测方法及装置的制造方法_4

文档序号：9631785阅读：来源：国知局

采用滑窗法对所获得的语音特征序列与各个关键词的语音特征序列进行 DTW(DyanamicTimeWarping，动态时间规整），其中DTW是一种经典的序列间比较方法，通过计算两个序列中对应位置元素间的距离，然后进行累加输出，其输出的是两个序列间的距离，当距离越小时，两个序列间的相似性越大，当距离的取值小于距离阈值时，确定子段视频中包括不良话音。
[0101] 其中DTW输出的两个序列间的距离为两个序列间距离的最小值，如图8所示基于 DTW的特征序列比对示意图，其中横轴和纵轴分别是两个比较的特征序列，长度分别为Μ和 Ν，坐标轴上的标识{1，2,……，Μ}和{1，2, ···..，《表示两个特征序列中各特征值的标号，图中的菱形区域用于约束进行距离计算的路径。计算菱形区域内所有从原点（〇,〇)到目标点（Μ，Ν)路径的距离，即路径经过的两个特征序列对应点对间的距离，如图中曲线路径上标识了计算路径经过的点对，依次找到各点对分别对应的两个特征序列中的位置，取对应位置的特征值，然后计算特征值间的欧式距离，如图8中前两个虚线框所示，即用于指示如何计算路径的距离。最后将所有点对间的欧式距离进行比较，从中取最小值就作为两个特征序列间的距离。
[0102] 1029:获得距离的取值小于距离阈值的关键词，并基于关键词所在等级确定不良话音的等级，话音检测结果包括不良话音和不良话音的等级。
[0103] 对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0104] 与上述方法实施例相对应，本发明实施例还提供一种视频检测装置，其结构示意图如图9所示，可以包括：分割单元11、检测单元12、第一处理单元和第二处理单元14。
[0105] 分割单元11，用于基于待检测视频中相邻帧图像的相似度，将待检测视频分割成多个子段视频。其中待检测视频中相邻帧图像的相似度是指相邻帧图像的相似程度，在本发明实施例中可以通过光流轨迹来确定相邻帧图像之间是否相似，具体过程可以参阅上述方法实施例中的相关说明，对此本发明实施例不再阐述。
[0106] 检测单元12,用于分别对各个子段视频进行图像检测、文本检测和话音关键词检测，得到各个子段视频的图像检测结果、各个子段视频的文本检测结果和各个子段视频的话音检测结果，其中图像检测结果用于指示基于图像检测得到的子段视频的检测结果，文本检测结果用于指示基于文本检测得到的子段视频的检测结果，话音检测结果用于指示基于话音关键词检测得到的子段视频的检测结果。
[0107] 即上述图像检测结果、文本检测结果和话音检测结果可以用于指示相对应的子段视频中是否包括目标对象。以图像检测结果为例，若基于图像检测得到子段视频中包括：恐怖分子首领的画像和恐怖分子的徽章，则图像检测结果指示子段视频中包括目标对象。
[0108] 第一处理单元13,用于基于各个子段视频的图像检测结果、各个子段视频的文本检测结果和各个子段视频的话音检测结果，得到相应子段视频的检测结果。因为子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果分别是对子段视频的一个方面进行检测得到的检测结果，其并不能够完全指示子段视频是否为不良视频字段，所以在本发明实施例需要基于这三个检测结果来得到相应子段视频的检测结果。
[0109] 在本发明实施例中，第一处理单元13得到相应子段视频的检测结果的一种方式是：当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中任意一项检测结果指示检测到目标对象，且目标对象的等级为一级时，得到指示子段视频为不良视频子段的检测结果；
[0110] 当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中至少两项检测结果指示检测到目标对象，且目标对象的等级为二级时，得到指示子段视频为不良视频子段的检测结果；
[0111] 当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中任意一项检测结果指示检测到目标对象，且目标对象的等级为二级时，得到指示子段视频为疑似不良视频子段的检测结果；
[0112] 除上述图像检测结果、文本检测结果和话音检测结果可以指示子段视频为不良视频字段或者疑似不良视频字段的检测结果之外，其他情况则可以得到指示子段视频为正常视频字段的检测结果。
[0113] 在本发明实施例中，目标对象是子段视频中包含的不良信息，如在图像检测结果中目标对象可以是恐怖分子首领的画像、恐怖分子的徽章和色情视频中的裸体等；在文本检测结果中目标对象可以是暴恐视频中的"圣战"、色情视频中的"色情选秀"、诈骗广告视频中的"一次根治不复发"等；而在话音检测结果中目标对象可以是如暴恐视频中的"杀戮和自杀"、诈骗广告视频中的"治愈率100% "等。并且在本发明实施例中目标对象的等级指示目标对象的重要程度，即重要程度越高说明目标对象更可能是不良信息，在本发明实施例中，二级的重要程度小于一级的重要程度。
[0114] 第二处理单元14,用于基于各个子段视频的检测结果，得到待检测视频的检测结果。具体的，第二处理单元包括：获取子单元和处理子单元。
[0115] 获取子单元，用于基于检测结果，得到为不良视频子段的第一子段视频数量以及疑似不良视频字段的第二子段视频数量。
[0116] 处理子单元，用于当第一子段视频数量与子段视频总数的比例大于第一阈值时，得到指示待检测视频为不良视频的检测结果，以及当第二子段视频数量与子段视频总数的比例大于第二阈值时，得到指示待检测视频为不良视频的检测结果，其中第一阈值小于第二阈值。例如第一阈值为60%，第二阈值为80%。在这里需要说明的是：60%和80%仅是举例说明，在不同情况下第一阈值和第二阈值可以设定不同的取值。
[0117] 从上述技术方案可知，本发明实施例提供的视频检测装置可以基于待检测视频中相邻帧图像的相似度，将待检测视频分割成多个子段视频，然后对各个子段视频进行图像检测、文本检测和话音关键词检测，这样就可以基于图像检测得到的各个子段视频的图像检测结果、基于文本检测得到的各个子段视频的文本检测结果和基于话音关键词检测得到的话音检测结果来判定待检测视频的检测结果，即判定待检测视频是否为不良视频。也就是说本发明在判定待检测视频是否为不良视频是基于图像、文本和话音关键词这三个方面，与现有技术中单纯的图像检测相比，本发明从多个方面对待检测视频进行检测，从而更加全面的对待检测视频进行分析，提高视频检测的准确度。
[0118] 在本发明实施例中，上述检测单元12的结构示意图如图10所示，可以包括：图像检测子单元121、文本检测子单元122和话音检测子单元123。
[0119] 图像检测子单元121，用于提取子段视频中每帧图像的检测区域的视觉特征，将所提取的视觉特征与预先建立的图像对象模型进行匹配分析，以得到每帧图像中的不良对象和不良对象的等级，其中图像检测结果包括每帧图像中的不良对象和不良对象的等级。
[0120] 文本检测子单元122,用于确定子段视频中每帧图像中的文本区域，对所确定的文本区域进行文本识别，得到文本区域包括的文本，并将得到的文本与预先建立的文本库进行匹配，以得到每帧图像中的不良文本和不良文本的等级，其中文本检测结果包括每帧图像中的不良文本和不良文本的等级。
[0121] 话音检测子单元123,用于提取子段视频中的音频数据，获得音频数据的语音特征序列，将所获得的语音特征序列与预先建立的话音库中各个关键词的语音特征序列进行比对，得到所获得的语音特征序列与各个关键词的语音特征序列之间的距离。当所获得的语音特征序列与任意一个关键词的语音特征序列之间的距离的取值小于距离阈值时，确定子段视频中包括不良话音。获得距离的取值小于距离阈值的关键词，并基于关键词所在等级确定不良话音的等级，话音检测结果包括不良话音和不良话音的等级。
[0122] 上述图像检测子单元121、文本检测子单元122和话音检测子单元123的具体执行过程可以参阅上述方法实施例中的相关说明，对此本发明实施例不再阐述。
[0123] 需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0124] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语"包括"、"包含"或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有

完整全部详细技术资料下载

当前第4页1 2 3 4 5