一种视频检测方法及装置的制造方法

文档序号:9631785阅读:387来源:国知局
一种视频检测方法及装置的制造方法
【技术领域】
[0001] 本发明属于图像识别技术领域,更具体的说,尤其涉及一种视频检测方法及装置。
【背景技术】
[0002] 不良视频是指在传播形式或内容上存在非法或违规行为的视频。目前不良视频 主要有两种类型:盗版视频以及其他类型的不良视频,其中其他类型的不良视频主要包括: 反动视频、暴恐视频、诈骗视频和色情视频。这些不良视频借助公众网络广泛传播,已成为 社会危害的重要诱因。
[0003] 为了净化网络环境,研究人员提出了多种对不良视频进行检测的方法。其中针对 盗版视频的检测研究相对较为成熟,针对反动视频、暴恐视频、诈骗视频和色情视频这类不 良视频来说主要的检测方法是基于内容的检测方法,其处理过程如下:
[0004] 首先获取不良视频中的视觉对象,并提取所述视觉对象的特征值作为匹配模板; 其次在获得一个需要匹配的视频后,对所述视频中的每帧图像进行分区,并逐区提取每个 分区的特征值;然后将每个分区的特征值与上述作为匹配模板的特征值进行基于距离的相 似度计算,相似度小于指定阈值则判定视频为不良视频。但是视频是一个图像、文本和话音 的集合,单纯通过图像检测来确定视频是否为不良视频可能会导致视频检测不准确。

【发明内容】

[0005] 有鉴于此,本发明的目的在于提供一种视频检测方法及装置,用于提高视频检测 的准确度。
[0006] 本发明提供一种视频检测方法,所述方法包括:
[0007] 基于待检测视频中相邻帧图像的相似度,将所述待检测视频分割成多个子段视 频;
[0008] 分别对各个子段视频进行图像检测、文本检测和话音关键词检测,得到各个子段 视频的图像检测结果、各个子段视频的文本检测结果和各个子段视频的话音检测结果,其 中所述图像检测结果用于指示基于图像检测得到的子段视频的检测结果,所述文本检测结 果用于指示基于文本检测得到的子段视频的检测结果,所述话音检测结果用于指示基于话 音关键词检测得到的子段视频的检测结果;
[0009] 基于各个子段视频的图像检测结果、各个子段视频的文本检测结果和各个子段视 频的话音检测结果,得到相应子段视频的检测结果;
[0010] 基于各个子段视频的检测结果,得到所述待检测视频的检测结果。
[0011] 优选地,所述基于各个子段视频的图像检测结果、各个子段视频的文本检测结果 和各个子段视频的话音检测结果,得到相应子段视频的检测结果,包括:
[0012] 当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结 果中任意一项检测结果指示检测到目标对象,且目标对象的等级为一级时,得到指示所述 子段视频为不良视频子段的检测结果;
[0013] 当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测 结果中至少两项检测结果指示检测到目标对象,且目标对象的等级为二级时,得到指示所 述子段视频为不良视频子段的检测结果,其中所述二级的重要程度小于所述一级的重要程 度;
[0014] 当子段视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结 果中任意一项检测结果指示检测到目标对象,且目标对象的等级为二级时,得到指示所述 子段视频为疑似不良视频子段的检测结果。
[0015] 优选地,所述基于各个子段视频的检测结果,得到所述待检测视频的检测结果,包 括:
[0016] 基于所述检测结果,得到为不良视频子段的第一子段视频数量以及疑似不良视频 字段的第二子段视频数量;
[0017] 当所述第一子段视频数量与子段视频总数的比例大于第一阈值时,得到指示所述 待检测视频为不良视频的检测结果;
[0018] 当所述第二子段视频数量与所述子段视频总数的比例大于第二阈值时,得到指示 所述待检测视频为不良视频的检测结果,其中所述第一阈值小于第二阈值。
[0019] 优选地,对子段视频进行图像检测,得到子段视频的图像检测结果,包括:
[0020] 提取所述子段视频中每帧图像的检测区域的视觉特征;
[0021] 将所提取的视觉特征与预先建立的图像对象模型进行匹配分析,以得到所述每帧 图像中的不良对象和所述不良对象的等级,其中所述图像检测结果包括所述每帧图像中的 不良对象和所述不良对象的等级。
[0022] 优选地,对子段视频进行文本检测,得到子段视频的文本检测结果,包括:
[0023] 确定所述子段视频中每帧图像中的文本区域;
[0024] 对所确定的文本区域进行文本识别,得到所述文本区域包括的文本;
[0025] 将得到的文本与预先建立的文本库进行匹配,以得到所述每帧图像中的不良文本 和所述不良文本的等级,其中所述文本检测结果包括所述每帧图像中的不良文本和所述不 良文本的等级。
[0026] 优选地,对子段视频进行话音检测,得到子段视频的话音检测结果,包括:
[0027] 提取所述子段视频中的音频数据,并获得所述音频数据的语音特征序列;
[0028] 将所获得的语音特征序列与预先建立的话音库中各个关键词的语音特征序列进 行比对,得到所获得的语音特征序列与各个关键词的语音特征序列之间的距离;
[0029] 当所获得的语音特征序列与任意一个关键词的语音特征序列之间的距离的取值 小于距离阈值时,确定所述子段视频中包括不良话音;
[0030] 获得距离的取值小于距离阈值的所述关键词,并基于所述关键词所在等级确定不 良话音的等级,所述话音检测结果包括所述不良话音和所述不良话音的等级。
[0031] 本发明还提供一种视频检测装置,所述装置包括:
[0032] 分割单元,用于基于待检测视频中相邻帧图像的相似度,将所述待检测视频分割 成多个子段视频;
[0033] 检测单元,用于分别对各个子段视频进行图像检测、文本检测和话音关键词检测, 得到各个子段视频的图像检测结果、各个子段视频的文本检测结果和各个子段视频的话音 检测结果,其中所述图像检测结果用于指示基于图像检测得到的子段视频的检测结果,所 述文本检测结果用于指示基于文本检测得到的子段视频的检测结果,所述话音检测结果用 于指示基于话音关键词检测得到的子段视频的检测结果;
[0034] 第一处理单元,用于基于各个子段视频的图像检测结果、各个子段视频的文本检 测结果和各个子段视频的话音检测结果,得到相应子段视频的检测结果;
[0035] 第二处理单元,用于基于各个子段视频的检测结果,得到所述待检测视频的检测 结果。
[0036] 优选地,所述第一处理单元用于:当子段视频的图像检测结果、子段视频的文本检 测结果和子段视频的话音检测结果中任意一项检测结果指示检测到目标对象,且目标对象 的等级为一级时,得到指示所述子段视频为不良视频子段的检测结果,以及用于当子段视 频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中至少两项检测 结果指示检测到目标对象,且目标对象的等级为二级时,得到指示所述子段视频为不良视 频子段的检测结果,其中所述二级的重要程度小于所述一级的重要程度,以及用于当子段 视频的图像检测结果、子段视频的文本检测结果和子段视频的话音检测结果中任意一项检 测结果指示检测到目标对象,且目标对象的等级为二级时,得到指示所述子段视频为疑似 不良视频子段的检测结果。
[0037] 优选地,所述第二处理单元包括:获取子单元和处理子单元;
[0038] 所述获取子单元,用于基于所述检测结果,得到为不良视频子段的第一子段视频 数量以及疑似不良视频字段的第二子段视频数量;
[0039] 所述处理子单元,用于当所述第一子段视频数量与子段视频总数的比例大于第一 阈值时,得到指示所述待检测视频为不良视频的检测结果,以及当所述第二子段视频数量 与所述子段视频总数的比例大于第二阈值时,得到指示所述待检测视频为不良视频的检测 结果,其中所述第一阈值小于第二阈值。
[0040] 优选地,所述检测单元包括:图像检测子单元、文本检测子单元和话音检测子单 元;
[0041] 所述图像检测子单元,用于提取所述子段视频中每帧图像的检测区域的视觉特 征,将所提取的视觉特征与预先建立的图像对象模型进行匹配分析,以得到所述每帧图像 中的不良对象和所述不良对象的等级,其中所述图像检测结果包括所述每帧图像中的不良 对象和所述不良对象的等级;
[0042] 所述文本检测子单元,用于确定所述子段视频中每帧图像中的文本区域,对所确 定的文本区域进行文本识别,得到所述文本区域包括的文本,并将得到的文本与预先建立 的文本库进行匹配,以得到所述每帧图像中的不良文本和所述不良文本的等级,其中所述 文本检测结果包括所述每帧图像中的不良文本和所述不良文本的等级;
[0043] 所述话音检测子单元,用于提取所述子段视频中的音频数据,获得所述音频数据 的语音特征序列,将所获得的语音特征序列与预先建立的话音库中各个关键词的语音特征 序列进行比对,得到所获得的语音特征序列与各个关键词的语音特征序列之间的距离;当 所获得的语音特征序列与任意一个关键词的语音特征序列之间的距离的取值小于距离阈 值时,确定所述子段视频中包括不良话音;获
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1