基于多模态信息的视频内容审查系统及方法与流程

文档序号:11063492阅读:853来源:国知局
基于多模态信息的视频内容审查系统及方法与制造工艺

本发明涉及视频内容关系系统及其方法,更具体地说,涉及一种基于多模态信息的视频内容审查系统及方法。



背景技术:

视频内容审查是在当今互联网形势下的最要管理手段,尤其是在今后的三网融合之后,面对海量的互联网内容,对于内容的审查是一个严峻的考验。

视频内容是相对比较困难的一类内容审查,其审查难度要高于单纯的文字、图像、声音等,这是由于视频是一系列图像、声音的组合,并且其具有播放时间长、内容多、动态性等特征。

目前,网络视频内容的审查仍然主要依靠人工,技术手段的自动审查主要停留在文字内容,对图像、声音等多媒体、多模态的内容没有较好的解决方案。



技术实现要素:

针对现有技术中存在的视频内容主要依靠人工,没有较好的技术手段进行自动审查的问题,本发明的目的是提供一种基于多模态信息的视频内容审查系统及方法。

为实现上述目的,本发明采用如下技术方案:

一种基于多模态信息的视频内容审查方法,包括内容审查步骤和质量审查步骤,内容审查步骤包括:对视频进行预处理,提取视频中的关键帧和关键片段;搜索内容数据库对关键帧进行匹配,而对于关键片段,并行进行台标、人脸、文字、标语、旗帜的图像识别和匹配;台标识别和匹配 包括以下步骤:构建台标样本库;提取待测台标的颜色特征,确定其主颜色的参数范围与面积比例;通过颜色匹配算法,在视频帧中搜索与待测台标颜色组成相同的区域,从而得到待测台标可能出现的待测区域;提取待测区域中的梯度直方图特征,判断是否存在待测台标;旗帜识别和匹配包括以下步骤:采集样本集;对样本图片进行预处理,包括分割图像,获取图像色彩值的范围;对图像进行腐蚀、膨胀、分割和形状分析,将无关区域去除,留下旗帜的区域图片。

根据本发明的一实施例,人脸识别包括以下步骤:构建边缘人脸;提取互补特征;采用并行识别网络进行人脸识别。

根据本发明的一实施例,内容审查步骤还包括以下步骤:将关键帧和关键片段的匹配结果合并,并且标示出带有敏感内容的关键帧和关键片段在视频中的位置以及敏感内容的类别;对敏感内容进行复查,并且将复查的结果反馈至内容数据库,内容数据库对敏感内容进行更新。

根据本发明的一实施例,质量审查步骤包括:检测有方块形状边沿的图像区域,利用视频帧前处理、模板匹配、空间投票方法,检测视频中的马赛克区域;对视频的帧进行区域分割和色彩识别,检测视频中的黑场、彩条和其他颜色彩屏;检测视频中超过一定时长的静音内容,并标明静音内容的位置和时长。

为实现上述目的,本发明还采用如下技术方案:

一种基于多模态信息的视频内容审查系统,包括内容审查子系统和质量审查子系统,内容审查子系统包括:预处理模块、多模态匹配模块、内容数据库;其中,多模态匹配模块包括台标识别匹配单元和旗帜识别匹配单元;预处理模块对视频进行预处理,提取视频中的关键帧和关键片段;多模态匹配模块搜索内容数据库并对关键帧进行匹配,而对于关键片段,多模态匹配模块内并行进行台标、人脸、文字、标语、旗帜的图像识别和匹配;台标识别匹配单元首先构建台标样本库;其次提取待测台标的颜色特征,确定其主颜色的参数范围与面积比例,再次通过颜色匹配算法,在 视频帧中搜索与待测台标颜色组成相同的区域,从而得到待测台标可能出现的待测区域,最后提取待测区域中的梯度直方图特征,判断是否存在待测台标;旗帜识别匹配单元首先采集样本集,其次对样本图片进行预处理,包括分割图像,获取图像色彩值的范围,最后对图像进行腐蚀、膨胀、分割和形状分析,将无关区域去除,留下旗帜的区域图片。

根据本发明的一实施例,多模态匹配模块还包括人脸识别单元,人脸识别单元首先构建边缘人脸,其次提取互补特征,最后采用并行识别网络进行人脸识别。

根据本发明的一实施例,内容审查系统还包括:协同判定模块,将关键帧和关键片段的匹配结果合并,并且标示出带有敏感内容的关键帧和关键片段在视频中的位置以及敏感内容的类别;外部审查接口,对敏感内容进行复查,并且将复查的结果反馈至内容数据库,内容数据库对敏感内容进行更新。

根据本发明的一实施例,质量审查系统包括马赛克检测模块、色彩检测模块、声音检测模块;马赛克检测模块检测有方块形状边沿的图像区域,利用视频帧前处理、模板匹配、空间投票方法,检测视频中的马赛克区域;色彩检测模块对视频的帧进行区域分割和色彩识别,检测视频中的黑场、彩条和其他颜色彩屏;声音检测模块检测视频中超过一定时长的静音内容,并标明静音内容的位置和时长。

在上述技术方案中,本发明的基于多模态信息的视频内容审查系统及方法能够实现利用计算机即互联网进行自动的视频内容审查,并且以人工检查为复核与辅助,能够缩短视频审查周期,并且提高审查效果。

附图说明

图1是本发明的流程图;

图2是本发明的系统部分结构图;

图3是人脸识别流程图;

图4是文本识别流程图;

图5是标语识别流程图;

图6是马赛克检测流程图;

图7是黑场检测流程图;

图8是静音检测流程图。

具体实施方式

下面结合附图和实施例进一步说明本发明的技术方案。

本发明公开一种基于多模态信息的视频内容审查系统及其对应的审查方法。本发明的系统包括内容审查子系统和质量审查子系统,及其对应的方法。

视频内容审查:面向视频文件和图像文件,支持包括黄色和政治敏感内容库在内的敏感内容检测。功能上包括敏感视频数据库的可更新、敏感视频内容数据库3可检索、基于内容相似度的视频分割、给定视频内容高层语义概念自动标注、视频字幕及语音信息的融合语义分析、基于多模态特征的内容敏感性评估、敏感内容与标注协同呈现、人工反馈记录等。

视频质量审查:面向视频文件,支持黑屏、彩条、静音、马赛克等视频节目质量损伤的检测。功能上包括视频质量损伤自动检测、视频帧信息与损伤标注协同呈现等。

如图2所示,内容审查子系统包括:预处理模块1、多模态匹配模块2、内容数据库3、协同判定模块4和外部审查接口5。此外,多模态匹配模块2又进一步包括台标识别匹配单元22、人脸识别单元23、场景检测单元24、文字检测单元25、旗帜识别匹配单元21等。

如图1和图2所示,预处理模块1对视频进行预处理,提取视频中的关键帧和关键片段。多模态匹配模块2搜索内容数据库3并对关键帧进行匹配,而对于关键片段,多模态匹配模块2内并行进行台标、人脸、文字、标语、旗帜的图像识别和匹配。协同判定模块4将关键帧和关键片段的匹 配结果合并,并且标示出带有敏感内容的关键帧和关键片段在视频中的位置以及敏感内容的类别。外部审查接口5对敏感内容进行复查,并且将复查的结果反馈至内容数据库3,内容数据库3对敏感内容进行更新。

具体来说,如图1所示,首先对输入视频进行多层分割处理,生成关键帧和视频片段。对视频片段和关键帧,提取多模态语义特征,并评估其内容敏感性。对视频关键帧,通过与敏感内容数据库3内的图像匹配决定其内容敏感性。最后将机器推荐的敏感内容及其相关信息融合并呈现给专业编辑,由专业编辑最终判定其敏感性。专业编辑的判断结果将被反馈到敏感内容数据库3和用于实时更新内容敏感性评估模型。

台标识别

台标识别匹配单元22首先构建台标样本库,其次提取待测台标的颜色特征,确定其主颜色的参数范围与面积比例,再次通过颜色匹配算法,在视频帧中搜索与待测台标颜色组成相同的区域,从而得到待测台标可能出现的待测区域,最后提取待测区域中的梯度直方图特征,判断是否存在待测台标。

具体来说,台标检测部分用于检测视频中的敏感台标,包括话筒、车身上等。主要步骤如下:构建台标样本库,通过提取库中样本的HOG(Histograms of Oriented Gradients梯度直方图)特征来训练SVM(support vector machine支持向量机)分类器。提取待测台标的颜色特征,确定其前三种主颜色(可以小于三种)的参数范围与面积比例;通过颜色匹配算法,在视频帧中搜索与待测台标颜色组成相同的区域,从而得到台标可能出现的待测区域;将待测区域进行基于仿射变换与最小外接矩形的图像矫正;提取待测区域中的HOG(Histograms of Oriented Gradients梯度直方图)特征,通过训练好的分类器判断是否存在待测台标。经过严格的实验证明,该台标识别方法能够准确的、近实时的识别视频中台标(包括话筒上,背景中等)。

(a)构建台标样本库

在模板台标中选择湖南卫视台台标作为待测台标,通过对其进行各种仿射变换获得900个正样本,将剩下的模板台标每个做20次仿射变换得到980个负样本。最终样本库包含这900个正样本,和1980个负样本。

将样本库中的样本归一化到96×96像素,并提取其HOG(HISTOGRAMS OF ORIENTED GRADIENTS梯度直方图)特征来训练SVM(support vector machine支持向量机)分类器

(b)提取待测台标的颜色特征,确定其主颜色的参数范围与面积比例

通过颜色聚类的方法,在HSV颜色空间下找到湖南卫视台标的两种主颜色橘红色和黄色的参数边界,记录各个颜色的面积比例,在此基础上给予ΔS(本发明中ΔS=0.2),面积最大的为第一主颜色。

对参数边界进行放大,增强其在真实场景中一定光照变换下的鲁棒性,具体冗余参数为ΔH(0~360)(本发明中ΔH=10)、ΔS(0~1)(本发明中ΔS=0.1)、ΔV(0~1)(本发明中ΔV=0.2),该参数为在实验中获得的最优化参数,允许使用者根据具体情况进行修改。

(c)通过颜色匹配算法,在视频帧中搜索与待测台标颜色组成相同的区域,从而得到待测台标可能出现的待测区域。

根据上一节中的橘红色与黄色的HSV颜色参数范围,在视频帧中分别提取出只含有一种颜色的子图。在每一张子图中,寻找其中每一个色块的轮廓,并找到其轮廓的外接矩形。

湖南卫视台台标有两种主颜色,将每一个橘红色子图中的色块与每一个黄色子图中的色块进行对比,如果两个色块的外接矩形相交,并且颜色面积比例只比在b2所得范围之内,则将包含这两个色块的外接矩形确定为待测区域,并从原图中截取出来。

将待测区域进行基于仿射变换与最小外接矩形的图像矫正。

于截取出来的待测区域中找到色块的最小外接矩形。将色块旋转,使其最小外接矩的长边与水平方向平行。将待测区域归一化到96*96像素大小的图像。

(d)提取待测区域中的HOG(HISTOGRAMS OF ORIENTED GRADIENTS梯度直方图)特征,通过训练好的分类器判断是否存在待测台标。

由于该算法通过模板台标的颜色构成对视频帧中的可能出现台标的区域进行定位,模板台标颜色越鲜明,种类越多(在1-3种内),定位越精确,可能出现的干扰项越少,准确率越高并且速度越快。

人脸识别

如图3所示,人脸识别单元23首先构建边缘人脸,其次提取互补特征,最后采用并行识别网络进行人脸识别。

总体来说,本发明模拟人类的视觉认知模式,通过训练目标人物的正负边缘人脸来模拟指定人物的人脸模式边界ΜF,这一模拟边界构成了针对指定人物的人脸识别器,映射到边界内部的人脸被识别为指定人物,而映射在边界外部的人脸判定为非指定人物。因此,该识别器能够有效的判定接受目标人物的人脸,同时拒绝非目标人物的人脸。同时,通过并联基于互补特征的人脸识别器来提升识别性能。整个流程可归纳为三个阶段,下面分别进行概述:

(1)第一阶段:构建边缘人脸

这一阶段的工作是为目标人物生成大量的边缘人脸。边缘人脸集合Borderline_Face_Set由刚好属于目标人物的正边缘人脸BFpos和刚好不属于目标人物的负边缘人脸BFneg构成,是后续指定人物识别器的原始训练数据。边缘人脸通过由目标人脸向大量非目标人脸的变形来生成,变形程度浅dpos的结果为正边缘人脸,变形程度深dneg的结果为负边缘人脸(dpos<dneg)。其中,变形程度组合dpos&dneg是本方法的关键参数之一,不同的目标人物有着不同的正负变形程组合。本方法采用网格搜索策略来确定dpos&dneg

(2)第二阶段:互补特征提取

这一阶段的工作是采用具有互补性质的不同特征描述子分别对上一阶段生成的边缘人脸进行特征提取,以生成边缘模式特征向量。实际上,正 负边缘人脸之间只有细微的形状和纹理差别,所以需要采用能够精确反映这些细微差别的算子进行特征描述和提取。Local Binary Pattern和Gabor Wavelets[4]具有明显的互补特性,并且在纹理分析和人脸识别领域都能取得很好的效果,所以我们采用这两种特征描述子对边缘人脸进行特征提取。

(3)第三阶段:并行识别网络

这一阶段的工作是对边缘模式进行训练,构建针对目标人物的人脸识别器。本方法模拟人类的认知模式,采用Support Vector Machine来训练边缘模式,以模拟指定人物的人脸模式边界。这一模拟边界构成了针对指定人物的人脸识别器,映射到边界内部的人脸被识别为指定人物,而映射在边界外部的人脸判定为非指定人物。如系统框架图所示,分别对由LBP算子和Gabor算子表征的边缘模式进行训练,生成两个独立的二分人脸识别器。输入人脸通过这两个识别器均可得到“是”(输出为“1”)或者“不是”(输出为“0”)所指定人物的结果。理论和实践都表明,基于上述两种互补特性算子的识别器具有互补的人脸识别结果,这一现象在非目标人物的人脸判定结果中尤为突出。所以本方法利用这种特性,通过一个与运算并联两个识别器,形成一个并行识别网络,有效的消除在非指定人物人脸的识别过程中,由某一子识别器判定错误而导致的虚警结果。

文字识别

本发明采用基于图像局部特征的文本识别方法,本质上属于基于内容的数字图像检索范畴,其核心思想是采用图像匹配的方法,来识别图像中的文本信息。与基于OCR技术的识别框架相比,基于局部特征技术的识别框架和处理方法:

1、免除了基于OCR技术的识别框架中的区域增强,二值化,图层分析,几何归一化等一系列预处理环节。

2、通过采用具有几何和光度不变性的局部特征,并引入针对性的投票算法和几何一致性验证,克服了OCR对于字符旋转,不规则排列,图像解析度不均,视角变换和扭曲等条件下识别的局限性。

3、通过采用科学的模版字符图像检索库构建方法,可以实现语种和字体上的识别透明性和鲁棒性。

数字图像局部特征(Local Feature),是数字图像处理和计算机视觉领域发展中一个非常重要的概念和强有力的工具,特别是具有较强几何不变形和描述独特性的高性能局部特征的出现,标志着基于内容的图像处理进入了一个全新的领域。

局部特征,可以理解为图像中的一个关键点或者一块关键区域,这些关键区域由坐标,方向,尺度等一系列几何特性和一组抽象的高维视觉信息描述向量构成,这些信息能够自适应于图像的几何变换和光学变换,包括拉伸,缩放,旋转,视角变换,透视变换,曝光,雾化,噪声等,具有很强的稳定性与独特性,对图像视觉信息具有很强的描述能力。

局部特征的核心组成包括:检测算子(Detector)和描述算子(Descriptor)。局部特征检测算子按照检测形式可以分为角点检测、块检测和区域检测;按照不变性可以分为旋转不变、尺度不变、仿射不变和透视不变;对检测算子的评价则主要从可重复性(稳定性)、几何特征精准性、变换鲁棒性和算法效率进行考察。

SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale和orientation的描述子得到特征并进行图像特征点匹配,是一种非常有名的局部特征描述子。多年来,SIFT在重复性、可区分性、准确性、数量以及效率、不变性等特性上久经考验,具有非常优秀的性能表现,本发明的文字识别使用了SIFT作为局部特征算法。

基于特征装袋(Bag-of-Features)的识别

本发明的文字识别技术采用基于特征装袋(Bag-of-Features),特征装袋则主要由特征检测、特征描述、特征聚类、频率向量表达等环节构成。

特征聚类与词汇法

向量聚类与词汇法是一种高级特征描述方法,通过对基本特征向量进 行聚类分析,形成一定数量的抽象主题词汇(Abstract Topic Vocabulary),之后对样本所包含的特征进行主题词汇划分和统计,形成对应的词汇频率统计向量,用以后续的相应处理,该方法通常被称之为Bag-of-Words[5]或Bag-of-Features。

Bag-of-Words模型在算法实现和计算复杂度上是相对容易与简单的,其处理思想和原理可以在多种应用中进行迁移与扩展。在实际应用中,首先通过样本特征建立词汇表;然后对样本进行词汇分布统计,表达成对应的词频向量;依赖于应用的具体类型,针对获得的词频向量可以结合:支持向量机(SVM,Support VectorMachine),贝叶斯分类(Bayes Classification),逆文本指数(TF/IDF,Term Frequency/Inverse Document Frequency)等技术来进行进一步分析预处理,如图4所示。

本发明所采用的基于Bag-of-Words模型的识别系统,主要通过以下核心流程实现复杂背景图像文字识别。

1)模版字符图像库构建:模版字符图像库是Bag-of-Words模型核心词汇的基础来源,模版字符图像库的覆盖范围和样本分布特性,决定着模型的识别性能和处理能力。

2)局部特征提取:本系统采用SIFT作为系统的局部特征提取方法,针对模版字符图像库和检索输入图像进行特征分析和提取。SIFT算法所采用的DoG检测算子和基于梯度方向直方图统计的描述算子,在针对图像的几何变换与光度变换中就有较强的不变性,在空间定位与尺度估计上取得了良好平衡,同时SIFT算法的执行效率相对于基于Laplace归一化的局部特征算法是较高的。

3)特征聚类与词汇构建:将模版字符图像库中所提取的局部特征进行聚类,以聚类中心作为核心词汇构建词汇表,每一个局部特征都会被指派入一类词汇,形成相应的映射关系。本系统采用K-means作为核心聚类算法。

4)TF/IDF索引:本系统采用TF/IDF作为词频向量的表达方法, TF/IDF被认为是信息检索中的重要发明,基于关键字概率分布交叉熵原理,是一种标准的权重度量方法,为众多搜索引擎和检索系统所采用。

5)检索与识别:通过对输入图像进行特征提取与词汇映射得到输入图像的词频向量,比较输入TF/IDF向量与模版字符图像TF/IDF向量的相似程度,排序得到最佳匹配模版字符图像,该图像所对应的文字将作为识别结果。

标语识别

如图5所示,图像特征提取需要考虑的问题有:

1)如何对图片进行预处理,使得特征提取能够顺利进行,这个问题比较容易解决,可以通过对图片的格式作格式转换和缩放以适应系统需求。

2)如何提取具有抗尺度、抗仿射变换的特征描述子,本系统使用SIFT特征。

3)如何对图片或者图片特征进行预分类,这是图像检索系统的高级功能,本系统提出了层级SVM分类与Bag Of Words结合朴素贝叶斯分类的方法,对图像检索系统的功能进行进一步扩展,本系统在系统中预留了此图像分类接口,图像分类模块今后可以以插件的形式装载到索引子系统的图像特征分类模块和检索子系统的检索图像预处理模块1中。

4)如何对图片的特征进行权重分析,由于特征点所表示的对象在图片中的位置与重要程度不一样,因此,可以用一些方法对图像的特征点权重进行估值分析,在索引建立阶段,可以只载入那些权重较大的图像特征,从而减小索引所占据的内存空间,从而达到优化索引的目的。

旗帜识别

旗帜识别是一项比较复杂的任务。虽然旗帜在总体形状上基本上都是长方形,少量呈三角形等异形,但各种旗帜图案和颜色千差万别,目前很难有比较通用的方法来识别。旗帜识别的另外一个难点是:旗帜通常都有飘扬、下垂等严重非刚性变化。

本系统的旗帜识别技术综合颜色识别、形状识别、图像分割技术面积 统计等技术,针对几种特定的旗帜有比较有效的识别。下面以藏独的雪山狮子旗为例说明本系统的旗帜识别技术的研究。旗帜识别匹配单元21首先采集样本集,其次对样本图片进行预处理,包括分割图像,获取图像色彩值的范围,最后对图像进行腐蚀、膨胀、分割和形状分析,将无关区域去除,留下旗帜的区域图片。

识别一种旗帜首要任务是获取旗帜的样本,主要包括两种:

1)该旗帜的高清完整样本。

2)大量一般图片中旗帜中的样本。

旗帜的高清样本的作用是为旗帜识别立一个标准图,而一般图片中的旗帜标本需要更多,是为了训练系统掌握真实场景与标准旗帜图之间的统计差异,提高在视频或真实场景图片中的检出率。

对样本图片做RGB分量分解,为后续分割处理做准备。

图像分割是图像处理中最为基础和重要的领域之一,它是对图像进行视觉分析和模式识别的基本前提。图像分割的目的在于根据某些特征将图像分成若干有意义的区域,使得这些特征在某一区域内表现一致或相似,而在不同区域间表现出明显的不同。

本系统的旗帜识别技术基于颜色综合识别以及形状和面积统计,所以需对各个颜色分量进行二值化分割,以利于判断位置及形态。

在对大量的标准高清旗帜样本及一般图片中该旗帜的样本进行统计后,需要确定该旗帜的各颜色分量的色彩值范围,彩色空间有很多种,有RGB,HSI,YIQ,CMY,YUV等。

本系统的旗帜识别技术选用HIS色彩空间来对旗帜的彩色进行辨识和分割。单纯依据颜色所占的比例做出判断成功率低,并且误判率高。实验结果表明,仅使用前面的方法,成功率大致为35%。需要更有效的方法对图像的黄、红、蓝颜色区域形状进行识别,并考虑他们之间的相对位置,以去除干扰。经过腐蚀、膨胀以及分割和形状分析,最终将无关区域去除掉,留下旗帜的区域图片。

另一方面,质量审查系统包括马赛克检测模块、色彩检测模块、声音检测模块。

如图6所示,马赛克检测模块检测有方块形状边沿的图像区域,利用视频帧前处理、模板匹配、空间投票方法,检测视频中的马赛克区域。

具体来说,马赛克常发生于视频转码和传输出现错误时。相比于人工添加的马赛克,视频损伤造成的马赛克出现位置更加随机化,马赛克方格内的灰度不一定完全相等,马赛克边沿模糊。这些特性使得马赛克的检测有很大难度,并且需要一定的参数先验假设。在实际操作中,由于损伤视频序列难以采集,故本子系统对视频损伤产生的马赛克和人工添加的马赛克不作区分,测试序列主要以人工产生的马赛克为主。对实际情况,本算法具有一定的鲁棒性,能检测在一定大小范围内的马赛克(约20*20大小,10个马赛克以上)。不失一般性,若马赛克大小和个数与标准数字相差太大,如100*100的马赛克块,或视频帧中只出现2个马赛克,则可根据实例灵活调节参数来达到更好的检测效果。本研究报告中假定马赛克的大小和个数为标准参数。

马赛克检测主要利用其形状特征,检测有方块形状边沿的图像区域。算法包含视频帧前处理、模板匹配、空间投票等环节。

前处理模块首先从视频中得到图像帧序列,从而分别对每一帧图像检测马赛克。前处理的主要工作是将彩色的图像帧转换为二值化的边沿图片。边缘检测采用Sobel算子。Sobel算子得出的缘图像可能存在不清晰、不连续等现象,为此,我们进行了图像增强与形态学腐蚀、膨胀的算法,加强图像的连续性。基于马赛克的形状特征,我们分别得到横向和纵向的边沿图片,并把它们合成成最后的边沿图片。因视频拍摄时的图片长宽比与制作时要求可能存在不同,或为添加字幕的需要,视频中往往会出现上下或左右的“黑边”。这种黑边在边沿图片中产生了一个横向或纵向的长线,往往会造成马赛克的虚警情况。为此,我们进行了去黑边的操作。

得到边沿图像后,模板匹配用于检测边沿图片中的正方形形状。在实 际情况中,马赛克对应位置由Sobel算子得到的边沿并不一定是标准的正方形。因复杂背景、马赛克与周围颜色相近、马赛克内颜色不均等,马赛克的实际边沿会有一定的扭曲。因此,直接采用检测垂直边沿的方法并不能有效地检测马赛克。模板匹配即使用模板图片和测试图片中的区域做卷积,取匹配值高于阈值的区域作为模板匹配的匹配点。我们使用了4个模板图片,分别对应马赛克正方形的4个角。模板匹配的阈值默认为0.65。

因背景中存在干扰噪音,若一个区域仅仅与一个模板匹配,则有很大可能属于虚警。为此,我们要求某区域至少与3个模板匹配才认定其为马赛克点。前一步一共使用4个模板进行模板匹配,分别代表方形的4个角。模板匹配的匹配点均为模板图片的左上角点。这样,将4个模板的匹配结果投影到一个投票空间中,若某区域与多个模板匹配值都很高,那么在这个区域的左上角点会存在多于1个的匹配点。若在一定范围内,存在着3个以上这样的匹配点,则说明在此位置存在马赛克。

在当前测试集中,马赛克检测的召回率为92%,查准率为85%。其中虚警主要发生于背景中存在方框形状的干扰项的情况,如窗框、百叶窗等。

如图7所示,色彩检测模块对视频的帧进行区域分割和色彩识别,检测视频中的黑场、彩条和其他颜色彩屏。

本部分的算法主要分为两个部分:黑场检测,彩条和其他颜色彩屏(红场、蓝场等)检测,其中两者共用视频帧的区域分割和色彩识别运算过程。最后根据运算结果对该帧情况进行判断,最后按照一定的检测顺序进行判断并输出结果。

流程中先将视频帧进行1/2的下采样,采用线性下采样法,得到分辨率缩小的帧,减少了后期处理的计算量。将视频帧等间距分成八个图像条,对每一个图像条的RGB分量分别进行提取,将提取得到的RGB值进行直方图统计,图像条的颜色统计信息。根据得到的颜色统计信息判断图像条的颜色,汇总每一个图像条的颜色信息,检测是否有黑场、彩条等状况出现。

因实际产生的黑场和彩条可能与理想的图片稍有不同,为保证100%的召回率,我们适当地下调了黑场和彩条的要求。具体上,我们把灰度低于56的图像点均看做“黑点”,视频帧中超过98%的点均为“黑点”,则认定为黑场。

在当前测试集中,黑场、彩条检测均达到100%召回率,查准率分别为88%和98%。黑场查准率较低因视频中本身存在一定的黑色场景与质量损伤造成的黑场很难区分。

如图8所示,声音检测模块检测视频中超过一定时长的静音内容,并标明静音内容的位置和时长。

本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1