基于多层特征的不良图像自动过滤方法

文档序号:6355204阅读:190来源:国知局
专利名称:基于多层特征的不良图像自动过滤方法
技术领域
本发明属于计算机图像处理技术领域,涉及一种基于多层特征的不良图像自动过 滤方法。
背景技术
随着互联网的发展,人们通过网络获取、发布、传播信息使得互联网上的文字、图 像、视频等各种形式的信息急剧增长。由于网络信息发布缺少有效的监督机制,大量的色 情、暴力、反动等不良信息被发布到互联网上,影响了和谐网络环境的构建。不良图像作为 不良信息的一种,严重破坏了健康的网络环境。为此研究者们提出了多种不良图像过滤技 术,其中以基于内容分析的过滤方法最为流行。然而,基于内容的不良图像过滤技术目前仍 存在肤色建模不够准确、特征提取不够完备、分类器性能不佳等缺点。基于内容的过滤方法根据图像的内容特征实现自动分类并过滤。近年来,已有很 多研究机构开展了这方面的研究工作,提出了一些方法,而且取得了一定的效果。这些方法 主要分为两类基于人体组合的过滤方法和基于特征提取和机器学习的过滤方法。第一种 方法利用人体几何约束,按照一定规则,先提取有效肢体部件,再从肢体部件按照几何约束 识别人体。此方法检测的对象仅限于包含人体较为完整的图像,对于人体部分遮挡或者多 人拥挤的图像检测能力有限,对人体姿势、形状在图像中较为复杂或则非正常化时更难于 检测。此方法过分依赖于人体各部件的约束关系以及几何分析,对于约束关系尚不能复杂 到描述人体姿势的多变以及遮挡的情况。第二种方法多数都是通过构建特征向量,并利用 机器学习的方法训练分类器。这种方法具有适应多数样本的能力,检测速度更快,但缺点也 很明显,其分类器的性能取决于提取的特征以及分类器本身的分类能力。因此,使用这种方 法必须考虑更加完备的特征,并选择合适的机器学习方法构建分类器。

发明内容
本发明的目的主要是针对当前不良图像过滤方法的准确率不高,误检率较高、鲁 棒性较差等不足,提出了具有较高鲁棒性和较高准确率的不良图像过滤方法。本发明的不良图像过滤方法包含更加完备的特征提取方法,人体躯干定位方法以 及多层过滤技术。特征提取利用基于RGB颜色空间的快速肤色模型进行肤色检测,进而提取肤色、 轮廓、空间分布、纹理特征。人体躯干定位方法主要有三种一种是基于头肩检测,它使用离线训练模型检测 头肩区域进而定位人体躯干;第二种是基于人脸检测的定位方法;第三种是采用椭圆拟合 的方法定位人体躯干。本发明的多层过滤技术第一层采用二进制分类树过滤掉多数正常图像;第二层 采用基于头肩检测的方法定位躯干,提取相关特征后,使用第三层的决策树分类器进行过 滤;第三层采用基于人脸检测的方法定位躯干,提取相关特征后,使用第三层的决策树分类器进行过滤;第四层采用基于椭圆拟合的方法定位人体躯干,提取相关特征后,使用第四层 的二进制分类树进行过滤。本发明的过滤方法包括如下步骤
步骤Sl 输入图像后对图像进行预处理,所述的预处理包括图像的缩放处理和平滑处
理;
步骤S2 采用基于RGB颜色空间阈值方法构建的肤色模型进行肤色检测,获得肤色掩 码图像;
步骤S3 提取图像的肤色、纹理、空间分布特征作为第一层特征,然后采用第一层二进 制分类树将图像分为正常和疑似两种,其中疑似图像需进一步过滤;
步骤S4 对步骤S3未滤除的图像进行基于头肩检测的人体躯干定位,如果定位成功则 提取第二层特征,并采用第二层决策树分类器将图像分为正常和不良两种;
步骤S5 对检测不到头肩的图像采用人脸检测方法定位躯干,提取第三层特征后采用 第三层的决策树分类器将图像分为正常和不良两种;
步骤S6:对于检测不到人脸的图像,采用椭圆拟合方法定位人体躯干,提取第四层特 征然后采用第四层的二进制分类树将图像分为正常和疑似两种;
具体地,图像预处理包括图像的缩放处理、适当的平滑去噪。图像的缩放处理是在保证 图像色彩不失真、主要特征不丢失的情况下,对超过一定大小的图像进行缩小处理,以加快 检测速度。图像一般都会由于各种原因受到一定程度的干扰和损害,从而使图像中包含噪 声信号。图像平滑处理的目的就是为了减少和消除图像中的噪声,以改善图像质量,有利于 接下来的特征提取。具体地,基于RGB颜色空间阈值方法构建的肤色模型。在分析现有肤色模型以及 适用场景的基础上,根据肤色在RGB颜色空间中的分布特征,提出了适合本发明应用背景 的快速肤色模型,此模型具有较高的肤色像素召回率,受光照及拍摄环境的变化影响较小, 而且应用此模型检测肤色的速度非常快,能够满足于特征提取的时间复杂度要求。具体地,各层的特征提取。第一层特征包括图像的肤色、纹理、空间分布特征;第二 层特征包括基于肤色掩码图像的全局特征、基于躯干信息的图像局部特征、非肤色全局和 局部特征;第三层特征除基于肤色掩码图像的全局特征、非肤色全局特征、局部特征外还包 括人脸面积占图像的比例、人脸与躯干的大小比例、人脸与躯干内最大块的比例;第四层特 征除基于肤色掩码图像的全局特征、非肤色全局和局部特征外,还包括椭圆的面积之和与 图像面积比例、最大椭圆与图像面积的比例、最大椭圆与其周围椭圆的面积比例。具体地,基于肤色掩码图像的全局特征包括
①所有肤色像素占整幅图像面积的比例;
②经连通域分析后得到的各肤色块面积和占整幅图像面积的比例;
③最大独立肤色块的面积占肤色总面积的比例; 最大肤色块轮廓的周长和面积的比例; 最大肤色块面积占其外接矩形的比例; 具体地,非肤色全局和局部特征包括
①图像一阶颜色矩、二阶颜色矩,又分为上半部分、下半部分两种颜色矩;
(|)肤色块上的纹理特征提取,比如块内carmy边缘点数占肤色面积的比例;
(|)整幅图像的纹理特征提取; 具体地,基于躯干信息的图像局部特征包括 ①人体躯干面积占图像面积的比例;
(|)躯干内部肤色像素总数占躯干面积的比例;
③躯干内肤色最大块占躯干面积的比例;
④躯干内肤色最大块的位置相对于躯干中心的位置偏移比例;
具体地,人体躯干定位是用来获取躯干位置、大小信息的重要方法,通过躯干定位可以 更加准确地提取特征,对于提高分类的准确率有很重要的作用。本发明的人体躯干定位方 法分为如下三种
第一种是基于头肩检测技术的定位方法,此方法借鉴了行人检测的相关技术,通过提 取训练图像的HOG特征,利用Adaboost和线性SVM结合的机器学习方法训练得到头肩的级 联分类器,并利用它进行头肩检测定位人体躯干。第二种方法是采用基于Adaboost级联器的快速人脸检测方法检测人脸,并利用 人脸的大小、位置信息以及图像的长宽比信息估计人体躯干的位置及大小。第三种方法是基于椭圆拟合的躯干定位方法,首先将图像转换为灰度图像,然后 采用Carmy算子提取图像的边缘,接着进行椭圆拟合,最后根据椭圆的大小、位置以及人体 各部分的组成关系去除噪声。具体地,多层过滤技术如下
第一层二进制分类树根据第一层特征定义属性集,并从属性集中选择具有最优分类能 力的属性组成分类树;第二层决策树分类器使用C4. 5决策树根据属性的信息增益率选择 属性,训练得到一个由若干属性组成的分类器;第三层的决策树分类器训练方法与第二层 一样,由于所提取的特征有较大差异,因此训练得到的分类器在结构和属性集上有很大不 同;第四层二进制分类树的生成方法跟第一层的相同,但属性集不同。本发明相对于现有技术具有以下有益效果本发明方法的实现具有重要的应用价 值,将为整治互联网低俗之风、净化互联网环境产生重大的促进作用,保证网络视频、社交 网站等载有多媒体信息较多的互联网产业健康、持续发展。


图1表示了本发明不良图像过滤方法从图像输入开始至输出检测结果的流程图。图2表示本发明中第二层分类器所采用的二叉树形分类器的结构图。图3表示HOG积分图。图4表示用于头肩检测的级联分类器。图5 (a)表示实验原图。图5 (b)表示椭圆拟合的初步结果图。图5 (c)表示根据椭圆大小、长短轴比等特征去噪后得到的拟合结果图。
具体实施例方式下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便 于对本发明的理解,而对其不起任何限定作用。下面将参考附图详细介绍本发明的实施例。图1是本发明过滤方法的流程图,展示了图像从输入到检测完毕的整个流程。1.图1中的肤色检测单元。具体技术方案是利用基于RGB颜色空间的阈值肤色模型进行肤色检测并获得肤 色掩码图像。因为肤色检测的性能取决于肤色-非肤色的重叠程度,颜色空间的变换并影 响这一决定因素,RGB及线性颜色空间具有较好的可分离性和分类性能,是比较理想的一类 颜色空间。因此,本发明建立了基于RGB颜色空间的肤色模型,避免了颜色空间的转换,通 过如下规则对肤色在R、G、B三维空间中的分布进行了刻画。规则一,单分量的约束R>40,G>55,B>66,三个条件必须同时满足; 规则二,分量间的大小关系约束R>G,以召-」 认两个条件必须同时满足; 规则三,分量间的差值约束Abs (R-G) +Abs (G-B) >20 ;
规则四,为抑制偏红的颜色必须满足R<2*G+10。如果某个像素点满足上述四个规则的约束,则为肤色像素,否则为非肤色像素。2.图1中的第一层分类器单元。采用第一层过滤目的是快速地过滤掉和不良图像差异较大的图像,我们选择肤 色、纹理、空间分布特征作为第一层过滤算法的主特征,这些特征满足同一类别的不同个 体之间特征值波动较小,不同类别样本特征值之间差异较大。利用这些特征通过构建一个 二进制分类树实现第一层过滤。这种过滤方法实现简单,速度快能够满足第一层过滤的要 求。第一层选择肤色像素点数占图像总像素数的比例,有效肤色块占图像大小的比 例,关键区域的肤色比例,纹理特征,所设计的第一层分类器要解决的是一个两类问题,即 判别当前图像是正常或是疑似,这一层的工作是尽量去除那些正常图像,然后将通过过滤 的疑似图像送入后面几层分类器进行过滤。根据如图2所示的二进制分类树能够快速、准 确地过滤掉大部分和不良图像差异较大的图像。其中,、(n=0, 1,2,3)分别表示第η次分类后的结果。Xx (η=0, 1,2,3)分别表
示各步骤所选用的特征,分别为肤色像素点数占图像的比例特征,肤色块内的纹理特征特征,有效肤色块的特征等等,^s (n=0, 1,2,3)为各特征的阈值。%和 2分别表示两类结果, 正常和疑似。3.图1中的基于头肩检测的躯干定位单元。对于不良图像过滤来说,要想获得较高的准确率,肤色检测是基础,躯干(除人脸 以外的部分)定位是关键,如果一幅图像无法确定人体的存在与否以及人体的位置,对分类 来说具有很大的困难。本发明在研究常用检测方法之后,提出了合适的三种方法基于头肩 检测的定位方法、基于人脸检测的定位方法、基于椭圆拟合的定位方法。其中基于头肩检测 的躯干定位方法借鉴了行人检测的基于HOG特征的方法。基于头肩检测的定位方法的技术方案是首先使用Adaboost与线性SVM结合的方 法训练得到基于头肩的人体级联分类器,然后利用它对图像进行滑动窗口进行检测,来实 现人体躯干的定位。本发明还使用了如图3所示的HOG积分图来提高HOG特征提取的速度, 使用如图4所示的级联结构来加快分类器的速度。训练级联分类器的方法如下
训练样本大小为64X 64像素,使用HOG特征时将块大小定义为16 X 16像素,每个块平 均分为2X2共4个单元,每个单元8X8像素,偏移步长定义为8个像素,共可得到105个 块,每个块可生成36维的特征向量。采用大小变化的块来提取HOG特征向量,在64X64的 窗口中我们定义的块大小从16X16到64X64范围内变化,另有1 1、1 2、2 1三种不同的
长宽比,滑动步长{4,6,8}单位像素,如此总共定义了 2000多个块,每个块含2 X 2个单元,每
个单元对应9个方向的梯度方向直方图。每个块对应一个36维HOG特征向量,利用线性 SVM训练得到对应的弱分类器。训练算法如下
1)Input 全局允许的误检率;
^ 级联器中每一级所允许的最大误检率;
^aift :每一级所允许的最小检出率; Pos 正样本集即含头肩的图像; Afeg:负样本集即不含头肩的图像;
2)初始化:i=0,Di =1. 0,Fi =1. 0。Loop Pi > Ftmzet i=i+l;
:1· 0;
Loop Si > fmsn
1)训练若干线性SVM弱分类器根据正负样本;
2)将选择的“最优”SVM分类器加入强分类器中,并更新权重;
3)根据最新的强分类器计算正样本的检出率和负样本的误检率;
4)调整阈值使其达到^ttia要求;5)计算在此阈值下的Z
权利要求
1.基于多层特征的不良图像自动过滤方法,其特征在于该方法包括以下步骤 步骤Sl 输入图像后对图像进行预处理,所述的预处理包括图像的缩放处理和平滑处理;步骤S2 采用基于RGB颜色空间阈值方法构建的肤色模型进行肤色检测,获得肤色掩 码图像;所述的基于RGB颜色空间阈值方法构建的肤色模型包括以下规则 规则一,单分量的约束满足RMO且G>55且B>66 ;其中R表示红色分量,G表示绿色 分量,B表示蓝色分量;规则二,分量间的大小关系约束满足R>G且G>B-20 ;规则三,分量间的差值约束Abs (R-G)+Abs (G-B)>20,其中Abs表示取绝对值运算; 规则四,为抑制偏红的颜色,满足R<2XG+10 ;如果某个像素点满足上述四个规则的约束,则为肤色像素,否则为非肤色像素; 步骤S3 提取图像的肤色特征、纹理特征和空间分布特征作为第一层特征,然后采用 第一层二进制分类树将图像分为正常和疑似两种,对于正常图像,则直接输出分类结果并 结束;对于疑似图像则继续执行;步骤S4:对该疑似图像进行基于头肩检测的人体躯干定位,如果定位成功,则提取第 二层特征,并采用第二层决策树分类器将图像分为正常和不良两种,输出分类结果并结束; 如果定位不成功,则执行步骤S5 ;所述的基于头肩检测的人体躯干定位具体过程为通过提取训练图像的梯度方向直方 图特征,利用Adaboost算法和线性SVM算法结合的机器学习方法训练得到头肩的级联分类 器,并利用级联分类器进行头肩检测定位人体躯干;所述的第二层特征包括基于肤色掩码图像的全局特征、第一类基于人体的图像局部特 征和其它非肤色特征;步骤S5:对定位不成功的图像采用人脸检测方法定位躯干,如果定位成功,则提取第 三层特征,然后采用第三层的决策树分类器将图像分为正常和不良两种,输出分类结果并 结束;如果定位不成功,则执行步骤S6 ;所述的第三层特征包括基于肤色掩码图像的全局特征、第二类基于人体的图像局部特 征和其它非肤色特征;所述的第三层的决策树分类器,其训练方法与第二层决策树分类器训练方法相同; 步骤S6:对定位不成功的图像,采用椭圆拟合方法定位人体躯干,提取第四层特征然 后采用第四层的二进制分类树将图像分为正常和疑似两种,输出分类结果并结束;所述的第四层特征包括基于肤色掩码图像的全局特征和基于椭圆拟合结果的特征; 所述的第四层二进制分类树,其训练方法与第一层二进制分类树的训练方法相同。
全文摘要
本发明涉及一种基于多层特征的不良图像自动过滤方法。现有的过滤方法效果不好。本发明首先对输入图像后对图像进行预处理,预处理后进行肤色检测,获得肤色掩码图像;其次提取图像的第一层特征,采用第一层二进制分类树将图像分类,对于疑似图像进行躯干定位,输出分类结果;然后对定位不成功的图像采用人脸检测方法定位躯干,如果定位成功,则提取第三层特征,采用决策树分类器将图像输出;对定位不成功的图像,采用椭圆拟合方法定位人体躯干,提取特征后采用二进制分类树将图像输出分类结果并结束。本发明保证网络视频、社交网站等载有多媒体信息较多的互联网产业健康、持续发展。
文档编号G06K9/66GK102117413SQ20111004828
公开日2011年7月6日 申请日期2011年3月1日 优先权日2011年3月1日
发明者严俊杰, 傅政军, 吴海虹, 周建政, 周渝清, 姚金良, 明建华, 王小华, 王荣波, 谌志群 申请人:天格科技(杭州)有限公司, 金华就约我吧网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1