一种色情图像侦测的方法和系统的制作方法

文档序号:6441415阅读:138来源:国知局
专利名称:一种色情图像侦测的方法和系统的制作方法
技术领域
本申请涉及图像识别的技术领域,特别是涉及一种色情图像侦测的方法和一种色情图像侦测的系统,以及,一种训练分类器模型的方法和一种训练分类器模型的系统。
背景技术
随着互联网的快速发展,互联网在为人们认识世界、方便生活、提供帮助的同时,也为有害信息的广泛传播提供了便捷的途径,例如,人们常常会受到含有如色情、暴力等不健康的色情图像和视频的侵扰;网络犯罪活动的现象也日渐增多,如色情小说、色情图像和录像的传播,它们扰乱社会秩序、破坏社会风气,给人们尤其是青少年带来了极大的负面影响。据统计,全球现有色情网站数以百万,另外,约28%的网站包含成人内容;一个人在互联网上随便点击,每七次就有一次可能点击到色情站点,25%的小网迷曾主动访问色情网站,20%的人曾被动收到色情信息,全球75%的家长明确表示担心不良信息对孩子的负面影响;全球电子邮件中有大约55%是垃圾邮件,而其中色情图片大约占20%左右。目前,基于图片内容的色情图像侦测算法普遍是基于肤色来进行检测的,即根据肤色的比例来估计目标图像为裸体图像的可能性。然而,这种基于肤色检测的色情图像侦测的算法主要存在如下缺陷:1、非皮肤图片的错误召回。这是肤色检测的一个最大问题。在自然界中,有很多物体和表面的颜色和肤色接近,单从肤色角度出发,这类物体表面与人体皮肤并不具有很高的区分度。2、非色情皮肤图片的错误召回。传统肤色检测本质上是一种裸体检测算法,即主要是通过皮肤区域的面积来判断一张图片是否是色情的,而这与人类认知的判断是不同的。因此此类算法很容易将某些类别的图片(比如服饰类商品的模特图片)错判为色情图片。3、无法召回非皮肤的色情图片。正如2中提到的原因,对某些裸露区域较小的色情图片,该算法往往会失效。因为在实际中,人能知道在某些具有肤色的区域没有必要视作是色情场景;此外,还有其它许多的虽然细小但是十分关键的特征区域,比如暴露的胸部和生殖器等,一旦出现就会直接被归类为色情内容。人能够理解、分辨在什么样的情况下判定为色情场景,可以理解图像的内容。但采用该算法却无法进行准确判断。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提高色情图像侦测的召回率和准确率。

发明内容
本申请所要解决的技术问题是提供一种色情图像侦测的方法和装置,以及,一种训练分类器模型的方法和一种训练分类器模型的系统,用以提高色情图像侦测的召回率和准确率。为了解决上述问题,本申请公开了一种色情图像侦测的方法,包括:采用包含特征区域的样本图像训练分类器模型;采用所述分类器模型检测目标图像中的候选特征区域;按照预置规则判断所述候选特征区域是否为实际特征区域,若是,则判定当前目标图像为色情图像。优选的是,所述采用包含特征区域的样本图像训练分类器模型的步骤,进一步包括:采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像;对所述正样本图像和负样本图像进行归一化;针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量;根据所述特征值及特征数量训练分类器模型。优选的是,所述对正样本图像和负样本图像进行归一化的子步骤,进一步包括:将所述正样本图像和负样本图像缩放至统一尺寸;和/ 或,将所述正样本图像和负样本图像转换为灰度图像。优选的是,所述预设特征为二值化矩形特征,所述针对归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量的子步骤,进一步包括:设置至少一种特征模板,所述特征模板包括黑色区域和白色区域;在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征;统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量;以及,计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。优选的是,所述根据特征值及特征数量训练分类器模型的子步骤,进一步包括:针对各个特征生成初始分类器,所述初始分类器中包括方向参数和分类阈值;针对每一幅样本图像分配初始化的权重;根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器;当所述优选分类器的数量小于特征数量时,执行以下操作:针对已分配权重的样本图像计算归一化的权重;根据所述样本图像的归一化权利,计算各个优选特征分类器的加权分类阈值;选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器;针对本次分类错误的样本图像,按预设规则增加权重;组合多次循环的最佳分类器,形成最终的分类器模型。优选的是,所述目标图像为灰度图像,所述采用分类器模型检测目标图像中的候选特征区域的步骤,进一步包括:按预设比例持续缩放所述目标图像,判断是否达到预设的尺寸下限;若否,则采用分类器模型检测所述缩放得到的图像中的候选特征区域,并记录检测到的候选特征区域信息;若是,则输出所记录的候选特征区域信息。优选的是,所述按照预置规则判断候选特征区域是否为实际特征区域的步骤,进一步包括:提取所述候选特征区域的边缘信息;根据所述边缘信息提取所述候选特征区域中的最大连通域;判断所述最大连通域是否符合预设的长宽比阈值,若否,则判定该候选特征区域为实际特征区域。优选的是,所述按照预置规则判断候选特征区域是否为实际特征区域的步骤,还包括:在判定当前候选特征区域为实际特征区域之前,计算第一标准差和第二标准差,其中,所述第一标准差为候选特征区域的灰度值的标准差,所述第二标准差为该候选特征区域周围区域的灰度值的标准差;若所述第一标准差是否小于第一标准差阈值,和/或,所述第二标准差是否小于第二标准差阈值,若是,则判定当前候选特征区域为实际特征区域。优选的是,所述按照预置规则判断候选特征区域是否为实际特征区域的步骤,还包括:在判定当前候选特征区域为实际特征区域之前,判断第一颜色信息和第二颜色信息是否满足预设条件,若是则判定当前候选特征区域为实际特征区域,其中,所述第一颜色信息为候选特征区域的颜色信息,所述第二颜色信息为该候选特征区域周围区域的颜色信
肩、O优选的是,所述第一颜色信息包括候选特征区域各像素R通道分量的平均值Rl以及G通道分量的平均值Gl,所述第二颜色信息包括该候选特征区域周围区域的R通道分量的平均值R2以及G通道分量的平均值G2,所述预设条件包括:1)R2 < Rl ;2)G2 > Gl ;3) SI < (R1-R2)/(G2-G1) < S2 ;其中,SI为 0.5 ;S2 为 1.5。本申请实施例还公开了一种色情图像侦测的系统,包括:分类器训练模块,用于采用包含特征区域的样本图像训练分类器模型;候选特征区域检测模块,用于采用所述分类器模型检测目标图像中的候选特征区域;候选特征区域筛选模块,用于按照预置规则判断所述候选特征区域是否为实际特征区域,若是,则调用色情图像判定模块;色情图像判定模块,用于判定当前目标图像为色情图像。优选的是,所述分类器训练模块包括:
样本采集子模块,用于采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像;归一化处理子模块,用于对所述正样本图像和负样本图像进行归一化;特征计算子模块,用于针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量;分类器模型训练子模块,用于根据所述特征值及特征数量训练分类器模型。优选的是,所述预设特征可以为二值化矩形Harr特征,所述特征计算子模块可以进一步包括以下单元:特征模板设置单元,用于设置至少一种特征模板,所述特征模板包括黑色区域和白色区域;特征获取单元,用于在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征;特征数量统计单元,用于统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量;以及,特征值计算单元,用于计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。优选的是,所述分类器模型训练子模块包括:初始分类器生成单元,用于针对各个特征生成初始分类器,所述初始分类器中包括方向参数和分类阈值;权重分配单元,用于针对每一幅样本图像分配初始化的权重;优选分类器提取单元,用于根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器;以及,在所述优选分类器的数量小于特征数量时,调用的以下单元:权重归一化单元,用于针对已分配权重的样本图像计算归一化的权重;加权分类阈值计算单元,用于根据所述样本图像的归一化权利,计算各个优选特征分类器的加权分类阈值;最佳分类器确定单元,用于选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器;权重调整单元,用于针对本次分类错误的样本图像,按预设规则增加权重;分类器组合单元,用于组合多次循环的最佳分类器,形成最终的分类器模型。优选的是,所述目标图像为灰度图像,所述候选特征区域检测模块包括:尺寸判断子模块,用于按预设比例持续缩放所述目标图像,判断是否达到预设的尺寸下限;若是,则调用输出子模块,若否,则调用检测子模块;检测子模块,用于采用分类器模型检测所述缩放得到的图像中的候选特征区域,并记录检测到的候选特征区域信息;输出子模块,用于输出所记录的候选特征区域信息。优选的是,所述候选特征区域筛选模块包括:边缘检测子模块,用于提取所述候选特征区域的边缘信息;
最大连通域分析子模块,用于根据所述边缘信息提取所述候选特征区域中的最大连通域;长宽比判断子模块,用于判断所述最大连通域是否符合预设的长宽比阈值,若否,则调用标准差计算子模块;标准差计算子模块,用于计算第一标准差和第二标准差,其中,所述第一标准差为候选特征区域的灰度值的标准差,所述第二标准差为该候选特征区域周围区域的灰度值的标准差;标准差判断子模块,用于判断所述第一标准差是否小于第一标准差阈值,和/或,所述第二标准差是否小于第二标准差阈值,若是,则调用颜色判断子模块;颜色判断子模块,用于判断第一颜色信息和第二颜色信息是否满足预设条件,若是则调用实际特征区域判定子模块,其中,所述第一颜色信息为候选特征区域的颜色信息,所述第二颜色信息为该候选特征区域周围区域的颜色信息。实际特征区域判定子模块,用于判定当前候选特征区域为实际特征区域。本申请实施例还公开了一种训练分类器模型的方法,包括:采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像;对所述正样本图像和负样本图像进行归一化;针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量;根据所述特征值及特征数量训练分类器模型。优选的是,所述预设特征为二值化矩形特征,所述针对归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量的子步骤,进一步包括:设置至少一种特征模板,所述特征模板包括黑色区域和白色区域;在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征;统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量;以及,计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。本申请实施例还公开了一种训练分类器模型的系统,包括:样本采集模块,用于采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像;归一化处理模块,用于对所述正样本图像和负样本图像进行归一化;特征计算模块,用于针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量;分类器模型训练模块,用于根据所述特征值及特征数量训练分类器模型。与现有技术相比,本申请包括以下优点:本申请通过对特征区域的识别来检测色情图像,具体通过二值化矩形特征结合Adaboost的算法,配合训练样本,进行特征区域的快速识别;并针对特征区域与周围皮肤区域的颜色、形状特征进行进一步筛选出色情图像,有效避免现有技术中非皮肤图片的错误召回,非色情皮肤图片的错误召回,以及,无法召回非皮肤的色情图片的问题,能获得较高的色情图像侦测的召回率和准确率。


图1是本申请的一种色情图像侦测的方法实施例的步骤流程图;图2为本申请的一种示例中采用Harr特征的常用特征模板示意图;图3为本申请的一种示例中采用图2所示的特征模板计算特征数量的示意图;图4a、图4b和图4c为本申请的一种示例中特征值排序表中分类阈值所在位置的示意图;图5为本申请的一种色情图像侦测的系统实施例的结构框图。
具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本申请作进一步详细的说明。本申请的核心构思在于,通过对特征区域的识别来检测色情图像,具体通过二值化矩形特征结合Adaboost的算法,配合训练样本,进行特征区域的快速识别;并针对特征区域与周围皮肤区域的颜色、形状特征进行进一步筛选出色情图像,从而获得较高的召回率和准确率。参照图1,示出了本申请的一种色情图像侦测的方法实施例的步骤流程图,具体可以包括如下步骤:步骤101、采用包含特征区域的样本图像训练分类器模型;在本申请实施例中,所述特征区域可以为人体敏感部位对应的区域,如胸部区域。在具体实现中,本步骤可以采用二值化矩形特征(Harr特征)结合Adaboost分类的方法,配合训练样本,形成特征区域的分类器模型。其主要思想是采用一些简单的Harr特征来描述样本图像,包括正样本图像(事先收集的包含特征区域的图像)和负样本(无关图像),使用Adaboost算法挑选其中影响较大的特征作为弱分类器,并按照加权投票的方式将其组成迭代分类器。具体而言,在本申请的一种优选实施例中,所述步骤101具体可以包括如下子步骤:子步骤S11、采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像;所述正样本图像为包含特征区域的图像,如人体胸部区域特写的图像,包含周围皮肤和乳房区域;所述负样本图像为其它无关图像,即不包含特征区域的图像。上述正样本图像和负样本图像即构成训练样本集。理论上来说,训练样本集越大,得到的分类器模型越好。应用本申请实施例在实际使用过程中,采集正样本图像为2000张左右,负样本图像为5000张以上,即可达到较为理想的效果。另外,由于人体形态的复杂性,正样本图像除了要求是包含特征区域以外,需要考虑到实际情况的多样性,尽可能覆盖到各种形态,如特征区域的正面形态、侧面形态、逆光形态等等。
子步骤S12、对所述正样本图像和负样本图像进行归一化;在具体应用中,所述归一化操作可以包括:将所述正样本图像和负样本图像缩放至统一尺寸;和/ 或,将所述正样本图像和负样本图像转换为灰度图像。例如,首先将所有的正样本图像和负样本图像的尺寸都统一缩放到24*24像素,然后对所有的样本图像进行灰度化处理,将原始的RGB三通道图像转化为单通道灰度图像。子步骤S13、针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量;作为本申请实施例具体应用的一种优选示例,所述预设特征可以采用Harr特征,Haar特征是一种简单的二值化矩形特征。确定了特征形式之后,具体特征的数量就取决于训练样本图像的尺寸大小,特征子窗口的尺寸以及该子窗口在图像中位置生成了不同的特征。在这种情况下,所述子步骤S13可以进一步包括如下子步骤:子步骤S13-1,设置至少一种特征模板,所述特征模板包括黑色区域和白色区域;子步骤S13-2,在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征;子步骤S13-3,统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量;以及,子步骤S13-4,计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。采用Harr特征来描述图像,较为常用的特征模板如图2所示,特征模板内有白色和黑色两种矩形表征二值化的特征,因而可以看到,所述特征模板包括黑色区域(如代表-1)和白色区域(如代表I),可以根据位置和尺寸不同生成不同的特征。在实际中可以定义该模板的特征值为白色矩形像素和减去黑色矩形像素和。具体特征的计算方法为,特征模板覆盖区域的加权像素值之和,即白色区域覆盖图像的像素值之和减去黑色区域覆盖图像的像素值之和。在不同位置选取不同的特征模板,并在各特征模板中提取不同尺寸的特征,以获得大量的特征。例如,在24*24的样本图像中提取如图2所示的四类特征,可以获得超过10万个特征。在这种情况下,各特征模板可以提取的特征数量可以参考图3所示的方式计算得到,即对于1*2或2*1类型的特征模板,在24*24的样本图像中所包含的特征数量为86400个;对于1*3类型的特征模板,在24*24的样本图像中所包含的特征数量为55200个;对于2*2类型的特征模板,在24*24的样本图像中所包含的特征数量为20736个。子步骤S14、根据所述特征值及特征数量训练分类器模型。作为本申请实施例具体应用的一种优选示例,所述子步骤S14可以进一步包括如下子步骤:子步骤S14-1、针对各个特征生成初始分类器,所述初始分类器中包括方向参数和分类阈值;针对前述步骤生成的大量Haar特征及特征值,可以计算出分类阈值,从而得到初始分类器。选择分类阈值的标准是使得其在训练样本(样本图像)上具有最小的误分率。在前述步骤中,已经将正样本图像和负样本图像归一化为统一的尺寸(如24*24),所有样本图像都具有相同的特征数量,即可以得到同一类特征在各训练样本上的特征值。每个特征的初始分类器均包含两个参数,方向参数P以及分类阈值s ;其中s将各样本图像在该特征上的值分布分为两段,即认为小于S的属于一类,大于S的属于另一类;而方向P (取值+1或者-1)则表示了各类归属的类别,即小于S的属于特征区域(或者非特征区域),大于s的属于非特征区域(或者特征区域)。具体可以采用如下公式来表示:
权利要求
1.一种色情图像侦测的方法,其特征在于,包括: 采用包含特征区域的样本图像训练分类器模型; 采用所述分类器模型检测目标图像中的候选特征区域; 按照预置规则判断所述候选特征区域是否为实际特征区域,若是,则判定当前目标图像为色情图像。
2.根据权利要求1所述的方法,其特征在于,所述采用包含特征区域的样本图像训练分类器模型的步骤,进一步包括: 采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像; 对所述正样本图像和负样本图像进行归一化; 针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量; 根据所述特征值及特征数量训练分类器模型。
3.根据权利要求2所述的方法,其特征在于,所述对正样本图像和负样本图像进行归一化的子步骤,进一步包括: 将所述正样本图像和负样本图像缩放至统一尺寸; 和/或, 将所述正样本图 像和负样本图像转换为灰度图像。
4.根据权利要求2或3所述的方法,其特征在于,所述预设特征为二值化矩形特征,所述针对归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量的子步骤,进一步包括: 设置至少一种特征模板,所述特征模板包括黑色区域和白色区域; 在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征; 统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量; 以及, 计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。
5.根据权利要求4所述的方法,其特征在于,所述根据特征值及特征数量训练分类器模型的子步骤,进一步包括: 针对各个特征生成初始分类器,所述初始分类器中包括方向参数和分类阈值; 针对每一幅样本图像分配初始化的权重; 根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器; 当所述优选分类器的数量小于特征数量时,执行以下操作: 针对已分配权重的样本图像计算归一化的权重; 根据所述样本图像的归一化权利,计算各个优选特征分类器的加权分类阈值; 选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器; 针对本次分类错误的样本图像,按预设规则增加权重; 组合多次循环的最佳分类器,形成最终的分类器模型。
6.根据权利要求1或5所述的方法,其特征在于,所述目标图像为灰度图像,所述采用分类器模型检测目标图像中的候选特征区域的步骤,进一步包括: 按预设比例持续缩放所述目标图像,判断是否达到预设的尺寸下限; 若否,则采用分类器模型检测所述缩放得到的图像中的候选特征区域,并记录检测到的候选特征区域信息; 若是,则输出所记录的候选特征区域信息。
7.根据权利要求1所述的方法,其特征在于,所述按照预置规则判断候选特征区域是否为实际特征区域的步骤,进一步包括: 提取所述候选特征区域的边缘信息; 根据所述边缘信息提取所述候选特征区域中的最大连通域; 判断所述最大连通域是否符合预设的长宽比阈值,若否,则判定该候选特征区域为实际特征区域。
8.根据权利要求7所述的方法,其特征在于,所述按照预置规则判断候选特征区域是否为实际特征区域的步骤,还包括: 在判定当前候选特征区域为实际特征区域之前,计算第一标准差和第二标准差,其中,所述第一标准差为候选特征区域的 灰度值的标准差,所述第二标准差为该候选特征区域周围区域的灰度值的标准差; 若所述第一标准差是否小于第一标准差阈值,和/或,所述第二标准差是否小于第二标准差阈值,若是,则判定当前候选特征区域为实际特征区域。
9.根据权利要求7或8所述的方法,其特征在于,所述按照预置规则判断候选特征区域是否为实际特征区域的步骤,还包括: 在判定当前候选特征区域为实际特征区域之前,判断第一颜色信息和第二颜色信息是否满足预设条件,若是则判定当前候选特征区域为实际特征区域,其中,所述第一颜色信息为候选特征区域的颜色信息,所述第二颜色信息为该候选特征区域周围区域的颜色信息。
10.根据权利要求9所述的方法,其特征在于,所述第一颜色信息包括候选特征区域各像素R通道分量的平均值Rl以及G通道分量的平均值Gl,所述第二颜色信息包括该候选特征区域周围区域的R通道分量的平均值R2以及G通道分量的平均值G2,所述预设条件包括:1)R2< Rl ;2)G2> Gl ;3)SI < (R1-R2)/(G2-G1) < S2 ;其中,SI 为 0.5 ;S2 为 1.5。
11.一种色情图像侦测的系统,其特征在于,包括: 分类器训练模块,用于采用包含特征区域的样本图像训练分类器模型; 候选特征区域检测模块,用于采用所述分类器模型检测目标图像中的候选特征区域;候选特征区域筛选模块,用于按照预置规则判断所述候选特征区域是否为实际特征区域,若是,则调用色情图像判定模块; 色情图像判定模块,用于判定当前目标图像为色情图像。
12.根据权利要求11所述的系统,其特征在于,所述分类器训练模块包括:样本采集子模块,用于采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像; 归一化处理子模块,用于对所述正样本图像和负样本图像进行归一化; 特征计算子模块,用于针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量; 分类器模型训练子模块,用于根据所述特征值及特征数量训练分类器模型。
13.根据权利要求12所述的系统,其特征在于,所述预设特征可以为二值化矩形Harr特征,所述特征计算子模块可以进一步包括以下单元: 特征模板设置单元,用于设置至少一种特征模板,所述特征模板包括黑色区域和白色区域; 特征获取单元,用于在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征; 特征数量统计单元,用于统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量; 以及, 特征值计算单元,用于计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。
14.根据权利要求13所述的系统,其特征在于,所述分类器模型训练子模块包括: 初始分类器生成单元,用于针对各个特征生成初始分类器,所述初始分类器中包括方 向参数和分类阈值; 权重分配单元,用于针对每一幅样本图像分配初始化的权重; 优选分类器提取单元,用于根据所述方向参数和分类阈值从所述初始分类器中提取满足预设数量的优选特征分类器; 以及,在所述优选分类器的数量小于特征数量时,调用的以下单元: 权重归一化单元,用于针对已分配权重的样本图像计算归一化的权重; 加权分类阈值计算单元,用于根据所述样本图像的归一化权利,计算各个优选特征分类器的加权分类阈值; 最佳分类器确定单元,用于选择所述加权分类阈值最小的优选特征分类器作为本次循环的最佳分类器; 权重调整单元,用于针对本次分类错误的样本图像,按预设规则增加权重; 分类器组合单元,用于组合多次循环的最佳分类器,形成最终的分类器模型。
15.根据权利要求11或12或13或14所述的系统,其特征在于,所述目标图像为灰度图像,所述候选特征区域检测模块包括: 尺寸判断子模块,用于按预设比例持续缩放所述目标图像,判断是否达到预设的尺寸下限;若是,则调用输出子模块,若否,则调用检测子模块; 检测子模块,用于采用分类器模型检测所述缩放得到的图像中的候选特征区域,并记录检测到的候选特征区域信息; 输出子模块,用于输出所记录的候选特征区域信息。
16.根据权利要求15所述的系统,其特征在于,所述候选特征区域筛选模块包括:边缘检测子模块,用于提取所述候选特征区域的边缘信息; 最大连通域分析子模块,用于根据所述边缘信息提取所述候选特征区域中的最大连通域; 长宽比判断子模块,用于判断所述最大连通域是否符合预设的长宽比阈值,若否,则调用标准差计算子模块; 标准差计算子模块,用于计算第一标准差和第二标准差,其中,所述第一标准差为候选特征区域的灰度值的标准差,所述第二标准差为该候选特征区域周围区域的灰度值的标准差; 标准差判断子模块,用于判断所述第一标准差是否小于第一标准差阈值,和/或,所述第二标准差是否小于第二标准差阈值,若是,则调用颜色判断子模块; 颜色判断子模块,用于判 断第一颜色信息和第二颜色信息是否满足预设条件,若是则调用实际特征区域判定子模块,其中,所述第一颜色信息为候选特征区域的颜色信息,所述第二颜色信息为该候选特征区域周围区域的颜色信息。
实际特征区域判定子模块,用于判定当前候选特征区域为实际特征区域。
17.—种训练分类器模型的方法,其特征在于,包括: 采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像; 对所述正样本图像和负样本图像进行归一化; 针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量; 根据所述特征值及特征数量训练分类器模型。
18.根据权利要求17所述的方法,其特征在于,所述预设特征为二值化矩形特征,所述针对归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量的子步骤,进一步包括: 设置至少一种特征模板,所述特征模板包括黑色区域和白色区域; 在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征; 统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量; 以及, 计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。
19.一种训练分类器模型的系统,其特征在于,包括: 样本采集模块,用于采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像; 归一化处理模块,用于对所述正样本图像和负样本图像进行归一化; 特征计算模块,用于针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量; 分类器模型训练模块,用于根据所述特征值及特征数量训练分类器模型。
全文摘要
本申请提供了一种色情图像侦测的方法和系统,其中所述方法包括采用包含特征区域的样本图像训练分类器模型;采用所述分类器模型检测目标图像中的候选特征区域;按照预置规则判断所述候选特征区域是否为实际特征区域,若是,则判定当前目标图像为色情图像。本申请能够提高色情图像侦测的召回率和准确率。
文档编号G06K9/62GK103164687SQ20111042147
公开日2013年6月19日 申请日期2011年12月15日 优先权日2011年12月15日
发明者薛晖 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1