一种色情图像侦测的方法和系统的制作方法

文档序号:6436866阅读:255来源:国知局
专利名称:一种色情图像侦测的方法和系统的制作方法
技术领域
本申请涉及图像识别的技术领域,特别是涉及ー种色情图像侦测的方法和系统。
背景技术
随着互联网的快速发展,互联网在为人们认识世界、方便生活、提供帮助的同吋,也为有害信息的广泛传播提供了便捷的途径,例如,人们常常会受到含有如色情、暴力等不健康的色情图像和视频的侵扰;网络犯罪活动的现象也日渐增多,如色情小说、色情图像和录像的传播,它们扰乱社会秩序、破坏社会风气,给人们尤其是青少年带来了极大的负面影响。据统计,全球现有色情网站数以百万,另外,约28%的网站包含成人内容;ー个人在互联网上随便点击每七次就有一次可能点击到色情站点,25%的小网迷曾主动访问色情网站,20%的人曾被动收到色情信息,全球75%的家长明确表示担心不良信息对孩子的负面影响;全球电子邮件中有大约55%是垃圾邮件,而其中色情图像大约占20%左右。目前,过滤色情图像信息主要采用以下三种策略:1、文本关键词过滤;2、针对包含成人内容的网站建立黑名单,从而根据IP地址进行过滤;3、基于内容进行图像识别。对于第一种文本关键词过滤的方法而言,尽管文本检索、自然语言处理等技术已经发展地相当成熟,但单纯的基于文本过滤的方式,仍然存在着较大的漏杀率。主要原因之一在于文本修改的成本较低,恶意用户往往可以通过尝试不同的文字变形(错别字、象形文字等)来突破单纯依赖辞典的关键词过滤手段。另ー方面,图像对人眼的冲击カ往往更大(換言之,色情图像的危害程度相较文字更大),恶意用户甚至直接将文字印在图像上,对于这类情况,文本过滤的方式往往无能为力。对于第二种根据黑名单网站IP地址进行过滤的方法而言,由于IP过滤的方式是一种静态防御的方式,无法第一时间发现包含成人内容的网站,而往往依赖其它技术或者人工举报的方式去维护黑名単。与上述两种方法相比,第三种基于内容的图像识别技术通过分析、提取色情图像不同于正常图像的特征,作为机器判断的依据,提供了更灵活、直接且文字无关的处理手段。传统的基于内容的图像识别技术,基本上单纯依赖皮肤顔色检测,往往会有较为严重的误判问题,即对于某些正常图像,只要其出现了黄色背景、纺织物、毛发等情况,都有很大概率会被过滤为色情图像。特别的,对于电子商务网站中存在的大量内衣、首饰等产品图像,存在十分严重的误杀率。因此,目前需要本领域技术人员迫切解决的ー个技术问题就是:提出ー种色情图像的侦测技术,用以提高色情图像识别的召回率和准确率。

发明内容
本申请的目的是提供ー种色情图像侦测的方法和系统,用以提高色情图像识别的召回率和准确率。为了解决上述问题,本申请公开了ー种色情图像侦测的方法,包括:检测目标图像中的皮肤区域;若所述皮肤区域在目标图像整体区域中的占比大于第一预设阈值,则检测所述目标图像中的连通域;判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则判定所述目标图像为色情图像。优选的是,所述检测目标图像中的皮肤区域的步骤进一歩包括:对目标图像进行肤色检测,获得候选皮肤区域;在所述候选皮肤区域在目标图像整体区域中的占比大于第一预设阈值时,对所述候选皮肤区域进行纹理特征检测;确定所述纹理特征强度大于第二预设阈值的候选皮肤区域为皮肤区域。优选的是,所述判断连通域在皮肤区域中的分布是否满足预置规则的步骤进一歩包括:获取各连通域的面积,判断其中面积最大的连通域在皮肤区域中的占比是否大于第三预设阈值;和/或,获取各连通域的面积,判断其中面积大小在前n位的连通域,在皮肤区域中的占比是否大于第四预设阈值,所述n大于I。优选的是,在所述判定目标图像为色情图像的步骤之前,还包括:检测目标图像中的脸部区域;若所述脸部区域在目标图像整体区域中的占比小于第五预设阈值,则根据所述脸部区域估算躯干区域,并检测躯干区域中的皮肤区域;若所述躯干区域中的皮肤区域在躯干区域中的占比超过第六预设阈值,则判定所述目标图像为色情图像。优选的是,所述第一预设阈值为20% ;所述纹理特征检测采用边缘提取算法,所述第二预设阈值为5 ;所述第三预设阈值为5% ;所述n为3,所述第四预设阈值为50% ;所述第五预设阈值为65% ;所述第六预设阈值75%。本申请还公开了ー种色情图像侦测的方法,包括:检测样本图像中的皮肤区域;所述样本图像包括正样本图像和反样本图像;若所述皮肤区域在当前样本图像整体区域中的占比大于第一预设阈值,则检测所述样本图像中的连通域;针对所述正样本图像和反样本图像中,连通域面积大小在前m位的目标连通域提取预设特征;根据所提取的预设特征生成分类模型;将待检测的目标图像输入分类模型,判断是否为色情图像。优选的是,所述预设特征包括:
第一特征:所述目标连通域的面积在当前样本图像中的占比;和/或,第二特征:所述目标连通域最小外接椭圆的中心与当前样本图像中心的距离;和/或,第三特征:所述目标连通域最小外接椭圆的长轴与水平或者垂直方向的最小夹角;和/或,第四特征:所述目标连通域最小外接椭圆的长轴与短轴的比例;和/或,第五特征:所述目标连通域中皮肤区域的面积占整个目标连通域面积的比例;和/或,第六特征:所述目标连通域中皮肤区域的各像素所对应的每ー个通道值的均方差。本申请同时公开了ー种色情图像侦测的系统,包括:皮肤区域检测模块,用于检测目标图像中的皮肤区域;第一判断模块,用于判断所述皮肤区域在目标图像整体区域中的占比是否大于第ー预设阈值,若是,则调用连通域分析模块;连通域分析模块,用于检测所述目标图像中的连通域;第二判断模块,用于判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则判定所述目标图像为色情图像。优选的是,所述皮肤区域检测模块进一歩包括:肤色检测子模块,用于对目标图像进行肤色检测,获得候选皮肤区域;纹理特征检测子模块,用于在所述候选皮肤区域在目标图像整体区域中的占比大于第一预设阈值时,对所述候选皮肤区域进行纹理特征检测;皮肤区域确定子模块,用于确定所述纹理特征强度大于第二预设阈值的候选皮肤区域为皮肤区域。优选的是,所述连通域分析模块进一歩包括:最大连通域分析子模块,用于获取各连通域的面积,判断其中面积最大的连通域在皮肤区域中的占比是否大于第三预设阈值;和/或,优选连通域分析子模块,用于获取各连通域的面积,判断其中面积大小在前n位的连通域,在皮肤区域中的占比是否大于第四预设阈值,所述n大于I。优选的是,所述的系统,还包括:脸部区域检测模块,用于检测目标图像中的脸部区域;第三判断模块,用于判断所述脸部区域在目标图像整体区域中的占比是否小于第五预设阈值,若是,则调用躯干区域检测模块;躯干区域检测模块,用于根据所述脸部区域估算躯干区域,并检测躯干区域中的皮肤区域;第四判断模块,用于判断所述躯干区域中的皮肤区域在躯干区域中的占比是否超过第六预设阈值,若是,则判定所述目标图像为色情图像。本申请还公开了ー种色情图像侦测的系统,包括:样本皮肤检测模块,用于检测样本图像中的皮肤区域;所述样本图像包括正样本图像和反样本图像;第五判断模块,用于判断所述皮肤区域在当前样本图像整体区域中的占比大于第ー预设阈值,若是,则调用连通域检测模块;连通域检测模块,用于检测所述样本图像中的连通域;特征提取模块,用于针对所述正样本图像和反样本图像中,连通域面积大小在前m位的目标连通域提取预设特征;模型生成模块,用于根据所提取的预设特征生成分类模型;模型判断模块,用于将待检测的目标图像输入分类模型,判断是否为色情图像。优选的是,所述预设特征包括:第一特征:所述目标连通域的面积在当前样本图像中的占比;和/或,第二特征:所述目标连通域最小外接椭圆的中心与当前样本图像中心的距离;和/或,第三特征:所述目标连通域最小外接椭圆的长轴与水平或者垂直方向的最小夹角;和/或,第四特征:所述目标连通域最小外接椭圆的长轴与短轴的比例;和/或,第五特征:所述目标连通域中皮肤区域的面积占整个目标连通域面积的比例;和/或,第六特征:所述目标连通域中皮肤区域的各像素所对应的每ー个通道值的均方差。与现有技术相比,本申请包括以下优点:传统的基于内容的图像识别技术,基本上单纯依赖皮肤顔色检测,往往会有较为严重的误判问题,即对于某些正常图像,只要其出现了黄色背景、纺织物、毛发等情况,都有很大概率会被过滤为色情图像。特别的,对于电子商务网站中存在的大量内衣、首饰等产品图像,存在十分严重的误杀率。本申请实施例在肤色检测的基础上,新增了皮肤纹理检测、连通域分析、脸部检測、躯干轮廓判断,并辅以机器学习等手段,显著了提高了召回率和准确率。


图1是本申请ー种色情图像侦测的方法实施例1的步骤流程图;图2是本申请ー种色情图像侦测的方法实施例2的步骤流程图;图3是本申请ー种色情图像侦测的方法实施例3的步骤流程图;图4是本申请的ー种色情图像侦测的系统实施例1的结构框图;图5是本申请的ー种色情图像侦测的系统实施例2的结构框图。
具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本申请作进一步详细的说明。參照图1,示出了本申请ー种色情图像侦测的方法实施例1的步骤流程图,具体可以包括如下步骤:步骤101、检测目标图像中的皮肤区域;在具体实现中,可以通过肤色检测和纹理特征检测确定目标图像中的皮肤区域。具体而言,本步骤具体可以包括如下子步骤:子步骤S11、对目标图像进行肤色检测,获得候选皮肤区域,判断所述候选皮肤区域在目标图像整体区域中的占比是否大于第一预设阈值,若是,则执行子步骤S12 ;肤色检测可以作为确定目标图像中皮肤区域的第一歩。皮肤区域在图像中所占的比例是判断色情图像的ー个重要指标,同时也为后续的操作奠定了基础。研究表明,皮肤的顔色主要反映了血液的顔色,而不同人种的肤色主要反映在亮度上,其色调大致相同,因此在YCbCr或者HSV等色彩空间上进行计算的效果要优于传统的RGB空间。公知的是,YCbCr是DVD、摄像机、数字电视等消费类视频产品中常用的色彩编码方案。其中Y是指亮度分量,Cb指蓝色色度分量,而Cr指红色色度分量。人的肉眼对视频的Y分量更敏感,因此在通过对色度分量进行子采样来減少色度分量后,肉眼将察觉不到图像质量的变化。HSV这个模型中颜色的參数分别是:色调(H),饱和度(S),亮度(V)。HSV模型的三维表示从RGB立方体演化而来。设想从RGB沿立方体对角线的白色顶点向黑色顶点观察,就可以看到立方体的六边形外形。六边形边界表示色彩,水平轴表示純度,明度沿垂直轴测量。作为本实施例具体应用的ー种示例,判断某ー个像素是否为皮肤,可以采用如下两种方法:第一种、基于经验所得阈值的方式:如果该像素的各通道值均在指定的阈值范围内,则判定该像素为皮肤。通道对于RGB来说就是每个像素R、G、B的值,同样HSV也是每个像素的H、S、V的值。阈值的设定一般是根据经验所得,所使用的阈值可以作为ー个參考,即满足下式的像素被归类到皮肤像素。red > 95&&green > 40&&blue > 20&&(maxrgb-minrgb) > 15&&abs(red-green)> 15&&red > green &&red > blue Mgreen > blue &&red < (green+150)&&red< (blue+150)&&green < (blue+150);上式中,red、green、blue分别是当前像素的RGB值,maxrgb、minrgb是当前像素RGB值中的最大值和最小值,abs代表取绝对值操作。第二种、基于统计的方式:首先对ー批样本图像进行人工皮肤标注,对颜色空间的每ー个值存储皮肤/非皮肤的概率;在肤色检测时,针对输入图像各个像素的顔色空间值,结合贝叶斯公式进行判断。例如,贝叶斯公式的数学表达式为P (AIB) = P (B I A) *P (A) /P (B),其中,A、B指的是事件,比如A为是否为皮肤,B为像素值是多少;各变量的意义是:
P(A):训练集合中,皮肤或者非皮肤区域的概率;P⑶:训练集合中,该像素值出现的概率;P(B|A):训练集合中,在已知的皮肤区域中,该像素出现的概率;P(A|B):已知某一像素值,是皮肤或者非皮肤的概率。上述P(A)、P(B)和P(B|A)为先验概率,可以通过事先的训练得到;P(A|B)为设置的用于判断某一个像素是否属于皮肤的依据。在实际应用中,可以准备多张包含人物的样本图像,并采取如下手段:I)首先通过手工标注的方式,勾勒出皮肤区域;一般以如下形式保存:像素值(Key),作为皮肤出现的次数(Valuel),作为非皮肤出现的次数(Value2);2)对每ー张图像来说,逐像素扫描,如果某一点为皮肤,则找到该像素值Key存放的地址,将Valuel自增一,反之则将Value2自增一,形如:Pixell, 4, 5Pixel2,2,7Pixel3,10,21......
3)对训练集中的图像都采用上面的方式。最后会形成一个很大的文件;

4)根据这个文件,可以得到某一像素是皮肤或者非皮肤的概率,如下:A:判断某一像素是皮肤的概率Pl:P (A)(累加各像素Value I的和,与累加各像素Value2+Value I的和,的比值)、P(B)(指定像素的Valuel+Value2,与所有像素的Valuel+Value2之和,的比值)、P(B|A)(如果是指定像素的Valuel,与所有像素的Valuel之和,的比值);再通过贝叶斯公式算得P(A|B);B:判断某一像素是非皮肤的概率P2:P(A)(累加各像素Value2的和,与累加各像素Value2+ValueI的和,的比值)、P(B)(指定像素的Valuel+Value2,与所有像素的Valuel+Value2之和,的比值)、P (B | A)(指定像素的Value2,与所有像素的Value2之和,的比值);再通过贝叶斯公式算得P(A|B);5)如果Pl:P2 > N(本方案N取3),则判定该像素是皮肤,否则即是非皮肤。对于检测出的皮肤面积占全图比例小于第一预设阈值,如20%,的图像,直接将其判定为正常图像;否则转入子步骤S 12。当然,上述肤色检测的方法仅仅用作示例,本领域技术人员采用任ー种肤色检测的方法都是可行的,本申请对此无需加以限制。子步骤S12、对所述候选皮肤区域进行纹理特征检测;子步骤S13、确定所述纹理特征强度大于第二预设阈值的候选皮肤区域为皮肤区域。单纯依靠颜色来判断皮肤,会有较大的误判率,某些接近皮肤颜色的毛发、织物等也会被误判为皮肤,因此为进一步提高色情图像检测的准确率,降低误判率,在本申请的ー种优选实施例中可以引入纹理特征检測。计算机图形学中的纹理既包括通常意义上物体表面的纹理即使物体表面呈现凹凸不平的沟纹,同时也包括在物体的光滑表面上的彩色图案。皮肤区别于毛发、织物等物体的ー个重要特征在于更为光滑,反映在图像特征上,即纹理的幅度较弱。作为本实施例具体应用的ー种示例,可以采用如下方式对候选皮肤区域进行纹理特征检测:A)针对肤色检测输出的图像,采用边缘提取算法提取其纹理特征;B)针对已通过肤色判定为皮肤区域的每ー个像素,如果其纹理的强度大于第二预设阈值,则判定为非皮肤。作为ー种示例,可以选择Sobel算子来进行边缘检测,在这种情况下,所述第二预设阈值可以为5。C)由于步骤B)输出的图像可能会存在许多细小的皮肤/非皮肤区域,在具体实现中,还可以采用形态学滤波的方式(对皮肤区域进行先腐蚀后膨胀)来滤除这些噪音。其中,数学形态学是由一组形态学的代数运算子组成的,它的基本运算有4个:膨胀(或扩张)、腐蚀(或侵蚀)、开启和闭合,它们在ニ值图像和灰度图像中各有特点。基于这些基本运算还可推导和组合成各种数学形态学实用算法,用它们可以进行图像形状和结构的分析及处理,包括图像分割、特征抽取、边界检測、图像滤波、图像增强和恢复等。对于皮肤区域的面积占全图比例小于第一预设阈值的图像,直接将其判定为正常图像;否则转入下一步骤。理论上,肤色检测与纹理特征检测是两个独立的判别方法,可以任选其一或者更换顺序;但实际使用过程中,优选为使用先进行肤色检测再纹理特征检测的方式,主要原因在干:肤色是一个较强的过滤器,根据统计,大约可以过滤掉大约80 %的无关图像,而纹理则要弱的多;纹理更适合在肤色检测基础上,做ー些修正,去除ー些肤色相近纹理较强的非皮肤区域(肉色外衣以及金发等等)步骤102、若所述皮肤区域在目标图像整体区域中的占比大于第一预设阈值,则检测所述目标图像中的连通域;由于色情图像往往会呈现大块的皮肤区域,因此对色情图像侦测来说,大块连通的皮肤区域往往嫌疑程度越高,反之则越低。连通域提取有许多很成熟的算法,比较经典的包括四连通域(查看某一个像素的相邻四个像素是否也为皮肤,是则添加进连通域中,以此类推)和八连通域(类似)。最終可以得到各连通域在图像中的位置以及面积。步骤103、判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则判定所述目标图像为色情图像。在本申请的ー种优选实施例中,本步骤103具体可以包括如下子步骤:子步骤S21、获取各连通域的面积,判断其中面积最大的连通域在皮肤区域中的占比是否大于第三预设阈值;和/或,子步骤S21、获取各连通域的面积,判断其中面积大小在前n位的连通域,在皮肤区域中的占比是否大于第四预设阈值,所述n大于I。由于面积较大的连通域为大块皮肤区域的可能性更高,大块皮肤区域为色情图像的嫌疑程度更高,因此在本申请的优选实施例中,可以提取面积最大的连通域和/或面积大小在前n位的连通域进行判断,在实际中,所述第三预设阈值可以为5% ;所述n可以为3,所述第四预设阈值可以为50%。在实际中,若面积最大的连通域在皮肤区域中的占比小于第三预设阈值;和/或,其中面积大小在前n位的连通域,在皮肤区域中的占比小于第四预设阈值,则可以判断目标图像为正常图像。參照图2,示出了本申请ー种色情图像侦测的方法实施例2的步骤流程图,具体可以包括如下步骤:步骤201、检测目标图像中的皮肤区域;步骤202、若所述皮肤区域在目标图像整体区域中的占比大于第一预设阈值,则检测所述目标图像中的连通域;步骤203、判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则执行步骤204 ;步骤204、检测目标图像中的脸部区域;步骤205、判断所述脸部区域在目标图像整体区域中的占比是否小于第五预设阈值,若是,则执行步骤206 ;步骤206、根据所述脸部区域估算躯干区域,并检测躯干区域中的皮肤区域;步骤207、判断所述躯干区域中的皮肤区域在躯干区域中的占比是否超过第六预设阈值,若是,则执行步骤208 ;步骤208、判定所述目标图像为色情图像。在本实施例中,采用脸部检测的方法来辅助识别色情图像。目前常用的脸部检测的方法包括:自适应增强(adaboost,adaptive boosting)、ASM(算法状态机)>AAM(activeappearance model,主动形状模型)等,本领域技术人员可以根据实际情况选择合适的算法。应用本实施例,对于包含人脸的目标图像,结合提取出来的脸部信息,可以采用如下策略来进行筛选:I)如果脸部的面积占全图面积的比例超过第五预设阈值,如65%,则该图很有可能是脸部特写,判定为正常图像。2)根据人脸的位置、大小估算躯干区域。得到人脸信息后,根据正常人体的比例,可以估计出大致躯干的区域。在具体应用中可以将人脸下方、以人脸为中心,宽度为2倍人脸直径,高度为5倍人脸直径的矩形区域定义为人体躯干。3)如果躯干区域皮肤的面积占躯干面积的比例超过第六预设阈值,如75%,则判定为色情图像參照图3,示出了本申请ー种色情图像侦测的方法实施例3的步骤流程图,具体可以包括如下步骤:步骤301、检测样本图像中的皮肤区域;其中,所述样本图像可以包括正样本图像和反样本图像;步骤302、若所述皮肤区域在当前样本图像整体区域中的占比大于第一预设阈值,则检测所述样本图像中的连通域;步骤303、针对所述正样本图像和反样本图像中,连通域面积大小在前m位的目标连通域提取预设特征;步骤304、根据所提取的预设特征生成分类模型;步骤305、将待检测的目标图像输入分类模型,判断是否为色情图像。在具体实现中,可以选择若干数量的正样本图像(色情图像)和反样本图像(正常图像),按照前述方法实施例1和方法实施例2中的相关方法进行皮肤区域提取及连通域分析。作为本申请的ー种优选实施例,所述预设特征可以包括:第一特征:所述目标连通域的面积在当前样本图像中的占比;所述第一特征可以理解为相对面积的特征,即皮肤连通域面积占全图面积的比例,该參数越大说明为色情图像的可能性越高。和/或,第二特征:所述目标连通域最小外接椭圆的中心与当前样本图像中心的距离;所述第二特征可以理解为相对位置的特征,即皮肤连通域最小外接椭圆的中心与图像中心的距离。绝大多数情况下,图像的主体位于其中心位置,因此该參数越小,说明裸露皮肤位于图像的位置越重要,该图像为色情图像的可能性越高。和/或,第三特征:所述目标连通域最小外接椭圆的长轴与水平或者垂直方向的最小夹角;所述第三特征可以理解为相对方向的特征,即皮肤连通域最小外接椭圆的长轴与水平或者垂直方向的最小夹角。大多数情况下,色情图像中裸露的躯干四肢往往会呈水平或者垂直方向,因此该參数越小,说明该图像为色情图像的可能性越高。和/或,第四特征:所述目标连通域最小外接椭圆的长轴与短轴的比例;所述第四特征可以理解为形状特征,即皮肤连通域最小外接椭圆的长轴与短轴的比例。由于人体的躯干、四肢都呈狭长状并且长宽比都在一定的阈值范围内,如2: 5。因此该參数如果在预设的阈值范围内,则该图像为色情图像的可能性越高。和/或,第五特征:所述目标连通域中皮肤区域的面积占整个目标连通域面积的比例;所述第五特征可以理解为填充率特征,即皮肤连通域中实际皮肤像素的面积与整个连通域面积的比例。该參数越高,则说明该图像为色情图像的可能性也越高。和/或,第六特征:所述目标连通域中皮肤区域的各像素所对应的每ー个通道值的均方差。所述第六特征可以理解为颜色均方差特征,即皮肤连通域中各个像素分别每ー个通道值的均方差。由于肤色检测具有一定的误差,会将ー些类似肤色的其它物体(毛发、衣物、家具等)误判为皮肤区域。同一个人的皮肤区域其顔色往往呈现出较强的一致性,因此可以使用连通域内各像素的顔色均方差来衡量该区域是皮肤的置信度。该參数越低,则说明该图像为色情图像的可能性也越高。针对之前提取的特征,使用机器学习的方式,如支持向量机(SVM)或者神经网络的方式进行训练,得到分类所用的模型。训练可以选用上述一个或多个特征,本申请对此不作限制。对输入待检测的图像,使用前一步输出的模型进行最終的判断。需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。參考图4,示出了本申请的ー种色情图像侦测的系统实施例1的结构框图,具体可以包括如下模块:皮肤区域检测模块401,用于检测目标图像中的皮肤区域;第一判断模块402,用于判断所述皮肤区域在目标图像整体区域中的占比是否大于第一预设阈值,若是,则调用连通域分析模块403 ;连通域分析模块403,用于检测所述目标图像中的连通域;第二判断模块404,用于判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则判定所述目标图像为色情图像。在本申请的ー种优选实施例中,所述皮肤区域检测模块401可以进一歩包括如下子模块:肤色检测子模块,用于对目标图像进行肤色检测,获得候选皮肤区域;纹理特征检测子模块,用于在所述候选皮肤区域在目标图像整体区域中的占比大于第一预设阈值时,对所述候选皮肤区域进行纹理特征检测;皮肤区域确定子模块,用于确定所述纹理特征强度大于第二预设阈值的候选皮肤区域为皮肤区域。在本申请的ー种优选实施例中,所述连通域分析模块402可以进一歩包括以下子模块:最大连通域分析子模块,用于获取各连通域的面积,判断其中面积最大的连通域在皮肤区域中的占比是否大于第三预设阈值;和/或,优选连通域分析子模块,用于获取各连通域的面积,判断其中面积大小在前n位的连通域,在皮肤区域中的占比是否大于第四预设阈值,所述n大于I。更为优选的是,本申请实施例还可以包括如下模块:脸部区域检测模块,用于检测目标图像中的脸部区域;第三判断模块,用于判断所述脸部区域在目标图像整体区域中的占比是否小于第五预设阈值,若是,则调用躯干区域检测模块;躯干区域检测模块,用于根据所述脸部区域估算躯干区域,并检测躯干区域中的皮肤区域;第四判断模块,用于判断所述躯干区域中的皮肤区域在躯干区域中的占比是否超过第六预设阈值,若是,则判定所述目标图像为色情图像。在具体实现中,所述第一预设阈值可以为20% ;所述纹理特征检测可以采用边缘提取算法,所述第二预设阈值可以为5 ;所述第三预设阈值可以为5%;所述n可以为3,所述第四预设阈值可以为50% ;所述第五预设阈值可以为65% ;所述第六预设阈值可以75%。參考图5,示出了本申请的ー种色情图像侦测的系统实施例2的结构框图,具体可以包括如下模块:样本皮肤检测模块501,用于检测样本图像中的皮肤区域;所述样本图像包括正样本图像和反样本图像;第五判断模块502,用于判断所述皮肤区域在当前样本图像整体区域中的占比大于第一预设阈值,若是,则调用连通域检测模块503 ;连通域检测模块503,用于检测所述样本图像中的连通域;特征提取模块504,用于针对所述正样本图像和反样本图像中,连通域面积大小在前m位的目标连通域提取预设特征;模型生成模块505,用于根据所提取的预设特征生成分类模型;模型判断模块506,用于将待检测的目标图像输入分类模型,判断是否为色情图像。作为本申请实施例的一种优选示例,所述预设特征具体可以包括:第一特征:所述目标连通域的面积在当前样本图像中的占比;和/或,第二特征:所述目标连通域最小外接椭圆的中心与当前样本图像中心的距离;和/或,第三特征:所述目标连通域最小外接椭圆的长轴与水平或者垂直方向的最小夹角;和/或,第四特征:所述目标连通域最小外接椭圆的长轴与短轴的比例;和/或,第五特征:所述目标连通域中皮肤区域的面积占整个目标连通域面积的比例;和/或,第六特征:所述目标连通域中皮肤区域的各像素所对应的每ー个通道值的均方差。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处參见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相參见即可。以上对本申请所提供的ー种色情图像侦测的方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
权利要求
1.一种色情图像侦测的方法,其特征在于,包括: 检测目标图像中的皮肤区域; 若所述皮肤区域在目标图像整体区域中的占比大于第一预设阈值,则检测所述目标图像中的连通域; 判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则判定所述目标图像为色情图像。
2.根据权利要求1所述的方法,其特征在于,所述检测目标图像中的皮肤区域的步骤进ー步包括: 对目标图像进行肤色检测,获得候选皮肤区域; 在所述候选皮肤区域在目标图像整体区域中的占比大于第一预设阈值时,对所述候选皮肤区域进行纹理特征检测; 确定所述纹理特征强度大于第二预设阈值的候选皮肤区域为皮肤区域。
3.根据权利要求1所述的方法,其特征在于,所述判断连通域在皮肤区域中的分布是否满足预置规则的步骤进一歩包括: 获取各连通域的面积,判断其中面积最大的连通域在皮肤区域中的占比是否大于第三预设阈值; 和/或, 获取各连通域的面积,判断其中面积大小在前n位的连通域,在皮肤区域中的占比是否大于第四预设阈值,所述n大于I。
4.根据权利要求1或2或3所述的方法,其特征在于,在所述判定目标图像为色情图像的步骤之前,还包括: 检测目标图像中的脸部区域; 若所述脸部区域在目标图像整体区域中的占比小于第五预设阈值,则根据所述脸部区域估算躯干区域,并检测躯干区域中的皮肤区域; 若所述躯干区域中的皮肤区域在躯干区域中的占比超过第六预设阈值,则判定所述目标图像为色情图像。
5.根据权利要求4所述的方法,其特征在于,所述第一预设阈值为20%;所述纹理特征检测采用边缘提取算法,所述第二预设阈值为5 ;所述第三预设阈值为5% ;所述n为3,所述第四预设阈值为50% ;所述第五预设阈值为65% ;所述第六预设阈值75%。
6.一种色情图像侦测的方法,其特征在于,包括: 检测样本图像中的皮肤区域;所述样本图像包括正样本图像和反样本图像; 若所述皮肤区域在当前样本图像整体区域中的占比大于第一预设阈值,则检测所述样本图像中的连通域; 针对所述正样本图像和反样本图像中,连通域面积大小在前m位的目标连通域提取预设特征; 根据所提取的预设特征生成分类模型; 将待检测的目标图像输入分类模型,判断是否为色情图像。
7.根据权利要求4所述的方法,其特征在于,所述预设特征包括: 第一特征:所述目标 连通域的面积在当前样本图像中的占比;和/或, 第二特征:所述目标连通域最小外接椭圆的中心与当前样本图像中心的距离; 和/或, 第三特征:所述目标连通域最小外接椭圆的长轴与水平或者垂直方向的最小夹角; 和/或, 第四特征:所述目标连通域最小外接椭圆的长轴与短轴的比例; 和/或, 第五特征:所述目标连通域中皮肤区域的面积占整个目标连通域面积的比例; 和/或, 第六特征:所述目标连通域中皮肤区域的各像素所对应的每ー个通道值的均方差。
8.一种色情图像侦测的系统,其特征在于,包括: 皮肤区域检测模块,用于检测目标图像中的皮肤区域; 第一判断模块,用于判断所述皮肤区域在目标图像整体区域中的占比是否大于第一预设阈值,若是,则调用连通域分析模块; 连通域分析模块,用于检测所述目标图像中的连通域; 第二判断模块,用于判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则判定所述目标图像为色情图像。
9.根据权利要求8所述的系统,其特征在于,所述皮肤区域检测模块进一歩包括: 肤色检测子模块,用于对目标图像进行肤色检测,获得候选皮肤区域; 纹理特征检测子模块,用于在所述候选皮肤区域在目标图像整体区域中的占比大于第一预设阈值时,对所述候选皮肤区域进行纹理特征检测; 皮肤区域确定子模块,用于确定所述纹理特征强度大于第二预设阈值的候选皮肤区域为皮肤区域。
10.根据权利要求8所述的系统,其特征在于,所述连通域分析模块进一歩包括: 最大连通域分析子模块,用于获取各连通域的面积,判断其中面积最大的连通域在皮肤区域中的占比是否大于第三预设阈值; 和/或, 优选连通域分析子模块,用于获取各连通域的面积,判断其中面积大小在前n位的连通域,在皮肤区域中的占比是否大于第四预设阈值,所述n大于I。
11.根据权利要求8或9或10所述的系统,其特征在于,还包括: 脸部区域检测模块,用于检测目标图像中的脸部区域; 第三判断模块,用于判断所述脸部区域在目标图像整体区域中的占比是否小于第五预设阈值,若是,则调用躯干区域检测模块; 躯干区域检测模块,用于根据所述脸部区域估算躯干区域,并检测躯干区域中的皮肤区域; 第四判断模块,用于判断所述躯干区域中的皮肤区域在躯干区域中的占比是否超过第六预设阈值,若是,则判定所述目标图像为色情图像。
12.一种色情图像侦测的系统,其特征在于,包括: 样本皮肤检测模块,用于检测样本图像中的皮肤区域;所述样本图像包括正样本图像和反样本图像; 第五判断模块,用于判断所述皮肤区域在当前样本图像整体区域中的占比大于第一预设阈值,若是,则调用连通域检测模块; 连通域检测模块,用于检测所述样本图像中的连通域; 特征提取模块,用于针对所述正样本图像和反样本图像中,连通域面积大小在前m位的目标连通域提取预设特征; 模型生成模块,用于根据所提取的预设特征生成分类模型; 模型判断模块,用于将待检测的目标图像输入分类模型,判断是否为色情图像。
13.根据权利要求12所述的系统,其特征在于,所述预设特征包括: 第一特征:所述目标连通域的面积在当前样本图像中的占比; 和/或, 第二特征:所述目标连通域最小外接椭圆的中心与当前样本图像中心的距离; 和/或, 第三特征:所述目标连通域最小外接椭圆的长轴与水平或者垂直方向的最小夹角; 和/或, 第四特征:所述目标连通域最小外接椭圆的长轴与短轴的比例; 和/或, 第五特征:所述目标连通域中皮肤区域的面积占整个目标连通域面积的比例; 和/或, 第六特征:所述目标连通域中皮肤区域的各像素所对应的每ー个通道值的均方差。
全文摘要
本申请提供了一种色情图像侦测的方法和系统,其中所述方法包括检测目标图像中的皮肤区域;若所述皮肤区域在目标图像整体区域中的占比大于第一预设阈值,则检测所述目标图像中的连通域;判断所述连通域在皮肤区域中的分布是否满足预置规则,若是,则判定所述目标图像为色情图像。本申请可以提高色情图像识别的召回率和准确率。
文档编号G06K9/00GK103093180SQ201110336168
公开日2013年5月8日 申请日期2011年10月28日 优先权日2011年10月28日
发明者薛晖 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1