基于内容的网络色情图像和不良图像检测系统的制作方法

文档序号:6535036阅读:211来源:国知局
专利名称:基于内容的网络色情图像和不良图像检测系统的制作方法
技术领域
本发明涉及互联网不良信息过滤系统,特别是涉及一种基于内容的网络色情图像和不良图像检测系统。
背景技术
互联网作为一种现代化通信技术,在世界范围内迅速普及,网络传播途径遍布世界的每一个角落。由于网络世界是一个虚拟空间,在实际生活中的所有数据、声音、影像等信息都可以换成计算机位元型态,随计算机信息流穿梭于全球,目前越来越多的人在网络上从事娱乐、研究及商务活动,从而形成一个网络上的虚拟社会,网络使用者不需批露自己的真实身份即可畅游其间,人与人之间也少有了日常社会的道德、伦理约束,因此网络世界比现实社会更加复杂、可怕,形形色色的人物夹杂其间,各自怀有不同的目的,正义、邪恶难辨。由于暴力的驱使,近年来色情网站与色情网页疯狂增长,特别是对感官刺激强烈的色情图像等有害信息泛滥成灾,诱发青少年犯罪,严重影响未成年人的健康成长,引起家长的极大愤慨与担忧,也引起社会与政府的关注,甚至发出“救救孩子”的呼声,致使花巨资建立的中、小学校园网关闭了通向网络教育的通道,为孩子购买的家用电脑也被禁用,极大的浪费了投资,不得不舍弃网上优越的教育资源。
为了过滤色情等网上有害信息,近年来市场上也出现了大量的过滤软件与系统,可以统称为“黑名单软件”,其技术手段是用人工手段将已知的色情网址或域名归入“黑名单”地址库中,通过地址比对与关键词比对,封锁浏览者登陆的“黑名单”中所列的网址与相关信息。这种方法的缺点是对于大量未发现的和新增加的以及变换面貌的色情网址无能为力,不能实时的智能的发现并归入黑名单,而且文字比对时也受不同国家文字的限制,始终处于被动过滤状态。中国发明专利ZL0112132.7的一种色情文件判断系统与方法,先在系统中输入标记文件,将分离出的被检网页中的文字部分和图片部分分别传送到文字比较引擎和色情图片识别引擎,通过计算文字和图片的色情指数并和色情辨别指数比较,判断出色情文件;ZL0112127.0的一种色情图片检查系统,通过双重引擎过滤待检查图片,引入了色情图片数据库和数据库比较引擎,提高了色情图片识别的准确度;专利申请200410053683.3的一种网络内容过滤系统,由内容过滤代理、查询服务器和内容分析与管理服务器,内容过滤代理存储有黑名单和白名单,查询服务器拥有一个具有分类忽然分级信息的URL库,内容分析与管理服务器对internet中的资源进行分类与分级评估,系统具有自学习能力,可提高系统分类精度,可以主动过滤互联网中存在的各类媒体数据;其主要的过滤途径仍然是基于对URL的自动更新和拦截,缺乏深层次的、彻底的、基于实质内容的过滤,仍然有大量的对感官刺激强烈的色情图像不能被直接拦截。

发明内容
本发明所要解决的技术问题针对背景技术目前互联网色情图像检测、过滤系统存在的缺陷,提出一种基于内容的、多层次的互联网色情图像与不良图像检测系统,建立了自己的特征模型与十万张色情图像标准特征库。
本发明所采用的技术方案一种基于内容的网络色情图像和不良图像检测系统,主要含有皮肤颜色检测子系统和姿态检测子系统,系统建立皮肤颜色检测和姿态检测快速算法的数学模型,颜色检测子系统通过分析网络图像的皮肤颜色组成以及对图像颜色空间的实验比较,采用HSV颜色空间建立肤色模型,确定人的皮肤颜色在所选取的HSV颜色空间的分布情况,进而计算图像肤色暴露程度,确定一个判别图像肤色暴露程度的阀值,据此区分正常图像和可疑图像;所述的姿态检测子系统,首先挑选出一定数量具有代表性的标准色情图像,在进行特征分析后,提取其特征通过训练建立姿态特征库,即色情标准图像特征库,作为判决是否为色情图像的匹配相似性的依据,通过对网络上的可疑图像进行小波边缘检测,得到一个边缘图像,通过对小波边缘图像进行分析,提取边缘点,确定物体的外接矩形,对矩形内的像素点依据肤色模型进行分割,得到初步分割的皮肤区域图像,经形态学滤波腐蚀处理然后转换为灰度图像,通过对皮肤区域图像的形状描述和姿态分析,对当前图像与标准色情图像特征库中的图像进行匹配相似判断处理,定义相似度di,设定域值T_shape,得到N个特征相似度di后,如果特征相似度落在区间[T_shape,1],则认为当前图像特征与特征库中特征相似,并统计相似特征的个数Num,如果Num满足条件Num>T_num,其中T_num为当前图像特征与特征库中N个特征相似个数的阈值,那么认为该图像是色情图像,否则,判决该图像为正常图像。
通过所述的皮肤颜色检测子系统,首先将网络图像的像素转换为HSV颜色空间并量化,划分成L个颜色子空间,然后通过统计分析确定样本皮肤像素的总数shin_count以及样本皮肤像素在这L个子空间中的频次sub_count_i,其中满足i=1,Λ,L,Σi=1Lsub_count_i=shin_count]]>以归一化的频次作为皮肤像素分布于该子空间的可能性,vi=sub_count_i/skin_count设定一个肤色分布概率的可能性阈值T_vi,如果满足vi≥T_vi,则wi=vi;否则,wi=0;这样最终得到A={A1,A2,Λ,AL}W={w1,w2,Λ,wL}其中,wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i=1,2,ΛL,参数L取72,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W;计算图像肤色暴露程度对任意图像F(x,y),x=1,Λ,M,y=1,Λ,N,将每一个像素(x,y)转换到HSV颜色空间并量化,得到该像素的颜色子空间标号,使整幅图像F(x,y)就转化成了一个M×N的标号点阵G(m,n),统计G(m,n)的归一化直方图Hue[k],k=1,Λ,L,通过下式计算图像中的肤色暴露程度,Ratio=Σk=1LHue[k]×wk]]>然后利用图像肤色暴露程度Ratio区分正常图像和色情图像,采取两种判决方式(1)硬判决确定一个阈值T_Valve,比较Ratio和T_Valve进行判决如果一幅图像满足Ratio≥T_Valve,则判决该图像为色情图像;否则为正常图像,T_Value的值取在
之间;(2)软判决确定一个低阈值T_Low,一个高阈值T_High,比较Ratio和这两个阈值进行判决如果一幅图像满足Ratio≥T_High,则判决该图像为色情图像;如果满足Ratio≤T_Low,则判决该图像为正常图像;其他情况下认为该图像为可疑图像,本检测器不做判决,转送姿态检测子系统检测;
所述的姿态检测子系统,姿态检测核心算法主要含有小波边缘检测、图像分割、形态学滤波、形状描述和相似度匹配几部分小波边缘检测,采用Daubechies-4小波基对网络上的可疑原始图像进行塔式小波分解,得到LL低频子带和LH,HL,HH三个高频子带,利用如下公式E[i,j]=(E1[i,j]2+E2[i,j]2+E3[i,j]2)12]]>对三种类型边缘合成为一个边缘图E(i,j);图像分割,首先对小波边缘图像进行分析,提取上、下、左、右四个边缘点,并依此确定物体的外接矩形,然后擦除原彩色图像中位于外接矩形外的像素点,对矩形内的像素点依据肤色模型进行分割,对任意像素点p(x,y),将其转换到HSV空间并量化得到量化标号k∈[1,Λ,L],如果wk≠0,则保留此像素点,否则,擦除此像素点,得到初步分割的皮肤区域图像;形态学滤波,采用数学形态学对初步分割的图像进行处理,过滤掉不属于物体区域的噪声像素;形状描述,在得到物体的区域图像之后,利用图像的二阶及三阶矩可以得出图像的7个不变Hu矩φ=η20+η02φ2=(η20-η02)2+4η112]]>φ3=(η30-3η12)2+(3η21-η03)2φ4=(η30+η12)2+(η21+η03)2φ5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η03+η21)2]φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η12-η30)(η21+η03)[3(η30+η12)2-(η03+η21)2]采用图像的二阶至五阶归一化中心矩的18个特征值和Hu矩的7个特征值来描述一幅分割以后的皮肤区域图像的形状特征;相似度匹配,采用加权Euclidean距离来进行相似度度量,设权值向量为Wj,当前图像特征为φj,其中j=1,2,K,25;特征库特征为φij′,i=1,2,K,N,j=1,2,K,25,其中N表示特征库特征个数,定义相似度di为di=1-(Σj=125Wj(φj-φij′)2)12]]>得到N个特征相似度di后,设定域值T_shape,如果特征相似度落在区间[T_shape,1],则认为当前图像特征与特征库中特征相似,并统计相似特征的个数Num,如果Num满足条件Num>T_num,其中T_num为当前图像特征与特征库中N个特征相似个数的阈值,那么认为该图像是色情图像,否则,判决该图像为正常图像。
所述的网络色情图像和不良图像检测系统,还含有图标检测子系统,依据图像的尺寸比例对网络图像进行判别,首先对图像的宽度和高度设定阀值T-size,然后根据网络图像的大小进行判断,过滤掉小于该设定阀值、即尺寸太小的一般为图标一类的不良网络图像,大于该设定阀值的则判决为正常图像;其次,根据图像的高度与宽度的比例判断,设定图像高度与宽度的比例阀值T-logo,筛选出横向或纵向的多数为网站广告之类的窄条形状的网络图像,T-size值选32,T-logo值选10。
所述的网络色情图像和不良图像检测系统,还含有文本检测子系统,根据文本图像与一般的连续色调图像在颜色组成上的差别,通过对图像颜色直方图的分析,选取适当的灰度值作为划分直方图的阀值,H[i],i∈
,取θeg≥200作为门限将灰度直方图划分为低灰度值和高灰度值两个区域,利用下式计算得到高灰度值区域的能量比例peg=Σi=θgg255H[i]/Σi=0255H[i],]]>将满足Peg≥PEG的图像判断为文本图像,根据识别要求PEG可选取不同的值,一般选取PEG≥0.7;或者根据文本图像和一般连续色调图像所表现出的信息熵不同,选取一定的灰度值范围θep1≤i ≤θep2,计算其直方图信息熵,选θep1=127,θep2=255,将直方图做归一化处理P[i]=H[i]/Σi=0255H[i],]]>计算直方图局部信息熵epl=-Σi=θep1θep2P[i]logP[i],]]>将满足epl≥EPL的图像判断为文本图像,根据识别的要求EPL可取不同的值,对于文本图像一般取EPL≤2;或者依据颜色信息判别文本图像的结果,将上述两种方法进行融合处理对Peg选取阈值PEG1和PEG2及对epl选取阈值EPL1及EPL2,则定义EG=0,peg<PEG1;peg-PEG1PEG2-PEG1PEG1≤peg<PEG2;1peg≥PEG2;]]>EP=0,epl>EPL2;1-epl-EPL1EPL2-EPL1EPL1<epl≤EPL2;1epl≤EPL1;]]>定义基于颜色的文本图像识别参数CH=EG+EP2]]>CH∈
;则当CH大于某一阈值参数T_ch时判决图像为文本图像。
所述的网络色情图像和不良图像检测系统,含有其它不良图像检测子系统,将特定的其它不良图像的特征样本在RGB色彩空间中进行PCA变换,建立PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器,经过图标检测器和文本检测器获得的可疑图像通过和该特征检测器的比较,检测出不良网络图像输入到颜色检测子系统进行下一步的判断处理。
所述的网络色情图像和不良图像检测系统,通过判别网页色情图像和色情标准图像特征库中的特征图像匹配相似的比率,设置色情图像级别。
所述的网络色情图像和不良图像检测系统,系统软件嵌入到并行处理的高速DSP图像检测卡硬卡上,所述的硬卡含有数字信号处理电路和PCI总线接口电路,硬卡上数字信号处理器采用TMS320C6711,频率合成器时钟电路和上电复位硬件狗电路和中央处理器的对应端口连接,SDRAM外部存储器和闪存FLASH通过总线接口和中央处理器的I/O端口连接,中央处理器的主处理器接口连接CPLD和可编程逻辑器件,可编程逻辑器件选用PLX9054,或者选用PLX9052,或者采用AMCC的S5920,或S5933。
本发明的积极有益效果1、本发明在国内率先将“基于内容的图像识别检索”理论与技术应用于互联网色情图像的检测过滤方面,创造了基于内容的不良图像检测模型,结合聚类与神经网络方法,融合了图标检测、文本检测和色情图像等多层次智能检测技术,由过去被动的网址过滤跳跃到主动的内容过滤,显著的提高了过滤效果,可过滤JPAG、GIF、BMP、TIF各种图像格式,对互联网色情图像的整体识别过滤成功率大于99%,误判率低于5%,对其它不良信息过滤效果大于80%,对色情图像的平均识别时间小于0.5秒,不影响上网速度。
2、本发明色情图像检测模型,经反复对比筛选,建立了标准色情图像特征库十万张,作为判断网络图像是否为色情图像的相似性判断的依据,实现了基于内容的不良信息过滤检测,能直接拦截色情图像信息,并实时将色情网址自动加入黑名单,实时更新URL数据库,使其始终处于动态更新中,具有智能性,拦截效率高。


图1基于内容的网络色情图像和不良图像检测系统组成方框2基于神经网络和PCA变换的不良图像训练和检测工作流程3网络色情图像和不良图像检测模型整体结构模式及应用流程五具体实施例方式实施例一参见图1、图3,网络色情图像和不良图像检测系统,含有图标检测子系统,通过图像的尺寸比例对网络图像进行判别,目的是检测那些类似网站广告的图像,同时过滤掉太小的图像。由于这些图像大多呈现为一个很窄的长条,或者图像整体的尺寸比较小,从内容上来讲一般不构成危害。
(1)根据图像的大小判别对图像的宽度与高度设定阈值,小于这个阈值的图像认为是属于图标一类。
min(image_width,image_height)<T_size,则判决为正常图像。
(2)根据图像的高度与宽度的比例判别设定高度与宽度的比例阈值,这样可以把横向或者纵向的窄条图像筛选出来,它们一般多为网站广告之类。
if(image_width>image_height)Rs=image_width/image_height;
elseRs=image_height/image_width。
if(Rs>T_logo),则判决为正常图像。
在实践中,根据经验,我们选取阈值T_size=32,T_logo=10。
所述的网络色情图像和不良图像检测系统,含有文本检测子系统,对网络图像进行文本/图像判别,文本检测器对网络图像进行文本/图像判别,检测由大量文本信息组成的图像,例如以图像形式存在的网络传真、网络文字广告等。
(1)直方图划分通过对图像颜色直方图的分析,发现文字图像与连续色调图像有很大不同,具有这样的特点在灰度值较高的区域集中了大部分的能量,而在其余的灰度上近似于均匀分布。根据这一特点,选取适当的灰度值作为划分直方图的阈值,根据其前后灰度范围的能量的对比识别出文字图像。
对输入图像,先将其转换为灰度图像,一种简单的做法即取各象素点的亮度值。统计得到该灰度图像的直方图,H[i],i∈
。根据大量实验,取θep≥200作为门限将灰度直方图划分为低灰度值与高灰度值两个区域。利用下式计算得到高灰度值区域的能量比例peg=Σi=θgg255H[i]/Σi=0255H[i]]]>将满足Peg≥PEG的图像判断为文本图像,这里PEG根据识别的要求可取不同的值。对于文本图像而言,试验表明,取PEG≥0.7是适当的。
(2)局部信息熵由于连续色调图像的颜色丰富而文字图像的颜色相对要单调很多,因而两者所表现出来的信息熵不同,而且直方图的局部信息熵将二者的区别表现的更加明显。选取灰度值范围θep1≤i≤θep2,计算其直方图信息熵,这里选θep1=127,θep2=255,将直方图做归一化P[i]=H[i]/Σi=0255H[i]]]>计算直方图局部信息熵epl=-Σi=θep1θep2P[i]logP[i]]]>将满足epl≥EPL的图像判断为文本图像,这里EPL同样根据识别的要求可取不同的值。对于文本图像而言,取EPL≤2是适当的。
(3)融合处理作为依据颜色信息判别文本图像的结果,可以将上述两种方法得到的结果进行融合。方法如下对peg选取阈值PEG1和PEG2及对epl选取阈值EPL1及EPL2,则定义EG=0,peg<PEG1;peg-PEG1PEG2-PEG1PEG1≤peg<PEG2;1peg≥PEG2;]]>EP=0,epl>EPL2;1-epl-EPL1EPL2-EPL1EPL1<epl≤EPL2;1epl≤EPL1;]]>定义基于颜色的文本图像识别参数CH=EG+EP2]]>CH∈
。则当CH大于某一阈值参数T_ch时判决图像为文本图像。
皮肤颜色检测子系统,通过分析网络图像的颜色组成以及对图像颜色空间的实验比较,采用HSV颜色空间建立肤色模型,确定人的皮肤颜色在所选取的HSV颜色空间的分布情况,首先将网络图像的像素转换为HSV颜色空间并量化,划分成L个颜色子空间,然后通过统计分析确定样本皮肤像素的总数shin_count以及样本皮肤像素在这L个子空间中的频次sub_count_i,其中满足i=1,Λ,L,Σi=1Lsub_count_i=shin_count]]>以归一化的频次作为皮肤像素分布于该子空间的可能性,vi=sub_count_i/skin_count设定一个肤色分布概率的可能性阈值T_vi,如果满足vi≥T_vi,则wi=vi;否则,wi=0;这样最终得到A={A1,A2,Λ,AL}W={w1,w2,Λ,wL}其中,wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i=1,2,ΛL,参数L=72,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W;计算图像肤色暴露程度对任意图像F(x,y),x=1,Λ,M,y=1,Λ,N,将每一个像素(x,y)转换到HSV颜色空间并量化,得到该像素的颜色子空间标号,使整幅图像F(x,y)就转化成了一个M×N的标号点阵G(m,n),统计G(m,n)的归一化直方图Hue[k],k=1,Λ,L,通过下式计算图像中的肤色暴露程度,Ratio=Σk=1LHue[k]×wk]]>然后利用图像肤色暴露程度Ratio区分正常图像和色情图像,采取两种判决方式(1)硬判决确定一个阈值T_Valve,比较Ratio和T_Valve进行判决如果一幅图像满足Ratio≥T_Valve,则判决该图像为色情图像;否则为正常图像,T_Value的值取在
之间;(2)软判决确定一个低阈值T_Low,一个高阈值T_High,比较Ratio和这两个阈值进行判决如果一幅图像满足Ratio≥T_High,则判决该图像为色情图像;如果满足Ratio≤T_Low,则判决该图像为正常图像;其他情况下认为该图像为可疑图像,本检测器不做判决,转送姿态检测子系统检测;姿态检测子系统,首先通过训练建立姿态特征库,对通过颜色检测器的可疑图像进行姿态分析和相似匹配,区分正常图像和色情图像。姿态检测器算法主要由小波边缘检测、图像分割、形态学滤波、形状描述和相似度匹配等几部分组成,各部分具体描述如下(1)小波边缘检测传统的小波边缘检测原理是设Cj+1代表原始图像,Cj,Dj1,Dj2,Dj3是原始影像经小波变换得到的四幅子图像,设({hk}k∈Z,{gk}k∈Z)与({h~k}k∈Z,{g~k}k∈Z)]]>是双正交小波导出的一组对偶滤波器,则图像的双正交小波分解和重构公式如下Cj,m,n=Σk,j∈ZCj+1,k,lhk-2mhl-2nDj,m,n1=Σk,j∈ZCj+1,k,lhk-2mhl-2nDj,m,n2=Σk,j∈ZCj+1,k,lhk-2mhl-2nDj,m,n3=Σk,j∈ZCj+1,k,lhk-2mhl-2n]]>Cj+1,m,n=(Σk,l∈ZCj,k,lh~m-2kh~n-2l+Σk,l∈ZDj,k,l1h~m-2kg~n-2l]]>+Σk,l∈ZDj,k,l2g~m-2kh~n-2l+Σk,l∈ZDj,k,l3g~m-2kg~n-2l)]]>那么检测图像边缘点即沿梯度矢量方向在一定邻域内寻找使得梯度向量幅度为极大值的点,梯度向量幅度正比于Dj=|Dj1|2+|Dj2|2]]>而且该梯度的矢量方向为Arg(Dj1+iDj2)。
在应用中,如果点(x,y)的梯度向量幅度Dj在该梯度的矢量方向上的邻域内为局部极大值点,同时满足Dj>T,T为门限,则该点被认为是边缘点。
我们采用Daubechies-4小波基对原始图像进行塔式小波分解,得到LL低频子带和LH,HL,HH三个高频子带。其中,LH子带包含原始图像水平方向上的边缘;HL子带包含原始图像垂直方向上的边缘;HH子带包含原始图像对角线方向上的边缘。我们分别检测如上三种类型的边缘,将得到的三种类型边缘合成为一个边缘图。对LH子带在水平方向寻找一定邻域内的梯度向量幅度极大值点,仅保留LH子带的小波系数进行小波反变换,得到边缘子图E1(i,j)。类似对HL子带和HH子带进行处理,分别得到E2(i,j)和E3(i,j)边缘子图。利用如下公式对三种类型边缘合成为一个边缘图E(i,j)。
E[i,j]=(E1[i,j]2+E2[i,j]2+E3[i,j]2)12]]>通过皮肤颜色检测器的图像是彩色图像,而我们进行小波边缘检测时往往是对灰度图像进行处理,因此可以将彩色图像先转换成灰度图像或者直接利用彩色图像的红色通道进行处理。
(2)图像分割,为了对图像中物体的形状进行描述,结合小波边缘图像和肤色模型对图像进行分割,主要从中分割出人体肤色暴露的区域。
首先,对小波边缘图像进行分析,提取最左、最右、最上、最下四个边缘点,并以此确定物体的外接矩形;然后,擦除原彩色图像中位于物体外接矩形外的像素点。对矩形内的像素点依据肤色模型进行分割。对任意像素点p(x,y),将其转换到HSV空间并量化得到量化标号k∈[1,Λ,L]。如果wk≠0,则保留此像素点;否则,擦除此像素点。得到初步分割的皮肤区域图像。
(3)形态学滤波上面产生的初步分割的皮肤区域图像往往存在很多面积很小的颗粒状和斑状噪声,需要对它们进行滤波处理,过滤掉那些不属于物体区域的噪声像素,同时有效保留属于物体区域的那些像素。常用的滤波方法,如低通、高通、平滑等,在此,采用数学形态学来对初步分割的图像进行处理。
形态学定义了膨胀、腐蚀、开启、闭合等四种基本运算,其中开启和闭合运算是膨胀和腐蚀运算的复合运算。对于输入图像f,设定结构元素为b,f和b本质上都是图像,则b对f的膨胀定义为(f⊕b)(s)=max{f(s-x)+b(x)|x∈Db,∃(s-x)∈Df}]]>b对f的腐蚀定义为(fΘb)(s)=min{f(s+x)-b(x)|x∈Db,(s+x)∈Df}b对f的开启定义为fob=(fΘb)bb对f的闭合定义为f·b=(fb)Θb其中,Df和Db分别为f和b的定义域,s和x为整数Z2空间中的向量。对于膨胀运算,结构元素b和输入图像f只要有一个像素点相交,即可进行膨胀。相反,对于腐蚀运算,只有当结构元素b全部位于f内时,才能进行腐蚀。从几何上说,膨胀能扩大图像形态,而腐蚀能缩小图像形态。开启运算能够去除图像上与结构元素不相吻合的凸区域,同时保留那些相吻合的凸区域。而闭合运算则填充那些图像上与结构元素不相吻合的凹区域,同时保留那些相吻合的凹区域。对初步分割的皮肤区域图像,采用形态学腐蚀算子进行处理,对腐蚀运算后的图像,先将其转换为灰度图像,然后进行区域描述。
(4)形状描述在得到物体的区域图像之后,如何描述这幅图像的形状有多种形式,如区域形状的数字度量、傅立叶描述、矩描述和拓扑描述。由于Hu矩与图像的平移、旋转和比例尺变化无关,对图像的形状描述是十分有用的。我们采用图像的二阶至五阶归一化中心矩的18个特征值和Hu矩的7个特征值共25个特征值来描述一幅分割以后的皮肤区域图像的形状特征。
(5)相似度匹配采用加权Euclidean距离来进行相似度度量。设权值向量为Wj,当前图象特征为φj,其中j=1,2,K,25;特征库特征为φij′,i=1,2,K,N,j=1,2,K,25,其中N表示特征库特征个数。定义相似度di为di=1-(Σj=125Wj(φj-φij′)2)12]]>
得到N个特征相似度di后,设定域值T_shape,如果特征相似度落在区间[T_shape,1],则认为当前图像特征与特征库中特征相似,并统计相似特征的个数Num。如果Num满足条件Num>T_num,其中T_num为当前图象特征与特征库中N个特征相似个数的阈值,那么认为该图像是色情图像。否则,判决该图像为正常图像。
本发明网络色情图像和不良图像检测系统,含有其它不良图像检测子系统,参见图2,其它不良图像检测子系统,将特定的其它不良图像的特征样本在RGB色彩空间中进行PCA变换,建立PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器,经过图标检测器和文本检测器获得的可疑图像通过和该特征检测器的比较,检测出不良网络图像输入到颜色检测子系统进行下一步的判断处理。其它不良图像检测器和色情图像检测器原理类似,但是相对人体特征图像识别而言,不良图像缺乏共性的特征,因此只能采用训练、比对的模式进行判决。在很多情况下,人们将RGB色彩空间转换到HSI空间或者YCbCr空间,将亮度信息和色度信息分离,利用HSI空间中的HS二维子空间或者YCbCr空间的CbCr二维子空间建立肤色模型。但是在光照变化比较剧烈的时候,在HS子空间和CbCr子空间建立的颜色分布会出现比较大的变化,这对于特征检测是非常不利的,因此本部分利用PCA变换建立了PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器。
基于神经网络和PCA变换的图像特征检测本发明提出了一种基于神经网络和PCA变换的图像特征检测算法,该算法对输入图像的像素逐个进行检测,在训练模式下,我们对训练集中的特征样本在RGB空间中进行PCA变换,得到一个线性的投影矩阵。投影矩阵的第二列向量和第三列向量构成新的二维特征检测空间,称为PCA特征空间的轴向量,这两个向量正对应着在RGB空间中特征象素变化最小的方向,因此,原训练集中的特征样本经过由第二列向量和第三列向量组成的矩阵投影变换后得到新的特征样本,这些特征样本在PCA特征空间中聚合紧密,最后,将PCA特征空间中特征样本送交神经网络进行训练,直至网络收敛。在检测模式下,待检测图像的每个象素经过训练模式下得到的由第二列向量和第三列向量构成的矩阵投影变换后送交神经网络进行检测,逐个检测完毕,得到整幅图像的检测结果。
PCA特征空间一个好的特征检测空间必须满足如下条件①图像中颜色信息被集中于某两个分量;②这两个分量的非颜色信息(如亮度信息)应该足够少;③这两个分量的均方差应足够小。
PCA变换是在均方误差意义下的最佳变换,通常也称KL变换。用矩阵表示为A=OTB式中,A是变换后的矢量,B是要变换的矢量,O是变换矩阵,与B密切相关,通常由B的自相关矩阵的特征向量组成。所以在数学上,PCA变换的核心是求解矩阵的特征值和特征向量。
我们通过PCA变换建立PCA特征空间。设X为RGB空间中用于训练的特征样本集合,X=[X1,X2,L,XT],这里T为特征样本的数目。首先计算特征样本的均值向量M=Σi=1TXi,]]>将RGB空间特征样本去均值后得到均值为0的样本集合Φ=[Φ1,Φ2,L,ΦT],Φi=Xi-M,1≤i≤T。接着计算自相关矩阵ST,ST=Σi=1TΦiΦiT.]]>最后得到自相关矩阵ST的特征值和特征向量,STψ=ψΛ,这里ψ=[ψ1,ψ2,ψ3]代表矩阵的特征相量,Λ为特征值λ1,λ2,λ3(λ1≥λ2≥λ3)构成的对角线矩阵。特征值λ2,λ3对应的两个向量ψ2,ψ3对应着在RGB空间中特征象素变化最小的方向,因此将ψ2,ψ3视为新的色彩空间中两个主轴,构成PCA特征空间,而ψ2,ψ3构成线性投影矩阵,原RGB空间中的特征样本经过线性投影矩阵变换到PCA特征空间。
BP神经网络神经网络方法有着良好的并行处理性能,有着良好的泛化能力,并且不需要数据的先验概率分布,因此,神经网络方法在模式识别领域中体现出了巨大的优越性。BP神经网络是前馈型神经网络中研究的最为成熟且应用最广的一种网络,这里我们采用一个隐层的BP神经网络。网络共分为三层i为输入层节点;j为隐层节点;k为输出层节点。定义网络的学习误差函数为E=12Σk(dk-yk)2]]>式中dk表示网络的期望输出;yk表示网络的实际输出。于是可推出各层权值修正公式如下隐含层与输出层wjk(t+1)=wjk(t)+ηδkyjδk=yk(1-yk)(dk-yk)输入层与隐含层wij(t+1)=wij(t)+ηδjyiδj=yi(1-yj)Σkδkwjk]]>上式中η为学习率;δk,δj为各层对应修正值。
本发明网络色情图像和不良图像检测系统,通过判别网页色情图像和色情标准图像特征库中的特征图像匹配相似的比率,可以设置色情图像级别分别加以拦截,针对成人或儿童,浏览的内容可以不同。
实施例二参见图1、图3,本实施例基本同实施例一,其不同之处在于系统不含有其它不良图像检测子系统。网络图像在经过图标检测和文本检测后,分离出网页正常图像,对可疑图像送交颜色检测子系统进行检测,分离出网页正常图像,对颜色检测无法判断的可疑图像,传送到姿态检测子系统和色情标准图像进行相似匹配判断,过滤掉色情图像。
实施例三参见图1、图3,本实施例网络色情图像和不良图像检测系统只含有颜色检测子系统和姿态检测子系统,只对那些对视觉刺激较强烈的网络色情图像进行拦截。
权利要求
1.一种基于内容的网络色情图像和不良图像检测系统,其特征是含有皮肤颜色检测子系统和姿态检测子系统,系统建立肤颜色检测和姿态检测快速算法的数学模型,皮肤颜色检测子系统通过分析网络图像的皮肤颜色组成以及对图像颜色空间的实验比较,采用HSV颜色空间建立肤色模型,确定人的皮肤颜色在所选取的HSV颜色空间的分布情况,进而计算图像肤色暴露程度,确定一个判别图像肤色暴露程度的阀值,据此区分正常图像和可疑图像;所述的姿态检测子系统,首先挑选出一定数量具有代表性的标准色情图像,在进行特征分析后,提取其特征通过训练建立姿态特征库,即色情标准图像特征库,作为判决是否为色情图像的匹配相似性的依据,通过对网络上的可疑图像进行小波边缘检测,得到一个边缘图像,通过对小波边缘图像进行分析,提取边缘点,确定物体的外接矩形,对矩形内的像素点依据肤色模型进行分割,得到初步分割的皮肤区域图像,经形态学滤波腐蚀处理然后转换为灰度图像,通过对皮肤区域图像的形状描述和姿态分析,定义匹配相似度,对当前图像与标准色情图像特征库中的图像进行匹配相似判断处理,如果当前图像特征与标准色情图像特征库中特征相似,那么认为该图像是色情图像,并加以拦截,否则,判决该图像为正常图像。
2.根据权利要求1所述的网络色情图像和不良图像检测系统,其特征是通过所述的颜色检测子系统,首先将网络图像的像素转换为HSV颜色空间并量化,划分成L个颜色子空间,然后通过统计分析确定样本皮肤像素的总数shin_count以及样本皮肤像素在这L个子空间中的频次sub_count_i,其中满足i=1,Λ,L,Σi=1Lsub_count_i=shin_count]]>以归一化的频次作为皮肤像素分布于该子空间的可能性,vi=sub_count_i/skin_count设定一个肤色分布概率的可能性阈值T_vi,如果满足vi≥T_vi,则wi=vi;否则,wi=0;这样最终得到A={A1,A2,Λ,AL}W={w1,w2,Λ,wL}其中,wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i=1,2,ΛL,参数L取72,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W;计算图像肤色暴露程度对任意图像F(x,y),x=1,Λ,M,y=1,Λ,N,将每一个像素(x,y)转换到HSV颜色空间并量化,得到该像素的颜色子空间标号,使整幅图像F(x,y)就转化成了一个M×N的标号点阵G(m,n),统计G(m,n)的归一化直方图Hue[k],k=1,Λ,L,通过下式计算图像中的肤色暴露程度,Ratio=Σk=1LHue[k]×wk]]>然后利用图像肤色暴露程度Ratio区分正常图像和色情图像,采取两种判决方式(1)硬判决确定一个阈值T_Valve,比较Ratio和T_Valve进行判决如果一幅图像满足Ratio≥T_Valve,则判决该图像为色情图像;否则为正常图像,T_Value的值取在
之间;(2)软判决确定一个低阈值T_Low,一个高阈值T_High,比较Ratio和这两个阈值进行判决如果一幅图像满足Ratio≥T_High,则判决该图像为色情图像;如果满足Ratio≤T_Low,则判决该图像为正常图像;其他情况下认为该图像为可疑图像,本检测器不做判决,转送姿态检测子系统检测;
3.根据权利要求1所述的网络色情图像和不良图像检测系统,其特征是所述的姿态检测子系统,姿态检测核心算法主要含有小波边缘检测、图像分割、形态学滤波、形状描述和相似度匹配几部分小波边缘检测,采用Daubechies-4小波基对网络上的可疑原始图像进行塔式小波分解,得到LL低频子带和LH,HL,HH三个高频子带,利用如下公式E[i,j]=(E1[i,j]2+E2[i,j]2+E3[i,j]2)12]]>对三种类型边缘合成为一个边缘图E(i,j);图像分割,首先对小波边缘图像进行分析,提取上、下、左、右四个边缘点,并依此确定物体的外接矩形,然后擦除原彩色图像中位于外接矩形外的像素点,对矩形内的像素点依据肤色模型进行分割,对任意像素点p(x,y),将其转换到HSV空间并量化得到量化标号k∈[1,Λ,L],如果wk≠0,则保留此像素点,否则,擦除此像素点,得到初步分割的皮肤区域图像;形态学滤波,采用数学形态学对初步分割的图像进行处理,过滤掉不属于物体区域的噪声像素;形状描述,在得到物体的区域图像之后,利用图像的二阶及三阶矩可以得出图像的7个不变Hu矩φ1=η20+η02φ2=(η20-η02)2+4η112]]>φ3=(η30-3η12)2+(3η21-η03)2φ4=(η30+η12)2+(η21+η03)2φ5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η03+η21)2]φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η12-η30)(η21+η03)[3(η30+η12)2-(η03+η21)2]采用图像的二阶至五阶归一化中心矩的18个特征值和Hu矩的7个特征值来描述一幅分割以后的皮肤区域图像的形状特征;相似度匹配,采用加权Euclidean距离来进行相似度度量,设权值向量为Wj,当前图象特征为φj,其中j=1,2,K,25;特征库特征为φij′,i=1,2,K,N,j=1,2,K,25,其中N表示特征库特征个数,定义相似度di为di=1-(Σj=125Wj(φj-φij′)2)12]]>得到N个特征相似度di后,设定域值T_shape,如果特征相似度落在区间[T_shape,1],则认为当前图像特征与特征库中特征相似,并统计相似特征的个数Num,如果Num满足条件Num>T_num,其中T_num为当前图像特征与特征库中N个特征相似个数的阈值,那么认为该图像是色情图像,否则,判决该图像为正常图像。
4.根据权利要求1或2或3所述的网络色情图像和不良图像检测系统,其特征是还含有图标检测子系统,依据图像的尺寸比例对网络图像进行判别,首先对图像的宽度和高度设定阀值T-size,然后根据网络图像的大小进行判断,过滤掉小于该设定阀值、即尺寸太小的一般为图标一类的不良网络图像,大于该设定阀值的则判决为正常图像;其次,根据图像的高度与宽度的比例判断,设定图像高度与宽度的比例阀值T-logo,筛选出横向或纵向的多数为网站广告之类的窄条形状的网络图像,T-size值选32,T-logo值选10。
5.根据权利要求4所述的网络色情图像和不良图像检测系统,其特征是还含有文本检测子系统,根据文本图像与一般的连续色调图像在颜色组成上的差别,通过对图像颜色直方图的分析,选取适当的灰度值作为划分直方图的阀值,H[i],i∈
,取θeg≥200作为门限将灰度直方图划分为低灰度值和高灰度值两个区域,利用下式计算得到高灰度值区域的能量比例peg=Σi=θgg255H[i]/Σi=0255H[i],]]>将满足Peg≥PEG的图像判断为文本图像,根据识别要求PEG可选取不同的值,一般选取PEG≥0.7;或者根据文本图像和一般连续色调图像所表现出的信息熵不同,选取一定的灰度值范围θep1≤i≤θep2,计算其直方图信息熵,选θep1=127,θep2=255,将直方图做归一化处理P[i]=H[i]/Σi=0255H[i],]]>计算直方图局部信息熵epl=-Σi=θep1θep2P[i]logP]]>将满足epl≥EPL的图像判断为文本图像,根据识别的要求EPL可取不同的值,对于文本图像一般取EPL≤2;或者依据颜色信息判别文本图像的结果,将上述两种方法进行融合处理对peg选取阈值PEG1和PEG2及对epl选取阈值EPL1及EPL2,则定义EG=0,peg<PEG1;peg-PEG1PEG2-PEG1PEG1≤peg<PEG2;1peg≥PEG2;]]>EP=0,epl>EPL2;1-epl-EPL1EPL2-EPL1EPL1<epl≤EPL2;1epl≤EPL1;]]>定义基于颜色的文本图像识别参数CH=EG+EP2]]>CH∈
;则当CH大于某一阈值参数T_ch时判决图像为文本图像。
6.根据权利要求5所述的网络色情图像和不良图像检测系统,其特征是含有其它不良图像检测子系统,将特定的其它不良图像的特征样本在RGB色彩空间中进行PCA变换,建立PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器,经过图标检测器和文本检测器获得的可疑图像通过和该特征检测器的比较,检测出不良网络图像输入到颜色检测子系统进行下一步的判断处理。
7.根据权利要求4所述的网络色情图像和不良图像检测系统,其特征是含有其它不良图像检测子系统,将特定的其它不良图像的特征样本在RGB色彩空间中进行PCA变换,建立PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器,经过图标检测器和文本检测器获得的可疑图像通过和该特征检测器的比较,检测出不良网络图像输入到颜色检测子系统进行下一步的判断处理。
8.根据权利要求4所述的网络色情图像和不良图像检测系统,其特征是通过判别网页色情图像和色情标准图像特征库中的特征图像匹配相似的比率,设置色情图像级别。
全文摘要
本发明涉及基于内容的网络色情图像和不良图像检测系统。该检测系统含有图标检测子系统,筛选出多数为网站广告之类的窄条形状和尺寸太小的网络图像;文本检测子系统,判断出文本图像和可疑图像;颜色检测子系统,分析图像的颜色组成,通过颜色空间的实验比较建立肤色模型,通过检测网络图像肤色暴露程度,分离出网页正常图像和可疑图像;姿态检测子系统,建立色情标准图像特征库,作为判决是否为色情图像的匹配相似性的依据,区分出网页正常图像和可疑图像。本发明在国内率先将“基于内容的图像识别检索”技术应用于互联网色情图像的检测过滤,显著的提高了过滤效果,对互联网色情图像的整体识别过滤成功率大于99%,误判率低于5%。
文档编号G06K9/00GK1761205SQ20051004857
公开日2006年4月19日 申请日期2005年11月18日 优先权日2005年11月18日
发明者赵慧琴, 汤怀礼, 周翬, 李弼程, 曹闻, 彭天强, 张晨民 申请人:郑州金惠计算机系统工程有限公司, 赵慧琴, 汤怀礼, 周翬, 李弼程, 曹闻, 彭天强, 张晨民
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1