基于直觉模糊的色情图像识别方法

文档序号:6468580阅读:194来源:国知局
专利名称:基于直觉模糊的色情图像识别方法
技术领域
本发明涉及一种色情图像的识别方法,属于图像识别技术领域。
背景技术
人类社会进入信息时代,信息的快速传播改变了人类的工作、学习及生活 方式。信息的形式多元化(文本、图像、语音等);信息的内容也在多元化,在 促进人类社会进步的同时,存在大量的不良信息对社会造成很恶劣的影响,例 如色情图像信息,是其中传播最为广泛、最难控制的一种信息。
随着国内各部门系统信息化建设工作的不断推进,为满足各种工作需要, 网络中提供的服务不断增多,这为通过这些服务而进行的违规行为提供了入口, 例如发布色情图像,如何保障系统内部网络中信息内容的安全性成为众多网络 建设工作的重点之一。另外,互联网的逐渐普及,使得未成年人对网络的使用 不断增多,流传于网上的色情图像对未成年人的健康成长危害极大。还有一些 色情图像在当事人不知情的情况下被记录,此类图像的流传在造成不良社会影 响的同时,对当事人更是具有很深的伤害。
现有的色情图像识别技术可以分为三类基于URL、基于文本以及基于图 像内容的识别方式。基于URL的识别算法的准确度受限于URL数据库,使得识 别具有滞后和不完整的缺点,且维护日益庞大的数据库工作量太大,无法适应 实时识别的需求。基于文本的识别算法中,很难准确的把握不同上下文环境中 的文本信息,此外对于网络中大量的不包含敏感文字或文字以图像方式显示的 情况无法发挥作用。
基于图像内容的识别方式,是利用图像识别技术检测网页中的图像是否包 含色情内容,这种识别方式可以应付多变的情况,是一种更高级、更彻底、更 有效的识别方式,具有广泛的适应性。从90年代起,国内外对色情图像的识别 技术作了大量的研究,尤其近十年来取得了不少宝贵的成果。
最早的色情图像识别系统是U.C.Berkelry的David A. Forsyth等人在1996年 设计的一种裸露人体检测算法,在皮肤过滤之后,判断各肤色柱状体是否能够 组成人体。1997年Stanford大学的Jame Ze Wang等人设计了 WIPE(Wavelet Image PornographyElimination)系统,从频率的角度识别图像的形状特征,特征匹配之 后得出色情图像识别结果。1999年Compaq公司与Cambridge研究室的Michael J.Jones和James M. Rehg利用统计方法研究了皮肤的颜色模型,构成有关皮肤像素 的七个特征,并将它用于裸体图像的检测。1999年,法国的LTUCLookThatUP) 公司推出的Image-Filter是一款图像识别和过滤软件,是用软件中的DNA计算模 块模仿人类的视觉系统,用机器学习技术模仿人类大脑的识别功能。2000年英 国Clearswift公司推出的PORNsweeper是一款用于检测邮件附件中的色情内容的 图像识别和过滤软件。2003年,由欧盟资助了开源项目POESIA(Public Open-source Environment for a Safer Internet Access),其中包括过滤网页色情图像 的模块。2003年美国VIMA公司(其前身是Morpho软件公司)推出的ImageBeagle 是一款用于检测硬盘和网络缓存文件中色情图像软件。另外,evision公司开发的 EVE(evision visual engine)禾卩Exotrope公司的BAIR(Basic Artificial Intelligence Routine),均可用于色情图像的识别和过滤。
国内对基于图像内容的网络过滤技术的研究比较晚,但国内的一些研究院 和高校在图像过滤技术方面也作了比较深入的研究,所提出的算法有较高的参 考价值。2000年东北大学软件中心的许强等人提出了一个基于图像内容过滤的 智能防火墙系统,该系统利用Daubechies小波和正则中心矩相从图像中提取轮廓 特征,然后在特征库中利用距离度量寻找匹配的模式。2002年,中国科学院的 段立娟等人研究的多层次图像过滤方法在得到图像的肤色区域的基础上,利用 SVM的分类方法进行识别分类。中国科技大学的L丄.Cao等人利用LVQ(Leaming Vector Quantization)算法和Adaboost算法对图像进行分类。2003年中国科学院软 件研究所的孙庆杰等人提出了一种人体检测算法,该算法将人体看作由躯千和 四肢构成,用一个四边形拟合躯干,用一个或者两个四边形拟合每个肢体。2004 年,电子科技大学的尹显东等人研究的特定图像过滤方法在HS平面能普遍代表 黄种人皮肤颜色的区域,再结合人脸检测、图像轮廓、面积等多项特征实现色 情图像的识别过滤。
在实际应用上,2003年飞涛软件工作室开发出的护花使者图像版,采用了 基于图像内容检索的算法,可以用于扫描出硬盘中的色情图像。2004年郑州金 惠计算机系统工程有限公司推出"金惠反黄专家系统",该系统在皮肤区域分割 的基础上提取出描述形状和姿态的特征,将当前图像与标准色情图像特征库中 的图像进行匹配,从而识别色情图像。
综合上述各种识别算法,得出色情图像的识别主要分为两种方法,第一种 方法是首先检测出人体的皮肤区域,在此基础上识别出人的肢体部分,然后根 据一定的规则将肢体进行组建,进而识别出裸露的人体,但此算法计算量和数 据存储所需的容量都很大,在实际系统中无法得到很好的应用。第二种方法并不试图去识别色情图像中人体的各个肢体部分,它从图像中提取出一系列能区 分裸体和非裸体图像的特征量,利用机器学习技术进行裸体图像的识别。 文献《基于特征向量的敏感图像识别技术》(西南交通大学学报.
2007,42(1):13-18)提出的色情图像识别算法属于第二种方法,针对现有色情敏 感图像识别技术的缺陷,提出了基于特征向量的敏感图像识别技术。算法大致 分为建立样本图像库,训练样本图像,输入图像处理和分类处理四个步骤。建 立样本图像库中输入典型的敏感图像,构成图像库。训练样本图像过程分为特 征提取和特征训练两个步骤,特征提取过程采用YIQ彩色坐标系的色度和YUV 彩色坐标系的色调作为皮肤的肤色模型,从敏感图像的皮肤掩码图像中提取与 肤色区域数量和比例等有关的6个特征;特征训练部分,将提取的特征向量输入 到SVM( support vector machine)训练器中,通过多步训练之后,得出敏感图像分 类器。输入图像处理过程中,对输入图像作与样本图像相同的特征提取操作。 最后进入图像分类过程,将由输入图像构成的特征输入到SVM分类器中,根据 分类结果判断图像是否为敏感图像。但该文献在建立皮肤特征的时候采用确定 性算法,没有准确的模拟人眼的特征提取过程,图像特征的描述缺乏完整性, 降低了识别准确度。对于大量的图像特征,该文献没有提出特征优化算法,增 加了计算量,增加了图像识别时间。

发明内容
为了解决现有色情图像识别方法中存在的问题,增加识别准确度,减少识 别时间,本发明提出了 一种基于直觉模糊的色情图像识别方法。
本发明所提出的色情图像识别方法大致分为两个部分, 一部分对样本图像 进行特征提取、优化及训练,此部分可以在识别图像之前离线处理,以节省识 别运算时间;另一部分用于对待识别图像进行特征提取及优化处理;两部分得 出的数据输入到神经网络中进行分类处理,得出识别结果。
本发明的方法具体包括以下步骤
第一步建立样本图像库;
第二步对样本图像进行特征提取;
第三步对样本图像所提取的特征进行训练,形成色情图像分类器; 第四步对待识别图像进行特征提取;
第五步将待识别图像特征输入到色情图像分类器,得出识别结果。本发明提出的色情图像识别方法的图像特征采用由确定数值、模糊数值及 直觉模糊数值共同构成的颜色直方图特征向量,该向量通过以下步骤得到 1)提取图像的确定性特征
将图像中所有像素颜色映射到HSV空间中的w种颜色,若图像/包含7V个 像素,则确定性颜色特征表示成C-[c,,C2,…cvf , c,:A^/7V表示图像中所有像 素属于第/个颜色值的概率,iV,表示属于第/个颜色值的像素总体数量;根据概 率理论
巧是从图像/中选择像素能够选择到第乂个像素的概率,即1/W, 4是第乂 义为-
个像素属于第/个颜色值的条件概率;在确定性颜色直方图(CCH)中,/^.定
p ={1,第j个像素被量化成第i个颜色值 2)增加图像的模糊特征
图像/的模糊颜色直方图(FCH)表达为尸(/)=[/;,/2,.../ :
利用FCM聚类技术将图像中像素重新聚类到HSV中的"种颜色,每一种聚 类表示一个FCH值;图像中像素对于一个FCH值的隶属度通过精确颜色相对于 模糊颜色值的隶属度来表示,仅计算此隶属度一次,以隶属度矩阵形式表示 M = [,],, w々.是y个精确颜色值分布于第/个模糊颜色值的隶属度;图像的 FCH值F xl直接从CCH的Cwl计算出来,
FCM最小化一个目标函数^,它是每一组方差权重的总合,定义如下
^(C/,『;X) = tt《|h-H|2 l<m<w (4)
/t=l !'=1 力
A表示像素的精确颜色,聚类中心VV,.表示模糊颜色,t^是颜色&相对于聚
类中心w,.的隶属度;由于HSV空间中的表达形式,内积lx「wf替代为k-W,||2, 即精确颜色A和聚类中心vv,.之间的欧氏距离,权重指数m控制着模糊聚类成员 间共享的程度;通过计算得到FCM的模糊聚类结果t/^^],,即(3)式中需对于所有的z'和A以及m〉1,如果| -—| 〉0,那么^在(C/,『)处被最小
<formula>formula see original document page 10</formula>另外,根据(8)式可知存在特殊的颜色值,即^.=0的时候,犹豫度达到 最大值;r/^,这种特殊的巧计算如(10)式
巧max-卜乂 (10)
此式描述了图像中的像素属于第/个颜色值的犹豫度随着隶属度的增加而
减少的性质,通过(11)式满足(10)式的限制条件,
w(l一,) (11)联合(9)式和(11)式得出图像/中所有像素对于第/个颜色值的犹豫度计 算公式,
"I
max'
"1}
(i一,O
(12)
根据已经求得的C^和F^,其中相对应的元素分别利用(12)式进行计算, 得出犹豫度矩阵//。^
图像/中所有像素的颜色特征向量( ,可以表示成(13)式,其中三个参数分 别表示图像/相对于颜色直方图中第/个颜色值的确定性概率、模糊隶属度以及 直觉模糊犹豫度。
^ = (13) 即一张图像的颜色特征可以表达为特征矩阵形式, …c
.../" (14)
本发明的方法还包括采用遗传算法对图像特征进行特征优化的步骤。 使用本发明的方法,可以增加图像识别的准确度,并减少识别时间。 本发明的具体实施过程和优点将在具体实施方式
部分进行进一步阐述。


图l为色情图像识别方法的总体流程图.
图2为直觉模糊特征提取流程图。 图3为特征优化流程图
具体实施例方式
本发明提出的色情图像识别方法具体实现过程如图l所示,包括以下步骤
1、 建立样本图像库。
通过调研,建立色情图像识别系统中的样本图像库,为了提高识别准确度, 数据库中需要尽可能多的包含各种裸露关键部位的色情图像,另外还有各种典 型的正常图像(动物、植物、景物及人物生活照)。
2、 对样本图像进行特征提取
3cf3 r「
cl力工
Iii颜色是图像中最基础、最稳定的特征,且已经足以充分准确的表达色情图 像内容。如果加入形状等其他特征,增加了计算量,且由于形状识别的不成熟 性使得准确度方面不能得到很大的提高。颜色特征提取的实现流程如图2所示。 现有技术中一般使用确定性特征,本方法通过增加模糊特征和直觉模糊特征, 使图像特征的描述更完整,增加了图像识别的准确度。
1) 提取图像的确定性特征
对其中每一张图像作提取特征向量的操作。计算过程采用HSV颜色空间中
的颜色值,通过将图像中所有像素颜色映射到HSV空间中的w种颜色(直方图的 打位,例如"=20 )来执行量化过程。根据现有色情图像的特点,"种颜色确
定为黄种和白种人人体的皮肤颜色、头发颜色、各类胸部中乳头颜色及私处部 位的颜色。
将颜色直方图看成为从概率观点出发的颜色分布。若图像/包含iV个像素,
则确定性颜色特征表示成<:=|>1^2,..^;^ , 。=乂./〃表示图像中所有像素属于
第/个颜色值的概率,M表示属于第/个颜色值的像素总体数量。根据概率理论
。I;v;4e4 。)
_/=1 产l
^是从图像/中选择像素能够选择到第)个像素的概率,即W,巧,.是第乂
个像素属于第/个颜色值的条件概率。在确定性颜色直方图(CCH)中,i^.定 义为
p,第j个像素被量化成第i个颜色值
=io, 否则 。)
2) 增加图像的模糊特征
利用模糊理论对确定性直方图的i^.进行修改,构成图像像素的模糊颜色直 方图(FCH),认为图像/中所有iV个像素的任何一个都相关于所有w个颜色值,
且第/个像素对于第/个颜色值的"属于"程度取决于第y个像素对于第z'个颜色
值的隶属度。图像/的FCH表达为F(/)^力,/2,…/J。
利用FCM聚类技术将图像中像素重新聚类到HSV中的n种颜色,每一种聚 类表示一个FCH值。图像中像素对于一个FCH值的隶属度通过精确颜色相对于 模糊颜色值的隶属度来表示。仅计算此隶属度一次,以隶属度矩阵形式表示 M = [,],, /^.是y'个精确颜色值分布于第Z个模糊颜色值的隶属度。图像的 FCH值F xl直接从CCH的C xl计算出来,<formula>formula see original document page 13</formula>
(3)
FCM最小化一个目标函数^,它是每一组方差权重的总合,定义如下
<formula>formula see original document page 13</formula> (4)
A表示像素的精确颜色,聚类中心w,.表示模糊颜色,"&是颜色A相对于聚 类中心vv,.的隶属度。由于HSV空间中的表达形式,内积h-替代为h-w,.|2, 即精确颜色^和聚类中心w,.之间的欧氏距离,权重指数m控制着模糊聚类成员 间共享的程度。通过计算得到FCM的模糊聚类结果t/= 即(3)式中需
要的M,。
<formula>formula see original document page 13</formula>(5)
对于所有的z'和A:以及m〉1,如果h-w,l >0,那么^在(L/,『)处被最/J
<formula>formula see original document page 13</formula>(6)
<formula>formula see original document page 13</formula>(7)
等式(6)和(7)通过反复执行下面的步骤得出近似结果 Stepl:输入模糊颜色值的种类数量",权重指数m及误差容忍程度^ ; Step2:初始化聚类中心w〃 Step3:输入数据7 = {;^,乂2,...;<: 卜
Step4:通过(6)式计算聚类中心{—')}; (/表示重复次数) Step5:通过(7)式更新^);
St印6:如果||1/(/)-"(/—D卜e, / = /+1,则跳回Step4;否则跳出得结果。 3)增加图像的直觉模糊特征
采用直觉模糊集理论的非-隶属度函数进一步完善颜色特征表达,引入直觉 模糊集概念,在模糊颜色特征的基础上添加特征的犹豫程度,产生一个W^,
""xi+i,巧,…""]。
<formula>formula see original document page 13</formula> (8)v,是图像中的像素不属于第f个颜色值的隶属度。
比较模糊颜色直方图和确定性颜色直方图,发现在模糊量化过程中存在一 些噪声。这类噪声可通过直觉指数进行消除。通过噪声的起源,可知图像中像 素的颜色犹豫度正比于确定颜色值和模糊颜色值之差。
max'
(9)
另外,根据(8)式可知存在特殊的颜色值,即v,二0的时候,犹豫度达到
最大值巧,,这种特殊的;r,.计算如(10)式。
巧max-i一乂 (10)
此式描述了图像中的像素属于第/个颜色值的犹豫度随着隶属度的增加而 减少的性质,通过(11)式满足(10)式的限制条件,
5^(1—乂) (11) 联合(9)式和(11)式得出图像/中所有像素对于第/个颜色值的犹豫度计
算公式,
—力l
工-一
max《lc
(12)
显然巧在[O, l]区间内,符合巧的定义。根据前文中求得的C^和尸^,其中 相对应的元素分别利用(12)式进行计算,得出犹豫度矩阵i/^。
综合上述的图像颜色特征表达方式及计算方法,图像/中所有像素的颜色特 征向量^可以表示成(13)式,其中三个参数分别表示图像/相对于颜色直方图 中第/个颜色值的确定性概率、模糊隶属度以及直觉模糊犹豫度。
^=(。.,力,巧) (13)
因此, 一张图像的颜色特征可以表达为特征矩阵形式,
(14)
3、使用遗传算法对图像特征进行优化
在图像特征优化部分采用遗传算法,并将图像特征提取部分融入到遗传算 法的编码过程。如图3所示。
2f2 r,
cl力"1
II
14按照遗传算法对(14)式表达的图像特征进行特征编码、选择、交叉和变 异操作,得出有效特征。 1 )特征编码
首先确定图像被分割的区域数目,若图像像素为M/^A^,则分割的区域数 r<A^。各区域可以看成是原图像的子图像,直方图位被看成是大量的基因。基
因通过一个整数表达,这些整数说明了一个区域内的像素针对某一颜色的颜色 特征。将这些区域组合在一起形成关于此图像的一个染色体,每一个区域的颜 色直方图有"位颜色,构造的染色体《如下,《是第/t个区域的第g位颜色的确 定性概率,/^是第A个区域的第g位颜色的模糊隶属度,《是第A个区域的第g 位颜色的直觉模糊犹豫度,
<formula>formula see original document page 15</formula> (15)
一个染色体《就是各个区域可能的一种组合情况,每一个组合是查询空间 中的一种候选解答方法。对于W个区域,就有7V!种可能的区域的联合。因此, 一张图像的染色体形成的种群如下其中/ = 1,2,..."—w&, w&是种群数量。
<formula>formula see original document page 15</formula> (16)
2)特征选择
采用遗传算法中轮盘赌选择作为特征选择方法。每一个染色体占据虚拟轮 盘中的一个扇区,而染色体占据的扇区的面积正比于适应度值。高适应度值的 染色体占据的扇型面积大,而低适应度的染色体占据的扇形面积小。某个染色 体个体A,其适应度为《,也就是图像相似度。对于通过人感官判断,内容相 似的两张图像,利用^^函数计算出它们针对一个染色体的特征距离,《与^^ 之间为相反关系。
<formula>formula see original document page 15</formula> (17)
dW函数由(18)式计算得出,d&结果越大,则说明此染色体适应性越差, 在下面的检索中该染色体的作用越小,越应该排除,否则该染色体应该留下。 选择巧数值最大的染色体作为优化后的特征向量;
<formula>formula see original document page 15</formula> (18)
其中w(。), w(力),w(巧)的计算分别如下,2 4 t《x力 &x
——,—力)=^——,w(。)二^—— (19)
IX W
a=i a=i a=i
《表示图像中第"位颜色在直方图中的编号,而4, /j, ^分别表示第a位 颜色上的确定性颜色值,模糊颜色值以及直觉模糊颜色值。 3)特征交叉及变异
采用一点交叉,也叫简单交叉,从个体中随机设定一个交叉点,实行交叉 的时候,该点前或后的两个个体的部分结构进行交换,并生成新个体。种群是 图像中区域各种组合的联合,每一个区域中含有一些基因(直方图颜色位)来 表达颜色特征。此操作允许在区域组合方面有一些调整,某些区域在某个染色 体中可能重复出现,或者不出现,来说明了图像库中更加多样的区域组合方式。 通过交叉,慢慢的获得满足用户要求的更好的染色体。具体实现步骤为,在通 过选择得到的优化特征向量中,随机选取一个特征值,对于特征值的左右两边 的数据作交叉处理,即前一个区域所有的特征值和后一个区域所有的特征值交 换,从而得出特征交叉之后的结果。
预先定义变异率(例如0.1),选取特征向量中的最大值,在选择点上, 比较所选择点的两边数值,较小的值增加变异率数值而较大的值减少变异率。
4、基于神经网络的图像特征训练
图像样本库中的图像经过特征提取和优化处理进入训练模块。特征训练模 块采用神经网络实现,目前比较成熟的神经网络均可以应用于色情图像识别的 特征训练部分,例如SVM分类器,Adaboost分类器,C4.5分类树等,本算法中采 用对样本数据有100。/。分类准确度的FP (ForwardPropagation)神经网络实现。
特征之间的距离是建立FP网络的基础,本发明中加入了权重参数,以图像 特征矩阵形式为基础,由色情图像特征与色情语义间的映射关系构建加权距离 公式。权重系数根据色情图像中包含的理想颜色分布情况,通过BP (Back Propagation)网络训练得到。BP网络的输入为样本图像颜色特征矩阵,理想输 出为色情图像中理想的颜色特征分布矩阵,对权重矩阵赋初始值之后开始计算。 得出的距离权重有如下形式,
Wc2
w =..
(20)X1表达的图像与X2表达的图像之间的特征权重距离公式如下, D(X1,X2)=《i>d「X2c,)2 +,(11为,12为.)2 -X2^.)2]严(21)
/=1户l
单个神经元是以特征空间中某个特征向量为圆心,以某个常数为半径的"球 形邻域"的形式。神经网络是由多个结构相同的色情图像样本特征"球形"神 经元构成,在此球形邻域之外的图像为非色情的正常图像。
通过对图像样本特征库中色情图像和正常图像的特征学习构建球形邻域。 设色情图像样本特征库尸om = {XPpXP^.XPJ ,正常图像样本特征库 A^7W^XNpXN2…XNJ, m和A:分别为两个特征库中的样本数量。通过特征 库建立由m个球形邻域构成的FP神经网络((C,.,7 ,", q.为球心,《.为相应的半 径,具体步骤如下,
Stepl:为色情图像样本特征库中各样本建立标记位,Ftog-(), FP神经网络 ((C,.,《.》初始化为零。
Step2:从色情图像样本特征库中选取尸/^为0的特征,若没有,则退出。若 有,则选取其一,从Step3开始构建球形邻域,同时F/。g-l。
Step3:令《h = ,"(Z)(XP,.,XN》1 乂 ,表示该色情样本到正常样本库
各样本的最小距离;t/醒-^rx(Z)(XPi,XP》lye[l,m],i^g-0〉,表示该色情样 本到其他未训练的色情样本I^最大距离。
Step4:如果《,《狀,则取"d+。/2,否则取"=^—0<;1<1。
Step5:增加一个球形(C,XP,.,^吋),跳转到Step2。
反复执行多次之后得出色情图像分类的FP神经网络。
5、 对待识别图像执行步骤2和步骤3中的特征提取和特征优化过程。
6、 基于神经网络的图像分类
色情图像分类过程的关键在于求出待识别图像到FP网络各球形邻域的最近 距离。输入本地文件夹中的待识别图像,经过2和3步骤中的特征提取和特征优 化过程,将优化得出的图像特征向量输入到4步骤中的FP神经网络中。对图像的 特征XD,.,判断是否存在(^,A),使ZXXDi,C》^i^,即XD,能够被球形邻域 (q.,A)覆盖,若存在此球形邻域则认为该特征对应的图像为色情图像;否则, 认为是正常图像。
权利要求
1、一种基于直觉模糊的色情图像识别方法,包括以下步骤第一步建立样本图像库;第二步对样本图像进行特征提取;第三步对样本图像所提取的特征进行训练,形成色情图像分类器;第四步对待识别图像进行特征提取;第五步将待识别图像特征输入到色情图像分类器,得出识别结果;其特征在于特征提取时使用的图像特征为由确定数值和模糊数值及直觉模糊数值共同构成的颜色直方图特征向量,该向量通过以下步骤得到1)提取图像的确定性特征将图像中所有像素颜色映射到HSV空间中的n种颜色,若图像I包含N个像素,则确定性颜色特征表示成C=[c1,c2,...cn]T,ci=Ni/N表示图像中所有像素属于第i个颜色值的概率,Ni表示属于第i个颜色值的像素总体数量;根据概率理论Pj是从图像I中选择像素能够选择到第j个像素的概率,即1/N,Pi|j是第j个像素属于第i个颜色值的条件概率;在确定性颜色直方图(CCH)中,Pi|j定义为2)增加图像的模糊特征图像I的模糊颜色直方图(FCH)表达为F(I)=[f1,f2,...fn]T;利用FCM聚类技术将图像中像素重新聚类到HSV中的n种颜色,每一种聚类表示一个FCH值;图像中像素对于一个FCH值的隶属度通过精确颜色相对于模糊颜色值的隶属度来表示,仅计算此隶属度一次,以隶属度矩阵形式表示M=[mij]n×n,mij是j个精确颜色值分布于第i个模糊颜色值的隶属度;图像的FCH值Fn×1直接从CCH的Cn×1计算出来,Fn×1=Mn×nCn×1FCM最小化一个目标函数Jm,它是每一组方差权重的总合,定义如下xk表示像素的精确颜色,聚类中心wi表示模糊颜色,uik是颜色xk相对于聚类中心wi的隶属度;由于HSV空间中的表达形式,内积替代为‖xk-wi‖2,即精确颜色xk和聚类中心wi之间的欧氏距离,权重指数m控制着模糊聚类成员间共享的程度;通过计算得到FCM的模糊聚类结果U=[uik]n×n,即(3)式中需要的Mn×n;Mn×n=Un×n (5)对于所有的i和k以及m>1,如果‖xk-wi‖>0,那么Jm在(U,W)处被最小化,1≤i≤c以及1≤k≤n等式(6)和(7)通过反复执行下面的步骤得出近似结果Step1输入模糊颜色值的种类数量n,权重指数m及误差容忍程度ε;Step2初始化聚类中心wi,1≤i≤c;Step3输入数据X={x1,x2,...xn};Step4通过(6)式计算聚类中心(l表示重复次数)Step5通过(7)式更新U(l);Step6如果‖U(l)-U(l-1)‖>ε,l=l+1,则跳回Step4;否则跳出得结果;3)增加图像的直觉模糊特征在模糊颜色特征的基础上添加特征的犹豫程度,产生一个Hn×1,Hn×1=[π1,π2,...πn]T;πi=1-fi-vi,0≤πi≤1 (8)vi是图像中的像素不属于第i个颜色值的隶属度;另外,根据(8)式可知存在特殊的颜色值,即vi=0的时候,犹豫度达到最大值这种特殊的πi计算如(10)式此式描述了图像中的像素属于第i个颜色值的犹豫度随着隶属度的增加而减少的性质,通过(11)式满足(10)式的限制条件,πi∝(1-fi) (11)联合(9)式和(11)式得出图像I中所有像素对于第i个颜色值的犹豫度计算公式,根据已经求得的Cn×1和Fn×1,其中相对应的元素分别利用(12)式进行计算,得出犹豫度矩阵Hn×1;图像I中所有像素的颜色特征向量<overscore>C</overscore>i可以表示成(13)式,其中三个参数分别表示图像I相对于颜色直方图中第i个颜色值的确定性概率、模糊隶属度以及直觉模糊犹豫度;<overscore>C</overscore>i=(ci,fi,πi)(13)即一张图像的颜色特征可以表达为以下特征矩阵形式
2、根据权利要求l所述的一种基于直觉模糊的色情图像识别方法,其特征 在于在对样本图像和待识别图像进行特征提取的步骤之后,还包括采用遗传 算法对提取的图像特征进行优化的步骤,包括1)特征编码首先确定图像被分割的区域数目,若图像像素为MpxiVp,则分割的区域数 r<7V/7;各区域组合在一起形成关于此图像的一个染色体,每一个区域的颜色直 方图有"位颜色,构造的染色体《.如下,《是第A:个区域的第g位颜色的确定性 概率,//是第A个区域的第g位颜色的模糊隶属度,《是第A个区域的第g位颜 色的直觉模糊犹豫度, <formula>formula see original document page 4</formula>一个染色体&就是各个区域可能的一种组合情况,每一个组合是查询空间中的一种候选解答方法;对于W个区域,就有iV!种可能的区域的联合;因此, 一张图像的染色体形成的种群如下其中/ = 1,2,..."—w'ze, w—w&是种群数量; 尸 2,...《.}2) 特征选择某个染色体个体a,其适应度为巧,也就是图像相似度,利用^^函数计算 出两张图像针对一个染色体的特征距离,巧与^'W之间为相反关系i^:l-而/(/A) (17)A'W函数由(18)式计算得出,^^/结果越大,则说明此染色体适应性越差,在下面的检索中该染色体的作用越小,越应该排除,否则该染色体应该留下; 选择《数值最大的染色体作为优化后的特征向量;淑(l,々)=力h々)-M<c,5) i+力w(y^) - ) |+力| w(々)-), (丄8)' =1 /=1 !'=1其中w(c,), </;), vK^.)的计算分别如下,1>X力W 1>X 一)=^4——'</;.)=^——'一)=^—— (19)i:力 IXa=l fl=l cr=l《表示图像中第"位颜色在直方图中的编号,而《,/j,《分别表示第"位颜色上的确定性颜色值,模糊颜色值以及直觉模糊颜色值;3) 特征交叉及变异在通过选择得到的优化特征向量中,随机选取一个特征值,对于特征值的 左右两边的数据作交叉处理,即前一个区域所有的特征值和后一个区域所有的 特征值交换,从而得出特征交叉之后的结果;预先定义变异率,选取特征向量中的最大值,在选择点上,比较所选择点 的两边数值,较小的值增加变异率数值而较大的值减少变异率数值。
全文摘要
本发明涉及一种色情图像的识别方法,包括以下步骤第一步建立样本图像库;第二步对样本图像进行特征提取;第三步对样本图像所提取的特征进行训练,形成色情图像分类器;第四步对待识别图像进行特征提取;第五步将待识别图像特征输入到色情图像分类器,得出识别结果。本发明中的图像特征采用由确定数值、模糊数值及直觉模糊数值共同构成的颜色直方图特征向量;本发明还包括采用遗传算法对图像特征进行特征优化的步骤。使用本发明的方法,可以增加图像识别的准确度,并减少识别时间。
文档编号G06K9/00GK101447020SQ20081018323
公开日2009年6月3日 申请日期2008年12月12日 优先权日2008年12月12日
发明者姚淑萍, 王潇茵, 胡昌振 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1