在互联网上堵截色情图像与不良信息的系统的制作方法

文档序号:6535035阅读:117来源:国知局
专利名称:在互联网上堵截色情图像与不良信息的系统的制作方法
技术领域
本发明涉及互联网应用技术领域,特别是涉及一种在互联网上堵截色情图像与不良信息的系统。
背景技术
当今社会是信息化飞速发展的时代,互联网作为一种完全开放的现代化通信技术,在世界范围内迅速普及,网络传播途径遍布世界的每一个角落。由于网络世界是一个虚拟空间,在实际生活中的所有数据、声音、影像等信息都可以换成计算机位元型态随计算机信息流穿梭于全球,目前越来越多的人在网络上从事娱乐、研究及商务活动,从而形成一个网络上的虚拟社会,网络使用者不需批露自己的真实身份即可畅游其间,人与人之间也少有了日常社会的道德、伦理约束,因此网络世界比现实社会更加复杂、可怕,形形色色的人物夹杂其间,各自怀有不同的目的,正义、邪恶难辨。由于暴力的驱使,近年来色情网站与色情网页疯狂增长,特别是对感官刺激强烈的色情图像等有害信息泛滥成灾,诱发青少年犯罪,严重影响未成年人的健康成长,引起家长的极大愤慨与担忧,也引起社会与政府的关注,甚至发出“救救孩子”的呼声,致使花巨资建立的中、小学校园网关闭了通向网络教育的通道,为孩子购买的家用电脑也被禁用,极大的浪费了投资,不得不舍弃网上优越的教育资源。
为了过滤色情等网上有害信息,近年来市场上也出现了大量的过滤软件与系统,可以统称为“黑名单软件”,其技术手段是用人工手段将已知的色情网址或域名归入“黑名单”地址数据库中,通过地址比对与关键词比对,封锁浏览者登陆的“黑名单”中所列的网址与相关信息。这种方法的缺点是对于大量未发现的和新增加的以及变换面貌的色情网址无能为力,不能实时的智能的发现并归入黑名单,而且文字比对时也受不同国家文字的限制,始终处于被动过滤状态。中国发明专利ZL0112132.7的一种色情文件判断系统与方法,先在系统中输入标记文件,将分离出的被检网页中的文字部分和图片部分分别传送到文字比较引擎和色情图片识别引擎,通过计算文字和图片的色情指数并和色情辨别指数比较,判断出色情文件;ZL0112127.0的一种色情图片检查系统,通过双重引擎过滤待检查图片,引入了色情图片数据库和数据库比较引擎,提高了色情图片识别的准确度;专利申请200410053683.3的一种网络内容过滤系统,由内容过滤代理、查询服务器和内容分析与管理服务器,内容过滤代理存储有黑名单和白名单,查询服务器拥有一个具有分类忽然分级信息的URL库,内容分析与管理服务器对internet中的资源进行分类与分级评估,系统具有自学习能力,可提高系统分类精度,可以主动过滤互联网中存在的各类媒体数据;但它们主要的过滤途径仍然是基于对URL的自动更新和拦截,缺乏深层次的、彻底的、基于实质内容的过滤。到目前市场上还没有发现完全基于内容的识别、过滤软件并将软件和硬件相结合,与计算机操作系统整合,实现“扫黄”应用系统与网络浏览器无关的特点、具有不可卸载和抗毁性的该类产品。

发明内容
本发明所要解决的技术问题针对背景技术目前互联网色情图像和不良信息检测过滤系统存在的缺陷,提出一种基于内容的、多层次的、综合的互联网上色情图像与不良信息的堵截系统。
本发明所采用的技术方案一种在互联网上堵截色情图像与不良信息的系统,含有IP地址过滤和关键字过滤,系统含有色情图像检测器和多功能管理平台,标准色情图像特征库和并行运算的高速图像处理卡,其中色情图像检测器建立了对肤色与姿态进行特征分析、特征提取与特征的相似性匹配判决的数学模型核心算法,核心算法嵌入到高速并行运算图像处理卡中,图像处理卡插在网络服务器扩展槽中,标准色情图像库有十万张标准图像特征作为判决依据,多功能管理平台管理服务器与多客户机进程间的通信与交互,管理对浏览的色情图像检测进程,包括对HTTP的解析、还原和重组,完成网址过滤和关键字过滤,多功能管理平台含有服务器端和客户机端,多功能管理平台整合操作系统、浏览器、HTTP协议与嵌入核心算法的硬卡之间的关系,实现色情图像和不良信息检测过滤与浏览器无关,通过Winsock2或XP的SPI接口获取发送和接收的数据,然后对这些数据进行分析,获取HTTP数据,将HTTP数据解协议后,在客户机端进行可靠的URL检测、不良URL检测和关键字过滤,并根据检测结果决定是否需要使用色情图像检测器,如果需要则发送到服务器进行检测,在服务器端调用DSP硬件图像处理卡进行不良图像检测,服务器收集图像检测结果,并将新发现的不良网址自动加入黑名单网址数据库中,黑名单网址数据库中一段时间不用的网址自动删除,使黑名单数据库一直处在高效动态变化中。
所述的在互联网上堵截色情图像与不良信息的系统,所述的皮肤颜色检测器通过分析网络图像的颜色组成以及对图像颜色空间的实验比较,采用HSV颜色空间建立肤色模型,确定人的皮肤颜色在所选取的HSV颜色空间的分布情况,首先将网络图像的像素转换为HSV颜色空间并量化,划分成L个颜色子空间,然后通过统计分析确定样本皮肤像素的总数shin_count以及样本皮肤像素在这L个子空间中的频次sub_count_i,其中满足i=1,Λ,L,Σi=1Lsub_count_i=shin_count]]>以归一化的频次作为皮肤像素分布于该子空间的可能性,1vi=sub_count_i/skin_count设定一个肤色分布概率的可能性阈值T_vi,如果满足vi≥T_vi,则wi=vi;否则,wi=0;这样最终得到A={A1,A2,Λ,AL}W={w1,w2,Λ,wL}其中,wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i=1,2,ΛL,参数L=72,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W;计算图像肤色暴露程度对任意图像F(x,y),x=1,Λ,M,y=1,Λ,N,将每一个像素(x,y)转换到HSV颜色空间并量化,得到该像素的颜色子空间标号,使整幅图像F(x,y)就转化成了一个M×N的标号点阵G(m,n),统计G(m,n)的归一化直方图Hue[k],k=1,Λ,L,通过下式计算图像中的肤色暴露程度,Ratio=Σk=1LHue[k]×wk]]>然后利用图像肤色暴露程度Ratio区分正常图像和色情图像,采取两种判决方式(1)硬判决确定一个阈值T_Valve,比较Ratio和T_Valve进行判决如果一幅图像满足Ratio≥T_Valve,则判决该图像为色情图像;否则为正常图像,T_Value的值取在
之间;(2)软判决确定一个低阈值T_Low,一个高阈值T_High,比较Ratio和这两个阈值进行判决如果一幅图像满足Ratio≥T_High,则判决该图像为色情图像;如果满足Ratio≤T_Low,则判决该图像为正常图像;其他情况下认为该图像为可疑图像,本检测器不做判决,转送姿态检测器检测;所述的姿态检测器,首先挑选出十万个具有代表性的标准色情图像进行特征分析,建立以准确的色情图像数学模型为特征的色情标准图像特征库,作为判决网络图像是否为色情图像的相似性匹配判决依据,姿态检测器核心算法主要含有小波边缘检测、图像分割、形态学滤波、形状描述和相似度匹配几部分小波边缘检测,采用Daubechies-4小波基对网络上的可疑原始图像进行塔式小波分解,得到LL低频子带和LH,HL,HH三个高频子带,利用如下公式E[i,j]=(E1[i,j]2+E2[i,j]2+E3[i,j]2)12]]>对三种类型边缘合成为一个边缘图E(i,j);图像分割,首先对小波边缘图像进行分析,提取上、下、左、右四个边缘点,并依此确定物体的外接矩形,然后擦除原彩色图像中位于外接矩形外的像素点,对矩形内的像素点依据肤色模型进行分割,对任意像素点p(x,y),将其转换到HSV空间并量化得到量化标号k∈[1,Λ,L],如果wk≠0,则保留此像素点,否则,擦除此像素点,得到初步分割的皮肤区域图像;形态学滤波,采用数学形态学对初步分割的图像进行处理,过滤掉不属于物体区域的噪声像素;形状描述,在得到物体的区域图像之后,利用图像的二阶及三阶矩可以得出图像的7个不变Hu矩φ1=η20+η02φ2=(η20-η02)2+4η112]]>φ3=(η30-3η12)2+(3η21-η03)2φ4=(η30+η12)2+(η21+η03)2
φ5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η03+η21)2]φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η12-η30)(η21+η03)[3(η30+η12)2-(η03+η21)2]采用图像的二阶至五阶归一化中心矩的18个特征值和Hu矩的7个特征值来描述一幅分割以后的皮肤区域图像的形状特征;相似度匹配,采用加权Euclidean距离来进行相似度度量,设权值向量为Wj,当前图象特征为φj,其中j=1,2,K,25;特征库特征为φij′,i=1,2,K,N,j=1,2,K,25,其中N表示特征库特征个数,定义相似度di为di=1-(Σj=125Wj(φj-φij′)2)12]]>得到N个特征相似度di后,设定域值T_shape,如果特征相似度落在区间[T_shape,1],则认为当前图像特征与特征库中特征相似,并统计相似特征的个数Num,如果Num满足条件Num>T_num,其中T_num为当前图象特征与特征库中N个特征相似个数的阈值,那么认为该图像是色情图像,否则,判决该图像为正常图像。
所述的在互联网上堵截色情图像与不良信息的系统,所述的高速运算并行DSP硬件图像处理卡含有数字信号处理器及外围电路和PCI总线接口电路,由图像识别数学模型核心算法组成的基于内容的图像皮肤颜色检测和姿态检测过滤系统存储在通过外部存储器接口和数字信号处理器的中央处理器连接的存储器内,中央处理器的主处理器接口连接可编程逻辑器件,可编程逻辑器件通过PCI驱动电路连接硬卡的金手指,所述的硬卡通过PCI插槽和计算机服务器连接,硬卡上数字信号处理电路的中央处理器采用TMS320C6711,频率合成器时钟电路和上电复位硬件狗电路和中央处理器的对应端口连接,SDRAM外部存储器和闪存FLASH通过总线接口和中央处理器的I/O端口连接,中央处理器的主处理器接口连接CPLD和可编程逻辑器件,可编程逻辑器件选用PLX9054,或者选用PLX9052,或者采用AMCC的S5920,或S5933。
所述的在互联网上堵截色情图像与不良信息的系统,多功能管理平台的服务器端和客户机端通过通讯模块实现通讯和数据交互,服务器端含有监听模块和图像检测模块,监听模块用以完成与客户机的通信,实现监听客户机图像检测的连接请求,收到连接请求后,启动一个新线程和客户机通信;图像检测模块,完成服务器和客户机的通信,启动一个线程调用色情图像检测器,对图像进行检测并返回检测结果;服务器首先启动一个监听线程监听客户机的连接请求,并在收到客户机的连接请求后启动图像检测线程,检测线程通过命令结构和客户机进行通讯,同时调用DSP硬件图像处理卡中图像检测API函数处理数据对网络图像进行检测,并将处理结果传回客户机;由于色情判断是在服务器的应用层,多个IP数据包拆包后构成图像帧时进行,为了TCP联接不断链,采用“存储转发”方法,过滤系统先存下完整的数据报文,再发给客户端,对Web发端,过滤系统伪装成收方,对真正的接收者客户机又伪装成发方,为确保联接不断链,在精确计算超时时间内要丢掉一些无关大局的报文,。
所述的在互联网上堵截色情图像与不良信息的系统,多功能管理平台客户机端含有数据过滤模块,提供网络数据的获取和回送接口;解协议模块,从数据过滤接口提取HTTP协议对网络信息进行处理,实现应用层与IP包数据的分解与重组;数据检测模块,含有正常URL检测、不良URL检测、关键字检测和图像检测进程,在客户机端进行不良文字过滤,可信URL检测、不良URL检测,通过将获取的HTTP数据和系统中的黑名单网址数据库的网址进行对比,检测出不良URL并进行拦截,然后进入第二层次的关键字比对,若浏览的关键字在色情与不良信息关键字库内则拦截,然后根据检测结果调用图像检测进程在服务器端对可疑网络图像信息进行检测;自动更新模块,自动从因特网上更新应用程序和数据;服务器通讯模块,完成客户机与服务器间的通讯与数据交互。
所述的在互联网上堵截色情图像与不良信息的系统,系统平台可采用Windows 2K或XP,数据过滤接口为由Winsock2提供的供客户机应用程序访问网络服务的Windows socket应用程序编程接口,包括由传输服务提供者和名字解析服务提供者实现的Winsock服务提供者接口SPI和ws2_32.dll,SPI开放出标准的接口函数,使之在服务提供者之间插入一层,实现SPIHOOK,其过滤结构模式为核心DLL,安装或卸载SPI开放标准的HOOK接口;HOOKDLL,数据处理核心;图像检测接口和网络通讯接口,此三者互相交互通讯。
所述的在互联网上堵截色情图像与不良信息的系统,数据过滤接口模块截获到发送数据后,首先检查数据合法性,判断HTTP头是否为图像请求头,如果是图像请求则判断该数据包是否是浏览器发出的,若是则复制socket并发送send数据到目的HTTP服务器,同时调用色情图像检测器对图像进行检测,或者由服务器启动一个图像检测线程,调用色情图像检测DSP硬卡,在硬卡进行运算判决,将处理结果返回多功能管理平台,根据色情图像检测器或图像检测硬卡处理结果处理浏览器send数据,如果是正常数据则直接放行,如果是不良图像则将数据替换成预先设定的图像数据。
所述的在互联网上堵截色情图像与不良信息的系统,色情图像检测器还含有图标检测器和文本检测器,所述的图标检测器,首先对图像的宽度和高度设定阀值,通过对图像的尺寸比例对网络图像进行判别,小于该阀值的图像被认为是图标一类尺寸太小的不良图像,大于该阀值的则判决为正常图像;其次,根据图像的高度与宽度的比例判断,设定图像高度与宽度的比例阀值,筛选出横向或纵向的多数为网站广告之类的窄条图像;所述的文本检测器,根据文本图像与一般的连续色调图像在颜色组成上的差别,通过对图像颜色直方图的分析,选取适当的灰度值作为划分直方图的阀值,H[i],i∈
,取θeg≥200作为门限将灰度直方图划分为低灰度值和高灰度值两个区域,利用下式计算得到高灰度值区域的能量比例peg=Σi=θgg255H[i]/Σi=0255H[i],]]>将满足Peg≥PEG的图像判断为文本图像,根据识别要求PEG可选取不同的值,一般选取PEG≥0.7;或者根据文本图像和一般连续色调图像所表现出的信息熵不同,选取一定的灰度值范围θep1≤i≤θep2,计算其直方图信息熵,选θep1=127,θep2=255,将直方图做归一化处理P[i]=H[i]/Σi=0255H[i],]]>计算直方图局部信息熵epl=-Σi=θep1θep2P[i]logP[i]]]>将满足epl≥EPL的图像判断为文本图像,根据识别的要求EPL可取不同的值,对于文本图像一般取EPL≤2;或者依据颜色信息判别文本图像的结果,将上述两种方法进行融合处理对peg选取阈值PEG1和PEG2及对epl选取阈值EPL1及EPL2,则定义EG=0,peg<PEG1;peg-PEG1PEG2-PEG1PEG1≤peg<PEG2;1peg≥PEG2;]]>EP=0,epl>EPL2;1-epl-EPL1EPL2-EPL1EPL1<epl≤EPL2;1epl≤EPL1;]]>定义基于颜色的文本图像识别参数CH=EG+EP2]]>CH∈
;则当CH大于某一阈值参数T_ch时判决图像为文本图像。
所述的在互联网上堵截色情图像与不良信息的系统,多功能管理平台服务器端含有其它辅助线程,其它辅助线程包括数据分析服务,用以分析系统日志,进行不良网址的记录与分析,处理不良的URL列表;自动更新服务,定期检查版本是否已经更新,自动从因特网上进行更新;用户应用界面,为用户提供增加信任URL,不良URL和显示系统日志。
所述的在互联网上堵截色情图像与不良信息的系统,色情图像检测器还含有其它不良图像检测器,将特定的其它不良图像的特征样本在RGB色彩空间中进行PCA变换,建立PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器,经过图标检测器和文本检测器获得的可疑图像通过和该特征检测器的比较,检测出不良网络图像输入到皮肤颜色检测器进行下一步的判断处理。
本发明的积极有益效果1、本发明堵截系统既在应用层进行信息内容过滤,又在IP层采用网址过滤,能直接拦截色情图像信息,并实时将色情网址自动加入黑名单,更新URL数据库,由过去被动的网址过滤跳跃到主动的内容过滤,显著的提高了过滤效果,可过滤JPAG、GIF、BMP、TIF各种图像格式,对互联网色情图像的整体识别过滤成功率大于99%,误判率低于5%,对其它不良信息过滤效果大于80%。
2、本发明堵截系统独具的多功能管理平台,整合了操作系统、浏览器、因特网协议和图像检测器之间的复杂关系,解决了客户机和服务器之间的进程交互和色情图像检测任务的分工和数据重组问题,并实现了与浏览器无关的特点。
3、在国内率先将“基于内容的图像识别检索”技术应用于互联网色情图像的检测过滤方面,创造了基于内容的不良图像检测模型核心算法,结合聚类与神经网络方法,融合了图标检测、文本检测和色情图像等多层次智能检测技术,实现了快速运算与准确表达的综合,核心算法嵌入到高速并行运算图像处理卡中,既加速了算法的运算速度,同时保护了算法,提高了判决精度和判决速度,对色情图像的平均识别时间小于0.5秒,不影响上网速度。
4、将系统核心算法潜入高速DSP硬卡,装入计算机,拔掉硬卡,电脑便与互联网断开,软硬结合,具有抗毁性,不象其它软件容易被卸载,并解决了单纯软件系统运行速度慢的问题。
5、在国内率先建立了10万张标准色情图像特征数据库,解决了判决标准问题。


图1互联网色情图像与不良信息堵截系统的功能方框2互联网色情图像与不良信息堵截系统的组成方框3互联网色情图像与不良信息堵截系统的工作流程方框4色情图像检测器整体结构模式及应用流程图5高速DSP硬卡原理框6多功能管理平台组成及工作流程方框7多功能管理平台服务器端工作流程方框8多功能管理平台客户机端结构组成方框9多功能管理平台客户机端数据接口组成示意10多功能管理平台图像检测模块工作流程方框11确保TCP不断链的存储转发过程示意图
具体实施例方式实施例一参见图2,本发明色情图像与不良信息堵截系统由多功能管理系统平台和嵌入基于内容的图像识别核心算法的高速DSP图像检测PCI硬卡与标准色情图像特征库组成,即色情图像检测子系统嵌入到硬卡上的存储器中,硬卡安装在服务器计算机上,图5为高速DSP图像检测卡硬卡电路原理框图,色情图像检测子系统嵌入到高速DSP图像检测卡硬卡上,所述的硬卡含有高速并行数字信号处理器和PCI总线接口电路,色情图像检测系统功能软件核心算法存储在通过外部存储器接口和数字信号处理电路的中央处理器连接的存储器内,中央处理器的主处理器接口连接可编程逻辑器件,可编程逻辑器件通过PCI驱动电路连接硬卡的金手指,所述的硬卡通过PCI插槽和计算机服务器连接,硬卡上数字信号处理电路的中央处理器采用TMS320C6711,频率合成器时钟电路和上电复位硬件狗电路和中央处理器的对应端口连接,SDRAM外部存储器和闪存FLASH通过总线接口和中央处理器的I/O端口连接,中央处理器的主处理器接口连接CPLD和可编程逻辑器件,可编程逻辑器件选用PLX9054,或者选用PLX9052,或者采用AMCC的S5920,或S5933。
参见图1、图3,本发明在互联网上堵截色情图像与不良信息的系统,含有IP地址过滤子系统,IP地址过滤子系统含有动态的黑名单网址数据库,系统首先提取客户机要求登陆的网页的网址,和系统中的黑名单网址数据库的网址进行网址对比,若该网址属于黑名单数据库中的地址,即进行拦截,然后进入第二层次的关键字比对,若浏览的关键字在色情与不良信息关键字库内则拦截,系统含有色情图像检测子系统,系统通过多次判决反馈建立准确的色情图像数学模型;挑选出十万张具有代表性的标准色情图像进行特征分析,提取其特征,建立色情标准图像特征库,作为判决网络图像是否为色情图像的依据;建立相似性匹配判决模型;对通过关键字对比的网络信息进行第三层次的基于内容的图像判决,通过分析提取网络图像特征数据,与色情标准图像数据库中的特征图像对比,若与色情图像库中的某些图像匹配相似则拦截,并将该网页地址自动加入黑名单网址数据库中,黑名单网址数据库中一段时间不用的网址自动删除。HTTP协议解析模块从数据过滤接口提取HTTP协议对网络信息进行处理,实现应用层与IP包数据的分解与重组;数据检测模块,含有正常URL检测、不良URL检测、关键字检测和图像检测进程,在客户机端进行不良文字过滤,可信URL检测、不良URL检测,调用图像检测进程在服务器端对网络图像进行检测;自动更新模块,自动从因特网上更新应用程序和黑名单HTTP数据。
参见图11。由于色情判断是在服务器的应用层,多个IP数据包拆包后构成图像帧时进行,为了TCP联接不断链,采用“存储转发”方法,过滤系统先存下完整的数据报文,再发给客户端。对Web发端,过滤系统伪装成收方,对真正的接收者客户机又伪装成发方。由于过滤系统联接处理的是多个客户机的多个完整报文,任何一个设备都无此链接能力,为此我们在精确计算超时时间内要丢掉一些无关大局的报文,确保联接不断链。
图4为本发明互联网上色情图像与不良信息堵截系统的色情图像检测器结构模式及流程框图。
图中的图标检测器主要通过图像的尺寸比例对网络图像进行判别,主要目的是检测那些类似网站广告的图像,同时过滤掉太小的图像。一般地,网页上存在着大量的广告LOGO及图标。由于这些图像大多呈现为一个很窄的长条,或者图像整体的尺寸比较小,从内容上来讲一般不构成危害,因此我们在图像判断的过程中首先对这类图像做判别。
(1)根据图像的大小判别对图像的宽度与高度设定阈值,小于这个阈值的图像认为是属于图标一类。(2)根据图像的高度与宽度的比例判别设定高度与宽度的比例阈值,这样可以把横向或者纵向的窄条图像筛选出min(image_width,image_height)<T_size,则判决为正常图像来,它们一般多为网站广告之类。
if(image_width>image_height)Rs=image_width/image_height;elseRs=image_height/image_width。
if(Rs>T_logo),则判决为正常图像。
在实践中,根据经验,我们选取阈值T_size=32,T_logo=10。
文本检测器对网络图像进行文本/图像判别,检测由大量文本信息组成的图像,例如以图像形式存在的网络传真、网络文字广告等。由文本组成的图像与一般的图像(连续色调图像)有着很大的不同,这主要体现在颜色的组成上。所以这里我们采用分析图像的灰度分布直方图来判别文字图像。
(1)直方图划分通过对图像颜色直方图的分析,发现文字图像与连续色调图像有很大不同,具有这样的特点在灰度值较高的区域集中了大部分的能量,而在其余的灰度上近似于均匀分布。根据这一特点,选取适当的灰度值作为划分直方图的阈值,根据其前后灰度范围的能量的对比识别出文字图像。
对输入图像,先将其转换为灰度图像,一种简单的做法即取各象素点的亮度值。统计得到该灰度图像的直方图,H[i],i ∈
。根据大量实验,取θeg≥200作为门限将灰度直方图划分为低灰度值与高灰度值两个区域。利用下式计算得到高灰度值区域的能量比例peg=Σi=θgg255H[i]/Σi=0255H[i]]]>将满足peg≥PEG的图像判断为文本图像,这里PEG根据识别的要求可取不同的值。对于文本图像而言,试验表明,取PEG≥0.7是适当的。
(2)局部信息熵根据连续色调图像和文字图像的颜色不同所表现出来的信息熵不同,选取灰度值范围θep1≤i≤θep2,计算其直方图信息熵。这里选θep1=127,θep2=255,将直方图做归一化P[i]=H[i]/Σi=0255H[i]]]>计算直方图局部信息熵epl=-Σi=θep1θep2P[i]logP[i]]]>将满足epl≥EPL的图像判断为文本图像,这里EPL同样根据识别的要求可取不同的值。对于文本图像而言,取EPL≤2是适当的。
(3)融合处理作为依据颜色信息判别文本图像的结果,可以将上述两种方法得到的结果进行融合。方法如下对Peg选取阈值PEG1和PEG2及对epl选取阈值EPL1及EPL2,则定义
EG=0,peg<PEG1;peg-PEG1PEG2-PEG1PEG1≤peg<PEG2;1peg≥PEG2;]]>EP=0,epl>EPL2;1-epl-EPL1EPL2-EPL1EPL1<epl≤EPL2;1epl≤EPL1;]]>定义基于颜色的文本图像识别参数CH=EG+EP2]]>CH∈
。则当CH大于某一阈值参数T_ch时判决图像为文本图像。
颜色检测器分析网络图像的颜色组成,通过建立肤色模型来区分正常图像和色情图像。
(1)模型颜色空间通过对RGB、LUV、HSV、LHS、XYZ等颜色空间的试验比较,最终选择HSV颜色空间建立肤色模型。通常图像都可以用RGB模型表示,HSV颜色空间对颜色的描述更接近人的视觉效果,而且由RGB空间到HSV空间的转换和量化相对比较简单。
(2)肤色模型肤色模型的主要任务是确定人的皮肤颜色在所选取的HSV颜色空间的分布情况。首先将HSV颜色空间进行量化,划分成L个颜色子空间。然后通过统计分析确定皮肤颜色在这L个子空间中的分布,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W。
在进行统计分析时,首先确定样本皮肤像素的总数shin_count以及样本皮肤像素在这L个子空间中的频次sub_count_i,其中满足i=1,Λ,L。
Σi=1Lsub_count_i=shin_count]]>以归一化的频次作为皮肤像素分布于该子空间的可能性。
vi=sub_count_i/skin_count为了消除皮肤样本选取不精确和其他一些统计因素的影响,设定一个肤色分布概率的可能性阈值T_vi。
如果满足vi≥T_vi,则wi=vi;否则,wi=0。这样最终得到A={A1,A2,Λ,AL}W={w1,w2,Λ,wL}其中,wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i=1,2,ΛL。参数L=72。
(3)图像肤色暴露程度对任意图像F(x,y),x=1,Λ,M,y=1,Λ,N,将每一个像素(x,y)转换到HSV颜色空间并量化,得到该像素的颜色子空间标号。这样整幅图像F(x,y)就转化成了一个M×N的标号点阵G(m,n),m=1,Λ,M,n=1,Λ,N,其元素的取值范围为[1,L]。统计G(m,n)的归一化直方图Hue[k],k=1,Λ,L。通过下式计算图像中的肤色暴露程度。
Ratio=Σk=1LHue[k]×wk]]>(4)图像检测利用图像肤色暴露程度Ratio区分正常图像和色情图像。可以采取两种判决方式。
硬判决。确定一个阈值T_Valve,比较Ratio和T_Valve进行判决如果一幅图像满足Ratio≥T_Valve,则判决该图像为色情图像;否则为正常图像。我们的实验结果表明,T_Value的值取在
之间较为合适。
软判决。确定一个低阈值T_Low,一个高阈值T_High,比较Ratio和这两个阈值进行判决如果一幅图像满足Ratio≥T_High,则判决该图像为色情图像;如果满足Ratio≤T_Low,则判决该图像为正常图像;其他情况下认为该图像为可疑图像,本检测器不做判决,送交姿态检测器。根据不同的检测率要求,各参数的设置可以相应的进行修改,在多数情况下,参数可以通过实验来确定。
姿态检测器通过训练建立姿态特征库。对通过颜色检测器的可疑图像进行姿态分析和相似匹配,区分正常图像和色情图像。姿态检测器算法主要由小波边缘检测、图像分割、形态学滤波、形状描述和相似度匹配等几部分组成,各部分具体描述如下(1)小波边缘检测传统的小波边缘检测原理是设Cj+1代表原始图像,Cj,Dj1,Dj2,Dj3是原始影像经小波变换得到的四幅子图像,设({hk}k∈Z,{gk}k∈Z)与({h~k}k∈Z,{g~k}k∈Z)]]>是双正交小波导出的一组对偶滤波器,则图像的双正交小波分解和重构公式如下Cj,m,n=Σk,j∈ZCj+1,k,lhk-2mhl-2nDj,m,n1=Σk,j∈ZCj+1,k,lhk-2mhl-2nDj,m,n2=Σk,j∈ZCj+1,k,lhk-2mhl-2nDj,m,n3=Σk,j∈ZCj+1,k,lhk-2mhl-2n]]>Cj+1,m,n=(Σk,l∈ZCj,k,lh~m-2kh~n-2l+Σk,l∈ZDj,k,l1h~m-2kg~n-2l]]>+Σk,l∈ZDj,k,l2g~m-2kh~n-2l+Σk,l∈ZDj,k,l3g~m-2kg~n-2l)]]>那么检测图像边缘点即沿梯度矢量方向在一定邻域内寻找使得梯度向量幅度为极大值的点,梯度向量幅度正比于Dj=|Dj1|2+|Dj2|2]]>而且该梯度的矢量方向为Arg(Dj1+iDj2)。
在应用中,如果点(x,y)的梯度向量幅度Dj在该梯度的矢量方向上的邻域内为局部极大值点,同时满足Dj>T,T为门限,则该点被认为是边缘点。
我们采用Daubechies-4小波基对原始图像进行塔式小波分解,得到LL低频子带和LH,HL,HH三个高频子带。其中,LH子带包含原始图像水平方向上的边缘;HL子带包含原始图像垂直方向上的边缘;HH子带包含原始图像对角线方向上的边缘。我们分别检测如上三种类型的边缘,将得到的三种类型边缘合成为一个边缘图。对LH子带在水平方向寻找一定邻域内的梯度向量幅度极大值点,仅保留LH子带的小波系数进行小波反变换,得到边缘子图E1(i,j)。类似对HL子带和HH子带进行处理,分别得到E2(i,j)和E3(i,j)边缘子图。利用如下公式对三种类型边缘合成为一个边缘图E(i,j)。
E[i,j]=(E1[i,j]2+E2[i,j]2+E3[i,j]2)12]]>通过颜色检测器的图像是彩色图像,而我们进行小波边缘检测时往往是对灰度图像进行处理,因此可以将彩色图像先转换成灰度图像或者直接利用彩色图像的红色通道进行处理。
(2)图像分割为了对图像中物体的形状进行描述,结合小波边缘图像和肤色模型对图像进行分割,主要从中分割出人体肤色暴露的区域。
首先,对小波边缘图像进行分析,提取最左、最右、最上、最下四个边缘点,并以此确定物体的外接矩形。
然后,擦除原彩色图像中位于物体外接矩形外的像素点。对矩形内的像素点依据肤色模型进行分割。对任意像素点p(x,y),将其转换到HSV空间并量化得到量化标号k∈[1,Λ,L]。如果wk≠0,则保留此像素点;否则,擦除此像素点。
这样就得到初步分割的皮肤区域图像。
(3)形态学滤波初步分割的皮肤区域图像往往存在很多面积很小的颗粒状和斑状噪声,需要对它们进行滤波处理,过滤掉那些不属于物体区域的噪声像素,同时有效保留属于物体区域的那些像素。常用的滤波方法,如低通、高通、平滑等,在过滤掉噪声的同时使原来的有用信息也产生了变化。为此,我们采用数学形态学来对初步分割的图像进行处理。
形态学定义了膨胀、腐蚀、开启、闭合等四种基本运算,其中开启和闭合运算是膨胀和腐蚀运算的复合运算。对于输入图像f,设定结构元素为b,f和b本质上都是图像,则b对f的膨胀定义为(f⊕b)(s)=max{f(s-x)+b(x)|x∈Db,∃(s-x)∈Df}]]>b对f的腐蚀定义为(fΘb)(s)=min{f(s+x)-b(x)|x∈Db,_(s+x)∈Df}b对f的开启定义为fob=(fΘb)_bb对f的闭合定义为f·b=(f_b)Θb其中,Df和Db分别为f和b的定义域,s和x为整数Z2空间中的向量。对于膨胀运算,结构元素b和输入图像f只要有一个像素点相交,即可进行膨胀。相反,对于腐蚀运算,只有当结构元素b全部位于f内时,才能进行腐蚀。从几何上说,膨胀能扩大图像形态,而腐蚀能缩小图像形态。对初步分割的皮肤区域图像,采用形态学腐蚀算子进行处理,先将其转换为灰度图像,然后进行区域描述。
(4)形状描述在得到物体的区域图像之后,如何描述这幅图像的形状有多种形式,如区域形状的数字度量、傅立叶描述、矩描述和拓扑描述。在1962年,M.K.Hu证明了有7个不变矩与图像的平移、旋转和比例尺变化无关,被称为Hu矩,它们对图像的形状描述是十分有用的。下面介绍Hu矩具体含义二维数字图像不变矩对于二维数字图像f(x,y)来说,矩和中心矩的公式如下矩mpq=ΣxΣyxpyqf(x,y)]]>中心矩μpq=ΣxΣy(x-x‾)p(y-y‾)qf(x,y)]]>其中x‾=m10m00,y‾=m01m00.]]>这些各阶的矩和中心矩都有它们具体的物理含义。为了使形状的描述与图像的大小无关,定义归一化的中心矩为ηpq=μpqμ00r,r=p+q2+1]]>利用图像的二阶及三阶矩可以得出图像的7个不变矩(Hu矩)φ1=η20+η02φ2=(η20-η02)2+4η112]]>φ3=(η30-3η12)2+(3η21-η03)2φ4=(η30+η12)2+(η21+η03)2φ=(η30-3η12)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η03+η21)2]φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η12-η30)(η21+η03)[3(η30+η12)2-(η03+η21)2]我们采用图像的二阶至五阶归一化中心矩的18个特征值和Hu矩的7个特征值共25个特征值来描述一幅分割以后的皮肤区域图像的形状特征。
(5)相似度匹配通常我们得到的图像特征数据都是以向量的形式存在的,如何由这些向量来计算它们的相似度,系统采用向量计算。
我们采用加权Euclidean距离来进行相似度度量。设权值向量为Wj,当前图象特征为φj,其中j=1,2,K,25;特征库特征为φij′,i=1,2,K,N,j=1,2,K,25,其中N表示特征库特征个数。定义相似度di为di=1-(Σj=125Wj(φj-φij′)2)12]]>得到N个特征相似度di后,设定域值T_shape,如果特征相似度落在区间[T_shape,1],则认为当前图像特征与特征库中特征相似,并统计相似特征的个数Num。如果Num满足条件Num>T_num,其中T_num为当前图象特征与特征库中N个特征相似个数的阈值,那么认为该图像是色情图像。否则,判决该图像为正常图像。
参见图6、图7,本发明不良信息堵截的系统的多功能管理系统平台含有服务器端和客户机端,两者通过通讯模块实现通讯和数据交互,服务器端含有监听模块和图像检测模块,服务器首先启动一个监听进程监听客户机的连接请求,并在收到客互机的连接请求后启动图像检测线程,和客户机进行通讯,同时调用图像检测API对图像进行检测,并将检测结果传回客户机,在客户机端完成IP地址过滤和关键字过滤,在服务器端完成色情图像检测,服务器端含有其它辅助线程,用以分析系统日志,处理不良的URL列表,自动更新服务和用户应用界面。
图8中多功能管理平台子系统客户机端含有数据过滤接口,负责获取网址数据和回送接口;解协议模块,提取HTTP协议进行处理,实现应用层与IP包数据的分解与重组;数据检测模块,含有正常URL检测、不良URL检测、关键字检测和图像检测;自动更新模块,自动从因特网上更新应用程序和数据;服务器通讯模块,实现客户机与服务器间的通讯与数据交互。
图9为多功能管理平台子系统客户机端数据过滤接口组成框图,数据过滤接口为由Winsock2提供客户机访问网络服务的Windows socket应用程序编程接口(API),包括由传输服务提供者和名字解析服务提供者实现的Winsock服务提供者接口SPI和ws2_32.dll,其过滤结构模式为核心DLL,安装或卸载HOOK接口;HOOKDLL,数据处理核心;图像检测接口和网络通讯接口,此三者互相交互通讯。
图10为多功能管理子系统图像检测模块工作流程,数据过滤接口模块截获到发送数据后,首先检查数据合法性,判断HTTP头是否为图像请求头,如果是图像请求则判断该数据包是否是浏览器发出的,若是则复制socket并发送send数据到目的HTTP服务器,同时调用色情图像检测子系统对图像进行检测,或者由服务器启动一个图像检测线程,调用色情图像检测DSP硬卡,在硬卡进行运算判决,将处理结果返回多功能管理平台,根据图像检测子系统处理结果处理浏览器send数据,如果是正常数据则直接放行,如果是不良图像则将数据替换成预先设定的图像数据。
实施例二参见图1~图10,本实施例同实施例一不同之处在于系统在客户机端完成IP地址过滤和关键字过滤,在服务器端完成色情图像检测,系统可根据网页色情图像和色情标准图像特征库中的特征图像匹配相似的比率,设置色情图像级别,可以提供成人浏览到儿童不可浏览的网络信息,色情图像检测器不含有图标过滤和文本过滤。
实施例三参见图1~图10,本实施例同实施例一不同之处在于系统含有其它不良图像检测器,将特定的其它不良图像的特征样本在RGB色彩空间中进行PCA变换,建立PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器,经过图标检测器和文本检测器获得的可疑图像通过和该特征检测器的比较,检测出不良网络图像输入到颜色检测子系统进行下一步的判断处理。其它不良图像检测器和色情图像检测器原理类似,但是相对人体特征图像识别而言,不良图像缺乏共性的特征,因此只能采用训练、比对的模式进行判决。在很多情况下,人们将RGB色彩空间转换到HSI空间或者YCbCr空间,将亮度信息和色度信息分离,利用HSI空间中的HS二维子空间或者YCbCr空间的CbCr二维子空间建立肤色模型。但是在光照变化比较剧烈的时候,在HS子空间和CbCr子空间建立的颜色分布会出现比较大的变化,这对于特征检测是非常不利的,因此本部分利用PCA变换建立了PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器。
基于神经网络和PCA变换的图像特征检测本发明提出了一种基于神经网络和PCA变换的图像特征检测算法,该算法对输入图像的像素逐个进行检测,在训练模式下,我们对训练集中的特征样本在RGB空间中进行PCA变换,得到一个线性的投影矩阵。投影矩阵的第二列向量和第三列向量构成新的二维特征检测空间,称为PCA特征空间的轴向量,这两个向量正对应着在RGB空间中特征象素变化最小的方向,因此,原训练集中的特征样本经过投影变换后得到新的特征样本,这些特征样本在PCA特征空间中聚合紧密,将PCA特征空间中特征样本送交神经网络进行训练,直至网络收敛。在检测模式下,待检测图像的每个象素经过训练模式下得到的由第二列向量和第三列向量构成的矩阵投影变换后送交神经网络进行检测,逐个检测完毕,得到整幅图像的检测结果。
PCA特征空间一个好的特征检测空间必须满足如下条件①图像中颜色信息被集中于某两个分量;这两个分量的非颜色信息(如亮度信息)应该足够少;这两个分量的均方差应足够小。
PCA变换是在均方误差意义下的最佳变换,通常也称KL变换。用矩阵表示为A=OTB式中,A是变换后的矢量,B是要变换的矢量,O是变换矩阵,与B密切相关,通常由B的自相关矩阵的特征向量组成。
通过PCA变换建立PCA特征空间。设X为RGB空间中用于训练的特征样本集合,X=[X1,X2,L,XT],这里T为特征样本的数目。首先计算特征样本的均值向量M=Σi=1TXi,]]>将RGB空间特征样本去均值后得到均值为0的样本集合Φ=[Φ1,Φ2,L,ΦT],Φi=Xi-M,1≤i≤T。接着计算自相关矩阵ST,ST=Σi=1TΦiΦiT.]]>最后得到自相关矩阵ST的特征值和特征向量,STψ=ψΛ,这里ψ=[ψ1,ψ2,ψ3]代表矩阵的特征相量,Λ为特征值λ1,λ2,λ3(λ1≥λ2≥λ3)构成的对角线矩阵。特征值λ2,λ3对应的两个向量ψ2,ψ3对应着在RGB空间中特征象素变化最小的方向,因此将ψ2,ψ3视为新的色彩空间中两个主轴,构成PCA特征空间,而ψ2,ψ3构成线性投影矩阵,原RGB空间中的特征样本经过线性投影矩阵变换到PCA特征空间。
BP神经网络神经网络方法有着良好的并行处理性能,有着良好的泛化能力,并且不需要数据的先验概率分布,因此,神经网络方法在模式识别领域中体现出了巨大的优越性。BP神经网络是前馈型神经网络中研究的最为成熟且应用最广的一种网络,这里我们采用一个隐层的BP神经网络。网络共分为三层i为输入层节点;j为隐层节点;k为输出层节点。定义网络的学习误差函数为E=12Σk(dk-yk)2]]>式中dk表示网络的期望输出;yk表示网络的实际输出。于是可推出各层权值修正公式如下隐含层与输出层wjk(t+1)=wjk(t)+ηδkyjδk=yk(1-yk)(dk-yk)输入层与隐含层wij(t+1)=wij(t)+ηδjyiδj=yj(1-yj)Σkδkwjk]]>上式中η为学习率;δk,δj为各层对应修正值。
权利要求
1.一种在互联网上堵截色情图像与不良信息的系统,含有IP地址过滤和关键字过滤,其特征是系统含有色情图像检测器和多功能管理平台,标准色情图像特征库和并行运算的高速图像处理卡,其中色情图像检测器建立了对肤色与姿态进行特征分析、特征提取与特征的相似性匹配判决的数学模型核心算法,核心算法嵌入到高速并行运算图像处理卡中,图像处理卡插在网络服务器扩展槽中,标准色情图像库有十万张标准图像特征作为判决依据,多功能管理平台管理服务器与多客户机进程间的通信与交互,管理对浏览的色情图像检测进程,包括对HTTP的解析、还原和重组,完成网址过滤和关键字过滤,多功能管理平台含有服务器端和客户机端,多功能管理平台整合操作系统、浏览器、HTTP协议与嵌入核心算法的硬卡之间的关系,实现色情图像和不良信息检测过滤与浏览器无关,通过Winsock2或XP的SPI接口获取发送和接收的数据,然后对这些数据进行分析,获取HTTP数据,将HTTP数据解协议后,在客户机端进行可靠的URL检测、不良URL检测和关键字过滤,并根据检测结果决定是否需要使用色情图像检测器,如果需要则发送到服务器进行检测,在服务器端调用DSP硬件图像处理卡进行不良图像检测,服务器收集图像检测结果,并将新发现的不良网址自动加入黑名单网址数据库中,黑名单网址数据库中一段时间不用的网址自动删除,使黑名单数据库一直处在高效动态变化中。
2.根据权利要求1所述的在互联网上堵截色情图像与不良信息的系统,其特征是所述的皮肤颜色检测器通过分析网络图像的颜色组成以及对图像颜色空间的实验比较,采用HSV颜色空间建立肤色模型,确定人的皮肤颜色在所选取的HSV颜色空间的分布情况,首先将网络图像的像素转换为HSV颜色空间并量化,划分成L个颜色子空间,然后通过统计分析确定样本皮肤像素的总数shin_count以及样本皮肤像素在这L个子空间中的频次sub_count_i,其中满足i=1,Λ,L,Σi=1Lsub_count_i=shin_count]]>以归一化的频次作为皮肤像素分布于该子空间的可能性,vi=sub_count_i/skin_count设定一个肤色分布概率的可能性阈值T_vi,如果满足vi≥T_vi,则wi=vi;否则,wi=0;这样最终得到A={A1,A2,Λ,AL}W={w1,w2,Λ,wL}其中,wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i=1,2,ΛL,参数L=72,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W;计算图像肤色暴露程度对任意图像F(x,y),x=1,Λ,M,y=1,Λ,N,将每一个像素(x,y)转换到HSV颜色空间并量化,得到该像素的颜色子空间标号,使整幅图像F(x,y)就转化成了一个M×N的标号点阵G(m,n),统计G(m,n)的归一化直方图Hue[k],k=1,Λ,L,通过下式计算图像中的肤色暴露程度,Ratio=Σk=1LHue[k]×wk]]>然后利用图像肤色暴露程度Ratio区分正常图像和色情图像,采取两种判决方式(1)硬判决确定一个阈值T_Valve,比较Ratio和T_Valve进行判决如果一幅图像满足Ratio≥T_Valve,则判决该图像为色情图像;否则为正常图像,T_Value的值取在
之间;(2)软判决确定一个低阈值T_Low,一个高阈值T_High,比较Ratio和这两个阈值进行判决如果一幅图像满足Ratio≥T_High,则判决该图像为色情图像;如果满足Ratio≤T_Low,则判决该图像为正常图像;其他情况下认为该图像为可疑图像,本检测器不做判决,转送姿态检测器检测;所述的姿态检测器,首先挑选出十万个具有代表性的标准色情图像进行特征分析,建立以准确的色情图像数学模型为特征的色情标准图像特征库,作为判决网络图像是否为色情图像的相似性匹配判决依据,姿态检测器核心算法主要含有小波边缘检测、图像分割、形态学滤波、形状描述和相似度匹配几部分小波边缘检测,采用Daubechies-4小波基对网络上的可疑原始图像进行塔式小波分解,得到LL低频子带和LH,HL,HH三个高频子带,利用如下公式E[i,j]=(E1[i,j]2+E2[i,j]2+E3[i,j]2)12]]>对三种类型边缘合成为一个边缘图E(i,j);图像分割,首先对小波边缘图像进行分析,提取上、下、左、右四个边缘点,并依此确定物体的外接矩形,然后擦除原彩色图像中位于外接矩形外的像素点,对矩形内的像素点依据肤色模型进行分割,对任意像素点p(x,y),将其转换到HSV空间并量化得到量化标号k∈[1,Λ,L],如果wk≠0,则保留此像素点,否则,擦除此像素点,得到初步分割的皮肤区域图像;形态学滤波,采用数学形态学对初步分割的图像进行处理,过滤掉不属于物体区域的噪声像素;形状描述,在得到物体的区域图像之后,利用图像的二阶及三阶矩可以得出图像的7个不变Hu矩φ1=η20+η02φ2=(η20-η02)2+4η112]]>φ3=(η30-3η12)2+(3η21-η03)2φ4=(η30+η12)2+(η21+η03)2φ5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η03+η21)2]φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η03+η21)2]+(3η12-η30)(η21+η03)[3(η30+η12)2-(η03+η21)2]采用图像的二阶至五阶归一化中心矩的18个特征值和Hu矩的7个特征值来描述一幅分割以后的皮肤区域图像的形状特征;相似度匹配,采用加权Euclidean距离来进行相似度度量,设权值向量为Wj,当前图象特征为φj,其中j=1,2,K,25;特征库特征为φij′,i=1,2,K,N,j=1,2,K,25,其中N表示特征库特征个数,定义相似度di为di=1-(Σj=125Wj(φj-φij′)2)12]]>得到N个特征相似度di后,设定域值T_shape,如果特征相似度落在区间[T_shape,1],则认为当前图像特征与特征库中特征相似,并统计相似特征的个数Num,如果Num满足条件Num>T_num,其中T_num为当前图象特征与特征库中N个特征相似个数的阈值,那么认为该图像是色情图像,否则,判决该图像为正常图像。
3.根据权利要求1所述的在互联网上堵截色情图像与不良信息的系统,其特征是所述的高速运算并行DSP硬件图像处理卡含有数字信号处理器及外围电路和PCI总线接口电路,由图像识别数学模型核心算法组成的基于内容的图像皮肤颜色检测和姿态检测过滤系统存储在通过外部存储器接口和数字信号处理器的中央处理器连接的存储器内,中央处理器的主处理器接口连接可编程逻辑器件,可编程逻辑器件通过PCI驱动电路连接硬卡的金手指,所述的硬卡通过PCI插槽和计算机服务器连接,硬卡上数字信号处理电路的中央处理器采用TMS320C6711,频率合成器时钟电路和上电复位硬件狗电路和中央处理器的对应端口连接,SDRAM外部存储器和闪存FLASH通过总线接口和中央处理器的I/O端口连接,中央处理器的主处理器接口连接CPLD和可编程逻辑器件,可编程逻辑器件选用PLX9054,或者选用PLX9052,或者采用AMCC的S5920,或S5933。
4.根据权利要求1所述的在互联网上堵截色情图像与不良信息的系统,其特征是多功能管理平台的服务器端和客户机端通过通讯模块实现通讯和数据交互,服务器端含有监听模块和图像检测模块,监听模块用以完成与客户机的通信,实现监听客户机图像检测的连接请求,收到连接请求后,启动一个新线程和客户机通信;图像检测模块,完成服务器和客户机的通信,启动一个线程调用色情图像检测器,对图像进行检测并返回检测结果;服务器首先启动一个监听线程监听客户机的连接请求,并在收到客户机的连接请求后启动图像检测线程,检测线程通过命令结构和客户机进行通讯,同时调用DSP硬件图像处理卡中图像检测API函数处理数据对网络图像进行检测,并将处理结果传回客户机;由于色情判断是在服务器的应用层,多个IP数据包拆包后构成图像帧时进行,为了TCP联接不断链,采用“存储转发”方法,过滤系统先存下完整的数据报文,再发给客户端,对Web发端,过滤系统伪装成收方,对真正的接收者客户机又伪装成发方,为确保联接不断链,在精确计算超时时间内要丢掉一些无关大局的报文。
5.根据权利要求4所述的在互联网上堵截色情图像与不良信息的系统,其特征是多功能管理平台客户机端含有数据过滤模块,提供网络数据的获取和回送接口;解协议模块,从数据过滤接口提取HTTP协议对网络信息进行处理,实现应用层与IP包数据的分解与重组;数据检测模块,含有正常URL检测、不良URL检测、关键字检测和图像检测进程,在客户机端进行不良文字过滤,可信URL检测、不良URL检测,通过将获取的HTTP数据和系统中的黑名单网址数据库的网址进行对比,检测出不良URL并进行拦截,然后进入第二层次的关键字比对,若浏览的关键字在色情与不良信息关键字库内则拦截,然后根据检测结果调用图像检测进程在服务器端对可疑网络图像信息进行检测;自动更新模块,自动从因特网上更新应用程序和数据;服务器通讯模块,完成客户机与服务器间的通讯与数据交互。
6.根据权利要求5所述的在互联网上堵截色情图像与不良信息的系统,其特征是系统平台可采用Windows 2K或XP,数据过滤接口为由Winsock2提供的供客户机应用程序访问网络服务的Windows socket应用程序编程接口,包括由传输服务提供者和名字解析服务提供者实现的Winsock服务提供者接口SPI和ws2_32.dll,SPI开放出标准的接口函数,使之在服务提供者之间插入一层,实现SPI HOOK,其过滤结构模式为核心DLL,安装或卸载SPI开放标准的HOOK接口;HOOKDLL,数据处理核心;图像检测接口和网络通讯接口,此三者互相交互通讯。
7.根据权利要求6所述的在互联网上堵截色情图像与不良信息的系统,其特征是数据过滤接口模块截获到发送数据后,首先检查数据合法性,判断HTTP头是否为图像请求头,如果是图像请求则判断该数据包是否是浏览器发出的,若是则复制socket并发送send数据到目的HTTP服务器,同时调用色情图像检测器对图像进行检测,或者由服务器启动一个图像检测线程,调用色情图像检测DSP硬卡,在硬卡进行运算判决,将处理结果返回多功能管理平台,根据色情图像检测器或图像检测硬卡处理结果处理浏览器send数据,如果是正常数据则直接放行,如果是不良图像则将数据替换成预先设定的图像数据。
8.根据权利要求1~7任一项所述的在互联网上堵截色情图像与不良信息的系统,其特征是色情图像检测器还含有图标检测器和文本检测器,所述的图标检测器,首先对图像的宽度和高度设定阀值,通过对图像的尺寸比例对网络图像进行判别,小于该阀值的图像被认为是图标一类尺寸太小的不良图像,大于该阀值的则判决为正常图像;其次,根据图像的高度与宽度的比例判断,设定图像高度与宽度的比例阀值,筛选出横向或纵向的多数为网站广告之类的窄条图像;所述的文本检测器,根据文本图像与一般的连续色调图像在颜色组成上的差别,通过对图像颜色直方图的分析,选取适当的灰度值作为划分直方图的阀值,H[i],i∈
,取θeg≥200作为门限将灰度直方图划分为低灰度值和高灰度值两个区域,利用下式计算得到高灰度值区域的能量比例peg=Σi=θgg255H[i]/Σi=0255H[i],]]>将满足Peg≥PEG的图像判断为文本图像,根据识别要求PEG可选取不同的值,一般选取PEG≥0.7;或者根据文本图像和一般连续色调图像所表现出的信息熵不同,选取一定的灰度值范围θep1≤i≤θep2,计算其直方图信息5熵,选θep1=127,θep2=255,将直方图做归一化处理P[i]=H[i]/Σi=0255H[i],]]>计算直方图局部信息熵epl=-Σi=θep1θep2P[i]logP[i]]]>将满足epl≥EPL的图像判断为文本图像,根据识别的要求EPL可取不同的值,对于文本图像一般取EPL≤2;或者依据颜色信息判别文本图像的结果,将上述两种方法进行融合处理对peg选取阈值PEG1和PEG2及对epl选取阈值EPL1及EPL2,则定义EG=0,peg<PEG1;peg-PEG1PEG2-PEG1PEG1≤peg<PEG2;1peg≥PEG2;]]>EP=0,epl>EPL2;1-epl-EPL1EPL2-EPL1EPL1<epl≤EPL2;1epl≤EPL1;]]>定义基于颜色的文本图像识别参数CH=EG+EP2]]>CH∈
;则当CH大于某一阈值参数T_ch时判决图像为文本图像。
9.根据权利要求8所述的在互联网上堵截色情图像与不良信息的系统,其特征是多功能管理平台服务器端含有其它辅助线程,其它辅助线程包括数据分析服务,用以分析系统日志,进行不良网址的记录与分析,处理不良的URL列表;自动更新服务,定期检查版本是否已经更新,自动从因特网上进行更新;用户应用界面,为用户提供增加信任URL,不良URL和显示系统日志。
10.根据权利要求9所述的在互联网上堵截色情图像与不良信息的系统,其特征是色情图像检测器还含有其它不良图像检测器,将特定的其它不良图像的特征样本在RGB色彩空间中进行PCA变换,建立PCA色彩空间,结合神经网络对PCA色彩空间中的肤色样本进行训练,得到一个稳定的特征检测器,经过图标检测器和文本检测器获得的可疑图像通过和该特征检测器的比较,检测出不良网络图像输入到皮肤颜色检测器进行下一步的判断处理。
全文摘要
本发明涉及一种在互联网上堵截色情图像与不良信息的系统。系统含有IP地址过滤、关键字过滤和色情图像检测,通过多次判决反馈建立色情图像数学模型;建立色情标准图像特征库,作为判决网络图像是否为色情图像的依据;建立相似性匹配判决模型;对通过关键字对比的网络信息进行基于内容的图像判决。既在应用层进行信息内容过滤,又在IP层采用网址过滤,能直接拦截色情图像信息,实时更新URL数据库,由过去被动的网址过滤跳跃到主动的内容过滤,系统独具的多功能管理平台,整合了操作系统、浏览器、因特网协议和图像检测器之间的复杂关系,解决了客户机和服务器之间的进程交互和色情图像检测任务的分工和数据重组问题,并实现了与浏览器无关的特点。
文档编号G06K9/00GK1761204SQ20051004857
公开日2006年4月19日 申请日期2005年11月18日 优先权日2005年11月18日
发明者赵慧琴, 周翬, 汤怀礼, 李弼程, 彭天强, 曹闻, 张晨民 申请人:郑州金惠计算机系统工程有限公司, 赵慧琴, 周翬, 汤怀礼, 曹闻, 彭天强, 李弼程, 张晨民
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1