利用图片的局部不变特征检测图像型垃圾邮件的方法

文档序号:6600210阅读:178来源:国知局
专利名称:利用图片的局部不变特征检测图像型垃圾邮件的方法
技术领域
本发明是一种利用垃圾图片的局部不变特征,来训练高斯混合模型,对图像型垃 圾邮件检测的实现方案,主要解决了当今的技术对图片型垃圾邮件检测效率和召回率低等 问题,属于数据挖掘和机器学习领域。
背景技术
电子邮件已成为人们进行网络交流沟通的重要途径,但是由于巨大的商业、经济 及政治利益,导致垃圾邮件数量急剧膨。起初盛行的垃圾邮件是将广告等垃圾信息以文字 形式嵌入图像中,Hrishikesh等人在利用挖掘出来的文本以及颜色特征来对邮件进行分类 [1]。Fumera等在2006年提出了一种OCR(光学字符识别)技术检测图像型垃圾邮件的文 本信息,相对其他过滤系统较好检测效果[2]。同时垃圾邮件制造者们也在不断地强化垃圾 邮件的逃避检测系统的能力,他们对嵌有广告等垃圾信息的图像进行了模糊处理,这一举 动使得OCR技术无用武之地。Dredzeet al.提出了利用图片的高出特征来对图片进行分 类,像文件格式,大小,颜色分布等[3],优点是能够比图片的边缘特征等低层的速度更快, 并且具有较好的扩展性,能够和针对地层特征的图片过滤器有效的结合。
Fumera在2007年提出了一种通过计算图像周长复杂度的方法来判别一张图片是 否经过了模糊技术的处理[4]。一张图片的模糊的程度可以由周长复杂度来衡量的,计算公 式为文字区域周长的平方和文字区域面积的比值。通过文字周长复杂度可以标识断字符或 者是噪音对象的出现。由于不能证实经过模糊处理的图像就是携带垃圾信息的图像,这种 处理技术只能作为垃圾邮件过滤系统中预处理某个模块。Wang等人提出的图像型垃圾邮 件过滤方法是通过比较图像之间的相似性方法[5]分别使用结合三类图像型垃圾邮件过 滤方法(颜色直方图过滤方法、哈尔小波过滤以及方向直方图特征),实验的结果表明每 个过滤系统单独执行时,通过比较发现小波过滤获取了最好的检测率并且其误检率(将垃 圾图片标识为正常图片)低于0. 0009%,三类过滤器结合起来的精确率达到96%,该方法 是通过结合已有的过滤系统来实现的,可以说它是对一个阶段的垃圾邮件过滤技术的一个 总结,使用该方法提高了图像型垃圾邮件过滤系统的性能。Mehta等在2008年针对模板而 大量生成的垃圾邮件进行检测,利用有重复相似性,利用SVM分类的精确度达到了 98%,同 时提出了利用GMM来对图片聚类的算法[6]将每幅图片缩小到100X 100像素点,提取每 个像素的纹理形状和颜色特征,对每幅图片训练GMM,并计算图片中的相近距离来聚类,通 过计算阀值来计算垃圾图片,虽然该方法计算精确但是计算量太大,并且算法的时间复杂 度较高,不利于在实际的应用中。随后由Zuo等提出了使用一类使用核函数是PMK的SVM 分类器来对Email图像的局部不变特征进行归类[7]。该方法主要是针对那些为了逃避基 于图像模板相似性的过滤器,而改变图像的总体布局的垃圾邮件。未改变图片的某些标记。 所以这种方法在一定程度上弥补了相似性检测的漏洞。[1]Hrishikesh Aradhye, Gregory Myers, and James Herson. Image analysis forefficient categorization of image-based spam e-mail.In Proceedings ofEighthInternational Conference on Document Analysis and Recognition, ICDAR2005, volume 2, pages 914-918. IEEE Computer Society,2005.[2]Giorgio Fumera, Ignazio Pillai, and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images. Journal of Machine LearningResearch, (7) :2699_2720,2006.[3]Mark Dredze, Reuven Gevaryahu, and Ari Elias-Bachrach. Learning fast classifiersfor image spam. In Proceedings of the Fourth Conference on Email and Anti-Spam, CEAS,2007,2007.[4]Giorgio Fumera,Ignazio Pillai,Fabio Roli,and Battista Biggio. Image spamfiltering using textual and visual information, MIT Spam Conference2007, Cambridge, USA, March 2007[5] Zhe Wang, William Josephson, Qin Lv, Moses Charikar, and Kai Li.Filteringimage spam with near-duplicate detection. In Proceedings of the FourthConference on Email and Anti-Spam, CEAS' 2007,2007.[6]Mehta, B. , Nangia, S. , Gupta, Μ. , and Nejdl, W. Detecting image spam usingvisual features and near duplicate detection. In Proceeding of the 17th internationalConference on World Wide Web(Beijing, China, April 21-25,2008). WWW' 08. ACM, New York, NY,497-506.[7]Haiqiang Zuo, Weiming Hu, Ou Wu, Yunfei Chen, Guan Luo. Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel. Proceedings ofthe 18th international conference on World Wide Web Pages,2009,1187—1188.

发明内容
技术问题本发明的目的是提供一种利用图片的局部不变特征检测图像型垃圾邮 件的方法,利用在垃圾图片中存在着的局部不变区域,来训练基于高斯混合模型分类器,在 此基础上对待测试的图片进行分类以达到检测图像型垃圾邮件的目的。技术方案本发明提出了的利用图片的局部不变特征检测图像型垃圾邮件的方 法,是一种利用健壮特征的加速提取算法来提取图片中的垃圾信息的不变区域特征,从而 生成图片的特征向量,用最大似然估计算法估计高斯混合模型的参数,获得基于高斯混合 模型的分类器。对图像型垃圾邮件进行检测的实现方法,整个方法包括图片特征的提取,高 斯混合模型参数的估计,图像型邮件的检测三个模块,系统的模块组成如图1所示。基于图片局部不变区域的高斯混合模型分类器的实现方法中包含两个阶段训练 阶段和测试阶段,所包含的步骤为训练阶段的步骤为一、首先根据样本集进行训练步骤1)对待训练的图片数据集进行标签,分为垃圾图片和正常图片;步骤2)采用“健壮特征的加速提取算法”分别提取每个垃圾图片和正常图片的局 部不变特征描述符,每个局部不变特征描述符由向量构成;步骤3)利用“均值聚类算法”对训练集中每个垃圾图片和正常图片的局部不变特征描述符进行聚类,最终得到若干个聚类中心;以此聚类中心为参照点,将每个图片的局部不变特征描述符投影到这些参考点上,这样将每个图片标准化为若干维的向量;步骤4)分别把训练集中正常图片和垃圾图片所对应的向量作为高斯混合模型的 训练样本,利用最大似然函数估计算法分别估计垃圾图片集合和正常图片集合的高斯混合 模型的参数;步骤5)由最大似然函数估计算法得到的垃圾图片集合和正常图片集合对应高斯 混合模型的参数,这样可以确定正常图片集合和垃圾图片集合的多元高斯混合模型的分布 函数。二、然后进行检测过程步骤21)对于待检测的图片,利用健壮特征的加速提取算法来提取图片的局部不 变特征描述符;步骤22)利用步骤3)中的聚类中心为参考点,对步骤21)中的局部不变特征描述 符进行标准化,得到待检测图片的向量;步骤23)以待测试图片的向量代入分布函数,分别计算正常图片高斯混合模型的 分布函数值和垃圾图片的高斯混合模型的分布函数值;步骤24)根据步骤23)得到的分布函数值来进行分类哪个值大则属于对应的图 片。有益效果本发明方法提出了利用健壮特征的加速提取算法来提取图片中的垃圾 信息的不变区域特征,来训练高斯混合模型来对垃圾邮件进行检测。通过使用本发明的方 法,能够提高垃圾邮件检测的精度和召回率,节省程序运算时间和空间。


图1基于高斯混合模型的分类器原型,图2基于高斯混合模型的分类器流程图。
具体实施例方式基于图片的局部不变特征检测图像型垃圾邮件,采用VC++6.0为开发工具,其中 对图像特征的处理利用opencvl. 0开源库,其中详细的步骤如下一、训练阶段获取垃圾图片与正常图片,构成训练集。步骤1)对待训练的数据集的图片进行标签,令垃圾图片(Image spam)为Ii正常 图片(image ham)Ji,其中 i = {1,2...N};步骤2)采用surf (健壮特征的加速提取)算法提取Ii和Ji中每张图片的局部不 变特征描述符,其中图片的每个描述符用L维向量来描述(L = 64);步骤3)利用“均值聚类算法”对训练集中每个垃圾图片和正常图片的64维局部 不变特征描述符进行聚类,最终得到200个聚类中心。以此200个聚类中心为参照点,将每 个图片的局部不变特征描述符投影到这些参考点上,这样将每个图片标准化为200维的向 量;步骤4)通过步骤3)得到了垃圾图片特征向量库Fspam = {Fspaffl(1), Fspam⑵,..., Fspam(N)I禾口正常图片的特征向量库Fham = (Fham(I)‘ Fham (2),· · ·,Fham(N) J ‘
步骤5)以特征库Fspam为样本,利用EM算法估计Image spam的高斯混合模型的参
数 <formula>formula see original document page 6</formula>
EM 算法,E 步<formula>formula see original document page 6</formula>
M 步<formula>formula see original document page 6</formula>
<formula>formula see original document page 6</formula>
<formula>formula see original document page 6</formula>
其中,Pi为训练样本,π是高斯分布混合模型中对应的权值,μ分布的是均值,Σ 是方差,L是混合模型的数目;步骤6)得到image spam的局部不变特征的高斯分布函数
k^l,Classifer(Ospam)^;
η步骤7)以特征库Fham为样本,利用EM算法估计Image ham的高斯混合模型的参 数,原理同步骤5;步骤8)得到image ham局部不变特征的分布函数<formula>formula see original document page 6</formula>
二、检测阶段的步骤为步骤1)待检测的图片数据集为Tj, j = {1,2...M},其中M为待检测的图片个数;步骤2)利用surf算法提取Tj中每张图片的局部不变特征描述符,原理同步骤2 ;步骤3)利用K-Mean算法,将提取的局部不变的特征描述符聚类为长度为SIZE的 特征向量,原理同步骤3 ;步骤4)由聚类后的特征向量得到特征数据库Ftest = {Ftestω,Ftest⑵,...,Ftest(N)};步骤5)将特征向量库Ftest为样本值,分别计算与高斯混合分布分布函数 Classifer ( θ ham)和 Classifer ( θ spam)的距离 d/“和 d/p",其中 d/·表示图片 j 与 ham 高 斯混合分布函数的距离,d/p-表示图片j与spam高斯混合分布函数的距离;步骤6)若d/ 大于d/p",则Tj中的第j张图片属于spam图片,否则属于ham图 片;步骤7)重复步骤2)-步骤6),把待检测集合中的每一个图片进行检测。
权利要求
一种利用图片的局部不变特征检测图像型垃圾邮件的方法,其特征在于该方法主要分为以下步骤一、首先根据样本集进行训练步骤1)对待训练的图片数据集进行标签,分为垃圾图片和正常图片;步骤2)采用“健壮特征的加速提取算法”分别提取每个垃圾图片和正常图片的局部不变特征描述符,每个局部不变特征描述符出向量构成;步骤3)利用“均值聚类算法”对训练集中每个垃圾图片和正常图片的局部不变特征描述符进行聚类,最终得到若干个聚类中心;以此聚类中心为参照点,将每个图片的局部不变特征描述符投影到这些参考点上,这样将每个图片标准化为若干维的向量;步骤4)分别把训练集中正常图片和垃圾图片所对应的向量作为高斯混合模型的训练样本,利用最大似然函数估计算法分别估计垃圾图片集合和正常图片集合的高斯混合模型的参数;步骤5)由最大似然函数估计算法得到的垃圾图片集合和正常图片集合对应高斯混合模型的参数,这样可以确定正常图片集合和垃圾图片集合的多元高斯混合模型的分布函数。二、然后进行检测过程步骤21)对于待检测的图片,利用健壮特征的加速提取算法来提取图片的局部不变特征描述符;步骤22)利用步骤3)中的聚类中心为参考点,对步骤21)中的局部不变特征描述符进行标准化,得到待检测图片的向量;步骤23)以待测试图片的向量代入分布函数,分别计算正常图片高斯混合模型的分布函数值和垃圾图片的高斯混合模型的分布函数值;步骤24)根据步骤23)得到的分布函数值来进行分类哪个值大则属于对应的图片。
全文摘要
利用图片的局部不变特征检测图像型垃圾邮件的方法是一种利用健壮特征的加速提取算法来提取图片中的垃圾信息的不变区域特征,从而生成图片的特征向量,用最大可能性算法估计高斯混合模型的参数,来训练高斯混合模型分类器。经过实验能够提高垃圾邮件的召回率,节省程序运算时间和空间。获得基于高斯混合模型的分类器。对图像型垃圾邮件进行检测的实现方法,整个方法包括图片特征的提取,高斯混合模型参数的估计,图像型邮件的检测三个模块。
文档编号G06K9/66GK101819637SQ20101013994
公开日2010年9月1日 申请日期2010年4月2日 优先权日2010年4月2日
发明者周国强, 张卫丰, 张迎周, 杨波, 王宗辉, 王慕妮, 许碧娣, 陆柳敏, 陆柳青, 韩蕊 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1