利用改进的高斯混合模型分类器检测图像垃圾邮件的方法

文档序号:6423459阅读:362来源:国知局
专利名称:利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
技术领域
本发明是运用统计思想中的高斯混合模型,对图片的局部不变特征进行密度函数 拟合。提出基于高斯混合模型的均值聚类算法以及分类模型,对图像型垃圾邮件进行检测。 主要解决了当今的技术对图像型垃圾邮件的检测效率和召回率低等问题,属于数据挖掘和 机器学习领域。
背景技术
电子邮件已成为人们进行网络交流沟通的重要途径,但是由于巨大的商业、经济 及政治利益,导致垃圾邮件数量急剧膨胀。起初盛行的图像型垃圾邮件是将广告等垃圾信 息以文字形式嵌入图像中,Hrishikesh等人在利用挖掘出来的文本以及颜色特征来对邮件 进行分类[1]。Fumera等在2006年提出了一种OCR(光学字符识别)技术检测图像型垃圾 邮件的文本信息,相对其他过滤系统来说,具有较好的检测效果[2]。同时垃圾邮件制造者 们也在不断地增强垃圾邮件逃避检测系统的能力,他们对嵌有广告等垃圾信息的图像进行 了模糊处理,这使得当时的OCR技术无法挖掘出嵌入这种图片中的文字。Dredze et al.提 出了利用图片的高级特征来对图片进行分类,高级特征指的是文件格式,大小,颜色分布等。这种方法的优点是检测速度很快,并且具有较好的扩展性,能够与对低级特征的图片 过滤器进行有效的结合。Fumera在2007年提出了一种通过计算图像周长复杂度的方法来判别一张图片是 否经过了模糊技术的处理W]。一张图片的模糊的程度可以由周长复杂度来衡量的,计算方 法为文字区域周长的平方和文字区域面积的比值。通过文字周长复杂度可以标识断字符或 者是噪音对象的出现。由于不能证实经过模糊处理的图像就是携带垃圾信息的图像,这种 处理技术只能作为垃圾邮件过滤系统中预处理某个模块。Zhe Wang等人提出的图像型垃圾 邮件过滤方法是通过比较图像之间的相似性方法[5]分别使用结合三类图像型垃圾邮件 过滤方法(颜色直方图过滤方法、哈尔小波过滤以及方向直方图特征),实验的结果表明 每个过滤系统单独执行时,通过比较发现小波过滤获取了最好的检测率并且其误检率(将 正常图片标识为垃圾图片)低于0. 0009%,三类过滤器结合起来的精确率达到96%,该方 法是通过结合已有的过滤系统来实现的,可以说它是对一个阶段的垃圾邮件过滤技术的一 个总结,使用该方法提高了图像型垃圾邮件过滤系统的性能。Mehta等在2008年针对使用模板而大量生成的垃圾邮件进行检测,利用重复相 似性质,使用支持向量机分类器的精确度达到了 98%,同时提出了利用高斯混合模型来对 图片进行聚类的算法[6]将每幅图片缩小到100X100像素点,提取每个像素的纹理形状 和颜色特征,对每幅图片训练其高斯混合模型,并计算高斯混合模型之间的相近距离来聚 类。通过计算阀值来分辨垃圾图片,虽然该方法采用统计学知识计算比较精确但是计算量 太大,算法的时间复杂度较高,不利于在实际的应用中。随后由Zuo等提出了使用核函数 为PMK的一类支持向量机分类器对电子邮件中图像的局部不变特征进行归类[7]。该方法 主要是针对那些为了逃避基于图像模板相似性的过滤器,而改变图像的总体布局,保留图片中的某些局部不变特征的垃圾邮件。所以这种方法在一定程度上弥补了相似性检测的漏 洞。[1]Hrishikesh Aradhye, Gregory Myers, and James Herson. Image analysis forefficient categorization of image-based spam e-mail.In Proceedings of EighthInternational Conference on Document Analysis and Recognition, ICDAR 2005, volume 2, pages 914-918. IEEE Computer Society,2005.[2]Giorgio Fumera, Ignazio Pillai, and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images. Journal of Machine LearningResearch, (7) :2699-2720,2006.[3]Mark Dredze, Reuven Gevaryahu, and Ari Elias-Bachrach. Learning fast classifiersfor image spam. In Proceedings of the Fourth Conference on Email and Anti-Spam, CEAS,2007,2007.[4]Giorgio Fumera,Ignazio Pillai, Fabio Roli, and Battista Biggio. Image spamfiltering using textual and visual information, MIT Spam Conference2007, Cambridge, USA, March 2007[5]Zhe Wang, William Josephson, Qin Lv, Moses Charikar, and Kai Li.Filteringimage spam with near-duplicate detection. In Proceedings of the FourthConference on Email and Anti-Spam, CEAS' 2007,2007.[6]Mehta, B. , Nangia, S. , Gupta, Μ. , and Nejdl, W. Detecting image spam usingvisual features and near duplicate detection. In Proceeding of the 17th internationalConference on World Wide Web(Beijing, China, April 21-25,2008). WWW' 08. ACM, New York, NY, 497-506.[7]Haiqiang Zuo, Weiming Hu, Ou Wu, Yunfei Chen, Guan Luo. Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel. Proceedings ofthe 18th international conference on World Wide Web Pages,2009,1187—1188.

发明内容
技术问题本发明的目的是提供一种利用改进的高斯混合模型分类器检测图像垃 圾邮件的方法。针对挖掘出的图片局部不变特征是大样本数据这个现象,从统计学角度,使 用高斯混合模型对其进行密度函数拟合,作为一种特殊的特征向量。设计基于高斯混合模 型的均值聚类算法,即设计聚类算法能够对这种特殊的特征向量进行聚类。并在此基础上 构建分类器,用于对待检测图像进行分类以达到检测图像型垃圾邮件的目的。技术方案本发明提出的利用改进的高斯混合模型分类器检测图像垃圾邮件的方 法,是一种基于尺度空间的不变量技术的特征检测方法,对图像平移、旋转、缩放、甚至仿射 变换保持不变性的图像局部特征。用这种方法来提取图片中的不变区域特征,其维数较大, 使用高斯混合模型对其进行密度函数拟合,以形成一种特殊的特征向量是由拟合而成的 局部不变特征密度函数的均值与协方差矩阵构成的。针对这种特殊的特征向量,准备设计 一种新的聚类方法并且在此基础上构建分类器,对其进行分类评估,也就是基于高斯混合 模型均值聚类的分类器。改进分布之间的距离计算方法,使用交叉熵作为计算分布之间的相似度的衡量指标。整个方法包括图片不变特征的提取,密度函数均值与协方差矩阵的提取,基于高 斯混合模型的均值聚类算法的实现,基于此聚类算法的分类模型的设计四大模块组成,系 统的模块组成如图1所示。利用改进的高斯混合模型分类器检测图像型垃圾邮件的实现方法需要以下步 骤一、根据样本集进行训练步骤1)对待训练的图片数据集进行标签,分为垃圾图片和正常图片;步骤2~)采用“健壮特征的加速提取算法”分别提取每个垃圾图片和正常图片的局 部不变特征描述符;步骤幻对每张图片的局部不变特征描述符进行高斯混合模型拟合,采用期望最 大化方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤4)对均值聚类算法进行改进,使其对这种特殊的高斯混合特征向量进行聚 类,涉及到距离计算方法以及标准测度函数的确定;步骤幻使用交叉熵作为高斯混合分布之间的距离计算方法;步骤6)根据交叉熵计算公式,需要两个分布之间的样本是相同的,因此编写根据 均值与协方差矩阵来获取样本的函数方法;步骤7)以图片所属的聚类中心的索引值向量作为标准测度函数;步骤8)在步骤4) 步骤7)确定了距离计算方法以及标准测度函数的基础上,再 运用均值聚类算法构成基于高斯混合分布的均值聚类算法;步骤9)根据步骤8)形成的聚类算法分别对垃圾图片与正常图片进行聚类;步骤10)在基于高斯混合分布的均值聚类算法基础上再结合交叉熵的距离计算 方法构建高斯混合模型的分类器;二、使用训练好的高斯混合模型分类器对待检测图片进行分类阶段步骤1)采用“健壮特征的加速提取算法”提取待检测图片的局部不变特征描述 符;步骤2)对每张图片的局部不变特征描述符进行高斯混合分布的拟合,采用期望 最大化方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤3)使用由均值以及协方差矩阵确定的样本获取函数,获取待检测图片的样 本值;步骤4)计算每张待检测图片的高斯混合分布与垃圾图片以及正常图片的聚类中 心的交叉熵值,选取两类的最小交叉熵值,作为待检测图片与两大类图片的相似程度;步骤5)比较两个最小熵值的大小,由此对待检测图片进行垃圾图片与正常图片 的归类。有益效果本发明方法针对局部不变特征的大样本特性,采用统计学中的高斯混 合模型对其进行密度函数拟合,设计适用于该特征向量的均值聚类算法以及分类模型。通 过本方法的使用,能够提高图像型垃圾邮件检测的精度和召回率,节省程序运算时间和空 间。


图1利用改进的高斯混合模型分类器进行图像型垃圾邮件检测的流程2提出的基于高斯混合模型的均值聚类算法的原理3提出的基于高斯混合分布的分类模型图
具体实施例方式该方法主要分为以下步骤一、根据样本集进行训练步骤1)对待训练的图片数据集进行标签,分为垃圾图片和正常图片;步骤2~)采用“健壮特征的加速提取算法”分别提取每个垃圾图片和正常图片的局 部不变特征描述符;步骤幻对每张图片的局部不变特征描述符进行高斯混合模型拟合,采用期望最 大化方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤4)对均值聚类算法进行改进,使其对这种特殊的高斯混合特征向量进行聚 类,涉及到距离计算方法以及标准测度函数的确定;步骤幻使用交叉熵作为高斯混合分布之间的距离计算方法;步骤6)根据交叉熵计算公式,需要两个分布之间的样本是相同的,因此编写根据 均值与协方差矩阵来获取样本的函数方法;步骤7)以图片所属的聚类中心的索引值向量作为标准测度函数;步骤8)在步骤4) 步骤7)确定了距离计算方法以及标准测度函数的基础上,再 运用均值聚类算法构成基于高斯混合分布的均值聚类算法;步骤9)根据步骤8)形成的聚类算法分别对垃圾图片与正常图片进行聚类;步骤10)在基于高斯混合分布的均值聚类算法基础上再结合交叉熵的距离计算 方法构建高斯混合模型的分类器;二、使用训练好的高斯混合模型分类器对待检测图片进行分类阶段步骤1)采用“健壮特征的加速提取算法”提取待检测图片的局部不变特征描述 符;步骤2)对每张图片的局部不变特征描述符进行高斯混合分布的拟合,采用期望 最大化方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤3)使用由均值以及协方差矩阵确定的样本获取函数,获取待检测图片的样 本值;步骤4)计算每张待检测图片的高斯混合分布与垃圾图片以及正常图片的聚类中 心的交叉熵值,选取两类的最小交叉熵值,作为待检测图片与两大类图片的相似程度;步骤5)比较两个最小熵值的大小,由此对待检测图片进行垃圾图片与正常图片 的归类。其中详细的具体步骤如下利用改进的高斯混合模型分类器检测图像型垃圾邮件,采用MATLAB与Eclipse为 开发工具,应用MATLAB与JAVA的混合编程。其中对图像特征的处理利用Opencv开源库。—、训练阶段获取垃圾图片与正常图片,构成训练集,训练形成一个基于高斯混
6合分布的分类器。a)局部不变特征提取阶段步骤1)对图片数据集进行标记;步骤2~)采用健壮特征的加速提取算法提取垃圾图片数据集和正常图片数据集中 每张图片的视觉特征也就是局部不变特征描述符,每张图片中的描述符数量不等;步骤幻通过步骤幻得到了垃圾图片特征库和正常图片的特征库,特征库是由图 片的局部不变特征描述符构成的,各张图片的描述符数量是不同的,但是每个描述符是由 相同维数的数值构成的。将每张图片的特征描述符分别写入到各个文本文件中;b)高斯混合模型参数估计阶段步骤4)以垃圾邮件数据集作为样本,利用期望最大化算法估计出样本集中每张 垃圾图片的高斯混合模型参数0spam= (Ji1, Ji2,..., JIl5U1, μ2,...,
权利要求
1. 一种利用改进的高斯混合模型分类器检测图像垃圾邮件的方法,其特征在于该方法 主要分为以下步骤一、根据样本集进行训练步骤1)对待训练的图片数据集进行标签,分为垃圾图片和正常图片; 步骤2~)采用“健壮特征的加速提取算法”分别提取每个垃圾图片和正常图片的局部不 变特征描述符;步骤幻对每张图片的局部不变特征描述符进行高斯混合模型拟合,采用期望最大化 方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤4)对均值聚类算法进行改进,使其对这种特殊的高斯混合特征向量进行聚类,涉 及到距离计算方法以及标准测度函数的确定;步骤幻使用交叉熵作为高斯混合分布之间的距离计算方法; 步骤6)根据交叉熵计算公式,需要两个分布之间的样本是相同的,因此编写根据均值 与协方差矩阵来获取样本的函数方法;步骤7)以图片所属的聚类中心的索引值向量作为标准测度函数; 步骤8)在步骤4) 步骤7)确定了距离计算方法以及标准测度函数的基础上,再运用 均值聚类算法构成基于高斯混合分布的均值聚类算法;步骤9)根据步骤8)形成的聚类算法分别对垃圾图片与正常图片进行聚类; 步骤10)在基于高斯混合分布的均值聚类算法基础上再结合交叉熵的距离计算方法 构建高斯混合模型的分类器;二、使用训练好的高斯混合模型分类器对待检测图片进行分类阶段步骤21)采用“健壮特征的加速提取算法”提取待检测图片的局部不变特征描述符; 步骤2 对每张图片的局部不变特征描述符进行高斯混合分布的拟合,采用期望最大 化方法评估其权重、均值以及协方差矩阵,作为高斯混合特征向量;步骤2 使用由均值以及协方差矩阵确定的样本获取函数,获取待检测图片的样本值;步骤24)计算每张待检测图片的高斯混合分布与垃圾图片以及正常图片的聚类中心 的交叉熵值,选取两类的最小交叉熵值,作为待检测图片与两大类图片的相似程度;步骤25)比较两个最小熵值的大小,由此对待检测图片进行垃圾图片与正常图片的归类。
全文摘要
利用改进的高斯混合模型分类器检测垃圾邮件的方法,利用健壮特征的加速提取算法来提取图片中垃圾信息的不变区域特征,对不变区域特征进行高斯混合模型拟合,使用期望最大化方法来进行权重、均值以及协方差矩阵的评估,具体为对待检测数据集的图片进行标签,分为垃圾图片与正常图片;采用健壮特征的加速提取算法提取所有数据集的局部不变特征的向量;采用高斯混合模型对局部不变特征进行密度函数拟合,得到所有图片的均值与协方差矩阵;改进均值聚类算法,使其适用于对上一步骤中得出的特殊特征向量进行聚类,使用交叉熵作为分布之间相似度的衡量指标,实现基于高斯混合模型的均值聚类算法;利用基于高斯混合模型的均值聚类算法来构建分类器。
文档编号G06K9/62GK102129568SQ20111011241
公开日2011年7月20日 申请日期2011年4月29日 优先权日2011年4月29日
发明者周国强, 张卫丰, 张迎周, 王慕妮, 许碧欢, 陆柳敏 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1