基于半监督的垃圾图片过滤方法

文档序号:6366193阅读:274来源:国知局
专利名称:基于半监督的垃圾图片过滤方法
技术领域
本发明是一种通过半监督学习方法,利用已标签图片样例,来训练支持向量机算法模型,对图像型垃圾邮件进行检测的实现方案,主要解决了当今的技术对图像型垃圾邮件检测效率和召回率低等问题,属于数据挖掘和机器学习领域。
背景技术
文本型垃圾邮件过滤技术的不断提高,驱使着垃圾邮件制造者们探索新的垃圾邮件制作技术。于是,图像型垃圾邮件便成为了当今盛行的垃圾信息传播媒介。根据McAfee在2007年的报告,图像型垃圾邮件在所有垃圾邮件中所占的比例大约是30%。图像型垃圾邮件是将广告等垃圾信息以文本的形式嵌入 到图片中,作为电子邮件的附件或者直接作为其正文内容,肆意地传播给电子邮件客户端。Battista Biggio等人在2007年提出了一种通过计算图像周长复杂度的方法[5]来判别图片是否经过了模糊技术的处理。图像的复杂度可以由周长复杂度来衡量的,计算公式为P2/A (P指的是文字区域的周长,A指的是文字区域的面积)。计算灰度图像的每个对象的周长复杂度可以标识断字符或者是噪音对象的出现,也就可以判断出图像是自然生成的还是人工处理过的。然而由于不能证实经过模糊处理的图像就是携带垃圾信息的图像,这种处理技术只能作为垃圾邮件过滤系统中预处理某个模块。Ngo Phuong Nhung与TuMinh Phuong提出了通过挖掘图片的边缘特征的方法[6],最后使用支持向量机作为分类工具。该方法是通过比较从Email中提取出的图片与样本图片的边缘特征,然后使用支持向量机将这些特征向量分类。使用边缘特征来检测图像Spam能够获取80%的准确率,这类分类算法的优点在于使用边缘特征能够获取文本密集的形状规律性而且计算量不大,而存在的不足之处在于对于模版上文字字体的改变的反应比较迟钝。Klangpraphant, P.等人在2010年提出的方法特征是基于图像内容的信息检索。从网络中收到邮件之后,将邮件分成图像型和关键字型邮件。关键字型邮件就直接以5*5矩阵的形式呈现给用户;而图像型邮件则进行特征比较。首先,建立一个垃圾图像的特征集,再将图像邮件的特征跟之比较,相似度高达3/4以上的就可归为垃圾图像;否则就进行下一步比较。比较结果的差别率在10%以下归为垃圾图像;相反,差别率在10%以上就将图像以5*5矩阵的形式呈献给用户。2010年Yan Gao提出了分别从服务器端与客户端进行图像型垃圾邮件过滤。服务器端利用基于非负稀疏矩阵的相似性检测。该检测方法是基于一个基本假设集合中的任何数据样本或者特征向量可以由同一个聚类中的一小组样本的非负线性组合来表示。但是事先并不知道一个样本属于哪个聚类,所以提出通过求一个最优化问题得到非负线性组合的系数矩阵,处理后得到相似性矩阵,从而成功识别出该样本所在聚类,完成相似性检测过程。客户端是利用两种主动学习方法,分别是基于支持向量机的和基于高斯分布的主动学习分类器。主动学习的主要思想是使用标签好的训练集来训练基于主动学习的分类器,然后使用该分类器对未标签的数据集进行分类,根据分类器的最高的分类结果来判断未标签的数据集是否需要标签,继而更新标签集合与未标签集合。本文提出通过在线学习来训练支持向量机的算法,以得到一个高精确度且稳定的分类器。由于获取已标签的样本需要耗费大量的人力、物力,而获取未标签的样本则相对容易的多。所以,我们需要做的工作是从未标签的样本中提取含信息量丰富的样本点,加入并更新训练集合。从而利用不断更新的训练集来训练支持向量机,直到其分类精确度趋于稳定,得到高精确的分类结果。[I] Battista Biggio, Giorgio Fumera, Ignazio Pillai,Fabio Ro Imagespam filtering by content obscuring detection Fourth Conference on Email andAnti-Spam, August 2-3, 2007
[2]Pattarapom Klangpraphant . detect image spam with content baseinformation retrieval. 978-l-4244-5540_9/10/$26. 00 2010 IEEE
[3]Yan Gao, Alok Choudhary . Sparsity induced similaritymeasure for labelpropagation.
2009 IEEE 12th International Conference on Computer Vision (ICCV)。

发明内容
技术问题本发明的目的是提供一种基于半监督的垃圾图片过滤方,通过半监督学习方法,利用已标签图片样例,来训练支持向量机算法模型,对图像型垃圾邮件检测的实现方案,主要解决了当今的技术对图片型垃圾邮件检测效率和召回率低等问题。技术方案半监督学习下的支持向量机算法主要基于一个聚类假设,即指同一聚类中的样本点很可能有同种标签。这个假设可以通过另一种等价的方式进行表达,那就是决策边界所穿过的区域应当是数据点较为稀疏的区域,原因在于,如果决策边界穿过数据点较为密集的区域那就很有可能将一个聚类中的样本点分为不同的类别这与聚类假设矛盾。对样本中的所有的数据包括标记的与未标记的建立一个分类界面,在学习过程中,调整分类界面,使得“间隔”最大,而且尽量避过数据较为密集的区域。 随着数据采集技术和存储技术的发展,获取大量未标签样例比较容易。而由于需要耗费一定的人力和物力,获取大量已标签样例则相对比较难。因而我们需要研究如何利用少量已标签样例和大量的未标签样例来提高学习性能的半监督学习。主要步骤如下该方法主要包括以下几个部分图片中的文本、图片特征提取及处理,预测样本点的选择,支持向量机分类器的训练;
步骤I)提取未标签和已标签图片样本中的文本特征向量
步骤1.1)利用光学识别技术对样本集合中的图片进行批量处理,得到图片中的文字,步骤I. 2)用怀卡智能分析环境对步骤I. I)中的结果进行处理,得到.arff格式的文件,文件中每一行的第一列代表一个图像中的文字,第二列代表一个图像的标签,作为图像的文本特征向量,
步骤I. 3)计算文本特征向量的R值,得到经过处理的文本特征向量,计算公式如下
权利要求
1.一种基于半监督的垃圾图片过滤方法,其特征在于该方法主要包括以下几个部分图片中的文本、图片特征提取及处理,预测样本点的选择,支持向量机分类器的训练; 步骤I)提取未标签和已标签图片样本中的文本特征向量 步骤1.1)利用光学识别技术对样本集合中的图片进行批量处理,得到图片中的文字,步骤I. 2)用怀卡智能分析环境对步骤I. I)中的结果进行处理,得到.arff格式的文件,文件中每一行的第一列代表一个图像中的文字,第二列代表一个图像的标签,作为图像的文本特征向量, 步骤I. 3)计算文本特征向量的R值,得到经过处理的文本特征向量,计算公式如下
全文摘要
基于半监督的垃圾图片过滤技术研究对图像型垃圾邮件进行检测判定工作时,先提取文本和图片特征进行特征处理,利用已经得到的分类模型进行检测分类,并不断加入新的标签样本,训练分类器,提高分类精度同时误判率将大大降低。经大量实验数据检验证明,该方法构建了一种高效率垃圾邮件网页过滤系统,在保证高准确率的同时,处理效率有很大的提高,并显著减小网页检测时间。
文档编号G06K9/62GK102663435SQ20121012923
公开日2012年9月12日 申请日期2012年4月28日 优先权日2012年4月28日
发明者周国强, 张卫丰, 张迎周, 王慕妮, 胡文婷, 许碧欢, 钱小燕, 陆柳敏 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1