一种基于机器学习的图像垃圾邮件过滤方法与流程

文档序号:16887016发布日期:2019-02-15 22:43阅读:394来源:国知局
一种基于机器学习的图像垃圾邮件过滤方法与流程

本发明涉及一种基于机器学习的图像垃圾邮件过滤方法,属于计算机科学与技术学科的人工智能技术领域。



背景技术:

目前垃圾邮件发送者为了避免基于文本的垃圾邮件过滤,将垃圾信息以图像的形式进行了显示,并将图像通过邮件发送,所以对图像垃圾邮件的过滤成为亟待解决的新问题。从资源利用角度讲,图像垃圾邮件所占空间的大小是纯文本邮件的数十倍,其传送会浪费大量的网络带宽,并占据大量的个人存储空间。从社会影响的角度讲,有效过滤掉含有不良图像的垃圾邮件,就能在一定程度上抑制广告、欺诈等不良信息带来的负面影响。从科研角度讲,对垃圾邮件图像的收集可以为针对中国基于垃圾邮件过滤方法的数据库做出贡献,也为基于图像垃圾邮件过滤提供了新的方法。

现有的图像型垃圾邮件过滤技术有限制ip地址的黑名单方法,也有提取邮件的文字特征或简单的图像特征与机器学习算法相结合的过滤方法,但采用的特征数据和机器学习算法大多数比较单一,且机器学习算法多采用国外的标准图像垃圾邮件样本为数据源进行实验,这对我国的图像垃圾邮件过滤针对性不强。同时,目前已有的图像型垃圾邮件过滤方法的误报率仍然较高。所以,很有必要收集邮箱中的图像信息,对邮箱中的图像信息进行分析比对,建立适合进行垃圾邮件过滤的图像库,并对库中的图像进行标记。在此基础上,对过滤垃圾邮件的图像特征进行较全面的分析,如颜色特征(hsv(hue,saturation,value,色调,饱和度,亮度)颜色直方图和颜色矩)、纹理特征、形状特征等,从较为基础的图像特征中找到适用于垃圾邮件过滤的特征。将取得的图像特征数据应用于机器学习算法,如k-nn(k-nearestneighbor,k近邻算法)算法、朴素贝叶斯算法、判别分析算法、svm(supportvectormachine,支持向量机)算法和随机森林算法等,并将各算法取长补短发挥各自的优势形成集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析并最终确定。

因此,无论是个人、企业,还是国家行政事业单位,都迫切需要有效的过滤垃圾邮件的方法来改善现有的电子邮件环境。



技术实现要素:

本发明的目的是针对垃圾邮件尤其是图像垃圾邮件存在的严重危害网络和个人隐私安全以及对我们的工作和生活造成了极大的干扰这一问题,提出了一种基于机器学习的图像垃圾邮件过滤方法,是一种新的基于结果标签投票的组合过滤方法,该方法对我国的多种垃圾邮件图像集过滤得到较高的准确率、召回率和综合性能f值,为邮件服务提供商提供一种有效过滤图像垃圾邮件的技术手段。

一种基于机器学习的图像垃圾邮件过滤方法,该方法主要解决现有图像垃圾邮件过滤方法存在的以下缺陷:一是未建立针对中国的图像垃圾邮件的图像数据库,这样很难保证后续图像特征的基础数据的准确性;二是所采用的图像特征和机器学习算法单一,很难同时提高图像垃圾邮件过滤的准确率和召回率,使得过滤方法的误报率仍然较高。

本发明的核心思想是:针对图像垃圾邮件的特点,选取更有利于区分判别垃圾邮件图像的hsv颜色直方图特征和纹理特征作为图像分类的基础数据;将以上两种特征数据应用于k-nn算法、朴素贝叶斯算法、判别分析算法、svm算法和随机森林算法为主的机器学习算法,将各算法取长补短提出一种集成学习算法,通过实验确定何种算法适合于何种图像特征的分类,对方法的最佳参数结构进行实验分析,确定hsv颜色直方图维度为16维,k-nn算法的k值为5时可取得最好的分类效果。

本发明相关的定义如下:

定义1.图像型垃圾邮件:在收件人不是出于个人要求或是同意接受的各种形式的具备宣传性的、无法拒收的含有非正当政治目的的信息、含有虚假或隐藏诈骗的信息、含有黄赌毒的信息或是广告信息的以图像形式构成的图像邮件,都称之为图像型垃圾邮件;

定义2.图像型常规邮件:是收件人有意愿查收的有实际意义的、有需求价值的和无不良信息的含有图像的邮件称之为图像型常规邮件;

图像型常规邮件和图像型垃圾邮件,统称为图像型邮件;

一种基于机器学习的图像垃圾邮件过滤方法,包括以下步骤:

步骤一、通过从互联网以及邮箱收件为主的渠道大量收集垃圾邮件中的图像和常规邮件图像,分别获得全面的垃圾邮件图像数据库和常规邮件图像数据库,并根据这两种数据库分别生成训练集和测试集;

其中,获得的垃圾邮件图像数据库的x%和常规邮件图像数据库的x%数据作为训练集;获得的垃圾邮件图像数据库的y%和常规邮件图像数据库的y%数据作为测试集;x%和y%的和为1;

步骤一,具体又包含如下子步骤:

步骤1.1、官网上注册个人邮箱;

其中,官网主要包括网易、搜狐、新浪、google以及qq;

步骤1.2、从步骤1.1注册的个人邮箱的收件箱中收集所有垃圾邮件图像和常规邮件图像,建立邮件图像数据库;

步骤1.3、对步骤1.2建立的邮件图像数据库按照定义1和定义2,即图像型垃圾邮件的定义和图像型常规邮件的定义进行图像垃圾邮件和图像常规邮件的判别,并进行标记,分别形成垃圾邮件图像和常规邮件图像两种数据集;

垃圾邮件图像和常规邮件图像统称为邮件图像;

其中,取垃圾邮件图像的x%和常规邮件图像的x%生成训练集,剩余的垃圾邮件图像的y%和常规邮件图像的y%生成测试集,x%+y%=1;

步骤二、对步骤一输出的训练集中图像的图像特征进行分析,提取图像的颜色特征、纹理特征和形状特征,通过实验比对选择适合于图像分类的图像特征和分类器进行垃圾邮件与常规邮件的分类;具体包括如下子步骤:

步骤2.1、通过实验分析图像的颜色特征的hsv颜色直方图和颜色矩、图像的纹理特征和图像的形状特征,并提取相关的特征值;

其中,hsv颜色直方图包括h通道的颜色直方图、s通道的颜色直方图和v通道的颜色直方图;

步骤2.1又包括如下子步骤:

步骤2.1.1、对颜色空间进行划分,得到若干个子区间就是直方图的bin,bin中的数值是从图像颜色数据中计算出特征统计量;建立直方图并转换为一维颜色直方图,生成一维向量;

其中,颜色空间进行划分,具体为:对颜色空间上的数值进行量化,通过对每一个bin中包含颜色的像素个数进行统计,得到颜色直方图;再对颜色直方图中v通道、h通道以及s通道的值进行量化,即对通道的数值进行等分;

其中,在建立直方图时,不选用图像的明度信息,即v通道的值,只选取h通道和s通道进行信息统计,具体包括如下子步骤:

步骤2.1.1a分别对h通道和s通道的值进行等级划分,该等级划分相当于对h通道与s通道建立给定区间范围的直方图;

其中,h通道和s通道的数据分布的较为分散,h通道的数值在0至360之间,s通道的数值在0到1之间;

步骤2.1.1b对步骤2.1.1a得出的h通道和s通道的直方图进行合并,得到一维的颜色直方图表示;

其中,颜色矩是一种轻量级的、计算快速的颜色分布表示特征;利用颜色矩表达图像信息只需要计算9个分量即可,颜色矩适用于hsv和rgb两种通道上,因为这两种通道都含有3个颜色分量,每个分量上只需要计算3个低阶矩:一阶矩是图像像素的平均值信息,二阶矩是图像像素的方差信息,三阶矩是图像像素的偏斜度信息,这样就较全面的表示出图像的颜色分布;

其中,提取颜色矩主要有如下三个步骤:

步骤2.1.1c将垃圾邮件图像和常规邮件图像由rgb通道转换到hsv通道,并对hsv通道的图像数据进行计算,求出其均值、方差和斜度;

步骤2.1.1d再对步骤2.1.1c求出的均值、方差和斜度进行归一化处理,得出归一化处理后的数据;

步骤2.1.1e最后,将归一化处理后的数据转换为向量的形式拼接成一维向量;

步骤2.1.2、提取图像的纹理特征,即先将真彩色图像转换为灰度图像,再对灰度图像进行压缩、计算灰度共生矩阵以及计算灰度共生矩阵对应的能量、熵、惯性矩和相关性数值四个量的平均值和标准差,即用8维数据来表示图像的纹理特征;

其中,真彩色图像指邮件图像;

主要包括如下三个子步骤:

步骤2.1.2a将真彩色图像转换为灰度图像,采用统计法提取邮件图像纹理特征中的灰度共生矩阵,具体为:在图像的水平方向、垂直方向、对角线方向和反对角线方向上建立图像的灰度共生矩阵,方向角度为0°、45°、90°和135°,在邮件图像中一个像素点(x,y)和偏离的另一个像素点(x+a,y+b)的点对的灰度值为(i,j),点(x,y)在邮件图像上移动得到不同的(i,j)值,灰度值的级数l取256,i与j的组合就有l2种,统计出每一种(i,j)值出现的次数,再将它们归一化为出现的概率pij,得到的方阵[pij]l×l为灰度共生矩阵;

步骤2.1.2b对步骤2.1.2a转换出的灰度图像进行压缩,图像灰度值的区间为[0,255],将该区间的值等分为16级,得到压缩后的灰度图像;

步骤2.1.2c基于步骤2.1.2b输出的压缩后的灰度图像计算四个共生矩阵p;

其中,取距离为1,角度为0°、45°、90°和135°;

步骤2.1.2d对步骤2.1.2c生成的四个灰度共生矩阵分别进行归一化处理,生成归一化后的灰度共生矩阵,然后求得此归一化灰度共生矩阵对应的能量、熵、惯性矩和相关性数值,再计算出以上四个量的平均值和标准差,共计8维数据来表示图像的纹理特征;

步骤2.1.3、根据形状不变矩法提取邮件图像中特定目标的整体轮廓特征和邮件图像区域特征,采用hu不变矩来生成邮件图像的形状特征;

其中,提取形状特征主要有如下三个步骤:

步骤2.1.3a定义邮件图像的表示函数为f(x,y);

步骤2.1.3b再定义邮件图像的标准矩的中心矩;

步骤2.1.3c最后根据二阶与三阶归一化后的中心矩构造hu不变矩,求出每个邮件图像的7个不变矩,并将这7个不变矩转换为一维向量后拼接得到该邮件图像的形状特征;

步骤2.2、通过实验比对选择适合于图像分类的图像特征和分类器,选取分类准确率和召回率较高的hsv颜色直方图特征和纹理特征通过k-nn分类器和集成学习分类器进行垃圾邮件与常规邮件的分类;

步骤2.2.1、将颜色特征、纹理特征和形状特征分别输入k-nn算法、朴素贝叶斯算法、集成学习算法、判别分析算法、svm算法和随机森林算法进行六组实验,由实验结果中稳定性最好的算法对邮件图像进行分类;

其中,在六组实验中分别测试了颜色矩、hsv颜色直方图、纹理特征和形状特征在邮件图像分类的准确率和召回率的数值,同时对六组实验进行了整体的纵向的分析比较,根据以上的实验结果,得知在图像特征方面,图像的hsv颜色直方图特征和纹理特征表现的最好也最稳定,通过纵向的比较,得知在分类器方面,k-nn分类器和集成学习分类器的表现最好、最稳定;综合以上结论,采用hsv颜色直方图和纹理特征作为主要应用的图像特征,k-nn分类器和集成学习分类器作为主要应用的分类器;最终得出最适合应用于垃圾邮件过滤的两种图像特征是hsv颜色直方图和纹理特征,分类效果最好的两种分类器是k-nn分类器和集成学习分类器;

其中,集成学习分类器是在训练集上利用多个单独的分类器进行训练,通过将这些独立的训练好的分类器迭代的进行最优组合,直到得到强分类器为止;具体包括如下四个子步骤:

步骤2.2.1a、为每个单独的分类器的分类数据都赋予一定的权重;

步骤2.2.1b、将单独的分类器在训练集上运行,得到当前结构下每个单独分类器的分类准确率;

步骤2.2.1c、调整权重,将上次正确分类的样本权重提高,上次错误分类的样本权重降低;

步骤2.2.1d、重复步骤2.2.1b和步骤2.2.1c,使两次分类的正确率之差收敛至预期值为止;

步骤2.2.2、通过三组实验进一步确定hsv颜色直方图维度为16维、32维和64维时应用于各种分类器时的分类平均准确率,结果显示hsv颜色直方图维度为16维时各分类器的分类平均准确率最高,所以确定用于分类的hsv颜色直方图特征的维度为16维;

步骤2.2.3、再通过三组实验进一步确定hsv颜色直方图维度为16维、32维和64维时k-nn分类器在k值取3、5、7和9时的分类平均准确率,结果k=5时的分类准确率最高;

步骤2.2.4、最后确定采用纹理特征时k-nn分类器在k值取3、5、7和9时的分类平均准确率,结果同样显示k=5时的分类准确率最高;

根据以上实验验证结果,最终确定选择适合于图像分类的图像特征是维度为16维的hsv颜色直方图特征和纹理特征,适合于图像分类的分类器是k=5时的k-nn分类器和集成学习分类器;

步骤三、使hsv颜色直方图特征和纹理特征两种邮件图像特征分别输入基于粗糙集属性约简的k-nn分类器,得到两种分类结果,再使hsv颜色直方图特征和纹理特征两种邮件图像特征分别输入集成学习分类器,又得到两种分类结果,共计四种组合分类结果,通过分类标签投票的方法,在测试集上进行实验,验证实验结果并对结果进行性能评价,最终提高对图像垃圾邮件有效过滤的准确率、召回率和综合性能f值;具体包括如下子步骤:

步骤3.1、在测试集上进行实验验证,对k-nn分类器和集成学习分类器做出准确率、召回率和f值为主的性能作出评价;

其中,准确率评价指标用公式(1)来计算:

其中,precision是准确率,反应了过滤系统找对垃圾邮件的能力。a表示被正确分类的垃圾邮件数目,b表示非垃圾邮件被误判为垃圾邮件的数目;

召回率评价指标用公式(2)来计算:

其中,recall是召回率,反应了过滤系统发现垃圾邮件的能力。a表示被正确分类的垃圾邮件数目,c表示垃圾邮件被误判为非垃圾邮件的数目;

误判率评价指标用公式(3)来计算:

其中,failurerate是误判率,表示将非垃圾邮件判定为垃圾邮件的概率。a表示被正确分类的垃圾邮件数目,b表示非垃圾邮件被误判为垃圾邮件的数目;

f值评价指标用公式(4)来计算:

其中,f值是召回率与准确率之间的一个综合平衡指标,它反映垃圾邮件过滤的综合效果;

步骤3.2、针对各种分类器进行性能评价后,对待测邮件图像采用hsv颜色直方图特征通过k-nn分类器得到分类结果1,hsv颜色直方图特征通过集成学习分类器得到分类结果2,纹理特征通过k-nn分类器得到分类结果3,纹理特征通过集成学习分类器得到分类结果4,然后对各分类结果进行标签投票,如果判定为垃圾邮件的结果大于2时,则最终把这封邮件判定为垃圾邮件。

有益效果

一种基于机器学习的图像垃圾邮件过滤方法,与现有技术相比,具有如下

有益效果:

1.使图像垃圾邮件过滤的准确率、召回率和f值同时提高到了97%,误判率降低到了3%以下;

2.综合应用人工智能的机器学习算法形成了一种组合过滤方法,为解决图像垃圾邮件过滤问题创立了一种新的、可靠的、较高精准度的技术路线。

附图说明

图1是本发明一种基于机器学习的图像垃圾邮件过滤方法结构图;

图2是具体说明图1中的基于结果标签投票的组合过滤器模块的实现流程示意图;

图3是本发明一种基于机器学习的图像垃圾邮件过滤方法的性能示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明和详细描述。

实施例1

本实施例叙述了本发明一种基于机器学习的图像垃圾邮件过滤方法的具体实现过程,图1是本发明及本实施例的结构图,图2是对图1中的基于结果标签投票的组合过滤器模块的具体实现流程进行说明的示意图。

从图1中可以看出,本发明及本实施例的具体实现步骤如下:

步骤a、将人工智能的机器学习算法应用于图像垃圾邮件的过滤,得到有效的过滤模型和过滤方法,具体包含如下子步骤:

步骤a.1、建立邮件图像数据库,以便形成用于机器学习的训练集图像数据库和测试集图像数据库;

具体实施时,获得的垃圾邮件图像数据库的80%和常规邮件图像数据库的80%数据作为训练集,另外20%用于测试集;

步骤a.2、提取图像的颜色特征(hsv颜色直方图和颜色矩)、纹理特征、形状特征,从较为基础的图像特征中找到适用于垃圾邮件过滤的hsv颜色直方图特征和纹理特征,形成特征词库;

步骤a.3、将取得的训练集图像特征数据应用于k-nn算法、朴素贝叶斯算法、判别分析算法、svm算法和随机森林算法等机器学习算法,构造生成各种单一的分类器,并对各分类器逐一进行准确率和召回率的性能评价,通过性能评价确定选择最适合于进行图像垃圾邮件过滤的分类器为基于粗糙集属性约简的k-nn分类器和集成学习分类器,集成学习分类器是将各算法取长补短发挥各自的优势形成的算法;

步骤a.4、将步骤a.2确定的两种图像特征(hsv颜色直方图特征和纹理特征)分别与步骤a.3确定的两种分类器(k-nn分类器和集成学习分类器)相结合形成基于结果标签投票的组合过滤模型,对待测邮件图像完成过滤,得到最终的邮件过滤结果。

步骤b、按照图2所示实现基于结果标签投票的组合过滤器,得到判别精准度较高的图像垃圾邮件分类结果,具体包括如下子步骤:

步骤b.1、首先提取待测邮件图像的hsv颜色直方图特征和纹理特征,使hsv颜色直方图特征通过k-nn分类器,得到分类结果1;使hsv颜色直方图特征通过集成学习分类器,得到分类结果2;使纹理特征通过k-nn分类器,得到分类结果3;使纹理特征通过集成学习分类器,得到分类结果4;对以上四种分类结果进行标签投票,票数大于2的结果即为判定的分类结果,到此分类结束;

步骤b.2、经过多次对待测邮件图像的过滤检测,hsv颜色直方图的维度取16维,k-nn分类器的k值取5时,得到如图3所示的一种基于机器学习的图像垃圾邮件过滤方法性能,从该性能图看出,该方法对图像垃圾邮件过滤的准确率、召回率和f值都同时提高到了97%,而且误判率降低到了3%以下。

以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1