一种垃圾邮件检测方法及装置制造方法

文档序号:7979846阅读:143来源:国知局
一种垃圾邮件检测方法及装置制造方法
【专利摘要】本发明公开了一种垃圾邮件检测方法及装置,该方法包括:针对一个待检测邮件,确定该邮件对应的表征邮件属性信息的第一特征向量值与每个邮件样本对应的第二特征向量值之间的相似度值,其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本;根据确定出的相似度值,在邮件样本集合中获得与所述待检测邮件相似的邮件样本;确定待检测邮件和相似的邮件样本之间的相似度均值,以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量;分别确定该邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值;根据所述权重值,确定该待检测邮件的类型。采用本发明这里提出的技术方案,能够较好地提高垃圾邮件归类的准确性。
【专利说明】一种垃圾邮件检测方法及装置
【技术领域】
[0001]本发明涉及业务支撑【技术领域】,尤其是涉及一种垃圾邮件检测方法及装置。
【背景技术】
[0002]自从1994年出现了第一封以Spam为代表的垃圾邮件开始,垃圾邮件检测方法也应运而生。垃圾邮件检测方法经历了不同的发展阶段:
[0003]第一阶段:基于黑白名单的垃圾邮件检测方法,该方法通过判断当前邮件是否是黑白名单中的邮件来检测垃圾邮件。例如在黑名单中的任何邮件都是垃圾邮件,可以直接删除或者归类至垃圾邮件类别中,反之,在白名单中的任何邮件都是正常邮件,允许通过。该方法的优点是简单明确,能最大程度的节省垃圾邮件检测过程中占用的系统资源。其缺点是当接收到的邮件不在黑白名单中,该方法就失去了判断力,容易造成误判,因此基于黑白名单的垃圾邮件检测方法准确性较低。
[0004]第二阶段:基于人工规则的垃圾邮件检测方法,该方法根据一定的规则对垃圾邮件检测系统进行预先设置,根据设置的规则对接收到的邮件进行检测。其中,检测规则主要根据关键词匹配、信头分析、群发策略和邮件内容的其它特征等几个方面来进行设置,该方法的缺点是受人为因素影响比较大。
[0005]第三阶段:基于内容的垃圾邮件检测方法,该方法是将机器学习中的一些算法应用到对垃圾邮件的检测中,一般分为基于规则和基于统计的两种检测算法。基于内容的垃圾邮件检测方法主要是通过分析垃圾邮件的主题和正文,获得垃圾邮件具备的相关特征,将这些特征作为训练样本,对垃圾邮件进行检测。该方法优点是在识别垃圾邮件方面有较高的准确率和召回率,但是该方法的准确性依赖于大量的训练样本。
[0006]在现有技术中,一般米用基于K最近邻(KNN, K-Nearest Neighbor)分类算法实现对垃圾邮件的检测。KNN算法基本理论是:对于给定文本,如果该文本在特征空间中的K个最近或最相似的文本中的大多数属于一个类别,则可以判定该文本也属于这个类别。例如图1所示,图1中所示的三角形是等待归类处理的形状,正方形和圆形是两个已知的类另U,若K=3,由于圆形所占比例为2/3,则等待归类处理的三角形将被归类到圆形类别中,若Κ=5,由于正方形所占比例为3/5,因此三角形被归类到正方形类别中。基于上述原理,现有技术中基于KNN算法实现垃圾邮件检测方法流程具体如下述:
[0007]步骤一:选取训练样本集合,其中,训练样本集合中包括垃圾邮件样本和正常邮件样本。在训练样本集合中,分别确定表征垃圾邮件样本和正常邮件样本的属性信息的特征
向量值。
[0008]步骤二:对于等待归类确认的每一个邮件,获得表征该邮件属性信息的特征向量值。
[0009]步骤三:根据夹角余弦法,分别计算该邮件对应的特征向量值与训练样本集合中所有样本对应的特征向量值之间的相似度,将确定出的所有相似度按照大小排序,选取出与该等待归类的邮件比较相似、比较接近的K个样本。[0010]步骤四:对选取出的K个样本,分别计算该待确定的邮件归属垃圾邮件和归属正常邮件的权重值,根据确定出的权重值,判断该邮件是否是垃圾邮件,如果是将该邮件滤除,反之不做处理。
[0011]现有技术中提出的基于KNN算法实现垃圾邮件检测的方法,对等待归类确认的邮件进行归类确认时,仅通过比较与垃圾邮件和正常邮件两类的相似度之和来确定权重值,未考虑到其它因素等也会影响最终的归类结果,因此准确性较低。

【发明内容】

[0012]本发明实施例提供一种垃圾邮件检测方法及装置,能够较好地提高垃圾邮件检测的准确性。
[0013]一种垃圾邮件检测方法,包括:针对一个待检测邮件,确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值,其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本;根据确定出的相似度值,在邮件样本集合中获得与所述待检测邮件相似的邮件样本;确定待检测邮件和相似的邮件样本之间的相似度均值,以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量;根据所述相似度均值和数量,分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值;根据垃圾邮件类别的权重值和正常邮件类别的权重值,确定该待检测邮件的类型。
[0014]一种垃圾邮件检测装置,包括:相似度值确定单元,用于针对一个待检测邮件,确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值,其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本;获得单元,用于根据确定单元确定出的相似度值,在邮件样本集合中获得与所述待检测邮件相似的邮件样本;相似度均值确定单元,还用于确定待检测邮件和相似的邮件样本之间的相似度均值,以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量;权重值确定单元,用于根据所述相似度均值确定出的相似度均值和数量,分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值;邮件类型确认单元,用于根据权重值确定单元确定出的垃圾邮件类别的权重值和正常邮件类别的权重值,确定该待检测邮件的类型。
[0015]采用本发明上述提出的技术方案,对于一个待检测邮件,通过确定该邮件对应的第一特征向量值与邮件样本集合中的每个邮件样本对应的第二特征向量值之间的相似度值,获得该邮件与邮件样本集合中的相似邮件样本,然后再确定该邮件和获得的相似邮件样本之间的相似度均值,以及获得相似度值大于相似度均值的相似邮件样本的数量,根据相似度均值和数量,分别确定该邮件归属垃圾邮件类别的权重值和归属正常邮件样本的权重值,最后根据归属不同类别的权重值,确定该待检测邮件的类型。从而实现将待检测邮件归类为垃圾邮件或者归类为正常邮件,本发明提出的技术方案中,引入了相似度均值作为参考,较好地提高了确定待检测邮件类型的准确性。
【专利附图】

【附图说明】
[0016]图1为现有技术中,提出的KNN算法示意图;[0017]图2为本发明实施例一中,提出的垃圾邮件检测方法流程图;
[0018]图3为本发明实施例一中,提出的训练样本的伪聚类示意图;
[0019]图4为本发明实施例一中,提出的原始样本分成小类过程示意图;
[0020]图5为本发明实施例一中,提出的APC-KNN分类器的训练流程图;
[0021]图6为本发明实施例一中,提出的不同特征维数三组实验的Fl值对比示意图;
[0022]图7为本发明实施例一中,提出的不同特征维数对分类结果的影响对比示意图;
[0023]图8为本发明实施例一中,提出的不同K值三组实验的Fl值对比示意图;
[0024]图9为本发明实施例一中,提出的不同K值对分类结果的影响对比示意图;
[0025]图10为本发明实施例二中,提出的俩及邮件检测装置结构示意图。
【具体实施方式】
[0026]针对现有技术中垃圾邮件检测方法,仅根据待检测邮件与邮件样本集合中的邮件样本之间的相似度值之和来确定权重值,然后对待检测邮件进行归类,使得对邮件检测的准确性较低的问题,本发明实施例这里提出的技术方案,结合改进的KNN算法和预先设置的邮件样本集合,综合考虑影响归类结果的条件来确定待检测的邮件类型,能够较好地提高垃圾邮件检测的准确性。
[0027]下面将结合各个附图对本发明实施例技术方案的主要实现原理、【具体实施方式】及其对应能够达到的有益效果进行详细地阐述。
[0028]实施例一
[0029]本发明实施例一这里提出一种垃圾邮件检测方法,如图2所示,具体处理过程如下:
[0030]步骤21,选取邮件样本集合,邮件样本集合也可以称之为训练样本集合。
[0031]其中,邮件样本集合中包括垃圾邮件样本和正常邮件样本,垃圾邮件样本的数量和正常邮件样本的数量可以相同,也可以不相同。在敏感度要求较高的应用环境中,在选取的邮件样本集合中,包含的垃圾邮件样本的数量可以大于正常邮件样本的数量,反之,在敏感度要求较低的场合中,在选取的邮件样本集合中,包含的垃圾邮件样本的数量可以小于正常邮件样本的数量。基于公平的原则,本发明实施例一这里提出的技术方案,在选取的邮件样本集合中,包含相同数量的垃圾邮件样本和正常邮件样本。
[0032]步骤22,针对一个待检测邮件,确定该邮件对应的表征邮件属性信息的第一特征向量值以及确定选取的邮件样本集合中每个邮件样本对应的表征邮件属性信息的第二特征向量值。
[0033]其中,每个邮件都具备表征邮件属性信息的特征向量值,为便于阐述,本发明实施例一这里待检测邮件对应的表征邮件属性信息的特征向量值规定为第一特征向量值,将邮件样本对应的表征邮件属性信息的特征向量值规定为第二特征向量值。具体地,第一特征向量值的选取和第二特征向量值的选取方法是相同的。
[0034]步骤23,根据确定出的第一特征向量值和第二特征向量值,计算二者之间的相似度值。
[0035]其中,可以基于夹角余弦算法,根据确定出的第一特征向量值和第二特征向量值,计算相似度值,该相似度值可以表征待检测邮件和邮件样本集合中包含的邮件样本之间的相似度。
[0036]具体地,可以采用下述公式I来计算相似度值:
【权利要求】
1.一种垃圾邮件检测方法,其特征在于,包括: 针对一个待检测邮件,确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值,其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本; 根据确定出的相似度值,在邮件样本集合中获得与所述待检测邮件相似的邮件样本; 确定待检测邮件和相似的邮件样本之间的相似度均值,以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量; 根据所述相似度均值和数量,分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值; 根据垃圾邮件类别的权重值和正常邮件类别的权重值,确定该待检测邮件的类型。
2.如权利要求1所述的方法,其特征在于,采用下述公式确定所述正常邮件类别的权重值:
3.如权利要求1所述的方法,其特征在于,采用下述公式确定所述正常邮件类别的权重值:
4.如权利要求1所述的方法,其特征在于,采用下述方式确定邮件样本集合: 基于聚类算法,将正常邮件样本和垃圾邮件样本分别进行聚类,得到至少一个正常邮件样本簇和至少一个垃圾邮件样本簇; 在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本; 将选择出的第一中心样本和第二中心样本组成邮件样本集合。
5.如权利要求4所述的方法,其特征在于,所述将正常邮件样本进行聚类,得到至少一个正常邮件样本簇,包括: 确定每个正常邮件样本对应的第一特征权重值; 根据确定的所述第一特征权重值,按照预设的步进值将所有正常邮件样本划分为至少一个正常邮件样本簇。
6.如权利要求5所述的 方法,其特征在于,采用下述公式确定第一特征权重值:
其中,D1是第一特征权重值,Xi是每个正常邮件样本对应的正常邮件样本特征向量值,Wi是预设的对应正常邮件样本的参数值。
7.如权利要求4所述的方法,其特征在于,所述将垃圾邮件样本进行聚类,得到至少一个垃圾邮件样本簇,包括: 确定每个垃圾邮件样本对应的第二特征权重值; 根据所述第二特征权重值,按照预设的步进值将垃圾邮件样本划分为至少一个垃圾邮件样本簇。
8.如权利要求7所述的方法,其特征在于,采用下述公式确定第二特征权重值:
η D2 =η = \,2…N
J=I 其中,D2是第二特征权重值,Xj是每个垃圾邮件样本对应的垃圾邮件样本特征向量值,Wj是预设的对应垃圾邮件样本的参数值。
9.如权利要求4所述的方法,其特征在于,所述在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本,包括: 基于平均中心算法,在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本。
10.一种垃圾邮件检测装置,其特征在于,包括: 相似度值确定单元,用于针对一个待检测邮件,确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值,其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本; 获得单元,用于根据确定单元确定出的相似度值,在邮件样本集合中获得与所述待检测邮件相似的邮件样本; 相似度均值确定单元,还用于确定待检测邮件和相似的邮件样本之间的相似度均值,以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量; 权重值确定单元,用于根据所述相似度均值确定出的相似度均值和数量,分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值; 邮件类型确认单元,用于根据权重值确定单元确定出的垃圾邮件类别的权重值和正常邮件类别的权重值,确定该待检测邮件的类型。
11.如权利要求10所述的装置,其特征在于,所述权重值确定单元,具体采用下述公式确定所述正常邮件类别的权重值:
12.如权利要求10所述的装置,其特征在于,所述权重值确定单元,具体采用下述公式确定所述正常邮件类别的权重值:
所述权重值确定单元具体采用下述公式确定所述垃圾邮件类别的权重值:

13.如权利要求10所述的装置,其特征在于,还包括邮件样本集合确定单元,具体用于采用下述方式确定邮件样本集合: 基于聚类算法,将正常邮件样本和垃圾邮件样本分别进行聚类,得到至少一个正常邮件样本簇和至少一个垃圾邮件样本簇;在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本;将选择出的第一中心样本和第二中心样本组成邮件样本集合。
14.如权利要求13所述的装置,其特征在于,所述邮件样本集合确定单元,具体用于确定每个正常邮件样本对应的第一特征权重值;根据确定的所述第一特征权重值,按照预设的步进值将所有正常邮件样本划分为至少一个正常邮件样本簇。
15.如权利要求14所述的装置,其特征在于,所述邮件样本集合确定单元,具体采用下述公式确定第一特征权重值: 其中,D1是第一特征权重值,Xi是每个正常邮件样本对应的正常邮件样本特征向量值,Wi是预设的对应正常邮件样本的参数值。
16.如权利要求13所述的装置,其特征在于,所述邮件样本集合确定单元,具体用于确定每个垃圾邮件样本对应的第二特征权重值;根据所述第二特征权重值,按照预设的步进值将垃圾邮件样本划分为至少一个垃圾邮件样本簇。
17.如权利要求16所述的装置,其特征在于,所述邮件样本集合确定单元,具体用于采用下述公式确定第二特征权重值: P =乞WjXi η = \.2…N
J=I 其中,D2是第二特征权重值,Xj是每个垃圾邮件样本对应的垃圾邮件样本特征向量值,Wj是预设的对应垃圾邮件样本的参数值。
18.如权利要求13所述的装置,其特征在于,邮件样本集合确定单元,具体用于基于平均中心算法,在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本。
【文档编号】H04L12/24GK103490974SQ201210195957
【公开日】2014年1月1日 申请日期:2012年6月14日 优先权日:2012年6月14日
【发明者】韦媚, 刘晓峰, 梁耿, 陈阳, 凌俊民 申请人:中国移动通信集团广西有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1