一种基于用户行为分类的垃圾邮件过滤系统及方法

文档序号:10660843阅读:295来源:国知局
一种基于用户行为分类的垃圾邮件过滤系统及方法
【专利摘要】本发明提供的是一种基于用户行为分类的垃圾邮件过滤系统及方法。包括用户行为分类模块、拓扑相似性过滤模块和邮件处理模块,用户行为分类模块包括一个用户行为分类器和一个用户类型判定器,拓扑相似性过滤模块包括一个拓扑相似性过滤器和一个辅助过滤器。本发明提出的模型能够有效的根据用户发送行为特征,提取出正常用户和垃圾用户,减少需要深度过滤的邮件,提高邮件网关系统性能,同时能够提高整体的查准率和召回率。
【专利说明】
一种基于用户行为分类的垃圾邮件过滤系统及方法
技术领域
[0001] 本发明涉及的是一种邮件网关,主要是一种垃圾邮件过滤系统及方法。
【背景技术】
[0002] 随着互联网流量的不断增长,传统的垃圾邮件识别技术很难应对如今的高速网络 环境。传统技术大都需要通过对每封邮件的内容进行深度分析,不仅在解析邮件时耗费时 间,同时在进行过滤时也需要大量的计算。
[0003] 基于简单邮件传输协议(SMTP)会话的垃圾邮件拒收方案采用了 3层电子邮件预分 类技术一个SMTP会话结束之前估计的电子邮件类。通过研究使用离散时间马尔可夫链分析 垃圾邮件拒收计划和分析不同的电子邮件流量负载和服务能力,根据建议方案的性能。该 方案降低了电子邮件量进行排队,并通过电子邮件服务器处理,从而降低了非垃圾邮件排 队时延和损失,保护邮件服务器免受过载被垃圾邮件流量。
[0004] 除了研究邮件的传递行为,也有很多研究方案是基于用户之间的收发关系的。其 主要理论是基于,对于正常的邮件用户来说,用户之间的关系是有交互性的,有来有往。而 对于垃圾邮件发送用户,其发送的邮件称辐射状,且很少有针对这些辐射的回信。基于对此 类拓扑关系的挖掘,有一种基于用户关系拓扑相似度计算的垃圾邮件识别模型。该模型借 用余弦相似性计算,通过将用户之间的关系网络向量化,然后计算用户之间的相似性。再根 据相似性将用户群体聚类。最后根据发送邮件的用户属于的用户群体,来计算其为垃圾用 户的概率,设定阈值并进行最终垃圾邮件的判断。但是该方法对于每封到达的邮件,都要进 行拓扑相似性计算,因此在效率上并不优秀。同时因为一些算法的局限性,模型实际的查出 率和召回率并不理想。

【发明内容】

[0005] 本发明的目的在于提供一种提高整个邮件网关的效率的基于用户行为分类的垃 圾邮件过滤系统,本发明的目的还在于提供一种基于用户行为分类的垃圾邮件过滤方法。
[0006] 本发明的目的是这样实现的:
[0007] 本发明的基于用户行为分类的垃圾邮件过滤系统包括用户行为分类模块、拓扑相 似性过滤模块和邮件处理模块,用户行为分类模块包括一个用户行为分类器和一个用户类 型判定器,拓扑相似性过滤模块包括一个拓扑相似性过滤器和一个辅助过滤器。
[0008] 所述辅助过滤器用于对给定的邮件进行直接过滤,是基于邮件头部特征提取的指 纹过滤器。
[0009] 本发明的基于用户行为分类的垃圾邮件过滤方法包括:
[0010] (1)邮件到达后,提取邮件的发件人,作为用户信息;
[0011] (2)用户信息进入用户类型判定器,判定用户为新用户、正常用户、灰色用户或垃 圾用户;
[0012] (3)新用户进入到辅助过滤器中进行过滤,过滤后进入邮件处理模块,进行正常转 发或标记为垃圾邮件;
[0013] (4)灰色用户进入到拓扑相似性过滤器中进行过滤,过滤后进入邮件处理模块,进 行正常转发或标记为垃圾邮件;
[0014] (5)正常用户及垃圾用户直接进入邮件处理模块,正常用户进行正常转发;垃圾用 户标记垃圾邮件;
[0015] (6)用户属性达到于阈值后,通过用户行为分类器计算,为用户重新分配类别。
[0016] 单纯的基于行为的垃圾邮件识别技术难以获得良好的查出率和召回率,无法用户 较好的实用驾驶。本发明不单纯进行垃圾邮件识别,而是通过减少需要进行深度过滤的邮 件的方法,来提高邮件网关在深度处理垃圾邮件时所需要的时间。从而提高了整个邮件网 关的效率。
[0017] 本发明从垃圾用户发送行为的特点出发,通过对用户发送行为的分类,提出了一 种基于用户行为分类的垃圾邮件识别技术。该技术致力于减少邮件网关进行垃圾邮件识别 时的无用工作量,从而能够大幅度提高邮件网关进行垃圾邮件识别工作的效率。同时也能 提高一定的查出率和召回率。
[0018] 与现有技术相比,本发明具有如下的有益效果:
[0019] 本发明提出的模型能够有效的根据用户发送行为特征,提取出正常用户和垃圾用 户,减少需要深度过滤的邮件,提高邮件网关系统性能,同时能够提高整体的查准率和召回 率。
【附图说明】
[0020] 图1基于用户行为分类模型图。
[0021] 图2查出率对比图。
[0022] 图3召回率对比图。
【具体实施方式】
[0023] 下面举例对本发明进行详细说明。
[0024] 结合图1,本发明的基于用户行为分类的垃圾邮件过滤系统具体包括以下组成部 分。
[0025]①用户行为分类模型,
[0026]②拓扑相似性过滤模型。
[0027] 其中,用户行为分类模型包括一个用户行为分类器和一个用户类型判定器;拓扑 相似性过滤模型包括一个拓扑相似性过滤器和一个辅助过滤器。辅助过滤器过滤器用于对 给定的邮件进行直接过滤,这里基于邮件头部特征提取的指纹过滤器。
[0028] 本发明的基于用户行为分类的垃圾邮件过滤方法为:
[0029] 1)邮件到达后,提取邮件的发件人,作为用户信息。
[0030] 2)进入用户类型判定器,判定用户为新用户、正常用户、灰色用户或垃圾用户。 [0031] 3)新用户进入到辅助过滤器中进行过滤,过滤后进入邮件处理模块,进行正常转 发或标记为垃圾邮件。
[0032] 4)灰色用户进入到拓扑相似性过滤器中进行过滤,过滤后进入邮件处理模块,进 行正常转发或标记为垃圾邮件。
[0033] 5)正常用户(垃圾用户)直接进入邮件处理模块。进行正常转发(标记垃圾邮件)
[0034] 6)用户属性达到于阈值后,会通过用户行为分类器计算,为用户重新分配类别。
[0035] 1)该方法应用于邮件网关领域中,主要针对的是基于邮件行为的垃圾邮件识别。
[0036] 2)该方法主要处理的数据是邮件流量中的smtp会话。
[0037] 基于用户行为分类的垃圾邮件过滤技术,其特征是:
[0038] 1)该技术主要包括用户行为分类器和用户类型判定器两个模块。
[0039] 2)用户行为分类器首先通过解析smtp会话,来提取用户,并获得用户的行为属性。 然后根据这些属性,提取并进行用户类型计算,通过计算将用户分为新用户、正常用户、灰 色用户和垃圾用户四个类型。其中新用户为发送邮件数较少的用户;灰色用户为无法判定 类型的用户。用户类型的计算方法使用的是KNN算法的变形。
[0040] 3)用户类型判定器根据各个用户的行为分类结果,将用户区分为四个类型。同时, 在用户类型判定器中为每个用户设定各自的阈值,达到阈值后需要重新进入用户行为分类 器来进行用户行为分类。分类出的正常用户的邮件,进入到正常邮件处理流程;垃圾用户的 邮件进入到垃圾用户的处理流程;新用户和灰色用户的邮件进入到辅助分类器中进行二次 处理。
[0041] 下面通过具体实施例对本发明作的效果做更详细的描述。
[0042] 用户类型计算是模型的核心模块。而用户类型计算的基础是各个用户的行为属 性。用户行为属性的选取首先需要考虑作为邮件网关系统能过获得的可行性;其次,作为邮 件网关,不适合大量的计算与存储;最后,还需要尽量选取特征鲜明的属性从而易于分辨垃 圾用户与正常用户。综合这些要求,按照表1选取需要记录的用户属性。根据这些属性,再进 行筛选,选用表2中的项目作为用户类型计算选取的特征。
[0043]表1用户属性及说明
[0044]
[0045] 表2用户类型计算特征选取表
[0046]
[0047] user_train、测试数据集user_test,则该算法的流程如下:
[0048] 1)已知样本集userjrain中的用户被分为垃圾邮件用户和正常用户两类;
[0049] 2)从user_test中取一个用户U,计算其在user_train中的k临近个点,假设其中, 有m个点属于垃圾用户;
[0050] 3)取m/k作为用户U为垃圾邮件的概率,记为Pu,当P=1时,判断U为垃圾用户,当P =0时,判断U为正常用户,其他情况U为灰色用户。
[0051]另一方面,在模型中每个类型的用户都有自己的阈值,只有达到阈值才会进行用 户类型计算,这样做的原因是根据用户行为进行分类需要有一定数量的用户发送行为才可 以进行,而其变化也很难因为一封邮件的增加而改变,因此没有必要每封邮件到达都计算 用户类型。针对四种类型的用户,根据各自的特点定义了各自的阈值S new、Sn_al、SgradP Sspam。详细设定如下:
[0052] 1)新用户 s end_num> Snew,Snew = 100
[0053] 2)正常用户8611(1_1111111>311。:《31,311。:《31=]/[;[11[8611(1_11111110€8瓜7_118618]每次计算后 若还是正常用户,则Sn〇rmai+ = 100
[0054] 3)灰色用户send_num>Sgray,Sgray=Min[send_num of gray_users]
[0055] 每次计算后若还是灰色用户,则Sgray+=1000
[0056] 4)垃圾用户 send_num>Sspam,Sspam=Sgray+1000
[0057] 每次计算后若还是垃圾用户,则Ss_+= 1000。
【主权项】
1. 一种基于用户行为分类的垃圾邮件过滤系统,其特征是:包括用户行为分类模块、拓 扑相似性过滤模块和邮件处理模块,用户行为分类模块包括一个用户行为分类器和一个用 户类型判定器,拓扑相似性过滤模块包括一个拓扑相似性过滤器和一个辅助过滤器。2. 根据权利要求1所述的基于用户行为分类的垃圾邮件过滤系统及方法,其特征是:所 述辅助过滤器用于对给定的邮件进行直接过滤,是基于邮件头部特征提取的指纹过滤器。3. -种基于用户行为分类的垃圾邮件过滤方法,其特征是: (1) 邮件到达后,提取邮件的发件人,作为用户信息; (2) 用户信息进入用户类型判定器,判定用户为新用户、正常用户、灰色用户或垃圾用 户; (3) 新用户进入到辅助过滤器中进行过滤,过滤后进入邮件处理模块,进行正常转发或 标记为垃圾邮件; (4) 灰色用户进入到拓扑相似性过滤器中进行过滤,过滤后进入邮件处理模块,进行正 常转发或标记为垃圾邮件; (5) 正常用户及垃圾用户直接进入邮件处理模块,正常用户进行正常转发;垃圾用户标 记垃圾邮件; (6) 用户属性达到于阈值后,通过用户行为分类器计算,为用户重新分配类别。
【文档编号】H04L29/06GK106027504SQ201610300853
【公开日】2016年10月12日
【申请日】2016年5月9日
【发明人】玄世昌, 杨武, 王巍, 苘大鹏, 朱宇
【申请人】哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1