一种与内容无关的垃圾邮件过滤方法

文档序号:9581601阅读:655来源:国知局
一种与内容无关的垃圾邮件过滤方法
【技术领域】
[0001] 本发明属于垃圾邮件过滤方法,特别是涉及一种与内容无关的垃圾邮件过滤方 法。
【背景技术】
[0002] 随着互联网技术的发展,电子邮件成为一种重要的通讯工具。但随之而来的垃圾 邮件数量众多,送些垃圾邮件具有反复性、强制性、欺骗性、不健康性或传播速度快等特点, 严重影响了人们的正常邮件交流。对于垃圾邮件过滤技术,目前主流的技术主要分为非机 器学习型和机器学习型。非机器学习型邮件过滤系统(如黑名单式)的缺点在于系统无法 学习更新数据,难将其部署为一个单机(而非联网)的过滤系统,且有很大几率把正常邮件 当作垃圾邮件过滤。机器学习型系统分为基于内容和不基于内容的邮件过滤系统。由于邮 件中各种多媒体技术的发展,基于内容的分析变得困难,越来越多的研究转向对于邮件其 他元素(标题,邮件发件人IP地址等非正文元素)的分析。
[0003]Bayes(贝叶斯)方法是当前实际使用最多的垃圾邮件过滤方法。由于Bayes对于 邮件分类的速度很快,而且在识别过滤过程中可W进行动态的调整,因此在垃圾邮件过滤 方面应用最为广泛。然而由于垃圾邮件本身的一些伪装方法比较好或者合法邮件的一些关 键字和符合垃圾邮件的关键字匹配,使得目前垃圾邮件的识别越来越困难。一个邮件样本 难W明确地归为某一类,而W-定概率或一定隶属度属于某一类。因此,在对样本的类型不 确定性比较大的时候,强行分类势必会造成分类结果错误,正确率下降的情况。无论是黑名 单式的方法还是贝叶斯的方法,仅用邮件分类输出yE(spam,legitimate}表示类别信息 并不恰当。可W有更恰当的方法来处理送种不确定的情况。

【发明内容】

[0004] 本发明所要解决的技术问题在于克服现有技术的不足,提供一种处理不确定性的 方法;基于送种处理不确定性的方法,提出一种与内容无关的垃圾邮件过滤方法。
[0005] 本发明所使用的证据理论是一套基于"证据"和"组合"来处理不确定性推理问题 的数学方法。送种Dempster-ShafeHD-巧理论能有效地提高不确定情况下目标的识别能 力。该理论把概率论中的基本事件空间拓宽为基本事件的幕集(又称为辨识框架),在辨识 框架上建立了基本概率指派函数度asicProb油ilityAssignment,下文简写为BPA)。此 夕F,证据理论还提供了一个D-S组合规则,该规则可W在没有先验信息的情况下实现证据 的融合。
[0006] 本发明采用如下技术方案:
[0007] -种与内容无关的垃圾邮件过滤方法,其包含如下步骤;(1)对邮件标题进行特 征提取,(2)对特征提取后的邮件标题进行特征量化,(3)将步骤(2)所得结果进行机器学 习分类,判断邮件是否为垃圾邮件;其特征在于:
[0008] 所述步骤(2)具体包括如下步骤:
[0009] I)对邮件标题去除标点符号、特殊符号、停用词后,经分词转化为由单词组成的特 征向量G;
[0010] 2)对所述特征向量G中的每一个元素进行统计,并分别对照垃圾标题特征集和合 法标题特征集进行统计,查找每一个元素分别在送两个集中出现的频率次数,并将结果分 为四种情况,分别得到基本概率指派函数;
[0011] 3)将所述基本概率指派函数根据证据理论的D-S组合规则进行融合,得到最终的 基本概率指派函数;
[0012] 4)将所述最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的 结果。
[0013] 所述基本概率指派函数分为如下四种情况:
[0014] (a)邮件标题的特征向量G中的每一个元素gi出现在垃圾标题特征集中,也出现 在合法标题特征集中时,定义基本概率指派函数如下:
[0017]IHi({spam,legitimate}) =〇
[001引 (b)元素gi既没有出现在垃圾标题特征集中,也没有出现在合法标题特征集中,定 义基本概率指派函数如下:
[0019] IHi({spam}) = 0
[0020] IIii({legitimate} )= 0 [00引]IIii({spam,legitimate} )= 1
[0022] (C)元素gi出现在垃圾标题特征集中,但没有出现在合法标题特征集中,定义基本 概率指派函数如下:
[0023]IHi({spam}) = 1
[0024]IHi({legitimate}) = 0
[00巧]IIii({spam,legitimate} )= 0
[0026](d)元素gi出现在合法标题特征集中,但没有出现在垃圾标题特征集中,定义基本 概率指派函数如下:
[0027]IHi({spam}) = 0
[0028]IIii({legitimate} )= 1
[0029] 本发明的技术方案具有如下有益效果:
[0030] (1)本发明提出的方法采用对于邮件的非正文信息进行分析,不涉及对邮件正文 内容的分析,而主要对邮件报文的信头和邮件标题提取具有代表性的字段进行分析,降低 了垃圾邮件分析的难度;
[0031] (2)本发明相比经典概率论中的Bayes方法,采用证据理论来进行垃圾邮件分类, 具有W下H个理论优势:
[0032] 1)证据理论可W更好的处理不确定性问题。
[0033] 在经典概率论中,Bayes概率模型只能支持将概率分配到单子集命题上。在证据理 论中,BPA既可W被指派到单子集命题上,也能被指派到多子集命题上。特别地,当BPA只 在辨识框架的单子集命题上进行分配时,BPA就转换为概率论中的概率,而组合规则的融合 结果与概率论中的Bayes公式相同。
[0034] 2)证据理论不像Bayes概率模型一样需要先验信息支持。
[0035]Bayes概率模型需要获得一组先验信息,然后通过Bayes更新用后验概率来更新 先验概率。然而在一些实际使用中,完整的先验信息不容易获得。证据理论不需要有先验 信息的支持,每组BPA被认为来自一个独立信息源的证据,多个信息源的证据可W用D-S组 合规则进行融合。
[0036] 3)证据理论可W表示由于对客观事物没有充分了解而引起的未知信息。
[0037] D-S证据理论能够比概率论更有效地表示和处理不确定信息。当对于邮件样本的 归类有较大不确定性时,相比贝叶斯更新中将概率分配到单子集命题上,证据理论能够将 概率分配到多子集命题上来表现送种不确定性。当BPA只在辨识框架的单子集命题上进行 分配时,证据理论可W退化成经典概率论中Bayes更新。证据理论的送些特点使其在处理 垃圾邮件方面存在很大的优势。
【附图说明】
[0038] 图1是本发明的垃圾邮件过滤方法流程图。
[0039] 图2是本发明的待过滤邮件样本e的信头和标题组成结构示意图。
[0040] 图3是图1中smrk(e)函数对待过滤邮件样本e的邮件主题处理流程图。
[0041] 图4是图3中步骤C和步骤d数据融合原理图。
【具体实施方式】
[0042] 下面通过实施例,并结合附图,对本发明的技术方案进行说明。
[0043] 参见图1,本发明的垃圾邮件过滤的方法主要分为H个部分:特征提取、特征量化 和机器学习分类。参见图1、2,在特征提取阶段,本发明从待过滤邮件样本e的邮件信头和 邮件标题中提取了五个具有代表性的字段,即源字段、目标字段、邮件客户端字段、发送端 服务器IP地址字段和邮件标题字段。其中,源自段提取自邮件信头中的化om,化om表示的 是该电子邮件的发件人地址;目标字段提取自邮件信头中的recipient,recipient表示电 子邮件信头中的收件人地址或抄送地址;邮件客户端字段提取自邮件信头中的X-Mailer, X-Mailer暗含了用来发送邮件的电子邮件客户端(Emailclient)或邮件用户代理(Mail UserAgent,MUA)软件的名称,一般用户想要伪造一个可信度较高的X-Mailer字段较困 难,因此用于垃圾邮件群发的客户端通常提供一个非法的X-Mailer字段来避免被当作垃 圾邮件过滤;发送端服务器IP地址字段提取自电子邮件信头中的ip,ip表示邮件发送者的 ip地址;邮件标题字段,提取自电子邮件中的subject,subject表示邮件的标题信息。
[0044] 本发明提出的方法对邮件非正文信息进行分析,即对从邮件信头和邮件标题中提 取的五个字段进行分析。
[0045]由于送五个字段存在文本、数值等不同格式,因此特征量化阶段对送些特征进行 了具体地数值化处理,旨在将送些不同格式不同量纲的特征转化为数值。如图1的特征量 化阶段所示,对于输入的待过滤电子邮件,经过特征提取后的五个字段在特征量化的过程 中分别对应sendeHe)、n;rcpt(e)、xmalHe)、ip(e)、S皿k(e)五个函数的输出。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1