一种与内容无关的垃圾邮件过滤方法

文档序号：9581601阅读：655来源：国知局

一种与内容无关的垃圾邮件过滤方法
【技术领域】
[0001] 本发明属于垃圾邮件过滤方法，特别是涉及一种与内容无关的垃圾邮件过滤方法。
【背景技术】
[0002] 随着互联网技术的发展，电子邮件成为一种重要的通讯工具。但随之而来的垃圾邮件数量众多，送些垃圾邮件具有反复性、强制性、欺骗性、不健康性或传播速度快等特点，严重影响了人们的正常邮件交流。对于垃圾邮件过滤技术，目前主流的技术主要分为非机器学习型和机器学习型。非机器学习型邮件过滤系统（如黑名单式）的缺点在于系统无法学习更新数据，难将其部署为一个单机（而非联网）的过滤系统，且有很大几率把正常邮件当作垃圾邮件过滤。机器学习型系统分为基于内容和不基于内容的邮件过滤系统。由于邮件中各种多媒体技术的发展，基于内容的分析变得困难，越来越多的研究转向对于邮件其他元素（标题，邮件发件人IP地址等非正文元素）的分析。
[0003]Bayes(贝叶斯）方法是当前实际使用最多的垃圾邮件过滤方法。由于Bayes对于邮件分类的速度很快，而且在识别过滤过程中可W进行动态的调整，因此在垃圾邮件过滤方面应用最为广泛。然而由于垃圾邮件本身的一些伪装方法比较好或者合法邮件的一些关键字和符合垃圾邮件的关键字匹配，使得目前垃圾邮件的识别越来越困难。一个邮件样本难W明确地归为某一类，而W-定概率或一定隶属度属于某一类。因此，在对样本的类型不确定性比较大的时候，强行分类势必会造成分类结果错误，正确率下降的情况。无论是黑名单式的方法还是贝叶斯的方法，仅用邮件分类输出yE(spam,legitimate}表示类别信息并不恰当。可W有更恰当的方法来处理送种不确定的情况。

【发明内容】

[0004] 本发明所要解决的技术问题在于克服现有技术的不足，提供一种处理不确定性的方法；基于送种处理不确定性的方法，提出一种与内容无关的垃圾邮件过滤方法。
[0005] 本发明所使用的证据理论是一套基于"证据"和"组合"来处理不确定性推理问题的数学方法。送种Dempster-ShafeHD-巧理论能有效地提高不确定情况下目标的识别能力。该理论把概率论中的基本事件空间拓宽为基本事件的幕集（又称为辨识框架），在辨识框架上建立了基本概率指派函数度asicProb油ilityAssignment,下文简写为BPA)。此夕F，证据理论还提供了一个D-S组合规则，该规则可W在没有先验信息的情况下实现证据的融合。
[0006] 本发明采用如下技术方案：
[0007] -种与内容无关的垃圾邮件过滤方法，其包含如下步骤；（1)对邮件标题进行特征提取，（2)对特征提取后的邮件标题进行特征量化，（3)将步骤（2)所得结果进行机器学习分类，判断邮件是否为垃圾邮件；其特征在于：
[0008] 所述步骤（2)具体包括如下步骤：
[0009] I)对邮件标题去除标点符号、特殊符号、停用词后，经分词转化为由单词组成的特征向量G;
[0010] 2)对所述特征向量G中的每一个元素进行统计，并分别对照垃圾标题特征集和合法标题特征集进行统计，查找每一个元素分别在送两个集中出现的频率次数，并将结果分为四种情况，分别得到基本概率指派函数；
[0011] 3)将所述基本概率指派函数根据证据理论的D-S组合规则进行融合，得到最终的基本概率指派函数；
[0012] 4)将所述最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的结果。
[0013] 所述基本概率指派函数分为如下四种情况：
[0014] (a)邮件标题的特征向量G中的每一个元素gi出现在垃圾标题特征集中，也出现在合法标题特征集中时，定义基本概率指派函数如下：
[0017]IHi({spam,legitimate}) =〇
[001引（b)元素gi既没有出现在垃圾标题特征集中，也没有出现在合法标题特征集中，定义基本概率指派函数如下：
[0019] IHi({spam}) = 0
[0020] IIii({legitimate} )= 0 [00引]IIii({spam,legitimate} )= 1
[0022] (C)元素gi出现在垃圾标题特征集中，但没有出现在合法标题特征集中，定义基本概率指派函数如下：
[0023]IHi({spam}) = 1
[0024]IHi({legitimate}) = 0
[00巧]IIii({spam,legitimate} )= 0
[0026](d)元素gi出现在合法标题特征集中，但没有出现在垃圾标题特征集中，定义基本概率指派函数如下：
[0027]IHi({spam}) = 0
[0028]IIii({legitimate} )= 1
[0029] 本发明的技术方案具有如下有益效果：
[0030] (1)本发明提出的方法采用对于邮件的非正文信息进行分析，不涉及对邮件正文内容的分析，而主要对邮件报文的信头和邮件标题提取具有代表性的字段进行分析，降低了垃圾邮件分析的难度；
[0031] (2)本发明相比经典概率论中的Bayes方法，采用证据理论来进行垃圾邮件分类，具有W下H个理论优势：
[0032] 1)证据理论可W更好的处理不确定性问题。
[0033] 在经典概率论中，Bayes概率模型只能支持将概率分配到单子集命题上。在证据理论中，BPA既可W被指派到单子集命题上，也能被指派到多子集命题上。特别地，当BPA只在辨识框架的单子集命题上进行分配时，BPA就转换为概率论中的概率，而组合规则的融合结果与概率论中的Bayes公式相同。
[0034] 2)证据理论不像Bayes概率模型一样需要先验信息支持。
[0035]Bayes概率模型需要获得一组先验信息，然后通过Bayes更新用后验概率来更新先验概率。然而在一些实际使用中，完整的先验信息不容易获得。证据理论不需要有先验信息的支持，每组BPA被认为来自一个独立信息源的证据，多个信息源的证据可W用D-S组合规则进行融合。
[0036] 3)证据理论可W表示由于对客观事物没有充分了解而引起的未知信息。
[0037] D-S证据理论能够比概率论更有效地表示和处理不确定信息。当对于邮件样本的归类有较大不确定性时，相比贝叶斯更新中将概率分配到单子集命题上，证据理论能够将概率分配到多子集命题上来表现送种不确定性。当BPA只在辨识框架的单子集命题上进行分配时，证据理论可W退化成经典概率论中Bayes更新。证据理论的送些特点使其在处理垃圾邮件方面存在很大的优势。
【附图说明】
[0038] 图1是本发明的垃圾邮件过滤方法流程图。
[0039] 图2是本发明的待过滤邮件样本e的信头和标题组成结构示意图。
[0040] 图3是图1中smrk(e)函数对待过滤邮件样本e的邮件主题处理流程图。
[0041] 图4是图3中步骤C和步骤d数据融合原理图。
【具体实施方式】
[0042] 下面通过实施例，并结合附图，对本发明的技术方案进行说明。
[0043] 参见图1，本发明的垃圾邮件过滤的方法主要分为H个部分：特征提取、特征量化和机器学习分类。参见图1、2,在特征提取阶段，本发明从待过滤邮件样本e的邮件信头和邮件标题中提取了五个具有代表性的字段，即源字段、目标字段、邮件客户端字段、发送端服务器IP地址字段和邮件标题字段。其中，源自段提取自邮件信头中的化om，化om表示的是该电子邮件的发件人地址；目标字段提取自邮件信头中的recipient,recipient表示电子邮件信头中的收件人地址或抄送地址；邮件客户端字段提取自邮件信头中的X-Mailer, X-Mailer暗含了用来发送邮件的电子邮件客户端（Emailclient)或邮件用户代理（Mail UserAgent,MUA)软件的名称，一般用户想要伪造一个可信度较高的X-Mailer字段较困难，因此用于垃圾邮件群发的客户端通常提供一个非法的X-Mailer字段来避免被当作垃圾邮件过滤；发送端服务器IP地址字段提取自电子邮件信头中的ip,ip表示邮件发送者的 ip地址；邮件标题字段，提取自电子邮件中的subject,subject表示邮件的标题信息。
[0044] 本发明提出的方法对邮件非正文信息进行分析，即对从邮件信头和邮件标题中提取的五个字段进行分析。
[0045]由于送五个字段存在文本、数值等不同格式，因此特征量化阶段对送些特征进行了具体地数值化处理，旨在将送些不同格式不同量纲的特征转化为数值。如图1的特征量化阶段所示，对于输入的待过滤电子邮件，经过特征提取后的五个字段在特征量化的过程中分别对应sendeHe)、n;rcpt(e)、xmalHe)、ip(e)、S皿k(e)五个函数的输出。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡勇;张晨威;张智军;邓勇;刘梅;张享周;陈诗峰;谢康;肖静华;姜灵敏;曾驭然;张振华;丘心颖;陈蔚琦;刘康;苏丽君;郭策;
技术所有人：广东外语外贸大学;胡勇;邓勇;
我是此专利的发明人

上一篇：交互系统、方法、客户端及后台服务器的制造方法
上一篇：一种信息处理方法和系统、客户端和服务器的制造方法

该领域下的技术专家

如您需求助技术专家，请点此查看客服电话进行咨询。

1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究

2、王老师：1.机器人 2.嵌入式控制系统开发

3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计

4、毕老师：机构动力学与控制

5、袁老师：1.计算机视觉 2.无线网络及物联网

如您是高校老师，可以点此联系我们加入专家库。

相关技术

一种信息处理方法和系统、客户...
通信数据的显示方法及装置的制...
交流群组控制方法及装置的制造...
群组资料分享系统及方法
一种消息发送方法和设备的制造...
邮件发送方法、装置和系统的制...
一种用于和社交网络交互信息的...
一种无线网络虚拟化环境下的映...
一种支持异构多信道的多跳无线...
在线多播虚拟网络的资源分配方...

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

垃圾邮件过滤方法相关技术
垃圾邮件过滤方法及装置的制造方法
一种垃圾短信过滤方法及装置的制造方法
电子邮件过滤方法及装置的制造方法
一种对图像型垃圾邮件进行过滤的方法及装置的制造方法
一种垃圾邮件的检测方法及装置的制造方法
一种多维度的垃圾短信过滤方法及系统的制作方法
一种中文图像型垃圾邮件过滤方法及系统的制作方法
基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
垃圾邮件服务器的判断方法和装置制造方法
一种垃圾信息过滤方法和装置制造方法
垃圾邮件过滤相关技术
一种基于用户评论的ugc垃圾内容过滤方法及系统的制作方法
文本挖掘系统及工具的制作方法
一种基于用户行为分类的垃圾邮件过滤系统及方法
一种统计学习中基于密文的数据二分类方法
一种基于聚类和隶属度融合的改进型文本分类算法
过滤件的制作方法
一种网络垃圾信息过滤优化方法
基于指纹特征的文本复制检测系统及方法
基于客户端的个性化电子邮件过滤系统和过滤方法
垃圾邮件识别方法及装置的制造方法
垃圾邮件过滤系统相关技术
词典降维方法及装置、信息分类方法及装置的制造方法
一种垃圾邮件过滤方法及系统的制作方法
一种与内容无关的垃圾邮件过滤方法
一种基于规则的交互式中文垃圾邮件过滤方法
垃圾邮件过滤方法及装置的制造方法
一种对图像型垃圾邮件进行过滤的方法及装置的制造方法
用于sms垃圾过滤的smpp消息处理的制作方法
一种多维度的垃圾短信过滤方法及系统的制作方法
雨水口垃圾过滤循环系统的制作方法
一种中文图像型垃圾邮件过滤方法及系统的制作方法
贝叶斯垃圾邮件过滤相关技术
基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
一种垃圾邮件过滤方法
垃圾邮件的过滤处理方法和系统的制作方法
可联网的传真机、网络传真系统及其过滤垃圾传真的方法
用于sms垃圾过滤的smpp消息处理的制作方法
Sms垃圾过滤的map消息处理的制作方法
在无线通信中过滤包含垃圾邮件和/或病毒的消息的制作方法
一种自反馈垃圾信息过滤方法
一种垃圾邮件过滤的方法及系统的制作方法
一种基于数字认证的垃圾邮件过滤系统的制作方法
exchange垃圾邮件过滤相关技术
一种中文图像型垃圾邮件过滤方法及系统的制作方法
一种垃圾邮件过滤方法
垃圾邮件的过滤处理方法和系统的制作方法
可联网的传真机、网络传真系统及其过滤垃圾传真的方法
用于sms垃圾过滤的smpp消息处理的制作方法
Sms垃圾过滤的map消息处理的制作方法
在无线通信中过滤包含垃圾邮件和/或病毒的消息的制作方法
一种垃圾邮件过滤的方法及系统的制作方法
一种基于数字认证的垃圾邮件过滤系统的制作方法
一种垃圾邮件过滤方法及装置制造方法
垃圾邮件过滤器相关技术
基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
用于生成社交网络活动流的方法
一种垃圾邮件过滤方法
垃圾邮件的过滤处理方法和系统的制作方法
用于sms垃圾过滤的smpp消息处理的制作方法
Sms垃圾过滤的map消息处理的制作方法
在无线通信中过滤包含垃圾邮件和/或病毒的消息的制作方法
一种垃圾邮件过滤的方法及系统的制作方法
多维声誉评分的制作方法
一种基于数字认证的垃圾邮件过滤系统的制作方法
垃圾邮件过滤算法相关技术
基于伪造发件人的垃圾邮件检测与过滤方法
一种基于聚类的垃圾邮件过滤系统及方法
一种多层次的垃圾邮件智能过滤方法
一种垃圾邮件过滤方法及装置的制作方法
基于Logistic回归的中文垃圾邮件过滤方法
基于支持向量机的垃圾邮件过滤方法
快速高准确率的垃圾邮件过滤方法
移动通信设备垃圾邮件的过滤的制作方法
基于相似性量度过滤垃圾邮件的方法和装置的制作方法
基于最邻近标签传播算法的图像型垃圾邮件检测方法
垃圾邮件过滤技术相关技术
控制转发数据报文的方法和装置的制作方法
一种垃圾邮件过滤方法及装置制造方法
基于伪造发件人的垃圾邮件检测与过滤方法
一种垃圾邮件过滤方法及装置的制作方法
一种基于阈值的图像垃圾邮件过滤方法
基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
一种电子邮件网关类系统邮件账户维护方法
一种基于拓扑行为的垃圾邮件判定方法
基于Logistic回归的中文垃圾邮件过滤方法
一种基于人工免疫与行为特征的垃圾邮件识别方法及装置的制作方法