一种基于规则的交互式中文垃圾邮件过滤方法

文档序号:9567142阅读:648来源:国知局
一种基于规则的交互式中文垃圾邮件过滤方法
【技术领域】
[0001] 本发明设及互联网技术领域,具体公开了一种基于规则的交互式中文垃圾邮件过 滤方法。
【背景技术】
[0002] 电子邮件一直是互联网最重要的应用之一,早期的电子邮件系统设计,基于一个 基本的假设,即发信人是可信的,因而很少考虑邮件系统的安全性。随着互联网的迅速发 展,电子邮件系统越来越普及,随之而来的就是越来越严重的安全性问题,其中最主要的就 是垃圾邮件的泛滥,绝大多数邮箱每天都会收到大量的垃圾邮件,给社会、集体和个人带来 巨大的损失和不便。如何有效防止垃圾邮件已经成了摆在当前邮件系统面前的最为严峻的 问题。
[0003] 人们想尽了一切办法与垃圾邮件进行斗争,如黑白名单技术、过滤技术、增强认证 技术等。其中,过滤技术是目前最常用的反垃圾邮件手段。常见的垃圾邮件过滤方法主要 有W下S种:
[0004] (1)利用邮件地址、IP或域名"黑白名单"进行的邮件限制或过滤,典型应用比如: 结合DNS值omainNameServer)的实时黑名单RBL(Real-timeBlockList)过滤,用户自定 义邮件白名单加验证的过滤方法等。 阳0化](2)基于数据挖掘技术进行的邮件过滤研究,利用文本分类与统计算法进行垃圾 邮件过滤,比较有代表性的是贝叶斯过滤器巧]。
[0006] (3)基于垃圾邮件的特征分析、规则提取的规则匹配过滤方法。对运种技术的应 用,SpamAssassin处在领先的地位。
[0007] SpamAssassin是基于规则的垃圾邮件过滤器,在基于规则的垃圾邮件过滤技 术方面处于遥遥领先的地位。与传统的基于规则的垃圾邮件过滤器相比,SpamAssassin 的实现方法比较独特,它采用了一种概率统计的、基于权重的方法来对邮件分类。标准 SpamAssassin规则集中有几百条规则,包括对邮件头的处理、对邮件内容的处理及对邮件 结构的处理等,每条规则对应一个权重。SpamAssassin对每封邮件应用所有规则,如果规 则被触发,相应的权重就被加到邮件上,每封邮件所匹配规则的权重之和表示其为垃圾邮 件的可能性。如果总权重没有超过预先设定的阔值,表示运封邮件是正常的;相反,如果总 权重超过了预先设定的阔值,则表示邮件有问题,SpamAssassin就会将它判定为垃圾邮件。 由于SpamAssassin采用运种概率统计的、基于权重的方法,即使有些规则不够完美,但是 当与所有其它规则的判定结果结合使用时,就能够起到很有效的作用。实践证明,运种方法 不仅灵活性好,而且适应性强,能够有效地降低正常邮件的丢失率,大大提高垃圾邮件的过 滤准确率。除了自带的规则W外,SpamAssassin还允许用户定义自己的规则,具有很好的 扩展性。
[0008] SpamAssassin对英文垃圾邮件的过滤准确度很高,在国外已经得到了广泛的应 用,目前国内也已有不少用户在使用SpamAssassin。虽然SpamAssassin在设计的时候考虑 了多语言的兼容,但是由于中英文语种之间巨大的差异,它过滤中文垃圾邮件的实际效果 并不能令人满意。同时,它没有用户与服务器之间对判别正确性的交互,缺少及时处理错 判的机制。
[0009] 基于此,本发明实现了一种基于规则的交互式中文垃圾邮件过滤方法。该方法与 目前存在的众多垃圾邮件过滤方法的不同点在于,除了利用概率统计、基于权重的邮件分 类思想之外,更加强了用户与服务器之间的交互性,通过交互减少误判和漏判情况的出现, W达到更好的过滤效果。该方法广泛应用于网络管理、安全监控、网络行为分析等领域。

【发明内容】

[0010] 本发明的目的在于实现有效检测与过滤中文垃圾邮件,为网络管理、网络安全监 控进行技术支持,而提供的一种基于规则的交互式中文垃圾邮件过滤方法。
[0011] 本发明的特征在于,所述方法依次含有W下步骤:
[0012] 步骤(1),从垃圾邮件样本中提取中文垃圾邮件过滤规则,通过训练得到垃圾邮件 过滤规则权重;
[0013] 从邮件的行为特征上看,中英文垃圾邮件具有相同的特点,比如伪造信头,大量转 发等,所W针对垃圾邮件行为特征的过滤规则对于中英文垃圾邮件都是适用的。中英文垃 圾邮件之间的根本区别,是由于语种的不同,导致了邮件在内容部分有很大差别,邮件内容 的差别是中英文垃圾邮件的主要区别。SpamAssassin中提供了全面的针对垃圾邮件行为特 征的过滤规则,由于运些规则对中文垃圾邮件同样适用,所W运部分规则我们可W不用考 虑,只需要生成针对中文垃圾邮件内容的过滤规则,也就是图2里中文规则集右侧所示的 部分。
[0014] 中文垃圾邮件过滤规则主要考虑基于关键字匹配的过滤规则。通过对中文垃圾邮 件样本的内容进行统计,将中文垃圾邮件中出现概率较大的一些关键字抽取出来,采取的 主要手段是通过分词工具对邮件样本的内容部分进行分词,然后统计词频,将词频最高的 一些关键字提取出来,生成针对邮件内容的关键字匹配规则,然后再用寻优算法得到规则 的最优权重分布。
[0015] 具体执行W下步骤:
[0016] 步骤(1.1),分词;
[0017] 步骤(1. 2),统计词频;
[0018] 步骤(1. 3),选出词频最高的一组关键字;
[0019] 步骤(1. 4),生成关键字过滤规则;
[0020] 步骤(1. 5),通过训练得到规则权重;
[0021] 步骤(2),用改进遗传算法训练得到规则的最佳权重分布;
[0022] 生成中文垃圾邮件过滤规则后,需要用寻优算法为生成的中文过滤规则寻找最好 的权重分布。本发明采用改进的遗传算法训练得到最优权重分布。改进遗传算法采用实数 编码方案,更便于进行数值优化。由于初始种群对遗传算法效能的发挥影响很大,所W采用 小群体竞争法来确定初始种群。同时,为了保证捜索到的最佳个体不被各种遗传操作破 坏,并保留父代群体的优良特性,允许父代群体与交叉变异后产生的新个体一起参与竞争, 即两代竞争法。具体的遗传操作中,交叉算子采用优选父代自适应交叉算子,变异算子采用 非一致自适应变异算子。而在产生子代群体个体时,采用最优保留策略和两两竞争选择策 略,W保证算法的收敛性。最后,在算法的终止条件上,待群体进化稳定或者达到事先规定 的进化代数时,终止遗传算法。
[002引如图3所示,具体执行W下步骤:
[0024]步骤(2. 1),利用小群体竞争法生产初始群体,并进行实数编码;
[00巧]步骤(2. 2),进行适应值评价,判断是否适合终止条件,如果满足,输出最佳结果, 转步骤(3);否则,转步骤化3);
[00%] 步骤(2. 3),完整保留上代群体的一个备份;
[0027]步骤(2. 4),对上代群体进行优选杂交,产生自适应非一致变异;
[0028] 步骤(2.5),将上代群体的备份及步骤化4)所产生的自适应非一致变异进行匹 配,生成匹配池;
[0029]步骤(2. 6),保留最优个体,其它个体采用两两竞争的方式优胜劣汰;
[0030] 步骤(2. 7),通过最优个体与两两竞争的结果生成子代群体,转步骤(2. 2);
[0031] 步骤(3),加强用户和服务器之间的交互,收集并分析用户反馈的漏判和误判信 息,供步骤(4)进一步处理;
[0032] 本发明所提出的基于规则的交互式中文垃圾邮件过滤方法中,服务器在判别邮件 的同时,还提供了供用户反馈判别是否准确的接口,W便有效降低邮件误判率。具体执行W 下步骤:
[0033]步骤(3. 1),用户收到经邮件服务器判别的邮件时,如果运封邮件是被误判的正常 邮件,用户通过误判反馈接口将此误判信息反馈给服务器,服务器会将此邮件的标签从垃 圾邮件改为正
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1