一种基于规则的交互式中文垃圾邮件过滤方法_2

文档序号：9567142阅读：来源：国知局

常邮件，再将误判信息放入误判信息集，等待进一步处理；
[0034]步骤（3. 2)，如果运封邮件是被漏判的垃圾邮件，用户通过漏判反馈接口将此漏判信息反馈给服务器，服务器会将此邮件的标签从正常邮件改为垃圾邮件，再将漏判信息放入漏判信息集，等待进一步处理；
[0035]步骤（4)，用增量学习的方法及时调整敏感规则的权重。
[0036] 用户反馈的误判和漏判信息，需要进一步的处理，W便有效降低误判率。
[0037] 一般的做法是选择将误判样本和漏判样本重新加入最初用来训练规则权重的训练样本集中，然后重新训练规则权重。运样做虽也可W减少错判，但是在邮件样本集非常大的时候，重新训练的周期可能长达几个星期。频繁的重新训练费时又费力，势必会降低规则权重更新的速度，影响过滤系统的实时性能，所W必须降低重新训练的频度。
[0038] 本发明选择在两次重新训练之间，用增量学习法来处理用户的反馈信息，在不影响过滤精度的前提下，提高规则更新的速度和效率。具体执行W下步骤：
[0039] 步骤（4. 1)，处理误判邮件；具体执行W下步骤：
[0040] 步骤（4. 1. 1)，邮件服务器收集误判样本，待误判信息集中的样本数目达到一定规模（假设为时，对运些误判邮件样本所触发的过滤规则进行统计，给出其中每条规则被触发的次数，设触发规则i的邮件数目为ni;
[0041] 步骤（4. 1.2)，按照规则i被触发的次数rii对运些规则进行排序，从大到小地挑选出若干条规则，将其权重作为待修改的规则权重；
[0042]步骤（4. 1.3)，适当降低待修改规则的权重。设规则i修改前的权重为O1，修改后的权重为《A触发规则i的邮件数为ni，误判邮件样本总数为，则权重调整公式为：
[0043] O i' = O 1-A O i,其中，
[0044] 其中r为[0,1]间取值的随机数，b为系统参数，取值可W在实验过程中选择。可 W看出上述公式中，A?1与O1本身的大小成正比，运是因为权重越大的规则，在被触发时，造成误判的可能性也越大，所W权重调整量应该越大。同时，规则i触发的邮件数目rii 越大时，A?1也越大，运是因为触发规则i的误判邮件数目越多，说明运条规则对误判的影响越大，相应的需要作较大的调整； W45] 步骤（4. 2)，处理误判邮件；具体执行W下步骤：
[0046]步骤（4. 2. 1)，邮件服务器收集漏判样本，待漏判信息集中的样本数目达到一定规模时，对运些漏判邮件样本所触发的过滤规则进行统计，给出其中每条规则被触发的次数，记触发规则i的邮件数目为rii;
[0047]步骤（4. 2. 2)，按照规则i被触发的次数rii对运些规则进行排序，从大到小地挑选出若干条规则，将它们的权重作为待修改的规则权重；
[0048]步骤（4. 2. 3)，适当提高待修改规则的权重。设规则i修改前的权重为CO1，修改后的权重为《A触发规则i的邮件数为ni，漏判邮件样本总数为，则权重调整公式为：
[0049] =〇i+A〇i，其中，
[0050] 其中r为[0,U间取值的随机数，b为系统参数，取值可W在实验过程中选择。可W看出上述公式中，A?1与O1本身的大小成反比，运是因为权重越小的规则，在被触发时，造成漏判的可能性也越大，所W权重调整量应该越大。同时，规则i触发的邮件数目rii 越大时，AO1也越大，运是因为触发规则i的漏判邮件数目越多，说明运条规则对误判的影响越大，相应的需要作较大的调整；
[0051]步骤（4. 3)，整体上调整判定阔值；
[0052]将误判样本和漏判样本加入到最初用来训练规则权重的样本集中，用新的样本集和所有规则（包括调整过权重的和未调整过权重的）对垃圾邮件判定阔值进行调整，如果在阔值为某个值W时，邮件判定的正确率最高，则将运个值作为新的判定阔值。
[0053] 本发明所产生的有益效果：
[0054] 一种基于规则的交互式中文垃圾邮件过滤方法，用改进遗传算法训练过滤规则的权重分布，同时增加用户和服务器之间的交互，根据用户反馈的错判信息，用增量学习的方法及时修正规则的权重。实验表明，运种交互式的过滤方法在保证垃圾邮件识别率不受影响的前提下，减少了错判的发生，达到更好的过滤效果。同时，增量学习方法的使用降低了重新训练的频度，提高了权重更新的速度，使过滤系统的整体性能得到提高。
【附图说明】阳化5] 图1是本发明的整体结构图；
[0056]图2是本发明的垃圾邮件过滤规则集划分图；
[0057] 图3是本发明的交互式中文垃圾邮件过滤的权重训练方法示意图；
[0058] 图4是本发明的交互式中文垃圾邮件过滤系统的主要交互与学习流程图；
[0059] 图5是本发明的交互式中文垃圾邮件过滤系统与非交互式系统的性能对比分析图。
【具体实施方式】
[0060] 下面结合【具体实施方式】对本发明的上述
【发明内容】
作进一步的详细描述。
[0061] 但不应将此理解为本发明上述主题的范围仅限于下述实施例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的范围内。阳062] -.交互式中文垃圾邮件过滤系统整体结构
[0063] 如图1所示为交互式中文垃圾邮件过滤系统的整体结构。 W64] 其中，中文邮件的初始样本来自垃圾邮件举报系统W及通过其它途径获取的中文邮件。后期用户反馈邮件的样本集也归入该样本库。阳0化]系统从样本库中提取样本后利用分词器模块进行分词，然后送入规则生成器，通过过滤规则权值调整模块的作用下生成过滤规则，送邮件服务器的垃圾邮件过滤引擎 Spamassassin执行邮件过滤功能。
[0066] 系统运行过程中，通过邮件服务器与用户之间的交互式接口，采集用户反馈的邮件样本集，利用用户反馈信息学习模块W及过滤规则权值调整模块进行分析，反复调整，最终产生最佳中午垃圾邮件过滤规则，W便有效提高中文垃圾邮件过滤效率，降低误判率。
[0067] 二.交互式中文垃圾邮件过滤系统性能分析 W側实验中，利用自垃圾邮件举报系统中的10000封邮件样本进行了如下对比测试：
[0069] 1.用改进遗传算法训练得到的中文过滤规则进行过滤，不进行用户和服务器之间的交互；
[0070] 2.利用本发明所实现的交互式中文垃圾邮件过滤系统进行过滤，增加用户和邮件服务器之间的交互，对误判和漏判的信息进行增量学习，调整敏感规则的权重，然后对同样的邮件样本重新进行过滤；
[0071] 如图4所示，主要的交互与学习流程如下：阳0巧（1)邮件到达邮件服务器后，所有中文垃圾邮件过滤规则对邮件进行检查。经过检查的每封邮件都有一个判定报告，其中包括它触发的规则及相应权重；
[007引似用户收取经过判定的邮件，检查判定是否正确；
[0074] (3)如果出现错判，用户将错判信息提交到用户反馈样本集，等待进一步处理；
[0075] (4)用户反馈样本集中的样本如果达到了设定的规模，就会触发用户反馈信息学习模块；
[0076] (5)用户反馈信息学习模块对用户反馈信息进行学习，用增量学习的方法调整规则权重。
[0077] 3.统性能分析
[0078] 实验结果如图5所示。可W看出，本发明所实现的交互式中文垃圾邮件过滤系统的主要性能指标都好于非交互式的常规垃圾邮件过滤系统。
[0079] 首先，对于正常邮件的正确识别率，采用本发明的交互式系统为94. 3%高于非交互式系统的83. 5% ;
[0080] 其次，对于垃圾邮件的正确识别率，采用本发明的交互式系统为89%高于非交

完整全部详细技术资料下载

当前第2页1 2 3