一种基于过滤器动态集成的垃圾邮件过滤方法

文档序号:7716993阅读:262来源:国知局
专利名称:一种基于过滤器动态集成的垃圾邮件过滤方法
技术领域
本发明涉及电子邮件技术领域中的垃圾邮件处理技术,尤其涉及一种基于过滤器 动态集成的垃圾邮件过滤方法。
背景技术
信息通讯技术的发展及由此带来的信息量增长,极大促进了人们的沟通和交流, 作为当前信息爆炸的产物,垃圾邮件占用大量传输、存储和运算资源,造成了巨大的资源浪 费,在其它方面的危害程度也相当大。
目前,反垃圾邮件技术主要包括基于协议的方法、基于规则的方法、基于统计机器 学习的方法。随着邮件在线变化日益突出,基于协议和基于规则的方法因为需要事先定义 规则,往往无法及时处理新的垃圾邮件形式。而基于统计学习的方法具有与时俱进的优点, 成为近年来研究的重点和热点,特别是随着特征选择技术和机器学习算法的改进,基于统 计的垃圾邮件过滤方法取得了优异的性能。
近年来,随着各种五花八门的垃圾邮件出现,单分类器学习算法往往无法适应其 变化,为此,利用各种算法组合来提高分类性能得到了广泛的关注。然而,现有的过滤器组 合方法只是单纯地挑选一些在单独工作时效果好的过滤器,并没有对过滤器进行区分、归 类,这使得一些具有相似机理的过滤器在组合工作时往往无法充分相互配合,过滤的稳定 性不高。同时,现有过滤器组合一旦选定了某种组合方式,便不再对其进行调整。这样,随 着时间的推移,垃圾邮件制造者通过不断变换邮件特征,能够轻易地避开现有集成方案的 检测,使其失去对新产生的垃圾邮件的判别能力,导致过滤的准确性下降。发明内容
有鉴于此,本发明提供一种基于过滤器动态集成的垃圾邮件过滤方法,利用过滤 器分组以及动态配置集成过滤器,克服现有技术的缺陷,提高垃圾邮件过滤的准确性和稳 定性。
为达到上述目的,本发明的技术方案是这样实现的
A、用文本处理方法对垃圾邮件进行处理;
B、用户对过滤器进行分组并初始选取过滤器;
C、通过延时替换控制对过滤器进行动态选择。
由上述的技术方案可知,本发明中的一种基于过滤器动态集成的垃圾邮件过滤方 法,由于用户按照一定的归类原则对过滤器进行分组,并动态从每组中选取过滤器用于集 成分类,使得多个过滤器在工作时得以充分地相互配合,有效克服现有多过滤器集成方法 在应对邮件特征变化方面的不足,提高了垃圾邮件过滤的准确性和稳定性。


图1是本发明实施例中一种基于过滤器动态集成的垃圾邮件过滤方法的原理图。3
图2是本发明实施例中一种基于过滤器动态集成的垃圾邮件过滤方法的流程图。
图3是本发明实施例中一种基于异质过滤器动态集成的垃圾邮件过滤方法的流 程图。
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体 实施例,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
图1是本发明实例中一种基于过滤器动态集成的垃圾邮件过滤方法的原理图。如 图1所示,本发明首先利用文本处理方法对邮件进行处理,得到处理结果;然后,将所得到 的文本处理结果输入经用户分组选定的各个过滤器进行学习和分类;最后,根据分类结果 和用户反馈对过滤器进行动态选取。
图2是本发明实例中一种基于过滤器动态集成的垃圾邮件过滤方法的流程图。如 图2所示,本发明实例中一种基于过滤器动态集成的垃圾邮件过滤方法包括如下所述的步 骤
步骤201,用文本处理方法对垃圾邮件进行处理。
所述的文本处理方法,包括对邮件文本的抽取、文本分词、文本的特征选取、文本 向量映射。具体的处理步骤如下
1)邮件文本的抽取
邮件原文一般都进行了加密,并带有各种字符编码。因此,抽取邮件文本需要进行 如下步骤对邮件进行解密,得到解密后的邮件内容;提取邮件中文本的字符编码,并利用 编码的转换统一文本的字符编码。最后,提取统一了编码的文本信息。
2)文本分词
对于类似于中文的无间隔、连写的语言,为了能够使一些机器学习算法理解其意 义,需要对其进行分词处理,找到表示文本的特征。
3)文本的特征选取
特征选取方法通过将高维数据映射到低维表示,从而减少数据的稀疏性,同时在 一定程度上能够去除噪音,提高分类算法的性能。因而,特征选取方法是一项重要的数 据预处理方法。常用的特征选取方法包括文档频率(document frequency,DF)、信息熵 (information gain, IG)等。
4)向量映射
由于一些文本分类算法需要基于向量空间模型进行相似性计算,因此需要提供向 量输入。文本向量映射是将邮件的文本表示转化为向量表示,向量的长度是训练邮件集中 所有出现的特征词数量,向量的每一维大小表示该文本中对应的特征词的权重。所述的 训练邮件集是指经过标注的用于训练过滤器的邮件集合。所述的特征词权重的常用计算 方法有二值(binary)、词步页(term frequency, TF)、反转文档步页率(inverse document frequency, IDF)等。
对文本集进行上述预处理后,按照分类过滤器的不同要求将符合的信息输入各个 分类过滤器。
步骤202,用户对过滤器进行分组并初始选取过滤器。
所述的对过滤器进行分组,是指用户可以依据过滤器的机理对其进行分组,开始 时在每一组中随机选择过滤器作为初始分类器。
步骤203,通过延时替换控制对过滤器进行动态选择。
在该步骤中,本发明实施例首先利用所选的过滤器基于文本处理方法所提供的输 入进行集成分类;然后,根据分类结果和用户的反馈,通过延时替换控制动态对过滤器进行 选取。具体的处理步骤如下
1)根据所选的过滤器基于文本处理方法所提供的输入进行集成分类。
所述的集成分类的步骤如下首先,过滤器通过训练获得各自的分类处理模型; 然后,利用所获得的分类处理模型对待分类邮件判定得分;接着,将所有的判定信息进行汇 总、集成,得到最终判定得分;最后,通过阈值策略将邮件投放到正常邮件或垃圾邮件收件 箱中。
其中,过滤器通过训练获得各自的分类处理模型,分为两种情况一是,在首次使 用某个过滤器进行分类前,需要学习一些带标注的邮件,通过文本处理方法得到过滤器的 输入,结合邮件标注,训练获得初始分类过滤器;二是,在以后使用某个过滤器进行分类前, 过滤器通过用户反馈的邮件标注以及文本处理方法提供的相应邮件的输入进行分类处理 模型的训练。集成方式主要分为线性和非线性两种,其中线性集成分为简单算术平均集成、 根据历史准确率设定的加权平均集成等,非线性集成有基于支持向量机的集成等。
2)根据分类结果和用户反馈,通过延时替换控制动态对过滤器选取。
用户通过查阅对一部分邮件进行标注。在此基础上,所述的根据分类结果和用户 的反馈,通过延时替换控制决定下一次的过滤器选取的具体步骤如下首先,记录用户标 注,并以此信息为依据,在时间范围Tl内计算正在运行的过滤器的正确率;然后,若其中一 个或几个过滤器在时间Tl内的正确率低于用户给定阈值E,则准备对过滤器进行替换;接 着,考虑待替换过滤器正确率在接下来的时间范围T2内的准确率,若低于阈值E,则对其替 换,从其所在组内随机选取其它任意一款过滤器。
图3是本发明实例中一种基于异质过滤器动态集成的垃圾邮件过滤方法的流程 图。所述的异质是指过滤器的工作原理不同,即过滤器核心模块所基于的机器学习技术不 同。在本发明实例中,初始提供的过滤器包括两种基于贝叶斯判定的过滤器SpamProbe 和BogoFilter,一种基于局部匹配预测技术的过滤器PPM(Prediction by Partial Matching),—禾中 云力 I Markov Hifii^Wil 5 !^ DMC (Dynamic Markov compression), 一种对传统SVM的改进的过滤器ROSVM(Relaxed Online SVM),一种基于Logistic回归 的过滤器 LR_trirls (Logistic Regression with truncated iteratively re-weighted least squares)。
如图3所示,本发明实例中一种基于异质过滤器动态集成的垃圾邮件过滤方法的 具体实施步骤如下
1)利用文本处理方法对邮件进行处理。
利用文本处理方法分别得到邮件提取文本的原文、分词后的邮件提取文本以及向 量表示的邮件提取文本。
其中,提取文本原文的方法包括解码、去除标记信息、字符集转换、繁简字转换、标 题和正文提取等步骤。
文本分词步骤是在上述所获得的邮件文本基础上,利用天网分词程序对提取的邮 件原文进行分词处理,保存分词后的文本。
文本向量表示是在上述经过文本分词处理的步骤后,利用文档频率(DF)方法进 行特征选择,设定保留维数为1000,从而得到特征选择的结果。根据特征选择的结果,采用 二值表示向量每一维的权重将分词后的邮件文本映射为向量,即,当特征词出现在邮件文 本中时,其权重为1,否则为0。
2)用户对过滤器进行分组并初始选取过滤器。
用户将基于相同工作原理的过滤器设定为同一组,即,将基于区分方法的过滤器 ROSVM和LR_trirls分为一组;将基于生成方法的过滤器SpamProbe和BogoFilter分为 一组;将基于压缩方法的过滤器PPM和DMC分为一组。并且随机选择了 PPM、BogoFilter, ROSVM作为初始的集成过滤器。
3)通过延时替换控制对过滤器进行动态选择。
该方法包括两个步骤
(a)根据所选的过滤器基于文本处理方法所提供的输入进行集成分类。
首先,将提取的邮件文本原文输入过滤器PPM,将经过分词处理的邮件文本输入过 滤器BogoFilter,将经过向量表示的文本输入过滤器R0SVM,三个过滤器PPM、BogoFilter、 ROSVM通过训练获得各自的分类处理模型。然后,利用所获得的分类处理模型,用三个过滤 器对待分类邮件进行判定,分别输出W,l]区间的垃圾邮件概率值。接着,采用简单算术平 均分集成方式,只计算所有过滤器的平均得分S。最后,将得分S与设定的阈值T = 0. 5进 行比较,当得分S超过阈值T,将邮件判定为垃圾邮件;反之,则判定为正常邮件。
其中,通过训练获得各自的分类处理模型包括两种情况一是,在首次使用上述三 个过滤器进行分类前,利用事先准备好的带标注的邮件,训练PPM、BogoFilter, ROSVM的初 始分类处理模型;二是,在以后使用上述三个过滤器进行分类前,通过用户反馈的邮件标注 以及文本处理方法提供的相应邮件的输入进行分类处理模型的训练。
(b)根据分类结果和用户反馈,通过延时替换控制动态对过滤器选取。
首先,用户查看接收的邮件,并对查看的邮件进行类别标记。然后,将用户的标记 和分类结果作为历史信息,计算在时间范围Tl内的PPM、BogoFilter、ROSVM的历史正确率 A。接着,若其中一个或几个过滤器在Tl时间内的历史正确率A低于用户给定阈值E,则准 备对过滤器进行替换。最后,若待替换过滤器的历史正确率A在接下来的T2时间内仍低于 E,则替换这一个或这几个过滤器,并且随机选取这一个或这几个过滤器所在组中的其他任 意一款过滤器。
其中,
权利要求
1.一种基于过滤器动态集成的垃圾邮件过滤方法,其特征在于,该方法包括以下步骤A、用文本处理方法对垃圾邮件进行处理;B、用户对过滤器进行分组并初始选取过滤器;C、通过延时替换控制对过滤器进行动态选择。
2.根据权利要求1所述的方法,其特征在于,步骤A中所述的文本处理方法包括对邮 件文本的抽取、文本分词、文本的特征选取和文本向量映射。
3.根据权利要求1所述的方法,其特征在于,步骤B中所述的对过滤器进行分组,是指 用户可以依据过滤器的机理对其进行分组。所述的初始选取过滤器,是指开始时在每一组 中随机选择过滤器作为初始分类器。
4.根据权利要求1所述的方法,其特征在于,步骤C具体包括Cl、利用所选的过滤器基于文本处理方法所提供的输入进行集成分类; C2、根据分类结果和用户反馈,通过延时替换控制动态对过滤器进行选取。
5.根据权利要求4所述的方法,其特征在于,步骤Cl中所述的集成分类的具体步骤包括C11、过滤器通过训练获得各自的分类处理模型; C12、利用所获得的分类处理模型对待分类邮件判定得分; C13、将所有的判定信息进行汇总、集成,得到最终判定得分; C14、通过阈值策略将邮件投放到正常邮件或垃圾邮件收件箱中。
6.根据权利要求5所述的方法,其特征在于,步骤Cll包括两种情况一是,在首次使 用某个过滤器进行分类前,需要学习一些带标注的邮件,通过文本处理方法得到过滤器的 输入,结合邮件标注,训练获得初始分类过滤器;二是,在以后使用某个过滤器进行分类前, 过滤器通过用户反馈的邮件标注以及文本处理方法提供的相应邮件的输入进行分类处理 模型的训练。
7.根据权利要求4所述的方法,其特征在于,步骤C2具体包括首先,记录用户标注, 并以此信息为依据,在时间范围Tl内计算正在运行的过滤器的正确率;然后,若其中一个 或几个过滤器在时间Tl内的正确率低于用户给定阈值E,则准备对过滤器进行替换;接着, 考虑待替换过滤器正确率在接下来的时间范围T2内的准确率,若低于阈值E,则对其替换, 从其所在组内随机选取其它任意一款过滤器。
全文摘要
本发明涉及电子邮件技术领域中的垃圾邮件处理技术,尤其涉及一种基于过滤器动态集成的垃圾邮件过滤方法。该方法包括用文本处理方法对垃圾邮件进行处理;用户对过滤器进行分组并初始选取过滤器;通过延时替换控制对过滤器进行动态选择。用户按照一定的归类原则对过滤器进行分组,并动态从每组中选取过滤器用于集成分类,使得多个过滤器在工作时得以充分地相互配合,有效克服现有多过滤器集成方法在应对邮件特征变化方面的不足,提高了垃圾邮件过滤的准确性和稳定性。
文档编号H04L29/06GK102035753SQ20091020562
公开日2011年4月27日 申请日期2009年10月2日 优先权日2009年10月2日
发明者王金龙, 高珂 申请人:青岛理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1