一种多层次的垃圾邮件智能过滤方法

文档序号:7763538阅读:195来源:国知局
专利名称:一种多层次的垃圾邮件智能过滤方法
技术领域
本发明属于信息技术领域,涉及垃圾邮件的分类与过滤,尤其涉及一种多层次的垃圾邮件智能过滤方法。
背景技术
随着互联网的发展普及,电子邮件给人们的工作生活带来了极大的便利,与此同时不请自来的垃圾邮件也给人们产生了极大的困扰。垃圾邮件的泛滥不仅占用大量的带宽,严重浪费了网络资源,垃圾邮件也正成为黑客攻击的目标、病毒传播的途径,由此带来极大的安全隐患。目前对于垃圾邮件的定义世界上仍没有一个统一的明确的定义,尽管通常将垃圾邮件定义为Unsolicited Bulk Email (UBE,未被请求的批量邮件)或Unsolicited Commercial Email (UCE,未被请求的商业邮件),这是因为同样的邮件对于不同的用户来说其判断结果可能不同,也正是这种原因决定了市面上的大多垃圾邮件过滤工具效率低下。解决垃圾邮件泛滥的历程,大致可分为如下三个阶段(1)第一阶段主要是通过IP过滤、黑白名单、关键词匹配等进行垃圾邮件判断。(2)第二阶段主要是通过基于一些诸如贝叶斯等统计算法的智能内容过滤及实时黑名单过滤等机制来完成垃圾邮件的判断。(3)第三主要是对垃圾邮件的发送行为进行统计而发展起来的。这种方式首先对大量的垃圾邮件样本进行统计、分析和计算,然后根据RFC822协议建立垃圾邮件发送行为的识别模型。从而在邮件传输代理(MTA)通信阶段就能判断出该邮件是否为垃圾邮件。这种方式有效的提高了邮件过滤的速度,减少了网络延迟,然而这种基于网络行为特征的邮件过滤对于单一的垃圾邮件处理却显得无能为力。总的来说当前垃圾邮件过滤系统中存在如下几点问题(1)正常邮件误判问题对于用户来讲,正常邮件通常情况下是极其重要的,大多用户宁愿把所有邮件都通读一遍也不愿过滤掉一份正常邮件。因此,对垃圾邮件过滤系统而言,重点考虑的不是一个查全的问题,而应是查准的问题。而目前大多邮件过滤系统过多的考虑了查全的问题,而过滤级别也多是IP或动态IP级,造成了对用户正常邮件的误判。(2)语义信息丢失问题目前的过滤系统却多专注于IP地址过滤及邮件的统计特性,却忽略了对邮件语义信息的挖掘。然而垃圾邮件常常被伪装为正常邮件,只有解析其内容时才能判定其合法性,在这种情形下,仅靠单一的IP地址过滤及统计特性是难以获得满意效果的。因此有必要对邮件的语义信息进行挖掘,从而提高邮件过滤系统的精确度。(3)缺乏垃圾邮件过滤整体解决方案由于问题⑴、⑵可知,仅靠一种技术手段是难以取得满意的过滤效果的。因此, 有必要把各种技术手段加以整合,充分发挥各种过滤技术的长处,以避免单一技术的局限性。而这种全局的过滤解决方案却正是目前邮件过滤系统所缺失的。

发明内容
本发明的目的就是为了解决上述问题,提供一种多层次的垃圾邮件智能过滤方法,其目的在于降低正常邮件的误判率,解决邮件内容语义信息丢失的问题,从而统领全局,构建了一个完善的垃圾邮件过滤系统。为了实现上述目的,本发明采用如下技术方案一种多层次的垃圾邮件智能过滤方法,该方法的过滤步骤如下Stepl 邮件服务器监听端口,根据端口判断是smtp协议还是pop3协议;St印2 如是smtp协议则转入st印3继续执行;如是pop3协议则转入pop3协议处理模块进行处理;St印3 转入smtp协议接收模块,并提取邮件的相关信息;乂印4:对于提取的邮件信息,首先进行黑白名单过滤,如在黑名单内则进行丢弃, 反之转入st印5继续执行;St印5 然后根据邮件关键词进行过滤;St印6 其次对邮件内容进行判定,根据判定结果进行处理;如是垃圾邮件则进行丢弃,反之转入st印7继续执行;St印7 判断是目的邮箱还是本地邮箱,如是本地邮箱则进入本地邮箱投递及邮件管理,反之则进行转发。所述step4中,进行黑白名单过滤的过程如下首先对邮件的IP地址进行初步过滤,如IP地址在白名单内,则判定为合法邮件进行接收,反之判断IP地址是否在黑名单内, 如在则判定为垃圾邮件,且进行丢弃,反之对DNS地址进行匹配,如与DNS白名单匹配成功则判定为合法邮件进行接收,反之与DNS黑名单进行匹配,如匹配成功,则判定为垃圾邮件进行丢弃,反之对邮件主题关键词进行匹配。所述step6中,对邮件内容进行判定的过程如下步骤1 首先提取出邮件正文部分,并对邮件正文进行切词;步骤2 对切词结果进行预处理;步骤3 对预处理后的邮件进行特征选择;步骤4 对提取的特征利用支持向量机SVM进行分类;St印5 对分类结果进行判定,如是合法邮件则进行接收,如疑似垃圾邮件则进行投递并需要用户进行信息反馈,如是垃圾邮件则进行丢弃。所述预处理的过程如下首先对切分结果进行语义还原,其主要是对切分结果利用规则的方法进行重新组织,提取基本短语和未登录词;然后采用停用词表示与词性标注相结合的方法去除那些高频词与低频词。所述利用支持向量机SVM进行分类的过程如下(1)提取邮件文本特征;(2)计算各特征的特征类别的相关性度量;(3)利用词序列核作为核发函数训练支持向量机;(4)利用类别相关度量计算词的衰减因子;
(5)对邮件进行分类。本发明的有益效果1.本发明改进了传统特征选择中的信息增益算法在数据训练的过程多以平衡语料为基础,而在真实环境中,语料平衡的情形却是难以存的。而垃圾邮过滤其实质又是一个二分类问题,因此,整个过滤的结果对语料的平衡性有着较强的依赖。针对这一情形,本发明利用特征项的分布信息改进了传统的信息增益算法,减小了系统训练过程中对数据的依赖,从而提高了系统对邮件内容的分析能力。2.本发明构造了一种适合于垃圾邮件过滤的文本语义表示模型传统的向量空间模型是以各特征项之间相互独立的假设为前提,因而该模型忽视了信息间的语义联系,这使得过滤过程中存在机械性缺陷,因此,把自然语言处理技术引入到向量空间模型中,并对各特征项间的相互加以组织梳理,使能够体现过滤本文特征词之间的相互联系,提高过滤的精确度。3.本发明提出了一种基于加权支持向量机的垃圾邮件过滤方法基于加权支持向量机的垃圾邮件过滤方法,主要是针对垃圾邮件过滤过程正常邮件误判的问题而提出。该方法增加了两类邮件类别权重及反映每封邮件重要性的权重,然后利用支持向量机分类器进行训练,得到垃圾邮件过滤器。4.本发明提出了一种基于类别相关度量的词序列核利用支持向量机进行分类,常常忽略文本结构而导致丢失大量语义信息丢失。针对这一现象,本发明提出一种基于类别相关度量的词序列核。实施步骤如下(1)提取邮件文本特征。(2)计算各特征的特征类别的相关性度量。(3)利用词序列核作为核发函数训练支持向量机。(4)利用类别相关度量计算词的衰减因子(5)对邮件进行分类。5.本发明把反馈和自学习机制引入到垃圾邮件过滤模板中由于邮件内容是动态变化的,因此训练本也应该随着系统的运行而不断更新。由于不同的训练样本对邮件过滤系统的贡献度有所不同,因此应给样本空间中的各样本赋予一定的权重,并在整个过滤过程中根据过滤效果动态调整样本权重。这样做的目的可以有效的保留对系统贡献大的样本,并降低某些贡献度低的样本带来的干扰。6.本发明最终搭建了一个多层次的垃圾邮件智能过滤平台。本发明集合IP地址和DNS黑名单、对主题和附件的关键词过滤、邮件正文内容过滤以及附件文本内容过滤等多种过滤技术,构建了一个多层次垃圾邮件智能过滤平台。


图1是本发明的过滤方法流程图;图2是基于内容的垃圾邮件过滤流程图;图3是反馈过程流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。本发明采用多种垃圾邮件过滤方法,这些方法采用一定的顺序进行过滤垃圾邮件,形成一个多层次过滤的有机整体。图1描述了本发明垃圾邮件过滤过程流程图。当有一封邮件接收过来之后,过滤模块按照以下顺序进行过滤(1)首先看IP地址是否在白名单。如果有,就判定为正常邮件。没有则依照后面过滤顺序继续进行。(2)匹配IP地址黑名单。如果有,则是垃圾邮件。否则的话,再按照过滤流程继续进行。(3)匹配DNS白名单。匹配成功,则判定为合法邮件,转入到本地投递或转发模块。 否则,再按照过滤流程继续进行。(4)匹配DNS黑名单。匹配成功,判定为垃圾邮件,丢弃。否则,按照过滤流程继续进行。(5)匹配邮件主题关键词。成功,说明邮件主题中含有非法关键词,此邮件为垃圾邮件,进行丢弃。否则,按照过滤流程继续进行。(6)若有附件,匹配附件名关键词。成功,说明附件名称中含有非法关键词,判定此邮件为垃圾邮件,丢弃。否则,按照过滤流程继续进行。(7)附件正文内容判定。若内容判定为垃圾邮件,则将此邮件也进行投递,当用户一定时间内不处理,当作垃圾邮件进行删除。(8)若有文本附件,附件内容过滤。若附件内容被内容判定模块判定为垃圾邮件, 如同正文被判定为垃圾邮件一样处理。本发明的核心正是在于图2所示的内容过滤阶段。在内容过滤阶段,首先提出邮件正文部分,并对邮件正文进行切词。由于中文切记系统尚不完善,因此,经过后邮件内容信息会丢失部分语义,因此,有必要对切分结果进行语义还原。(1)预处理阶段本发明的预处理过程包含两个阶段。第一阶段为切分结果的语义还原阶段;第二阶段为去除停用词阶段。(a)语义还原阶段此阶段主要是对切分结果利用规则的方法进行重新组织,提取基本短语和未登录词,其基本过程如下基本短语的识别是一个输入分词标注过的文本,输出识别出的短语文本的过程。 输入的特征有两部分组成,一部分是条件,另一部分规则,即满足条件后执行的动作。因此, 我们通过制定基本短语识别条件模板与规则合并模板,最后利用最大信息熵识别最佳基本短语。考虑到中文是一种意合语言,语序对中文语义有着较大的影响,而且汉语行文多采用从左至右的方式,并且中心词大多位于后一词,因此短语识别过程中采用从后往前的方式,即倒排方式,这里本发明选用“栈”作为存储数据的结构。由于语句中的词与上下文相关,因此需要考虑当前词、前后词、词性及词音节数等 fn息ο因此,根据影响短语构成的因素,定义特征空间为
①词性信息。当前词及前后各两个词的词性;②词。当前词前后对当前词构造短语造成影响的一些具有特定用法的词语。如 “的”、“了”等一些虚词。③标注类别。标注当前词应归属的类别,我们定义为名词短语类与动词短语类两个类别。④音节数。考虑当前词及前后各一个词的音节数。为了避免数据稀疏性,短语合并时多是两个词合并,当三个词短语合并时,重点考虑单音节词。⑤标点。对构造短语造成影响的一些特定标点,如“、”。根据上述特征空间定义识别条件,在基本短语识别条件的制定过程,我们定义了条件模板,如表1所示。表1特征条件模板
数WwWtWPWLtWRtWRw章义当前词当前词词性当前词初始类当前左边词词当前词右边词右边特定词别性词性函数WLwWNWLNWRNWB章义左边特征定词当前词音节数左边词音节数右边词音节数特殊标点当特征函数取特定值时,该条件模板被实例化,得到具体特征。词性标注采用北大计算语言所制定的《现代汉语语料库加工一一词语切分与词性标注规范》,对于如“的”、 “了”、“在”、“与”等一些边界性标志的特殊词,我们事先拟定一个边界词表,用于短语边界的识别;为了更好的识别短语的边界,我另外拟定一张边界词性表,包含连接词、标点等一些词性。以被实例化后的特征条件模板作为判断条件,判断输入是否满足短语合并规则 (部分合并规则如表2所示),满足则进行短语合并,否则进行下一步判断,这样整个匹配过程,转化为二值分类过程,该特征可以表示为二值特征函数形式。如表2中第一条规则二值特征函数为
权利要求
1.一种多层次的垃圾邮件智能过滤方法,其特征是,该方法的过滤步骤如下 Stepl 邮件服务器监听端口,根据端口判断是smtp协议还是pop3协议;St印2 如是smtp协议则转入st印3继续执行;如是pop3协议则转入pop3协议处理模块进行处理;St印3 转入smtp协议接收模块,并提取邮件的相关信息;Mep4:对于提取的邮件信息,首先进行黑白名单过滤,如在黑名单内则进行丢弃,反之转入st印5继续执行;Step5:然后根据邮件关键词进行过滤;St印6 其次对邮件内容进行判定,根据判定结果进行处理;如是垃圾邮件则进行丢弃,反之转入st印7继续执行;St印7 判断是目的邮箱还是本地邮箱,如是本地邮箱则进入本地邮箱投递及邮件管理,反之则进行转发。
2.如权利要求书1所述的一种多层次的垃圾邮件智能过滤方法,其特征是,所述step4 中,进行黑白名单过滤的过程如下首先对邮件的IP地址进行初步过滤,如IP地址在白名单内,则判定为合法邮件进行接收,反之判断IP地址是否在黑名单内,如在则判定为垃圾邮件,且进行丢弃,反之对DNS地址进行匹配,如与DNS白名单匹配成功则判定为合法邮件进行接收,反之与DNS黑名单进行匹配,如匹配成功,则判定为垃圾邮件进行丢弃,反之对邮件主题关键词进行匹配。
3.如权利要求书1所述的一种多层次的垃圾邮件智能过滤方法,其特征是,所述step6 中,对邮件内容进行判定的过程如下步骤1 首先提取出邮件正文部分,并对邮件正文进行切词;步骤2 对切词结果进行预处理;步骤3 对预处理后的邮件进行特征选择;步骤4 对提取的特征利用支持向量机SVM进行分类;St印5 对分类结果进行判定,如是合法邮件则进行接收,如疑似垃圾邮件则进行投递并需要用户进行信息反馈,如是垃圾邮件则进行丢弃。
4.如权利要求书3所述的一种多层次的垃圾邮件智能过滤方法,其特征是,所述预处理的过程如下首先对切分结果进行语义还原,其主要是对切分结果利用规则的方法进行重新组织,提取基本短语和未登录词;然后采用停用词表示与词性标注相结合的方法去除那些高频词与低频词。
5.如权利要求书3所述的一种多层次的垃圾邮件智能过滤方法,其特征是,所述利用支持向量机SVM进行分类的过程如下(1)提取邮件文本特征;(2)计算各特征的特征类别的相关性度量;(3)利用词序列核作为核发函数训练支持向量机;(4)利用类别相关度量计算词的衰减因子;(5)对邮件进行分类。
全文摘要
本发明公开了一种多层次的垃圾邮件智能过滤方法,该方法利用特征项的分布信息改进了传统的信息增益算法,减小了系统训练过程中对数据的依赖,从而提高了系统对邮件内容的分析能力;降低了正常邮件的误判率,解决了邮件内容语义信息丢失的问题;针对垃圾邮件过滤过程正常邮件误判的问题提出了基于加权支持向量机分类方法,该方法增加了两类邮件类别权重及反映每封邮件重要性的权重,然后利用支持向量机分类器进行训练,得到垃圾邮件过滤器。本发明集合IP地址和DNS黑名单、对主题和附件的关键词过滤、邮件正文内容过滤以及附件文本内容过滤等多种过滤技术,构建了一个多层次垃圾邮件智能过滤平台。
文档编号H04L12/58GK102255922SQ20111024750
公开日2011年11月23日 申请日期2011年8月24日 优先权日2011年8月24日
发明者刘培玉, 朱振方, 杨玉珍 申请人:山东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1