反垃圾邮件的方法及其邮件服务器的制作方法

文档序号:7962970阅读:175来源:国知局
专利名称:反垃圾邮件的方法及其邮件服务器的制作方法
技术领域
本发明涉及一种邮件过滤技术,尤其是指一种可以自动提取垃圾邮件规则并反垃圾邮件的方法及其邮件服务器。
背景技术
随着网络的发展,每个人邮件的利用率都非常高,因此在网络上也出现了一些利用邮件散发广告用户,他们发送这些广告频率高,并且内容多,网上黑客也利用这些信息创建一些病毒通过邮件传播,给用户造成诸多麻烦,这些邮件被我们称为垃圾邮件。这些垃圾邮件一般出现频率很高,并且具有很多相同的特征,因此利用这些邮件的特征,出现了使用相当广泛的垃圾邮件过滤技术,通过正确的识别垃圾邮件,邮件病毒或者邮件攻击程序等都会减少。
邮件过滤技术一般都是采用内容过滤技术,以下对基于规则的过滤技术进行简单的介绍基于规则的方法就是在邮件内容中寻找特定的模式,规则一般都是人工编写生成,一个人写出的规则可以提供给多个人,多个服务器使用,可以共享,具有很强的推广性很强,基本可以较准确的提取垃圾邮件的特征。
利用规则进行过滤垃圾邮件,它的思路是根据某些特征(比如单词、词组、位置、大小、附件等)来形成规则,通过这些规则来描述垃圾邮件,大多数规则可以采用正则表达式。如果有匹配的模式,则增加消息分数,否则,则减少消息分数。如果消息分数超过某一特定的阈值,则将其视为垃圾邮件而过滤它;否则认为是合法。
首先,规则的提出需要根据某些特征(比如单词、词组、位置、大小、附件等)来形成,要使得过滤器有效,就意味着管理人员要维护一个庞大的规则库。我们现在常用的规则大概维持在600条左右,而过滤垃圾邮件时经常被命中的不超过5%,大部分规则的作用是极少被命中的;而命中的也会存在很高的误判率;其次,目前规则的提取是靠人工判定,手动添加进规则库的,而且添加进去如果删除也需要人工删除,这样一方面要耗费较多的人工去添加删除,而且如果不删除过期的规则可能就会导致误判,因为规则的时效性很强,某些过期的规则也容易导致误判,比如“9.11”时期发出的大量垃圾邮件可能都会包含“9.11”字眼。这样造成规则库是定死,无法自动学习,不能自动增强反垃圾能力,门槛较高。
基于以上的考虑,现有的垃圾邮件过滤技术已经不能满足网络的发展,所以需要提供一种自动判定更新规则库以及反垃圾邮件的方法,从而增加对可变垃圾邮件的捕捉能力。

发明内容
本发明提供一种反垃圾邮件的方法及其邮件服务器,用以解决现有技术中存在垃圾邮件拦截率低,且同时误判率也高、规则命中率低、无法自动更新规则库的问题。
本发明方法包括一种反垃圾邮件的方法,包括以下步骤A、接收外域或本域的邮件;B、采用相似度分析算法解析判断该邮件是否为垃圾邮件;C、根据步骤B的判断,对该邮件进行发送或者拦截处理。
根据本发明的上述方法,所述的相似度分析算法包括以下步骤B1、解析接收的邮件,提取邮件的特征向量;B2、根据步骤B1提取的邮件的特征向量的分析确定邮件是否为垃圾邮件。
本发明的方法中,在步骤B1中对接收的邮件进行格式解析,提取邮件的词语特征以及结构特征。
在步骤B2中,包括以下判断步骤B21、将提取的邮件的特征向量与设置的拦截规则数据相匹配,统计所述特征向量与拦截规则数据的匹配率;B22、如步骤B21统计的匹配率大于等于设定的拦截匹配率,生成邮件拦截指令,在步骤C中拦截该邮件;如步骤B21统计的匹配率小于设定的拦截匹配率,生成邮件发送指令,在步骤C中发送该邮件。
在步骤B2中还包括对接收的邮件进行相似性判断的步骤B21′、在相似垃圾邮件记录数据中查找与具有该特征向量的邮件相似的邮件,统计该邮件所具有相似垃圾邮件的数目;B22′、如查找到与该邮件相似的邮件的数目大于或等于设定的最大相似邮件阈值时,生成邮件拦截指令,则在步骤C中拦截该邮件;如查找到与该邮件相似的邮件的数目小于设定的最大相似邮件阈值时,则记录该邮件特征向量,生成邮件发送指令,在步骤C中发送该邮件。
在步骤B22′中,拦截该邮件时,根据该邮件的特征向量生成拦截规则,添加进拦截规则数据中。
在生成拦截规则时,记录拦截规则的形成时间,设定该生成的拦截规则的时效。
在生成拦截规则时,删除相似垃圾邮件记录数据中与该拦截规则相关的邮件记录。
本发明还提供一种反垃圾邮件的邮件服务器,至少包括邮件接收单元、邮件解析判断单元、邮件拦截单元以及邮件发送单元所述邮件接收单元,用于接收外域或本域的邮件;所述邮件解析判断单元,用于对所述邮件接收单元接收的邮件进行垃圾邮件判断,生成邮件拦截或发送指令;所述邮件拦截单元,用于接收所述邮件解析判断单元生成的邮件拦截指令,拦截接收的邮件;
所述邮件发送单元,用于接收所述邮件解析判断单元生成的邮件发送指令,发送接收的邮件。
所述邮件解析判断单元包括邮件解析单元,用于解析收到的邮件,提取邮件的特征向量;邮件数据存储单元,用于存储邮件的拦截规则以及相似垃圾邮件记录;邮件匹配单元,用于根据所述邮件解析单元提取的邮件的特征向量与所述邮件数据存储单元中存储的邮件拦截规则进行匹配,得到拦截匹配率;第一指令生成单元,用于根据所述邮件匹配单元的拦截匹配率生成邮件拦截或邮件发送指令。
所述邮件解析判断单元还包括相似邮件统计单元,根据所述邮件匹配单元的拦截匹配率进行相似垃圾邮件数目统计;第二指令生成单元,根据相似邮件统计单元的统计结果生成邮件拦截或邮件发送指令。
所述邮件解析判断单元还包括邮件向量记录单元,根据所述相似邮件统计单元的统计结果记录该邮件的特征向量。
所述邮件解析判断单元还包括拦截规则生成单元,用于根据所述相似邮件统计单元的统计结果生成邮件拦截规则,并存储在邮件数据存储单元中;或/和拦截规则时效生成单元,用于根据所述拦截规则生成单元生成的拦截规则形成该规则的生成时间以及时效,存储在邮件数据存储单元中;或/和邮件记录删除单元,用于根据所述拦截规则生成单元生成的拦截规则,删除所述邮件数据存储单元中存储的相似垃圾邮件记录。
本发明有益效果如下本发明通过对相似的垃圾邮件样本特征的分析,能够十分准确的拦截垃圾邮件,并且本发明的规则提炼可以实时进行,时效性非常强,一个拦截规则一旦生成,则可以立即实时生效进行拦截;本发明采用C/S架构的判断结构,一方面可以大幅度提升过滤率,另一方面可以提高判断效率。


图1为本发明的方法流程示意图;图2为本发明的相似度分析算法流程示意图;图3为本发明对垃圾邮件判断的实施例一;图4为本发明对垃圾邮件判断的实施例二;图5为本发明的一个具体的实施方式;图6为本发明的邮件服务器的结构框图;图7为本发明的邮件服务器的邮件解析判断单元的具体实施结构框图。
具体实施例方式
本发明提供一种反垃圾邮件的方法,如图1所示,该方法包括以下步骤101、接收外域或本域的邮件;102、采用相似度分析算法解析判断该邮件是否为垃圾邮件;103、根据步骤102的判断,对该邮件进行发送或者拦截处理。
本发明所述的方法,如图2所示,步骤102所述的相似度分析算法包括以下步骤201、解析接收的邮件,提取邮件的特征向量;202、根据步骤201提取的邮件的特征向量判断邮件是否为垃圾邮件。
其中在步骤201中,对邮件进行解析时,是有对接收的邮件进行格式解析,即将邮件的MIME格式解析为一个符合RFC MIME IMB规范的字符串,并根据解析得到的结果提取接收到的邮件的词语特征以及结构特征,如邮件正文长度、邮件主显示部分结构(打印内容、图标、传输编码等)以及邮件附件等,这些特征都是邮件的特征向量,根据这些特征向量即可对邮件是否垃圾邮件作出判断。对于步骤202所提出的邮件判断,可以有两种方式如图3所示,可采用以下步骤对邮件是否属于垃圾邮件进行判断,具体为301、在拦截规则数据中查找与提取的邮件的特征向量匹配的拦截规则数据,统计该封邮件的特征向量在拦截规则库中命中的数目,确定拦截匹配率;302、统计匹配后的拦截匹配率是否小于设定的拦截匹配率;303、如统计的拦截匹配率大于等于设定的拦截匹配率,生成邮件拦截指令,在上述步骤103中拦截该邮件;304、如统计的拦截匹配率小于设定的拦截匹配率,生成邮件发送指令,在上述步骤103中发送该邮件。
在上述方法中,由提取的邮件的特征向量具有多个,在进行匹配的过程中,当多个特征向量命中了多条拦截规则后,系统会根据统计或简单的加权算法确定是否生成邮件拦截指令;例如,当邮件的特征向量(假设提取了有14个特征向量)有10个与设定的拦截规则相匹配,经过统计后按照匹配结果根据设定的规则(设定具有50%为拦截规则时,对邮件进行拦截)确定该邮件需要被拦截。当然在实际应用中,也可以采用其他规则(如好邮件规则)对接收到的邮件进行判断,其原理相同,故在此不再赘述。
如图4所示,也可以采用以下步骤对邮件是否属于垃圾邮件进行判断,具体为401、在相似垃圾邮件记录(存储的垃圾邮件记录)中查找与收到的邮件相似的邮件的数目;402、统计查找到的相似垃圾邮件的数目是否小于设定的最大相似阈值;403、当查找到的相似邮件的数目小于设定的最大相似阈值时,生成邮件发送指令,在上述步骤103中发送该邮件;404、当查找到的相似垃圾邮件的数目不小于(大于等于)设定的最大相似阈值时,生成邮件拦截指令,在上述步骤103中拦截邮件。
在图4所述的判断步骤中,在拦截该邮件时,具有根据该特征向量生成新的拦截规则并添加在拦截规则数据中的步骤,这些拦截规则的自动更新可以保证更准确的拦截收到的邮件,在该步骤中,生成该拦截规则的同时还生成该规则的时间以及时效信息,其中这些时效信息可以根据实际需求进行配置;为了避免相似垃圾邮件记录中无效记录的增加,在本步骤中可以同时删除相似垃圾邮件记录中与该拦截规则相关的邮件记录。
根据上述描述,本发明的最优的实施方式,可以参见图5的内容进行具体说明,本发明的方法用在邮件服务器侧,例如,本发明的邮件服务器接收到外域或本域发来的新邮件(假设由外域的sohu服务器或者本域内的263服务器发送到本发明的263邮件服务器),本服务器接收到该邮件后,对邮件进行格式解析(由MIME格式解析为符合RFC MIME IMB规范的字符串),然后提取该邮件的一些结构特征,并将这些结构特征做为特征向量提取出来,并将这些特征向量与设定的拦截规则数据进行匹配,假设设定的拦截规则数据中包括邮件正文的长度长于128k;邮件中的正文中的邮件地址为群发;....................
邮件包括“培训”等词语;经过匹配后,如果提取的邮件特征向量与设定的拦截规则的匹配率大于等于设定的拦截匹配率,生成邮件拦截指令,本服务器拦截该邮件,并将该邮件存储在服务器上;如果这些特征向量与设定的拦截规则的匹配率小于设定的拦截匹配率,生成邮件发送指令,本服务器将接收的邮件发送出去。
而在本发明的方法中,为了确保对垃圾邮件判断的准确性,如果提取的特征向量不属于设定的拦截规则时,需要对这些特征向量进行相似性判断,即在服务器中查找到的垃圾邮件中查找与接收到的邮件相似的邮件记录,假设在这些邮件中查找到与接收到的邮件相似的邮件记录的数目为5个,而服务器设定的允许容纳相似垃圾邮件数据的阈值为10,则此时还没有达到可以对该邮件进行拦截的程度,生成邮件发送指令,发送该邮件;如这些邮件中查找到与接收到的邮件相似的邮件记录的数目为10个,则此时就需要拦截该邮件,生成邮件拦截指令,避免将其发送出去。在本实施例中,对于相似的邮件记录的数目的统计可以采用计数器实现。另外基于对图4的描述,本实施例中,还可以在拦截收到邮件时,自动更新存储的拦截规则,以便对垃圾邮件作出准确的判断,具体内容在此不再赘述。
本发明还提出一种反垃圾邮件的邮件服务器,如图6所示,该邮件服务器至少包括邮件接收单元61、邮件解析判断单元62、邮件拦截单元63以及邮件发送单元64其中所述邮件接收单元61,用于接收外域或本域的邮件;所述邮件解析判断单元62,用于对所述邮件接收单元接收的邮件进行垃圾邮件判断,生成邮件拦截或发送指令;所述邮件拦截单元63,用于接收所述邮件解析判断单元生成的邮件拦截指令,拦截所接收的邮件;所述邮件发送单元64,用于接收所述邮件解析判断单元生成的邮件发送指令,发送所接收的邮件。
在本实施例中,如图7所示,所述邮件解析判断单元62包括邮件解析单元71,用于解析收到的邮件,提取邮件的特征向量;邮件数据存储单元74,用于存储邮件的拦截规则以及相似垃圾邮件记录;邮件匹配单元72,用于根据所述邮件解析单元71提取的邮件的特征向量与所述邮件数据存储单元74中存储的邮件拦截规则进行统计匹配,确定拦截匹配率;第一指令生成单元73,用于根据邮件匹配单元72的拦截匹配率生成邮件拦截或邮件发送指令。
在本实施例中,所述邮件解析判断单元62还包括相似邮件统计单元75,根据所述邮件匹配单元72的拦截匹配率进行相似垃圾邮件数目统计;第二指令生成单元76,根据相似邮件统计单元75的统计结果生成邮件拦截或邮件发送指令。
在本实施例中,所述邮件解析判断单元62还包括邮件向量记录单元80,根据统计结果记录该邮件的特征向量。
在本实施例中,所述邮件解析判断单元62还包括拦截规则生成单元77,用于根据所述相似邮件统计单元75的统计结果生成邮件拦截规则,并存储在邮件数据存储单元74中。
所述邮件解析判断单元62还包括拦截规则时效生成单元78,用于根据所述拦截规则生成单元77生成的拦截规则形成该规则的生成时间以及时效,存储在邮件数据存储单元74中。
所述邮件解析判断单元62还包括邮件记录删除单元79,用于根据所述拦截规则生成单元77生成的拦截规则,删除所述邮件数据存储单元74中存储的相似垃圾邮件记录。
基于本发明的邮件服务器具有上述结构,以下对该服务器的具体流程进行说明本发明的邮件服务器的邮件接收单元61接收外域或本域发送来的邮件,由邮件判断解析单元62的邮件解析单元71解析出收到的邮件,提取邮件的特征向量(包括词语特征以及结构特征),由邮件匹配单元72对接收的邮件的特征向量以及邮件数据存储单元74中存储的拦截规则进行匹配,确定拦截匹配率,如果确定的拦截匹配率大于等于设定的拦截匹配率,由该第一指令生成单元73生成邮件拦截指令,邮件拦截单元63根据该邮件拦截指令拦截该邮件,不向用户下发该邮件;如果确定的拦截匹配率小于设定的拦截匹配率,由该第一指令生成单元73生成邮件发送指令,邮件发送单元64根据该邮件发送指令将该邮件发送出去。
而为保证服务器能对垃圾邮件作出正确的判断,当根据邮件匹配单元的匹配不拦截该邮件时,再由相似邮件统计单元75根据所述邮件匹配单元72的匹配率进行相似垃圾邮件数目统计,即在邮件数据存储单元74中查找与收到的邮件相似的垃圾邮件的数目,当统计到该邮件与在邮件数据存储单元74中存储的垃圾邮件记录相似的数目小于设定的最大相似阈值时,由第二指令生成单元76生成邮件发送指令,由邮件发送单元64将该邮件发送给用户,并由邮件向量记录单元80将该邮件的特征向量记录起来;如统计到该邮件与在邮件数据存储单元74中存储的垃圾邮件记录相似的数目大于等于设定的最大相似阈值时,由第二指令生成单元76生成邮件拦截指令,由邮件拦截单元63将该邮件拦截。在本发明中,当由于相似邮件统计单元75的统计结果使该邮件被拦截时,拦截规则生成单元77生成新的邮件拦截规则,并存储在邮件数据存储单元74中,以便对邮件拦截规则随时更新,而生成的拦截规则时,由拦截规则时效生成单元78形成该规则的生成时间以及时效,其中生成的拦截规则的时效可以根据需求任意配置,并将其存储在邮件数据存储单元74中。在本发明中,由于增加了新的拦截规则,本服务器中的邮件记录删除单元79根据该生成的拦截规则,删除所述邮件数据存储单元74中存储的相似垃圾邮件记录。
综上所述,本发明通过对相似的垃圾邮件样本特征的分析,能够十分准确的拦截垃圾邮件,并且本发明的规则提炼可以实时进行,时效性非常强,一个拦截规则一旦生成,则可以立即实时生效进行拦截;本发明可以采用C/S架构的判断结构,一方面可以大幅度提升过滤率,另一方面可以提高判断效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种反垃圾邮件的方法,其特征在于,包括以下步骤A、接收外域或本域的邮件;B、采用相似度分析算法解析判断该邮件是否为垃圾邮件;C、根据步骤B的判断,对该邮件进行发送或者拦截处理。
2.根据权利要求1所述的方法,其特征在于,所述的相似度分析算法包括以下步骤B1、解析接收的邮件,提取邮件的特征向量;B2、根据步骤B1提取的邮件的特征向量的分析确定邮件是否为垃圾邮件。
3.根据权利要求2所述的方法,其特征在于,在步骤B1中,对接收的邮件进行格式解析,提取邮件的词语特征以及结构特征。
4.根据权利要求2所述的方法,其特征在于,在步骤B2中,包括以下判断步骤B21、将提取的邮件的特征向量与设置的拦截规则数据相匹配,统计所述特征向量与拦截规则数据的匹配率;B22、如步骤B21统计的匹配率大于等于设定的拦截匹配率,生成邮件拦截指令,在步骤C中拦截该邮件;如步骤B21统计的匹配率小于设定的拦截匹配率,生成邮件发送指令,在步骤C中发送该邮件。
5.根据权利要求2或4所述的方法,其特征在于,在步骤B2中包括对接收的邮件进行相似性判断的步骤B21′、在相似垃圾邮件记录数据中查找与具有该特征向量的邮件相似的邮件,统计该邮件所具有相似垃圾邮件的数目;B22′、如查找到与该邮件相似的邮件的数目大于或等于设定的最大相似邮件阈值时,生成邮件拦截指令,则在步骤C中拦截该邮件;如查找到与该邮件相似的邮件的数目小于设定的最大相似邮件阈值时,则记录该邮件特征向量,生成邮件发送指令,在步骤C中发送该邮件。
6.根据权利要求5所述的方法,其特征在于,在步骤B22′中,拦截该邮件时,根据该邮件的特征向量生成拦截规则,添加进拦截规则数据中。
7.根据权利要求6所述的方法,其特征在于,在生成拦截规则时,记录拦截规则的形成时间,设定该生成的拦截规则的时效。
8.根据权利要求6或7所述的方法,其特征在于,在生成拦截规则时,删除相似垃圾邮件记录数据中与该拦截规则相关的邮件记录。
9.一种反垃圾邮件的邮件服务器,其特征在于,至少包括邮件接收单元、邮件解析判断单元、邮件拦截单元以及邮件发送单元所述邮件接收单元,用于接收外域或本域的邮件;所述邮件解析判断单元,用于对所述邮件接收单元接收的邮件进行垃圾邮件判断,生成邮件拦截或发送指令;所述邮件拦截单元,用于接收所述邮件解析判断单元生成的邮件拦截指令,拦截接收的邮件;所述邮件发送单元,用于接收所述邮件解析判断单元生成的邮件发送指令,发送接收的邮件。
10.根据权利要求9所述的服务器,其特征在于,所述邮件解析判断单元包括邮件解析单元,用于解析收到的邮件,提取邮件的特征向量;邮件数据存储单元,用于存储邮件的拦截规则以及相似垃圾邮件记录;邮件匹配单元,用于根据所述邮件解析单元提取的邮件的特征向量与所述邮件数据存储单元中存储的邮件拦截规则进行匹配,得到拦截匹配率;第一指令生成单元,用于根据所述邮件匹配单元的拦截匹配率生成邮件拦截或邮件发送指令。
11.根据权利要求10所述的服务器,其特征在于,所述邮件解析判断单元还包括相似邮件统计单元,根据所述邮件匹配单元的拦截匹配率进行相似垃圾邮件数目统计;第二指令生成单元,根据相似邮件统计单元的统计结果生成邮件拦截或邮件发送指令。
12.根据权利要求11所述的服务器,其特征在于,所述邮件解析判断单元还包括邮件向量记录单元,根据所述相似邮件统计单元的统计结果记录该邮件的特征向量。
13.根据权利要求10或11或12所述的服务器,其特征在于,所述邮件解析判断单元还包括拦截规则生成单元,用于根据所述相似邮件统计单元的统计结果生成邮件拦截规则,并存储在邮件数据存储单元中;或/和拦截规则时效生成单元,用于根据所述拦截规则生成单元生成的拦截规则形成该规则的生成时间以及时效,存储在邮件数据存储单元中;或/和邮件记录删除单元,用于根据所述拦截规则生成单元生成的拦截规则,删除所述邮件数据存储单元中存储的相似垃圾邮件记录。
全文摘要
本发明公开了一种反垃圾邮件的方法,包括以下步骤A.接收到外域或本域的邮件;B.采用相似度分析算法解析判断该邮件是否为垃圾邮件;C.根据步骤B的判断,对该邮件进行发送或者拦截处理。同时本发明还提供一种采用反垃圾邮件方法的邮件服务器。本发明的方案通过对相似的垃圾邮件样本特征的分析,能够十分准确的拦截垃圾邮件,并且本发明的规则提炼可以实时进行,时效性非常强,一个拦截规则一旦生成,则可以立即实时生效进行拦截;本发明采用C/S架构的判断结构,一方面可以大幅度提升过滤率,另一方面可以提高判断效率。
文档编号H04L29/06GK101094197SQ20061009010
公开日2007年12月26日 申请日期2006年6月23日 优先权日2006年6月23日
发明者母天石 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1