一种邮件处理方法及系统的制作方法

文档序号:7982882阅读:229来源:国知局
一种邮件处理方法及系统的制作方法
【专利摘要】本发明公开了一种邮件处理方法,包括:邮件服务器根据邮件的不同类型获取邮件相应的特征信息,并将特征信息发送至中心服务器;中心服务器根据邮件特征信息判断邮件特征信息对应的邮件是否为垃圾邮件,并将判断的结果反馈至邮件服务器。相应的,本发明还提供了一种邮件处理系统。实施本发明,可以让邮件服务器实时上传待查邮件的特征并立即获得中心服务器返回的判断结果,时效性高。本发明根据邮件内不同格式的信息提取不同的特征,供中心服务器进行聚类和分类,并判定邮件是否为垃圾邮件。另外,中心服务器也可以通过处理大量的邮件服务器发送过来的查询请求,获得足够的数据量,进行聚类和分类,大大加强了中心服务器的过滤效果。
【专利说明】一种邮件处理方法及系统
【技术领域】
[0001]本发明涉及通信领域,尤其涉入一种邮件处理方法及系统。
【背景技术】
[0002]随着通信技术的日益发展,邮件已成为人们日常生活沟通的重要工具,但随之而来的问题是庞大的垃圾邮件,严重影响的用户的正常邮件的使用。现有反垃圾过滤装置,都是定时下载中心服务器的过滤规则库,并定时更新以便获取过滤垃圾邮件的能力。这个方法有一定的时效性,在两次更新的期间,可能会漏掉一批新出现的新类型垃圾邮件。
[0003]—个解决这个时效性问题的方案是将邮件都转发给中心服务器过滤,但是这个方案的缺点是消耗大量的带宽,而且中心服务器如果需要同时处理几十甚至几百个邮件服务器的转发请求的,对硬件的要求会非常高,甚至需要大量的服务器才能完成。

【发明内容】

[0004]本发明实施例所要解决的技术问题在于,提供一种邮件处理方法及系统,可对邮件提取最能代表邮件的少量特征,这些特征可使中心服务器对邮件进行聚类和分类,且需要传输的数据量非常少,大大减轻了邮件服务器和中心服务器的通讯量,让邮件服务器可以处理超大规模的邮件并达到相当高的垃圾邮件过滤效果。
[0005]为达到上述技术效果,本发明实施例提供了一种邮件处理方法,包括:
邮件服务器根据邮件的不同类型获取邮件相应的特征信息,并将所述特征信息发送至中心服务器;
所述中心服务器根据所述邮件特征信息判断所述邮件特征信息对应的邮件是否为垃圾邮件,并将判断的结果反馈至所述邮件服务器。
[0006]进一步的,还包括:
所述中心服务器还根据所述邮件特征信息对所述邮件进行聚类操作,所述聚类操作为将邮件特征信息相似的邮件归为一类。
[0007]优选的,所述邮件服务器根据邮件的不同类型获取邮件相应的特征信息的步骤包括:
当所述邮件为文本数据时,根据Nilsimsa算法对所述文本数据进行处理,获取可代表所述邮件的64字节序列特征信息;
当所述邮件为图片数据时,根据所述邮件中的图片的压缩率分布特性,提取所述图片的特征信息;
当所述邮件为非文本及图片的其它数据时,根据MD5算法对所述其它数据进行计算,获得一个32字节序列特征信息。
[0008]优选的,所述中心服务器根据所述特征信息判断所述特征信息对应的邮件是否为垃圾邮件的步骤包括:
接收所述邮件服务器发送的特征信息; 将所述特征信息与所述中心服务器已有的垃圾邮件特征信息进行比对,当所述特征信息与所述垃圾邮件特征信息的相似度超过预设标准时,判断所述特征信息对应的邮件为垃圾邮件,否则,判断所述特征信息对应的邮件为正常邮件。
[0009]优选的,所述中心服务器还根据所述特征信息对所述邮件进行聚类操作的步骤包括:
将发送至所述中心服务器的邮件特征信息进行两两比对,当所述邮件特征信息间的相似度超过预设标准时,则判断所述邮件特征信息各自对应的邮件为相似邮件;
将所述相似邮件归为一类进行存储。
[0010]相应的,本发明还提供了一种邮件处理系统,包括:
邮件服务器,用于接收用户发送的邮件,获取所述邮件的邮件特征信息后发送至中心服务器,并根据中心服务器根据所述邮件特征信息对邮件的判断结果进行相应操作;
中心服务器,用于接收所述邮件服务器发送的邮件特征信息,根据所述邮件特征信息判断所述邮件特征信息对应的邮件是否为垃圾邮件,并将判断的结果反馈至所述邮件服务器;
所述中心服务器还根据所述邮件特征信息对所述邮件进行聚类操作,所述聚类操作为将邮件特征信息相似的邮件归为一类。
[0011]优选的,所述邮件服务器包括:
文本邮件特征提取单元,用于当所述邮件为文本数据时,根据Nilsimsa算法对所述文本数据进行处理,获取可代表所述邮件的64字节序列特征信息;
图片邮件特征提取单元,用于当所述邮件为图片数据时,根据所述邮件中的图片的压缩率分布特性,提取所述图片的特征信息;
其它数据邮件特征提取单元,用于当所述邮件为非文本及图片的其它数据时,根据MD5算法对所述其它数据进行计算,获得一个32字节序列特征信息。
[0012]优选的,所述中心服务器包括:
接收单元,用于接收所述邮件服务器发送的特征信息;
判断单元,用于将所述特征信息与所述中心服务器已有的垃圾邮件特征信息进行比对,当所述特征信息与所述垃圾邮件特征信息相似度超过预设标准时,判断所述特征信息对应的邮件为垃圾邮件,否则,判断所述特征信息对应的邮件为正常邮件;
发送单元,用于将所述判断单元判断的结果信息发送至所述邮件服务器。
[0013]优选的,所述中心服务器还包括:
对比单元,用于将发送至所述中心服务器的邮件特征信息进行两两比对,当所述邮件特征信息间的相似度超过预设标准时,则判断所述邮件特征信息各自对应的邮件为相似邮件;
归类存储单元,用于将所述相似邮件归为一类进行存储。
[0014]实施本发明具有如下有益效果:
实施本发明,可以让邮件服务器实时上传待查邮件的特征并立即获得中心服务器返回的判断结果,时效性高。本发明根据邮件内不同格式的信息提取不同的特征,且这些特征保留了足够的信息量供中心服务器进行聚类和分类,并判定邮件是否为垃圾邮件。另外,中心服务器也可以通过处理大量的邮件服务器发送过来的查询请求,获得足够的数据量,进行聚类和分类,大大加强了中心服务器的过滤效果。
【专利附图】

【附图说明】
[0015]图1是本发明一种邮件处理方法的流程示意图;
图2是本发明一种邮件处理方法的又一流程示意图;
图3是本发明一种邮件处理系统的结构示意图;
图4是本发明邮件处理系统的邮件服务器的结构示意图;
图5是本发明邮件处理系统的中心服务器的结构示意图;
图6是本发明邮件处理系统的中心服务器的又一结构示意图。
【具体实施方式】
[0016]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
[0017]图1是本发明实施例一种邮件处理方法的流程示意图。
[0018]100,邮件服务器根据邮件的不同类型获取邮件相应的特征信息,并将所述特征信息发送至中心服务器。
[0019]101,所述中心服务器根据所述邮件特征信息判断所述邮件特征信息对应的邮件是否为垃圾邮件,并将判断的结果反馈至所述邮件服务器。
[0020]图2是本发明实施例一种邮件处理方法的又一流程示意图。
[0021]200,邮件服务器接收用户发送的邮件。
[0022]201,当所述邮件为文本数据时,根据Nilsimsa算法对所述文本数据进行处理,获取可代表所述邮件的64字节序列特征信息。
[0023]Nilsimsa算法首先对邮件内容进行分拆,把相邻4个字节提取出来(4个字节是经验值,考虑到一般汉字需要两个字节表示,一般汉语词组包含两个汉字)。比如对于文本“这是一个测试”,则提取的原始特征为:“这是”,“是一”,“一个”,“个测”,“测试”。假如在这个文本中随机添加一个字符信息,文本变成“这只是一个测试”则提取的原始特征为“这只”,“只是”,“是一”,“一个”,“个测”,“测试”。从上面的例子看,如果稍微改变原文一点,则最终也只是影响了提取的原始特征中的两个(“这是”一“这只”,“只是”)。所以只要判定两个文本序列生成的原始特征相似的比例,即可间接获得两个文本序列的相似比例。再对每个原始特征映射通过映射函数映射出一个整数(映射函数没有特别要求,只要能将一个字符串映射成一个整数的函数都可以。一个最简单的映射函数例子就是将代表两个汉字的四个字节对应的二进制数字看成一个四字节的整数)。然后将这个整数对512取模,保存到一个512个桶的直方图中。
[0024]对直方图再做一次0/1化处理。首先计算这个直方图的平均高度,然后把高于直方图平均高度的桶设置为1,低于平均高度的桶设置为O。于是就可以获得了一个512bit (即64字节)的一个特征序列了。
[0025]202,当所述邮件为图片数据时,根据所述邮件中的图片的压缩率分布特性,提取所述图片的特征信息。
[0026]具体的,对所述图片进行扫描,获得图片的每个子块的压缩率,将每N个连续的子块的压缩率合并成一个新的压缩率变化元素,其中N是大于I的自然数,可根据需求设定N,再将每一个压缩变化元素和它所在的图片中的位置编码进行组合,从而获得所述图片的特征信息。
[0027]203,当所述邮件为非文本及图片的其它数据时,根据MD5算法对所述其它数据进行计算,获得一个32字节序列特征信息。
[0028]需要说明的是,步骤201、201、203之间无必然的先后顺序,只是根据邮件中数据
类型择一执行。
[0029]204,将邮件服务器从邮件中提取的邮件特征信息发送至中央服务器。
[0030]205,接收所述邮件服务器发送的特征信息。
[0031]206,将所述特征信息与所述中心服务器已有的垃圾邮件特征信息进行比对,当所述特征信息与所述垃圾邮件特征信息相似度超过预设标准时,判断所述特征信息对应的邮件为垃圾邮件,否则,判断所述特征信息对应的邮件为正常邮件。
[0032]需要说明的是,通过蜜罐邮箱和用户举报,可以获得某邮件是垃圾邮件的判定。然后通过比较需判定的邮件是否和某已知的垃圾邮件是否相似,来判定此未知样本是否垃圾邮件。另外,蜜罐邮箱是指我们自行注册的一些邮箱账号,并将邮箱账号公布到互联网,由发垃圾邮件的人收集。由于这些邮箱账号实际并不适用,所以发送到这些账号的邮件基本都是垃圾邮件。假如多个蜜罐邮箱收到的某个邮件的特征相似,则基本可以认为这个邮件特征是垃圾邮件特征。
[0033]207,中央服务器将所述结果反馈至邮件服务器。
[0034]208,将发送至所述中心服务器的邮件特征信息进行两两比对,当所述邮件特征信息间的相似度超过预设标准时,则判断所述邮件特征信息各自对应的邮件为相似邮件。
[0035]209,将所述相似邮件归为一类进行存储。
[0036]需要说明的是,208及209与其它步骤间没有必然的先后关系。
[0037]图3是本发明实施例一种邮件处理系统I的结构示意图,包括:
邮件服务器11,用于接收用户发送的邮件,获取所述邮件的邮件特征信息后发送至中心服务器12,并根据中心服务器12根据所述邮件特征信息对邮件的判断结果进行相应操作;
中心服务器12,用于接收所述邮件服务器11发送的邮件特征信息,根据所述邮件特征信息判断所述邮件特征信息对应的邮件是否为垃圾邮件,并将判断的结果反馈至所述邮件服务器。
[0038]所述中心服务器12还根据所述邮件特征信息对所述邮件进行聚类操作,所述聚类操作为将邮件特征信息相似的邮件归为一类。
[0039]图4是本发明实施例一种邮件处理系统I中邮件服务器11的结构示意图,包括: 文本邮件特征提取单元111,用于当所述邮件为文本数据时,根据Nilsimsa算法对所
述文本数据进行处理,获取可代表所述邮件的64字节序列特征信息。
[0040]需要说明的是,Nilsimsa算法首先对邮件内容进行分拆,把相邻4个字节提取出来(4个字节是经验值,考虑到一般汉字需要两个字节表示,一般汉语词组包含两个汉字)。比如对于文本“这是一个测试”,则提取的原始特征为:“这是”,“是一”,“一个”,“个测”,“测试”。假如在这个文本中随机添加一个字符信息,文本变成“这只是一个测试”,则提取的原始特征为“这只”,“只是”,“是一”,“一个”,“个测”,“测试”。从上面的例子看,如果稍微改变原文一点,则最终也只是影响了提取的原始特征中的两个(“这是”一“这只”,“只是”)。所以只要判定两个文本序列生成的原始特征相似的比例,即可间接获得两个文本序列的相似比例。再对每个原始特征映射通过映射函数映射出一个整数(映射函数没有特别要求,只要能将一个字符串映射成一个整数的函数都可以。一个最简单的映射函数例子就是将代表两个汉字的四个字节对应的二进制数字看成一个四字节的整数)。然后将这个整数对512取模,保存到一个512个桶的直方图中。
[0041]对直方图再做一次0/1化处理。首先计算这个直方图的平均高度,然后把高于直方图平均高度的桶设置为1,低于平均高度的桶设置为O。于是就可以获得了一个512bit (即64字节)的一个特征序列了。
[0042]图片邮件特征提取单元112,用于当所述邮件为图片数据时,根据所述邮件中的图片的压缩率分布特性,提取所述图片的特征信息。
[0043]具体的,对所述图片进行扫描,获得图片的每个子块的压缩率,将每N个连续的子块的压缩率合并成一个新的压缩率变化元素,其中N是大于I的自然数,可根据需求设定N,再将每一个压缩变化元素和它所在的图片中的位置编码进行组合,从而获得所述图片的特征信息。
[0044]其它数据邮件特征提取单元113,用于当所述邮件为非文本及图片的其它数据时,根据MD5算法对所述其它数据进行计算,获得一个32字节序列特征信息。
[0045]发送单元114,用于将提取的邮件特征信息发送至中心服务器12。
[0046]图5是本发明实施例一种邮件处理系统I中的中心服务器12的结构示意图,包括:
接收单元121,用于接收所述邮件服务器11发送的特征信息;
判断单元122,用于将所述特征信息与所述中心服务器12已有的垃圾邮件特征信息进行比对,当所述特征信息与所述垃圾邮件特征信息相似度超过预设标准时,判断所述特征信息对应的邮件为垃圾邮件,否则,判断所述特征信息对应的邮件为正常邮件;
发送单元123,用于将所述判断单元122判断的结果信息发送至所述邮件服务器。
[0047]图6是本发明实施例一种邮件处理系统I中的中心服务器12的又一结构示意图,与图5不同的是,还包括:
对比单元124,用于将发送至所述中心服务器的邮件特征信息进行两两比对,当所述邮件特征信息间的相似度超过预设标准时,则判断所述邮件特征信息各自对应的邮件为相似邮件;
归类存储单元125,用于将所述相似邮件归为一类进行存储。
[0048]实施本发明,可以让邮件服务器实时上传待查邮件的特征并立即获得中心服务器返回的判断结果,时效性高。本发明根据邮件内不同格式的信息提取不同的特征,且这些特征保留了足够的信息量供中心服务器进行聚类和分类,并判定邮件是否为垃圾邮件。另外,中心服务器也可以通过处理大量的邮件服务器发送过来的查询请求,获得足够的数据量,进行聚类和分类,大大加强了中心服务器的过滤效果。
[0049]以上所述是本发明的优选实施方式,应当指出,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
【权利要求】
1.一种邮件处理方法,其特征在于,包括: 邮件服务器根据邮件的不同类型获取邮件相应的特征信息,并将所述特征信息发送至中心服务器; 所述中心服务器根据所述邮件特征信息判断所述邮件特征信息对应的邮件是否为垃圾邮件,并将判断的结果反馈至所述邮件服务器。
2.如权利要求1所述的邮件处理方法,其特征在于,还包括: 所述中心服务器还根据所述邮件特征信息对所述邮件进行聚类操作,所述聚类操作为将邮件特征信息相似的邮件归为一类。
3.如权利要求2所述的邮件处理方法,其特征在于,所述邮件服务器根据邮件的不同类型获取邮件相应的特征信息的步骤包括: 当所述邮件为文本数据时,根据Nilsimsa算法对所述文本数据进行处理,获取可代表所述邮件的64字节序列特征信息; 当所述邮件为图片数据时,根据所述邮件中的图片的压缩率分布特性,提取所述图片的特征信息; 当所述邮件为非文本及图片的其它数据时,根据MD5算法对所述其它数据进行计算,获得一个32字节序列特征信息。
4.如权利要求3所述的邮件处理方法,其特征在于,所述中心服务器根据所述特征信息判断所述特征信息对应的邮件是否为垃圾邮件的步骤包括: 接收所述邮件服务器发送的特征`信息; 将所述特征信息与所述中心服务器已有的垃圾邮件特征信息进行比对,当所述特征信息与所述垃圾邮件特征信息的相似度超过预设标准时,判断所述特征信息对应的邮件为垃圾邮件,否则,判断所述特征信息对应的邮件为正常邮件。
5.如权利要求4所述的邮件处理方法,其特征在于,所述中心服务器还根据所述特征信息对所述邮件进行聚类操作的步骤包括: 将发送至所述中心服务器的邮件特征信息进行两两比对,当所述邮件特征信息间的相似度超过预设标准时,则判断所述邮件特征信息各自对应的邮件为相似邮件; 将所述相似邮件归为一类进行存储。
6.—种邮件处理系统,其特征在于,包括: 邮件服务器,用于接收用户发送的邮件,获取所述邮件的邮件特征信息后发送至中心服务器,并根据中心服务器根据所述邮件特征信息对邮件的判断结果进行相应操作; 中心服务器,用于接收所述邮件服务器发送的邮件特征信息,根据所述邮件特征信息判断所述邮件特征信息对应的邮件是否为垃圾邮件,并将判断的结果反馈至所述邮件服务器; 所述中心服务器还根据所述邮件特征信息对所述邮件进行聚类操作,所述聚类操作为将邮件特征信息相似的邮件归为一类。
7.如权利要求6所述的邮件处理系统,其特征在于,所述邮件服务器包括: 文本邮件特征提取单元,用于当所述邮件为文本数据时,根据Nilsimsa算法对所述文本数据进行处理,获取可代表所述邮件的64字节序列特征信息; 图片邮件特征提取单元,用于当所述邮件为图片数据时,根据所述邮件中的图片的压缩率分布特性,提取所述图片的特征信息; 其它数据邮件特征提取单元,用于当所述邮件为非文本及图片的其它数据时,根据MD5算法对所述其它数据进行计算,获得一个32字节序列特征信息。
8.如权利要求7所述的邮件处理系统,其特征在于,所述中心服务器包括: 接收单元,用于接收所述邮件服务器发送的特征信息; 判断单元,用于将所述特征信息与所述中心服务器已有的垃圾邮件特征信息进行比对,当所述特征信息与所述垃圾邮件特征信息相似度超过预设标准时,判断所述特征信息对应的邮件为垃圾邮件,否则,判断所述特征信息对应的邮件为正常邮件; 发送单元,用于将所述判断单元判断的结果信息发送至所述邮件服务器。
9. 如权利要求8所述的邮件处理系统,其特征在于,所述中心服务器还包括: 对比单元,用于将发送至所述中心服务器的邮件特征信息进行两两比对,当所述邮件特征信息间的相似度超过预设标准时,则判断所述邮件特征信息各自对应的邮件为相似邮件; 归类存储单元,用于将所述相似邮件归为一类进行存储。
【文档编号】H04L12/58GK103684971SQ201210327916
【公开日】2014年3月26日 申请日期:2012年9月7日 优先权日:2012年9月7日
【发明者】林延中, 潘庆峰 申请人:盈世信息科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1