一种垃圾邮件过滤的方法及系统的制作方法

文档序号:7889714阅读:322来源:国知局
专利名称:一种垃圾邮件过滤的方法及系统的制作方法
技术领域
本发明涉及网络安全技术领域,特别涉及ー种垃圾邮件过滤的方法及系统。
背景技术
垃圾邮件是用专门的邮件地址搜索软件和邮件群发软件来完成电子邮件地址收集和垃圾邮件散发的,一个邮件地址搜索软件每次可以搜索到几万至十几万个有用邮件地址,一个邮件群发软件每天可以发送百万封同样或不同内容的垃圾邮件。对于这种自动化的垃圾邮件制造方代,人工手段进行删除显得无能为力,必须借助ー种的技术手段进行反垃圾邮件工作。(I)黑白名单
黒白名单是垃圾邮件过滤最传统的方式,它通过基于IP地址、域名以及邮件地址等信息的黑名单技术对垃圾邮件进行屏蔽,通过白名单技术对允许的邮件进行放行。这种技术的优势在于不占用系统资源,易部署;缺点是需要用户手动维护,而且垃圾邮件发送者可以通过更改相关信息来逃避过滤。RBL (实时黑名单)技术是从黑名单技术发展而来的,它可以通过RBL运营服务商提供的公共RBL数据进行更新,弥补了单纯黑名单需要手工维护的缺陷。遗憾的是,目前很多黑名单数据库具有很强的区域歧视性,例如,北美的RBL包含了我国大量的主机名字和IP地址,其中有些是早期的Open Relay造成的,有些则是由于误报造成的。但这些迟迟得不到纠正,在一定程度上阻碍了我国与北美地区的邮件联系,也妨碍了我国的用户使用这些黑名单服务。(2) SMTP连接频度控制垃圾邮件发送者经常会在一段时间内发送大量的垃圾邮件,阻塞邮件服务器。SMTP连接频度控制可以保证邮件服务器不响应异常的连接请求,保证正常邮件的顺利通行。(3)逆向域名验证无论哪ー种认证,其目的都是避免MTA被垃圾邮件发送者所利用,但是对于发送到本地的垃圾邮件可能仍然无可奈何。要解决这个问题,最简单有效的方法是对发送者的IP地址进行逆向域名验证。通过DNS查询来判断发送者的IP与其声称的名字是否一致,例如其声称的名字为mx. yahoo, com,而其连接地址为10. 10. 10. 10,与其DNS记录不符,贝U予以拒收。这种方法可以有效过滤掉来自动态IP的垃圾邮件,对于某些使用动态域名的发送者,也可以根据实际情况进行屏蔽。(4)内容过滤即使使用了前面诸多环节中的技术,仍然会有相当一部分垃圾邮件漏网。对此情况,目前常用的方法是基于邮件标题或正文的内容过滤。关键词过滤法是通过邮件内容扫描引擎,对邮件的常用标题语,垃圾邮件受益者的姓名、电话号码等信息进行过滤。由于不同时期垃圾邮件的关键词会发生变化,因此需要定期更新关键词过滤集。基于贝叶斯概率理论的统计方法更加复杂,但又同时更具智能性。这种方法的理论基础是通过对大量垃圾邮件中常见关键词进行分析后得出其分布的统计模型,并由此推算目标邮件是垃圾邮件的可能性。这种方法具有一定的自适应、自学习能力,目前已经得到了广泛的应用。还有ー种基于规则评分的过滤技木,目前比较有代表性的是SpamAssassin,它是ー种人工智能技术应用系统,它对邮件中发现的每ー个关键词进行打分,分数越高,垃圾邮件的可能性就越高,当所有关键词得分超过一定数值时,该邮件将被判定为垃圾邮件。 需要指出的是,内容过滤是以上所有各种方法中耗费系统资源最多的。因此,在邮件流量较大的场合,最好配合高性能服务器使用。(5)病毒扫描很多垃圾邮件往往是由病毒程序产生的,而且病毒会随邮件在网络上传播。因此病毒扫描也是减少垃圾邮件的ー个重要手段。本次參测的所有产品均具备杀毒引擎。(6)行为分析技术行为分析技术是最近兴起的ー种邮件过滤技术,它的优势在于可以对垃圾邮件进行空中拦截,減少了因接收邮件并进行内容分析所占用的系统资源和网络带宽。虽然目前行为过滤技术还不完全成熟,而且对网络环境要求较高,但是行为分析技术凭借其良好的应用前景还是引起了各大安全厂商的关注。本次參加测试的产品或多或少均具备一定的行为分析能力,特别是梭子鱼垃圾邮件防火墙有2000多条行为分析规则来识别垃圾邮件。针对现有技术中的不足,即系统的灵活性和准确性不够,不能有效识别新型垃圾邮件,自适应能力不足,故提出ー种能有效降低邮件过滤的开销,提高入侵检测系统的效率的ー种垃圾邮件过滤的方法及系统,是网络安全技术领域目前急待解决的问题之一。

发明内容
有鉴于此,本发明实施例提出了ー种垃圾邮件过滤的方法及系统,通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义,接着采用数字化表示形式将表现型映射成基因型之编码处理,然后通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤,进而降低邮件过滤的开销,提高入侵检测系统的效率。为解决上述技术问题,本发明实施例的目的是通过以下技术方案实现的ー种垃圾邮件过滤的方法,包括步骤一、在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义;步骤ニ、采用数字化表示形式将表现型映射成基因型之编码处理;步骤三、通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤。优选的,上述步骤一中,模式集是对8个属性的描述。优选的,上述8个属性包括但不限于服务类型,源地址,源端ロ,目的地址,时延,源端发送字节数,目的端发送字节数以及状态。
优选的,进ー步包括检测是指检测模式和被检测模式间的匹配。优选的,上述步骤ニ中,表现性模式是指可读的、由联接记录直接得到的规则。优选的,上述步骤ニ中,基因型模式是指抗体演化、否定选择和克隆选择时使用的ー种内部表现形式。优选的,进ー步包括将占用字节数较多的时延和源和目的端发送字节三个属性转化为模糊集形式,只分别用俩位ニ进制即可表示出来,缩短ニ进制表示抗体的长度,把ニ进制基因位转化为对应模糊集。优选的,上述步骤三中,进ー步包括算法中包括亲和カ计算、抗原样本训练、克隆变异和否定选择。一种垃圾邮件过滤系统,包括定义单元、编码单元及算法単元,通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义,接着采用数字化表示形式将表现型映射成基因型之编码处理,然后通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤。优选的,上述定义单元用于在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义。优选的,上述编码单元用于采用数字化表示形式将表现型映射成基因型之编码处理。优选的,上述算法単元用于通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤。综上所述,本发明提供了ー种垃圾邮件过滤的方法及系统,通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义,接着采用数字化表示形式将表现型映射成基因型之编码处理,然后通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤,进而降低邮件过滤的开销,提高入侵检测系统的效率。


图I为本发明实施例提供的ー种垃圾邮件过滤方法流程图;图2为本发明实施例提供的一种垃圾邮件过滤系统示意图。
具体实施例方式
本发明实施例提供的一种垃圾邮件过滤的方法及系统,通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义,接着采用数字化表示形式将表现型映射成基因型之编码处理,然后通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤,进而降低邮件过滤的开销,提高入侵检测系统的效率。
本技术方案的主要思路为利用人工免疫原理进行邮件过滤检测已成为ー个研究方向,运用计算机免疫的目的和生物机体免疫一祥,为的是使系统能够快速、准确地检测出未授权的邮件的侵入以及其它非法使用,并对之作出相应反应。基于免疫原理的过滤检测主要开销在抗体生成阶段,尤其是当初始模式集规模很大的时候.虽然运用克隆选择的约束可以大大減少空间和时间的需求,但寻找更加高效的抗体生成算法仍是应用人工免疫原理必须解决的问题,它决定了整个系统的实用性。通过提出一种新的抗体生成算法以降低邮件过滤的开销,提高入侵检测系统的效率。为使本发明的目的、技术方案及优点更加清楚明白,下面參照附图并举实施例,对本发明进一歩详细说明。本发明实施例提供ー种垃圾邮件过滤的方法,如图I所示,具体步骤包括步骤一、在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义;具体而言,在本发明实施例中,是把垃圾邮件检测中存在的问题,用免疫系统的免疫思想来解決。在生物体中,抗体对抗原物质的识别是依靠抗体表面的受体与特定抗原的 抗原决定基问化学健的“结合”,安全系统中的检测是指检测模式和被检测模式间的匹配。进ー步的,在本方案中,对人工免疫原理的应用是功能上的模拟而非所有部件的实现。在生物体中,抗体对抗原物质的识别是依靠抗体表面的受体与特定抗原的抗原决定基问化学健的“结合”,过滤系统中的检测是指检测模式和被检测模式间的匹配。本方案在原来建立的过滤系统模型时基础上引入人工免疫的概念,构建了ー个更加精确合理的模型。模型综合考虑精确性和效率。克隆选择和否定选择是抗体生成和演化过程中两个重要过程。克隆选择学说中,机体免疫系统被认为事先就存在能识别各种抗原的细胞克隆,每个克隆细胞表面都有针对不同特定抗原的受体,不同抗原选择与之相适应的受体结合,从而刺激该细胞克隆的増殖分化,产生免疫应答而生成多祥性的各种抗体。该学说说明了抗体形成的机制,解释了免疫系统对抗原的识别、免疫记忆等形成的原因。说明抗体的生成演化向着接近已有抗原的方向进行。利用这ー原理可以约简垃圾邮件检测中入侵行为规则集,使检测器的构造不是盲目的进行。否定选择学说认为机体内先产生大量随机抗体,其中对“自己”抗原物质产生破坏的将被清除(否则将导致自身免疫功能疾病),剰余的抗体可以检测一切外来抗原物质。在本方案中可分阶段使用两个过程根据保留数据挖掘出异常模式,井根据经验知识补充之,以这些模式作为父代抗原,经编码后利用遗传算子对它们进行变异和増殖,生成ー个大的候选抗体库,对其中每ー个个体要进行适应度測定,计算与现有抗原的相似度,这样做是因为假设所有新生成的个体都是以现有异常模式为基础的,而非ー种不可能存在的模式,这样做有利于保障检测效率,节约存储空间;然后再进行否定选择,删除其中的自体模式。最后生成ー个较完备的异己模式库。本方案利用数据挖掘方法挖掘出训练数据中的使用模式,建立起“自体模式集”和“异己模式集”。这些模式是对8个属性的描述,S卩,服务类型(service),源地址(src_host),源端ロ(src_port),目的地址(dst_host),时延(dur),源端发送字节数(src_bytes),目的端发送字节数(dst_bytes),状态(flag)。为了便于描述和理解,下面给出ー些与频繁序列模式相关的定义。定义I :一阶模式(ー阶染色体)包含一个项目集的频繁模式。模式中的项目(属性)来自于ー个网络联接,如(service = http, flag = SO)或(service = icmp_echo, flag = SF, src_host = host2, dst_host = hostl)。我イ门约定,一阶模式中的属性按其重要程度排列,即service, flag, src_host, src_port, dst_host,dur, src_bytes, dst_bytes等属性在决定ー个联接时,重要性依次降低。定义2 :完整ー阶模式模式中包含了所有属性值描述,即包含了完整的项目集。通过将缺失属性值补为零可以将非完整模式转变为完整模式。定义3 :多阶模式(多阶染色体)包含了多个项目集的频繁序列模式。模式中的项目集来自于多个联接,这些项目集描述了ー种频繁的操作序列,如(,service = http, flag = SO) — (service = http, flag = SO) — (service = nttp, flag=SO)。定义4 :基因是模式中的各个属性。
定义5 :基因链是将系统中每个属性的取值组织成为ー个链表,标记该属性的取值情况,链表入口项表示为 Glist (number, attribute value)。也就是说,系统中存在有8条基因链,分别对应了 8种属性的所有取值。这8条基因链组成了ー个基因库。随着系统的运行有新的属性值产生的话,需要更新基因库。此外,在本方案中,有意义的多阶模式主要集中在三阶,有部分的ニ阶和四阶模式。ー阶频繁模式由于不具有统计意义而被忽略。编码过程中我们将超过四阶的模式截取为四阶处理,即,如有模式Xl — X2 —X3 —X4 —X5...,则转化为xl — X2 — X3 — X4。可以证明这种截取不影响系统的检测結果。步骤ニ、采用数字化表示形式将表现型映射成基因型之编码处理;具体而言,在本发明实施例中,使用的模式包含“表现型”和“基因型”,前者指可读的、由联接记录直接得到的规则,后者指“抗体演化、否定选择和克隆选择”时使用的ー种内部表现形式.由于运算必须对群体中具有某种结构形式的个体施加结构重组、挑选和量化计算来完成,因此需要ー种直接的数字化表示形式.将表现型映射成基因型的过程称为编码。进ー步的,在本方案中,为了便于模式间比较,本方案中将数值型属性离散化为区间值。属性dur(时延)分别按照其长短离散化为短、一般、长、很长;同理,将源和目的端发送字节分为少、一般、多和很多.于是可以将网络入侵中占用字节数较多的dur (时延)和源和目的端发送字节三个属性可以转化为模糊集形式,只分别用俩位ニ进制即可表示出来,大大缩短了ニ进制表示抗体的长度。把ニ进制基因位转化为对应模糊集,如下表所示
參数基因模糊集
00LOW
01NORMAL
10HIGH
11HIGHER步骤三、通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤。具体而言,在本发明实施例中,设计抗体生成算法,算法中包括亲和カ计算、抗原样本训练、克隆变异和否定选择。进ー步的,在本方案中,把每个垃圾邮件的检测和被检测模式表示为ー个八维向量,分为服务类型(service),源地址(src_host),源端ロ (src_port),目的地址(dst_host),时延(dur),源端发送字节数(src_bytes),目的端发送字节数(dst_bytes),状态(flag)八部分 Vector = くservice,flag,src—nost,src—port,ast—host,dur, src—bytes,dst_bytes>为方便下述的算法设计,这里先给出免疫系统的ー些初始设定BC-初始为空的B细胞集,//be为B细胞集中的B细胞,代表“非己”信息,即垃圾邮件信息,主要由服务类型(service),源地址(src_host),源端ロ(src_port),目的地址(dst_host),时延(dur),源端发送字节数(src_bytes),目的端发送字节数(dst_bytes),状态(flag)组成;B细胞分泌抗体;MC-初始为空的记忆B细胞集//me为记忆B细胞集中的记忆细胞,代表被用户确认的“非己”信息,主要由服务类型(service),源地址(src_host),源端ロ (src_port),目的地址(dst_host)组成;R-抗体ニ进制表示;Kt-初始记忆细胞数目;Ka-亲和カ阀值;e -匹配阈值;Kl-克隆常量;Km-变异常量;Ag-抗原;代表用户所面对的“自体”和“非自体”信息;本方案的算法如下
Procedure Tram(trammg set)
{
Foreach(te £ TE)
Add title words and key words to appropriate library Remove Kt random elements from TE and insert into MC Foreach(mc £ MC)
If(affinity(mc,te)>Ka)
Clone s—clone_mutate(mc ,te) //克隆变异生成新抗体 Foreacn^clo £ clones)

If(affinity(clo,te)>=affinity(mc,te))
BC-BC U {clo}
Negachoose(BC) //否定选择算法
}否定选择算法否定免疫算法是对免疫细胞的成熟过程的模拟,经历耐受的检测器模拟成熟的免疫细胞。
Procedure NegacnoosefBC)
{
从BC中随机生成大量的侯选检测器be (即免疫细胞);//初始化 while 一个给定大小的检测器集合还没有被产生do //耐受 Foreachi self)
If (affinity(self,bc)> e ) //选择 Then Remove be irom BC }克隆选择算法垃圾邮件入侵攻击是会发生变化的,有时用户对是否是垃圾邮件入侵攻击模糊不清,或很难选择准确的关键词,以致提交的信息不一定准确,本发明提供了克隆选择的算法来结合多个用户的信息反馈,进行交叉变异可以生成新的抗体。
Procedure clone—mutatefbcl,bc2)
{
aff — affinity (be l,bc2) clones 一 O
//亲和カ越人克隆的数目就越多,相应变异的就越少;反之则克隆的少变异的多;
num clones 一aff*kl
num mutate—(I -aff)*bc’ s feature vector 1ength*km
For(T=1 ;T<=num clones;!+十)bcx—a copy of be I
For (j=I ;j <=num—mutate ;j++)
//对克隆中的随机关键词进行替换; p—a random point in dcx’ s feature vector w—a random word from the appropriate gene library replace word in bcx’ s feature vector at location p with w clones 一clones U {bcx} return clones }针对用户的反馈,要对规则进行提升,规则的提升算法系统内的规则克隆变异和系统外的用户反馈共同决定规则的变化。
Procedure Update! ag)
{
Foreach(bc£BC)
If(affinity(ag,bc)>Ka)
Increment be ’ s stimulation count //找出与该抗原亲和カ最高的抗体,如果该抗体与抗原的亲和カ高于记忆细 胞与抗原的亲和カ,则在提升规则的同时更新记忆細胞 Be best—element of BC with highest aftmity to ag //系统内B细胞克隆变异 BC—BC U clone—mutate(bc—best,ag)
Be best—element of BC with highest affinity to agMc best—element of MC with highest affinity to agIf(affinity(bc best,ag)> affinity(mc best,ag))
BC—BC U {be—best}
MC—MC U {me—best} U {be—best}
Foreach(mc E MC)
If(affinity(bc best,mc)>Ka)
Decrement me stimulation count and add words from ag’ s feature vector togene libraries}其中,亲和カ的计算按下式进行Affinity (i, j) = code (i)-code (j)式中 code 表示待测模式的ニ进制编码。在本方案中,克隆选择和否定选择是抗体生成和演化过程中两个重要过程,也是 现代免疫学中比较完善的两个理论学说。本发明将克隆选择与否定选择相结合,大大缩小了系统的时空开销。将ニ进制位转化为对应的模糊集大大缩短了抗体的长度,将克隆选择和否定选择相结合,使抗体进行否定选择时时空开销降低,提高了入侵检测的效率。将垃圾邮件入侵检测的过程视做抗体培养和抗原检测的过程,提出了一种有效的模式编码方法。由分析可知,应用人工免疫原理的开销主要集中在抗体生成阶段,尤其是当初始模式集规模很大的时候。运用克隆选择和否定选择的约束可以大大減少空间和时间的需求。此外,一旦抗体成熟后,它的检测效率和系统鲁棒性是很高的。另外,本发明实施例还提供ー种垃圾邮件过滤系统。如图2所示,为本发明实施例提供的一种垃圾邮件过滤系统示意图。一种垃圾邮件过滤系统,包括定义单元11、编码单元22及算法単元33。定义单元11,用于在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义;具体而言,在本发明实施例中,是把垃圾邮件检测中存在的问题,用免疫系统的免疫思想来解決。在生物体中,抗体对抗原物质的识别是依靠抗体表面的受体与特定抗原的抗原决定基问化学健的“结合”,安全系统中的检测是指检测模式和被检测模式间的匹配。进ー步的,在本方案中,对人工免疫原理的应用是功能上的模拟而非所有部件的实现。在生物体中,抗体对抗原物质的识别是依靠抗体表面的受体与特定抗原的抗原决定基问化学健的“结合”,过滤系统中的检测是指检测模式和被检测模式间的匹配。本方案在原来建立的过滤系统模型时基础上引入人工免疫的概念,构建了ー个更加精确合理的模型。模型综合考虑精确性和效率。克隆选择和否定选择是抗体生成和演化过程中两个重要过程。克隆选择学说中,机体免疫系统被认为事先就存在能识别各种抗原的细胞克隆,每个克隆细胞表面都有针对不同特定抗原的受体,不同抗原选择与之相适应的受体结合,从而刺激该细胞克隆的増殖分化,产生免疫应答而生成多祥性的各种抗体。该学说说明了抗体形成的机制,解释了免疫系统对抗原的识别、免疫记忆等形成的原因。说明抗体的生成演化向着接近已有抗原的方向进行。利用这ー原理可以约简垃圾邮件检测中入侵行为规则集,使检测器的构造不是盲目的进行。否定选择学说认为机体内先产生大量随机抗体,其中对“自己”抗原物质产生破坏的将被清除(否则将导致自身免疫功能疾病),剰余的抗体可以检测一切外来抗原物质。在本方案中可分阶段使用两个过程根据保留数据挖掘出异常模式,井根据经验知识补充之,以这些模式作为父代抗原,经编码后利用遗传算子对它们进行变异和増殖,生成ー个大的候选抗体库,对其中每ー个个体要进行适应度測定,计算与现有抗原的相似度,这样做是因为假设所有新生成的个体都是以现有异常模式为基础的,而非ー种不可能存在的模式,这样做有利于保障检测效率,节约存储空间;然后再进行否定选择,删除其中的自体模式。最后生成ー个较完备的异己模式库。本方案利用数据挖掘方法挖掘出训练数据中的使用模式,建立起“自体模式集”和“异己模式集”。这些模式是对8个属性的描述,S卩,服务类型(service),源地址(src_host),源端ロ(src_port),目的地址(dst_host),时延(dur),源端发送字节数(src_bytes),目的端发送字节数(dst_bytes),状态(flag)。为了便于描述和理解,下面给出ー些与频繁序列模式相关的定义。
定义I :一阶模式(ー阶染色体)包含一个项目集的频繁模式。模式中的项目(属性)来自于ー个网络联接,如(service = http, flag = S0)或(,service = icmp_echo, flag = SF, src_host = host2, dst_host = hostl)。我イ门约>£,一阶模式中的属性按其重要程度排列,即service, flag, src_host, src_port, dst_host,dur, src_bytes, dst_bytes等属性在决定ー个联接时,重要性依次降低。定义2 :完整ー阶模式模式中包含了所有属性值描述,即包含了完整的项目集。通过将缺失属性值补为零可以将非完整模式转变为完整模式。定义3 :多阶模式(多阶染色体)包含了多个项目集的频繁序列模式。模式中的项目集来自于多个联接,这些项目集描述了ー种频繁的操作序列,如(,service = http, flag = SO) — (service = http, flag = SO) — (service = nttp, flag=SO)。定义4 :基因是模式中的各个属性。定义5 :基因链是将系统中每个属性的取值组织成为ー个链表,标记该属性的取值情况,链表入口项表示为 Glist (number, attribute value)。也就是说,系统中存在有8条基因链,分别对应了 8种属性的所有取值。这8条基因链组成了ー个基因库。随着系统的运行有新的属性值产生的话,需要更新基因库。此外,在本方案中,有意义的多阶模式主要集中在三阶,有部分的ニ阶和四阶模式。ー阶频繁模式由于不具有统计意义而被忽略。编码过程中我们将超过四阶的模式截取为四阶处理,即,如有模式Xl — X2 —X3 —X4 —X5...,则转化为xl — X2 — X3 — X4。可以证明这种截取不影响系统的检测結果。编码单元22,用于采用数字化表示形式将表现型映射成基因型之编码处理;具体而言,在本发明实施例中,使用的模式包含“表现型”和“基因型”,前者指可读的、由联接记录直接得到的规则,后者指“抗体演化、否定选择和克隆选择”时使用的ー种内部表现形式.由于运算必须对群体中具有某种结构形式的个体施加结构重组、挑选和量化计算来完成,因此需要ー种直接的数字化表示形式.将表现型映射成基因型的过程称为编码。进ー步的,在本方案中,为了便于模式间比较,本方案中将数值型属性离散化为区间值。属性dur(时延)分别按照其长短离散化为短、一般、长、很长;同理,将源和目的端发送字节分为少、一般、多和很多.于是可以将网络入侵中占用字节数较多的dur (时延)和源和目的端发送字节三个属性可以转化为模糊集形式,只分别用俩位ニ进制即可表示出来,大大缩短了ニ进制表示抗体的长度。把ニ进制基因位转化为对应模糊集,如下表所示
权利要求
1.ー种垃圾邮件过滤的方法,其特征在于,所述方法包括 步骤一、在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义; 步骤ニ、采用数字化表示形式将表现型映射成基因型之编码处理; 步骤三、通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤。
2.根据权利要求I所述的方法,其特征在于,所述步骤一中,模式集是对8个属性的描述。
3.根据权利要求2所述的方法,其特征在于,所述8个属性包括但不限于服务类型,源地址,源端ロ,目的地址,时延,源端发送字节数,目的端发送字节数以及状态。
4.根据权利要求I所述的方法,其特征在干,进ー步包括检测是指检测模式和被检测模式间的匹配。
5.根据权利要求I所述的方法,其特征在于,所述步骤ニ中,表现性模式是指可读的、由联接记录直接得到的规则。
6.根据权利要求I所述的方法,其特征在于,所述步骤ニ中,基因型模式是指抗体演化、否定选择和克隆选择时使用的ー种内部表现形式。
7.根据权利要求I或3所述的方法,其特征在干,进ー步包括将占用字节数较多的时延和源和目的端发送字节三个属性转化为模糊集形式,只分别用俩位ニ进制即可表示出来,缩短ニ进制表示抗体的长度,把ニ进制基因位转化为对应模糊集。
8.根据权利要求I所述的方法,其特征在于,所述步骤三中,进ー步包括算法中包括亲和カ计算、抗原样本训练、克隆变异和否定选择。
9.一种垃圾邮件过滤系统,其特征在于,所述系统包括定义单元、编码单元及算法单元,通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义,接着采用数字化表示形式将表现型映射成基因型之编码处理,然后通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤。
10.根据权利要求9所述的系统,其特征在于,所述定义単元用于在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义。
11.根据权利要求9所述的系统,其特征在于,所述编码単元用于采用数字化表示形式将表现型映射成基因型之编码处理。
12.根据权利要求9所述的系统,其特征在于,所述算法単元用于通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤。
全文摘要
本发明提供了一种垃圾邮件过滤的方法及系统,通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式,建立自体模式集和异己模式集,并对模式集中的属性进行定义,接着采用数字化表示形式将表现型映射成基因型之编码处理,然后通过结合否定选择算法和克隆选择算法,产生新的抗体,进而对垃圾邮件进行检测和过滤,进而降低邮件过滤的开销,提高入侵检测系统的效率。
文档编号H04L12/58GK102664817SQ20121003757
公开日2012年9月12日 申请日期2012年2月17日 优先权日2012年2月17日
发明者赵孟德 申请人:上海电机学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1