专利名称:一种基于人工免疫与行为特征的垃圾邮件识别方法及装置的制作方法
技术领域:
本发明涉及互联网技术,具体涉及一种邮件行为特征库生成方法及装置、垃圾邮件判断 方法、装置及系统、垃圾邮件特征库更新方法及装置。
背景技术:
近年来,随着互连网的发展,垃圾邮件问题越来越引起人们的重视。垃圾邮件无时无刻 的困扰着互连网用户,浪费网络资源,甚至可能引起其他更加严重的社会问题。随着技术的 发展,垃圾邮件过滤技术也得到了越来越多的关注和发展。
大部分防垃圾邮件产品都还在采用IP过滤,关键字过滤,基于贝叶斯统计算法的智能内 容过滤以及RBL过滤等方法进行垃圾邮件的区分。但是它们误报率高,处理性能很低,语言 依赖性强。因为这些技术,没有跳出内容匹配过滤的技术局限,它们需要将邮件完整接收下 来后,对邮件按照指定语言进行分词处理,并与一个有着数以百万计的词库进行逐一匹配, 从而估计该邮件是否为垃圾邮件。
对比垃圾邮件和正常邮件,二者最根本的区别在于各自的目的不同。为了达到其非法目 的,不法分子在使用电子邮件的过程中就会表现出与正常使用行为不同的特征,并在网络上 留下相应的痕迹。基于这一点,采用基于垃圾邮件行为识别的原理和方法,可提高邮件过滤 速度,同时避免了内容过滤技术不可避免的误报率问题,使得垃圾邮件过滤更加高效和准确。
近年来,智能型的垃圾邮件检测技术和传统方法相比体现出了更强的学习能力和调整特 性。在智能型的邮件处理方法中,机器学习和人工神经网络的方法已得到了深入的研究。目 前主要的垃圾邮件检测方法有朴素贝叶斯(Naive Bayes)、支持向量机(SVM)、人工神经网 络(ANN)、基于免疫的垃圾邮件过滤方法等。
将人工免疫模型应用于垃圾邮件处理,主要利用免疫中自己/非己的检测原理和检测器的 概念。提取n个垃圾邮件行为特征,每个特征作为一个染色体,每一封邮件都可转化为一个 有n位染色体的基因细胞。先用已知类别垃圾邮件训练出一个抗体(antibody)集,即是抗 体库,每一封未识别邮件为抗原(antigen)。然后计算该抗原和抗体库中每一个抗体的相似 度(affinity),如果得出的最大的相似度大于预先设定的某一阈值,那么认为抗体识别出了 该抗原并将其归类为垃圾邮件。且随着被识别抗原的不同相似度,对抗体库进行克隆变异更 新,即保证抗体集的高识别性能,又使之更能适应新垃圾邮件的更新趋势。
发明内容
本发明实施例的目的是提供一种邮件行为特征库生成方法及装置、垃圾邮件判断方法、 装置及系统、垃圾邮件特征库更新方法及装置,使用本发明提供的实施例,可以对垃圾邮件 信息类型进行判断,从而过滤垃圾邮件信息。
首先,为了解决现有技术存在的问题,本发明的实施方式提出一种邮件行为特征库生成 方法,该方法的步骤包括
读取分类已知邮件信息的内容;
将所述邮件信息内容使用预置行为特征提取算法得到抗体集合;
采用所述的抗体集合使用预置分析算法进行概率分析得到最终抗体库;
将所述抗体库使用预置分析算法进行分数计算得到最终分数集。
相应地,本发明的实施方式提出了一种邮件行为特征库生成装置,该装置包括
邮件信息读取单元,用于读取分类已知邮件的信息内容;
特征提取单元,用于从所述邮件内容中提取符合预置条件的行为特征;
抗体库生成单元,用于将所述行为特征进行概率分析得到最终的抗体集合; 特征分数生成单元,用于将所述特征概率进行计算得到最终的分数集合。
其次,本发明的实施方式还提供了一种垃圾邮件判断方法,该方法的步骤包括
读取分类未知邮件信息的内容; 对所述邮件信息内容进行格式解析;
将解析后的邮件信息内容使用预置行为特征提取算法得到抗原;
读取所述的邮件信息特征行为特征提取算法及概率算法得到的抗体库和分数集;
对所述抗原使用预置识别算法进行计算; 根据计算结果对所述邮件进行判断。
《H应地,不汉W的失刀1B刀工、:PeCD J —1T"H农WP'I干力画J^T表直,"衣旦.ti:ra:
邮件信息读取单元,用于读取分类未知邮件信息内容; 信息内容解析单元,用于解析分类未知邮件信息内容;特征提取单元,用于从所述邮件内容中提取符合预置条件的行为特征; 抗体库与分数集读取单元,用于读取抗体库与对应分数集内容;
计算单元,用于以所述行为特征、抗体库和分数集作为输入,采用预置识别算法进行计
算;
判断单元,用于根据所述计算单元的计算结果对所述分类未知邮件信息类型进行判断。
接着,本发明的实施方式还提供了垃圾邮件特征库更新方法,该方法的步骤包括-
读取已被识别的垃圾邮件的行为特征信息;
判断识别出所述垃圾邮件的抗体的相似度;
采用所述的抗体使用预置克隆变异算法进行抗体的克隆和变异;
所述抗原与变异生产的新抗体使用预置识别算法进行计算; 根据判断计算结果,对邮件抗体库更新。
相应地,本发明的实施方式提出了一种垃圾邮件特征库更新装置,该装置包括 垃圾邮件信息读取单元,用于读取已被识别的垃圾邮件的行为特征信息; 相似度判断单元,用于判断识别出所述垃圾邮件的抗体的相似度,判断是否克隆变异; 克隆变异单元,用于所述的抗体进行抗体的克隆和变异,生产新的抗体; 计算单元,用于对所述抗原与变异生产的新抗体使用预置识别算法进行计算; 判断更新单元,用于根据所述计算单元的计算结果,判断更新抗体库。
最后,实施本发明具有以下有益效果
从本发明实施例提供的以上技术方案可以看出,本发明实施例采用分类已知的邮件的行 为特征库生成方法,并使用生成的特征对分类未知的邮件进行判断。在识别未分类邮件时, 除了计算未知邮件与抗体库中已知垃圾邮件的行为特征相似度外,还设置分数集。通过计算 总分数,査看未知邮件其行为特征趋近与垃圾邮件的程度。通过双重标准可以更准确的识别 垃圾邮件。在数据库更新时,用已经识别垃圾邮件,通过克隆变异算法实现抗体库的更新, 叉目5迫/亢—定口、J别r」^旦狄口pt卞iJ yviinii:又'i^;t3^rTw^^成闺P it又tuw3^t。
图1为本发明邮件行为特征库生成方法实施例一的具体流程图;
图2为本发明垃圾邮件判断方法实施例一的具体流程图3为本发明垃圾邮件特征库更新方法实施例一的具体流程图;
图4为本发明邮件行为特征库生成装置实施例一的结构图5为本发明垃圾邮件判断装置实施例一的结构图6为本发明垃圾邮件特征库更新装置实施例一的结构图7为本发明垃圾邮件判断系统实施例一的结构图。
具体实施例方式
为使本发明的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本 发明进一步详细说明。
如图1所示,本发明提供的邮件行为特征库生成方法实施例一包括
步骤IOI、读取分类巳知邮件信息的内容
分类已知邮件信息是指该邮件分类是已知的,也就是该邮件是正常邮件还是垃圾邮件是 已经确定的。
步骤102、将所述邮件信息内容使用预置行为特征提取算法得到抗体集合
这里所使用的预置行为提取算法是指将垃圾内容(包括邮件头和邮件体)进行特征提取; 针对邮件可能出现的行为特征进行提取,如邮件头中的容易伪造的字段、DNS解析的字段、 邮件书写不规范的字段、路由信息中伪造的字段;邮件体中带有的"www"或"http:〃"、以 及"@"等字段。具有某特征记为1,反之记为0,所以邮件可记为每一项写了 0或1的定长 数组形式。
将所述可识别邮件提取出的特征信息分别生成垃圾邮件抗体集和正常邮件抗体集。 步骤103、采用所述的抗体集合使用预置分析算法进行概率分析得到最终抗体库 使用垃圾邮件抗体集和正常邮件抗体集,通过分析计算生成有效的识别垃圾邮件的抗体库。
本发明使用免疫原理中的耐受原则和反向选择算法方法。
步骤104、将所述抗体库使用预置分析算法进行分数计算得到最终分数集
读入垃圾邮件抗体集和正常邮件抗体集;计算所述各个特征项的分数并得到最终的分数本发明进一步提供了一种计算分数方法。当垃圾邮件集与正常邮件集数量相等时,累加 每一项特征在垃圾邮件集合中出现的次数,同时累加每一项特征在正常邮件集合中出现的次 数,求出两次数相减的绝对值。则体现出每种特征在区分垃圾邮件和正常邮件中起到的作用 大小,将每一个特征所求到的值保存成一个分数集。
如图2所示,本发明提供的垃圾邮件判断方法实施例一包括 步骤201、读取分类未知邮件信息的内容
对于需要判定的未知邮件,读取其邮件信息以便于对下一步的格式解析。
步骤202、对所述邮件信息内容进行格式解析
这里的格式解析是指将按照该信息协议进行解析,把该信息表示成能够识别的信息文本 内容,如对邮件利用因特网邮件扩展协议格式(MIME)形成邮件格式树等。
步骤203、将解析后的邮件信息内容使用预置行为特征提取算法得到抗原
这里所使用的预置行为提取算法是指将垃圾内容(包括邮件头和邮件体)进行特征提取; 具有某特征记为1,反之记为0,所以邮件可记为每一项写了 0或1的定长数组形式。
步骤204、读取所述的邮件信息特征行为特征提取算法及概率算法得到的抗体库和分数
集
将读入抗体库中的抗体集形成数个抗体的形式,并将所述分数集按照对应特征匹配。 步骤205、对所述抗原使用预置识别算法进行计算
计算抗体和抗原每一位特征的相似度,且累加该相似的特征的分数,最后可以得到该邮 件的总相似度和总分数。
步骤206、根据计算结果对所述邮件进行判断
判断总相似度和总分数是否大于特定阈值,从而识别邮件类型。如果得到的信息的总相 似度和总分数大于规定的阈值,则判断该信息为垃圾信息,反之为非垃圾信息。这里的阈值 为用户自定义,可以根据不断的实验结果得出。
如图3所示,本发明提供的垃圾邮件特征库更新方法实施例一包括: 步骤301、读取已被识别的垃圾邮件的行为特征信息读取已被识别为垃圾邮件的抗原信息和识别该抗原的抗体的信息。 步骤302、判断识别出所述垃圾邮件的抗体的相似度
判断识别出该抗原时相似度的大小是否等于最大相似度,若等于则不需要克隆变异,若 不相等则进入克隆变异。
步骤303、釆用所述的抗体使用预置克隆变异算法进行抗体的克隆和变异 对识别出该抗原的抗体进行克隆算法和变异算法,生成新的抗体。 步骤304、所述抗原与变异生产的新抗体使用预置识别算法进行计算
将所述抗原和新的抗体进行识别计算,计算每一位特征的相似度,且累加该相似的特征 的分数,最后可以得到该邮件的总相似度和总分数。 步骤305、根据判断计算结果,对邮件抗体库更新
如果总相似度大于原抗体识别时的相似度,则新抗体替换原抗体,实现抗体的更新。
如图4所示,本发明提供邮件行为特征库生成装置实施例一包括 邮件信息读取单元401,用于读取分类己知邮件的信息内容
分类已知邮件信息既要有正常邮件信息也要有垃圾邮件信息,从而可以保证邮件信息特 征库的全面性,因而能够保证邮件信息行为特征的准确性。
特征提取单元402,用于从所述邮件内容中提取符合预置条件的行为特征
这些特征应该是具有代表性的邮件头和邮件体中出现的行为特征。尽可能的总结统计到 垃圾邮件会表现出的行为特征,如邮件头中的容易伪造的字段、DNS解析的字段、邮件书 写不规范的字段、路由信息中伪造的字段;邮件体中带有的"www"或"http:〃"、以及"@" 等。具有某特征记为l,反之记为0,所以邮件可记为每一项写了0或1的定长数组形式。
抗体库生成单元403,用于将所述行为特征进行概率分析得到最终的抗体集合
根据已知邮件的不同,将邮件提取行为特征生产抗体,分别存入垃圾邮件抗体库和正常 邮件抗体库。
特征分数生成单元404,用于将所述特征概率进行计算得到最终的分数集合
本发明提供了一种计算分数方法。当垃圾邮件集与正常邮件集数量相等时,累加每一项
特征在垃圾邮件集合中出现的次数,同时累加每一项特征在正常邮件集合中出现的次数,求
出两次数相减的绝对值。则体现出每种特征在区分垃圾邮件和正常邮件中起到的作用大小,将每一个特征所求到的值看做一个分数,合起来保存成一个分数集。
从上可以看出,由于这些抗体可以动态的调整和修改,同时垃圾邮件过滤器利用了统计 原理,可以自动地"学习"接收信息的特点,来调整垃圾信息的分值。这使得该过滤能根据 不同阶段的垃圾邮件行为特征趋势的不断变化来更新。
如图5所示,本发明提供垃圾邮件判断装置实施例一包括 邮件信息读取单元501,用于读取分类未知邮件信息内容 读取未知属性邮件的内容,为内容解析做准备。 信息内容解析单元502,用于解析分类未知邮件信息内容
对所述邮件内容进行格式解析,这里的格式解析是指将按照该信息协议进行解析,把该
信息表示成能够识别的信息文本内容,如对邮件利用因特网邮件扩展协议格式(MIME)形成 邮件格式树等。
特征提取单元503,用于从所述邮件内容中提取符合预置条件的行为特征
这里所使用的预置行为提取算法是指将垃圾内容(包括邮件头和邮件体)进行行为特征 提取。具有某特征记为l,反之记为0,所以邮件可记为每一项写了0或1的定长数组形式。
抗体库与分数集读取单元504,用于读取抗体库与对应分数集内容 将读入抗体库中的抗体集形成数个抗体的形式,并将所述分数集按照对应特征匹配。 计算单元505,用于以所述行为特征、抗体库和分数集作为输入,采用预置识别算法进 行计算
应用识别算法,比较抗体数组与抗原数组之间,每一位的数组是否相等(相似),计算抗 体和抗原每一位特征的相似度,且累加该相似的特征的分数,最后可以得到该邮件的总相似 度和总分数。
判断单元506,用于根据所述计算单元的计算结果对所述分类未知邮件信息类型进行判
断
判断总相似度和总分数是否大于特定阈值,从而识别邮件类型。如果得到的信息的总相 似度和总分数大于规定的阈值,则判断该信息为垃圾信息,反之为非垃圾信息。这里的阈值 为用户自定义,可以根据不断的实验结果得出。
从上可以看出,由于我们在进行匹配的时候预先将邮件提取成数组形式,同时分数集记
11为数组的形式,且由于总行为特征数量一定,所以在应用过程中,匹配判断的速度将不会很 慢,满足实际的需要。
如图6所示,本发明提供垃圾邮件特征库更新装置实施例一包括 垃圾邮件信息读取单元601,用于读取已被识别的垃圾邮件的行为特征信息 读取已被识别的垃圾邮件的行为特征信息以及识别出该垃圾邮件的抗体信息。 相似度判断单元602,用于判断识别出所述垃圾邮件的抗体的相似度,判断是否克隆变
异
判断识别出所述垃圾邮件时抗体计算的相似度,判断其是否等于最大相似度。如果相等,
则不需要进入后续模块操作;如果不相等,则进入克隆变异模块。
克隆变异单元603,用于所述的抗体进行抗体的克隆和变异,产生新的抗体
采用所述的抗体使用预置克隆变异算法。克隆指将抗体复制成若干个(其复制的多少与 相似度成反比,即相似度越高复制数越少);对每个被复制体进行变异,即数组a中某一位从 0变为1、或从1变为0;为了模拟出生物免疫的随机性和全面性,变异的位是随机决定的。
计算单元604,用于对所述抗原与变异生产的新抗体使用预置识别算法进行计算
所述抗原分别与变异后的新的抗体们使用识别算法计算相似度。
判断更新单元605,用于根据所述计算单元的计算结果,判断更新抗体库
如果有相似度大于原抗体识别时的相似度,则新抗体替换原抗体,实现抗体的更新。
从上可以看出,由于我们采用了克隆变异的方法,在识别邮件之后对抗体库实行了相应 的更新,更能适应一定时期内垃圾邮件行为特征变化趋势。
进一步,本发明提供了网络信息类型判断系统的实施例一,如图7所示,包括 邮件行为特征库生成装置701,用于生成邮件的特征库和分数集
包括读取分类己知邮件的信息内容;从所述邮件内容中提取符合预置条件的行为特征; 将所述行为特征进行概率分析得到最终的抗体集合;将所述特征概率进行计算得到最终的分 数集合。
垃圾邮件判断装置702,用于垃圾邮件自动识别
包括读取分类未知邮件信息内容;解析分类未知邮件信息内容;从所述邮件内容中提取符合预置条件的行为特征;读取抗体库与对应分数集内容;以所述行为特征、抗体库和分数 集作为输入,采用预置识别算法进行计算;根据所述计算单元的计算结果对所述分类未知邮 件信息类型进行判断。
垃圾邮件特征库更新装置703,用于及时更新垃圾邮件特征库
包括读取已被识别的垃圾邮件的行为特征信息;判断识别出所述垃圾邮件的抗体的相似 度,判断是否克隆变异;所述的抗体进行抗体的克隆和变异,生产新的抗体;对所述抗原与 变异生产的新抗体使用预置识别算法进行计算;根据所述计算单元的计算结果,判断更新抗 体库。
以上对本发明实施例所提供的邮件行为特征库生成方法及装置、垃圾邮件判断方法、装 置及系统、垃圾邮件特征库更新方法及装置进行了详细介绍,以上实施例的说明只是用于帮 助理解本发明的方法及其思想;同时,对于本领域的一般技术人员,依据本发明的思想,在
具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明 的限制。
权利要求
1、一种邮件行为特征库生成方法,其特征在于,包括读取分类已知邮件信息的内容;将所述邮件信息内容使用预置行为特征提取算法得到抗体集合;采用所述的抗体集合使用预置分析算法进行概率分析得到最终抗体库;将所述抗体库使用预置分析算法进行分数计算得到最终分数集。
2、 如权利要求l所述的邮件行为特征库生成方法,其特征在于,所述预置行为特征提 取算法包括首先,将垃圾内容(包括邮件头和邮件体)进行特征提取;针对邮件可能出 现的行为特征进行提取,将邮件头中的容易伪造的字段、DNS解析的字段、邮件书写不规范 的字段、路由信息中伪造的字段;邮件体中带有的或"http:〃"、以及"@"等字 段。具有某特征记为l,反之记为0,所以邮件可记为每一项写了0或1的定长数组形式。 将所述可识别邮件提取出的特征信息分别生成垃圾邮件抗体集和正常邮件抗体集。其次, 使用垃圾邮件抗体集和正常邮件抗体集,通过分析计算生成有效的识别垃圾邮件的抗体库。 将所述可识别邮件提取出的特征信息分别生成垃圾邮件抗体集和正常邮件抗体集。根据已 知邮件的不同,将邮件提取行为特征生产抗体,分别存入垃圾邮件抗体库和正常邮件抗体 库。邮件识别时,使用的抗体库为垃圾邮件抗体库。然后,进一步提供了一种计算分数方 法。读入垃圾邮件抗体集和正常邮件抗体集;计算所述各个特征项的分数并得到最终的分 数集合。当垃圾邮件集与正常邮件集数量相等时,累加每一项特征在垃圾邮件集合中出现 的次数,同时累加每一项特征在正常邮件集合中出现的次数,求出两次数相减的绝对值。 则体现出每种特征在区分垃圾邮件和正常邮件中起到的作用大小,将每一个特征所求到的 值看做一个分数,合起来保存成一个分数集。
3、 一种垃圾邮件判断方法,其特征在于,包括读取分类未知邮件信息的内容;对所 述邮件信息内容进行格式解析;将解析后的邮件信息内容使用预置行为特征提取算法得到 抗原;读取所述的邮件信息特征行为特征提取算法及概率算法得到的抗体库和分数集;对 所述抗原使用预置识别算法进行计算;根据计算结果对所述邮件进行判断。
4、 如权利要求3所述的垃圾邮件判断方法,其特征在于,包括这里所使用的预置行 为提取算法是指将垃圾内容(包括邮件头和邮件体)进行特征提取;具有某特征记为1,反 之记为0,所以邮件可记为每一项写了 0或1的定长数组形式。使用人工免疫中的免疫识别 原理进行未分类邮件的识别。将读入抗体库中的抗体集形成数个抗体的形式,并将所述分 数集按照对应特征匹配;比较抗体数组与抗原数组之间,每一位的数组是否相等(相似), 计算抗体和抗原每一位特征的相似度,且累加该相似的特征的分数,最后可以得到该邮件的总相似度和总分数。判断总相似度和总分数是否大于特定阈值,从而识别邮件类型。如 果得到的信息的总相似度和总分数大于规定的阈值,则判断该信息为垃圾信息,反之为非 垃圾信息。这里的阈值为用户自定义,可以根据不断的实验结果得出。
5、 垃圾邮件特征库更新方法,其特征在于,包括读取已被识别的垃圾邮件的行为特 征信息;判断识别出所述垃圾邮件的抗体的相似度;采用所述的抗体使用预置克隆变异算 法进行抗体的克隆和变异;所述抗原与变异生产的新抗体使用预置识别算法进行计算;根 据判断计算结果,对邮件抗体库更新。
6、 如权利要求5所述的垃圾邮件判断方法,其特征在于,所述的预置克隆变异算法包 括读取己被识别为垃圾邮件的抗原信息和识别该抗原的抗体的信息;判断识别出所述垃 圾邮件时抗体计算的相似度,判断其是否等于最大相似度,如果等于,则不需要进入后续 模块操作;如果不相等,则进入克隆变异模块;采用所述的抗体使用预置克隆变异算法。 克隆指的是抗体的复制成若干个(其复制的多少与相似度成反比,即相似度越高复制数越 少);对每个被复制体进行变异,即数组a其中某一位从O变为1、或从1变为0;为了模 拟出生物免疫的随机性和全面性,变异的位是随机决定的;所述抗原分别与变异后的新的 抗体们使甩识别算法计算相似度。如果有相似度大于原抗体识别时的相似度,则新抗体替 换原抗体,实现抗体的更新。
7、 一种邮件行为特征库生成装置,其特征在于,包括邮件信息读取单元,用于读取 分类已知邮件的信息内容;特征提取单元,用于从所述邮件内容中提取符合预置条件的行 为特征;抗体库生成单元,用于将所述行为特征进行概率分析得到最终的抗体集合;特征 分数生成单元,用于将所述特征概率进行计算得到最终的分数集合。
8、 一种垃圾邮件判断装置,其特征在于,包括邮件信息读取单元,用于读取分类未 知邮件信息内容;信息内容解析单元,用于解析分类未知邮件信息内容;特征提取单元, 用于从所述邮件内容中提取符合预置条件的行为特征;抗体库与分数集读取单元,用于读 取抗体库与对应分数集内容;计算单元,用于以所述行为特征、抗体库和分数集作为输入,采用预置识别算法进行计算;判断单元,用于根据所述计算单元的计算结果对所述分类未 知邮件信息类型进行判断。
9、 一种垃圾邮件特征库更新装置,其特征在于,包括垃圾邮件信息读取单元,用于 读取已被识别的垃圾邮件的行为特征信息;相似度判断单元,用于判断识别出所述垃圾邮 件的抗体的相似度,判断是否克隆变异;克隆变异单元,用于所述的抗体进行抗体的克隆和变异,生产新的抗体;计算单元,用于对所述抗原与变异生产的新抗体使用预置识别算 法进行计算;判断更新单元,用于根据所述计算单元的计算结果,判断更新抗体库。
10、 一种垃圾邮件判断系统,其特征在于,包括1.邮件行为特征库生成装置,用于 读取分类己知邮件的信息内容;从所述邮件内容中提取符合预置条件的行为特征;将所述 行为特征进行概率分析得到最终的抗体集合;将所述特征概率进行计算得到最终的分数集 合。2.垃圾邮件判断装置,用于读取分类未知邮件信息内容;解析分类未知邮件信息内容; 从所述邮件内容中提取符合预置条件的行为特征;读取抗体库与对应分数集内容;以所述 行为特征、抗体库和分数集作为输入,采用预置识别算法进行计算;根据所述计算单元的 计算结果对所述分类未知邮件信息类型进行判断。3.垃圾邮件特征库更新装置,用于读取已被识别的垃圾邮件的行为特征信息;判断识别出所述垃圾邮件的抗体的相似度,判断是 否克隆变异;所述的抗体进行抗体的克隆和变异,生产新的抗体;对所述抗原与变异生产 的新抗体使用预置识别算法进行计算;根据所述计算单元的计算结果,判断更新抗体库。
全文摘要
本发明涉及互联网技术,公开了一种邮件行为特征库生成方法及装置、垃圾邮件判断方法、装置及系统、垃圾邮件特征库更新方法及装置。从本发明实施例提供的以上技术方案可以看出,本发明实施例采用分类已知的邮件的行为特征库生成方法,并使用生成的特征对分类未知的邮件进行判断。在识别未分类邮件时,除了计算未知邮件与抗体库中已知垃圾邮件的行为特征相似度外,还设置分数集。通过计算总分数,查看未知邮件其行为特征趋近于垃圾邮件的程度。通过双重标准可以更准确的识别垃圾邮件。在数据库更新时,用已经识别垃圾邮件,通过克隆变异算法实现抗体库的更新,更能适应一定时期内垃圾邮件行为特征变化趋势和垃圾邮件变化趋势。
文档编号H04L12/58GK101594312SQ20081004448
公开日2009年12月2日 申请日期2008年5月30日 优先权日2008年5月30日
发明者何兴高, 文思群, 曾志华, 程红蓉, 婷 钟, 佳 陈 申请人:电子科技大学