一种基于混淆模式识别的垃圾邮件识别系统的制作方法

文档序号:7803048阅读:110来源:国知局
一种基于混淆模式识别的垃圾邮件识别系统的制作方法
【专利摘要】本发明公开了一种基于混淆模式识别的垃圾邮件识别系统,该系统将电子邮件的主题、正文和html代码根据预先统计的特殊字符库替换为仅由0、1、2三种字符构成的字符串,再利用预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库对主题、正文和html代码进行混淆模式识别,从而判断出当前电子邮件是否为垃圾邮件。本发明具有很好的创新性,是对传统反垃圾技术的很好补充,能够在不影响准确率的情况下有效提高垃圾邮件识别的召回率。
【专利说明】—种基于混淆模式识别的垃圾邮件识别系统
【技术领域】
[0001]本发明涉及反垃圾邮件技术,特别涉及一种基于混淆模式识别的垃圾邮件识别系统。
【背景技术】
[0002]电子邮件作为当今互联网应用最广泛的服务之一,其方便、快捷和经济等特点,得到了无数商务人士的青睐。人们用它来办公,娱乐等等,邮件逐渐成为日常生活中不可缺少的通信工具。但随着信息化的发展,由于互联网的开放性与传播性,垃圾邮件的泛滥也成为用户尤其是企业机构不可忽视的巨大威胁。垃圾邮件中的某些消息具有很强的循环性和攻击性。垃圾电子邮件正开始逐步的减弱电子邮件的可靠性。对于个人用户和企业用户来说,垃圾邮件收发浪费了大量的网络带宽,区分垃圾邮件和正常邮件也浪费了用户的大量时间,尤其对企业机构来说,垃圾邮件已造成了极大的经济效益损失。
[0003]大部分垃圾邮件背后的动机是使邮件接收者接受某物,例如登陆某个站点,拨打某个电话,或者购买某支股票。这些动机被称为该邮件的“意图”,而对邮件的这些特点的观察和分析称为“意图分析”。邮件的意图是一种不同于传统技术中所指的内容或行为的全新特征,它具有稳定性、不可伪装性和必要性。
[0004]现有的垃圾邮件意图分析方案,通常需要点击进入邮件中的URL超链接地址所指向的网站,并分析该网站的内容。该方案效率低下,且所抽取的意图类型单一,同时,许多垃圾邮件通常采用混淆手段(如在邮件中加入随机噪声)来避免被识别,而该方案并不能处理这种问题。

【发明内容】

[0005]本发明的目的在于克服现有技术之不足,提供一种基于混淆模式识别的垃圾邮件识别系统,通过识别垃圾电子邮件常见的混淆模式来判定当前电子邮件的属性,是对传统反垃圾技术的很好补充。
[0006]本发明解决其技术问题所采用的技术方案为:一种基于混淆模式识别的垃圾邮件识别系统,该系统的垃圾邮件识别过程包括:
[0007]I)从上级系统接收一封电子邮件,分别读取该电子邮件的主题、正文和html代码;
[0008]2)预处理:将所述主题中的空格去掉,消除所述正文中控制字符的影响;
[0009]3)归一化:将所述主题、正文和html代码的所有单字节符中的数字和字母替换为“2”,其他单字节符替换为“O”;结合预先统计的特殊字符库,将所述主题、正文和html代码的所有非单字节符替换为I或0,具体包括将所述主题、正文和html代码的所有非单字节符中所有由所述特殊字符库定义的乱码、生僻字替换为1,所有由所述特殊字符库定义的正常文字替换为O ;
[0010]具体实施时,预先统计一个包括乱码和生僻字的特殊字符库,则所述主题、正文和html代码的所有非单字节符中属于该特殊字符库的字符被替换为1,其他字符被替换为O ;
[0011]4)混淆模式识别:将由0、1、2三种字符构成的主题整合为一个第一字符串,将由
O、1、2三种字符构成的正文整合为一个第二字符串,将由O、1、2三种字符构成的html代码整合为一个第三字符串;分别将第一字符串、第二字符串和第三字符串输入预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库;
[0012]5)判定:若第一字符串符合所述主题混淆模式库中的一种混淆模式,或第二字符串符合所述正文混淆模式库中的一种混淆模式,或第三字符串符合所述html代码混淆模式库中的一种混淆模式,则当前电子邮件被判定为垃圾邮件;否则,当前电子邮件被判定为正常邮件;
[0013]6)将判定结果返回给上级系统,结束。
[0014]作为一种优选,步骤3)之前还包括:抽取所述html代码中包括“〈INPUT”的行,并截取出该html行中从“<INPUT”到其之后的第一个“>”之间的内容,获取该内容中的width值、high值和value的长度;若该内容中的value的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阂值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
[0015]作为一种优选,步骤3)之前还包括:抽取所述html代码中包括“< TEXTAREA”的行,并截取出该html行中从“< TEXTAREA”到其之后的第一个“TEXTAREA〉”之间的内容,获取该内容中的width值、high值和value的长度;若该内容中的value的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阂值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
[0016]作为一种优选,步骤3)之前,还包括:抽取所述正文的前η行,其中η为一个预设的自然数;若所述主题或该前η行中包括属于预先统计的回信字符库中的特征词,则当前电子邮件被判定为正常邮件,并将判定结果返回给上级子系统,结束;若否,则继续往下执行。
[0017]作为一种优选,所述特殊字符库包括中文特殊字符子库、日文特殊字符子库、韩文特殊字符子库、泰文特殊字符子库及其他国家的非单字节字符的特殊字符子库。
[0018]由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0019]本发明的一种基于混淆模式识别的垃圾邮件识别系统,通过识别垃圾电子邮件常见的混淆模式来判定当前电子邮件的属性,具有很好的创新性,是对传统反垃圾技术的很好补充,能够在不影响准确率的情况下有效提高垃圾邮件识别的召回率。
【专利附图】

【附图说明】
[0020]图1为本发明实施例的一种基于混淆模式识别的垃圾邮件识别系统的垃圾邮件识别过程示意图。
【具体实施方式】
[0021]实施例,
[0022]如图1所示,本发明提供了一种基于混淆模式识别的垃圾邮件识别系统,该系统的垃圾邮件识别过程包括:
[0023]Rl:从上级系统接收一封电子邮件,分别读取该电子邮件的主题、正文和html代码;
[0024]R2:预处理:将所述主题中的空格去掉,消除所述正文中控制字符(如回车、换行、制表等等)的影响,从而避免之后的模式识别出现误匹配的现象;
[0025]R3:归一化:将所述主题、正文和html代码的所有单字节符中的数字和字母替换为“2”,其他单字节符替换为“O”;结合预先统计的特殊字符库,将所述主题、正文和html代码的所有非单字节符替换为I或0,具体包括将所述主题、正文和html代码的所有非单字节符中所有由所述特殊字符库定义的乱码、生僻字替换为1,所有由所述特殊字符库定义的正常文字替换为O ;
[0026]R4:混淆模式识别:将由0、1、2三种字符构成的主题整合为一个第一字符串,将由
O、1、2三种字符构成的正文整合为一个第二字符串,将由O、1、2三种字符构成的html代码整合为一个第三字符串;分别将第一字符串、第二字符串和第三字符串输入预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库;
[0027]R5:判定:若第一字符串符合所述主题混淆模式库中的一种混淆模式,或第二字符串符合所述正文混淆模式库中的一种混淆模式,或第三字符串符合所述html代码混淆模式库中的一种混淆模式,则当前电子邮件被判定为垃圾邮件;否则,当前电子邮件被判定为正常邮件;
[0028]R6:将判定结果返回给上级系统,结束。
[0029]作为一种优选,步骤R3之前还包括步骤R2.1:抽取所述html代码中包括“<INPUT”的行,并截取出该html行中从“〈INPUT”到其之后的第一个“>”之间的内容,获取该内容中的width值、high值和value的长度;若该内容中的value的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阂值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
[0030]作为一种优选,步骤R3之前还包括步骤R2.2:抽取所述html代码中包括“< TEXTAREA”的行,并截取出该html行中从“< TEXTAREA”到其之后的第一个“TEXTAREA〉”之间的内容,获取该内容中的width值、high值和value的长度;若该内容中的value的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阂值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
[0031]作为一种优选,步骤R3之前,还包括步骤R2.3:抽取所述正文的前η行,其中η为一个预设的自然数;若所述主题或该前η行中包括属于预先统计的回信字符库中的特征词,则当前电子邮件被判定为正常邮件,并将判定结果返回给上级子系统,结束;若否,则继续往下执行。
[0032]其中,步骤R2.1、步骤R2.2和步骤R2.3可采用任意先后顺序执行,本实施例中,所采用的顺序为:R2.1、R2.2、R2.3。
[0033]作为一种优选,所述特殊字符库包括中文特殊字符子库、日文特殊字符子库、韩文特殊字符子库、泰文特殊字符子库等各个国家的非单字节字符的特殊字符子库。[0034]上述实施例仅用来进一步说明本发明的一种基于混淆模式识别的垃圾邮件识别系统,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。
【权利要求】
1.一种基于混淆模式识别的垃圾邮件识别系统,其特征在于,该系统的垃圾邮件识别过程包括: 1)从上级系统接收一封电子邮件,分别读取该电子邮件的主题、正文和html代码; 2)预处理:将所述主题中的空格去掉,消除所述正文中控制字符的影响; 3)归一化:将所述主题、正文和html代码的所有单字节符中的数字和字母替换为“2”,其他单字节符替换为“O”;结合预先统计的特殊字符库,将所述主题、正文和html代码的所有非单字节符替换为I或O,具体包括将所述主题、正文和html代码的所有非单字节符中所有由所述特殊字符库定义的乱码、生僻字替换为1,所有由所述特殊字符库定义的正常文字替换为O ; 4)混淆模式识别:将由0、1、2三种字符构成的主题整合为一个第一字符串,将由0、1、2三种字符构成的正文整合为一个第二字符串,将由0、1、2三种字符构成的html代码整合为一个第三字符串;分别将第一字符串、第二字符串和第三字符串输入预先统计的主题混淆模式库、正文混淆模式库和html代码混淆模式库; 5)判定:若第一字符串符合所述主题混淆模式库中的一种混淆模式,或第二字符串符合所述正文混淆模式库中的一种混淆模式,或第三字符串符合所述html代码混淆模式库中的一种混淆模式,则当前电子邮件被判定为垃圾邮件;否则,当前电子邮件被判定为正常邮件; 6)将判定结果返回给上级系统,结束。
2.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别系统,其特征在于,步骤3)之前还包括:抽取所述html代码中包括“〈INPUT”的行,并截取出该html行中从“〈INPUT”到其之后的第一个“〉”之间的内容,获取该内容中的width值、high值和value的长度;若该内容中的value的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阂值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
3.如权利要求1或2所述的一种基于混淆模式识别的垃圾邮件识别系统,其特征在于,步骤3)之前还包括:抽取所述html代码中包括“< TEXTAREA”的行,并截取出该html行中从“ < TEXTAREA”到其之后的第一个“TEXTAREA〉”之间的内容,获取该内容中的width值、high值和value的长度;若该内容中的value的长度大于width值乘以high值加上5,则该html行为一个错误行;若整个电子邮件的html代码中的错误行数大于预设的阂值,则该电子邮件被判定为垃圾邮件,将判定结果返回给上级系统,结束;若否,则继续往下执行。
4.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别系统,其特征在于,步骤3)之前,还包括:抽取所述正文的前η行,其中η为一个预设的自然数;若所述主题或该前η行中包括属于预先统计的回信字符库中的特征词,则当前电子邮件被判定为正常邮件,并将判定结果返回给上级子系统,结束;若否,则继续往下执行。
5.如权利要求1所述的一种基于混淆模式识别的垃圾邮件识别系统,其特征在于,所述特殊字符库包括中文特殊字符子库、日文特殊字符子库、韩文特殊字符子库、泰文特殊字符子库及其他国家的非单字节字符的特殊字符子库。
【文档编号】H04L29/06GK103944809SQ201410187595
【公开日】2014年7月23日 申请日期:2014年5月6日 优先权日:2014年5月6日
【发明者】郭锋, 李绍滋, 曹冬林 申请人:厦门大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1