一种确定可疑垃圾邮件范围的方法和系统的制作方法

文档序号:7919929阅读:140来源:国知局
专利名称:一种确定可疑垃圾邮件范围的方法和系统的制作方法
技术领域
本发明涉及电子邮件技术领域,尤其涉及一种确定可疑垃圾邮件范围的 方法和系统。
背景技术
电子邮件已经成为人们沟通交流的重要通讯工具,随之而来,如何防止 垃圾邮件对广大电子邮件用户的干扰成为了电子邮件技术领域一个亟待解 决的问题。
目前,为了最大限度地防止垃圾邮件对电子邮件用户的干扰,出现了一 种采用全文搜索的方式过滤垃圾邮件的方法,下面参照图l对该方法进行介 绍。
图1是现有技术中采用全文搜索方式过滤垃圾邮件的方法流程图,如图
1所示,该方法包括
步骤IOI,搜索当前电子邮件的主题和全部正文,以固定的信息长度从 邮件全文中截取样本,作为该邮件的指紋信息,代表原始邮件。
步骤102,判断存储的邮件中是否有与该当前电子邮件的内容相似的电 子邮件,如果是,执行步骤103,否则,返回步骤IOI。
步骤103,判断与该当前电子邮件的内容相似的电子邮件数目是否已达 到预定义的垃圾阈值,若是,执行步骤104,否则返回步骤IOI。
步骤104,将该当前邮件以及与该当前邮件内容相似的电子邮件标注为 垃圾邮件,结束本流程。
可见,图1所示的方法以每一封电子邮件的主题和全部正文为搜索对 象,判断存储的电子邮件中是否有与该当前电子邮件的内容相似的电子邮
件,然后根据内容相似的电子邮件数目来过滤垃圾邮件。这种方法需要对每 一封邮件都进行全文搜索处理,数据处理量庞大,判断邮件是否为垃圾邮件 的效率较低。

发明内容
有鉴于此,本发明的目的在于提供一种确定可疑垃圾邮件范围的方法和 系统,以预先确定可疑垃圾邮件的范围,从而提高判断邮件是否为垃圾邮件的 效率。
为达到上述目的,本发明的技术方案具体是这样实现的 一种确定可疑垃圾邮件范围的方法,该方法包括
从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾 邮件特征;
统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃 圾邮件特征中的重复次数,将按照重复次数由多到少排在前第二预定数目位的 待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征;
将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件。
一种确定可疑垃圾邮件范围的系统,该系统包括待确定可疑垃圾邮件特征 截取装置、统计装置和可疑垃圾邮件确定装置;
所述待确定可疑垃圾邮件特征截取装置,用于从每个已接收的电子邮件中 截取第一预定数目个字符作为待确定可疑垃圾邮件特征,将截取到的待确定可 疑垃圾邮件特征发给统计装置;
所述统计装置,用于接收待确定可疑垃圾邮件特征,统计接收的每个待确
按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征发给 所述可疑垃圾邮件确定装置;
所述可疑垃圾邮件确定装置,用于将接收的待确定可疑垃圾邮件特征确定 为可疑垃圾邮件的特征,将具有所迷特征的邮件作为可疑垃圾邮件。
可见,由于本发明中,通过从每个已接收的电子邮件中截取第一预定数目 个字符作为待确定可疑垃圾邮件特征,统计截取到的每个待确定可疑垃圾邮件 特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数,将按照重复次数
由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮 件的特征,将具有所述特征的邮件作为可疑垃圾邮件,可以在判断邮件是否是 垃圾邮件之前,预先确定出可疑垃圾邮件的范围,后续只需判断可疑垃圾邮 件是否为垃圾邮件即可,而不必对每一封邮件均进行判断,提高了判断邮件 是否为垃圾邮件的效率。


图1是现有技术中采用全文搜索方式过滤垃圾邮件的方法流程图; 图2是本发明实施例中确定可疑垃圾邮件范围的方法流程图; 图3是确定可疑垃圾邮件范围的系统的第一实施例结构图; 图4是确定可疑垃圾邮件范围的系统的第二实施例结构图; 图5是确定可疑垃圾邮件范围的系统的第三实施例结构图。
具体实施例方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举 实施例,对本发明进一步详细说明。
图2是本发明实施例中确定可疑垃圾邮件范围的方法流程图,如图2所 示,该方法包括
步骤201,从每个已接收的电子邮件中截取待确定可疑垃圾邮件特征。 本步骤中,在电子邮件的主题与全部正文的字符数总和大于第一预定数目 时,从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符 作为待确定可疑垃圾邮件特征,在邮件的主题与全部正文的字符数总和少于所 述第一预定数目时,截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件 特征。所述的全部正文不包含主题。这里的待确定可疑垃圾邮件特征实际上
就是从邮件中截取的字符串。
所述全部正文的固定位置是指正文的某一部分,例如可以是正文的起始 处,也可以是正文的其他部分,例如,可以是正文的中部或者尾部。
例如,如果第一封电子邮件的主题有IO个字符,全部正文有100个字
符,所述固定位置是指所述全部正文的起始处,第二封电子邮件的主题有
12个字符,全部正文有18个字符,而所述第一预定数目为60个,那么, 从第一封邮件中截取的待确定可疑垃圾邮件特征就是第一封电子邮件的主 题的10个字符和从第 一封电子邮件的正文起始处开始的50个字符顺次组成 的字符串,从第二封电子邮件中截取的待确定可疑垃圾邮件特征就是所述第 二封电子邮件的全部字符顺次组成的字符串。
由于本步骤中,对于字符数大于第一预定数目的电子邮件,只对所述电 子邮件的主题和部分正文进行处理,而非对所述电子邮件的全部正文进行处 理,因此,需要处理的信息量较小,可以提高对每封电子邮件进行处理的速 度。
另外,通常垃圾邮件中的大量垃圾信息都出现在邮件的主题和正文的起 始处,例如出现在电子邮件的首段,因此,当所述固定位置是正文的起始处 时,还可以在减小需要处理的信息量的同时,避免对垃圾信息的漏检。当然, 如果邮件中的大量垃圾信息出现的位置靠后,例如出现在邮件的中部或者尾
对垃圾信息的漏检。其中,邮件的垃圾信息通常出现在邮件的哪些位置上可
统计信息而定,然后在按照图2所示方法设计确定可疑垃圾邮件范围的程序 或者装置时,将所述固定位置具体设置为邮件的起始处、中部或者尾部,则 后续所述程序或装置在确定可疑垃圾邮件范围时,只需对电子邮件的主题和 该固定位置处的正文进行处理即可,而无需搜索电子邮件的全文,对该全文 进行处理。通过统计已经判断出的垃圾邮件中的垃圾信息出现在邮件各个位 置的概率,可以得到所述统计信息。
步骤202,统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有 待确定可疑垃圾邮件特征中的重复次数。
本步骤中,统计所述重复次数的方法可以为
方法一,统计每个待确定可疑垃圾邮件特征在与该待确定可疑垃圾邮件特 征长度相同的所有待确定可疑垃圾邮件特征中的重复次数,将该重复次数作为 该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的 重复次数
方法二,统计每个待确定可疑垃圾邮件特征在长度大于或者等于该待确定 可疑垃圾邮件特征长度的所有待确定可疑垃圾邮件特征中的重复次数,将该重 复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮 件特征中的重复次数。具体地,可以搜索长度大于或者等于被统计的待确定可 疑垃圾邮件特征长度的待确定可疑垃圾邮件特征的各个字符中,是否按照被统 计的待确定可疑垃圾邮件特征中各个字符的出现顺序,出现了被统计的待确定 可疑垃圾邮件特征的各个字符,若是,则将重复次数加1。
例如,当前截取的待确定可疑垃圾邮件特征有"123456" 、"12345"、 "12345" "13589"和"1~2~3~4~5",按照方法一,待确定可疑垃圾邮件 特征"12345"的重复次数为2,按照方法二,待确定可疑垃圾邮件特征"12345" 的重复次^t为4。
当按照方法二统计所述重复次数时,可以去除垃圾邮件中干扰字的干 扰,例如,去除字符" ,,的干扰,避免由于干扰字造成的漏检可疑垃圾邮件。
步骤203,将按照重复次数由多到少排在前第二预定数目位的待确定可疑 垃圾邮件特征确定为可疑垃圾邮件的特征。其中,第二预定数目是预先设定 的自然数。
本步骤中,可以按照重复次数对各个字符串进行排序,例如,可以按照 重复次数对字符串进行降序排列或升序排列,然后将排在最前面第二预定数 目位或最后面第二预定数目位的字符串确定为可疑垃圾邮件的特征。
例如,按照字符串的重复次数从高到低的顺序对字符串进行排序(即P务序 排列),并列出出现相应字符串的邮件列表,以供后续确定可疑垃圾邮件使用,
具体请见表一,表一中的EML表示邮件。
字符串重复次数词出现在的邮件列表
A、 B20000EML1,EML2,EML3,…
C10000EML3, EML5,EML6,…
D1000…
表一
如果所述第二预定数目的取值为2,那么,字符串A、字符串B和字符 串C就是可疑垃圾邮件的特征。第二预定数目的具体取值也是在设计相应的 确定可疑垃圾邮件范围的程序时确定的。其中的"A" 、 "B"和"C,,是字 符串的代号,并非真正的字符串,例如,字符串A可以代表字符串"12345", 字符串B可以代表字符串"6789"。
步骤204,将具有所述特征的邮件作为可疑垃圾邮件,结束本流程。
当所述第二预定数目的取值为2时,按照表一,出现了字符串A或字 符串B或字符串C的邮件被确定为可疑垃圾邮件。
确定出可疑垃圾邮件的范围后,可以将确定出的可疑垃圾邮件范围交给 反垃圾系统,则后续可以只判断可疑垃圾邮件是否是垃圾邮件,而无需判断 接收的每一封邮件是否是垃圾邮件。其中,可以通过人工或者人工智能(AI) 来判断可疑垃圾邮件是否为垃圾邮件。实际应用中,可以在收到电子邮件后 立即按照图2的方法判断该邮件是否是可疑垃圾邮件,也可以先存储收到的 电子邮件,然后定时或定量判断当前存储的电子邮件是否是可疑垃圾邮件。
图2中的第一预定数目的具体取值是由本领域的技术人员预先选定的, 下面对所述第一预定数目的具体数值的选择方法进行介绍。
本领域的技术人员首先预设一个阈值范围,并为所述第一预定数目选择
一个具体的取值,所述阈值范围的含义是如果字符串的重复次数在该阈值 范围内,则该字符串是可疑垃圾邮件的特征,否则,该字符串不是可疑垃圾 邮件的特征。本领域技术人员可以依据经验来确定该阈值范围,例如,如果 通过一段时间的人工统计,发现垃圾电子邮件占所有电子邮件的比例在 10% 50%之间,那么当对10000封邮件圏定可#是垃圾邮件范围时,所迷阈值 范围可以确定为(1000, 5000)。
假设所述阈值范围是(1000, 5000),第一预定数目取值是5,按照图 2所示的方法统计出的某一字符串的重复次数大于等于5000,则说明第一预 定数目的取值设得过小,该重复次数大于等于5000的字符串不仅可能出现 在垃圾邮件中,还可能大量地出现在非垃圾邮件中,此后,设计人员增大第 一预定数目的取值,例如,取为7,再次按照图2所示的方法统计每一字符 串的重复次数,如果本次统计出的该重复次数在(1000, 5000)之间,则说 明第一预定数目的取值是合理的,因此,可以将第一预定数目取为7。
图2中,确定出可疑垃圾邮件的特征后,可以将可疑垃圾邮件的特征存入
只需判断可疑垃圾邮件是否为垃圾邮件即可。其中,特征库可以采用表一的形 式,即存储有可疑垃圾邮件的特征、每个特征在邮件中出现的重复次数以及出 现该特征的邮件列表,也可以采用其他的形式,例如只存储有特征和所述重复 次数。
所述的特征库占用的存储空间小,因此,在利用该特征库确定可疑垃圾邮 件范围时,可以减小反垃圾邮件系统占用的存储空间,这是因为,如果按照现 有技术对邮件的全文进行垃圾邮件处理,则需要存储所有需要处理的邮件的全 文,存储空间占用较大。
下面给出确定可疑垃圾邮件范围的系统的实施例。
图3是确定可疑垃圾邮件范围的系统的第一实施例结构图,如图3所示, 该系统包括待确定可疑垃圾邮件特征截取装置301、统计装置302和可疑垃圾 邮件确定装置303。
待确定可疑垃圾邮件特征截取装置301,用于从每个已接收的电子邮件中 截取第一预定数目个字符作为待确定可疑垃圾邮件特征,将截取到的待确定可 疑垃圾邮件特征发给统计装置302。
统计装置302,用于接收待确定可疑垃圾邮件特征,统计接收的每个待确 定可疑垃圾邮件特征在接收的所有待确定可疑垃圾邮件特征中的重复次数,将 按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征发给 可疑垃圾邮件确定装置303。
可疑垃圾邮件确定装置303,用于将接收的待确定可疑垃圾邮件特征确定 为可疑垃圾邮件的特征,将具有所述特征的邮件作为可疑垃圾邮件。
待确定可疑垃圾邮件特征截取装置301,还可以用于在电子邮件的主题与 全部正文的字符数总和大于第一预定数目时,从电子邮件的主题和全部正文的 固定位置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征,并在 邮件的主题与全部正文的字符数总和少于所述第一预定数目时,截取所述邮件 的主题和全部正文作为待确定可疑垃圾邮件特征,将截取到的待确定可疑垃圾 邮件特征发给统计装置302。
图4是确定可疑垃圾邮件范围的系统的第二实施例结构图,图4所示的系 统与图3所示的系统的区别仅在于
可疑垃圾邮件确定装置303包括特征库3031和可疑垃圾邮件确定模块 3032。
特征库3031,用于将接收的待确定可疑垃圾邮件特征作为可疑垃圾邮件特 征进行存储。
可疑垃圾邮件确定模块3032,用于接收电子邮件,判断接收的电子邮件是 否具有特征库3031中的特征,将具有所述特征的电子邮件确定为可疑垃圾邮 件。
图5是确定可疑垃圾邮件范围的系统的第三实施例结构图,图5所示的系 统与图3或图4所示的系统的区别仅在于图5所示的系统进一步包括垃圾邮 件确定装置504。
垃圾邮件确定装置504,用于判断可疑垃圾邮件确定装置303确定出的可 疑垃圾邮件是否是垃圾邮件。具体地,垃圾邮件确定装置可以采用人工智能 (AI)、贝叶斯类、神经网络类或支持向量机等方式来判断可疑垃圾邮件是否 是垃圾邮件。
可见,由于本发明实施例中,通过从每个已接收的电子邮件中截取第一预 定数目个字符作为待确定可疑垃圾邮件特征,统计截取到的每个待确定可疑垃 圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数,将按照重 复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑 垃圾邮件的特征,将具有所述特征的邮件作为可疑垃圾邮件,可以在判断邮件 是否是可疑垃圾邮件之前,预先确定出可疑垃圾邮件的范围,后续只需判断 可疑垃圾邮件是否为垃圾邮件即可,而不必对每一封邮件均进行判断,提高 了判断邮件是否为垃圾邮件的效率。
而且,在确定可疑垃圾邮件的范围时,只对电子邮件的主题和固定位置 处的正文进行处理,无须对电子邮件的全文都进行处理,减少了需要处理的 信息量,提高了判断邮件是否为垃圾邮件的效率。
另外,由于特征库占用的存储空间较小,与现有技术中判断邮件是否是 垃圾邮件时需要保存邮件的全文信息相比,能够节省存储空间。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护 范围,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等, 均应包含在本发明的保护范围之内。
权利要求
1、一种确定可疑垃圾邮件范围的方法,其特征在于,该方法包括从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征;统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数,将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征;将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件。
2、 如权利要求l所述的方法,其特征在于,所述从每个已接收的电子邮件 中截取预定数目个字符作为待确定可疑垃圾邮件特征包括在电子邮件的主题与全部正文的字符数总和大于第一预定数目时,从电子 邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符作为待确定 可疑垃圾邮件特征,并在邮件的主题与全部正文的字符数总和少于所述第一预 定数目时,截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件特征。
3、 如权利要求l所述的方法,其特征在于,所述统计截取到的每个待确定 可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数包 括统计每个待确定可疑垃圾邮件特征在与该待确定可疑垃圾邮件特征长度相 同的所有待确定可疑垃圾邮件特征中的重复次数,将该重复次数作为该待确定 可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的重复次 数。
4、 如权利要求l所述的方法,其特征在于,所述统计截取到的每个待确定 可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数包 括统计每个待确定可疑垃圾邮件特征在长度大于或者等于该待确定可疑垃圾 邮件特征长度的所有待确定可疑垃圾邮件特征中的重复次数,将该重复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中 的重复次数。
5、 如权利要求l所述的方法,其特征在于,统计每个待确定可疑垃圾邮件 特征在长度大于或者等于该待确定可疑垃圾邮件特征长度的所有待确定可疑垃 圾邮件特征中的重复次数包括搜索长度大于或者等于被统计的待确定可疑垃圾邮件特征长度的待确定可 疑垃圾邮件特征的各个字符中,是否按照被统计的待确定可疑垃圾邮件特征中 各个字符的出现顺序,出现了被统计的待确定可疑垃圾邮件特征的各个字符, 若是,则将重复次数加l。
6、 如权利要求1所述的方法,其特征在于,该方法进一步包括将被确定为可疑垃圾邮件特征的待确定可疑垃圾邮件 特征存储在可疑垃圾邮件特征库中;所述将具有所述特征的邮件作为可疑垃圾邮件为将具有所述特征库中的特征的可疑垃圾邮件待确定对象确定为可疑垃圾邮件。
7、 如权利要求1或6所述的方法,其特征在于,该方法进一步包括 判断可疑垃圾邮件是否为垃圾邮件。
8、 如权利要求2所述的方法,其特征在于,所述全部正文的固定位置为所 述全部正文的起始处或中部或尾部。
9、 一种确定可疑垃圾邮件范围的系统,其特征在于,该系统包括待确定可 疑垃圾邮件特征截取装置、统计装置和可疑垃圾邮件确定装置;所述待确定可疑垃圾邮件特征截取装置,用于从每个已接收的电子邮件中 截取第一预定数目个字符作为待确定可疑垃圾邮件特征,将截取到的待确定可 疑垃圾邮件特征发给统计装置;所述统计装置,用于接收待确定可疑垃圾邮件特征,统计接收的每个待确 定可疑垃圾邮件特征在接收的所有待确定可疑垃圾邮件特征中的重复次数,将 按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征发给 所述可疑垃圾邮件确定装置;所述可疑垃圾邮件确定装置,用于将接收的待确定可疑垃圾邮件特征确定 为可疑垃圾邮件的特征,将具有所述特征的邮件作为可疑垃圾邮件。
10、 如权利要求9所述的系统,其特征在于,所述待确定可疑垃圾邮件特征截取装置,用于在电子邮件的主题与全部正 文的字符数总和大于第一预定数目时,从电子邮件的主题和全部正文的固定位 置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征,并在邮件的 主题与全部正文的字符数总和少于所述第一预定数目时,截取所述邮件的主题 和全部正文作为待确定可疑垃圾邮件特征,将截取到的待确定可疑垃圾邮件特 征发给统计装置。
11、 如权利要求9所述的系统,其特征在于,所述可疑垃圾邮件确定装置 包括特征库和可疑垃圾邮件确定模块;所述特征库,用于将接收的待确定可疑垃圾邮件特征作为可疑垃圾邮件特征进行存4诸;所述可疑垃圾邮件确定模块,用于接收电子邮件,判断接收的电子邮件是 否具有所述特征库中的特征,将具有所述特征的电子邮件确定为可^^垃圾邮件。
12、 如权利要求9或10或11所述的系统,其特征在于,该系统进一步包 括垃圾邮件确定装置;所述垃圾邮件确定装置,用于判断所述可疑垃圾邮件确定装置确定出的可 疑垃圾邮件是否是垃圾邮件。
全文摘要
本发明实施例公开了一种确定可疑垃圾邮件范围的方法和系统。该方法包括从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征;统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数,将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征;将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件。应用本发明可以预先确定可疑垃圾邮件的范围,从而提高判断邮件是否为垃圾邮件的效率。
文档编号H04L12/58GK101360074SQ20081016711
公开日2009年2月4日 申请日期2008年9月27日 优先权日2008年9月27日
发明者晖 王, 陈志强 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1