一种拦截垃圾信息的方法和装置制造方法

文档序号:6506361阅读:145来源:国知局
一种拦截垃圾信息的方法和装置制造方法
【专利摘要】本发明公开了一种拦截垃圾信息的方法和装置,属于互联网通信领域。所述方法包括:接收待拦截的信息;将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符;将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。所述装置包括:接收模块、转换模块、第一确定模块和拦截模块。本发明不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。
【专利说明】一种拦截垃圾信息的方法和装置

【技术领域】
[0001]本发明涉及互联网通信领域,特别涉及一种拦截垃圾信息的方法和装置。

【背景技术】
[0002]随着互联网通信技术的快速发展,我们的生活当中出现了各种各类的垃圾信息,比如诈骗信息和非法广告等,并且好多用户因为该类垃圾信息而上当受骗,所以拦截该类垃圾信息是避免用户上当受骗的当务之急。
[0003]目前,拦截垃圾信息的方法具体为:技术人员向信息拦截系统输入垃圾信息样本,假如该垃圾信息样本为“中央电视台《非常6+1》:恭喜您被评选为非常6+1幸运观众,获得二等奖,奖品为三星笔记本Q40+48000元奖金,请登录www.cctv3yx.cn领取,验证码为:【1006】。客服:400-6162-066”。信息拦截系统提取该垃圾信息样本的样本特征包括“非常6+1”、“幸运观众”、“二等奖”和“奖品”,将提取的样本特征存储在特征库中。信息拦截系统接收待拦截的信息,并提取待拦截的信息中的特征包括“非常6+1”、“幸运观众”、“二等奖”和“礼品”,计算提取的特征与特征库中包括的每个样本特征之间的相似度,选择与提取的特征之间的相似度大于预设数值的样本特征包括“非常6+1”、“幸运观众”和“二等奖”,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。
[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005]由于特征库中存储的样本特征是根据每个样本信息中描述的文字提取出来的,当垃圾信息发布者发现该垃圾信息被拦截时,垃圾信息发布者会马上将该垃圾信息中的文字进行替换,快速地改变该垃圾信息的特征,使信息拦截系统无法识别并拦截该垃圾信息。


【发明内容】

[0006]为了解决现有技术的问题,本发明实施例提供了一种拦截垃圾信息的方法和装置。所述技术方案如下:
[0007]—方面,提供了一种拦截垃圾信息的方法,所述方法包括:
[0008]接收待拦截的信息;
[0009]将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符;
[0010]将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;
[0011]如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
[0012]另一方面,提供了一种拦截垃圾信息的装置,所述装置包括:
[0013]接收模块,用于接收待拦截的信息;
[0014]转换模块,用于将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符;
[0015]第一确定模块,用于将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;
[0016]拦截模块,用于如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
[0017]在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信肩、O

【专利附图】

【附图说明】
[0018]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本发明实施例一提供的一种拦截垃圾信息的方法流程图;
[0020]图2是本发明实施例二提供的一种拦截垃圾信息的方法流程图;
[0021]图3是本发明实施例三提供的一种拦截垃圾信息的装置结构示意图。

【具体实施方式】
[0022]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0023]实施例一
[0024]本发明实施例提供了一种拦截垃圾信息的方法,参见图1,该方法包括:
[0025]步骤101:接收待拦截的信息;
[0026]步骤102:将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,预设格式的英文字母为单字节的小写英文字母,预设格式的数字字符为单字节的阿拉伯数字字符;
[0027]步骤103:将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹;
[0028]步骤104:如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。
[0029]其中,将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,包括:
[0030]获取待拦截的信息中的非预设格式的英文字母和数字字符;
[0031]根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
[0032]进一步地,获取待拦截的信息中的非预设格式的英文字母和数字字符,包括:
[0033]获取待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;
[0034]获取待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
[0035]其中,将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹,包括:
[0036]提取转换后的待拦截的信息中的英文字母和数字字符;
[0037]将提取的英文字母和数字字符组成一个字符序列,并将该字符序列确定为待拦截的信息的特征指纹。
[0038]其中,如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息之前,还包括:
[0039]如果样本特征指纹库中存在与待拦截的信息的特征指纹相同的字符串或者存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
[0040]进一步地,该方法还包括:
[0041]接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
[0042]进一步地,该方法还包括:
[0043]接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
[0044]在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信肩、O
[0045]实施例二
[0046]本发明实施例提供了一种拦截垃圾信息的方法,参见图2,该方法包括:
[0047]步骤201:业务系统接收待拦截的信息,并将待拦截的信息发送给信息拦截系统;
[0048]具体地,业务系统接收待拦截的信息,通过拦截接口将待拦截的信息发送给信息拦截系统。
[0049]其中,业务系统发送给信息拦截系统的待拦截的信息都是统一编码的,例如,将待拦截的信息都统一用GBK进行编码。
[0050]步骤202:信息拦截系统接收待拦截的信息,获取该待拦截的信息中的非预设格式的英文字母和数字字符;
[0051]具体地,信息拦截系统通过拦截接口接收待拦截的信息,获取该待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母,以及获取该待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
[0052]步骤203:信息拦截系统根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,预设格式的英文字母为单字节的小写英文字母,预设格式的数字字符为单字节的阿拉伯数字字符;
[0053]具体地,信息拦截系统根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中以形近字表示的字母转换为单字节的小写英文字母,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以多字节表示的字母转换为单字节的小写英文字母,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的大写的英文字母转换为单字节的小写英文字母;以及根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以形近字表示的数字字符转换为单字节的阿拉伯数字字符,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以汉字表示的数字字符转换为单字节的阿拉伯数字字符,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的以多字节表示的数字字符转换为单字节的阿拉伯数字字符。
[0054]其中,当垃圾信息的发布者发现经过多次对垃圾信息进行文字描述后其发布的信息还是被拦截后,该垃圾信息发布者可能会将待拦截的信息中的联系方式进行伪装,即将联系方式转换为非预设格式的字符,例如,将联系方式转换为火星文。信息拦截系统将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,如此,可以精确地拦截垃圾信息,不至于字符的改变而漏拦截垃圾信息。
[0055]例如,待拦截的信息为“中央电视台《非常6+1》:恭喜您被评选为非常6+1幸运观众,获得二等奖,奖品为三星笔记本Q40+48000元奖金,请登录www.cctv3yx.cn领取,验证码为:【1006】。客服:400-6162-066”,根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将该待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符之后,该待拦截的信息变为“中央电视台《非常6+1》:恭喜您被评选为非常6+1幸运观众,获得2等奖,奖品为3星笔记本q40+48000元奖金,请登录www.cctv3yx.cn 领取,验证码为:【1006】。客服:400-6162_066”。
[0056]步骤204:信息拦截系统将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹;
[0057]具体地,信息拦截系统提取转换后的待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符组成一个字符序列,将该字符序列确定为待拦截的信息的特征指纹。
[0058]其中,将提取的英文字母和数字字符组成一个字符序列具体操作可以为:从该待拦截的信息的第一个字符开始,逐个字符的进行过滤,保留该待拦截的信息中的单字节的英文字母和数字字符,将保留下的单字节的英文字母和数字字符依次进行串接,组成字符序列。
[0059]例如,信息拦截系统提取的该待拦截的信息中的英文字母和数字字符组成的字符序列为:616123q4048000wwwcctv3yxcn 10064006162066,将该字符序列确定为待拦截的信息的特征指纹。
[0060]步骤205:信息拦截系统根据样本特征指纹库和待拦截的信息的特征指纹,确定样本特征指纹库中是否存在待拦截的信息的特征指纹;
[0061]具体地,信息拦截系统将样本特征指纹库中的样本特征指纹和待拦截的信息的特征指纹进行比较,如果样本特征指纹库中存在与待拦截的信息的特征指纹相同的字符串或者存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
[0062]其中,可以事先根据样本特征指纹库中的样本特征指纹建立Trie树,通过遍历一遍待拦截的信息的特征指纹,确定样本特征指纹库中是否存在待拦截的信息的特征指纹,如此通过Trie树比较样本特征指纹库中的样本特征指纹和待拦截的信息的特征指纹,可以提高比较的效率。
[0063]其中,Trie树是现有技术,在此不再赘述。
[0064]进一步地,如果样本特征指纹库中不存在与待拦截的信息的特征指纹相同的字符串或者不存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中不存在待拦截的信息的特征指纹。
[0065]例如,样本特征指纹库中的样本特征指纹包括“wwwcctv3yxcn”、“httppthqxzcn”、“098868229112”和“4006162066”,当从待拦截的信息的特征指纹的第一个字符开始遍历待拦截的信息的特征指纹“616123q4048000wwwcctv3yxcnl0064006162066”时,确定出样本特征指纹库中存在待拦截的信息的子串“wwwcctv3yxcn”时,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
[0066]步骤206:如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则信息拦截系统将待拦截的信息确定为垃圾信息并向业务系统发送拦截标识;
[0067]具体地,如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则信息拦截系统将待拦截的信息确定为垃圾信息并通过拦截接口向业务系统发送拦截标识。
[0068]进一步地,如果样本特征指纹库中不存在待拦截的信息的特征指纹,则确定该待拦截的信息不是垃圾信息,则向业务系统发送不拦截的标识。
[0069]步骤207:业务系统接收该拦截标识,根据该拦截标识拦截该垃圾信息。
[0070]具体地,业务系统通过拦截接口接收该拦截标识,并根据该拦截标识拦截该垃圾信息。
[0071]进一步地,当管理员发现存在漏拦截的垃圾信息时,如果该漏拦截的垃圾信息中存在非预设格式的字符和预设格式的字符之间的对应关系没有的记录,则该管理员向信息拦截系统输入该漏拦截的垃圾信息中的非预设格式的字符和其对应的预设格式的字符,信息拦截系统将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
[0072]其中,当管理员从其他地方找到一个垃圾信息时,如果该垃圾信息中存在非预设格式的字符和预设格式的字符之间的对应关系没有的记录,则该管理员向信息拦截系统输入该垃圾信息中的非预设格式的字符和其对应的预设格式的字符,信息拦截系统将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
[0073]其中,当信息拦截系统将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中之后,管理员将该漏拦截的垃圾信息和/或该管理员从其他地方找到的垃圾信息输入到信息拦截系统;信息拦截系统接收该垃圾信息,根据非预设格式的字符和预设格式的字符之间的对应关系,将该垃圾信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,将该垃圾信息中的英文字母和数字字符作为该垃圾信息的特征指纹。管理员从该特征指纹中截取联系方式的字符序列,并将截取的字符序列作为样本特征指纹输入信息拦截系统;信息拦截系统接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库。
[0074]其中,业务系统还可以周期性的将其显示的信息发送给信息拦截系统,使信息拦截系统巡查接收的信息中是否存在漏拦截的垃圾信息,如果存在,则使该业务系统删除该垃圾信息。
[0075]在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信肩、O
[0076]实施例三
[0077]参见图3,本发明实施例提供了一种拦截垃圾信息的装置,该装置包括:
[0078]接收模块301,用于接收待拦截的信息;
[0079]转换模块302,用于将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,预设格式的英文字母为单字节的小写英文字母,预设格式的数字字符为单字节的阿拉伯数字字符;
[0080]第一确定模块303,用于将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹;
[0081]拦截模块304,用于如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。
[0082]其中,转换模块302包括:
[0083]获取单元,用于获取待拦截的信息中的非预设格式的英文字母和数字字符;
[0084]转换单元,用于根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
[0085]进一步地,获取单元包括:
[0086]第一获取子单元,用于获取待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;
[0087]第二获取子单元,用于获取待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
[0088]其中,第一确定模块303包括:
[0089]提取单元,用于提取转换后的待拦截的信息中的英文字母和数字字符;
[0090]确定单元,用于将提取的英文字母和数字字符组成一个字符序列,并将该字符序列确定为待拦截的信息的特征指纹。
[0091]进一步地,该装置还包括:
[0092]第二确定模块,用于如果样本特征指纹库中存在与待拦截的信息的特征指纹相同的字符串或者存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中存在待拦截的信息的特征指纹。
[0093]进一步地,该装置还包括:
[0094]第一存储模块,用于接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
[0095]进一步地,该装置还包括:
[0096]第二存储模块,用于接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
[0097]在本发明实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信肩、O
[0098]需要说明的是:上述实施例提供的拦截垃圾信息的装置在拦截垃圾信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的拦截垃圾信息的装置与拦截垃圾信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0099]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0100]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0101]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种拦截垃圾信息的方法,其特征在于,所述方法包括: 接收待拦截的信息; 将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符; 将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹; 如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,包括: 获取所述待拦截的信息中的非预设格式的英文字母和数字字符; 根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
3.如权利要求2所述的方法,其特征在于,所述获取所述待拦截的信息中的非预设格式的英文字母和数字字符,包括: 获取所述待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母; 获取所述待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
4.如权利要求1所述的方法,其特征在于,所述将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹,包括: 提取转换后的所述待拦截的信息中的英文字母和数字字符; 将提取的英文字母和数字字符组成一个字符序列,并将所述字符序列确定为所述待拦截的信息的特征指纹。
5.如权利要求1所述的方法,其特征在于,所述如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息之前,还包括: 如果所述样本特征指纹库中存在与所述待拦截的信息的特征指纹相同的字符串或者存在所述待拦截的信息的特征指纹的子串,则确定所述样本特征指纹库中存在所述待拦截的信息的特征指纹。
6.如权利要求1所述的方法,其特征在于,所述方法还包括: 接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
7.如权利要求1所述的方法,其特征在于,所述方法还包括: 接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
8.一种拦截垃圾信息的装置,其特征在于,所述装置包括: 接收模块,用于接收待拦截的信息; 转换模块,用于将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符; 第一确定模块,用于将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹; 拦截模块,用于如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。
9.根据权利要求8所述的装置,其特征在于,所述转换模块包括: 获取单元,用于获取所述待拦截的信息中的非预设格式的英文字母和数字字符; 转换单元,用于根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。
10.如权利要求9所述的装置,其特征在于,所述获取单元包括: 第一获取子单元,用于获取所述待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母; 第二获取子单元,用于获取所述待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。
11.如权利要求8所述的装置,其特征在于,所述第一确定模块包括: 提取单元,用于提取转换后的所述待拦截的信息中的英文字母和数字字符; 确定单元,用于将提取的英文字母和数字字符组成一个字符序列,并将所述字符序列确定为所述待拦截的信息的特征指纹。
12.如权利要求8所述的装置,其特征在于,所述装置还包括: 第二确定模块,用于如果所述样本特征指纹库中存在与所述待拦截的信息的特征指纹相同的字符串或者存在所述待拦截的信息的特征指纹的子串,则确定所述样本特征指纹库中存在所述待拦截的信息的特征指纹。
13.如权利要求8所述的装置,其特征在于,所述装置还包括: 第一存储模块,用于接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。
14.如权利要求8所述的装置,其特征在于,所述装置还包括: 第二存储模块,用于接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。
【文档编号】G06F17/30GK104346337SQ201310313807
【公开日】2015年2月11日 申请日期:2013年7月24日 优先权日:2013年7月24日
【发明者】刘严 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1