一种信息处理的方法及电子设备的制造方法_2

文档序号:8395858阅读:来源:国知局
子设备接收到一信息时,方法包括:
[0033]步骤101:通过第一预定规则判断信息是否为垃圾信息;
[0034]步骤102:当通过第一预定规则判断信息不是垃圾信息时,将信息与垃圾信息样 本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;
[0035]步骤103:当匹配不成功时,通过第三预定规则判断信息是否为垃圾信息。
[0036]其中,垃圾信息样本数据库可以是存储在电子设备的存储单元中,也可以是存储 在服务器上,当电子设备更新垃圾信息样本数据库或需要将信息与垃圾信息样本匹配时, 将垃圾信息样本数据库下载到电子设备中。电子设备接收到的信息可以是短信,此时,本发 明方法可以在手机中用于拦截垃圾短信;电子设备接收到的信息也可以是即时通讯软件接 收到的网络信息,例如QQ,微信等通信软件之间在进行通信的过程中,收到的信息。
[0037] 进一步,步骤101中,通过第一预定规则判断信息是否为垃圾信息,具体包括:检 测第一类字符在信息中的种类和/或数量是否达到第一预设条件。
[0038]在具体实施过程中,第一类字符可以是特殊字符,特殊字符包含但不限于以下内 容#"等,例如,"如需办理《国#地#》税#《票据》上网可验.价点 优惠联系电话:①③⑥⑥⑦⑨0 0⑤⑧⑧小王"的信息中的""是特殊字符。当 然,在实际运用中,上述例子中的变体字符"①"、"⑤"、"⑥"、"⑦"、"⑨"等也可以是特殊字 符。
[0039] 在实际运用中,第一类字符也可以是特殊词汇,特殊词汇可以是在信息原文中包 含特殊字符的词汇,例如"好!-贵州,地~~国-税等普通~税一票(机打,手写)_对外。 电;187866402018王小红",其中,"国税"在短信原文中包含特殊字符税票"在短信原 文中包含特殊字符"一"。当然,特殊词汇也可以是包含赌博、色情等敏感词汇,也可以是简 体信息中包含的繁体字。第一预设条件可以是第一类字符在信息中的种类和/或数量所需 要达到的一预设值,或者是第一类字符的种类和/或数量在信息中占有的比例所需要达到 的一预设值。
[0040] 以下通过几个具体的手机垃圾短信过滤的实施例来介绍本发明步骤101中的信 息处理方法,下面的实施例主要介绍了该信息处理的方法的可能实现过程。需要说明的是, 本发明中的实施例只用于解释本发明,而不能用于限制本发明。一切符合本发明思想的实 施例均在本发明的保护范围之内,本领域技术人员自然知道应该如何根据本发明的思想进 行变形。
[0041](一)识别短信中繁体内容,若存在,则判定为垃圾短信。
[0042] 在此实施例中,第一类字符是短信中包含的繁体字,第一预设条件是繁体字在短 信中的数量不为0。因此,步骤101在此实施例中即为:检测繁体字在短信中的数量是否大 于0。
[0043] 例如:"只要您有对方号'玛,便能帮您复*制对方S I M佧,轻松了解对方的通_ 话和讯_息内容,電=15989171212李",其中"電"是繁体字",直接判定为垃圾短信。当然, 此实施例在习惯使用繁体字的地区并不适用,例如台湾地区。较优的,可以设定为:在简体 短信中,若存在繁体内容,则判定为垃圾短信。
[0044] (二)识别短信中的变体字符若存在判定为垃圾短信。
[0045] 在此实施例中,第一类字符是短信中包含的变体字符,第一预设条件是变体字符 在短信中的数量不为0。因此,步骤101在此实施例中即为:检测变体字符在短信中的数量 是否大于0。
[0046] 例如:"如需办理《国#地#》税#《票据》上网可验.价点优惠联系电话: ①③⑥⑥⑦⑨0 0⑤⑧⑧小王",其中包含变体符号"①"、"⑤"、"⑥"、"⑦"、"⑨",直接判断 为垃圾短信。
[0047] (三)对短信中的词汇、符号进行量化,定下如下特征:
[0048]F1:特殊词汇的数量,在短信原文中包含特殊字符的词汇数量。
[0049] 例如:"好!-贵州,地~~国-税等普通~税一票(机打,手写)_对外。电; 187866402018王小红"分词得到"好!贵州,地国税等普通税票(机打,手写)对外。电; 187866402018 王小红"。
[0050]其中"国税"在短信原文中包含特殊字符税票"在短信原文中包含特殊字符 "一",故Fl=2。
[0051]F2:特殊字符的种类,即在短信原文中出现的特殊字符去掉重复后的数量。
[0052]例如上例中有特殊字符"~"和故F2=2。
[0053]F3:特殊字符的数量,即在短信原文中出现的特殊字符去掉重复前的数量。
[0054] 例如上例中特殊字符"~"出现3次,出现5次,故F3=3+5=8。
[0055]F4:特殊字符比例,即去掉空格以后,特殊字符数量占全部字符数量的比例。
[0056] 例如"最新变牌感应仪,不须练习不限环境。出售最新扑克分析仪,桌上不需放东 西。牛牛$三公$金花$对子等庄闲通吃! 158748322212"中,特殊符号为"$",有3个, 比例为 〇? 0476,即F4=0. 0476。
[0057] 通过第一预定规则判断短信是否为垃圾短信在此实施例中可以为:
[0058] 若特殊词汇的数量F1,满足Fl>2,则是垃圾短信;
[0059] 若特殊字符的种类F2,满足F2>2,则是垃圾短信;
[0060] 若特殊字符的数量F3,满足F3>4,则是垃圾短信;
[0061] 若特殊符号的个数F3和特殊字符比例F4,满足0. 02〈F4〈0. 05,且F3>2,则是垃圾 短;
[0062] 若特殊符号的种类F2和特殊字符比例F4,满足F2=l,且F3>3,则是垃圾短信。
[0063] 当然,在此实施例中,FI、F2、F3和F4也可以是在满足其他设定的条件下,判断短 信为垃圾短信,对此本申请不做具体限定。
[0064] 当通过步骤101判断出短信不是垃圾短信时,执行步骤102,即当通过第一预定规 则判断信息不是垃圾信息时,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配, 判断匹配结果是否满足第二预定规则。
[0065] 其中,垃圾信息样本数据库中的垃圾信息样本是对信息进行如下处理获得的:首 先,检测第一类字符在信息中的种类和/或数量是否达到第一预设条件,具体实施过程如 前述步骤101;其次,如果达到第一预设条件,则判定为垃圾信息;最后,保留信息中的文字 字符,去除信息中的其它字符符号,获得信息文本,将信息文本作为垃圾信息样本。
[0066] 进一步,请参考图1B,步骤102包括以下步骤:
[0067] 步骤1021:保留信息中的文字字符,去除信息中的其它字符符号,获得信息文本。
[0068] 在具体实施过程中,去除信息中的其他字符符号,包括过滤掉信息中的网址、电话 号码、QQ号码、电子邮件地址以及其他特殊字符。步骤1021中,去除信息中的其它字符符 号,其目的是防止非文字字符干扰相似性计算。在获得纯文字字符信息文本后,执行步骤 1022。
[0069] 步骤1022 :将信息文本与垃圾信息样本数据库中的垃圾信息样本进行匹配;
[0070] 在具体实施过程中,可以通过n-gram算法将信息文本和垃圾信息样本拆分成字 符块的两个集合,再把这两个集合进行匹配。这时,匹配可以是通过统计两个集合中相同字 符块的数量,来计算两个集合的相似值。当然,在实际运用中,也可以是通过其它算法拆分 信息文本和垃圾信息样本,匹配也可以是直接统计信息文本和垃圾信息样本相同的文字在 信息文本中所占的比例。将信息文本与垃圾信息样本数据库中的垃圾信息样本进行匹配, 获得相似值后,执行步骤1023。
[0071] 步骤1023:判断信息文本与垃圾信息样本相似值是否达到一预设值。
[0072] 在具体实施过程中,预设值可以是100%,表示只有当信息文本与垃圾信息样本完 全相同时,判定为垃圾信息;预设值也可
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1