一种信息处理的方法及电子设备的制造方法_3

文档序号:8395858阅读:来源:国知局
以设置为60%,表示只有当信息文本与垃圾信息样 本的相似度达到60%以上时,才判定为垃圾信息。当然,在实际运用中,当将信息文本与垃 圾信息样本数据库中的垃圾信息样本进行匹配为统计信息文本和垃圾信息样本相同的文 字在信息文本中所占的比例时,预设值设置为60%表示,只有在信息文本中与垃圾信息样 本相同的文字所占的比例,超过60%以上时,才判定为垃圾信息。
[0073] 以下通过一个具体的手机垃圾短信过滤的实施例来介绍本发明步骤102中的信 息处理方法,下面的实施例主要介绍了该信息处理的方法的可能实现过程。需要说明的是, 本发明中的实施例只用于解释本发明,而不能用于限制本发明。一切符合本发明思想的实 施例均在本发明的保护范围之内,本领域技术人员自然知道应该如何根据本发明的思想进 行变形。
[0074] (四)根据新短信与垃圾短信样本的相似程度判定新短信是否为垃圾短信。
[0075] 在此实施例中使用了如下符号,定义如下:
[0076] (1)SB(;表示垃圾短信样本与新短信集合;
[0077] ⑵MSGi表示SMse中新短信的元素,MSGj表示Sg中垃圾短信样本的元素, MSAGSMSG,MSGjGSMSG,1 彡i彡 |SBG|,1 彡j彡 |SBG|;
[0078] (3)GRAMi为MSGi的n-gram表示,GRAM」为MSG」的n-gram表示;
[0079] (4)SSBG表示垃圾短信样本集合。
[0080] 请参考图2A,基于相似性的过滤方法包含如下步骤:
[0081] 步骤201:过滤掉新短信中的网址、电话、QQ、电子邮件以及其他特殊字符,获得新 短信文本;
[0082] 步骤202:确定新短信文本与垃圾短信样本之间的n-gram相似性计算方法;
[0083] 步骤203:根据新短信与垃圾短信样本的相似性判定新短信为垃圾短信。
[0084] 进一步,请参考图2B,步骤202包含如下子步骤:
[0085] 步骤2021:将文本内容添加虚拟开始标志" ~ "和结束标志"$"。
[0086] 例如:"请速回电"添加虚拟开始标志和结束标志得到" ~请速回电$"。
[0087] 步骤2022:将步骤2021得到的内容进行n-gram分解,在本实施例中n=2。
[0088] 例如:" '请速回电$ "进行2-gram分解后得到集合请,请速,速回,回电, 电$}。
[0089] 步骤2023:计算短信内容的n-gram相似性,令短信MSGi的2-gram分解后得到的 集合为GRAMp短信MSG」的2-gram分解后得到的集合为GRAM」,则MSGi和MSG」的相似值定 义为:
[0090]
【主权项】
1. 一种信息处理的方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样 本数据库,当所述电子设备接收到一信息时,所述方法包括: 通过第一预定规则判断所述信息是否为垃圾信息; 当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息 样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则; 当匹配不成功时,通过第H预定规则判断所述信息是否为垃圾信息。
2. 如权利要求1所述的方法,其特征在于,所述通过第一预定规则判断所述信息是否 为垃圾信息,包括: 检测第一类字符在所述信息中的种类和/或数量是否达到第一预设条件。
3.如权利要求1所述的方法,其特征在于,所述将所述信息与所述垃圾信息样本数据 库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则,具体包括: 保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本; 将所述信息文本与所述垃圾信息样本数据库中的垃圾信息样本进行匹配; 判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
4.如权利要求1所述的方法,其特征在于,当所述信息为垃圾信息时,所述方法还包 括: 保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本; 将所述信息文本添加到所述垃圾信息样本数据库中。
5.如权利要求1所述的方法,其特征在于,所述通过第H预定规则判断所述信息是否 为垃圾信息,具体包括: 对所述信息进行语义分析,获得一分析结果; 基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义 文法规则匹配。
6. 如权利要求1所述的方法,其特征在于,所述方法还包括: 去除所述垃圾信息样本数据库中出现频率小于第二预设值的词汇; 去除所述词汇的子串词汇。
7.如权利要求1所述的方法,其特征在于,所述电子设备还能够获得一合法词汇表,判 断所述信息为垃圾信息后,所述方法还包括: 检测所述信息中是否包含有所述合法词汇表的字符; 当所述信息包含所述合法词汇表的字符,召回所述信息。
8. -种电子设备,能够获得一垃圾信息样本数据库,包括: 第一处理模块,用于当所述电子设备接收到一信息时,通过第一预定规则判断所述信 息是否为垃圾信息; 第二处理模块,用于当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述 信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二 预定规则; 第H处理模块,用于当匹配不成功时,通过第H预定规则判断所述信息是否为垃圾信 息。
9.如权利要求8所述的电子设备,其特征在于,所述第一处理模块具体用于: 检测第一类字符在所述信息中的种类和/或数量是否达到第一预设条件。
10. 如权利要求8所述的电子设备,其特征在于,所述第二处理模块具体用于: 保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本; 将所述信息文本与所述垃圾信息样本数据库中的垃圾信息样本进行匹配; 判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
11. 如权利要求8所述的电子设备,其特征在于,所述电子设备还包括: 第四处理模块,用于当所述信息为垃圾信息时,保留所述信息中的文字字符,去除所述 信息中的其它字符符号,获得信息文本; 将所述信息文本添加到所述垃圾信息样本数据库中。
12. 如权利要求8所述的电子设备,其特征在于,所述第H处理模块具体用于: 对所述信息进行语义分析,获得一分析结果; 基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义 文法规则匹配。
13. 如权利要求8所述的电子设备,其特征在于,所述电子设备还包括: 第五处理模块,用于去除所述垃圾信息样本数据库中出现频率小于第二预设值的词 汇;去除所述词汇的子串词汇。
14. 如权利要求8所述的电子设备,其特征在于,所述电子设备还能够获得一合法词汇 表,所述电子设备还包括: 第六处理模块,用于判断所述信息为垃圾信息后,检测所述信息中是否包含有所述合 法词汇表的字符;当所述信息包含所述合法词汇表的字符,召回所述信息。
【专利摘要】本发明公开了一种信息处理方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。通过该方法,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104714938
【申请号】CN201310683961
【发明人】吴昱明, 周丹, 王石, 曹存根, 贾炜
【申请人】联想(北京)有限公司, 中国科学院计算技术研究所
【公开日】2015年6月17日
【申请日】2013年12月12日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1