一种信息处理的方法及电子设备的制造方法

文档序号:8395858阅读:543来源:国知局
一种信息处理的方法及电子设备的制造方法
【技术领域】
[0001] 本发明涉及电子技术领域,尤其涉及一种信息处理的方法及电子设备。
【背景技术】
[0002] 垃圾信息过滤是应用自然语言处理技术,对手机以及其他即时通讯软件接收到的 带有欺骗、色情、广告等内容的短信进行过滤。
[0003] 从信息内容的是否合法的角度来看,垃圾信息可分为非法垃圾信息和普通垃圾信 息。非法垃圾信息的类型包括诈骗、色情服务、发票等,这类垃圾信息为避免被关键词过滤 系统过滤,对信息中出现的关键词汇通常采用变体处理,如"发票"变体为"发\票\"。普 通垃圾信息的主要房产广告、运营商推送信息、商家促销活动信息等,这类垃圾信息一般不 包含变体。
[0004] 已有的垃圾信息过滤方法主要存在以下问题:
[0005] 通过垃圾信息中出现的关键词进行过滤,难以避免自然语言经常出现的组合;依 据文本的词汇语法特征对文本进行过滤,难以过滤掉不包含明显语法特征的垃圾信息;所 需数据资源规模大,难以直接部署到手机客户端,需要将信息上传至服务器进行过滤,这存 在泄露用户隐私风险。
[0006] 因此,迫切需要一种能提高垃圾信息过滤精度的方法,从而更好保护用户隐私,提 高垃圾信息过滤的准确性。

【发明内容】

[0007] 本申请实施例通过提供一种信息处理的方法及电子设备,消除了现有技术中垃圾 信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
[0008] 本申请实施例提供了一种信息处理方法,应用于一电子设备中,所述电子设备能 够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一 预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾 信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结 果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾 信息。
[0009] 可选的,所述通过第一预定规则判断所述信息是否为垃圾信息,包括:检测第一类 字符在所述信息中的种类和/或数量是否达到第一预设条件。
[0010] 可选的,所述将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹 配,判断匹配结果是否满足第二预定规则,具体包括:保留所述信息中的文字字符,去除所 述信息中的其它字符符号,获得信息文本;将所述信息文本与所述垃圾信息样本数据库中 的垃圾信息样本进行匹配;判断所述信息文本与所述垃圾信息样本相似值是否达到一预设 值。
[0011] 可选的,当所述信息为垃圾信息时,所述方法还包括:保留所述信息中的文字字 符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本添加到所述垃圾信息 样本数据库中。
[0012] 可选的,所述通过第三预定规则判断所述信息是否为垃圾信息,具体包括:对所述 信息进行语义分析,获得一分析结果;基于一预定义的垃圾短信语义文法规则,判断所述分 析结果是否与所述垃圾短信语义文法规则匹配。
[0013] 可选的,所述方法还包括:去除所述垃圾信息样本数据库中出现频率小于第二预 设值的词汇;去除所述词汇的子串词汇。
[0014] 可选的,所述电子设备还能够获得一合法词汇表,判断所述信息为垃圾信息后,所 述方法还包括:检测所述信息中是否包含有所述合法词汇表的字符;当所述信息包含所述 合法词汇表的字符,召回所述信息。
[0015] 本发明还提供了一种电子设备,能够获得一垃圾信息样本数据库,所述电子设备 包括:第一处理模块,用于当所述电子设备接收到一信息时,通过第一预定规则判断所述信 息是否为垃圾信息;第二处理模块,用于当通过所述第一预定规则判断所述信息不是垃圾 信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结 果是否满足第二预定规则;第三处理模块,用于当匹配不成功时,通过第三预定规则判断所 述"[目息是否为垃圾彳目息。
[0016] 可选的,所述第一处理模块具体用于:检测第一类字符在所述信息中的种类和/ 或数量是否达到第一预设条件。
[0017] 可选的,所述第二处理模块具体用于:保留所述信息中的文字字符,去除所述信息 中的其它字符符号,获得信息文本;将所述信息文本与所述垃圾信息样本数据库中的垃圾 信息样本进行匹配;判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
[0018] 可选的,所述电子设备还包括:第四处理模块,用于当所述信息为垃圾信息时,保 留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文 本添加到所述垃圾信息样本数据库中。
[0019] 可选的,所述第三处理模块具体用于:对所述信息进行语义分析,获得一分析结 果;基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义 文法规则匹配。
[0020] 可选的,所述电子设备还包括:第五处理模块,用于去除所述垃圾信息样本数据库 中出现频率小于第二预设值的词汇;去除所述词汇的子串词汇。
[0021] 可选的,所述电子设备还能够获得一合法词汇表,所述电子设备还包括:第六处理 模块,用于判断所述信息为垃圾信息后,检测所述信息中是否包含有所述合法词汇表的字 符;当所述信息包含所述合法词汇表的字符,召回所述信息。
[0022] 本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0023] 首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样本 数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。通 过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤精 度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
【附图说明】
[0024] 图1A-图1C为本发明一实施例中的信息处理方法的流程图;
[0025] 图2A-图2C为本发明一实施例中基于相似性的过滤方法的流程图;
[0026]图3A-图3C为本发明一实施例中根据预定义的垃圾短信语义文法规则,对短信文 本内容进行匹配的方法流程图;
[0027]图4为本发明一实施例中的电子设备的功能框图。
【具体实施方式】
[0028]本申请实施例通过提供一种信息处理的方法及电子设备,消除了现有技术中垃圾 信息过滤精度有限的技术问题,实现了从语法和语义相结合角度对垃圾信息进行过滤,进 而提高了垃圾信息过滤准确性的技术效果。
[0029]本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:
[0030]本发明一实施例中提供一种信息处理的方法,应用于一电子设备中,所述电子设 备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过 第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是 垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹 配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为 垃圾信息。首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样 本数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。 通过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤 精度有限的技术问题,实现了从语法和语义相结合角度对垃圾信息进行过滤,进而提高了 垃圾信息过滤准确性的技术效果。
[0031]为了更好的理解上述技术方案,下面结合附图对本申请实施例技术方案的主要实 现原理、【具体实施方式】及其对应能够达到的有益效果进行详细的阐述。
[0032] 请参考图1A,本发明一实施例提供一种信息处理的方法,应用于一电子设备中,该 电子设备可以是笔记本电脑,平板电脑,手机等等。该电子设备能够获得一垃圾信息样本数 据库,当电
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1