一种垃圾短信的拦截方法及装置的制造方法

文档序号:9755387阅读:263来源:国知局
一种垃圾短信的拦截方法及装置的制造方法
【技术领域】
[0001] 本发明涉及移动通信领域中的短信业务,具体涉及一种垃圾短信的拦截方法及装 置。
【背景技术】
[0002] 随着通讯业务的扩展,短信业务得到越来越广泛的应用。但是垃圾短信也伴随而 起,大量不法的商家借助短信平台发送广告和诈骗信息。因此运营商一般借助垃圾短信拦 截系统对垃圾短信进行拦截。现有的垃圾短信拦截系统是基于关键字规则进行拦截,即只 要短信满足关键字规则,则将此短信拦截。而关键字都是由人力手工输入,送样就带来了两 方面的问题:1)需要浪费大量的人力和物力去维护关键字规则,提高了人力成本;2)关键 字规则设定后相对固定,而垃圾短信则是千变万化,发送者略微改动短信内容,就会造成原 有的关键字规则失效。

【发明内容】

[0003] 本发明的目的在与提供一种垃圾短信的拦截方法及装置,用来自动拦截垃圾短 信。
[0004] 为了达到上述目的,本发明提供了一种垃圾短信的拦截方法,包括:
[0005] 获取历史接收短信样本,所述短信样本包括垃圾短信和非垃圾短信,从所述历史 接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征 向量;
[0006] 计算所述分词特征向量中各分词属于垃圾短信的权重值,利用所述权重值,获取 每一历史垃圾短信样本中前N个最大权重值所对应的分词,形成备选的分词特征向量;
[0007] 对所述备选的分词特征向量通过形近聚类处理、音近聚类处理和合并压缩处理, 获得拦截垃圾短信的规则来拦截垃圾短信。
[0008] 其中,从所述历史接收短信样本中提取分词,形成包括多个分词的分词特征向量 的步骤具体包括:
[0009] 在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
[0010] 使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词,每一历史接 收短信样本对应形成为一个分词特征向量。
[0011] 其中,计算所述分词特征向量中各分词属于垃圾短信的权重值,利用所述权重值, 获取历史垃圾短信样本中前N个最大权重值所对应的分词,得到备选的分词特征向量的步 骤具体包括:
[0012] 运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值;
[0013] 根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的分词特征向量, 对应得到所述垃圾短信样本的权重值的特征向量;
[0014] 对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小顺序排列,筛选 出最大的N个权重值,得到维度为N的权重值的特征向量;
[0015] 获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词特征向量。
[0016] 其中,运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括:
[0017] 计算每个分词属于垃圾短信类的概率P (CO I Ti);
[0018] 计算每个分词属于非垃圾短信类的概率P (Cl I Ti);
[0019] 计算每个分词在所有垃圾短信样本中出现的概率P (Ti Ico);
[0020] 计算每个分词在所有非垃圾短信样本中出现的概率P (Ti Ici);
[0021] 计算垃圾短信样本占总样本的概率P(CO);
[0022] 计算非垃圾短信样本占总样本的概率P(Cl);
[0023] 根据W下公式计算每个分词属于垃圾短信的权重值:
[00巧]其中,对所述备选的分词特征向量,对所述备选的分词特征向量,通过形近聚类处 理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信的步骤具体 包括:
[0026] 将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类;
[0027] 将所有聚类后备选的分词特征向量按照字符顺序排序,对排序后的特征向量进行 与或规则合并,直到没有出现新的可合并的特征向量,或者迭代次数达到设定的固定的次 数;
[0028] 将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词 组,词组之间的分词用"或"的逻辑关系连接,形成拦截垃圾短信的规则;
[0029] 将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统,当判断接收到的短信 满足所述拦截垃圾短信的规则时,则认为是垃圾短信,进行拦截。
[0030] 其中,将所有所述备选的分词特征向量中的分词按照相似语音和相似的字形进行 聚类的步骤包括:
[0031] 将所有备选的分词特征向量中的分词按照相似的语音进行聚类,形成多类音近同 源词组;
[0032] 对于每一类音近同源词组,取出现频度最高的分词做为对应音近同源词组的基础 词,扫描所有的备选分词特征向量,将其中的音近同源词组对应的所有分词都替换为基础 词;
[0033] 将所有备选的分词特征向量中的分词按照相似的字形进行聚类,形成形近同源词 组;
[0034] 对于每一类形近同源词组,取出现频度最高的分词做为对应形近同源词组的基础 词,扫描所有的备选分词特征向量,将其中的形近同源词组对应的所有分词都替换为基础 词。
[0035] 本发明实施例还包括一种垃圾短信的拦截装置,包括:
[0036] 提取分词模块,用于获取历史接收短信样本,所述短信样本包括垃圾短信和非垃 圾短信,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括 多个分词的分词特征向量;
[0037] 计算模块,用于计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每 一历史垃圾短信样本中前N个最大权重值所对应的分词,形成备选的分词特征向量;
[0038] 拦截模块,用于对所述备选的分词特征向量,通过形近聚类处理、音近聚类处理和 合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信。
[0039] 其中,所述提取分词模块包括:
[0040] 提取单元,用于在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
[0041] 分词单元,用于使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分 词,每一历史接收短信样本对应形成为一个分词特征向量。
[0042] 其中,所述计算模块包括:
[0043] 计算单元,用于运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的 权重值;
[0044] 扫描单元,用于根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的 分词特征向量,对应得到所述垃圾短信样本的权重值的特征向量;
[0045] 筛选单元,用于对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小 顺序排列,筛选出最大的N个权重值,得到维度为N的权重值的特征向量;
[0046] 获取单元,用于获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词 特征向量。
[0047] 其中,所述计算单元包括:
[0048] 第一计算子单元,用于计算每个分词属于垃圾短信类的概率P (CO I Ti);
[0049] 第二计算子单元,用于计算每个分词属于非垃圾短信类的概率P (Cl I Ti);
[0050] 第H计算子单元,用于计算每个分词在所有垃圾短信样本中出现的概率 P(TiIco);
[0051] 第四计算子单元,用于计算每个分词在所有非垃圾短信样本中出现的概率 P(TiIci);
[0052] 第五计算子单元,用于计算垃圾短信样本占总样本的概率P(CO);
[0053] 第六计算子单元,用于计算非垃圾短信样
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1