一种垃圾短信的拦截方法及装置的制造方法

文档序号：9755387阅读：263来源：国知局

一种垃圾短信的拦截方法及装置的制造方法
【技术领域】
[0001] 本发明涉及移动通信领域中的短信业务，具体涉及一种垃圾短信的拦截方法及装置。
【背景技术】
[0002] 随着通讯业务的扩展，短信业务得到越来越广泛的应用。但是垃圾短信也伴随而起，大量不法的商家借助短信平台发送广告和诈骗信息。因此运营商一般借助垃圾短信拦截系统对垃圾短信进行拦截。现有的垃圾短信拦截系统是基于关键字规则进行拦截，即只要短信满足关键字规则，则将此短信拦截。而关键字都是由人力手工输入，送样就带来了两方面的问题：1)需要浪费大量的人力和物力去维护关键字规则，提高了人力成本；2)关键字规则设定后相对固定，而垃圾短信则是千变万化，发送者略微改动短信内容，就会造成原有的关键字规则失效。

【发明内容】

[0003] 本发明的目的在与提供一种垃圾短信的拦截方法及装置，用来自动拦截垃圾短信。
[0004] 为了达到上述目的，本发明提供了一种垃圾短信的拦截方法，包括：
[0005] 获取历史接收短信样本，所述短信样本包括垃圾短信和非垃圾短信，从所述历史接收短信样本中提取分词，每一所述历史接收短信样本形成一个包括多个分词的分词特征向量；
[0006] 计算所述分词特征向量中各分词属于垃圾短信的权重值，利用所述权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，形成备选的分词特征向量；
[0007] 对所述备选的分词特征向量通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信。
[0008] 其中，从所述历史接收短信样本中提取分词，形成包括多个分词的分词特征向量的步骤具体包括：
[0009] 在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本；
[0010] 使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词，每一历史接收短信样本对应形成为一个分词特征向量。
[0011] 其中，计算所述分词特征向量中各分词属于垃圾短信的权重值，利用所述权重值，获取历史垃圾短信样本中前N个最大权重值所对应的分词，得到备选的分词特征向量的步骤具体包括：
[0012] 运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值；
[0013] 根据获取到的每个分词的权重值，重新扫描所述垃圾短信样本的分词特征向量，对应得到所述垃圾短信样本的权重值的特征向量；
[0014] 对每个垃圾短信样本的权重值的特征向量，权重值按照从大到小顺序排列，筛选出最大的N个权重值，得到维度为N的权重值的特征向量；
[0015] 获取所述权重值对应的分词，组成所述垃圾短信样本备选的分词特征向量。
[0016] 其中，运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括：
[0017] 计算每个分词属于垃圾短信类的概率P (CO I Ti);
[0018] 计算每个分词属于非垃圾短信类的概率P (Cl I Ti);
[0019] 计算每个分词在所有垃圾短信样本中出现的概率P (Ti Ico);
[0020] 计算每个分词在所有非垃圾短信样本中出现的概率P (Ti Ici);
[0021] 计算垃圾短信样本占总样本的概率P(CO);
[0022] 计算非垃圾短信样本占总样本的概率P(Cl);
[0023] 根据W下公式计算每个分词属于垃圾短信的权重值：
[00巧]其中，对所述备选的分词特征向量，对所述备选的分词特征向量，通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信的步骤具体包括：
[0026] 将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类；
[0027] 将所有聚类后备选的分词特征向量按照字符顺序排序，对排序后的特征向量进行与或规则合并，直到没有出现新的可合并的特征向量，或者迭代次数达到设定的固定的次数；
[0028] 将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组，词组之间的分词用"或"的逻辑关系连接，形成拦截垃圾短信的规则；
[0029] 将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统，当判断接收到的短信满足所述拦截垃圾短信的规则时，则认为是垃圾短信，进行拦截。
[0030] 其中，将所有所述备选的分词特征向量中的分词按照相似语音和相似的字形进行聚类的步骤包括：
[0031] 将所有备选的分词特征向量中的分词按照相似的语音进行聚类，形成多类音近同源词组；
[0032] 对于每一类音近同源词组，取出现频度最高的分词做为对应音近同源词组的基础词，扫描所有的备选分词特征向量，将其中的音近同源词组对应的所有分词都替换为基础词；
[0033] 将所有备选的分词特征向量中的分词按照相似的字形进行聚类，形成形近同源词组；
[0034] 对于每一类形近同源词组，取出现频度最高的分词做为对应形近同源词组的基础词，扫描所有的备选分词特征向量，将其中的形近同源词组对应的所有分词都替换为基础词。
[0035] 本发明实施例还包括一种垃圾短信的拦截装置，包括：
[0036] 提取分词模块，用于获取历史接收短信样本，所述短信样本包括垃圾短信和非垃圾短信，从所述历史接收短信样本中提取分词，每一所述历史接收短信样本形成一个包括多个分词的分词特征向量；
[0037] 计算模块，用于计算所述分词特征向量中各分词属于垃圾短信的权重值，获取每一历史垃圾短信样本中前N个最大权重值所对应的分词，形成备选的分词特征向量；
[0038] 拦截模块，用于对所述备选的分词特征向量，通过形近聚类处理、音近聚类处理和合并压缩处理，获得拦截垃圾短信的规则来拦截垃圾短信。
[0039] 其中，所述提取分词模块包括：
[0040] 提取单元，用于在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本；
[0041] 分词单元，用于使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词，每一历史接收短信样本对应形成为一个分词特征向量。
[0042] 其中，所述计算模块包括：
[0043] 计算单元，用于运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值；
[0044] 扫描单元，用于根据获取到的每个分词的权重值，重新扫描所述垃圾短信样本的分词特征向量，对应得到所述垃圾短信样本的权重值的特征向量；
[0045] 筛选单元，用于对每个垃圾短信样本的权重值的特征向量，权重值按照从大到小顺序排列，筛选出最大的N个权重值，得到维度为N的权重值的特征向量；
[0046] 获取单元，用于获取所述权重值对应的分词，组成所述垃圾短信样本备选的分词特征向量。
[0047] 其中，所述计算单元包括：
[0048] 第一计算子单元，用于计算每个分词属于垃圾短信类的概率P (CO I Ti);
[0049] 第二计算子单元，用于计算每个分词属于非垃圾短信类的概率P (Cl I Ti);
[0050] 第H计算子单元，用于计算每个分词在所有垃圾短信样本中出现的概率 P(TiIco)；
[0051] 第四计算子单元，用于计算每个分词在所有非垃圾短信样本中出现的概率 P(TiIci)；
[0052] 第五计算子单元，用于计算垃圾短信样本占总样本的概率P(CO);
[0053] 第六计算子单元，用于计算非垃圾短信样

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：伏晓海;李学领;叶兵;孙立波;
技术所有人：中兴通讯股份有限公司;
我是此专利的发明人

上一篇：一种兼容参考号的长短信处理方法和系统的制作方法
上一篇：一种短信处理的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。