一种垃圾短消息的识别方法及装置的制造方法

文档序号:9567642阅读:175来源:国知局
一种垃圾短消息的识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及通信技术领域,尤其涉及一种垃圾短消息的识别方法及装置。
【背景技术】
[0002] 垃圾短消息泛滥是困扰手机用户和移动通信运营商的一个重大问题。针对垃圾的 问题,目前运营商广泛使用的短消息识别手段主要可分为用户级别识别和单条短消息级别 识别两种方法,处理对象分别对应为单个的垃圾短消息发送用户和单条的垃圾短消息。
[0003]用户级别识别方法主要通过用户短消息发送频率、用户举报等单一手段获得垃圾 短消息。送种方法主观性很大,会造成大量合法短消息的误判和垃圾短消息的漏判。另外, 对于发送频率的设置也需要通过经验设置,通常也会造成W上类似的问题。
[0004] 单条短消息级别识别方法包括基于关键字的垃圾短消息识别和基于内容的垃圾 短消息识别等。关键字识别方法通过提取发送短消息中的关键字并与预设关键字是否匹配 来决定是否为垃圾短消息,词库的质量好坏直接决定了识别的准确性。基于内容的识别方 法通过已有的训练集合(包括正例和反例)训练出相应的垃圾短消息识别规则,然后应用 该规则来判定新的短消息是否为垃圾短消息。
[0005] 关键字识别方法需要不断地更新词库,但关键字选取难度很大,不能保证识别掉 所有垃圾关键字,仅通过关键字匹配很难判断出短消息的内容合法性,因此很容易造成误 判。另外,垃圾短消息通常使用拼音、套用错别字、同音字和在信息中间加许多符号等方法 绕过关键字列表。另外,随着识别的信息增加,识别的效率和及时性得不到保障。
[0006] 综上所述,现有技术方案中是根据短消息的内容或短消息发送的频率确定垃圾短 消息,导致垃圾短消息识别率较低的问题。

【发明内容】

[0007] 本发明实施例提供一种垃圾短消息的识别方法及装置,用W解决现有技术方案中 垃圾短消息识别率较低的问题。
[0008] 本发明实施例提供一种垃圾短消息的识别方法,包括:
[0009] 网络设备确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信 设备的历史通信记录W及所述第二通信设备的历史通信记录,确定出所述第一通信设备与 所述第二通信设备的通信交互属性值;
[0010] 根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短 消息的概率值;
[0011] 当所述概率值高于预设阔值时将所述短消息确定为垃圾短信,否则,将所述短消 息确定为非垃圾短信。
[0012] 较佳的,所述获取所述第一通信设备的历史通信记录W及所述第二通信设备的历 史通信记录之前,还包括:
[0013] 将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的 通信记录删除;
[0014] 将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的 通信记录删除。
[0015] 较佳的,所述通信交互属性值包括W下部分或全部:
[0016] 第一通信设备与第二通信设备之间短消息的回复值;
[0017] 第一通信设备作为发送方时的短消息通信对象的数量;
[0018] 第二通信设备作为接收方时的短消息通信对象的数量;
[0019] 第一通信设备与第二通信设备的共同通信对象的数量;
[0020] 第二通信设备作为接收方时的语音通信对象的数量;
[0021] 第一通信设备作为发送方时的语音通信对象的数量;
[0022] 第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备 所有的通信对象中所占的比例;
[0023] 第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
[0024] 第一通信设备到第二通信设备的最短路径;
[00巧]第一通信设备到第二通信设备M跳W上采用贪必算法获得的权重值,其中M为正 整数;
[0026] 第一通信设备与第二通信设备之间的相似度;
[0027] 第一通信设备与第二通信设备之间可达的概率。
[0028] 较佳的,所述由所述通信交互属性值获得的基准交互属性值,包括:
[0029] 将所述通信交互属性值中必化后的值除W所述通信记录交互属性值的标准方差 后获得标准交互属性值。
[0030] 较佳的,所述根据由所述通信交互属性值获得的基准交互属性值确定出所述短消 息为垃圾短消息的概率值,包括:
[0031] 将所述标准交互属性值通过由第一权重的决策树模型和第二权重的决策树模型 相加组成的预测模型确定出所述短消息为垃圾短消息的概率值。
[0032] 较佳的,通过逻辑回归模型确定所述第一权重和所述第二权重。
[0033] 本发明实施例提供一种垃圾短消息的识别装置,包括:
[0034] 属性值确定单元,用于确定第一通信设备发送给第二通信设备的短消息后,获取 所述第一通信设备的历史通信记录W及所述第二通信设备的历史通信记录,确定出所述第 一通信设备与所述第二通信设备的通信交互属性值;
[0035] 概率值确定单元,用于根据由所述通信交互属性值获得的基准交互属性值确定出 所述短消息为垃圾短消息的概率值;
[0036] 垃圾短消息确定单元,用于当所述概率值高于预设阔值时将所述短消息确定为垃 圾短信,否则,将所述短消息确定为非垃圾短信。
[0037] 较佳的,所述属性值确定单元还用于:
[0038] 将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的 通信记录删除;
[0039] 将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的 通信记录删除。
[0040] 较佳的,所述属性值确定单元确定的通信交互属性值包括W下部分或全部:
[0041] 第一通信设备与第二通信设备之间短消息的回复值;
[0042] 第一通信设备作为发送方时的短消息通信对象的数量;
[0043] 第二通信设备作为接收方时的短消息通信对象的数量;
[0044] 第一通信设备与第二通信设备的共同通信对象的数量;
[0045] 第二通信设备作为接收方时的语音通信对象的数量;
[0046] 第一通信设备作为发送方时的语音通信对象的数量;
[0047] 第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备 所有的通信对象中所占的比例;
[0048] 第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
[0049] 第一通信设备到第二通信设备的最短路径;
[0050] 第一通信设备到第二通信设备M跳W上采用贪必算法获得的权重值,其中M为正 整数;
[0051] 第一通信设备与第二通信设备之间的相似度;
[0052] 第一通信设备与第二通信设备之间存在可达的概率。
[0053] 较佳的,所述概率值确定单元用于:
[0054] 将所述通信交互属性值中必化后的值除W所述通信记录交互属性值的标准方差 后获得标准交互属性值。
[00巧]较佳的,所述垃圾短消息确定单元用于:
[0056] 将所述标准交互属性值通过由决策树模型计算出来的概率值,再通过逻辑回归模 型相加组成的预测模型确定出所述短消息为垃圾短消息的概率值。
[0057] 较佳的,通过逻辑回归模型确定所述第一权重和所述第二权重。
[0058] 根据本发明实施例提供的方法,当第一通信设备在发送短消息给第二通信设备 时,根据第一通信设备与第二通信设备在预定时间段内的通信记录,获得第一设备与第二 通信设备的通信交互属性值。根据通信交互属性值可W得到第一通信设备发送的短消息 为垃圾短消息的概率,将发送短消息的概率高于预设阔值的短消息确定为垃圾短消息。通 过对第一通信设备历史通信记录,对第一通信设备发送的短消息是否为垃圾短消息进行预 巧Ij,可W提高判断垃圾短消息的效率和准确率。
【附图说明】
[0059] 图1为本发明实施例提供的一种垃圾短消息的识别方法流程图;
[0060] 图2为本发明实施例提供的一种垃圾短消息的识别装置结构图。
【具体实施方式】
[0061] 本发明实施例中当第一通信设备在发送短消息给第二
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1