一种垃圾短消息的识别方法及装置的制造方法_2

文档序号:9567642阅读:来源:国知局
通信设备时,根据第一通信 设备与第二通信设备在预定时间段内的通信记录,获得第一设备与第二通信设备的通信交 互属性值。根据通信交互属性值可W得到第一通信设备发送的短消息为垃圾短消息的概 率,将发送短消息的概率高于预设阔值的短消息确定为垃圾短消息。
[0062] 下面结合说明书附图对本发明实施例做详细描述。
[0063] 如图I所示,本发明实施例提供的一种垃圾短消息的识别方法流程图,该方法包 括:
[0064] 步骤101 ;网络设备确定第一通信设备发送给第二通信设备的短消息后,获取所 述第一通信设备的历史通信记录W及所述第二通信设备的历史通信记录,确定出所述第一 通信设备与所述第二通信设备的通信交互属性值;
[0065] 步骤102 ;根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息 为垃圾短消息的概率值;
[0066] 步骤103 ;当所述概率值高于预设阔值时将所述短消息确定为垃圾短信,否则,将 所述短消息确定为非垃圾短信。
[0067] 本发明实施例中的第一通信设备和第一通信设备为移动电话W及具有移动电话 功能的通信设备。
[0068] 目前识别垃圾短消息的方法都是通过提取短消息中的关键字和垃圾词库进行对 比,由于垃圾词库的不断扩充W及用户爆炸式增长,送种方法在识别垃圾短消息的准确率 越来越低。本发明实施例的方法在识别垃圾短消息时,并不是从短消息的内容入手,而是通 过通信设备发送短消息的行为去判断其所发送的短消息是否为垃圾短消息。由于发送垃圾 短消息的通信设备的通信记录和正常的通信设备是不同的,可W通过分析并总结出通信设 备的通信记录从而了解发送短消息的行为,根据发送短消息的行为可W预测发送垃圾短消 息的概率值,然后将概率值较低的发送短消息的行为所发送的短消息判断为垃圾短消息。
[0069] 移动通信运营商会有每个通信设备的历史通信记录,历史通信记录中包含短消息 通信记录和语音通信记录。为了能够提供通信设备的短消息行为去预测通信设备发送短消 息的概率,本发明实施例中历史通信记录中的短消息已经能够确定是否为垃圾短消息,同 时会在历史通信记录中将垃圾短消息进行标记。
[0070] 每一条短消息通信记录会包含发送方和接收方,本发明实施例中,将发送方称为 第一通信设备,将接收方称为第二通信设备。每个通信设备都会有一个号码,有时有些通信 设备的历史通信记录并不需要去分析,因此会在历史通信记录中通过过滤号码的方式将设 定的通信设备的通信记录删除。例如,若不需要对号码类型为非手机号码的通信设备的历 史通信记录进行分析,可W将数据库中与非手机号码有关的历史通信记录删除。一种典型 的通信设备的非手机号码的历史通信记录为电商平台发送的促销短消息、快递公司发送的 快递信息短消息等。
[0071] 较佳的,所述获取所述第一通信设备的历史通信记录W及所述第二通信设备的历 史通信记录之前,还包括:
[0072] 将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的 通信记录删除;
[0073] 将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的 通信记录删除。
[0074] 在获得筛选的通信设备的历史通信记录之后,W短消息通信记录为主导,分析每 条短消息通信记录的第一通信设备和第二通信设备的通信交互关系,并根据数学模型将送 种通信交互关系用数字或公式的形式表现,W便进行数学上的分析。
[00巧]在本发明实施例中,每条短消息通信记录的第一通信设备和第二通信设备的通信 交互关系可W用W下多个通信交互属性描述,下面详细介绍每一种通信交互属性W及它们 的计算方法。现假定第一通信设备为V。,第二通信设备为Vb,发送短消息行为可描述为V。发 短消息到Vb。Twt(Vg)描述V。呼出且不重复号码量,Tm(Vb)为呼入到Vb且不重复的号码 量,r(v。)为V。发送和接收者短消息的通信设备的数量。A描述WV。为核必的邻接矩阵。 下列通信交互属性表述从V。发送短消息到Vb。
[0076] 属性一,回复值;垃圾短消息发送过程中一般是不存在回复的情况。因此,用该属 性来描述第一通信设备与第二通信设备之间的短消息通信记录是否存在回复的情况。例 女口,如果V。发短消息给Vb,且在其W往的交互中存在Vb也发短消息给V。则返回"1 ",否则返 回"0"。
[0077] 属性二,出度:该属性主要记录在指定时间段内V。发送短消息的对象中剔除重复 的对象数量,描述为Ir^ut(Vg)U
[0078] 属性H,入度;该属性主要是描述Vb收到短消息并剔除重复的发送方后的数量,描 述为Ir\。(Vb)I。
[0079] 属性四,共同邻居数:通过公式Ir\ut(v。)nTm(Vb)I来获取V。与Vb之间同时存 在联系的对象。
[0080] 属性五,父节点数量:该属性表示的是与V。同一级别的号码,且同时是Vb的父节点 的数量。
[0081] 属性六,子节点数量:该属性表示的是与Vb同一级别的号码,且同时是V。的子节点 的数量。
[0082] 属性走,入度的乘积:垃圾短消息在发送过程中有几乎很少发送到某些用户熟知 的用户群当中,因此将上述属性共同的联系人与他们共同的发送量进行比较,进行标准化 处理。计算公式为
[0083]属性八,发送量之积;该属性的计算公式是Ir(V。)Mr(Vb)I,用于描述在第一通 信设备的通信对象数量和第二通信设备的通信对象数量的乘积。
[0084] 属性十,最短路径;该属性主要是描述从短消息接收方Vb到短消息发起方V。的 最短路径。由于有可能存在很多条搜索路径,送个属性采用贪必算法搜索。即每次搜索从 厂…t(Vi)I最多的节点Vi开始找,依次往外层搜索。当搜索过程超过T次后,停止搜索。并 将不可达的结果赋一个Max值,该属性值将在归一化后赋0值。
[0085] 属性^^一 ;在正常短消息交互中,可能存在多种联系的情况。而垃圾短消息号码 与发送号码之间的联系可能只有一种。因此,本发明实施例采用计算M跳W上采用贪必 算法获得的权重值来描述通信设备之间存在联系的权重,其中M为正整数。本发明实施 例中,一般计算出3跳及3跳W上通信设备之间存在联系的权重,4跳时的具体计算公式 为:目A(v。,Vb) +目2a2(v。,Vb)+*" +目4a4(v。,Vb)。目在本发明实施例中取值是0. 5,A(V。,Vb) 表示V。与Vb直接联系的短消息数量,A2(V。,Vb)表示通过两次机会联系上的短消息数量, A3(VwVb)表示通过两次机会联系上的短消息数量,A4(VwVb)表示通过两次机会联系上的短 消息数量,其他情况依次类推。
[0086] 属性十二,相似度;由于发送垃圾短消息的群发有可能碰巧发送到相互认识的号 码,为避免类似问题出现导致判断失误,因此采用W下计算公式确定第一通信设备与第二 通信设备之间的相似度
其中Y为加权值,取值为 0. 05。
[0087]属性十H,通信设备之间的可达概率;本属性是根据随机游走的算法计算节点之 间的存在可达的概率,其特点是能计算实际不存在短消息行为的通信设备之间存在可达的 概率。计算公式为义。=耐(1-(1)+(1(4+"4了^。1,其中,乂11表示是在第11次迭代后的概率值, XO是初始权重,初始值为1,W是权重,d衰减权重,A是邻接矩阵,WAT表示从Vb跳转到 V。的邻接矩阵的权重。其中d和《的值在本发明实施例中分别为0. 05和0. 5,当然也可 W为其他值,具体根据所需的参数进行调节。
[0088] 较佳的,所述通信交互属性值包括W下部分或全部:
[0089] 第一通信设备作为发送方时的短消息通信对象的数量;
[0090] 第二通信设备作为接收方时的短消息通信对象的数量;
[0091] 第一通信设备与第二通信设备的共同通信对象的数量;
[0092] 第二通信设备作为接收方时的语音通信对象的数量;
[0093] 第一通信设备作为发送方时的语音通信对象的数量;
[0094] 第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备 所有的通信对象中所占的比例;
[0095] 第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
[0096] 第一通信设备到第二通信设备的最短路径;
[00
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1