一种检测伪基站中心号码的方法及服务器的制造方法_2

文档序号:9792393阅读:来源:国知局
,然而应当理解,可W W各种形式实现本公开而不应被运里阐述的实施例 所限制。相反,提供运些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0042] 本发明实施例提供了一种检测伪基站中屯、号码的方法及服务器,用W解决现有技 术中无法判别短信的发送方是否是伪基站的技术问题。
[0043] 请参考图1,本申请实施提供了一种检测伪基站中屯、号码的方法,该方法包括:
[0044] Sll、获得至少两条目标短信中每条所述目标短信对应的目标信息中屯、号码,所述 目标短信属于垃圾短信中的至少一类短信;
[004引S12、获得所有所述目标信息中屯、号码中出现概率大于第一阔值的信息中屯、号码 作为疑似伪基站中屯、号码;
[0046] S13、获得在预设时间周期内通过所述疑似伪基站中屯、号码发送的所有下发短信;
[0047] S14、判断所述所有下发短信中垃圾短信的比例是否大于第二阔值;
[0048] S15、若所述所有下发短信中垃圾短信的比例大于第二阔值,确定所述疑似伪基站 中屯、号码为伪基站中屯、号码。
[0049] 在具体实施过程中,由于伪基站发送的绝大多数短信均为对用户无用的,甚至有 害的垃圾短信,尽管伪基站发送的垃圾短信的具体类别和针对的用户不定,但是伪基站发 送短信时采用的信息中屯、号码(即一种短信息服务器,用于将用户发送的短信转发值接收 方)在短时间内通常是不变的或者其信息中屯、号码的编写规则是不变的,因此本申请实施 例W垃圾短信的信息中屯、号码作为切入点去获得伪基站中屯、号码,从而确定短信的发送方 是否为伪基站。
[0050] Sl 1获得每条目标短信对应的目标信息中屯、号码时,可W从每条目标短信的PDU (Protocol Data Unit,协议数据单元)中获得。具体的,可W读取目标短信中PDU格式的编 码信息,通过对PDU格式的编码信息进行解析,识别出目标短信的短信息中屯、号码即目标信 息中屯、号码。其中,Sll针对的目标短信属于垃圾短信中的至少一类短信。该垃圾短信包括 诈骗短信、广告短信、骚扰短信等类型的短信,本申请实施例可W选取垃圾短信中的至少一 类作为目标短信,例如:由于伪基站通常是不法分子为了谋取暴利而发送的诈骗短信,或者 商家为了非法宣传发送的广告短信,为此可W选取诈骗短信和/或广告短信作为目标短信。
[0051] 在具体实施过程中,可W获取短信数据库中已确定的至少一类垃圾短信作为目标 短信。该已确定的至少一类垃圾短信可W是由用户标记后上传至服务器的,也可W是由某 一应用程序如"XX手机安全卫、"XX来电通"等识别出的垃圾短信。另外,本申请实施例还 提供一种获得目标短信的方法:获得与至少一条参考短信相似的至少两条目标短信,其中, 该参考短信为已确定的伪基站发送的短信。通过获得相似短信的方式获得目标短信,能够 获得伪基站根据现有的垃圾短信演变来的新短信,从而检测出演变后的伪基站中屯、号码, 从而提高检测伪基站中屯、号码的准确率。
[0052] 请参考图2,本申请实施例通过如下方法获得与至少一条参考短信相似的至少两 条目标短信:
[0053] S21、对每条参考短信进行分词,并根据每条参考短信的每个分词和语料词矩阵获 得每条参考短信的特征词向量;
[0054] S22、根据至少一条参考短信的至少一个特征词向量,获得至少一条参考短信的参 考特征词向量;
[0055] S23、获得每条待选短信的待选特征词向量;
[0056] S24、计算获得参考特征词向量与每条待选特征词向量之间的相似度;
[0057] S25、将相似度大于设定阔值的每个待选特征词向量对应的待选短信确定为与至 少一条参考短信相似的目标短信。
[0058] 执行S21对每条参考短信进行分词时,可W将已确定的伪基站发送的所有短信作 为参考短信进行分词,也可W先对已确定的伪基站发送的短信通过分类模型进行分类,将 特定类别的短信作为参考短信。针对参考短信进行分词,将参考短信拆分成多个分词,例 如:假设参考短信为"您的航班取消了",可W采用阿里分词将参考短信分为"您"、"您的"、 "航班"及"取消",分词时除了采用阿里分词,还可W采用IKAnalyzer、盘古分词等分词工具 进行分词,本申请实施例不限制分词使用的具体工具。每一个分词都有特定的语义,而特定 的语义可W由不同的分词来表示,但是若仅仅根据近义词来查找相似短信,如利用"航班"、 "取消"的近义词"飞机"、"取缔"等来获得相似短信,是无法检测"机票出票失败"等语义相 似的新短信。
[0059] 为此,本申请实施例在分词后,进一步获得每个分词的词向量,通过词向量来表示 每个分词的语义。词向量为通过训练将语言中的每一个词映射成一个固定长度的向量,可 W通过将每个分词输入词向量工具获得每个分词的词向量,例如可W通过word2vec工具把 每个分词当作特征映射到K维空间获得分词的词向量。其中,词向量工具中包含有语料词矩 阵,该语料词矩阵中为n*k的矩阵,n为数据库中的分词量,k为每个词的维度,假设某一词向 量工具中包含800个分词、设定的词向量的维度为100,那么该语料词矩阵则为800*100的矩 阵。将分词输入词向量工具,词向量工具会得到一个表示该分词位置的向量并将运个向量 与语料词矩阵相乘便可获得并输出运个分词的词向量。
[0060] 在获得参考短信的每个分词的词向量之后,进一步的,为了表示参考短信的语义, 通过将参考短信的所有分词的词向量的乘积与语料词矩阵相乘获得参考短信的参考特征 词向量。例如:假设该语料词矩阵为800*100的矩阵T,若参考短信的有10个分词,nl~nlO分 别表示运10个分词的词向量,将nl*n2*…nlO的乘积与语料词矩阵T相乘获得参考短信的参 考特征词向量,即参考特征词向量等于nl*n2*…nlO*T。
[0061] 在S21获得每条参考短信的参考特征词向量后,执行S22根据至少一条参考短信的 至少一个特征词向量,获得至少一条参考短信的参考特征词向量。待选特征词向量的获得 分W下两种情况:
[0062] (1)当至少一条参考短信的参考短信数量为1时,即至少一个特征词向量为一个特 征词向量时,将该参考短信的特征词向量作为至少一条参考短信的参考特征词向量。
[0063] (2)当至少一条参考短信的参考短信数量大于等于2时,即至少一个特征词向量包 含的向量个数大于等于2时,获得至少一条参考短信中的每条参考短信的特征词向量的均 值作为参考特征词向量。具体的,待选特征词向量可W通过公式(ml+m化…mn)*l/n,mn表示 第n条参考短信的参考词向量,n表示至少一条参考短信中包含的参考短信的数量。例如:假 设已确定的伪基站发送的航空诈骗短信中包含10条航空诈骗短信,每条航空诈骗短信的参 考词向量分别为ml~mlO,那么每条参考短信的参考词向量的均值可W通过公式(ml+m2+---ml0)*0.1计算获得。利用多条参考短信的参考特征词向量来进行相似短信检测时,将参考 短信的参考特征词向量与一个待选特征词向量进行相似度计算,不再依次与每一个参考短 信的参考词向量进行相似度计算,能够大大减小相似短信检测的计算量,提高相似短信检 测的效率。
[0064] S23获得每条待选短信的待选特征词向量。需要说明的是,S23与S21~S22执行时 先后之分,可W在执行S21~S22之前、之后或同时执行S23。获得待选短信的待选特征词向 量的方法与获得一条参考短信的特征词向量的方法相同,先对待选短信进行分词并获得每 个分词的词向量,再根据每个分词的词向量和语料词矩阵获得待选特征词向量。
[0065] 在获得待选短信的待选特征词向量和至少一条参考短信的参考特征词向量之后, 执行S24计算获得参考特征词向量与每条待选特征词向量之间的相似度。待选短信为短信 数据库中的所有短信、垃圾短信或者与已确定的伪基站发送的参考短信同类别的短信。例 如:假设已确定的伪基站发送的参考短信为诈骗短信,那么待选短信则为短信数据库中除 已确定的伪基站发送的短信外的其它诈骗短信;当然,若已确定的伪基站发送的参考短信 既包括诈骗短信又包括广告短信,那么待选短信则可W为短信数据库中已确定的伪基站发 送的短信外的其它诈骗短信和广告短信。
[0066] S24在获得参考特征词向量与每个待选特征词向量之间的相似度时,可W获得两 个向量之间的余弦值来表征两个向量之间的相似度,即余弦相似度;也可W获得两个向量 之间的相关系数连表征连个向量之间的相似度。
[0067] 计算获得参考特征词向量与待选特征词向量之间的余弦值,将该余弦值作为参考 特征词向量与待选特征词向量之间的相似度时,表达式为:
[0069] 其中,x、y分别表示参考特征词向量、待选特征词向量,sim(x,y)表示参考特征词 向量与待选特征词向量之间的相似度,CO S (X,y)参考特征词向量与待选特征词向量之间的 余弦值,Xi表示参考特征词向量中的元素,yi表示参考特征词向量中的元素,n为参考特征词 向量、待选特征词向量的维度。一般在计算前需要对向量中的各元素进行无量纲化处理,使 各个元素都为正,获得的余弦值的取值范围为[0,1],取值越大表明两个向量之间夹角越 小,两个向量越接近,值为1时,两个向量完全相同。
[0070] 计算获得参考特征词向量与待选特征词向量之间的相关系数,将相关系数作为相 似度时,表达式为:
[0072] 其中,r ( X,y )表示参考特征词向量与待选特征词向量之间的相关系数,
相关系数是多元统计学中用来衡量两组变量之间线性密切程度 的无量纲指标,取值范围为[0,1 ],值越大相关性越强,当值为1时,两个向量完全相同。
[0073] 需要说明的是,本申请实施例并不限制词向量之间相似度的具体算法,除了通过 余弦值、相关系数计算相似度,还可W通过广义Dice系数、广义化ccard系数计算相似度,不 同的算法获得的相似度对应的设定阔值不同。
[0074] 在S24获得参考特征词向量和每个待选特征词向量之间的相似度之后,进一步执 行S25将相似度大于设定阔值的每个待选特征词向量对应的待选短信确定为与至少一条参 考短信相似的目标短信。设定阔值可W由设计人员根据实验数据,针对不同的相似度算法 进行设置,例如:采用余弦相似度时,设定阔值可W为0.78;采用相关系数
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1