一种检测伪基站运动轨迹的方法及服务器的制造方法_2

文档序号:9814989阅读:来源:国知局
部件。在附图中:
[0036] 图1示出了根据本发明一个实施例的一种检测伪基站运动轨迹的方法流程图;
[0037] 图2示出了根据本发明一个实施例的一种检测相似短信的方法流程图;
[0038] 图3示出了根据本发明一个实施例的一种检测伪基站运动轨迹的服务器示意图。
【具体实施方式】
[0039] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可W W各种形式实现本公开而不应被运里阐述的实施例 所限制。相反,提供运些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0040] 本发明实施例提供了一种检测伪基站运动轨迹的方法及服务器,用W解决现有技 术中无法追踪伪基站运动轨迹的技术问题。
[0041] 请参考图1,本申请实施例提供了一种检测伪基站运动轨迹的方法,该方法包括:
[0042] S11、获得与目标伪基站发送的至少一条参考短信相似的至少两条目标短信;
[0043] S12、获得所述至少两条目标短信中每条所述目标短信的发送时间信息及基站位 置信息;
[0044] S13、根据每条所述目标短信的所述发送时间信息和所述基站位置信息,获得所述 目标伪基站的运动轨迹。
[004引在具体实施过程中,目标伪基站发送的至少一条参考短信可W由受害人提供,例 如:某人因短信"小李出了车祸,急需10000元手术费,请转账到XXX卡上"而被骗了 10000元, 需要查获发送运条短信的伪基站从而抓获犯罪嫌疑人,那么可W将该短信作为目标伪基站 发送的至少一条参考短信。
[0046]当然,目标伪基站的至少一条参考短信也可W通过如下方法检测获得:对应检测 确认的垃圾短信尤其是诈骗短信,获得该垃圾短信的信息中屯、号码;然后判断该信息中屯、 号码是否为运营商提供的信息中屯、号码;若该信息中屯、号码不是运营商提供的信息中屯、号 码,则反查通过该信息中屯、号码发送的所有短信;若通过该信息中屯、号码发送的所有短信 均为垃圾短信,那么确认使用该信息中屯、号码的基站为目标伪基站并获得该目标伪基站发 送的至少一条参考短信。例如:针对已确定的银行卡诈骗短信"您的银行卡因设及犯罪事件 已被冻结",获得转发该短信的信息中屯、号码为%086……",判断出该信息中屯、号码与运营 商提供的信息中屯、号码" + 86……"不相同,那么进一步获得通过信息中屯、号码为 "0086……"发送的所有短信,判断出通过"0086……"发送的所有短信均为诈骗短信,那么 确定该信息中屯、号码"0086……"对应的基站为目标伪基站,进而获得该信息中屯、号码 %〇86……"发送的至少一条短信作为至少一条参考短信。
[0047] 请参考图2,S11获得与目标伪基站发送的至少一条参考短信相似的至少两条目标 短信时,可W先通过如下方法获得与至少一条参考短信之间的相似度大于设定相似阔值的 至少两条候选短信:
[0048] S21、对每条参考短信进行分词,并根据每条参考短信的每个分词和语料词矩阵获 得每条参考短信的特征词向量;
[0049] S22、根据至少一条参考短信的至少一个特征词向量,获得至少一条参考短信的参 考特征词向量;
[0050] S23、获得每条待查短信的待查特征词向量;
[0051] S24、计算获得参考特征词向量与每条待查短信的待查特征词向量之间的相似度;
[0052] S25、将相似度大于设定相似阔值的待查特征词向量对应的待查短信确定为候选 短信。
[0053] 执行S21对每条参考短信进行分词时,将参考短信拆分成多个分词,例如:假设参 考短信为"您的航班取消了 ",可W采用阿里分词将参考短信分为"您"、"您的"、"航班"及 "取消",分词时除了采用阿里分词,还可W采用IKAnalyzer、盘古分词等分词工具进行分 词,本申请实施例不限制分词使用的具体工具。每一个分词都有特定的语义,而特定的语义 可W由不同的分词来表示,但是若仅仅根据近义词来查找相似短信,如利用"航班"、"取消" 的近义词"飞机"、"取缔"等来获得相似短信,是无法检测"机票出票失败"等语义相似的新 短信。
[0054] 为此,本申请实施例在分词后,进一步获得每个分词的词向量,通过词向量来表示 每个分词的语义。词向量为通过训练将语言中的每一个词映射成一个固定长度的向量,可 W通过将每个分词输入词向量工具获得每个分词的词向量,例如可W通过word2vec工具把 每个分词当作特征映射到K维空间获得分词的词向量。其中,词向量工具中包含有语料词矩 阵,该语料词矩阵中为n*k的矩阵,n为数据库中的分词量,k为每个词的维度,假设某一词向 量工具中包含800个分词、设定的词向量的维度为100,那么该语料词矩阵则为800*100的矩 阵。将分词输入词向量工具,词向量工具会得到一个表示该分词位置的向量并将运个向量 与语料词矩阵相乘便可获得并输出运个分词的词向量。
[0055] 在获得参考短信的每个分词的词向量之后,进一步的,为了表示参考短信的语义, 通过将参考短信的所有分词的词向量的乘积与语料词矩阵相乘获得参考短信的参考特征 词向量。例如:假设该语料词矩阵为800*100的矩阵T,若参考短信的有10个分词,nl~nlO分 别表示运10个分词的词向量,将nl*n2*…nlO的乘积与语料词矩阵T相乘获得参考短信的参 考特征词向量,即参考特征词向量等于nl*n2*…nlO*T。
[0056] 在S21获得每条参考短信的参考特征词向量后,执行S22根据至少一条参考短信的 至少一个特征词向量,获得至少一条参考短信的参考特征词向量。待查特征词向量的获得 分W下两种情况:
[0057] (1)当至少一条参考短信的参考短信数量为1时,即至少一个特征词向量为一个特 征词向量时,将该参考短信的特征词向量作为至少一条参考短信的参考特征词向量。
[0058] (2)当至少一条参考短信的参考短信数量大于等于2时,即至少一个特征词向量包 含的向量个数大于等于2时,获得至少一条参考短信中的每条参考短信的特征词向量的均 值作为参考特征词向量。具体的,待查特征词向量可W通过公式(ml+m化…皿)*l/n,皿表示 第n条参考短信的参考词向量,n表示至少一条参考短信中包含的参考短信的数量。例如:假 设已确定的伪基站发送的航空诈骗短信中包含10条航空诈骗短信,每条航空诈骗短信的参 考词向量分别为ml~mlO,那么每条参考短信的参考词向量的均值可W通过公式(ml+m2+---ml0)*0.1计算获得。利用多条参考短信的参考特征词向量来进行相似短信检测时,将参考 短信的参考特征词向量与一个待查特征词向量进行相似度计算,不再依次与每一个参考短 信的参考词向量进行相似度计算,能够大大减小相似短信检测的计算量,提高相似短信检 测的效率。
[0059] S23获得每条待查短信的待查特征词向量。需要说明的是,S23与S21~S22执行时 先后之分,可W在执行S21~S22之前、之后或同时执行S23。获得待查短信的待查特征词向 量的方法与获得一条参考短信的特征词向量的方法相同,先对待查短信进行分词并获得每 个分词的词向量,再根据每个分词的词向量和语料词矩阵获得待查特征词向量。
[0060] 在获得待查短信的待查特征词向量和至少一条参考短信的参考特征词向量之后, 执行S24计算获得参考特征词向量与每条待查特征词向量之间的相似度。待查短信为短信 数据库中的所有短信、垃圾短信或者与已确定的伪基站发送的参考短信同类别的短信。例 如:假设已确定的伪基站发送的参考短信为诈骗短信,那么待查短信则为短信数据库中除 已确定的伪基站发送的短信外的其它诈骗短信;当然,若已确定的伪基站发送的参考短信 既包括诈骗短信又包括广告短信,那么待查短信则可W为短信数据库中已确定的伪基站发 送的短信外的其它诈骗短信和广告短信。
[0061] S24在获得参考特征词向量与每个待查特征词向量之间的相似度时,可W获得两 个向量之间的余弦值来表征两个向量之间的相似度,即余弦相似度;也可W获得两个向量 之间的相关系数连表征连个向量之间的相似度。
[0062] 计算获得参考特征词向量与待查特征词向量之间的余弦值,将该余弦值作为参考 特征词向量与待查特征词向量之间的相似度时,表达式为:
[0064] 其中,X、y分别表示参考特征词向量、待查特征词向量,S im( X,y)表示参考特征词 向量与待查特征词向量之间的相似度,cos(x,y)参考特征词向量与待查特征词向量之间的 余弦值,Xi表示参考特征词向量中的元素,yi表示参考特征词向量中的元素,n为参考特征词 向量、待查特征词向量的维度。一般在计算前需要对向量中的各元素进行无量纲化处理,使 各个元素都为正,获得的余弦值的取值范围为[0,1],取值越大表明两个向量之间夹角越 小,两个向量越接近,值为1时,两个向量完全相同。
[0065] 计算获得参考特征词向量与待查特征词向量之间的相关系数,将相关系数作为相 似度时,表达式为:
[0067] 其中,:r(x,y)表示参考特征词向量与待查特征词向量之间的相关系数,H衣這 相关系数是多元统计学中用来衡量两组变量之间线性密切程度的无量纲指标,取值范围为 [0,1 ],值越大相关性越强,当值为1时,两个向量完全相同。
[0068] 需要说明的是,本申请实施例并不限制词向量之间相似度的具体算法,除了通过 余弦值、相关系数计算相似度,还可W通过广义Dice系数、广义化ccard系数计算相似度,不 同的算法获得的相似度对应的设定相似阔值不同。
[0069] 在S24获得参考特征词向量和每个待查特征词向量之间的相似度之后,进一步执 行S25将相似度大于设定相似阔值的每个待查特征词向量对应的待查短信确定为与至少一 条参考短信相似的候选短信。设定相似阔值可W由设计人员根据实验数据,针对不同的相 似度算法进行设置,例如:采用余弦相似度时,设定相似阔值可W为0.78;采用相关系数相 似度时,设定相
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1