一种检测相似短信的方法及装置的制造方法

文档序号:9727308阅读:424来源:国知局
一种检测相似短信的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理技术领域,特别涉及一种检测相似短信的方法及装置。
【背景技术】
[0002] 随着科学技术的不断发展,通信技术得到了飞速的发展,通信的方式多种多样,包 括电话、短、email等。
[0003] 短信由于其具有短小精要、成本低廉等优点被人们广泛的使用,也正因为它使用 的广泛和成本低廉被不法分子所利用。人们常常会收到不法分子发送的银行卡被盗、航班 取消、积分兑换等诈骗短信,稍有不慎就会被不法分子诈骗。为了减少人们被诈骗的几率, 现有技术通常采用标记、筛查的办法帮助用户识别诈骗短信,具体过程如下:通过用户对已 识别的诈骗短信进行标记并上报服务器,服务器根据已有的诈骗短信对待发送的短信进行 比对,若发现相同的短信,则进行拦截或提示收信终端用户该短信可能为诈骗短信,使用户 勿轻信上当受骗。
[0004] 然后,诈骗短信的类型层出不穷,现有技术中的方法只能基于已标记的即已确定 的诈骗短信来拦截诈骗短信或提示用户,无法及时发现新的诈骗短信,对诈骗短信的识别 和拦截存在滞后性。另外,除了诈骗短信,其它新短信的识别也存在滞后性。可见,现有技术 中存在对新短信的识别滞后的技术问题。

【发明内容】

[0005] 本发明实施例提供一种检测相似短信的方法及装置,用于解决现有技术中对新短 信的识别存在滞后的技术问题,提高对新短信的识别效率。
[0006] 本申请实施提供一种检测相似短信的方法,所述方法包括:
[0007] 对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词 向量;
[0008] 获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少 一条或至少一类参考短信的词向量;
[0009] 判断所述相似度是否大于设定阈值;
[0010] 若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类 参考短信相似。
[0011]可选的,所述根据每个分词和语料词矩阵获得所述目标短信的目标词向量,包括: 分别将所述每个分词输入词向量工具获得所述每个分词的词向量;通过将所有所述分词的 词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。
[0012] 可选的,获得所述目标词向量和设定词向量之间的相似度,包括:计算获得所述目 标词向量与所述设定词向量之间的余弦值,将所述余弦值作为所述相似度;或者,计算获得 所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作为所述相似度。
[0013] 可选的,所述设定词向量为至少一类参考短信的词向量时,所述方法还包括:获得 所述至少一类参考短信中的每条参考短信的参考词向量;获得所述每条参考短信的参考词 向量的均值作为所述设定词向量。
[0014] 可选的,当所述参考短信为恶意短信时,在所述确定所述目标短信与所述至少一 条或至少一类参考短信相似之后,所述方法还包括:获得所述目标短信的中心号,及查询获 得所述中心号发出的N条短信;获得所述N条短信中与所述目标短信相同或相似的短信数量 M;判断M/N是否大于第一预设比例;若M/N大于所述第一预设比例,确定所述目标短信为新 的恶意短信、所述中心号为伪基站的中心号。
[0015] 可选的,当所述参考短信为恶意短信时,在所述确定所述目标短信与所述至少一 条或至少一类参考短信相似之后,所述方法还包括:获得所述目标短信的中心号,及查询获 得所述中心号发出的N条短信;判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大 于第二预设比例,其中,所述黑短信包含诈骗短信、广告短信、骚扰短信;若Μ与Ν的比值大于 所述第二预设比例,确定所述目标短信为疑似恶意短信。
[0016] 可选的,所述参考短信包括:垃圾短信、诈骗短信或骚扰短信。
[0017] 可选的,在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之 后,所述方法还包括:生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信 进行标记;获得用户对所述目标短信所做的标记信息;若所述标记信息表征所述目标短信 属于垃圾短信或恶意短信,获得发送所述目标短信的电话号码,并标记所述电话号码为发 送过垃圾短信或恶意短信的电话号码;将所述电话号码添加到分析其归属地和/或地区编 码号段的行列中。
[0018] 可选的,若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,所述方法 还包括:建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。
[0019] 本申请实施例还提供一种检测相似短信的装置,所述装置包括:
[0020] 词向量获取模块,用于对目标短信进行分词,并根据每个分词和语料词矩阵获得 所述目标短信的目标词向量;
[0021 ]相似度计算模块,用于获得所述目标词向量和设定词向量之间的相似度,其中,所 述设定词向量为至少一条或至少一类参考短信的词向量;
[0022]判断模块,用于判断所述相似度是否大于设定阈值;
[0023]第一确认模块,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所 述至少一条或至少一类参考短信相似。
[0024] 可选的,所述词向量获取模块,包括:传输子模块,用于分别将所述每个分词输入 词向量工具获得所述每个分词的词向量;运算子模块,用于将所有所述分词的词向量的乘 积与所述语料词矩阵相乘获得所述目标词向量。
[0025] 可选的,所述相似度计算模块,包括:第一计算子模块,用于计算获得所述目标词 向量与所述设定词向量之间的余弦值,将所述余弦值作为所述相似度;或者,第二计算子模 块,计算获得所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作为所 述相似度。
[0026] 可选的,所述设定词向量为至少一类参考短信的词向量时,所述装置还包括:参考 词向量获取模块,用于获得所述至少一类参考短信中的每条参考短信的参考词向量;设定 词向量获取模块,用于获得所述每条参考短信的参考词向量的均值作为所述设定词向量。
[0027] 可选的,当所述参考短信为恶意短信时,所述装置还包括:第一查询模块,用于在 确定所述目标短信与所述至少一条或至少一类参考短信相似之后,获得所述目标短信的中 心号,及查询获得所述中心号发出的N条短信;第二确认模块,用于获得所述N条短信中与所 述目标短信相同或相似的短信数量M;判断M/N是否大于第一预设比例;若M/N大于所述第一 预设比例,确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。
[0028] 可选的,当所述参考短信为恶意短信时,所述装置还包括:第二查询模块,用于在 确定所述目标短信与所述至少一条或至少一类参考短信相似之后,获得所述目标短信的中 心号,及查询获得所述中心号发出的N条短信;第三确认模块,用于判断所述N条短信中属性 为黑短信的数量Μ与N的比值是否大于第二预设比例,其中,所述黑短信包含诈骗短信、广告 短信、骚扰短信;若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短 {目。
[0029] 可选的,所述参考短信包括:垃圾短信、诈骗短信或骚扰短信。
[0030] 可选的,所述装置还包括:添加模块,用于在确定所述目标短信与所述至少一条或 至少一类参考短信相似之后,生成并显示一提示信息,所述提示信息用于提示用户对所述 目标短信进行标记;获得用户对所述目标短信所做的标记信息;若所述标记信息表征所述 目标短信属于垃圾短信或恶意短信,获得发送所述目标短信的电话号码,并标记所述电话 号码为发送过垃圾短信或恶意短信的电话号码;将所述电话号码添加到分析其归属地和/ 或地区编码号段的行列中。
[0031 ]可选的,所述添加模块还用于:若所述标记信息表征所述目标短信属于垃圾短信 或恶意短信,建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。
[0032] 本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
[0033] 通过将目标短信和参考短信转换成词向量,并计算目标短信和参考短信的词向量 之间的相似度,从而用词向量之间的相似度来判断目标短信与参考短信之间是否相似,获 得与参考短信相似的目标短信,检测出新的短信如诈骗短信、广告短信、骚扰短信等,进而 解决了现有技术中对新短信的识别存在滞后的技术问题,提高了对新短信的识别效率。
【附图说明】
[0034] 图1为本申请实施例一提供的一种检测相似短信的方法的流程图;
[0035] 图2为本申请实施例一提供的确认恶意短信的流程图;
[0036] 图3为本申请实施例提供二的一种检测相似短信的装置的示意图。
【具体实施方式】
[0037] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0038]本技术领域技术人员可以理
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1