一种检测相似短信的方法及装置的制造方法_4

文档序号:9727308阅读:来源:国知局
认模块40用于判断所述Ν条短信中属 性为黑短信的数量Μ与Ν的比值是否大于第二预设比例,其中,所述黑短信包含诈骗短信、广 告短信、骚扰短信;若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短 {目。
[0094]在具体实施过程中,所述装置还包括:添加模块41,用于在确定所述目标短信与所 述至少一条或至少一类参考短信相似之后,获得用户对所述目标短信所做的标记信息;若 所述标记信息表征所述目标短信属于垃圾短信或恶意短信,获得发送所述目标短信的电话 号码,并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码;将所述电话号码添 加到分析其归属地和/或地区编码号段的行列中。
[0095]相应的,添加模块41还用于在标记信息表征目标短信属于垃圾短信或恶意短信 时,建立标记信息与发送该目标短信的电话号码之间的对应关系并保存到预置数据库中。 [0096]针对上述一种检测相似短信的装置,本实施例提供一种移动终端,该移动终端中 包括上述一检测相似短信的装置。具体的,该装置包括:词向量获取模块31,用于对目标短 信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向量;相似度计算 模块32,用于获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至 少一条或至少一类参考短信的词向量;判断模块33,用于判断所述相似度是否大于设定阈 值;第一确认模块34,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所述至 少一条或至少一类参考短信相似。
[0097] 具体的,本申请实施例提供的移动终端可以为手机、pad、小灵通等能够收发短信 的电子设备。通过在移动终端中设置上述检测相似短信的装置,能对接收到的短信进行相 似度判别,检测出新的短信如诈骗短信、广告短信、骚扰短信等,以解决现有技术中对新短 信的识别存在滞后的技术问题,提高对新短信的识别效率。
[0098] 针对上述一种检测相似短信的装置,本实施例还提供一种服务器,该服务器中包 括上述一检测相似短信的装置。具体的,该装置包括:词向量获取模块31,用于对目标短信 进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向量;相似度计算模 块32,用于获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少 一条或至少一类参考短信的词向量;判断模块33,用于判断所述相似度是否大于设定阈值; 第一确认模块34,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所述至少 一条或至少一类参考短信相似。
[0099] 通过本申请实施例中的一个或多个技术方案,可以实现如下技术效果:
[0100] 通过将目标短信和参考短信转换成词向量,并计算目标短信和参考短信的词向量 之间的相似度,从而用词向量之间的相似度来判断目标短信与参考短信之间是否相似,获 得与参考短信相似的目标短信,检测出新的短信如诈骗短信、广告短信、骚扰短信等,进而 解决了现有技术中对新短信的识别存在滞后的技术问题,提高了对新短信的识别效率。
[0101] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序 产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实 施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机 可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产 品的形式。
[0102] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序 指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产 生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0103] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0104] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
[0105] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造 性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优 选实施例以及落入本发明范围的所有变更和修改。
[0106] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
[0107] 本发明公开了 A1、一种检测相似短信的方法,其特征在于,包括:
[0108] 对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词 向量;
[0109] 获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少 一条或至少一类参考短信的词向量;
[0110] 判断所述相似度是否大于设定阈值;
[0111] 若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类 参考短信相似。
[0112] A2、根据A1所述的方法,其特征在于,所述根据每个分词和语料词矩阵获得所述目 标短信的目标词向量,包括:
[0113] 分别将所述每个分词输入词向量工具获得所述每个分词的词向量;
[0114] 通过将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向 量。
[0115] A3、根据A1所述的方法,其特征在于,获得所述目标词向量和设定词向量之间的相 似度,包括:
[0116]计算获得所述目标词向量与所述设定词向量之间的余弦值,将所述余弦值作为所 述相似度;或者
[0117]计算获得所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作 为所述相似度。
[0118] A4、根据A1所述的方法,其特征在于,所述设定词向量为所述至少一类参考短信的 词向量时,所述方法还包括:
[0119] 获得所述至少一类参考短信中的每条参考短信的参考词向量;
[0120] 获得所述每条参考短信的参考词向量的均值作为所述设定词向量。
[0121] A5、根据A1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括:
[0122] 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0123] 获得所述N条短信中与所述目标短信相同或相似的短信数量M;
[0124] 判断Μ/N是否大于第一预设比例;
[0125] 若Μ/N大于所述第一预设比例,确定所述目标短信为新的恶意短信、所述中心号为 伪基站的中心号。
[0126] A6、根据A1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括:
[0127] 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0128] 判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大于第二预设比例,其 中,所述黑短信包含诈骗短信、广告短信、骚扰短信;
[0129] 若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短信。
[0130] Α7、根据Α1~Α6任一所述的方法,其特征在于,所述参考短信包括:垃圾短信、诈骗 短信或骚扰短信。
[0131] Α8、根据Α1~Α6任一所述的方法,其特征在于,在所述确定所述目标短信与所述至 少一条或至少一类参考短信相似之后,所述方法还包括:
[0132] 生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信进行标记;
[0133] 获得用户对所述目标短信所做的标记信息;
[0134] 若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,获得发送所述目标 短信的电话号码,并标记所述电话号码为发送过所述垃圾短信或所述恶意短信的电话号 码;
[0135] 将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。
[0136] Α9、根据Α8所述的方法,其特征在于,若所述标记信息表征所述目标短信属于垃圾 短信或恶意短信,所述方法还包括:
[0137] 建立所述标记信息与所述电话号码之间的对应关系并保存
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1