一种检测相似短信的方法及装置的制造方法_5

文档序号:9727308阅读:来源:国知局
到预置数据库中。
[0138] 本发明还公开了 Β10、一种检测相似短信的装置,其特征在于,包括:
[0139] 词向量获取模块,用于对目标短信进行分词,并根据每个分词和语料词矩阵获得 所述目标短信的目标词向量;
[0140] 相似度计算模块,用于获得所述目标词向量和设定词向量之间的相似度,其中,所 述设定词向量为至少一条或至少一类参考短信的词向量;
[0141] 判断模块,用于判断所述相似度是否大于设定阈值;
[0142] 第一确认模块,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所 述至少一条或至少一类参考短信相似。
[0143] Β11、根据Β10所述的装置,其特征在于,所述词向量获取模块,包括:
[0144] 传输子模块,用于分别将所述每个分词输入词向量工具获得所述每个分词的词向 量;
[0145] 运算子模块,用于将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所 述目标词向量。
[0146] Β12、根据Β10所述的装置,其特征在于,所述相似度计算模块,包括:
[0147] 第一计算子模块,用于计算获得所述目标词向量与所述设定词向量之间的余弦 值,将所述余弦值作为所述相似度;或者
[0148] 第二计算子模块,计算获得所述目标词向量与所述设定词向量之间的相关系数, 将所述相关系数作为所述相似度。
[0149] Β13、根据Β10所述的装置,其特征在于,所述设定词向量为所述至少一类参考短信 的词向量时,所述装置还包括:
[0150] 参考词向量获取模块,用于获得所述至少一类参考短信中的每条参考短信的参考 词向量;
[0151] 设定词向量获取模块,用于获得所述每条参考短信的参考词向量的均值作为所述 设定词向量。
[0152] B14、根据B10所述的装置,其特征在于,当所述参考短信为恶意短信时,所述装置 还包括:
[0153] 第一查询模块,用于在确定所述目标短信与所述至少一条或至少一类参考短信相 似之后,获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0154] 第二确认模块,用于获得所述N条短信中与所述目标短信相同或相似的短信数量 M;判断M/N是否大于第一预设比例;若M/N大于所述第一预设比例,确定所述目标短信为新 的恶意短信、所述中心号为伪基站的中心号。
[0155] B15、根据B10所述的装置,其特征在于,当所述参考短信为恶意短信时,所述装置 还包括:
[0156] 第二查询模块,用于在确定所述目标短信与所述至少一条或至少一类参考短信相 似之后,获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0157] 第三确认模块,用于判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大 于第二预设比例,其中,所述黑短信包含诈骗短信、广告短信、骚扰短信;若Μ与Ν的比值大于 所述第二预设比例,确定所述目标短信为疑似恶意短信。
[0158] Β16、根据Β10~Β15任一所述的装置,其特征在于,所述参考短信包括:垃圾短信、 诈骗短信或骚扰短信。
[0159] Β17、根据Β10~Β15任一所述的装置,其特征在于,所述装置还包括:
[0160] 添加模块,用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之 后,生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信进行标记;获得用 户对所述目标短信所做的标记信息;若所述标记信息表征所述目标短信属于垃圾短信或恶 意短信,获得发送所述目标短信的电话号码,并标记所述电话号码为发送过垃圾短信或恶 意短信的电话号码;将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。 [0161] Β18、根据Β17所述的装置,其特征在于,所述添加模块还用于:
[0162] 若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,建立所述标记信息 与所述电话号码之间的对应关系并保存到预置数据库中。
[0163] 本发明还公开了 C19、一种移动终端,其特征在于,包括如权利要求Β9~Β18所述的 装置。
[0164] 本发明还公开了 D20、一种服务器,其特征在于,包括如权利要求Β9~Β18所述的装 置。
【主权项】
1. 一种检测相似短信的方法,其特征在于,所述方法包括: 对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向 量; 获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少一条 或至少一类参考短信的词向量; 判断所述相似度是否大于设定阈值; 若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类参考 短信相似。2. 如权利要求1所述的方法,其特征在于,所述根据每个分词和语料词矩阵获得所述目 标短信的目标词向量,包括: 分别将所述每个分词输入词向量工具获得所述每个分词的词向量; 通过将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。3. 如权利要求1所述的方法,其特征在于,获得所述目标词向量和设定词向量之间的相 似度,包括: 计算获得所述目标词向量与所述设定词向量之间的余弦值,将所述余弦值作为所述相 似度;或者 计算获得所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作为所 述相似度。4. 如权利要求1所述的方法,其特征在于,所述设定词向量为所述至少一类参考短信的 词向量时,所述方法还包括: 获得所述至少一类参考短信中的每条参考短信的参考词向量; 获得所述每条参考短信的参考词向量的均值作为所述设定词向量。5. 如权利要求1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括: 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信; 获得所述N条短信中与所述目标短信相同或相似的短信数量M; 判断M/N是否大于第一预设比例; 若Μ/N大于所述第一预设比例,确定所述目标短信为新的恶意短信、所述中心号为伪基 站的中心号。6. 如权利要求1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括: 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信; 判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大于第二预设比例,其中,所 述黑短信包含诈骗短信、广告短信、骚扰短信; 若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短信。7. 如权利要求1~6任一所述的方法,其特征在于,所述参考短信包括:垃圾短信、诈骗 短信或骚扰短信。8. 如权利要求1~6任一所述的方法,其特征在于,在所述确定所述目标短信与所述至 少一条或至少一类参考短信相似之后,所述方法还包括: 生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信进行标记; 获得用户对所述目标短信所做的标记信息; 若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,获得发送所述目标短信 的电话号码,并标记所述电话号码为发送过所述垃圾短信或所述恶意短信的电话号码; 将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。9. 如权利要求8所述的方法,其特征在于,若所述标记信息表征所述目标短信属于垃圾 短信或恶意短信,所述方法还包括: 建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。10. -种检测相似短信的装置,其特征在于,所述装置包括: 词向量获取模块,用于对目标短信进行分词,并根据每个分词和语料词矩阵获得所述 目标短信的目标词向量; 相似度计算模块,用于获得所述目标词向量和设定词向量之间的相似度,其中,所述设 定词向量为至少一条或至少一类参考短信的词向量; 判断模块,用于判断所述相似度是否大于设定阈值; 第一确认模块,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所述至 少一条或至少一类参考短信相似。
【专利摘要】本发明公开了一种检测相似短信的方法及装置,该方法包括:对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向量;获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少一条或至少一类参考短信的词向量;判断所述相似度是否大于设定阈值;若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类参考短信相似。在上述技术方案中,通过将目标短信和参考短信转换成词向量,并计算短信的词向量之间的相似度用以获得与参考短信相似的目标短信,从而检测出新的短信,进而解决了现有技术中对新短信的识别存在滞后的技术问题,提高了对新短信的识别效率。
【IPC分类】G06F17/27
【公开号】CN105488031
【申请号】CN201510907340
【发明人】张金晶, 李强, 常富洋
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2016年4月13日
【申请日】2015年12月9日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1