一种检测相似短信的方法及装置的制造方法

文档序号：9727308阅读：424来源：国知局

一种检测相似短信的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理技术领域，特别涉及一种检测相似短信的方法及装置。
【背景技术】
[0002] 随着科学技术的不断发展，通信技术得到了飞速的发展，通信的方式多种多样，包括电话、短、email等。
[0003] 短信由于其具有短小精要、成本低廉等优点被人们广泛的使用，也正因为它使用的广泛和成本低廉被不法分子所利用。人们常常会收到不法分子发送的银行卡被盗、航班取消、积分兑换等诈骗短信，稍有不慎就会被不法分子诈骗。为了减少人们被诈骗的几率，现有技术通常采用标记、筛查的办法帮助用户识别诈骗短信，具体过程如下:通过用户对已识别的诈骗短信进行标记并上报服务器，服务器根据已有的诈骗短信对待发送的短信进行比对，若发现相同的短信，则进行拦截或提示收信终端用户该短信可能为诈骗短信，使用户勿轻信上当受骗。
[0004] 然后，诈骗短信的类型层出不穷，现有技术中的方法只能基于已标记的即已确定的诈骗短信来拦截诈骗短信或提示用户，无法及时发现新的诈骗短信，对诈骗短信的识别和拦截存在滞后性。另外，除了诈骗短信，其它新短信的识别也存在滞后性。可见，现有技术中存在对新短信的识别滞后的技术问题。

【发明内容】

[0005] 本发明实施例提供一种检测相似短信的方法及装置，用于解决现有技术中对新短信的识别存在滞后的技术问题，提高对新短信的识别效率。
[0006] 本申请实施提供一种检测相似短信的方法，所述方法包括：
[0007] 对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；
[0008] 获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；
[0009] 判断所述相似度是否大于设定阈值；
[0010] 若所述相似度大于所述设定阈值，确定所述目标短信与所述至少一条或至少一类参考短信相似。
[0011]可选的，所述根据每个分词和语料词矩阵获得所述目标短信的目标词向量，包括：分别将所述每个分词输入词向量工具获得所述每个分词的词向量;通过将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。
[0012] 可选的，获得所述目标词向量和设定词向量之间的相似度，包括:计算获得所述目标词向量与所述设定词向量之间的余弦值，将所述余弦值作为所述相似度;或者，计算获得所述目标词向量与所述设定词向量之间的相关系数，将所述相关系数作为所述相似度。
[0013] 可选的，所述设定词向量为至少一类参考短信的词向量时，所述方法还包括:获得所述至少一类参考短信中的每条参考短信的参考词向量;获得所述每条参考短信的参考词向量的均值作为所述设定词向量。
[0014] 可选的，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括:获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信;获得所述N条短信中与所述目标短信相同或相似的短信数量 M;判断M/N是否大于第一预设比例;若M/N大于所述第一预设比例，确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。
[0015] 可选的，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括:获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信;判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大于第二预设比例，其中，所述黑短信包含诈骗短信、广告短信、骚扰短信;若Μ与Ν的比值大于所述第二预设比例，确定所述目标短信为疑似恶意短信。
[0016] 可选的，所述参考短信包括:垃圾短信、诈骗短信或骚扰短信。
[0017] 可选的，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括:生成并显示一提示信息，所述提示信息用于提示用户对所述目标短信进行标记;获得用户对所述目标短信所做的标记信息;若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码，并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码;将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。
[0018] 可选的，若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，所述方法还包括:建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。
[0019] 本申请实施例还提供一种检测相似短信的装置，所述装置包括：
[0020] 词向量获取模块，用于对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；
[0021 ]相似度计算模块，用于获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；
[0022]判断模块，用于判断所述相似度是否大于设定阈值；
[0023]第一确认模块，用于在所述相似度大于所述设定阈值时，确定所述目标短信与所述至少一条或至少一类参考短信相似。
[0024] 可选的，所述词向量获取模块，包括:传输子模块，用于分别将所述每个分词输入词向量工具获得所述每个分词的词向量;运算子模块，用于将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。
[0025] 可选的，所述相似度计算模块，包括:第一计算子模块，用于计算获得所述目标词向量与所述设定词向量之间的余弦值，将所述余弦值作为所述相似度;或者，第二计算子模块，计算获得所述目标词向量与所述设定词向量之间的相关系数，将所述相关系数作为所述相似度。
[0026] 可选的，所述设定词向量为至少一类参考短信的词向量时，所述装置还包括:参考词向量获取模块，用于获得所述至少一类参考短信中的每条参考短信的参考词向量;设定词向量获取模块，用于获得所述每条参考短信的参考词向量的均值作为所述设定词向量。
[0027] 可选的，当所述参考短信为恶意短信时，所述装置还包括:第一查询模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信;第二确认模块，用于获得所述N条短信中与所述目标短信相同或相似的短信数量M;判断M/N是否大于第一预设比例;若M/N大于所述第一预设比例，确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。
[0028] 可选的，当所述参考短信为恶意短信时，所述装置还包括:第二查询模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信;第三确认模块，用于判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大于第二预设比例，其中，所述黑短信包含诈骗短信、广告短信、骚扰短信；若Μ与Ν的比值大于所述第二预设比例，确定所述目标短信为疑似恶意短 {目。
[0029] 可选的，所述参考短信包括:垃圾短信、诈骗短信或骚扰短信。
[0030] 可选的，所述装置还包括:添加模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，生成并显示一提示信息，所述提示信息用于提示用户对所述目标短信进行标记;获得用户对所述目标短信所做的标记信息;若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码，并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码;将所述电话号码添加到分析其归属地和/ 或地区编码号段的行列中。
[0031 ]可选的，所述添加模块还用于:若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。
[0032] 本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果：
[0033] 通过将目标短信和参考短信转换成词向量，并计算目标短信和参考短信的词向量之间的相似度，从而用词向量之间的相似度来判断目标短信与参考短信之间是否相似，获得与参考短信相似的目标短信，检测出新的短信如诈骗短信、广告短信、骚扰短信等，进而解决了现有技术中对新短信的识别存在滞后的技术问题，提高了对新短信的识别效率。
【附图说明】
[0034] 图1为本申请实施例一提供的一种检测相似短信的方法的流程图；
[0035] 图2为本申请实施例一提供的确认恶意短信的流程图；
[0036] 图3为本申请实施例提供二的一种检测相似短信的装置的示意图。
【具体实施方式】
[0037] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。
[0038]本技术领域技术人员可以理

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张金晶;李强;常富洋;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

上一篇：一种语音识别输入的控制方法及系统的制作方法
上一篇：获取正极性汉字的方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。