一种识别诈骗短信的方法和系统的制作方法

文档序号:9865773阅读:451来源:国知局
一种识别诈骗短信的方法和系统的制作方法
【技术领域】
[0001]本发明涉及机器学习技术领域,具体涉及一种识别诈骗短信的方法和系统。
【背景技术】
[0002]随着手机等便携式移动终端的普及和短信业务的迅速发展,人们频繁地使用短信进行通信,然而,在人们享受着快捷方便的短信通信手段的同时,伴随而来的是日趋泛滥的诈骗短信。诈骗短信是利用手机短信的方式骗取金钱或财务的短信形式,常见的诈骗短信的形式包括:银行卡积分相关内容、扣除年费相关内容、退换票相关内容、参与活动相关内容、开大额信用卡相关内容等,通过这些极具诱惑力的虚假内容骗取用户如银行卡的支付密码、网银的支付密码等重要信息,严重地损害了用户的切身利益。
[0003]目前,现有技术一般通过关键词的匹配来识别过滤诈骗短信,然而,由于短信中的语言和内容的不断变化,现有的关键词往往跟不上诈骗短信的日新月异,很容易被新出现的诈骗短信所规避,诈骗短信的识别准确率、效率均较低。

【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别诈骗短信的方法和系统。
[0005]依据本发明的一个方面,提供了一种识别诈骗短信的方法,该方法包括:
[0006]收集多条已知诈骗短信,获取每条已知诈骗短信的文本信息对应的N维特征向量,获取每条已知诈骗短信所属的诈骗类别;其中,N为大于I的正整数;
[0007]根据所述多条已知诈骗短信的特征向量和诈骗类别信息生成多分类模型;
[0008]接收未知短信;
[0009]获取该未知短信的文本信息对应的N维特征向量;将该特征向量输入到所述多分类模型中进行计算,根据计算结果确定该未知短信是否为诈骗短信,以及当确定是诈骗短信时进一步确定其所属的诈骗类别。
[0010]可选地,所述根据所述多条已知诈骗短信的特征向量和诈骗类别信息生成多分类模型包括:
[0011]根据所述多条已知诈骗短信的特征向量和诈骗类别的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个诈骗类别。
[0012]可选地,所述将该特征向量输入到所述多分类模型中进行计算包括:将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;
[0013]所述根据计算结果确定该未知短信是否为诈骗短信包括:判断所述多个计算结果是否均相同,是则确定该未知短ig不是诈骗短ig,否则确定该未知短ig是诈骗短ig。
[0014]可选地,所述当确定是诈骗短信时进一步确定其所属的诈骗类别包括:
[0015]比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的诈骗类别作为该未知短信所属的诈骗类别。
[0016]可选地,所述获取每条已知诈骗短信的文本信息对应的N维特征向量包括:
[0017]对所述多条已知诈骗短信进行分词处理,去重后得到N个分词结果,将每个分词结果作为一个特征;
[0018]对于每条已知诈骗短信,根据该已知诈骗短信的文本信息分别计算所述N个分词结果对应的权重,将所述N个分词结果对应的权重的集合作为该已知诈骗短信的文本信息对应的N维特征向量。
[0019]可选地,所述获取该未知短信的文本信息对应的N维特征向量包括:根据该未知短信的文本信息分别计算所述N个分词结果对应的权重,将所述N个分词结果对应的权重的集合作为该未知短信的文本信息对应的N维特征向量。
[0020]可选地,所述诈骗类别包括如下一种或多种:积分诈骗、航空诈骗、活动诈骗、支付诈骗。
[0021]可选地,在确定未知短信是诈骗短信且确定其所属的诈骗类别之后,该方法进一步包括:
[0022]向用户发送诈骗短信警示消息,所述诈骗短信警示消息中包括:该未知短信所属的诈骗类别信息。
[0023]可选地,该方法进一步包括:
[0024]每隔预设时间周期,
[0025]重新收集多条已知诈骗短信,获取每条已知诈骗短信的文本信息对应的N维特征向量,获取每条已知诈骗短信所属的诈骗类别;根据重新收集到的多条已知诈骗短信的特征向量和诈骗类别信息以及原有的多分类模型,生成更新后的多分类模型。
[0026]可选地,服务器执行所述收集多条已知诈骗短信,获取每条已知诈骗短信的文本信息对应的N维特征向量,获取每条已知诈骗短信所属的诈骗类别,根据所述多条已知诈骗短信的特征向量和诈骗类别信息生成多分类模型的操作;
[0027]服务器进一步将多分类模型推送到客户端;
[0028]客户端执行所述接收未知短信,获取该未知短信的文本信息对应的N维特征向量,将该特征向量输入到所述多分类模型中进行计算,根据计算结果确定该未知短信是否为诈骗短信,以及当确定是诈骗短信时进一步确定其所属的诈骗类别的操作。
[0029]可选地,服务器执行所述收集多条已知诈骗短信,获取每条已知诈骗短信的文本信息对应的N维特征向量,获取每条已知诈骗短信所属的诈骗类别,根据所述多条已知诈骗短信的特征向量和诈骗类别信息生成多分类模型的操作;
[0030]客户端执行所述接收未知短信的操作,并进一步将接收到的未知短信上传到服务器;
[0031]服务器执行所述获取该未知短信的文本信息对应的N维特征向量,将该特征向量输入到所述多分类模型中进行计算,根据计算结果确定该未知短信是否为诈骗短信,以及当确定是诈骗短信时进一步确定其所属的诈骗类别的操作。
[0032]依据本发明的另一个方面,提供了一种识别诈骗短信的系统,该系统包括:
[0033]样本收集单元,适于收集多条已知诈骗短信,获取每条已知诈骗短信的文本信息对应的N维特征向量,获取每条已知诈骗短信所属的诈骗类别;其中,N为大于I的正整数;
[0034]模型生成单元,适于根据所述多条已知诈骗短信的特征向量和诈骗类别信息生成多分类模型;
[0035]短信接收单元,适于接收未知短信;
[0036]识别处理单元,适于获取该未知短信的文本信息对应的N维特征向量;将该特征向量输入到所述多分类模型中进行计算,根据计算结果确定该未知短信是否为诈骗短信,以及当确定是诈骗短信时进一步确定其所属的诈骗类别。
[0037]可选地,所述模型生成单元,适于根据所述多条已知诈骗短信的特征向量和诈骗类别的对应关系,基于支持向量机算法生成多分类模型;所述多分类模型包括多个分类函数,每个分类函数对应于一个诈骗类别。
[0038]可选地,所述识别处理单元,适于将该特征向量分别代入到所述多分类模型中的各分类函数中进行计算,得到多个计算结果;适于判断所述多个计算结果是否均相同,是则确定该未知短信不是诈骗短信,否则确定该未知短信是诈骗短信。
[0039]可选地,所述识别处理单元,适于当判断出所述多个计算结果不相同时,比较所述多个计算结果,选择最大的计算结果对应的分类函数,将该分类函数对应的诈骗类别作为该未知短信所属的诈骗类别。
[0040]可选地,所述样本收集单元,适于对所述多条已知诈骗短信进行分词处理,去重后得到N个分词结果,将每个分词结果作为一个特征;对于每条已知诈骗短信,根据该已知诈骗短信的文本信息分别计算所述N个分词结果对应的权重,将所述N个分词结果对应的权重的集合作为该已知诈骗短信的文本信息对应的N维特征向量。
[0041]可选地,所述识别处理单元,适于根据该未知短信的文本信息分别计算所述N个分词结果对应的权重,将所述N个分词结果对应的权重的集合作为该未知短信的文本信息对应的N维特征向量。
[0042]可选地,所述诈骗类别包括如下一种或多种:积分诈骗、航空诈骗、活动诈骗、支付诈骗。
[0043]可选地,该系统进一步包括:报警单元;
[0044]所述报警单元,适于在所述识别处理单元确定未知短信是诈骗短信且确定其所属的诈骗类别之后,向用户发送诈骗短信警示消息,所述诈骗短信警示消息中包括:该未知短信所属的诈骗类别信息。
[0045]可选地,所述样本收集单元,进一步适于每隔预设时间周期,重新收集多条已知诈骗短信,获取每条已知诈骗短信的文本信息对应的N维特征向量,获取每条已知诈骗短信所属的诈骗类别;
[0046]所述模型生成单元,进一步适于根据重新收集到的多条已知诈骗短信的特征向量和诈骗类别信息以及原有的多分类模型,生成更新后的多分类模型。
[0047]可选地,所述样本收集单元和所述模型生成单元部署于服务器;
[0048]所述短信接收单元和所述识别处理单元部署于客户端;
[0049]所述模型生成单元进一步适于将生成的多分类模型推送到所述识别处理单元。
[0050]可选地,所述样本收集单元、所述模型生成单元和所述识别处理单元部署于服务器;
[0051 ]所述短信接收单元部署于客户端;
[0052]所述短信接收单元进一步适于将接收到的未知短信上传至所述识别处理单元。
[0053]根据本发明的技术方案,将已知诈骗短信作为训练样本,根据训练样本的特征(已知诈骗短信的文本信息对应的特征向量)和标签(已知诈骗短信所属的诈骗类别)生成多分类模型,即找到特征与标签之间的映射关系,这样当有特征(未知短信的文本信息对应的特征向量)而无标签的待预测数据(未知短信)输入时,就可以通过特征与标签之间的映射关系找到该待预测数据的标签,即获知未知短信所属的诈骗类别,当发现一个未知短信不属于任何诈骗类别时,确定该未知短信不是诈骗短信。上述过程是一个典型的有监督学习过程,由于训练样本的标签是经过细分后的诈骗类别,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1