1.一种短信类型识别方法,其特征在于,包括:
获取待检测短信;
提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;
分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;
利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。
2.根据权利要求1所述的短信类型识别方法,其特征在于,所述正常短信特征模型向量的创建过程,包括:
对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;
为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;
利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;
利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;
分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。
3.根据权利要求2所述的短信类型识别方法,其特征在于,所述为所述第一分词集的每个分词包中的每个分词分配相应的权重的过程,包括:
结合所述历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算所述第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。
4.根据权利要求1所述的短信类型识别方法,其特征在于,所述垃圾短信特征模型向量的创建过程,包括:
对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。
5.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:
判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信。
6.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:
计算所述第一相似度与所述第二相似度之间的差的绝对值,得到相似度差值;
判断所述相似度差值是否大于预设阈值;
若所述相似度差值大于所述预设阈值,则判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信;
若所述相似度差值小于或等于所述预设阈值,则禁止对所述待检测短信进行类型识别。
7.一种短信类型识别系统,其特征在于,包括:
第一获取模块,用于获取待检测短信;
第一向量创建模块,用于提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;
第二向量创建模块,用于预先创建正常短信特征模型向量;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量;
第三向量创建模块,用于预先创建垃圾短信特征模型向量;其中,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;
相似度计算模块,用于分别计算所述目标特征向量与所述正常短信特征模型向量和所述垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;
类型确定模块,用于利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。
8.根据权利要求7所述的短信类型识别系统,其特征在于,所述第二向量创建模块,包括:
第一分词单元,用于对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第一权重分配单元,用于为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;
第一过滤单元,用于利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;
第一矩阵构造单元,用于利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;
第一向量创建单元,用于分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。
9.根据权利要求7所述的短信类型识别系统,其特征在于,所述第三向量创建模块,包括:
第二分词单元,用于对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第二权重分配单元,用于为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
第二过滤单元,用于利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
第二矩阵构造单元,用于利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
第二向量创建单元,用于分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。
10.一种短信管理平台,其特征在于,包括如权利要求7至9任一项所述的短信类型识别系统。