一种短信类型识别方法、系统及短信管理平台与流程

文档序号:12551367阅读:199来源:国知局
一种短信类型识别方法、系统及短信管理平台与流程

本发明涉及短信管理技术领域,特别涉及一种短信类型识别方法、系统及短信管理平台。



背景技术:

当前,随着短信业务的发展,手机用户受到越来越多垃圾短信的骚扰。非法短信、骚扰短信、欺诈短信以及各类垃圾短信大行其道。根据手机短消息状况调查报告显示,用户平均每周收到垃圾短信11.4条,收到垃圾短消息占全部短消息的比例为22.6%。垃圾短消息治理刻不容缓,治理好垃圾短信成为运营商提高通信服务质量的关键所在。

一般地,垃圾短信的具有如下两个特征:第一,垃圾短信发送者和接受者之间不存在社会网络联系,第二,内容相同或相似的短信在短时间内达到一定的发送量。

然而,由于物流、金融等正常短信虽然并不群发,但由于用户数量众多,造成其短时间内发送量巨大,使得上述两特点都难以被短信服务供应商用于反垃圾短信。如何对短信类型进行有效识别是目前亟待解决的问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种短信类型识别方法、系统及短信管理平台,能够对短信类型进行有效地识别。其具体方案如下:

一种短信类型识别方法,包括:

获取待检测短信;

提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;

分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;

利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。

可选的,所述正常短信特征模型向量的创建过程,包括:

对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;

为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;

利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;

利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;

分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。

可选的,所述为所述第一分词集的每个分词包中的每个分词分配相应的权重的过程,包括:

结合所述历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算所述第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。

可选的,所述垃圾短信特征模型向量的创建过程,包括:

对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;

为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;

利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;

利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;

分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。

可选的,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:

判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信。

可选的,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:

计算所述第一相似度与所述第二相似度之间的差的绝对值,得到相似度差值;

判断所述相似度差值是否大于预设阈值;

若所述相似度差值大于所述预设阈值,则判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信;

若所述相似度差值小于或等于所述预设阈值,则禁止对所述待检测短信进行类型识别。

本发明还相应公开了一种短信类型识别系统,包括:

第一获取模块,用于获取待检测短信;

第一向量创建模块,用于提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;

第二向量创建模块,用于预先创建正常短信特征模型向量;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量;

第三向量创建模块,用于预先创建垃圾短信特征模型向量;其中,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;

相似度计算模块,用于分别计算所述目标特征向量与所述正常短信特征模型向量和所述垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;

类型确定模块,用于利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。

可选的,所述第二向量创建模块,包括:

第一分词单元,用于对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;

第一权重分配单元,用于为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;

第一过滤单元,用于利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;

第一矩阵构造单元,用于利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;

第一向量创建单元,用于分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。

可选的,所述第三向量创建模块,包括:

第二分词单元,用于对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;

第二权重分配单元,用于为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;

第二过滤单元,用于利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;

第二矩阵构造单元,用于利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;

第二向量创建单元,用于分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。

本发明进一步公开了一种短信管理平台,包括前述公开的短信类型识别系统。

本发明中,短信类型识别方法,包括:获取待检测短信;提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量;分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用第一相似度和第二相似度,确定出待检测短信的短信类型。

可见,本发明预先创建了正常短信特征模型向量以及垃圾短信特征模型向量,然后在获取到待检测短信的时候,将会创建与该待检测短信对应的目标特征向量,接着分别计算上述目标特征向量与上述正常短信特征模型向量以及垃圾短信特征模型向量之间的相似度,得到相应的第一相似度和第二相似度,最后利用上述两个相似度,确定出上述待检测短信的短信类型,由于上述正常短信特征模型向量以及垃圾短信特征模型向量是分别对历史正常短信集和历史垃圾短信集进行学习训练后得到的向量,它们能够有效地反映出正常短信以及垃圾短信的短信特征,利用这两种向量,可有效地确定出待检测短信的短信类型。也即,本发明能够对短信类型进行有效地识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种短信类型识别方法流程图;

图2为本发明实施例公开的正常短信特征模型向量创建方法流程图;

图3为本发明实施例公开的一种稀疏矩阵示意图;

图4为本发明实施例公开的一种具体的稀疏矩阵存储结构示意图;

图5为本发明实施例公开的一种具体的稀疏矩阵存储结构示意图;

图6为本发明实施例公开的垃圾短信特征模型向量创建方法流程图;

图7为本发明实施例公开的一种具体的短信类型识别方法流程图;

图8为本发明实施例公开的一种具体的短信类型识别方法流程图;

图9为本发明实施例公开的一种具体的短信类型识别系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种短信类型识别方法,参见图1所示,该方法包括:

步骤S11:获取待检测短信。

步骤S12:提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量。

步骤S13:分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度。其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量。

参见图2所示,本实施例中,上述正常短信特征模型向量的创建过程,具体可以包括下面步骤S21至步骤S25:

步骤S21:对历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与历史正常短信集对应的第一分词集;其中,第一分词集中包括N个分词包,N值与历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词。

步骤S22:为第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集。

步骤S23:利用信息增益方法,对第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集。

步骤S24:利用第一特征词集以及第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵。

具体的,参见图3所示,图3中示出了一种具体的稀疏矩阵。为了节省第一稀疏矩阵所占用的存储空间,本实施例可以利用二维哈希结构来保存上述第一稀疏矩阵,具体如图4所示和图5所示,其中,图4中的二维哈希结构是基于短信优先索引的二维哈希结构,图5中的二维哈希结构是基于特征词优先索引的二维哈希结构。由于不需要存储稀疏矩阵中的0,存储空间大大压缩;又因为使用了哈希表作为数据结构,哈希表的检索时间复杂度是常数,因此,在对上述稀疏矩阵进行遍历时,如果采用的存储结构是基于特征词优先索引的结构,则时间复杂度为n,也即是总词数,如果采用的存储结构是基于短信优先索引的结构,时间复杂度为m,也即是总短信数。

步骤S25:分别对第一稀疏矩阵中的每一维度进行算术平均,得到正常短信特征模型向量。

其中,上述步骤S22中,为第一分词集的每个分词包中的每个分词分配相应的权重的过程,具体可以包括:结合历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。

也即,本实施例在计算每个分词对应的权重时,可以考虑短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率对其的影响。具体的,根据任一正常短信的短信发送方,对预先构建的正常短信发送方数据库进行查找,以确定出该正常短信的短信发送方的信誉系数,可以理解的是,上述正常短信发送方数据库中记录了大量正常短信发送方的信誉系数,任一正常短信的短信发送方的信誉系数越高,则该正常短信中的分词的权重也越高。进一步的,如果任一正常短信中的某一分词与预先获取到的正常短信关键词相一致,则该分词的权重与相应的正常短信关键词的关键词系数呈正相关关系,也即,若某一正常短信关键词的关键词系数越大,则与该正常短信关键词相一致的分词的权重也越大,需要说明的是,上述正常短信关键词具体可以是由管理员用户或者普通短信用户上传的位于正常短信中的关键词,本实施例具体可以根据获取到的某个关键词在获取到的全部关键词中所占的比例,确定出该关键词所对应的关键词系数。另外,本实施例具体可以利用TextRank算法,计算某个分词的词频对该分词权重的影响。其次,本实施例还可以在计算某个分词的权重的过程中,将逆文档频率对该分词权重的影响考虑进去。

参见图6所示,本实施例中,上述垃圾短信特征模型向量的创建过程,具体可以包括下面步骤S31至S35:

S31:对历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与历史垃圾短信集对应的第二分词集;其中,第二分词集中包括M个分词包,M值与历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;

S32:为第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;

S33:利用信息增益方法,对第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;

S34:利用第二特征词集以及第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;

S35:分别对第二稀疏矩阵中的每一维度进行算术平均,得到垃圾短信特征模型向量。

其中,上述步骤S32中,为第二分词集的每个分词包中的每个分词分配相应的权重的过程,具体可以包括:结合历史垃圾短信集中每一垃圾短信的短信发送方和/或预先获取到的垃圾短信关键词和/或词频和/或逆文档频率,计算第二分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。

步骤S14:利用第一相似度和第二相似度,确定出待检测短信的短信类型。

可见,本发明实施例预先创建了正常短信特征模型向量以及垃圾短信特征模型向量,然后在获取到待检测短信的时候,将会创建与该待检测短信对应的目标特征向量,接着分别计算上述目标特征向量与上述正常短信特征模型向量以及垃圾短信特征模型向量之间的相似度,得到相应的第一相似度和第二相似度,最后利用上述两个相似度,确定出上述待检测短信的短信类型,由于上述正常短信特征模型向量以及垃圾短信特征模型向量是分别对历史正常短信集和历史垃圾短信集进行学习训练后得到的向量,它们能够有效地反映出正常短信以及垃圾短信的短信特征,利用这两种向量,可有效地确定出待检测短信的短信类型。也即,本发明实施例能够对短信类型进行有效地识别。

参见图7所示,本发明实施例公开了一种具体的短信类型识别方法,包括如下步骤:

步骤S41:获取待检测短信。

步骤S42:提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量。

步骤S43:分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度。

步骤S44:判断第一相似度是否大于第二相似度,如果是,则确定待检测短信的短信类型为正常短信,如果否,则确定待检测短信的短信类型为垃圾短信。

参见图8所示,本发明实施例公开了一种具体的短信类型识别方法,包括如下步骤:

步骤S51:获取待检测短信。

步骤S52:提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量。

步骤S53:分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度。

步骤S54:计算第一相似度与第二相似度之间的差的绝对值,得到相似度差值。

步骤S55:判断相似度差值是否大于预设阈值。

步骤S56:若相似度差值大于预设阈值,则判断第一相似度是否大于第二相似度,如果是,则确定待检测短信的短信类型为正常短信,如果否,则确定待检测短信的短信类型为垃圾短信。

可以理解的是,上述预设阈值可以根据实际应用经验来进行设定。本实施例中,当相似度差值大于上述预设阈值,则说明上述待检测短信的短信特征比较显著,不容易产生误判情况。

步骤S57:若相似度差值小于或等于预设阈值,则禁止对待检测短信进行类型识别。

本实施例中,当相似度差值小于或等于上述预设阈值,则说明上述待检测短信的短信特征不是特别显著,容易造成误判。

相应的,本发明实施例还公开了一种短信类型识别系统,参见图9所示,包括:

第一获取模块11,用于获取待检测短信;

第一向量创建模块12,用于提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量;

第二向量创建模块13,用于预先创建正常短信特征模型向量;其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量;

第三向量创建模块14,用于预先创建垃圾短信特征模型向量;其中,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;

相似度计算模块15,用于分别计算目标特征向量与正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;

类型确定模块16,用于利用第一相似度和第二相似度,确定出待检测短信的短信类型。

可见,本发明实施例预先创建了正常短信特征模型向量以及垃圾短信特征模型向量,然后在获取到待检测短信的时候,将会创建与该待检测短信对应的目标特征向量,接着分别计算上述目标特征向量与上述正常短信特征模型向量以及垃圾短信特征模型向量之间的相似度,得到相应的第一相似度和第二相似度,最后利用上述两个相似度,确定出上述待检测短信的短信类型,由于上述正常短信特征模型向量以及垃圾短信特征模型向量是分别对历史正常短信集和历史垃圾短信集进行学习训练后得到的向量,它们能够有效地反映出正常短信以及垃圾短信的短信特征,利用这两种向量,可有效地确定出待检测短信的短信类型。也即,本发明实施例能够对短信类型进行有效地识别。

其中,上述第二向量创建模块,具体可以包括第一分词单元、第一权重分配单元、第一过滤单元、第一矩阵构造单元和第一向量创建单元;其中,

第一分词单元,用于对历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与历史正常短信集对应的第一分词集;其中,第一分词集中包括N个分词包,N值与历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;

第一权重分配单元,用于为第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;

第一过滤单元,用于利用信息增益方法,对第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;

第一矩阵构造单元,用于利用第一特征词集以及第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;

第一向量创建单元,用于分别对第一稀疏矩阵中的每一维度进行算术平均,得到正常短信特征模型向量。

另外,上述第三向量创建模块,具体可以包括第二分词单元、第二权重分配单元、第二过滤单元、第二矩阵构造单元和第二向量创建单元;其中,

第二分词单元,用于对历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与历史垃圾短信集对应的第二分词集;其中,第二分词集中包括M个分词包,M值与历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;

第二权重分配单元,用于为第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;

第二过滤单元,用于利用信息增益方法,对第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;

第二矩阵构造单元,用于利用第二特征词集以及第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;

第二向量创建单元,用于分别对第二稀疏矩阵中的每一维度进行算术平均,得到垃圾短信特征模型向量。

进一步的,本实施例可以基于上述短信类型识别系统在实际应用过程的实际表现,分析其正确率和召回率,然后基于上述正确率和召回率,对上述短信类型识别系统进行评价,得到相应的评分。如果该评分小于预设分数阈值,则发出相应的提醒信息,以提醒相关技术人员继续对该短信类型识别系统进行系统优化。

另外,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。

进一步的,本发明实施例还公开了一种短信管理平台,包括前述实施例中公开的短信类型识别系统。关于该系统的具体构造可以参考前述实施例中公开的内容,在此不再进行赘述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种短信类型识别方法、系统及短信管理平台进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1