一种对短信进行分类的方法、装置、通信终端及服务器的制造方法

文档序号:9754952阅读:770来源:国知局
一种对短信进行分类的方法、装置、通信终端及服务器的制造方法
【技术领域】
[0001]本发明涉及通信技术领域,尤其涉及一种对短信进行分类的方法、装置、通信终端及服务器。
【背景技术】
[0002]随着科学技术的不断发展,电子技术也得到了飞速的发展,电子产品的种类也越来越多,人们也享受到了科技发展带来的各种便利。现在人们可以通过各种类型的移动终端,享受随着科技发展带来的舒适生活。例如,智能手机、已经成为人们生活中一个重要的组成部分,用户可以使用智能手机打电话、收发短信等,实现随时随地快速通信。
[0003]短信由于其具有短小精要、成本低廉等优点被人们广泛的使用,也正因为它使用的广泛和成本低廉常被广告商、不法分子等所利用。人们常常会收到诸多垃圾短信,如:诈骗短信、广告短信、骚扰短信等等。为了避免这些对用户来说无用设置有害的垃圾短信对用户造成困扰,现有技术会对用户目标短信进行分类,然后将属于垃圾短信的这类短信以及用户标记的不想收到的短信进行拦截。
[0004]现有技术中,对短信进行分类时,通常是先对短信进行分词,然后将分词输入分类模型中进行分类,这种仅根据分词进行分类的方式仅从分词层面上考虑短信的特征属性,导致其分类结果存在精确度较低的技术问题。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种对短信进行分类的方法、装置、通信终端及服务器。
[0006]本发明的一个方面,提供了一种对短信进行分类的方法,包括:
[0007]对目标短信进行分词,获得所述目标短信的至少一个分词;
[0008]获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;
[0009]根据所述至少一个分词获得所述目标短信所属的主题向量;
[0010]根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型。
[0011]可选的,所述获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量,包括:分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量;将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。
[0012]可选的,根据所述至少一个分词获得所述目标短信所述的主题向量,包括:将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。
[0013]可选的,根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型,包括:将所述至少一个分词中的每个分词作为一个第一特征,所述短信词向量作为第二特征,所述主题向量作为第三特征;将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵;将所述特征矩阵输入短信分类模型对所述目标短信进行分类,获得所述目标短信所属的第一类型。
[0014]可选的于,所述短信分类模型通过如下方法获得:
[0015]采用预置的短信分类规则,构造多分类的短信分类模型,其中,所述短信分类模型中的各个参数依据短信的属性特征进行设置,所述属性特征包括短信的分词、词向量及主题向量;获取多种类别的短信,其中,每种类别的短信包含多条;将所述多种类别的短信作为训练样本对所述短信分类模型进行训练,计算所述短信分类模型中的各个参数,得到训练后的短信分类模型。
[0016]可选的,所述将所述多种类别的短信作为训练样本对所述短信分类模型进行训练,包括:根据所述多种类别的短信内容获得属性特征;将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。
[0017]可选的,在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型后,所述方法还包括:判断所述第一类型是否为垃圾短信中的一种类型;若所述第一类型是垃圾短信中的一种类型,将所述目标短信标记为所述第一类型,并执行将所述目标短信作为拦截对象进行拦截的操作。
[0018]可选的,若所述第一类型不是垃圾短信中的一种类型,所述方法还包括:
[0019]获得用户对所述目标短信进行标记的第二类型;判断所述第二类型是否与所述第一类型相同;若所述第二类型与所述第一类型不相同,将所述目标短信标记为所述第二类型,并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。
[0020]可选的,若所述第一类型是垃圾短信中的一种类型,所述方法还包括:获得发送所述目标短信的电话号码;建立所述目标短信所属的第一类型与所述电话号码之间的对应关系,并保存所述对应关系至预置数据库。
[0021]可选的,若所述目标短信所属的第一类型不是所述垃圾短信中的一种类型,所述目标短信的发送方为陌生联系人,所述方法还包括:
[0022]获得发送所述目标短信的电话号码;对所述电话号码的归属地和/或地区编码号段进行解析;若所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同,则执行将所述目标短信作为拦截对象进行拦截的操作;或者,若在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话,则执行将所述目标短信作为拦截对象进行拦截的操作。
[0023]本发明的另一个方面,提供一种对短信进行分类的装置,包括:
[0024]分词模块,用于对目标短信进行分词,获得所述目标短信的至少一个分词;
[0025]词向量获取模块,用于获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;
[0026]主题向量获取模块,用于根据所述至少一个分词获得所述目标短信所属的主题向量;
[0027]分类模块,用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型。
[0028]可选的,所述词向量获取模块用于:分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量;将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。
[0029]可选的,所述主题向量获取模块,用于:将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。
[0030]可选的,所述分类模块,包括:组合子模块,用于将所述至少一个分词中的每个分词作为一个第一特征,所述短信词向量作为第二特征,所述主题向量作为第三特征;将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵;输入子模块,用于将所述特征矩阵输入短信分类模型对所述目标短信进行分类,获得所述目标短信所属的第一类型。
[0031]可选的,通过如下所述装置还包括:分类训练模块,用于采用预置的短信分类规贝1J,构造多分类的短信分类模型,其中,所述短信分类模型中的各个参数依据短信的属性特征进行设置,所述属性特征包括短信的分词、词向量及主题向量;获取多种类别的短信,其中,每种类别的短信包含多条;将所述多种类别的短信作为训练样本对所述短信分类模型进行训练,计算所述短信分类模型中的各个参数,得到训练后的短信分类模型。
[0032]可选的,所述分类训练模块,包括:特征获取子模块,用于根据所述多种类别的短信内容获得属性特征;训练子模块,用于将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。
[0033]可选的,所述装置还包括:第一判断模块,用于在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型后,判断所述第一类型是否为垃圾短信中的一种类型;拦截模块,用于在所述第一类型是垃圾短信中的一种类型时,将所述目标短信标记为所述第一类型,并执行将所述目标短信作为拦截对象进行拦截的操作。
[0034]可选的,所述装置还包括:第二判断模块,用于在所述第一类型不是垃圾短信中的一种类型时,获得用户对所述目标短信进行标记的第二类型;判断所述第二类型是否与所述第一类型相同;更新模块,用于在所述第二类型与所述第一类型不相同时,将所述目标短信标记为所述第二类型,并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。
[0035]可选的,所述装置还包括:号码获取模块,用于在所述第一类型是垃圾短信中的一种类型时,获得发送所述目标短信的电话号码;生成模块,用于建立所述目标短信所属的第一类型与所述电话号码之间的对应关系,并保存所述对应关系至预置数据库。
[0036]可选的,所述装置还包括:号码获取模块,用于在所述目标短信所属的第一类型不是所述垃圾短信中的一种类型,所述目标短信的发送方为陌生联系人时,获得发送所述目标短信的电话号码;解析模块,用于对所述电话号码的归属地和/或地区编码号段进行解析;拦截模块,用于在所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同时,执行将所述目标短信作为拦截对象进行拦截的操作;或者在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话时,执行将所述目标短信作为拦截对象进行拦截的操作。
[0037]本发明的另一个方面,提供一种通信终端,包括一种对短信进行分类的装置,该装置包括:分词模块,用于对目标短信进行分词,获得所述目标短信的至少一个分词;词向量获取模块,用于获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;主题向量获取模块,用于根据所述至少一个分词
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1