一种对短信进行分类的方法、装置、通信终端及服务器的制造方法_3

文档序号:9754952阅读:来源:国知局
1构造的分类模型模型之后或同时,S22获取多种类别的短信。可以通过多种方式来实现,例如可以获取人工标注的多种类别的短信,或者接收至少一个客户端上报的至少一种类别的短信。由于人工事先标注分类好的或者客户端的用户提交的分类短信,其准确性很高,本发明实施例将这些类别的短信作为训练样本对短信分类模型进行训练,保证了短信分类模型模型的准确性。
[0067]在步骤S22获取多种类别的短信之后,步骤S23中将多种类别的短信作为训练样本对短信分类模型进行训练,本发明实施例提供了一种可选的方案,在该方案中,根据多种类别的短信内容获得属性特征,包括:先从多种类别的短信内容提取短信的分词,再进一步根据短信的分词获得短信的词向量、主题向量等属性特征,随后将获得的属性特征和对应的短信类别输入短信分类模型进行训练。这里的属性特征还可以包含短信的发送方电话号码、发送方的名称或姓名等,本发明不作限制。
[0068]针对训练获得短信分类模型,将目标短信的至少一个分词中的每个分词作、短信词向量、主题向量分别作为目标短信的特征输入短信分类模型进行分类,进而获得短信分类模型的分类结果,即目标短信所属的第一类型。由于增加了输入分类参数的属性特征词向量和主题向量,提高了对短信的分类精度。并且,由于词向量不仅表征短信本身的语义,还能够表征短信与相似短信之间的关系,而且主题向量能够表征短信所属的主题及与其它主题之间的关系,通过短信的词向量和主题向量,能够帮助短信分类模型对新的、相似的短信进行分类,提升了短信分类模型的泛化能力,即提升了对短信的识别度。
[0069]在S14通过短信分类模型获得目标短信的第一类型后,本申请实施例还进一步判断第一类型是否为垃圾短信中的一种类型,其中,垃圾短信包括诈骗短信、广告短信、骚扰短?目等。
[0070]若第一类型是垃圾短信中的一种类型,那么将目标短信标记为第一类型,并执行将该目标短信作为拦截对象进行拦截的操作。例如:假设短信分类模型将目标短信“12月12在XX广场将举行大型特卖活动……”分为广告短信,判断出广告短信输入垃圾短信中的一种,那么将12月12在XX广场将举行大型特卖活动......”标记为广告短信,具体可以在短信的属性信息中写入广告短信标识码如01,并将12月12在XX广场将举行大型特卖活动......”拦截。
[0071]若第一类是垃圾短信中的一种类似时,本申请实施例还获得发送目标短信的电话号码,建立该目标短信所述的第一类型与该电话号码之间的对应关系,并保存该对应感谢至预置数据库,以供便于后续根据电话号码拦截接收的短信和/或来电。例如:假设电话号码138……9944发送的短信为骚扰短信,那么建立138……9944与骚扰短信之间的对应关系并保存至预置数据库,当138……9944再次发送短信至用户终端时,可以确定138……9944发送的是骚扰短信直接进行拦截。
[0072]若目标短信的第一类型不是垃圾短信中的一种类型时,获得用户对目标短信进行标记的第二类型。具体可以向用户提供短信标记功能,并在确定第一类型不是垃圾短信中的一种类型时,生成一提示信息,在用户查看该目标短信时提醒用户对该短信的类型进行标记。然后,判断用户标记的第二类型与短信分类模型输出的第一类型是否相同,若相同,表明分类准确不再执行后续操作;若不相同,表明分类错误,将目标短信标记为第二类型,并将目标短信作为第二类型的训练样本更新短信分类模型。例如:针对目标短信“您的快递含有非法物品,快递单号为XXX,请与配送员138……9944联系”的分类为快递短信,用户标记为诈骗短信,那么将该短信标记为诈骗短信,并将该短信作为诈骗短信的训练样本,以对短信分类模型进行训练更新短信分类模型。通过不断的更新,提升短信分类模型的精确度及泛化能力。
[0073]若目标短信的第一类型不是垃圾短信中的一种类型时,为了提高垃圾短信的拦截成功率,本申请实施例还针对陌生联系人发来的目标短信执行如下操作:先获得发送目标短信的电话号码;然后对该电话号码的归属地和/或地区编码进行解析,获得解析结果并根据解析结果确定是否对该目标短信执行拦截操作。具体的,若解析获得目标短信的电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区片编码号段不相同,则执行将该目标短信作为拦截对象进行拦截的操作。或者,若在短信接收机主的通信录中不存在与该电话号码的归属地和/或地区编码号段相同的联系电话,则执行将该目标短信作为拦截对象进行拦截的操作。
[0074]例如:收到一陌生号码发来的短信,经过分类判别出该短信不是垃圾短信,但解析出该陌生号码的归属地为“西安”;该陌生号码的归属地“西安”与短信接收机主所在地“北京”不相同,为此可以将该短信当作拦截对象进行拦截。由于短信接收机主大多存在很多异地联系人,收到异地的非垃圾短信也是容易出现的,所以还可以在解析出目标短信的归属地位为“西安”时,执行另一种拦截策略:判断在该机主的通信录中所有的联系电话中是否存在归属地位为“西安”的联系电话;若不存在,将这条目标短信拦截;若存在,则放弃执行拦截操作。
[0075]基于同一发明构思,本发明实施例还提供一种对短信进行分类的装置。请参考图3,本发明实施例提供的一种对短信进行分了的装置,包括:
[0076]分词模块31,用于对目标短信进行分词,获得所述目标短信的至少一个分词;
[0077]词向量获取模块32,用于获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量及语料词矩阵生成所述目标短信的短信词向量;
[0078]主题向量获取模块33,用于根据所述至少一个分词获得所述目标短信所属的主题向量;
[0079]分类模块34,用于根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型。
[0080]在具体实施过程中,所述词向量获取模块32用于:分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量;将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。相应的,所述主题向量获取模块33用于:将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。
[0081]针对获得的至少一个分词、短信词向量及主题向量,可以通过分类模块34进行分类。具体的,所述分类模块34,包括:组合子模块,用于将所述至少一个分词中的每个分词作为一个第一特征,所述短信词向量作为第二特征,所述主题向量作为第三特征;将所有所述第一特征、所述第二特征及所述第三特征组合成一特征矩阵;输入子模块,用于将所述特征矩阵输入短信分类模型对所述目标短信进行分类,获得所述目标短信所属的第一类型。
[0082]在具体实施过程中,本申请实施例提供的一种对短信进行分类的装置还包括:分类训练模块35,用于采用预置的短信分类规则,构造多分类的短信分类模型,其中,所述短信分类模型中的各个参数依据短信的属性特征进行设置,所述属性特征包括短信的分词、词向量及主题向量;获取多种类别的短信,其中,每种类别的短信包含多条;将所述多种类别的短信作为训练样本对所述短信分类模型进行训练,计算所述短信分类模型中的各个参数,得到训练后的短信分类模型。所述分类训练模块35具体包括:特征获取子模块,用于根据所述多种类别的短信内容获得属性特征;训练子模块,用于将提取的属性特征和对应的短信类别输入所述短信分类模型进行训练。
[0083]为了对分类获得的特定类型短信进行拦截,本申请实施例提供的装置还包括:第一判断模块36,用于在所述根据所述至少一个分词、所述短信词向量、所述主题向量对所述目标短信进行分类,获得所述目标短信所属的第一类型后,判断所述第一类型是否为垃圾短信中的一种类型;拦截模块37,用于在所述第一类型是垃圾短信中的一种类型时,将所述目标短信标记为所述第一类型,并执行将所述目标短信作为拦截对象进行拦截的操作。
[0084]进一步的,为了不断更新短信训练模型、提升短信训练模型的泛化能力,本申请实施例提供的所述装置还包括:第二判断模块38,用于在所述第一类型不是垃圾短信中的一种类型时,获得用户对所述目标短信进行标记的第二类型;判断所述第二类型是否与所述第一类型相同;更新模块39,用于在所述第二类型与所述第一类型不相同时,将所述目标短信标记为所述第二类型,并将所述目标短信作为所述第二类型的训练样本更新所述短信训练模型。
[0085]在具体实施过程中,本申请实施例提供的所述装置还包括:号码获取模块40、生成模块41和/或解析模块42。号码获取模块40用于在所述第一类型是垃圾短信中的一种类型时,获得发送所述目标短信的电话号码;生成模块41,用于建立所述目标短信所属的第一类型与所述电话号码之间的对应关系,并保存所述对应关系至预置数据库。号码获取模块40还用于在所述目标短信所属的第一类型不是所述垃圾短信中的一种类型,所述目标短信的发送方为陌生联系人时,获得发送所述目标短信的电话号码;解析模块42用于:对所述电话号码的归属地和/或地区编码号段进行解析;拦截模块37还用于:在所述电话号码的归属地和/或地区编码号段与短信接收机主当前所在地和/或所述当前所在地的地区编码号段不相同时,执行将所述目标短信作为拦截对象进行拦截的操作;或者在所述短信接收机主的通信录中不存在与所述电话号码的归属地和/或地区编码号段相同的联系电话时,执行将所述目标短信作为拦截对象进行拦截的操作。
[0086]基于同一发明构思,本申请实施例还提供一种通信终端,该通信终端可以是手机、pad等电子设备。该通信终端包括图2示出的对短信进行分类的装置,该装置包括:分词模块31,用于对目标短信进行分词,获得所述目标短信的至少一个分词;词向量获取模块32,用于获得所述至少一个分词的至少一个词向量,及根据所述至少一个词向量
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1