骚扰短信判别方法及装置的制造方法

文档序号:9646603阅读:383来源:国知局
骚扰短信判别方法及装置的制造方法
【技术领域】
[0001]本发明涉及移动终端技术,具体而言,本发明涉及一种骚扰短信判别方法及装置。
【背景技术】
[0002]随着信息技术的发展,移动通信成为人们日常通信的主要手段,除电话、视频等通信方式以外,短信也作为一种方便快捷的通信方式,成为性价比最高、覆盖面最广的通信方式。但随之而来的骚扰短信给用户带来了很大困扰。商家做宣传、不法分子通过短信发钓鱼网址等,会发送骚扰短信给用户。因此,现有技术为了避免接收大量骚扰短信的推送,会基于一定的策略判断当前接收的短信是否是对用户有用的短信,而将判别为骚扰短信的信息自动放入黑名单或删除,从而防止大量骚扰短信给用户带来的不便。
[0003]现有技术通常根据通讯录判别短信的发送方是否为陌生号码,以判别该短信是否为骚扰短信,或通过简单的策略对骚扰短信进行过滤,造成将对用户有用的短信误判成骚扰短信,基于此,需要提供一种更精确的骚扰短信判别方法,以提高判断骚扰短信的正确率。

【发明内容】

[0004]本发明的目的旨在解决上述至少一个问题,提供一种骚扰短信判别方法及装置,以尽可能正确地判别骚扰短信。
[0005]为了实现上述目的,本发明提供一种骚扰短信判别方法,包括以下步骤:
[0006]解析原始短信内容以获取其中的各个词和数字信息;
[0007]以所述数字信息为基准分别计算各个词到各数字的距离;
[0008]将所述距离作为权重,各个词作为维度,对短信内容进行描述以生成相应的多个特征向量;
[0009]将每个特征向量分别输入分类模型以获得输出结果;
[0010]基于所述输出结果判别该短信是否为骚扰短信。
[0011]具体的,所述分类模型为预先训练的模型,其训练步骤如下:
[0012]对样本集合中的每条原始短信内容进行解析以获取其中的各个词和数字信息;
[0013]以所述数字信息为基准计算各个词分别到各个数字的距离;
[0014]将所述相应距离作为权重,各个词作为维度,对每条短信内容进行描述以生成相应的训练样本;
[0015]将训练样本人工标记为正样本和负样本;
[0016]采用所述正样本和负样本训练分类模型。
[0017]进一步,所述对短信内容进行描述以生成相应的特征向量的具体步骤为:分别以所述各个数字作为基准,将其前面和后面的词作为维度,计算其前面和后面的词分别到各个数字的距离,将相应距离作为权重,以生成用于描述该短信的多个特征向量。
[0018]具体的,所述各个词到所述各个数字的距离以每个字作为单位距离进行表征。
[0019]具体的,所述解析步骤具体如下:
[0020]删除原始短信中的特定信息;
[0021]对短信内容基于语法进行分词,以获取短信中的词、数字及相应词性;
[0022]提取其中的数字信息。
[0023]具体的,所述特定信息包括URL、IP地址、移动电话、客户电话、固定电话。
[0024]较佳的,采用adaboost算法训练分类模型。
[0025]具体的,所述基于所述输出结果判别该短信是否为骚扰短信的具体步骤为:
[0026]当该短信的多个特征向量中至少存在一个特征向量的输出结果为正确时,则判别该短信为正常短信;
[0027]否则判别该短信为骚扰短信。
[0028]优选的,所述输出结果为1则表征正确,输出结果为0则表征错误。
[0029]进一步,还包括步骤,将分类模型判别为骚扰短信的短信存储于黑名单。
[0030]进一步,还包括步骤,将判别为骚扰短信的短信从用户短信列表中删除。
[0031]一种骚扰短信判别装置,包括:
[0032]解析模块:用于解析原始短信内容以获取其中的各个词和数字信息;
[0033]距离计算模块:用于以所述数字信息为基准分别计算各个词到各数字的距离;
[0034]特征向量生成模块:用于将所述距离作为权重,各个词作为维度,对短信内容进行描述以生成相应的多个特征向量;
[0035]分类模块:用于将每个特征向量分别输入分类模型以获得输出结果;
[0036]判别模块:用于基于所述输出结果判别该短信是否为骚扰短信。
[0037]具体的,所述分类模型为预先训练的模型,基于训练模块训练生成,所述训练模块执行的步骤如下:
[0038]对样本集合中的每条原始短信内容进行解析以获取其中的各个词和数字信息;
[0039]以所述数字信息为基准计算各个词分别到各个数字的距离;
[0040]将所述相应距离作为权重,各个词作为维度,对每条短信内容进行描述以生成相应的训练样本;
[0041]将训练样本人工标记为正样本和负样本;
[0042]采用所述正样本和负样本训练分类模型。
[0043]具体的,所述特征向量生成模块执行的具体步骤为:分别以所述各个数字作为基准,将其前面和后面的词作为维度,计算其前面和后面的词分别到各个数字的距离,将相应距离作为权重,以生成用于描述该短信的多个特征向量。
[0044]具体的,所述各个词到所述各个数字的距离以每个字作为单位距离进行表征。
[0045]具体的,所述解析模块执行的步骤具体如下:
[0046]删除原始短信中的特定信息;
[0047]对短信内容基于语法进行分词,以获取短信中的词、数字及相应词性;
[0048]提取其中的数字信息。
[0049]具体的,所述特定信息包括URL、IP地址、移动电话、客户电话、固定电话。
[0050]较佳的,所述训练模块采用adaboost算法训练分类模型。
[0051]具体的,所述判别模块执行的具体步骤为:
[0052]当该短信的多个特征向量中至少存在一个特征向量的输出结果为正确时,则判别该短信为正常短信;
[0053]否则判别该短信为骚扰短信。
[0054]具体的,所述输出结果为1则表征正确,输出结果为0则表征错误。
[0055]进一步,还包括黑名单模块,用于将分类模型判别为骚扰短信的短信存储于黑名单。
[0056]进一步,还包括删除模块,用于将判别为骚扰短信的短信从用户短信列表中删除。
[0057]相比现有技术,本发明的方案具有以下优点:
[0058]本发明通过对短信内容进行分词解析,提取其中的数字信息,并以各数字作为基准采用各个词及分别到各个数字的距离为特征描述短信以生成特征向量,通过预先训练的分类模型判断该特征向量是否存在正确的数字,如果至少存在一个数字正确则判断该短信为正常短信,否则为骚扰短信。基于本发明所述方法进行骚扰短信的判断,能够更精确确定用户移动终端接收的短信是否为骚扰短信,特别是对于银行推送的消费信息、物流公司推送的收货信息等具有有效数字的信息,降低该些信息被误判为骚扰短信的概率,进一步提高骚扰短信判别的精度。
[0059]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0060]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0061]图1为本发明所述骚扰短信判别方法的流程示意图;
[0062]图2为本发明所述短信解析步骤的流程示意图;
[0063]图3为本发明所述分类模型训练步骤的流程示意图;
[0064]图4为本发明所述骚扰短信判别装置的结构示意图。
【具体实施方式】
[0065]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0066]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0067]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0068]本技术领域技术人员可以理解,这里所使
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1