一种垃圾短信过滤方法及装置的制造方法

文档序号:9528175阅读:820来源:国知局
一种垃圾短信过滤方法及装置的制造方法
【技术领域】
[0001] 本发明涉及移动通信中的反垃圾短信领域,尤其涉及一种垃圾短信过滤方法及装 置。
【背景技术】
[0002] 目前,在移动通信中,随着垃圾短信的传播蔓延,移动用户的利益受到侵害,服务 运营商的正常运营秩序受到影响,从而危害了移动互联网安全和社会稳定。
[0003] 然而,现有的垃圾短信过滤技术存在严重缺陷,其准确性低,且用于过滤垃圾短信 的特征模型不可理解,属于黑盒操作。另外,现有的垃圾短信过滤技术难以处理不完备数 据,也无法融入先验知识。

【发明内容】

[0004] 有鉴于此,本发明实施例期望提供一种垃圾短信过滤方法及装置,通过对信度网 分类器进行集成的方式,能够有效提高过滤垃圾短信的准确率。
[0005] 为达到上述目的,本发明实施例的技术方案是这样实现的:
[0006] 本发明实施例提供一种垃圾短信过滤方法,该方法包括:
[0007] 通过N个信度网分类器分别对待处理短信进行第一分类判断,获得N个第一分类 结果;其中,所述N为大于等于2的正整数;
[0008] 根据所述N个第一分类结果对所述N个信度网分类器进行集成,形成集成后的信 度网分类器;
[0009] 根据所述集成后的信度网分类器对所述待处理短信进行第二分类判断,获得第二 分类结果;
[0010] 若所述第二分类结果为所述待处理短信为垃圾短信,对所述待处理短信进行过 滤。
[0011] 上述方案中,所述通过N个信度网分类器分别对待处理短信进行第一分类判断, 获得N个第一分类结果之前,所述方法还包括:获取短信样本集;通过标识的划分和标识精 化处理的方式对所述短信样本集进行训练,获得所述N个信度网分类器分别用于对待处理 短信进行第一分类判断的特征模型。
[0012] 上述方案中,所述通过N个信度网分类器分别对待处理短信进行第一分类判断, 获得N个第一分类结果包括:
[0013] 将采用分词处理所获取的待处理短信的特征向量发送给所述N个信度网分类器; 所述N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述 待处理短信的特征向量进行检测,获得N个第一分类结果;所述第一分类结果包括所述待 处理短信为垃圾短信或所述待处理短信为非垃圾短信。
[0014] 上述方案中,所述根据所述N个第一分类结果对所述N个信度网分类器进行集成, 形成集成后的信度网分类器包括:
[0015] 根据所述N个第一分类结果,采用距离函数确定所述N个信度网分离器中任意两 个分类器之间的相似度,形成相似度矩阵;根据所述相似度矩阵,通过改进仿射传播聚类算 法对所述N个信度网分类器进行聚类,获得K个由所述N个信度网分类器组成的类簇;分别 在所述K个类簇中选择精度最高的信度网分类器,形成基分类器组;对所述基分类器组进 行集成处理,获得集成后的信度网分类器;其中,所述K为大于等于2且小于等于N的正整 数。
[0016] 上述方案中,所述对所述基分类器组进行集成处理的方式包括证据理论或拉格朗 日乘数法。
[0017] 本发明实施例还提供一种垃圾短信过滤装置,该装置包括:第一分类判断模块、集 成处理模块、第二分类判断模块、以及过滤模块;其中,
[0018] 所述第一分类判断模块,用于通过N个信度网分类器分别对待处理短信进行第一 分类判断,获得N个第一分类结果;
[0019] 所述集成处理模块,用于根据所述N个第一分类结果对所述N个信度网分类器进 行集成,形成集成后的信度网分类器;
[0020] 所述第二分类判断模块,用于根据所述集成后的信度网分类器对所述待处理短信 进行第二分类判断,获得第二分类结果;
[0021] 所述过滤模块,用于当所述第二分类结果为所述待处理短信为垃圾短信时,对所 述待处理短信进行过滤。
[0022] 上述方案中,所述装置还包括:训练模块;其中,
[0023] 所述训练模块,用于获取短信样本集;通过标识的划分和标识精化处理的方式对 所述短信样本集进行训练,获得所述N个信度网分类器分别用于对待处理短信进行第一分 类判断的特征模型。
[0024] 上述方案中,所述第一分类判断模块,具体用于将采用分词处理所获取的待处理 短信的特征向量发送给所述N个信度网分类器;所述N个信度网分类器分别根据用于对待 处理短信进行第一分类判断的特征模型对所述待处理短信的特征向量进行检测,获得N个 第一分类结果;所述第一分类结果包括所述待处理短信为垃圾短信或所述待处理短信为非 垃圾短信。
[0025] 上述方案中,所述集成处理模块,具体用于根据所述N个第一分类结果,采用距离 函数确定所述N个信度网分离器中任意两个分类器之间的相似度,形成相似度矩阵;根据 所述相似度矩阵,通过改进仿射传播聚类算法对所述N个信度网分类器进行聚类,获得K 个由所述N个信度网分类器组成的类簇;分别在所述K个类簇中选择精度最高的信度网分 类器,形成基分类器组;对所述基分类器组进行集成处理,获得集成后的信度网分类器;其 中,所述K为大于等于2且小于等于N的正整数。
[0026] 上述方案中,所述集成处理模块对所述基分类器组进行集成处理的方式包括证据 理论或拉格朗日乘数法。
[0027] 本发明实施例所提供的垃圾短信过滤方法及装置,通过N个信度网分类器分别对 待处理短信进行第一分类判断,获得N个第一分类结果;根据所述N个第一分类结果对所 述N个信度网分类器进行集成,形成集成后的信度网分类器;根据所述集成后的信度网分 类器对所述待处理短信进行第二分类判断,获得第二分类结果;若所述第二分类结果为所 述待处理短信为垃圾短信,对所述待处理短信进行过滤。如此,通过对信度网分类器进行集 成的方式,能够有效提高过滤垃圾短信的准确率。
【附图说明】
[0028] 图1为本发明实施例垃圾短信过滤方法的实现流程示意图;
[0029] 图2为本发明实施例中r(h,k)与a(h,k)的关系图;
[0030] 图3为本发明实施例垃圾短信过滤装置的组成结构示意图。
【具体实施方式】
[0031] 在本发明实施例中,通过N个信度网分类器分别对待处理短信进行第一分类判 断,获得N个第一分类结果;根据所述N个第一分类结果对所述N个信度网分类器进行集 成,形成集成后的信度网分类器;根据所述集成后的信度网分类器对所述待处理短信进行 第二分类判断,获得第二分类结果;若所述第二分类结果为所述待处理短信为垃圾短信,对 所述待处理短信进行过滤;其中,所述N为大于等于2的正整数。
[0032] 下面结合附图及具体实施例对本发明再作进一步详细的说明。
[0033] 图1为本发明实施例垃圾短信过滤方法的实现流程示意图,如图1所示,本发明实 施例垃圾短信过滤方法包括 :
[0034] 步骤S100 :通过N个信度网分类器分别对待处理短信进行第一分类判断,获得N 个第一分类结果;其中,所述N为大于等于2的正整数。
[0035] 这里,在步骤S100之前,所述垃圾短信过滤方法还包括:获取短信样本集;通过标 识的划分和标识精化处理的方式对所述短信样本集进行训练,获得所述N个信度网分类器 分别用于对待处理短信进行第一分类判断的特征模型,即训练集。
[0036] 具体地,所述通过N个信度网分类器分别对待处理短信进行第一分类判断,获得N 个第一分类结果包括:
[0037] 将采用分词处理所获取的待处理短信的特征发送给所述N个信度网分类器;所述 N个信度网分类器分别根据用于对待处理短信进行第一分类判断的特征模型对所述待处理 短信的特征进行检测,获得N个第一分类结果;所述第一分类结果包括所述待处理短信为 垃圾短信或所述待处理短信为非垃圾短信。
[0038
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1