垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法_5

文档序号：8383639阅读：来源：国知局

包括；频率统计单元831W及条件概率计算单元832。其中频率统计单元831可W配置用于统计特征向量中各特征在正常消息样本及垃圾消息样本中出现的频率。条件概率计算单元832可W配置用于对特征向量中的每一个特征，根据该特征在正常消息样本及垃圾消息样本中出现的频率，计算仅包含该特征的消息为垃圾消息的条件概率。
[0144] 在一些实施例中，垃圾消息模型的训练装置800还可W包括；交叉验证单元840、调整单元850W及优化单元860。
[0145] 交叉验证单元840可W配置用于对消息样本进行k折交叉验证处理，按照监督学习方式得到k个初始模型及对应的性能，并确定k个初始模型的性能是否满足预定条件。该些实施例中，训练单元830可W包括；全量训练单元（未示出），配置用于响应于k个初始模型的性能满足预定条件，对消息样本进行全量训练，其中k为正整数。
[0146] 调整单元850可W配置用于响应于交叉验证单元840确定的k个初始模型的性能不满足预定条件，进行W下至少一项处理；调整初始模型的参数、对消息样本进行数据清洗、W及优化或重新选择监督学习所采用的算法。
[0147] 优化单元860可W配置用于对垃圾消息模型进行优化。具体地，优化单元可W包括W下至少一个单元：配置用于过滤垃圾消息模型中的介词、量词特征的第一过滤单元，配置用于过滤垃圾消息模型中在消息样本中的出现频率低于预设频率阔值的特征的第二过滤单元，W及配置用于过滤垃圾消息模型中条件概率低于预设概率阔值的特征的第=过滤单元。
[0148] 请参考图9,其示出了根据本申请实施例的垃圾消息的识别装置的结构示意图。
[0149] 如图9所示，垃圾消息的识别装置900可W包括；特征提取单元910、查找单元 920、计算单元930W及确定单元940。其中，特征提取单元910可W配置用于对待识别消息进行特征提取，得到待识别消息的特征向量。查找单元920可W配置用于对特征提取单元910提取得到的特征向量中的每一个特征，在垃圾消息模型中查找仅包含该特征的消息为垃圾消息的条件概率。计算单元930可W配置用于根据查找单元920查找到的特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概率，计算包含特征向量中所有特征的待识别消息为垃圾消息的联合概率。确定单元940可W配置用于响应于计算单元930所计算得到的联合概率大于垃圾消息概率阔值，确定待识别消息为垃圾消息。其中，垃圾消息模型中可W包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。该垃圾消息模型可W由上述垃圾消息模型的训练装置800训练得到。
[0150] 在一些实施例中，垃圾消息的识别装置900还可W包括垃圾消息概率阔值确定单元950。该垃圾消息概率阔值确定单元950可W配置用于按如下来确定垃圾消息概率阔值：依据垃圾消息模型，计算消息测试集中各消息为垃圾消息的概率的概率；对消息测试集中各消息为垃圾消息的概率进行分箱处理；设置概率最小的箱体的概率值为初始正常消息阔值，概率最大的箱体的概率值为初始垃圾消息阔值，设置介于初始正常消息阔值与初始垃圾消息阔值之间的概率值为不确定消息阔值；依次将待确定正常消息阔值向后面的箱体移动、将待确定垃圾消息阔值向前面的箱体移动，直到二者相等；统计每一次移动后消息测试集中误拦、漏拦W及不确定消息的数量，计算代价函数；W及确定最小代价函数所对应的垃圾消息阔值为垃圾消息概率阔值。
[0151] 在一些可选的实现方式中，垃圾消息的识别装置900还可W包括更新单元（未示出），配置用于更新消息测试集，包括加入一些用户举报和/或撤销的消息。
[0152] 在一些实施例中，垃圾消息的识别装置900还可W包括；黑白名单匹配单元960，配置用于判断待识别消息的发送方或所述待识别消息中的关键词是否在设定的黑名单或白名单中。当待识别消息的发送方或待识别消息中的关键词在设定的黑名单中时，确定单元940确定待识别消息为垃圾消息；当待识别消息的发送方或者待识别消息中的关键词在设定的白名单中时，确定单元940确定述待识别消息为正常消息。在该些实施例中，特征提取单元910可W进一步配置用于响应于待识别消息的发送方或者待识别消息中的关键词既不在黑名单也不在设定的白名单中，执行特征提取。
[0153] 应当理解，装置800中记载的诸单元与参考图2描述的方法中的各个步骤相对应。装置900中记载的诸单元与参考图5描述的方法中的各个步骤相对应。由此，上文针对垃圾消息模型训练方法描述的操作和特征同样适用于装置800及其中包含的单元，上文针对垃圾消息的识别方法描述的操作和特征同样适用于装置900及其中包含的单元，在此不再寶述。装置800和900中的相应单元可W与终端设备和/或服务器中的单元相互配合W实现本申请实施例的方案。
[0154] 本申请上述实施例提供的垃圾消息模型的训练装置和垃圾消息的识别装置，可W 精确区分包含同一个关键词的垃圾消息和正常消息，从而提高识别的准确率。
[0155] 下面参考图10,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统1000的结构示意图。
[0156]如图10所示，计算机系统1000包括中央处理单元（CPU)1001，其可W根据存储在只读存储器（ROM) 1002中的程序或者从存储部分1008加载到随机访问存储器（RAM) 1003 中的程序而执行各种适当的动作和处理。在RAM1003中，还存储有系统1000操作所需的各种程序和数据。CPU100UR0M1002W及RAM1003通过总线1004彼此相连。输入/输出（I/O)接口1005也连接至总线1004。
[0157]W下部件连接至I/O接口 1005;包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管（CRT)、液晶显示器（LCD)等W及扬声器等的输出部分1007 ;包括硬盘等的存储部分1008 及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口 1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，W便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0158] 特别地，根据本公开的实施例，上文参考流程图描述的过程可W被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在该样的实施例中，该计算机程序可W通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。
[0159] 附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在该点上，流程图或框图中的每个方框可W代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可W基本并行地执行，它们有时也可W按相反的顺序执行，该依所设及的功能而定。也要注意的是，框图和/或流程图中的每个方框、化及框图和/或流程图中的方框的组合，可W 用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可W用专用硬件与计算机指令的组合来实现。
[0160] 描述于本申请实施例中所设及到的单元可W通过软件的方式实现，也可W通过硬件的方式来实现。所描述的单元也可W设置在处理器中，例如，可W描述为；一种处理器包括获取单元，特征提取单元和训练单元。其中，该些单元的名称在某种情况下并不构成对该单元本身的限定，例如，特征提取单元还可W被描述为"用于特征提取的单元"。
[0161] 作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可W是上述实施例中所述装置中所包含的计算机可读存储介质；也可W是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个W上程序，所述程序被一个或者一个W上的处理器用来执行描述于本申请的垃圾消息模型的训练或垃圾消息的识别方法。
[0162] W上描述仅为本申请的较佳实施例W及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所设及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。
【主权项】
1. 一种垃圾消息模型的训练方法，其特征在于，所述方法包括：获取消息样本，其中所述消息样本包括正常消息样本和垃圾消息样本；对所述消息样本进行特征提取，得到所述消息样本的特征向量；以及采用监督学习方式对所述消息样本进行全量训练，得到垃圾消息模型，其中所述垃圾消息模型包括所述特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。
2. 根据权利要求1所述的方法，其特征在于，所述采用监督学习方式对所述消息样本进行全量训练，包括：统计所述特征向量中各特征在所述正常消息样本及所述垃圾消息样本中出现的频率；以及对所述特征向量中的每一个特征，根据该特征在所述正常消息样本及所述垃圾消息样本中出现的频率，计算仅包含该特征的消息为垃圾消息的条件概率。
3. 根据权利要求1所述的方法，其特征在于，在对所述消息样本进行全量训练之前，所述方法还包括：对所述消息样本进行k折交叉验证处理，按照所述监督学习方式得到k个初始模型及对应的性能；以及确定所述k个初始模型的性能是否满足预定条件；并且所述采用监督学习方式对所述消息样本进行全量训练，包括：响应于所述k个初始模型的性能满足预定条件，对所述消息样本进行全量训练；其中k为正整数。
4. 根据

完整全部详细技术资料下载

当前第5页1 2 3 4 5 6