垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法

文档序号：8383639阅读：244来源：国知局

垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法
【技术领域】
[0001] 本申请设及通信网络技术领域，具体设及消息传送技术领域，尤其设及垃圾消息模型的训练方法和装置，W及垃圾消息的识别方法和装置。
【背景技术】
[0002] 随着通信技术的发展，各种通信设备的使用为用户之间的交流提供了极大的便利，用户之间可W随时地传递文字、图片、语音和视频等通讯信息。
[0003] 然而，在大量的通讯消息中存在着相当一部分无用的、甚至带有欺诈性质的垃圾消息。该些垃圾消息给移动通信终端的用户造成了很大困扰。大量的垃圾消息不仅给通信系统的服务器和消息接收终端增加了额外的负担，而且对用户间的正常交流造成了干扰。
[0004] 现有的对垃圾消息识别方法主要有关键词黑名单方法和正则匹配方法。其中，关键词黑名单匹配方法首先对大量的垃圾消息进行分析，生成关键词库，然后对接收到的消息进行匹配，如果该消息中含有关键词，则认为该消息为垃圾消息；正则匹配方法通过正则表达式判断消息中是否存在匹配的某个字符串，如网址、电话号码等信息，如果存在，则判定该消息为垃圾消息。
[0005] 上述现有的实现方案都需要手工维护和更新，且大量的关键词库和正则表达式手工维护和更新难度大、成本高。并且，上述关键词黑名单和正则匹配方法实时性差，需要根据消息内容编写正则模板或者提取关键词，很难发现新出现的垃圾消息类型。此外，上述关键词黑名单和正则表达式方法一般都是根据经验设定或者从已经标记为垃圾消息的消息中提取，具有一定的随意性，无法识别不在关键词范围内的垃圾消息，识别率也难W保证。

【发明内容】

[0006] 鉴于现有技术中的上述缺陷或不足，期望能够提供一种实时性好、识别率高的方案。为了实现上述一个或多个目的，本申请提供了垃圾消息模型的训练方法和装置W及垃圾消息的识别方法和装置。
[0007] 第一方面，本申请提供了一种垃圾消息模型的训练方法，该方法包括：获取消息样本，其中消息样本包括正常消息样本和垃圾消息样本；对消息样本进行特征提取，得到消息样本的特征向量；W及采用监督学习方式对消息样本进行全量训练，得到垃圾消息模型，其中垃圾消息模型包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。
[000引第二方面，本申请提供了一种垃圾消息的识别方法，该方法包括：对待识别消息进行特征提取，得到待识别消息的特征向量；对特征向量中的每一个特征，在垃圾消息模型中查找仅包含该特征的消息为垃圾消息的条件概率，其中垃圾消息模型依据消息样本训练得至IJ;根据特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概率，计算包含特征向量中所有特征的待识别消息为垃圾消息的联合概率；W及响应于联合概率大于垃圾消息概率阔值，确定待识别消息为垃圾消息。
[0009] 第=方面，本申请提供了一种垃圾消息模型的训练装置，该装置包括：获取单元，配置用于获取消息样本，其中消息样本包括正常消息样本和垃圾消息样本；特征提取单元，配置用于对消息样本进行特征提取，得到消息样本的特征向量；W及训练单元，配置用于采用监督学习方式对消息样本进行全量训练，得到垃圾消息模型，其中垃圾消息模型包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。
[0010] 第四方面，本申请提供了一种垃圾消息的识别装置，该装置包括：特征提取单元，配置用于对待识别消息进行特征提取，得到待识别消息的特征向量；查找单元，配置用于对特征向量中的每一个特征，在垃圾消息模型中查找仅包含该特征的消息为垃圾消息的条件概率，其中垃圾消息模型依据消息样本训练得到；计算单元，配置用于根据特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概率，计算包含特征向量中所有特征的待识别消息为垃圾消息的联合概率；W及确定单元，配置用于响应于联合概率大于垃圾消息概率阔值，确定待识别消息为垃圾消息。
[0011] 本申请提供的垃圾消息模型的训练方法和装置，能够从大量的消息样本中发现隐含但事实存在的垃圾消息模式，该使得训练得到的垃圾消息模型具备对消息进行精确识别的能力。本申请实施方式的垃圾消息识别方法可W精确区分包含同一个关键词的垃圾消息和正常消息，提高了识别的准确率。
【附图说明】
[0012] 通过阅读参照W下附图所作的对非限制性实施例的详细描述，本申请的其它特征、目的和优点将会变得更明显：
[0013] 图1示出了可W应用本申请实施例的示例性系统架构；
[0014]图2示出了根据本申请一个实施例的垃圾消息模型的训练方法的示例性流程图；
[0015] 图3示出了根据本申请一个实施例的全量训练方法的示例性流程图；
[0016]图4示出了根据本申请另一个实施例的垃圾消息模型的训练方法的示例性流程图；
[0017] 图5示出了根据本申请一个实施例的垃圾消息的识别方法的示例性流程图；
[001引图6示出了根据本申请一个实施例的确定垃圾消息概率阔值的示例性流程图；
[0019] 图7示出了根据本申请另一个实施例的垃圾消息识别方法的示例性流程图；
[0020] 图8示出了根据本申请实施例的垃圾消息模型的训练装置的结构示意图；
[0021] 图9示出了根据本申请实施例的垃圾消息的识别装置的结构示意图拟及
[0022] 图10示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
【具体实施方式】
[0023] 下面结合附图和实施例对本申请作进一步的详细说明。可W理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
[0024] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可W相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0025] 图1示出了可W应用本申请实施例的示例性系统架构100。
[0026]如图1所示，系统架构100可W包括终端设备101、102、网络103和服务器104。网络103用W在终端设备101、102和服务器104之间提供通信链路的介质。网络103可W包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0027] 用户110可W使用终端设备1〇1、1〇2通过网络103与服务器104交互，W接收或发送消息等。终端设备1〇1、1〇2上可W安装有各种通讯客户端应用，例如即时通信工具、邮箱客户端、社交平台软件等。
[002引终端设备101、102可W是各种电子设备，包括但不限于个人电脑、智能手机、智能手表、平板电脑、个人数字助理等等。
[0029] 服务器104可W是提供各种服务的服务器。服务器可W对接收到的数据进行存储、分析等处理，并将处理结果反馈给终端设备。
[0030] 需要说明的是，本申请实施例所提供的垃圾消息模型的训练方法W及垃圾消息的识别方法可W由终端设备101、102执行，也可W由服务器104执行，垃圾消息模型的训练装置及垃圾消息的识别装置可W设置于终端设备1〇1、1〇2中，也可W设置于服务器104中。在一些实施例中，垃圾消息模型可W在服务器104中进行训练，训练后的垃圾消息模型可W 存储在终端设备1〇1、1〇2中，W用于识别垃圾消息。例如，在对垃圾消息进行识别时，如果网络103通畅，可W由服务器104进行垃圾消息识别后返回是否为垃圾消息，如果没有网络或网络103不畅通，可W由终端设备1〇1、1〇2进行垃圾消息识别，直接判别消息是否为垃圾消息。
[0031] 应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可W具有任意数目的终端设备、网络和服务器。
[0032] 本发明实施例具体可W包括两个部分，第一部分是对垃圾消息模型的训练，第二部分是依据训练出的垃圾消息模型对接收到的消息进行识别，W识别接收到的消息是否为垃圾消息。
[0033] 垃圾消息模型的训练
[0034] 首先参考图2,其示出了根据本申请一个实施例的垃圾消息模型的训练方法的示例性流程图。
[003引如图2所示，在步骤201中，获取消息样本。
[0036] 在对垃圾消息模型进行训练时，服务器或终端设备首先需要获取用于训练的消息样本。消息样本可W包括正常消息样本和垃圾消息样本。正常消息样本的获取可W通过收集用户标记的正常消息、与用户交互频繁的对端通信设备所发送的消息、服务器或终端设备误拦并由用户撤销的消息、W及网络数据库中正常消息模板等方式得到。而垃圾消息样本的获取则可W通过收集用户举报的消息和网络数据库中垃圾消息模板等方式得到。可W 从多个关联终端设备获取消息作为消息样本，也可W从服务器保存的消息记录中获取消息样本。通常消息样本需要达到一定的数量W保证训练出的模型的精确度，而消息样本越多，则模型的精确度可能越高，但训练所需时间也相应地越长，在实际应用时，可W通过多次训练获得多个模型，在对多个模型的识别性能进行评价后确定合适的消息样本的数量。
[0037] 在一些实施例中，可W对消息样本进行预处理操作，包括过滤乱码、过滤恶意举报和对消息发送方的联系方式进行预处理等。
[003引在一些实现中，过滤恶意举报具体可W如下进行：首先对消息样本中的消息数据根据相似度进行聚类，在所有相似的消息中根据垃圾消息标记对消息是否为垃圾消息进行投票，被标记的垃圾消息中包括用户举报的消息；然后将投票结果中占比例较大的那部分消息数据作为加入训练集的消息样本，剔除投票结果中占比例较小的那部分消息数据。该样可W过滤被恶意举报的消息。
[0039] 例如，在垃圾消息数据中可能包括用户恶意举报的社交应用验证码消息时，如果不进行处理，则该消息将会被作为垃圾消息样本来训练垃圾消息模型，从而影响垃圾消息模型的效果，进一步影响垃圾消息的准确判别。该时，可W对消息数据进行分类，其中被举报的

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王巍巍;罗雪峰;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：即时通信好友推荐方法及装置的制造方法
上一篇：一种邮件处理方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。