垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法

文档序号:8383639阅读:244来源:国知局
垃圾消息模型训练方法、垃圾消息识别方法及其装置的制造方法
【技术领域】
[0001] 本申请设及通信网络技术领域,具体设及消息传送技术领域,尤其设及垃圾消息 模型的训练方法和装置,W及垃圾消息的识别方法和装置。
【背景技术】
[0002] 随着通信技术的发展,各种通信设备的使用为用户之间的交流提供了极大的便 利,用户之间可W随时地传递文字、图片、语音和视频等通讯信息。
[0003] 然而,在大量的通讯消息中存在着相当一部分无用的、甚至带有欺诈性质的垃圾 消息。该些垃圾消息给移动通信终端的用户造成了很大困扰。大量的垃圾消息不仅给通信 系统的服务器和消息接收终端增加了额外的负担,而且对用户间的正常交流造成了干扰。
[0004] 现有的对垃圾消息识别方法主要有关键词黑名单方法和正则匹配方法。其中,关 键词黑名单匹配方法首先对大量的垃圾消息进行分析,生成关键词库,然后对接收到的消 息进行匹配,如果该消息中含有关键词,则认为该消息为垃圾消息;正则匹配方法通过正则 表达式判断消息中是否存在匹配的某个字符串,如网址、电话号码等信息,如果存在,则判 定该消息为垃圾消息。
[0005] 上述现有的实现方案都需要手工维护和更新,且大量的关键词库和正则表达式手 工维护和更新难度大、成本高。并且,上述关键词黑名单和正则匹配方法实时性差,需要根 据消息内容编写正则模板或者提取关键词,很难发现新出现的垃圾消息类型。此外,上述关 键词黑名单和正则表达式方法一般都是根据经验设定或者从已经标记为垃圾消息的消息 中提取,具有一定的随意性,无法识别不在关键词范围内的垃圾消息,识别率也难W保证。

【发明内容】

[0006] 鉴于现有技术中的上述缺陷或不足,期望能够提供一种实时性好、识别率高的方 案。为了实现上述一个或多个目的,本申请提供了垃圾消息模型的训练方法和装置W及垃 圾消息的识别方法和装置。
[0007] 第一方面,本申请提供了一种垃圾消息模型的训练方法,该方法包括:获取消息样 本,其中消息样本包括正常消息样本和垃圾消息样本;对消息样本进行特征提取,得到消息 样本的特征向量;W及采用监督学习方式对消息样本进行全量训练,得到垃圾消息模型,其 中垃圾消息模型包括特征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件 概率。
[000引第二方面,本申请提供了一种垃圾消息的识别方法,该方法包括:对待识别消息进 行特征提取,得到待识别消息的特征向量;对特征向量中的每一个特征,在垃圾消息模型中 查找仅包含该特征的消息为垃圾消息的条件概率,其中垃圾消息模型依据消息样本训练得 至IJ;根据特征向量中每一个特征所对应的仅包含该特征的消息为垃圾消息的条件概率,计 算包含特征向量中所有特征的待识别消息为垃圾消息的联合概率;W及响应于联合概率大 于垃圾消息概率阔值,确定待识别消息为垃圾消息。
[0009] 第=方面,本申请提供了一种垃圾消息模型的训练装置,该装置包括:获取单元, 配置用于获取消息样本,其中消息样本包括正常消息样本和垃圾消息样本;特征提取单元, 配置用于对消息样本进行特征提取,得到消息样本的特征向量;W及训练单元,配置用于采 用监督学习方式对消息样本进行全量训练,得到垃圾消息模型,其中垃圾消息模型包括特 征向量中各特征所对应的仅包含该特征的消息为垃圾消息的条件概率。
[0010] 第四方面,本申请提供了一种垃圾消息的识别装置,该装置包括:特征提取单元, 配置用于对待识别消息进行特征提取,得到待识别消息的特征向量;查找单元,配置用于对 特征向量中的每一个特征,在垃圾消息模型中查找仅包含该特征的消息为垃圾消息的条件 概率,其中垃圾消息模型依据消息样本训练得到;计算单元,配置用于根据特征向量中每一 个特征所对应的仅包含该特征的消息为垃圾消息的条件概率,计算包含特征向量中所有特 征的待识别消息为垃圾消息的联合概率;W及确定单元,配置用于响应于联合概率大于垃 圾消息概率阔值,确定待识别消息为垃圾消息。
[0011] 本申请提供的垃圾消息模型的训练方法和装置,能够从大量的消息样本中发现隐 含但事实存在的垃圾消息模式,该使得训练得到的垃圾消息模型具备对消息进行精确识别 的能力。本申请实施方式的垃圾消息识别方法可W精确区分包含同一个关键词的垃圾消息 和正常消息,提高了识别的准确率。
【附图说明】
[0012] 通过阅读参照W下附图所作的对非限制性实施例的详细描述,本申请的其它特 征、目的和优点将会变得更明显:
[0013] 图1示出了可W应用本申请实施例的示例性系统架构;
[0014]图2示出了根据本申请一个实施例的垃圾消息模型的训练方法的示例性流程图;
[0015] 图3示出了根据本申请一个实施例的全量训练方法的示例性流程图;
[0016]图4示出了根据本申请另一个实施例的垃圾消息模型的训练方法的示例性流程 图;
[0017] 图5示出了根据本申请一个实施例的垃圾消息的识别方法的示例性流程图;
[001引图6示出了根据本申请一个实施例的确定垃圾消息概率阔值的示例性流程图;
[0019] 图7示出了根据本申请另一个实施例的垃圾消息识别方法的示例性流程图;
[0020] 图8示出了根据本申请实施例的垃圾消息模型的训练装置的结构示意图;
[0021] 图9示出了根据本申请实施例的垃圾消息的识别装置的结构示意图拟及
[0022] 图10示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结 构示意图。
【具体实施方式】
[0023] 下面结合附图和实施例对本申请作进一步的详细说明。可W理解的是,此处所描 述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关发明相关的部分。
[0024] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可W相 互组合。下面将参考附图并结合实施例来详细说明本申请。
[0025] 图1示出了可W应用本申请实施例的示例性系统架构100。
[0026]如图1所示,系统架构100可W包括终端设备101、102、网络103和服务器104。网 络103用W在终端设备101、102和服务器104之间提供通信链路的介质。网络103可W包 括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0027] 用户110可W使用终端设备1〇1、1〇2通过网络103与服务器104交互,W接收或 发送消息等。终端设备1〇1、1〇2上可W安装有各种通讯客户端应用,例如即时通信工具、邮 箱客户端、社交平台软件等。
[002引终端设备101、102可W是各种电子设备,包括但不限于个人电脑、智能手机、智能 手表、平板电脑、个人数字助理等等。
[0029] 服务器104可W是提供各种服务的服务器。服务器可W对接收到的数据进行存 储、分析等处理,并将处理结果反馈给终端设备。
[0030] 需要说明的是,本申请实施例所提供的垃圾消息模型的训练方法W及垃圾消息的 识别方法可W由终端设备101、102执行,也可W由服务器104执行,垃圾消息模型的训练装 置及垃圾消息的识别装置可W设置于终端设备1〇1、1〇2中,也可W设置于服务器104中。在 一些实施例中,垃圾消息模型可W在服务器104中进行训练,训练后的垃圾消息模型可W 存储在终端设备1〇1、1〇2中,W用于识别垃圾消息。例如,在对垃圾消息进行识别时,如果 网络103通畅,可W由服务器104进行垃圾消息识别后返回是否为垃圾消息,如果没有网络 或网络103不畅通,可W由终端设备1〇1、1〇2进行垃圾消息识别,直接判别消息是否为垃圾 消息。
[0031] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需 要,可W具有任意数目的终端设备、网络和服务器。
[0032] 本发明实施例具体可W包括两个部分,第一部分是对垃圾消息模型的训练,第二 部分是依据训练出的垃圾消息模型对接收到的消息进行识别,W识别接收到的消息是否为 垃圾消息。
[0033] 垃圾消息模型的训练
[0034] 首先参考图2,其示出了根据本申请一个实施例的垃圾消息模型的训练方法的示 例性流程图。
[003引如图2所示,在步骤201中,获取消息样本。
[0036] 在对垃圾消息模型进行训练时,服务器或终端设备首先需要获取用于训练的消息 样本。消息样本可W包括正常消息样本和垃圾消息样本。正常消息样本的获取可W通过收 集用户标记的正常消息、与用户交互频繁的对端通信设备所发送的消息、服务器或终端设 备误拦并由用户撤销的消息、W及网络数据库中正常消息模板等方式得到。而垃圾消息样 本的获取则可W通过收集用户举报的消息和网络数据库中垃圾消息模板等方式得到。可W 从多个关联终端设备获取消息作为消息样本,也可W从服务器保存的消息记录中获取消息 样本。通常消息样本需要达到一定的数量W保证训练出的模型的精确度,而消息样本越多, 则模型的精确度可能越高,但训练所需时间也相应地越长,在实际应用时,可W通过多次训 练获得多个模型,在对多个模型的识别性能进行评价后确定合适的消息样本的数量。
[0037] 在一些实施例中,可W对消息样本进行预处理操作,包括过滤乱码、过滤恶意举报 和对消息发送方的联系方式进行预处理等。
[003引在一些实现中,过滤恶意举报具体可W如下进行:首先对消息样本中的消息数据 根据相似度进行聚类,在所有相似的消息中根据垃圾消息标记对消息是否为垃圾消息进行 投票,被标记的垃圾消息中包括用户举报的消息;然后将投票结果中占比例较大的那部分 消息数据作为加入训练集的消息样本,剔除投票结果中占比例较小的那部分消息数据。该 样可W过滤被恶意举报的消息。
[0039] 例如,在垃圾消息数据中可能包括用户恶意举报的社交应用验证码消息时,如果 不进行处理,则该消息将会被作为垃圾消息样本来训练垃圾消息模型,从而影响垃圾消息 模型的效果,进一步影响垃圾消息的准确判别。该时,可W对消息数据进行分类,其中被举 报的
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1