垃圾文本识别方法、装置及系统的制作方法

文档序号:9826242阅读:762来源:国知局
垃圾文本识别方法、装置及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别是涉及一种垃圾文本识别方法、装置及系统。
【背景技术】
[0002] 随着计算机技术的不断发展,移动终端(如,手机等具有通信功能的设备)已经成 为人们日常生活、工作中不可缺少的通讯工具,由于其携带方便,所以人们可以随时随地的 保持联系,不仅拉近了人与人之间的距离,而且会带给人们一定的安全感。每当节日到来, 一条来自亲朋好友的祝福短信,一个来自家人的问候电话,足以让人感动。由于移动终端几 乎已经成为每个人必备的通讯工具,所以也成为了一些商家的推销媒介,甚至成为一些不 法分子进行诈骗的渠道。
[0003] 目前市场上已经存在一些用于拦截骚扰短信的客户端,通过在本地设定一些具体 的分类规则对骚扰短信进行拦截,或者直接利用贝叶斯算法对短信进行识别并拦截出垃圾 短信。但是采用这些方式拦截骚扰短信,会占用大量的本地存储空间,并且直接利用贝叶斯 算法拦截垃圾短信,虽然垃圾短信的召回率很高,但是准确率较低,容易产生误拦的情况。

【发明内容】

[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的垃圾文本识别方法以及相应的装置。
[0005] 依据本发明的一个方面,提供了一种垃圾文本识别方法,包括:
[0006] 获取待识别文本,从所述待识别文本中提取一个或多个字符串;
[0007] 基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率;
[0008] 确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
[0009] 若是,则识别所述待识别文本为垃圾文本。
[0010] 可选地,所述方法还包括:
[0011]若确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识别所述待识别 文本为正常文本。
[0012] 可选地,基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概 率,包括:
[0013] 对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所 述待识别文本为垃圾文本的后验概率;
[0014] 根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识 别文本为垃圾文本的联合概率。
[0015] 可选地,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算 所述待识别文本为垃圾文本的联合概率,包括:
[0016] 对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排 序,选取排序在前的N个字符串;
[0017] 根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率, 计算所述待识别文本为垃圾文本的联合概率。
[0018] 可选地,所述方法还包括:
[0019] 获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
[0020] 分别提取两组文本集中的至少一个字符串;
[0021] 计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概 率,并生成概率资料库。
[0022] 可选地,计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出 现的概率,包括:
[0023] 若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常 文本集中的概率规定为第一数值;
[0024] 若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾 文本集中的概率规定为第二数值。
[0025] 可选地,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算 所述待识别文本为垃圾文本的联合概率,包括:
[0026] 获取所述各个字符串在所述垃圾文本集中的权重;
[0027] 根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文 本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
[0028] 可选地,对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条 件下,所述待识别文本为垃圾文本的后验概率,包括:
[0029] 确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
[0030] 对于所述一个或多个字符串中的各个字符串,从所述概率资料库中获取该字符串 分别在所述垃圾文本集和所述正常文本集中出现的概率;
[0031] 根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的 该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,计算在该字符串存在的 条件下,所述待识别文本为垃圾文本的后验概率。
[0032] 可选地,所述方法还包括:
[0033] 若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文 本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概 率分别为第一指定值和第二指定值。
[0034] 可选地,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的 先验概率,均为一具体设定数值。
[0035] 可选地,在识别所述待识别文本为垃圾文本之后,所述方法还包括:
[0036]对所述待识别文本进行拦截。
[0037] 可选地,当所述待识别文本为短信时,在识别所述待识别文本为正常文本之后,所 述方法还包括:
[0038] 获取所述短信的发送方的电话号码,确定所述短信的发送方的电话号码的归属地 和/或地区编码;
[0039] 比较所述短信的发送方的电话号码的归属地和/或地区编码与所述短信接收方的 电话号码的归属地和/或地区编码,得到比较结果;
[0040] 根据所述比较结果,确定是否对所述短信执行拦截操作。
[0041] 可选地,根据所述比较结果,确定是否对所述短信执行拦截操作,包括:
[0042] 若所述比较结果为所述短信的发送方的电话号码的归属地与所述短信接收方的 电话号码的归属地不一致,则对所述短信执行拦截操作;或者
[0043]若所述比较结果为所述短信的发送方的电话号码的地区编码与所述短信接收方 的电话号码的地区编码不一致,则对所述短信执行拦截操作。
[0044] 依据本发明的另一个方面,还提供了一种垃圾文本识别装置,包括:
[0045] 提取模块,适于获取待识别文本,从所述待识别文本中提取一个或多个字符串;
[0046] 计算模块,适于基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的 联合概率;
[0047] 确定模块,适于确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设 阈值;
[0048] 识别模块,适于若所述确定模块确定所述待识别文本为垃圾文本的联合概率大于 或等于预设阈值,则识别所述待识别文本为垃圾文本。
[0049] 可选地,所述识别模块还适于:
[0050] 若所述确定模块确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识 别所述待识别文本为正常文本。
[0051 ] 可选地,所述计算模块还适于:
[0052] 对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所 述待识别文本为垃圾文本的后验概率;
[0053] 根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识 别文本为垃圾文本的联合概率。
[0054] 可选地,所述计算模块还适于:
[0055] 对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排 序,选取排序在前的N个字符串;
[0056] 根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率, 计算所述待识别文本为垃圾文本的联合概率。
[0057] 可选地,所述装置还包括训练模块,所述训练模块包括:
[0058]获取单元,适于获取两组已经被识别的文本集,其中,一组为正常文本集,另一组 为垃圾文本集;
[0059] 提取单元,适于分别提取两组文本集中的至少一个字符串;
[0060] 生成单元,适于计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本 集中出现的概率,并生成概率资料库。
[0061 ] 可选地,所述生成单元还适于:
[0062] 若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常 文本集中的概率规定为第一数值;
[0063] 若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾 文本集中的概率规定为第二数值。
[0064] 可选地,所述计算模块还适于:
[0065] 获取所述各个字符串在所述垃圾文本集中的权重;
[0066] 根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文 本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
[0067] 可选地,所述计算模块还适于:
[0068] 确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
[0069] 对于所述一个或多个字符串中的各个字符串,从所述概率资料库中获取该字符串 分别在所述垃圾文本集和所述正常文本集中出现的概率;
[0070] 根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的 该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,计算在该字符串存在的 条件下,所述待识别文本为垃圾文本的后验概率。
[0071] 可选地,所述计算模块还适于:
[0072] 若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文 本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概 率分别为第一指定值和第二指定值。
[0073] 可选地,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的 先验概率,均为一具体设定数值。
[0
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1