垃圾文本识别方法、装置及系统的制作方法_3

文档序号：9826242阅读：来源：国知局

础上，如果其中某一个字符串为第一次出现，则无法确定该字符串的后验概率，进而无法计算得到联合概率。此时，可以设定该字符串的后验概率为一个具体数值，例如设定该字符串的后验概率为0.4,因为垃圾文本往往用的都是一些固定的词语，所以，如果一个词语第一次出现，那么该词语多半是正常词语。
[0123] 在本发明一实施例中，首先，根据待识别文本的发送方的电话号码，查找该电话号码是否在骚扰电话列表中，如果骚扰电话列表中存在该电话号码，则直接判断待识别文本为垃圾文本，如果骚扰电话列表中不存在该电话号码，则继续执行步骤S202至步骤S210。其中，骚扰电话列表存储于本地数据库中。并且，骚扰电话列表中的每条骚扰电话记录都包含有骚扰电话号码以及该骚扰电话号码的属性信息。例如，骚扰电话号码的属性信息可以包括:骚扰电话类型和/或骚扰电话标记次数。骚扰电话类型可以为通过云端服务器中的分类器所获取的分类信息，例如诈骗类、房产中介类、广告推销类、响一声类、公司电话类、教育培训中介类、欺诈类、服务类或保险类等类型。骚扰电话标记次数是指用户对骚扰电话的标记次数，反映了该骚扰电话的活跃度。
[0124] 在本发明一实施例中，终端设备需要定期向云端服务器上报所接收到的骚扰电话或短信的标识信息。具体地，终端设备上报骚扰电话可以采用两种方式:一种方式是，终端设备定期向云端服务器上报所接收到的所有已拨打电话，云端服务器将这些已拨打电话与云端数据库中记录的骚扰电话进行比对，从中提取出属于骚扰电话的已拨打电话;另一种方式是，如果终端设备中本地存储有骚扰电话本地数据库，终端设备根据该本地数据库识别出骚扰电话，将其上报给云端服务器。需要说明的是，对于以上两种方式的使用不做限制，可以单独应用其中的一个或两个，也可以将上述两种方法结合起来应用。例如，终端设备每天或每隔几天上报所接收到的骚扰电话和/或已拨打电话，云端服务器存储终端设备上报或自身识别的过去30天内已拨打骚扰电话。当定时时间到达时，云端服务器根据终端设备过去30天内所接收到的骚扰电话从云端数据库中提取与这些已拨打骚扰电话相关的骚扰电话。
[0125] 在本发明一优选实施例中，可以对骚扰电话列表进行升级，以提升骚扰电话列表 (即骚扰短信黑名单）的时效性，其中，升级过程为:云端服务器每隔一段定时时间从云端数据库提取一次骚扰短信号码列表，然后再下发给终端设备。举例来说，设终端设备每天做一次骚扰电话列表的升级，对应的云端服务器每天提取一次最新的骚扰短信号码列表。比如，将每天晚上12点设为定时时间，云端服务器在该定时时间到达时，自动进行骚扰电话列表的提取。
[0126] 本发明实施例还提供了一种训练贝叶斯过滤器的方法，图3是根据本发明一个实施例的训练贝叶斯过滤器的方法的流程示意图。参照图3所示，该方法至少可以包括步骤 S302至步骤S306。
[0127] 步骤S302,获取两组已经被识别的文本集，其中，一组为正常文本集，另一组为垃圾文本集。
[0128] 步骤S304,分别提取两组文本集中的至少一个字符串。
[0129] 步骤S306,计算至少一个字符串分别在正常文本集和垃圾文本集中出现的概率，并生成概率资料库。
[0130]在本发明一实施例中，在上述步骤S302中，获取两组已经被识别的文本集，其中，获取文本的数量越大，则训练出的贝叶斯过滤器的实施效果越好。例如，设定已经被识别的正常文本集和垃圾文本集中分别有4000条文本，假设在正常文本集中，带有"充值"这个词的文本有2条，那么该词在正常文本集中出现的概率为2/4000 = 0.05%;在垃圾文本集中，带有"充值"这个词的文本有200条，那么该词在垃圾文本集中出现的概率为200/4000 = 5%〇
[0131] 在本发明一实施例中，计算至少一个字符串分别在正常文本集和垃圾文本集中出现的概率。为了避免字符串在某个文本集中出现的概率为〇，其中，若至少一个字符串仅出现在垃圾文本集中，则该字符串出现在正常文本集中的概率规定为第一数值;若至少一个字符串仅出现在正常文本集中，则该字符串出现在垃圾文本集中的概率规定为第二数值。例如，如果某个词只出现在垃圾文本集中，那么设置该词在正常文本集中出现的概率为 1%。具体的，如果"充值"这个词只出现在垃圾文本集中，那么该词在正常文本集中出现的概率为1%。
[0132] 为了更清楚地呈现本发明实施例，现给出一个具体的实施方式来介绍本发明的垃圾文本识别方法的实现过程。图4是根据本发明另一个实施例的垃圾文本识别方法的流程示意图。参照图4所示，该方法至少可以包括步骤S402至步骤S416。
[0133] 步骤S402,训练一个贝叶斯过滤器，并生成概率资料库。
[0134] 该步骤中，对贝叶斯过滤器进行训练可以参照前文图3所示的方法，此处不再赘述。
[0135] 步骤S404,获取待识别文本，确定待识别文本分别为垃圾文本和正常文本的先验概率。
[0136] 步骤S406,从待识别文本中提取一个或多个字符串，对于一个或多个字符串中的各个字符串，从概率资料库中获取该字符串分别在垃圾文本集和正常文本集中出现的概率。
[0137] 步骤S408,根据确定的待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在垃圾文本集和正常文本集中出现的概率，计算在该字符串存在的条件下，待识别文本为垃圾文本的后验概率。
[0138] 步骤S410,根据各个字符串对于待识别文本为垃圾文本的后验概率，计算待识别文本为垃圾文本的联合概率。
[0139] 步骤S412,确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值，若是，则继续执行步骤S414;若否，则继续执行步骤S416。
[0140] 步骤S414，识别待识别文本为垃圾文本。
[0141] 步骤S416,识别待识别文本为正常文本。
[0142] 在本发明一实施例中，在上述步骤S404中，先验概率是指在未经统计分析之前，假定待识别文本为垃圾文本或正常文本的概率。例如，可以分别设定待识别文本为垃圾文本或正常文本的先验概率为一具体数值，如设定待识别文本为垃圾文本的先验概率为50%，设定待识别文本为正常文本的先验概率为50%，本发明对此不作限制。
[0143] 在本发明一具体实施例中，比如，"sex"这个词在正常文本集中出现的概率为 0.05%，而在垃圾文本集中出现的概率为5%。用P(W|H)和P(W|S)分别代表"sex"这个词在正常文本集和垃圾文本集中出现的概率，即P(W|H) =0.05%，P(W|S) =5%。当获取到一条待识别文本时，先确定该待识别文本分别为垃圾文本和正常文本的先验概率均为50%。用P (S)和P(H)分别表示该待识别文本分别为垃圾文本和正常文本的先验概率，即，P(S) = 50%，？(!〇=50%。后验概率用？(3|￥)表示，那么
[0145] 代入具体数值，可得？(5|1)=99.0%。因此，这条待识别文本是垃圾文本的概率等于99%。这说明，sex这个词的推断能力很强，将50%的先验概率一下子提高到了99%的后验概率。
[0146] 在本发明一实施例中，根据各个字符串对于待识别文本为垃圾文本的后验概率，计算待识别文本为垃圾文本的联合概率，本发明实施例提供了一种可选的方案，在该方案中，可以获取各个字符串在垃圾文本集中的权重，并根据各个字符串在垃圾文本集中的权重和该字符串对于待识别文本为垃圾文本的后验概率，计算待识别文本为垃圾文本的联合概率。
[0147] 在上述实施例的基础上，在得到上述的后验概率还不能作为sex这个词的最终作为判断的概率，还需要看这个词语的影响程度及该词语的权重，比如sex这个词，在正常文本中出现了500次，在垃圾文本中出现了 1000次，用一种简单的方法求其权重即1000/1500〉 0.5,即该词语的影响程度为 1。最终得 P(S|W)=P(S|W)*P(weight)=99%*l=99%。
[0148] 在本发明一实施例中，在上述步骤S406中，若从概率资料库中未获取到该字符串分别在垃圾文本集和正常文本集中出现的概率，则设定该字符串分别在垃圾文本集和正常文本集中出现的概率分别为第一指定值和第二指定值。
[0149] 在本发明一具体实施例中，在上述步骤S410中，根据各个字符串对于待识别文本为垃圾文本的后验概率，计算待识别文本为垃圾文本的联合概率。以两个词的联合概率计算方法为例，例如WdPW 2是两个不同的词语，它们都出现在同一条待识别文本之中，那么这条待识别文本是垃圾文本的概率，就是这两个词语联合概率。在已知^和…存在的情况下，这条待识别文本无非就是两种结果(在这里假定所有事件都是独立事件）：垃圾文本(事件 E〇或正常文本(事件E2)。其中，WLW2和这条待识别文本为垃圾文本的先验概率分别如表1:
[0150] 表1
[0152] 由表1可以算出：
[0153] P(Ei)=P(S|ffi)P(S|ff2)P(S)
[0154] P(E2) = (l-P(S|ffi))(l-P(S|ff2))(l-P(S))
[0155] 所以在WjPW2存在的情况下，待识别文本为垃圾文本的联合概率为
[0159]设定待识别文本为垃圾文本的先验概率为0.5,将0.5代入此公式中，得出
[0161]将P(S | Wi)记为Pi，P (S | W2)记为P2，得出联合功率的计算公式为
[0163]当选取待识别文本中的Μ个字符串的后验概率来确定该待识别文本的联合概率时，公式为
[0165] 通过上述公式可以基于Μ个字符串，计算待识别文本为垃圾文本的联合概率。
[0166] 当确定出一条待识别文本的联合概率后，比较该联合概率与预设阈值的大小，当联合概率大于或等于预设阈值，则确定待识别文本为垃圾文本;当联合概率小于预设阈值，则确定待识别文本为正常文本。
[0167] 需要说明的是，上述例子中待识别文本为垃圾文本的先验概率的取值0.5仅是示意性的，本发明实

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6