垃圾文本识别方法、装置及系统的制作方法_4

文档序号:9826242阅读:来源:国知局
施例还可以根据具体需求进行取值。
[0168] 在本发明一实施例中,当识别待识别文本为垃圾文本之后,还可以对待识别文本 进行拦截。客户端拦截掉识别出的垃圾文本。
[0169] 在本发明一实施例中,当待识别文本为短信时,在识别待识别文本为正常文本之 后,还可以通过获取短信的发送方的电话号码,来确定短信的发送方的电话号码的归属地 和/或地区编码,进而比较短信的发送方的电话号码的归属地和/或地区编码与短信接收方 的电话号码的归属地和/或地区编码,得到比较结果,并根据比较结果,确定是否对短信执 行拦截操作。
[0170] 在本发明一实施例中,当待识别文本为短信时,并且通过识别得到待识别文本为 正常文本,那么对短信的发送方的电话号码的归属地和/或地区编码与短信接收方的电话 号码的归属地和/或地区编码进行比较,并得到比较结果,进而对该比较结果进行分析,若 比较结果为短信的发送方的电话号码的归属地与短信接收方的电话号码的归属地不一致, 则对短信执行拦截操作,若一致,则不拦该截短信;若比较结果为短信的发送方的电话号码 的地区编码与短信接收方的电话号码的地区编码不一致,则对短信执行拦截操作,若一致, 则不拦截该短信。另外,如果接收短信的移动终端的通信录中不存在与该电话号码的归属 地和/或地区编码相同的联系电话,则对该短信执行拦截操作,相反,如果接收短信的移动 终端的通信录中存在与该电话号码的归属地和/或地区编码相同的联系电话,则不拦截该 短信。例如,当收到陌生号码发来的短信时,通过识别得到该短信为正常文本,但解析出该 陌生号码的归属地为"西安"。并且该陌生号码的归属地"西安"与短信接收机主所在地"北 京"不相同,为此可以将该短信当作拦截对象进行拦截。由于短信接收机主的通讯录中可能 存有很多异地联系人,收到异地的非垃圾短信也是容易出现的,所以还可以在解析出目标 短信的归属地位为"西安"时,执行另一种拦截策略,即,判断在该机主的通讯录中所有的联 系电话中是否存在归属地位为"西安"的联系电话,若不存在,将这条目标短信拦截;若存 在,则放弃执行拦截操作。
[0171] 基于同一发明构思,本发明实施例还提供了一种垃圾文本识别装置,图5a是根据 本发明一个实施例的垃圾文本识别装置的结构示意图。如图5a所示,垃圾文本识别装置 500a至少可以包括:提取模块510、计算模块520、确定模块530以及识别模块540。
[0172]现介绍本发明实施例的垃圾文本识别装置500a的各组成或器件的功能以及各部 分间的连接关系:
[0173]提取模块510,适于获取待识别文本,从待识别文本中提取一个或多个字符串; [0174]计算模块520,与提取模块510耦合,适于基于一个或多个字符串,计算待识别文本 为垃圾文本的联合概率;
[0175] 确定模块530,与计算模块520耦合,适于确定待识别文本为垃圾文本的联合概率 是否大于或等于预设阈值;
[0176] 识别模块540,与确定模块530耦合,适于若确定模块530确定待识别文本为垃圾文 本的联合概率大于或等于预设阈值,则识别待识别文本为垃圾文本。
[0177] 在本发明一实施例中,识别模块540还适于:若确定模块530确定待识别文本为垃 圾文本的联合概率小于预设阈值,则识别待识别文本为正常文本。
[0178] 在本发明一实施例中,计算模块520还适于:
[0179] 对于一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,待识别 文本为垃圾文本的后验概率,并根据各个字符串对于所述待识别文本为垃圾文本的后验概 率,计算待识别文本为垃圾文本的联合概率。
[0180] 在本发明一实施例中,计算模块520还适于:
[0181] 对各个字符串对于待识别文本为垃圾文本的后验概率进行从大到小排序,选取排 序在前的N个字符串;
[0182] 根据N个字符串中各个字符串对于待识别文本为垃圾文本的后验概率,计算待识 别文本为垃圾文本的联合概率。
[0183] 在本发明一实施例中,如图6所示,垃圾文本识别装置500a还可以包括训练模块 600,其中,训练模块600至少可以包括:获取单元610、提取单元620以及生成单元630。
[0184] 现介绍本发明实施例的垃圾文本识别装置的训练模块600各组成或器件的功能以 及各部分间的连接关系:
[0185] 获取单元610,适于获取两组已经被识别的文本集,其中,一组为正常文本集,另一 组为垃圾文本集;
[0186] 提取单元620,与获取单元610耦合,适于分别提取两组文本集中的至少一个字符 串;
[0187]生成单元630,与提取单元620耦合,适于计算至少一个字符串分别在正常文本集 和垃圾文本集中出现的概率,并生成概率资料库。
[0188] 在本发明一实施例中,生成单元630还适于:
[0189] 若至少一个字符串仅出现在垃圾文本集中,则该字符串出现在正常文本集中的概 率规定为第一数值;
[0190] 若至少一个字符串仅出现在正常文本集中,则该字符串出现在垃圾文本集中的概 率规定为第二数值。
[0191 ]在本发明一实施例中,计算模块520还适于:
[0192] 获取各个字符串在垃圾文本集中的权重;
[0193] 根据各个字符串在垃圾文本集中的权重和该字符串对于待识别文本为垃圾文本 的后验概率,计算待识别文本为垃圾文本的联合概率。
[0194] 在本发明一实施例中,计算模块520还适于:
[0195] 确定待识别文本分别为垃圾文本和正常文本的先验概率;
[0196] 对于一个或多个字符串中的各个字符串,从概率资料库中获取该字符串分别在垃 圾文本集和正常文本集中出现的概率;
[0197] 根据确定的待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字 符串分别在垃圾文本集和正常文本集中出现的概率,计算在该字符串存在的条件下,待识 别文本为垃圾文本的后验概率。
[0198] 在本发明一实施例中,计算模块520还适于:
[0199] 若从概率资料库中未获取到该字符串分别在垃圾文本集和正常文本集中出现的 概率,则设定该字符串分别在垃圾文本集和正常文本集中出现的概率分别为第一指定值和 第二指定值。
[0200] 在本发明一实施例中,待识别文本为垃圾文本的先验概率和待识别文本为正常文 本的先验概率,均为一具体设定数值。
[0201] 在本发明一实施例中,图5b还提供了另一种垃圾文本识别装置500b,参见图5b,该 装置中除了包含有垃圾文本识别装置500a中的模块内容,还包括:
[0202] 拦截模块550,与识别模块540耦合,适于在识别模块540识别待识别文本为垃圾文 本之后,对待识别文本进行拦截。
[0203]在本发明一实施例中,垃圾文本识别装置500b还包括处理模块560,与拦截模块 550親合,适于:
[0204] 获取短信的发送方的电话号码,确定短信的发送方的电话号码的归属地和/或地 区编码;
[0205] 比较短信的发送方的电话号码的归属地和/或地区编码与短信接收方的电话号码 的归属地和/或地区编码,得到比较结果;
[0206]根据比较结果,确定是否对短信执行拦截操作。
[0207] 在本发明一实施例中,处理模块560还适于:
[0208] 若比较结果为短信的发送方的电话号码的归属地与短信接收方的电话号码的归 属地不一致,则通过拦截模块550对短信执行拦截操作;或者
[0209] 若比较结果为短信的发送方的电话号码的地区编码与短信接收方的电话号码的 地区编码不一致,则通过拦截模块550对短信执行拦截操作。
[0210] 基于同一发明构思,本发明实施例还提供了一种垃圾文本识别系统700。图7是根 据本发明一个实施例的垃圾文本识别系统700的结构示意图,参照图7所示,该系统至少可 以包括终端设备710和云端服务器720。
[0211] 终端设备710,适于根据图5a或图6所示的装置识别待识别文本是否为垃圾文本, 并将识别结果上传给云端服务器720;
[0212] 云端服务器720,适于利用上述识别结果,生成字符串的概率资料库。
[0213] 在本发明一实施例中,云端服务器720还适于:
[0214] 从识别结果的文本中提取至少一个字符串,其中,识别结果的文本包括垃圾文本 和正常文本;
[0215] 计算至少一个字符串分别在正常文本和垃圾文本中出现的概率,并生成概率资料 库。
[0216] 在本发明一实施例中,云端服务器720还适于:
[0217] 将生成的字符串的概率资料库下发给终端设备,以更新终端设备中的概率资料 库。
[0218] 在本发明实施例中,终端设备710在接收到一条短信后,通过垃圾文本识别装置 500b对该条短信进行文本识别,识别出该条短信是否为垃圾短信,若是,则通过拦截模块 550对该短信进行拦截,若不是,则拦截模块550不执行拦截操作。终端设备710将已经被识 别的短信通过发送模块711上传到云端服务器720中,云端服务器720从识别结果的短信中 提取至少一个字符串,计算至少一个字符串分别在正常文本和垃圾文本中出现的概率,对 训练模块600中的生成单元630中的概率信息进行数据的更新。最后将跟新后的字符串的概 率资料库通过下发模块722下发给终端设备710,以更新终端设备710中的概率资料库,终端 设备710中的接收模块712用于接收云端服务器720下发的更新后的概率资料库。
[0219]根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到 如下有益效果:
[0220] 在本发明实施例中,首先,客户端获取待识别文本,并从待识别文本中提取一个或 多个字符串。然后,基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率。最后, 确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值,若是,则识别出待识别 文本为垃圾文本。现有技术中直接利用贝叶斯算法进行文本形式的垃圾短信的识别,使得 垃圾短信的召回
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1