一种垃圾短信鉴别的方法、装置、存储介质和设备与流程

文档序号:17926525发布日期:2019-06-15 00:27阅读:199来源:国知局
一种垃圾短信鉴别的方法、装置、存储介质和设备与流程

本发明涉及信息安全技术领域,尤其涉及一种垃圾短信鉴别的方法、装置、存储介质和设备。



背景技术:

随着用户对信息安全的需求增长,垃圾短信鉴别技术也日益普及化和精准化。其中一种鉴别方法为从短信文本中识别预设关键词,如果从该短信文本中识别到了预设关键词,则将该短信鉴别为垃圾短信,反之,如果从该短信文本中未识别到预设关键词,则将该短信鉴别为非垃圾短信。

然而,垃圾短信发送者为了规避以上鉴别方法,将短信文本中的关键词部分或全部文本以其他形式替代。举例来说,对于邀请用户刷单的垃圾短信,其预设关键词通常为“刷单”,而为了规避“刷单”这个关键词,发送者会将“刷单”替换为“刷單”,即将简体“单”字替换为其繁体。进而在鉴别过程中,由于“刷單”并不能与“刷单”匹配上,从而导致该条垃圾短信被漏检。

所以,现有技术中垃圾短信的漏检率还很高。



技术实现要素:

本发明实施例提供了一种垃圾短信鉴别的方法、装置、存储介质和设备,用于降低垃圾短信的漏检率。

第一方面,本发明提供了一种垃圾短信鉴别的方法,包括:

将短信的文本转化为对应的第一拼音;

判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;

如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。

可选的,在所述将短信的文本转化为对应的第一拼音之前,还包括:

对所述短信的文本进行分词,获得一个或多个词组;

所述将短信的文本转化为对应的第一拼音,包括:

将分词得到的每个所述词组转化为对应的拼音组合。

可选的,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。

可选的,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:

按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;

判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;

如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。

可选的,如果所述第二拼音存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,如果所述第一拼音中存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,则表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合;

如果所述第二拼音不存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致的拼音组合,如果所述第一拼音中存在与所述第二拼音一致的所述拼音组合,表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合。

可选的,所述拼音组合为所述短信的文本中每个字的拼音与相邻字的拼音的组合。

可选的,在所述将短信的文本转化为对应的第一拼音之前,还包括:

检查所述短信的文本中是否存在不满足预设规则的文本;

如果所述短信的文本中存在不满足所述预设规则的文本,则执行所述将短信的文本转化为对应的第一拼音的步骤。

第二方面,本发明提供了一种垃圾短信鉴别的装置,包括:

转化模块,用于将短信的文本转化为对应的第一拼音;

判断模块,用于判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;

鉴别模块,用于如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。

可选的,所述装置还包括分词模块,用于在将短信的文本转化为对应的第一拼音之前,对所述短信的文本进行分词,获得一个或多个词组;

所述转化模块用于将分词得到的每个所述词组转化为对应的拼音组合。

可选的,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。

可选的,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断模块用于按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;

如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。

可选的,如果所述第二拼音存在相似拼音,所述判断模块用于判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,如果所述第一拼音中存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,则表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合;

如果所述第二拼音不存在相似拼音,所述判断模块用于判断所述第一拼音中是否存在与所述第二拼音一致的拼音组合,如果所述第一拼音中存在与所述第二拼音一致的所述拼音组合,表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合。

可选的,所述拼音组合为所述短信的文本中每个字的拼音与相邻字的拼音的组合。

可选的,所述装置还包括检查模块,用于在将短信的文本转化为对应的第一拼音之前,检查所述短信的文本中是否存在不满足预设规则的文本;

如果所述短信的文本中存在不满足所述预设规则的文本,通知所述转化模块执行所述将短信的文本转化为对应的第一拼音的步骤。

第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项所述方法的步骤。

第四方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

在本发明实施例的技术方案中,将短信的文本转化为对应的第一拼音,判断第一拼音中是否存在与预设关键词对应的第二拼音匹配拼音组合,如果第一拼音中存在与第二拼音匹配拼音组合,例如判断出短信文本中“刷單”的拼音组合“shuadan”与“刷单”的第二拼音“shuadan”匹配,则将该短信鉴别为垃圾短信。所以,本发明实施例的技术方案能够鉴别出部分或全部关键词文本替换的垃圾短信,解决了垃圾短信漏检率高的技术问题,降低了漏检率。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明实施例中垃圾短信鉴别的方法流程图;

图2为本发明实施例中垃圾短信鉴别的装置结构示意图;

图3为本发明实施例中计算机设备的结构示意图。

具体实施方式

本发明实施例提供了一种垃圾短信鉴别的方法、装置、存储介质和设备,用于降低垃圾短信的漏检率。

为了解决上述技术问题,本发明提供的技术方案思路如下:

在本发明实施例的技术方案中,将短信的文本转化为对应的第一拼音,判断第一拼音中是否存在与预设关键词对应的第二拼音匹配拼音组合,如果第一拼音中存在与第二拼音匹配拼音组合,例如判断出短信文本中“刷單”的拼音组合“shuadan”与“刷单”的第二拼音“shuadan”匹配,则将该短信鉴别为垃圾短信。所以,本发明实施例的技术方案能够鉴别出部分或全部关键词文本替换的垃圾短信,解决了垃圾短信漏检率高的技术问题,降低了漏检率。

下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

本发明第一方面提供了一种垃圾短信鉴别的方法,请参考图1,为本发明实施例中垃圾短信鉴别的方法流程图。该方法包括:

s101:将短信的文本转化为对应的第一拼音;

s102:判断第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;

s103:如果第一拼音中存在与第二拼音匹配的拼音组合,将短信鉴别为垃圾短信。

具体来讲,本发明实施例中的垃圾短信鉴别方法可以在客户端执行,即客户端需要鉴别垃圾短信时由客户端执行本发明方法,或者也可以在服务器执行,即客户端需要鉴别垃圾短信时将待鉴别短信发送至服务器,进而服务器执行本发明方法,再将鉴别结果通知客户端。本发明对此不做限制。

在本发明实施例中,客户端或者服务器可以在收到待鉴别短信后执行s101以及后续步骤,以通过本发明实施例中的方法直接对短信进行鉴别。或者,在执行s101之前,还可以包括:检查短信的文本中是否存在不满足预设规则的文本,预设规则可以为现有垃圾短信鉴别方法中的任意一种,例如为短信文本为简体中文,文本中的词组符合语言习惯等。如果短信文本中存在不满足预设规则的文本,则执行s101。换言之,首先通过普通的鉴别方法进行鉴别,如果普通鉴别方法足以鉴别,则不需要再调用本发明实施例中的方法,如果短信文本中存在普通鉴别方法不能够鉴别文本,再调用本发明实施例中的方法进一步鉴别。这样一方面可以提高鉴别准确率,降低漏检率,另一方面也可以降低设备消耗。

一个具体的例子,假设预设规则为简体中文,以及假设短信的文本为“你的信用良好,邀请你刷單”,那么通过检查,该短信的文本中“單”是繁体,并不符合预设规则,进而调用本发明实施例中的方法,将短信的文本转化为拼音,以进一步鉴别该短信是否为垃圾短信。

后文中将不满足预设规则的文本,例如“刷單”,称为“可疑文本”。

在s101中转化拼音时,可以将短信的全部文本都转化为对应的第一拼音,例如将短信“你的信用良好,邀请你刷單”转化为“nidexinyonglianghao,yaoqingnishuadan”,也可以仅将短信文本中的可疑文本对应的拼音转化为第一拼音,例如上述短信文本的可疑文本为“刷單”,则该短信文本的第一拼音为“shuadan”。

接下来,在s102中,判断第一拼音中是否存在与预设关键词对应的拼音组合。本发明实施例中的拼音组合包括但不限于单个字的拼音或多个字的拼音。而预设关键词为预先根据需要鉴别的垃圾短信设置的关键词,例如为了鉴别邀请用户刷单类的垃圾短信,可以设置“刷单”为预设关键词,为了鉴别其它类垃圾短信,可以设置其它相关词汇为预设关键词等等,更多的例子,这里就不再一一列举了。

第二拼音为预设关键词对应的拼音,具体地,第二拼音与拼音组合形式一致,包括但不限于单个字的拼音或多个字的拼音等。例如,预设关键词为“刷单”,则第二拼音可以为每个字的拼音“shua,dan”,词组的拼音“shuadan”,每个字的拼音加上词组的拼音“shua,dan,shuadan”。在具体实现过程中,可以根据实际需要选择拼音组合和第二拼音的形式,本发明不做具体限制。

进一步,当拼音组合为多个字的拼音时,该多个字可以为短信文本分词出的词组,在下文中将进行详细介绍。或者,拼音组合为短信文本中每个字的拼音与相邻字的拼音的组合,且该拼音组合所包含的数量和形式与第二拼音的数量与形式一致。沿用上文中的例子,预设关键词为“刷單”,其第二拼音为“shuadan”,包含“shua”和“dan”两个拼音,形式为词组的形式,故而此时的拼音组合就应当为包括2个拼音的词组形式,那么针对第一拼音“nidexinyonglianghao,yaoqingnishuadan”而获得拼音组合:第一个字“你”的拼音“ni”与相邻“的”的拼音“de”的组合“nide”,第二个字“的”的拼音“de”与相邻“信”的拼音“xin”的组合“dexin”,…,第十个字“刷”的拼音“shua”与相邻“單”的拼音“dan”的组合“shuadan”。

比较第一拼音中的所有拼音组合与第二拼音,如果第一拼音中存在与第二拼音匹配的拼音组合,表示该短信中存在与预算关键词匹配的关键词,进而表示该短信为垃圾短信的几率很大,所以在s103中,将该短信鉴别为垃圾短信。

还是沿用上文中的例子来说,短信的文本为“你的信用良好,邀请你刷單”,对应的第一拼音为“nidexinyonglianghao,yaoqingnishuadan”,预设关键词为“刷单”,第二拼音为“shuadan”。按照上文介绍的,拼音组合为每个字的拼音与相邻字的拼音的组合,此时拼音组合为“nide”、“dexin”、“xinyong”、“yongliang”、“lianghao”、“haoyao”、“yaoqing”、“qingni”、“nishua”和“shuadan”。那么,可以判断出第一拼音最后一个拼音组合“shuadan”与第二拼音“shuadan”匹配,因此将短信“你的信用良好,邀请你刷單”鉴别为垃圾短信。

由上述描述可以看出,即使垃圾短信发送者将“刷单”替换为了“刷單”,通过将短信的文本转化为第一拼音,如果第一拼音中存在与预设关键词对应的第二拼音的匹配的拼音组合,则将短信鉴别为垃圾短信,由此克服了在关键词的部分或全部文本以其他形式替代后漏检的技术问题,故而降低了漏检率。

可选的,在一些实施例中,还可以通过以下方法转化第一拼音,或者通过以下方法获得拼音组合。具体在这些实施例中,在s101之前还包括:对短信的文本进行分词,获得一个或多个词组,而s102则具体包括:将分词得到的每个词组转化为对应的拼音组合。

具体来讲,不同于将短信文本逐字转化为拼音,在这些实施例中,首先对短信的文本进行分词。在本发明实施例中,分词出的词组可以包括一个字、两个字、三个字等,本发明不做具体限制。那么在转化拼音时,依次对分词得到的词组进行转化。还是以“你的信用良好,邀请你刷單”为例来说。对以上短信的文本进行分词,将得到“你”、“的”、“信用”、“良好”、“邀请”、“你”、“刷單”这几个词组,然后转化词组“你”,得到拼音组合“ni”,转化词组“的”,得到拼音组合“de”,…,转化词组“刷單”,得到拼音组合“shuadan”。

由于预设关键词通常为词组、成语或短语等符合语言习惯的词组,因此在这样的实施例中,通过对短信的文本进行分词,在对分词结果进行拼音转化,保证了拼音组合就是符合语言习惯的,不仅提高了转化速度,而且由于第一拼音中不存在不符合语言习惯的词组的拼音,还提高了从拼音词组中发现与第二拼音匹配的拼音组合的效率。

进一步,在这些实施例中的一些实施例中,还可以仅对与预设关键词字数一致的词组,或者不满足预设规则的词组进行拼音转化,进而进一步提高转化速度。例如在上文实例的短信文本中,预设关键词有两个字,则仅转化分词得到“信用”、“良好”、“邀请”和“刷單”的拼音,或者仅转化不满足简体中文规则的“刷單”的拼音。

另外,在一些实施例中,拼音组合可以具体为词组的拼音,例如词组“刷單”的拼音组合为“shuadan”,在另一些实施例中,还可以为每个字的拼音,例如“shua,dan”,在一些实施例中,还可以为每个字的拼音和词组的拼音,例如“shua,dan,shuadan”,本发明不做具体限制。

进一步,如果拼音组合具体包括每个字的拼音和词组的拼音,那么在一些实施例中,预设关键词的第二拼音也包括每个字的拼音和词组的拼音,例如预设关键词“刷单”的第二拼音为“shua,dan,shuadan”。在这些实施例中,s103具体包括:按照相同顺位,比较拼音组合中每个字的拼音与第二拼音中每个字的拼音,判断拼音组合中每个字的拼音是否与第二拼音中每个字的拼音均匹配,判断拼音组合中词组的拼音是否与预设关键词词组的拼音匹配。

沿用上文中的例子来说,比较“刷單”的拼音组合“shua,dan,shuadan”与预设关键词“刷单”的第二拼音“shua,dan,shuadan”:按照相同顺位,拼音组合的第一位“shua”与第二拼音的第一位“shua”比较,拼音组合的第二位“dan”与第二拼音的第二位“dan”比较,以及比较拼音组合的词组拼音“shuadan”与第二拼音的词组拼音“shuadan”。

更进一步,在比较拼音组合与第二拼音时,可以比较第二拼音与每个分词后的词组的拼音组合;也可以仅比较与预设关键词字数相同的拼音组合与第二拼音,或者也可以仅比较不符合预设规则的词组的拼音组合与第二拼音,进而可以减少比较次数,提高鉴别效率。

在上述这些实施例中,如果拼音组合中每个字的拼音与第二拼音中相同顺位的每个字的拼音均匹配,且拼音组合中词组的拼音与预设关键词词组的拼音匹配,那么该拼音组合与第二拼音匹配,故而第一拼音中存在与第二拼音匹配的拼音组合,进而将该短信鉴别为垃圾短信。

沿用上文的例子,对于“刷單”的拼音组合,拼音组合的第一位“shua”与第二拼音的第一位“shua”匹配,拼音组合的第二位“dan”与第二拼音的第二位“dan”匹配,以及拼音组合的词组拼音“shuadan”与第二拼音的词组拼音“shuadan”也匹配,因此,判断拼音组合“shua,dan,shuadan”与第二拼音匹配,将短信“你的信用良好,邀请你刷單”鉴别为垃圾短信。

由上述描述可以看出,在拼音组合和第二拼音二者相同顺位的每个字的拼音匹配,且二者词组的拼音也匹配时,才判断该拼音组合与第二拼音匹配,进而才会将该短信鉴别为垃圾短信,通过这样的复合比较,可以提高鉴别准确度,降低将非垃圾短信鉴别为垃圾短信的误检率。

进一步,垃圾短信发送者还存在以相似音字代替关键词部分或全部文本的情况,例如后鼻韵的字与前鼻韵的字互换,如以“衅名”代替“姓名”等。

为了鉴别出上述相似音字替换的垃圾短信,在一些实施例中,如果第二拼音存在相似拼音,那么判断第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,就具体为判断第一拼音中是否存在与第二拼音一致、或者与第二拼音的相似拼音一致的拼音组合,如果第一拼音中存在与第二拼音一致、或者与第二拼音的相似拼音一致的拼音组合,表示第一拼音中存在与预设关键词对应的第二拼音匹配的拼音组合;如果第二拼音不存在相似拼音,则具体为判断第一拼音中是否存在与第二拼音一致的拼音组合,如果第一拼音中存在与第二拼音一致的拼音组合,表示第一拼音中存在与预设关键词对应的第二拼音匹配的拼音组合。

具体来讲,如果预设关键词中具有后鼻韵的字,那么第二拼音的相似拼音可以包括该后鼻韵的前鼻韵,例如“ang”的相似拼音为“an”;反之,如果预设关键词中具有前鼻韵的字,那么第二拼音的相似拼音可以包括该前鼻韵的后鼻韵。如果预设关键词中具有翘舌音的字,那么第二拼音的相似拼音可以包括该翘舌音的平舌音,例如“sh”的相似拼音为“s”;反之,如果预设关键词中具有平舌音的字,那么第二拼音的相似拼音可以包括该平舌音的翘舌音。如果预设关键词中具有声母“h”的字,那么第二拼音的相似拼音可以包括声母“f”;反之,如果预设关键词中具有声母“f”的字,那么第二拼音的相似拼音可以包括声母“h”。

或者,本发明所属领域的技术人员可以根据实际垃圾短信出现的替换字来设置第二拼音的相似拼音,例如监控到垃圾发送者以“衅名”替换“姓名”,则为预设关键词“姓名”的第二拼音“xingming”设置相似拼音“xinming”。

下面以两个具体例子来进行说明。第一个例子沿用上文中的例子,短信文本为“你的信用良好,邀请你刷單”,预设关键词为“刷单”,第二拼音为“shuadan”,假设第二拼音没有预设的相似拼音,那么在第一个例子中需要判断的是第一拼音中是否存在与第二拼音“shuadan”一致的拼音组合。通过比较发现,词组“刷單”的拼音组合“shuadan”与第二拼音“shuadan”一致,因此判断该第一拼音中存在与第二拼音匹配的拼音组合,进而判断该短信为垃圾短信。

第二个例子,假设短信的文本为“输入您的衅名”,预设关键词为“姓名”,第二拼音为“xingming”,假设第二拼音有一个相似拼音,为“xinming”,那么在第二个例子中需要判断的是第一拼音中是否存在与第二拼音“xingming”或者相似拼音“xinming”一致的拼音组合。通过比较发现,词组“衅名”的拼音组合“xinming”虽然与第二拼音“xingming”不一致,但是与相似拼音“xinming”一致,因此判断该第一拼音中存在与第二拼音匹配的拼音组合,进而判断该短信为垃圾短信。

由上述描述可以看出,如果第二拼音不存在相似拼音,则只有拼音组合与第二拼音严格一致时才将短信鉴别为垃圾短信,而当第二拼音存在相似拼音时,拼音组合与第二拼音或者相似拼音中的任一者一致,都将短信鉴别为垃圾短信,从而避免用相似音字替换的垃圾短信被漏检,更进一步降低了漏检率。

基于与前述实施例中垃圾短信鉴别的方法同样的发明构思,本发明第二方面还提供一种垃圾短信鉴别的装置,如图2所示,包括:

转化模块101,用于将短信的文本转化为对应的第一拼音;

判断模块102,用于判断第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;

鉴别模块103,用于如果第一拼音中存在与第二拼音匹配的拼音组合,将短信鉴别为垃圾短信。

可选的,所述装置还包括分词模块,用于在将短信的文本转化为对应的第一拼音之前,对短信的文本进行分词,获得一个或多个词组;

转化模块101用于将分词得到的每个词组转化为对应的拼音组合。

可选的,拼音组合包括词组中每个字的拼音和词组的拼音。

可选的,第二拼音也包括预设关键词中每个字的拼音和预设关键词词组的拼音,判断模块102用于按照相同顺位,比较拼音组合中每个字的拼音与第二拼音中每个字的拼音,判断拼音组合中每个字的拼音是否与第二拼音中每个字的拼音均匹配;判断拼音组合中词组的拼音是否与预设关键词词组的拼音匹配;

如果拼音组合中每个字的拼音与第二拼音中每个字的拼音均匹配,且拼音组合中词组的拼音与预设关键词词组的拼音匹配,则表示拼音组合与第二拼音匹配,第一拼音中存在与第二拼音匹配的拼音组合。

可选的,如果第二拼音存在相似拼音,判断模块102用于判断第一拼音中是否存在与第二拼音一致、或者与第二拼音的相似拼音一致的拼音组合,如果第一拼音中存在与第二拼音一致、或者与第二拼音的相似拼音一致的拼音组合,则表示第一拼音中存在与预设关键词对应的第二拼音匹配的拼音组合;

如果第二拼音不存在相似拼音,判断模块102用于判断第一拼音中是否存在与第二拼音一致的拼音组合,如果第一拼音中存在与第二拼音一致的拼音组合,表示第一拼音中存在与预设关键词对应的第二拼音匹配的拼音组合。

可选的,拼音组合为短信的文本中每个字的拼音与相邻字的拼音的组合。

可选的,装置还包括检查模块,用于在将短信的文本转化为对应的第一拼音之前,检查短信的文本中是否存在不满足预设规则的文本;

如果短信的文本中存在不满足预设规则的文本,通知转化模块101执行s101。

前述图1实施例中的垃圾短信鉴别的方法的各种变化方式和具体实例同样适用于本实施例的垃圾短信鉴别的装置,通过前述对垃圾短信鉴别的方法的详细描述,本领域技术人员可以清楚的知道本实施例中垃圾短信鉴别的装置的实施方法,所以为了说明书的简洁,在此不再详述。

基于与前述实施例中垃圾短信鉴别的方法同样的发明构思,本发明第三方面还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述实施例任一方法的步骤。

基于与前述实施例中垃圾短信鉴别的方法同样的发明构思,本发明第四方面还提供一种计算机设备,如图3所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机设备可以为包括手机、平板电脑、pda(personaldigitalassistant,个人数字助理)、pos(pointofsales,销售终端)、车载电脑等任意计算机设备,以计算机设备为手机为例:

图3示出的是与本发明实施例提供的计算机设备相关的手机的部分结构的框图。参考图3,手机包括:射频(radiofrequency,rf)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless-fidelity,wi-fi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解,图3中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图3对手机的各个构成部件进行具体的介绍:

rf电路310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器380处理;另外,将设计上行的数据发送给基站。通常,rf电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(lownoiseamplifier,lna)、双工器等。此外,rf电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystemofmobilecommunication,gsm)、通用分组无线服务(generalpacketradioservice,gprs)、码分多址(codedivisionmultipleaccess,cdma)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、长期演进(longtermevolution,lte)、电子邮件、短消息服务(shortmessagingservice,sms)等。

存储器320可用于存储软件程序以及模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元330可包括触控面板331以及其他输入设备332。触控面板331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331,输入单元330还可以包括其他输入设备332。具体地,其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341,可选的,可以采用液晶显示器(liquidcrystaldisplay,lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板341。进一步的,触控面板331可覆盖显示面板341,当触控面板331检测到在其上或附近的触摸操作后,传送给处理器380以确定触摸事件的类型,随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图3中,触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度,接近传感器可在手机移动到耳边时,关闭显示面板341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路360、扬声器361,传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器361,由扬声器361转换为声音信号输出;另一方面,传声器362将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器380处理后,经rf电路310以发送给比如另一手机,或者将音频数据输出至存储器320以便进一步处理。

wifi属于短距离无线传输技术,手机通过wifi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了wifi模块370,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器380可包括一个或多个处理单元;优选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池),优选的,电源可以通过电源管理系统与处理器380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本发明实施例中,该计算机设备所包括的处理器380执行存储器存储的程序时实现前述实施例中任一方法的步骤。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

在本发明实施例的技术方案中,将短信的文本转化为对应的第一拼音,判断第一拼音中是否存在与预设关键词对应的第二拼音匹配拼音组合,如果第一拼音中存在与第二拼音匹配拼音组合,例如判断出短信文本中“刷單”的拼音组合“shuadan”与“刷单”的第二拼音“shuadan”匹配,则将该短信鉴别为垃圾短信。所以,本发明实施例的技术方案能够鉴别出部分或全部关键词文本替换的垃圾短信,解决了垃圾短信漏检率高的技术问题,降低了漏检率。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了,a1、一种垃圾短信鉴别的方法,其特征在于,包括:

将短信的文本转化为对应的第一拼音;

判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;

如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。

a2、根据a1所述的方法,其特征在于,在所述将短信的文本转化为对应的第一拼音之前,还包括:

对所述短信的文本进行分词,获得一个或多个词组;

所述将短信的文本转化为对应的第一拼音,包括:

将分词得到的每个所述词组转化为对应的拼音组合。

a3、根据a2所述的方法,其特征在于,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。

a4、根据a3所述的方法,其特征在于,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:

按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;

判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;

如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。

a5、根据a1或a4所述的方法,其特征在于,如果所述第二拼音存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,如果所述第一拼音中存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,则表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合;

如果所述第二拼音不存在相似拼音,所述判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合,包括:判断所述第一拼音中是否存在与所述第二拼音一致的拼音组合,如果所述第一拼音中存在与所述第二拼音一致的所述拼音组合,表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合。

a6、根据a1所述的方法,其特征在于,所述拼音组合为所述短信的文本中每个字的拼音与相邻字的拼音的组合。

a7、根据a1所述的方法,其特征在于,在所述将短信的文本转化为对应的第一拼音之前,还包括:

检查所述短信的文本中是否存在不满足预设规则的文本;

如果所述短信的文本中存在不满足所述预设规则的文本,则执行所述将短信的文本转化为对应的第一拼音的步骤。

b8、一种垃圾短信鉴别的装置,其特征在于,包括:

转化模块,用于将短信的文本转化为对应的第一拼音;

判断模块,用于判断所述第一拼音中是否存在与预设关键词对应的第二拼音匹配的拼音组合;

鉴别模块,用于如果所述第一拼音中存在与所述第二拼音匹配的所述拼音组合,将所述短信鉴别为垃圾短信。

b9、根据b8所述的装置,其特征在于,所述装置还包括分词模块,用于在将短信的文本转化为对应的第一拼音之前,对所述短信的文本进行分词,获得一个或多个词组;

所述转化模块用于将分词得到的每个所述词组转化为对应的拼音组合。

b10、根据b9所述的装置,其特征在于,所述拼音组合包括所述词组中每个字的拼音和所述词组的拼音。

b11、根据b10所述的装置,其特征在于,所述第二拼音也包括所述预设关键词中每个字的拼音和所述预设关键词词组的拼音,所述判断模块用于按照相同顺位,比较所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音,判断所述拼音组合中每个字的拼音是否与所述第二拼音中每个字的拼音均匹配;判断所述拼音组合中所述词组的拼音是否与所述预设关键词词组的拼音匹配;

如果所述拼音组合中每个字的拼音与所述第二拼音中每个字的拼音均匹配,且所述拼音组合中所述词组的拼音与所述预设关键词词组的拼音匹配,则表示所述拼音组合与所述第二拼音匹配,所述第一拼音中存在与所述第二拼音匹配的所述拼音组合。

b12、根据b8或b11所述的装置,其特征在于,如果所述第二拼音存在相似拼音,所述判断模块用于判断所述第一拼音中是否存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,如果所述第一拼音中存在与所述第二拼音一致、或者与所述第二拼音的相似拼音一致的所述拼音组合,则表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合;

如果所述第二拼音不存在相似拼音,所述判断模块用于判断所述第一拼音中是否存在与所述第二拼音一致的拼音组合,如果所述第一拼音中存在与所述第二拼音一致的所述拼音组合,表示所述第一拼音中存在与所述预设关键词对应的第二拼音匹配的拼音组合。

b13、根据b8所述的装置,其特征在于,所述拼音组合为所述短信的文本中每个字的拼音与相邻字的拼音的组合。

b14、根据b8所述的装置,其特征在于,所述装置还包括检查模块,用于在将短信的文本转化为对应的第一拼音之前,检查所述短信的文本中是否存在不满足预设规则的文本;

如果所述短信的文本中存在不满足所述预设规则的文本,通知所述转化模块执行所述将短信的文本转化为对应的第一拼音的步骤。

c15、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现a1-a7任一项所述方法的步骤。

d16、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现a1-a7任一项所述方法的步骤。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1