恶意文本的检测识别方法及装置的制造方法

文档序号:8543678阅读:414来源:国知局
恶意文本的检测识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息技术领域,特别涉及一种恶意文本的检测识别方法及装置。
【背景技术】
[0002]随着互联网的不断发展,社交媒体产品的种类也越来越多,其中,微博作为一种社交平台被用户广泛的应用。微博的消息长度通常较短,而微博中的用户昵称、话题等消息的长度更短,因此,如何针对这种长度较短的消息文本进行恶意文本识别已经成为需要解决的关键技术问题。
[0003]目前,通常是通过基于关键词的匹配算法来进行长度较短的恶意文本检测识别,即根据线上的一些投诉情况或者恶意案例来选定关键词,然后基于选定的关键词进行恶意文本匹配。然而由于根据线上的一些投诉情况或者恶意案例选定的关键词的准确率和精度较低,并且攻击方只需对恶意文本中的词语进行微调,即可避免与选定的关键词相同或相似,从而造成现有针对长度较短的恶意文本识别方法的准确率和精度较低。

【发明内容】

[0004]本发明实施例提供一种恶意文本的检测识别方法及装置,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
[0005]本发明实施例采用的技术方案为:
[0006]一种恶意文本的检测识别方法,包括:
[0007]获取文本对应的SimHash值;
[0008]根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离;
[0009]若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
[0010]一种恶意文本的检测识别装置,包括:
[0011]获取单元,用于获取文本对应的SimHash值;
[0012]所述获取单元,还用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离;
[0013]确定单元,用于若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
[0014]本发明实施例提供的恶意文本的检测识别方法及装置,首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比,本发明基于文本对应的SimHash值进行恶意文本检测识别,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
【附图说明】
[0015]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0016]图1为本发明实施例提供的一种恶意文本的检测识别方法流程图;
[0017]图2为本发明实施例提供的另一种恶意文本的检测识别方法流程图;
[0018]图3为本发明实施例提供的一种恶意文本的检测识别装置结构示意图;
[0019]图4为本发明实施例提供的另一种恶意文本的检测识别装置结构示意图。
【具体实施方式】
[0020]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0021]为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
[0022]本发明实施例提供一种恶意文本的检测识别方法,如图1所示,所述方法包括:
[0023]101、获取文本对应的SimHash值。
[0024]对于本发明实施例,步骤101具体可以包括对文本包含的特征进行SimHash计算,从而获取文本对应的SimHash值。其中,文本通常为长度较短的消息文本,可以为长度在15个汉字以内的微博昵称、微博话题等。文本包含的特征可以为文本包含的每个中文字和每个中文字分别对应的汉语拼音,例如,对于文本查看减肥方法,文本包含的特征为查、cha、看、kan、减、jian、月巴、fe1、方、fang、法、fa。
[0025]其中,SimHash算法是一种用于网页去重最常用的哈希算法,SimHash算法不同于传统的哈希算法,对于两个相似的文本内容,通过SimHash算法能够提供差异不大的语义指纹哈希值。
[0026]优选地,步骤101之前还可以包括:对文本进行预处理,预处理可以为对文本进行繁简转换,或者将文本中包含的英文、阿拉伯数字、中文数字等进行过滤。通过在获取文本对应的SimHash值之前,对文本进行预处理,可以将文本中包含的不相关信息过滤掉,进一步提高针对长度较短的恶意文本的检测识别效率。例如,对于文本点击查看瘦三十斤,经过预处理后的文本为点击查看瘦斤。
[0027]102、根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离。
[0028]其中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数,即将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:对于二进制字符串1011101与1001001之间的汉明距离是2,对于字符串2143896与2233796之间的汉明距离是3。
[0029]优选地,可以采用抽屉原理将各个恶意文本分别对应的SimHash值保存在恶意文本数据库中,从而可以降低文本与所述各个恶意文本之间的汉明距离的获取复杂度,进一步提高针对长度较短的恶意文本的检测识别效率。
[0030]103、若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
[0031]其中,预设阈值可以根据实际需求进行设定,例如,将预设阈值设定为5,则此时汉明距离小于5时,则确定文本与恶意文本相似,即将该文本确定为恶意文本。
[0032]本发明实施例提供的一种恶意文本的检测识别方法,首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比,本发明基于文本对应的SimHash值进行恶意文本检测识别,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
[0033]进一步地,本发明实施例提供另一种恶意文本的检测识别方法,如图2所示,所述方法包括:
[0034]201、建立所述恶意文本数据库。
[0035]其中,所述恶意文本数据库中保存有多个恶意文本和与所述多个恶意文本分别对应的SimHash值。
[0036]对于本发明实施例,步骤201具体可以包括:首先将任意一个文本划分为多个特征词,然后分别计算所述多个特征词在各个预置恶意类别
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1