恶意文本的检测识别方法及装置的制造方法_3

文档序号:8543678阅读:来源:国知局
在各个预置恶意类别中分别对应的概率。
[0066]获取模块4303,可以用于根据所述计算模块4302计算的多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率。
[0067]保存模块4304,可以用于若所述文本在各个预置恶意类别分别对应的概率中,存在大于或等于预设概率阈值的概率,则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中,并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。
[0068]计算模块4302,可以用于根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数,计算所述多个特征词在各个预置恶意类别中分别对应的概率。
[0069]需要说明的是,本发明实施例提供的装置所涉及各功能单元的其他相应描述,可以参考图2中的对应描述,在此不再赘述。
[0070]本发明实施例提供的恶意文本的检测识别装置,首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比,本发明基于文本对应的SimHash值进行恶意文本检测识别,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
[0071]本发明实施例提供的恶意文本的检测识别装置可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的恶意文本的检测识别方法及装置可以适用于信息技术领域,但不仅限于此。
[0072]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
[0073]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
【主权项】
1.一种恶意文本的检测识别方法,其特征在于,包括: 获取文本对应的SimHash值; 根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离; 若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
2.根据权利要求1所述的恶意文本的检测识别方法,其特征在于,所述获取所述文本对应的SimHash值的步骤包括: 获取所述文本中包含的各个中文字分别对应的汉语拼音; 计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值; 根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值,获取所述文本对应的SimHash值。
3.根据权利要求1所述的恶意文本的检测识别方法,其特征在于,所述获取文本对应的SimHash值的步骤之前还包括: 建立所述恶意文本数据库,所述恶意文本数据库中保存有多个恶意文本和与所述多个恶意文本分别对应的SimHash值。
4.根据权利要求3所述的恶意文本的检测识别方法,其特征在于,所述建立所述恶意文本数据库的步骤包括: 将任意一个文本划分为多个特征词; 分别计算所述多个特征词在各个预置恶意类别中分别对应的概率; 根据所述多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率; 若所述文本在各个预置恶意类别分别对应的概率中,存在大于或等于预设概率阈值的概率,则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中,并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。
5.根据权利要求4所述的恶意文本的检测识别方法,其特征在于,所述分别计算所述多个特征词在各个预置恶意类别中分别对应的概率的步骤包括: 根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数,计算所述多个特征词在各个预置恶意类别中分别对应的概率。
6.一种恶意文本的检测识别装置,其特征在于,包括: 获取单元,用于获取文本对应的SimHash值; 所述获取单元,还用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离;确定单元,用于若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
7.根据权利要求6所述的恶意文本的检测识别装置,其特征在于, 所述获取单元,用于获取所述文本中包含的各个中文字分别对应的汉语拼音; 所述获取单元,还用于计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值; 所述获取单元,还用于根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值,获取所述文本对应的SimHash值。
8.根据权利要求6所述的恶意文本的检测识别装置,其特征在于,所述装置还包括: 建立单元,用于建立所述恶意文本数据库,所述恶意文本数据库中保存有多个恶意文本和所述多个恶意文本分别对应的SimHash值。
9.根据权利要求8所述的恶意文本的检测识别装置,其特征在于,所述建立单元包括: 划分模块,用于将任意一个文本划分为多个特征词; 计算模块,用于分别计算所述划分模块划分的多个特征词在各个预置恶意类别中分别对应的概率; 获取模块,用于根据所述计算模块计算的多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率; 保存模块,用于若所述文本在各个预置恶意类别分别对应的概率中,存在大于或等于预设概率阈值的概率,则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中,并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。
10.根据权利要求8所述的恶意文本的检测识别装置,其特征在于, 所述计算模块,用于根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数,计算所述多个特征词在各个预置恶意类别中分别对应的概率。
【专利摘要】本发明实施例公开了一种恶意文本的检测识别方法及装置,涉及信息技术领域,可以提高恶意文本的检测识别准确率和精度。所述方法包括:首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104866478
【申请号】CN201410059149
【发明人】王俊乐
【申请人】腾讯科技(深圳)有限公司
【公开日】2015年8月26日
【申请日】2014年2月21日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1