恶意文本的检测识别方法及装置的制造方法_2

文档序号：8543678阅读：来源：国知局

中分别对应的概率，再根据所述多个特征词在各个预置恶意类别中分别对应的概率，获取所述文本在各个预置恶意类别中分别对应的概率，若所述文本在各个预置恶意类别分别对应的概率中，存在大于或等于预设概率阈值的概率，则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中，并且将所述文本包含的多个特征词保存在对应的预置恶意类别中，其中，预设概率阈值可以根据实际需求进行设定，本发明实施例不做限定。将所述文本包含的多个特征词保存在对应的预置恶意类别中具体可以包括:若对应的预置恶意类别中已保存有文本包含的多个特征词，则将多个特征词在该预置恶意类别中分别对应的出现频数累计加1，若多个特征词中存在未在预置恶意类别中保存过的特征词，则在该预置恶意类别中增加未保存过的特征词，并将该特征词的出现频数标记为1.
[0037]其中，可以采用w-singling方式将文本划分为多个特征词，w可以配置为任意数字。例如对于文本我喜欢使用微博，若采用3-singling方式进行划分，划分后的特征词分别为我喜欢、喜欢使、欢使用、使用微、用微博。预置恶意类别的个数可以根据实际需求进行配置，预置恶意类别具体可以为广告、团购、色情等类别，本发明实施例不做限定。进一步地，还可以额外配置一个非恶意类别。
[0038]上述分别计算所述多个特征词在各个预置恶意类别中分别对应的概率的步骤可以包括:根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数，计算所述多个特征词在各个预置恶意类别中分别对应的概率。例如，某一特征词查看在类别I中出现的频数为16，在类别2中出现的频数为14，则特征词查看在类别I中对应的概率为16/30，在类别2中对应的概率为14/30。
[0039]上述根据所述多个特征词在各个预置恶意类别中分别对应的概率，获取所述文本在各个预置恶意类别中分别对应的概率的步骤可以包括:根据公式Px = Pr(类别χ|特征A)*Pr (类别x|特征B)*...Pr (类别X I特征N)获取所述文本在各个预置恶意类别中分别对应的概率。其中，Px为文本在类别X中对应的概率，Pr (类别XI特征N)为文本包含的特征词N在类别X中对应的概率。
[0040]优选地，将任意一个文本划分为多个特征词的步骤之前还可以包括:对文本进行预处理,预处理可以为过滤掉文本中的英文、阿拉数字、中文数字、非中文等,从而可以进一步降低计算复杂度，提高恶意文本数据库的训练效率。例如，对于文本点击查看瘦十二 kg方法，经过预处理后的文本为点击查看瘦方法。
[0041]202、获取文本对应的SimHash值。
[0042]对于本发明实施例中的文本，通常为长度较短的消息文本，例如，长度在15个汉字以内的微博昵称、微博话题等。
[0043]对于本发明实施例，步骤202具体可以包括:首先获取所述文本中包含的各个中文字分别对应的汉语拼音，然后计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，最后根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，获取所述文本对应的SimHash值。其中，可以采用Wang/Jenkins哈希算法计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值。
[0044]优选地，步骤202之前还可以包括:对文本进行预处理，预处理可以为对文本进行繁简转换，或者将文本中包含的英文、阿拉伯数字、中文数字等进行过滤。通过在获取文本对应的SimHash值之前，对文本进行预处理，可以将文本中包含的不相关信息过滤掉，进一步提高恶意文本的检测识别效率。例如，对于文本点击查看瘦三十斤，经过预处理后的文本为点击查看瘦斤。
[0045]203、根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离。
[0046]优选地，可以采用抽屉原理将各个恶意文本分别对应的SimHash值保存在恶意文本数据库中，从而可以降低文本与所述各个恶意文本之间的汉明距离的获取复杂度，进一步提高针对长度较短的恶意文本的检测识别效率。
[0047]204、若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。
[0048]其中，预设阈值可以根据实际需求进行设定，例如，将预设阈值设定为6，则此时汉明距离小于6时，则确定文本与恶意文本相似，即将该文本确定为恶意文本。
[0049]本发明实施例提供的另一种恶意文本的检测识别方法，首先获取文本对应的SimHash值，然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离，若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比，本发明基于文本对应的SimHash值进行恶意文本检测识别，可以提高针对长度较短的恶意文本的检测识别准确率和精度。
[0050]再进一步地，作为图1所示方法的具体实现，本发明实施例提供一种恶意文本的检测识别装置，所述装置的实体可以为服务器，如图3所示，所述装置可以包括:获取单元31、确定单元32。
[0051]获取单元31，可以用于获取文本对应的SimHash值。
[0052]获取单元31，还可以用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离。
[0053]确定单元32，可以用于若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。
[0054]需要说明的是，本发明实施例提供的装置所涉及各功能单元的其他相应描述，可以参考图1中的对应描述，在此不再赘述。
[0055]再进一步地，作为图2所示方法的具体实现，本发明实施例提供一种恶意文本的检测识别装置，所述装置的实体可以为服务器，如图4所示，所述装置可以包括:获取单元41、确定单元42、建立单元43。
[0056]获取单元41，可以用于获取文本对应的SimHash值。
[0057]获取单元41，还可以用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离。
[0058]确定单元42，可以用于若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。
[0059]获取单元41，可以用于获取所述文本中包含的各个中文字分别对应的汉语拼音。
[0060]获取单元41，还可以用于计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值。
[0061]获取单元41，还可以用于根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，获取所述文本对应的SimHash值。
[0062]建立单元43，可以用于建立所述恶意文本数据库，所述恶意文本数据库中保存有多个恶意文本和所述多个恶意文本分别对应的SimHash值。
[0063]建立单元43可以包括:划分模块4301、计算模块4302、获取模块4303、保存模块4304。
[0064]划分模块4301，可以用于将任意一个文本划分为多个特征词。
[0065]计算模块4302，可以用于分别计算所述划分模块4301划分的多个特征词

完整全部详细技术资料下载

当前第2页1 2 3