恶意论坛的识别方法及装置制造方法

文档序号:8004962阅读:210来源:国知局
恶意论坛的识别方法及装置制造方法
【专利摘要】本发明公开了一种恶意论坛的识别方法及装置。该方法包括获取待访问论坛的论坛名称和该论坛的版块名称;将论坛名称和版块名称分别与预存关键词库中的恶意关键词进行匹配;若匹配成功,则识别该论坛为恶意论坛。通过本发明,无论对已知的恶意论坛或未知的恶意论坛,均能够对其进行识别,克服了现有技术中只能对已知的恶意论坛进行识别的缺陷。
【专利说明】恶意论坛的识别方法及装置
【技术领域】
[0001]本发明涉及互联网领域,特别是涉及一种恶意论坛的识别方法及装置。
【背景技术】
[0002]恶意论坛是指故意在计算机系统上执行恶意任务的病毒、蠕虫和特洛伊木马等的非法论坛。这类论坛通常都有一个共同特点,他们通常情况下是以某种页面形式让人们正常浏览页面内容,同时非法获取用户计算机中的各种数据。现如今,恶意论坛严重地影响用户的网络环境,所以,对恶意论坛的识别也已经成为保证网络安全的重要工作之一,目前,通常采用如下两种技术对恶意论坛进行识别。
[0003]第一种,在防火墙的内存中存储有恶意论坛的IP (Internet Protocol,网络之间互连的协议)地址以及符合该IP地址的所有URL (Uniform Resource Locator,统一资源定位符)的对应关系。当获取到用户访问某论坛的URL请求时,还要获取该论坛的IP地址,根据该论坛的IP地址在防火墙内存中查找该IP地址对应的所有URL,并将论坛URL与防火墙内存中该IP地址对应的所有URL进行对比,对比成功则说明该论坛为恶意论坛。
[0004]第二种,将用户想要访问的论坛的URL与恶意关键词列表页匹配,在匹配结果中选取基准关键字,并对这组关键字进行顺序标号标识,若该组关键字的顺序号标识数目与保存的恶意关键词表中的该组关键字的顺序号标识数目一致,则说明该论坛为恶意论坛。
[0005]上述两种技术均为基于URL对比的方式,这就需要预先获取到恶意论坛的URL并存储,因此仅能够对已知的恶意论坛进行识别和过滤,对未知的恶意论坛无法进行识别和处理。

【发明内容】

[0006]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的恶意论坛的识别方法及装置。
[0007]本发明提供了一种恶意论坛的识别方法,包括:
[0008]获取待访问论坛的论坛名称和论坛的版块名称;
[0009]将论坛名称和版块名称分别与预存关键词库中的恶意关键词进行匹配;
[0010]若匹配成功,则识别论坛为恶意论坛。
[0011]进一步地,在识别论坛为恶意论坛之后,还包括:
[0012]收集所有已知恶意论坛的论坛名称和版块名称并进行处理,得到论坛名称列表和版块名称列表;
[0013]对论坛名称列表和版块名称列表进行热点聚合,得到新恶意关键词,将新恶意关键词添加到关键词库中。
[0014]进一步地,对论坛名称列表和版块名称列表进行热点聚合,得到新恶意关键词,包括:
[0015]根据最长公共子序列LCS算法,生成与论坛名称列表和版块名称列表各自对应的热点词表;
[0016]根据词语出现频率在各个热点词表中选择热点关键词;
[0017]将获取的各个热点关键词进行合并,作为新恶意关键词。
[0018]进一步地,各个热点词表的生成方式包括:
[0019]对于论坛名称列表和版块名称列表而言,
[0020]采用最长公共子序列LCS算法对其中包含的每两个词进行匹配;
[0021]获取每两个词之间的最长公共子序列,作为热点关键词;
[0022]将获取的所有热点关键词进行组合,得到与其对应的热点词表。
[0023]进一步地,根据词语出现频率在各个热点词表中选择热点关键词,包括:
[0024]根据预设规则分别对各个热点词表中的热点关键词进行筛选;
[0025]在筛选后的各个热点词表中选择出现频率由高到低的预设个数热点关键词。
[0026]进一步地,根据预设规则分别对各个热点词表中的热点关键词进行筛选,包括:
[0027]对各个热点词表进行常用语去除处理,其中,常用语为使用频率超过预设次数的词语;
[0028]判断处理后的各个热点词表中的热点关键词所对应的论坛是否为恶意论坛;
[0029]若是,保留该关键词;
[0030]若否,去除该关键词。
[0031]进一步地,收集所有已知恶意论坛的论坛名称和版块名称并进行处理,包括:
[0032]收集所有已知恶意论坛的论坛名称和版块名称并存入各自对应的预处理库;
[0033]对各个预处理库中、来自同一网络之间互连协议IP地址的名称进行消重处理。
[0034]进一步地,对论坛名称列表和版块名称列表进行热点聚合,包括:
[0035]每隔预设时间对论坛名称列表和版块名称列表进行热点聚合。
[0036]进一步地,恶意关键词包括论is名称关键词和版块名称关键词;
[0037]将论坛名称以及版块名称分别与预存关键词库中的恶意关键词进行匹配,包括:
[0038]将论坛名称与论坛名称关键词匹配,将版块名称与版块名称关键词匹配;
[0039]当论坛名称与论坛名称关键词匹配,且版块名称与版块名称关键词匹配时,则确认匹配成功;
[0040]当论坛名称与论坛名称关键词匹配,且版块名称关键词为空时,则确认匹配成功;
[0041]当版块名称与版块名称关键词匹配,且论坛名称关键词为空时,则确认匹配成功;
[0042]否则,确认匹配失败,则论坛为非恶意论坛。
[0043]本发明还提供了一种恶意论坛的识别装置,包括:
[0044]存储器,配置为存储包含恶意关键词的关键词库;
[0045]用户输入接口,配置为接收用户访问论坛的指示;
[0046]名称获取器,配置为获取待访问论坛的论坛名称和论坛的版块名称;
[0047]名称匹配器,配置为读取存储器和名称获取器,将论坛名称和版块名称分别与关键词库中的恶意关键词进行匹配;
[0048]恶意论坛识别器,配置为若名称匹配器确认匹配成功,则识别论坛为恶意论坛。[0049]进一步地,上述装置还包括:
[0050]名称处理器,配置为收集所有已知恶意论坛的论坛名称和版块名称并进行处理,得到论坛名称列表和版块名称列表;
[0051]聚合生成器,配置为对名称处理器得到的论坛名称列表和版块名称列表进行热点聚合,得到新恶意关键词,将新恶意关键词存储到存储器的关键词库中。
[0052]进一步地,聚合生成器包括:
[0053]词表生成单元,配置为根据最长公共子序列LCS算法,生成与论坛名称列表和版块名称列表各自对应的热点词表;
[0054]选取单元,配置为根据词语出现频率在词表生成单元生成的各个热点词表中选择热点关键词;
[0055]合并单元,配置为将选取单元获取的各个热点关键词进行合并,作为新恶意关键词,将新恶意关键词存储到存储器的关键词库中。
[0056]进一步地,词表生成单元还配置为按照如下方式生成各个热点词表:
[0057]对于论坛名称列表和版块名称列表而言,
[0058]采用最长公共子序列LCS算法对其中包含的每两个词进行匹配;
[0059]获取每两个词之间的最长公共子序列,作为热点关键词;
[0060]将获取的所有热点关键词进行组合,得到与其对应的热点词表。
[0061]进一步地,选取单元配置为按照如下方式在各个热点词表中选择热点关键词:
[0062]根据预设规则分别对词表生成单元生成的各个热点词表中的热点关键词进行筛选;
[0063]在筛选后的各个热点词表中选择出现频率由高到低的预设个数热点关键词。
[0064]进一步地,选取单元还配置为按照如下方式对各个热点词表中的热点关键词进行筛选:
[0065]对词表生成单元生成的各个热点词表进行常用语去除处理,其中,常用语为使用频率超过预设次数的词语;
[0066]判断处理后的各个热点词表中的热点关键词所对应的论坛是否为恶意论坛;
[0067]若是,保留该关键词;
[0068]若否,去除该关键词。
[0069]进一步地,名称处理器配置为:
[0070]收集所有已知恶意论坛的论坛名称和版块名称并存入各自对应的预处理库;
[0071]对各个预处理库中、来自同一网络之间互连协议IP地址的名称进行消重处理,得到论坛名称列表和版块名称列表。
[0072]进一步地,聚合生成器还配置为每隔预设时间对论坛名称列表和版块名称列表进行热点聚合,得到新恶意关键词,将新恶意关键词存储到存储器的关键词库中。
[0073]进一步地,存储器中的恶意关键词包括论坛名称关键词和版块名称关键词;
[0074]名称匹配器配置为按照如下方式执行匹配操作:
[0075]将论坛名称与论坛名称关键词匹配,将版块名称与版块名称关键词匹配;
[0076]当论坛名称与论坛名称关键词匹配,且版块名称与版块名称关键词匹配时,则确认匹配成功;[0077]当论坛名称与论坛名称关键词匹配,且版块名称关键词为空时,则确认匹配成功;
[0078]当版块名称与版块名称关键词匹配,且论坛名称关键词为空时,则确认匹配成功;
[0079]否则,确认匹配失败,则论坛为非恶意论坛。
[0080]本发明提供了一种恶意论坛的识别方法及装置,通过本发明,使终端能够识别出与关键词库中恶意关键词匹配的论坛为恶意论坛。在每次识别恶意论坛之后,还会进行热点聚合生成新恶意关键词,并将其存入关键词库。新恶意关键词的添加,丰富了关键词库,从而使得本发明能够识别出更多的恶意论坛。
[0081]可见,对于本发明,无论待识别的论坛为已知论坛还是未知论坛,只要其论坛名称和版块名称能够与关键词库中的恶意关键词相匹配,就能够对其进行识别,克服了现有技术中只能对已知的恶意论坛进行识别的缺陷。进一步地,现有技术中,当恶意论坛的URL的存储数量较大时,会导致查找效率降低,而本发明在对恶意论坛进行识别时,以论坛的论坛名称和版块名称为单位进行处理,从而提高了恶意论坛的识别效率。另外,由于现有技术中恶意论坛的IP地址经常发生变化,而当原IP地址已经为正常论坛所用时,就易导致将原IP地址对应的论坛识别为恶意论坛,而本发明在识别恶意论坛时,仅使用论坛名称和版块名称即可,从而能够有效地避免了误将正常论坛识别为恶意论坛。
[0082]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
[0083]根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
【专利附图】

【附图说明】
[0084]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0085]图1是根据本发明一个实施例的一种恶意论坛的识别方法流程图;
[0086]图2是根据本发明一个实施例的热点聚合方法流程图;
[0087]图3是根据本发明一个实施例的一种恶意论坛的识别装置框图。
【具体实施方式】
[0088]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0089]相关技术提及,在识别恶意论坛时,均为基于URL对比的方式来识别待访问的论坛是否为恶意论坛,因此,仅能够对已知的恶意论坛进行识别和处理,对未知的恶意论坛无法进行识别和处理。为了解决上述技术问题,本发明实施例提供了一种恶意论坛的识别方法及装置。
[0090]下面结合附图,对本发明实施例提供的一种恶意论坛的识别方法及装置进行详细地说明。本发明实施例对具有浏览论坛功能的终端进行了改进,例如,本实施例中的终端可以为PC (Personal Computer,个人计算机)、手机、手持电脑等用户终端设备。
[0091]实施例一
[0092]本实施例为本发明的一个具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
[0093]图1示出了根据本发明一个实施例的一种恶意论坛的识别方法流程图。该方法具体包括步骤SlOl至S106。
[0094]S101,获取用户待访问论坛的论坛名称和版块名称。
[0095]本实施例中,论坛名称和版块名称为论坛指示了论坛的所包括的内容。开发者在为论坛名称命名时,一般情况会根据内容来对其进行命名,每个论坛只有一个名称。但是,论坛中的内容是以版块的形式进行划分的,一个论坛中通常至少要包括一个版块,每个版块包含了不同话题的内容,所以,版块名称可以根据所涉及的话题内容来设定。例如:名称为“摄影帝国”的论坛,其在版块划分和命名时,可以按照摄影的场景来进行,如版块名称具体可以为“缤纷世界”、“海底世界”等,当用户看到不同的版块名称时,就能够快速地得知其包含的话题,便于用户选择自己感兴趣的版块进行浏览。
[0096]在获取到该论坛的论坛名称和版块名称之后,执行步骤S102。在步骤S102中,将获取的论坛名称和版块名称分别与预存关键词库中的恶意关键词进行匹配,并确认是否匹配成功。若确认匹配成功,则触发步骤S103将该论坛识别为恶意论坛的操作,若匹配不成功,则触发步骤S104将该论坛识别为非恶意论坛的操作。
[0097]可选地,为了实现本步骤S102,需要在终端中预先存储一个关键词库,该关键词库中包括了已经收集的关于恶意论坛的恶意关键词。需要说明的是,关键词库中包括的恶意关键词为两类,其中一类为论坛名称关键词,用于与获取的论坛名称进行匹配,另一类为版块名称关键词,用于与获取的版块名称进行匹配。其中,论坛名称关键词为与预先统计的恶意论坛名称相关的词,版块名称关键词为与预先统计的恶意论坛的版块名称相关的词,关键词库中的论坛名称关键词和版块名称关键词以词组的形式存储。可选地,在本实施例中,关键词库中每组恶意关键词的存储结构如下表一所不。
[0098]表一
[0099]
【权利要求】
1.一种恶意论坛的识别方法,包括: 获取待访问论坛的论坛名称和所述论坛的版块名称; 将所述论坛名称和所述版块名称分别与预存关键词库中的恶意关键词进行匹配; 若匹配成功,则识别所述论坛为恶意论坛。
2.根据权利要求1所述的方法,其中,在识别所述论坛为恶意论坛之后,还包括: 收集所有已知恶意论坛的论坛名称和版块名称并进行处理,得到论坛名称列表和版块名称列表; 对所述论坛名称列表和所述版块名称列表进行热点聚合,得到新恶意关键词,将所述新恶意关键词添加到所述关键词库中。
3.根据权利要求1或2所述的方法,其中,所述对所述论坛名称列表和所述版块名称列表进行热点聚合,得到新恶意关键词,包括: 根据最长公共子序列LCS算法,生成与所述论坛名称列表和所述版块名称列表各自对应的热点词表; 根据词语出现频率在各个热点词表中选择热点关键词; 将获取的各个热点关键词进行合并,作为新恶意关键词。
4.根据权利要求3所述的方法,其中,所述根据词语出现频率在各个热点词表中选择热点关键词,包括: 根据预设规则分别对各个热点词表中的热点关键词进行筛选; 在筛选后的各个热点词表中选择出现频率由高到低的预设个数热点关键词。
5.根据权利要求1至4任一项所述的方法,其中,所述恶意关键词包括论坛名称关键词和版块名称关键词; 将所述论坛名称以及所述版块名称分别与预存关键词库中的恶意关键词进行匹配,包括: 将所述论坛名称与所述论坛名称关键词匹配,将所述版块名称与所述版块名称关键词匹配; 当所述论坛名称与所述论坛名称关键词匹配,且所述版块名称与所述版块名称关键词匹配时,则确认匹配成功; 当所述论坛名称与所述论坛名称关键词匹配,且所述版块名称关键词为空时,则确认匹配成功; 当所述版块名称与所述版块名称关键词匹配,且所述论坛名称关键词为空时,则确认匹配成功; 否则,确认匹配失败,则所述论坛为非恶意论坛。
6.一种恶意论坛的识别装置,包括: 存储器,配置为存储包含恶意关键词的关键词库; 用户输入接口,配置为接收用户访问论坛的指示; 名称获取器,配置为获取待访问论坛的论坛名称和所述论坛的版块名称; 名称匹配器,配置为读取所述存储器和所述名称获取器,将所述论坛名称和所述版块名称分别与所述关键词库中的恶意关键词进行匹配; 恶意论坛识别器,配置为若所述名称匹配器确认匹配成功,则识别所述论坛为恶意论坛。
7.根据权利要求6所述的装置,其中,所述装置还包括: 名称处理器,配置为收集所有已知恶意论坛的论坛名称和版块名称并进行处理,得到论坛名称列表和版块名称列表; 聚合生成器,配置为对所述名称处理器得到的论坛名称列表和版块名称列表进行热点聚合,得到新恶意关键词,将所述新恶意关键词存储到所述存储器的关键词库中。
8.根据权利要求6或7所述的装置,其中,所述聚合生成器包括: 词表生成单元,配置为根据最长公共子序列LCS算法,生成与所述论坛名称列表和所述版块名称列表各自对应的热点词表; 选取单元,配置为根据词语出现频率在所述词表生成单元生成的各个热点词表中选择热点关键词; 合并单元,配置为将所述选取单元获取的各个热点关键词进行合并,作为新恶意关键词,将所述新恶意关键词存储到所述存储器的关键词库中。
9.根据权利要求8所述的装置,其中,所述选取单元配置为按照如下方式在各个热点词表中选择热点关键词: 根据预设规则分别对所述词表生成单元生成的各个热点词表中的热点关键词进行筛选; 在筛选后的各个热点词表中选择出现频率由高到低的预设个数热点关键词。
10.根据权利要求6至9任一项所述的装置,其中,所述存储器中的恶意关键词包括论坛名称关键词和版块名称关键词; 所述名称匹配器配置为按照如下方式执行匹配操作: 将所述论坛名称与所述论坛名称关键词匹配,将所述版块名称与所述版块名称关键词匹配; 当所述论坛名称与所述论坛名称关键词匹配,且所述版块名称与所述版块名称关键词匹配时,则确认匹配成功; 当所述论坛名称与所述论坛名称关键词匹配,且所述版块名称关键词为空时,则确认匹配成功; 当所述版块名称与所述版块名称关键词匹配,且所述论坛名称关键词为空时,则确认匹配成功; 否则,确认匹配失败,则所述论坛为非恶意论坛。
【文档编号】H04L29/06GK103475642SQ201310368712
【公开日】2013年12月25日 申请日期:2013年8月22日 优先权日:2013年8月22日
【发明者】朱珊珊, 林英杰 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1