恶意网站的识别方法及装置制造方法

文档序号：6508603阅读：211来源：国知局

恶意网站的识别方法及装置制造方法
【专利摘要】本发明公开了一种恶意网站的识别方法及装置。该方法包括：获取待访问的网站的标识信息；将标识信息与预存关键词库中的恶意关键词进行匹配；若匹配成功，则识别网站为恶意网站。通过本发明，无论对已知的恶意网站或未知的恶意网站，均能够对其进行识别，克服了现有技术中只能对已知的恶意网站进行识别的缺陷。
【专利说明】恶意网站的识别方法及装置
【技术领域】
[0001]本发明涉及互联网领域，特别是涉及一种恶意网站的识别方法及装置。
【背景技术】
[0002]恶意网站是指故意在计算机系统上执行恶意任务的病毒、蠕虫和特洛伊木马等的非法网站。这类网站都有一个共同特点，他们通常情况下是以某种网页形式让人们正常浏览页面内容，同时非法获取用户计算机中的各种数据。现如今，恶意网站是影响用户网络环境的主要因素，对其的识别也已经成为保证网络安全的重要工作之一，目前，通常采用如下两种技术对恶意网站进行识别。
[0003]第一种，在防火墙的内存中存储有恶意网站的IP (Internet Protocol，网络之间互连的协议)地址以及符合该IP地址的所有URL (Uniform Resource Locator,统一资源定位符)的对应关系。当获取到用户访问某网站的URL的请求时，还应获取该网站的IP地址，再根据该网站的IP地址在防火墙内存中查找该IP地址对应的所有URL，并将网站URL与防火墙内存中该IP地址对应的所有URL进行对比，对比成功则说明该网站为恶意网站。
[0004]第二种，将用户想要访问的网站的URL与恶意关键词列表页匹配，在匹配结果中选取基准关键字，并对这组关键字进行顺序标号标识，若该组关键字的顺序号标识数目与保存的恶意关键词表中的该组关键字的顺序号标识数目一致，则说明该网站为恶意网站。
[0005]但是，上述两种技术均为基于URL对比的方式，这就需要预先获取到恶意网站的URL并存储，因此仅能够对已知的恶意网站进行识别和过滤，对未知的恶意网站无法进行识别和处理。

【发明内容】

[0006]鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的恶意网站的识别方法及装置。
[0007]本发明提供了一种恶意网站的识别方法，包括:
[0008]获取待访问的网站的标识信息；
[0009]将标识信息与预存关键词库中的恶意关键词进行匹配；
[0010]若匹配成功，则识别网站为恶意网站。
[0011]进一步地，在识别网站为恶意网站之后，还包括:
[0012]收集所有已知恶意网站的标识信息并进行处理；
[0013]对处理后的已知恶意网站的标识信息进行热点聚合，得到新恶意关键词，并将新恶意关键词添加到关键词库中。
[0014]进一步地，对处理后的已知恶意网站的标识信息进行热点聚合，得到新恶意关键词，包括:
[0015]根据处理后的标识信息中包括的各部分子信息，生成与各部分子信息对应的热点词表;[0016]根据词语出现频率在各个热点词表中选择热点关键词；
[0017]合并所获取的各个热点关键词，得到新恶意关键词。
[0018]进一步地,生成热点词表的方式包括:
[0019]对于标识信息中的每部分子信息而言，
[0020]米用LCS (Longest Common Subsequence,最长公共子序列)算法对该部分子信息中的每两个词进行匹配；
[0021]获取每两个词之间的最长公共子序列，作为热点关键词；
[0022]将获取的所有热点关键词进行组合，得到与该部分对应的热点词表。
[0023]进一步地，根据词语出现频率在各个热点词表中选择热点关键词，包括:
[0024]根据预设规则分别对各个热点词表中的热点关键词进行筛选；
[0025]在筛选后的各个热点词表中选择出现频率由高到低的预设个数热点关键词。
[0026]进一步地，根据预设规则分别对各个热点词表中的热点关键词进行筛选，包括:
[0027]对各个热点词表进行去除常用语处理，其中，常用语为使用频率超过预设次数的词语；
[0028]测试处理后的各个热点词表中的热点关键词所对应的网站是否为恶意网站；
[0029]若是，保留该关键词；
[0030]若否,去除该关键词。
[0031]进一步地，收集所有已知恶意网站的标识信息并进行处理，包括:
[0032]收集所有已知恶意网站的标识信息并存入预处理库；
[0033]对预处理库中、来自同一网络之间互连协议IP地址的恶意网站的标识信息进行
消重处理。
[0034]进一步地，对处理后的已知恶意网站的标识信息进行热点聚合，包括:
[0035]每隔预设时间对处理后的已知恶意网站的标识信息进行热点聚合。
[0036]进一步地，标识信息包括网站名称和/或网站列表页名称，恶意关键词包括名称关键词和/或列表页关键词；
[0037]将标识信息与预存关键词库中的恶意关键词进行匹配，包括:
[0038]将网站名称与恶意关键词中的名称关键词匹配，将网站列表页名称与恶意关键词中的列表页关键词匹配；
[0039]当网站名称与网站列表页名称中的至少一项满足匹配条件时，确认匹配成功；
[0040]当网站名称与网站列表页名称均不满足匹配条件时，确认匹配失败，则网站为非恶意网站。
[0041 ] 进一步地，当网站名称与网站列表页名称中的至少一项满足匹配条件时，确认匹配成功，包括:
[0042]当网站名称与恶意关键词中的名称关键词匹配，且网站列表页名称与恶意关键词中的列表页关键词匹配时，则确认匹配成功；
[0043]当网站名称与恶意关键词中的名称关键词匹配，且恶意关键词中的列表页关键词为空时，则确认匹配成功；
[0044]当网站列表页名称与恶意关键词中的列表页关键词匹配，且恶意关键词中的名称关键词为空时，则确认匹配成功。[0045]本发明还提供了一种恶意网站的识别装置，包括:
[0046]存储器，配置为存储包含恶意关键词的关键词库；
[0047]用户输入接口，配置为接收用户访问网站的指示；
[0048]信息获取器，配置为获取待访问的网站的标识信息；
[0049]信息匹配器，配置为读取存储器和信息获取器，将标识信息与关键词库中的恶意关键词进行匹配；
[0050]恶意网站识别器，配置为若信息匹配器确认匹配成功，则识别网站为恶意网站。
[0051]进一步地,上述装置还包括:
[0052]信息处理器，配置为收集所有已知恶意网站的标识信息并进行处理；
[0053]聚合生成器，配置为对信息处理器处理后的已知恶意网站的标识信息进行热点聚合，得到新恶意关键词，并将新恶意关键词添加到存储器的关键词库中。
[0054]进一步地，聚合生成器包括:
[0055]词表生成单元，配置为根据信息处理器处理后的标识信息中包括的各部分子信息，生成与各部分子信息对应的热点词表；
[0056]选取单元，配置为根据词语出现频率在词表生成单元生成的各个热点词表中选择热点关键词；
[0057]合并单元，配置为合并选取单元获取的各个热点关键词，得到新恶意关键词，并将新恶意关键词添加到存储器的关键词库中。
[0058]进一步地，词表生成单元配置为按照如下方式生成热点词表:
[0059]对于信息处理器处理后的标识信息中的每部分子信息而言，
[0060]采用LCS算法对该部分子信息中的每两个词进行匹配；
[0061]获取每两个词之间的最长公共子序列，作为热点关键词；
[0062]将获取的所有热点关键词进行组合，得到与该部分对应的热点词表。
[0063]进一步地，选取单元配置为按照如下方式在各个热点词表中选择热点关键词:
[0064]根据预设规则分别对词表生成单元生成的各个热点词表中的热点关键词进行筛选;
[0065]在筛选后的各个热点词表中选择出现频率由高到低的预设个数热点关键词。
[0066]进一步地，选取单元还配置为按照如下方式对各个热点词表中的热点关键词进行筛选:
[0067]对词表生成单元生成的各个热点词表进行去除常用语处理，其中，常用语为使用频率超过预设次数的词语；
[0068]测试处理后的各个热点词表中的热点关键词所对应的网站是否为恶意网站；
[0069]若是，保留该关键词；
[0070]若否，去除该关键词。
[0071]进一步地，信息处理器配置为:
[0072]收集所有已知恶意网站的标识信息并存入预处理库；以及
[0073]对预处理库中、来自同一网络之间互连协议IP地址的恶意网站的标识信息进行
消重处理。
[0074]进一步地，聚合生成器还配置为每隔预设时间对信息处理器处理后的已知恶意网站的标识信息进行热点聚合，得到新恶意关键词，并将新恶意关键词添加到存储器的关键词库中。
[0075]进一步地，信息获取器获取的标识信息中包括网站名称和/或网站列表页名称，存储器中的恶意关键词包括名称关键词和/或列表页关键词；
[0076]信息匹配器配置为按照如下方式执行匹配操作:
[0077]将网站名称与恶意关键词中的名称关键词匹配，将网站列表页名称与恶意关键词中的列表页关键词匹配；
[0078]当网站名称与网站列表页名称中的至少一项满足匹配条件时，确认匹配成功；
[0079]当网站名称与网站列表页名称均不满足匹配条件时，确认匹配失败，则网站为非恶意网站。
[0080]进一步地，信息匹配器还配置为按照如下方式确认匹配成功:
[0081]当网站名称与恶意关键词中的名称关键词匹配，且网站列表页名称与恶意关键词中的列表页关键词匹配时，则确认匹配成功；
[0082]当网站名称与恶意关键词中的名称关键词匹配，且恶意关键词中的列表页关键词为空时，则确认匹配成功；
[0083]当网站列表页名称与恶意关键词中的列表页关键词匹配，且恶意关键词中的名称关键词为空时，则确认匹配成功。
[0084]本发明提供了一种恶意网站的识别方法及装置，通过本发明，使终端能够识别出与关键词库中恶意关键词匹配的网站为恶意网站。在每次识别恶意网站之后，还会进行热点聚合生成新恶意关键词，并将其存入关键词库。新恶意关键词的添加，丰富了关键词库，从而使得本发明能够识别出更多的恶意网站。
[0085]可见，对于本发明，无论待识别的网站为已知网站还是未知网站，只要其标识信息能够与关键词库中的恶意关键词相匹配，则均能够对其进行识别，克服了现有技术中只能对已知的恶意网站进行识别的缺陷。进一步地，现有技术中，当恶意网站的URL的存储数量较大时，会导致查找效率降低，而本发明在对恶意网站进行识别时，以网站的标识信息为单位进行处理，从而提高了恶意网站的识别效率。另外，由于现有技术中恶意网站的IP地址经常发生变化，而当原IP地址已经为正常网站所用时，就易导致将原IP地址对应的网站识别为恶意网站，而本发明在识别恶意网站时，仅使用网站的标识信息即可，从而能够有效地避免了误将正常网站识别为恶意网站。
[0086]上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
[0087]根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
【专利附图】

【附图说明】
[0088]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:[0089]图1是根据本发明一个实施例的一种恶意网站的识别方法流程图；
[0090]图2是根据本发明一个实施例的热点聚合方法流程图；
[0091]图3是根据本发明另一个实施例的一种恶意网站的识别方法流程图；
[0092]图4是根据本发明另一个实施例的热点聚合方法流程图；
[0093]图5是根据本发明一个实施例的一种恶意网站的识别装置框图。
【具体实施方式】
[0094]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0095]相关技术提及，在识别恶意网站时，均为基于URL对比的方式来识别待访问的网站是否为恶意网站，因此，仅能够对已知的恶意网站进行识别和处理，对未知的恶意网站无法进行识别和处理。为了解决上述技术问题，本发明实施例提供了一种恶意网站的识别方法及装置。
[0096]下面结合附图，对本发明实施例提供的一种恶意网站的识别方法和装置进行详细地说明。本发明实施例对具有浏览网站功能的终端进行了改进，例如，本实施例中的终端可以为PC (Personal Computer,个人计算机)、手机、手持电脑等用户终端设备。
[0097]实施例一
[0098]本实施例为本发明的一个具体应用场景，通过本实施例，能够更加清楚、具体地阐述本发明所提供的方法。
[0099]图1示出了根据本发明一个实施例的一种恶意网站的识别方法流程图。该方法具体包括步骤SlOl至S106。
[0100]S101，获取用户待访问网站的网站名称和网站列表页名称。
[0101]本实施例中，网站名称和网站列表页名称为网站的标识信息，其代表了网站的功能或内容。开发者在为网站名称命名时，一般情况会根据功能或包含的内容来对其进行命名。另外，当用户访问某网站时，该网站会通过网站列表页来向用户显示多个内容分类的页面，以便用户选择感兴趣的链接进行访问，相应的，每个网站的网站列表页也具有其各自的名称。
[0102]在获取到网站的网站名称和网站列表页名称之后，执行步骤S102。在步骤S102中，将获取的网站名称和网站列表页名称分别与预存关键词库中的恶意关键词进行匹配，并确认是否匹配成功。若确认匹配成功，则触发步骤S103将该网站识别为恶意网站的操作，若匹配不成功，则触发步骤S104将该网站识别为非恶意网站的操作。
[0103]可选地，为了实现本步骤S102，需要在终端中预先存储一个关键词库，该关键词库中包括了已经收集的关于恶意网站的恶意关键词。需要说明的是，关键词库中包括的恶意关键词为两类，其中一类为名称关键词，用于与获取的网站名称进行匹配，另一类为列表页关键词，用于与获取的网站列表页名称进行匹配。其中，名称关键词为与预先统计的恶意网站名称相关的词，列表页关键词为与预先统计的恶意网站列表页名称相关的词，关键词库中的名称关键词与列表页关键词以词组的形式存储。可选地，在本实施例中，关键词库中每组恶意关键词的存储结构如下表一所示。
[0104]表一
[0105]
【权利要求】
1.一种恶意网站的识别方法，包括: 获取待访问的网站的标识信息；将所述标识信息与预存关键词库中的恶意关键词进行匹配；若匹配成功，则识别所述网站为恶意网站。
2.根据权利要求1所述的方法，其中，在所述识别所述网站为恶意网站之后，还包括: 收集所有已知恶意网站的标识信息并进行处理；对处理后的已知恶意网站的标识信息进行热点聚合，得到新恶意关键词，并将所述新恶意关键词添加到所述关键词库中。
3.根据权利要求1或2所述的方法，其中，所述对处理后的已知恶意网站的标识信息进行热点聚合，得到新恶意关键词，包括: 根据处理后的标识信息中包括的各部分子信息，生成与各部分子信息对应的热点词表; 根据词语出现频率在各个热点词表中选择热点关键词；合并所获取的各个热点关键词，得到新恶意关键词。
4.根据权利要求1-3任一项所述的方法，其中，所述标识信息包括网站名称和/或网站列表页名称，所述恶意关键词包括名称关键词和/或列表页关键词；将所述标识信息与预存关键词库中的恶意关键词进行匹配，包括: 将所述网站名称与恶意关键词中的名称关键词匹配，将所述网站列表页名称与恶意关键词中的列表页关键词匹配；当所述网站名称与所述网站列表页名称中的至少一项满足匹配条件时，确认匹配成功；当所述网站名称与所述网站列表页名称均不满足匹配条件时，确认匹配失败，则所述网站为非恶意网站。
5.根据权利要求1-4所述的方法，其中，当所述网站名称与所述网站列表页名称中的至少一项满足匹配条件时，确认匹配成功，包括: 当所述网站名称与恶意关键词中的名称关键词匹配，且所述网站列表页名称与恶意关键词中的列表页关键词匹配时，则确认匹配成功；当所述网站名称与恶意关键词中的名称关键词匹配，且所述恶意关键词中的列表页关键词为空时，则确认匹配成功；当所述网站列表页名称与恶意关键词中的列表页关键词匹配，且所述恶意关键词中的名称关键词为空时，则确认匹配成功。
6.一种恶意网站的识别装置，包括: 存储器，配置为存储包含恶意关键词的关键词库；用户输入接口，配置为接收用户访问网站的指示；信息获取器，配置为获取待访问的网站的标识信息；信息匹配器，配置为读取所述存储器和所述信息获取器，将所述标识信息与所述关键词库中的恶意关键词进行匹配；恶意网站识别器，配置为若所述信息匹配器确认匹配成功，则识别所述网站为恶意网站。
7.根据权利要求6所述的装置，其中，所述装置还包括: 信息处理器，配置为收集所有已知恶意网站的标识信息并进行处理；聚合生成器，配置为对所述信息处理器处理后的已知恶意网站的标识信息进行热点聚合，得到新恶意关键词，并将所述新恶意关键词添加到所述存储器的关键词库中。
8.根据权利要求6或7所述的装置，其中，所述聚合生成器包括: 词表生成单元，配置为根据所述信息处理器处理后的标识信息中包括的各部分子信息，生成与各部分子信息对应的热点词表；选取单元，配置为根据词语出现频率在所述词表生成单元生成的各个热点词表中选择热点关键词；合并单元，配置为合并所述选取单元获取的各个热点关键词，得到新恶意关键词，并将所述新恶意关键词添加到所述存储器的关键词库中。
9.根据权利要求6-8任一项所述的装置，其中，所述信息获取器获取的标识信息中包括网站名称和/或网站列表页名称，所述存储器中的恶意关键词包括名称关键词和/或列表页关键词；所述信息匹配器配置为按照如下方式执行匹配操作: 将所述网站名称与恶意关键词中的名称关键词匹配，将所述网站列表页名称与恶意关键词中的列表页关键词匹配；当所述网站名称与所述网站列表页名称中的至少一项满足匹配条件时，确认匹配成功；当所述网站名称与所述网站列表页名称均不满足匹配条件时，确认匹配失败，则所述网站为非恶意网站。
10.根据权利要求6-9所述的装置，其中，所述信息匹配器还配置为按照如下方式确认匹配成功: 当所述网站名称与恶意关键词中的名称关键词匹配，且所述网站列表页名称与恶意关键词中的列表页关键词匹配时，则确认匹配成功；当所述网站名称与恶意关键词中的名称关键词匹配，且所述恶意关键词中的列表页关键词为空时，则确认匹配成功；当所述网站列表页名称与恶意关键词中的列表页关键词匹配，且所述恶意关键词中的名称关键词为空时，则确认匹配成功。
【文档编号】G06F21/56GK103455758SQ201310369579
【公开日】2013年12月18日申请日期:2013年8月22日优先权日:2013年8月22日
【发明者】朱珊珊, 林英杰申请人:北京奇虎科技有限公司, 奇智软件（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱珊珊;林英杰
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。