识别恶意网站的方法及装置与流程

文档序号:11216774阅读:819来源:国知局
识别恶意网站的方法及装置与流程
本发明涉及互联网领域,特别涉及一种识别恶意网站的方法及装置。
背景技术
:互联网技术的快速发展给人们的生活带来越来越多的便利,比如,人们可以通过互联网下载各类资料、进行网络购物等。与此同时,出现了将各类木马病毒伪装成正常文件来肆意传播、钓鱼网站模仿正常网站盗取用户账号和密码等恶意行为,因此,识别恶意网站的方法受到了广泛地关注。其中,相关技术中是通过云安全服务器根据网站的网址信息来识别恶意网站,所以,当恶意分子发现某个网址信息被拦截时,该恶意分子可以通过新网址信息来进行恶意行为。此时,信息数据库中不包括该新网址信息的记录,所以,云安全服务器就不会识别出该网站为恶意网站。为了解决该问题,云安全服务器需要下载该网站的页面内容,并对该网站的页面内容进行分析,如果分析结果指示该网站为恶意网站,则在信息数据库中存储该新网址信息的记录,以便下次可以识别出该新网址信息对应的网站为恶意网站。然而,对于信息数据库中不存在的每个新网址,该云安全服务器都需要执行上述的下载页面内容操作和分析页面内容操作,会浪费大量的带宽和处理资源,并且花费的时间较长,不利于快速有效地识别恶意网站。技术实现要素:为了解决现有技术的问题,本发明实施例提供了一种识别恶意网站的方法及装置。所述技术方案如下:一方面,提供了一种识别恶意网站的方法,所述方法包括:当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,所述恶意网站查询请求中携带所述第一网址信息,所述第一网址信息为所述第一网站的网址信息;对所述第一网站进行识别之后,从所述第一网站的页面内容中获取至少一个超链接信息;基于所述至少一个超链接信息,分别对至少一个第二网站进行识别,所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。另一方面,提供了一种识别恶意网站的装置,所述装置包括:第一识别模块,用于当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,所述恶意网站查询请求中携带所述第一网址信息,所述第一网址信息为所述第一网站的网址信息;获取模块,用于对所述第一网站进行识别之后,从所述第一网站的页面内容中获取至少一个超链接信息;第二识别模块,用于基于所述至少一个超链接信息,分别对至少一个第二网站进行识别,所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。本发明实施例提供的技术方案带来的有益效果是:在本发明实施例中,当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,并从该第一网站的页面内容中获取至少一个超链接信息,进而基于该至少一个超链接信息,分别对该至少一个超链接信息所链接的第二网站进行识别,即能够在对第一网站进行识别的同时,还能够识别第一网站的页面内容中超链接信息所链接的第二网站,提高了识别恶意网站的效率。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种识别恶意网站方法流程图;图2是本发明实施例提供的另一种识别恶意网站方法流程图;图3是本发明实施例提供的一种识别恶意网站装置结构示意图;图4是本发明实施例提供的另一种识别恶意网站装置结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。在对本发明实施例进行详细的解释说明之前,先对本发明实施例的应用场景予以介绍。在用户通过互联网下载各类资料、进行网络购物的同时,各类木马病毒和钓鱼网站也有可能盗取用户账号和密码等用户信息,危害用户信息安全。相关技术中,对于信息数据库中每个不存在的网址信息,该云安全服务器都需要下载该网址信息对应网站的页面内容,并对该网站的页面内容进行分析,降低了识别恶意网站的效率。因此,本发明实施例提供了一种识别恶意网站的方法,能够节省带宽和处理资源,并提高识别恶意网站的效率。图1为本发明实施例提供的一种识别恶意网站方法流程图,参见图1,该方法包括:步骤101:当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,该恶意网站查询请求中携带该第一网址信息,该第一网址信息为该第一网站的网址信息。步骤102:对该第一网站进行识别之后,从该第一网站的页面内容中获取至少一个超链接信息。步骤103:基于该至少一个超链接信息,分别对至少一个第二网站进行识别,该至少一个第二网站为该至少一个超链接信息分别所链接的网站。在本发明实施例中,当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,并从该第一网站的页面内容中获取至少一个超链接信息,进而基于该至少一个超链接信息,分别对该至少一个超链接信息所链接的第二网站进行识别,即能够在对第一网站进行识别的同时,还能够识别第一网站的页面内容中超链接信息所链接的第二网站,提高了识别恶意网站的效率。可选地,从该第一网站的页面内容中获取至少一个超链接信息,包括:从该第一网站的页面内容中,获取至少一个超链接开始标签和至少一个超链接结束标签;从该第一网站的页面内容中,将目标超链接开始标签、目标超链接结束标 签、以及该目标超链接开始标签与该目标超链接结束标签之间的信息确定为超链接信息,该目标超链接开始标签为该至少一个超链接开始标签中的任一超链接开始标签,该目标超链接结束标签与该目标超链接开始标签对应。可选地,基于该至少一个超链接信息,分别对至少一个第二网站进行识别,包括:对于该至少一个超链接信息中的每个超链接信息,从该超链接信息中获取链接地址信息;判断存储的恶意信息数据库中是否存在该链接地址信息;当该恶意信息数据库中存在该链接地址信息时,确定该超链接信息所链接的第二网站为恶意网站。可选地,判断存储的信息数据库中是否存在该链接地址信息之后,还包括:当该信息数据库中不存在该链接地址信息时,根据预设条件,对该超链接信息所链接的第二网站进行识别。可选地,根据预设条件,对该超链接信息所链接的第二网站进行识别,包括:从存储的恶意链接索引库中,获取第三网址信息数目,第三网址信息为第三网站的网址信息,且该链接地址信息被该第三网站所引用;当该第三网址信息数目大于第一预设数值时,将该第二网站确定为恶意网站。可选地,根据预设条件,对该超链接信息所链接的第二网站进行识别,包括:从存储的恶意链接索引库中,获取第一上下文信息中包括的特定词语数目,该第一上下文信息为第三网站的页面内容中与该链接地址信息位于同一显示区域的文字信息;当该特定词语数目大于第二预设数值时,将该第二网站确定为恶意网站。可选地,基于该至少一个超链接信息,分别对至少一个第二网站进行识别之后,还包括:对于该至少一个第二网站中任一第二网站,当该第二网站为恶意网站时,将该第二网站对应的链接地址信息存储到该恶意信息数据库中。可选地,基于该至少一个超链接信息,分别对至少一个第二网站进行识别 之后,还包括:对于该至少一个第二网站中任一第二网站,当该第二网站不为恶意网站且该第一网站为恶意网站时,将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到该恶意链接索引库中,该第二上下文信息为该第一网站的页面内容中与该第二网站对应的链接地址信息位于同一显示区域的文字信息。上述所有可选技术方案,均可按照任意结合形成本发明的可选实施例,本发明实施例对此不再一一赘述。图2为本发明实施例提供的另一种识别恶意网站方法流程图,参见图2,该识别恶意网站方法用于服务器中,该方法包括:步骤201:当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,该恶意网站查询请求中携带该第一网址信息,该第一网址信息为该第一网站的网址信息。由于在用户通过互联网下载各类资料、进行网络购物的同时,各类木马病毒和钓鱼网站也有可能盗取用户账号和密码等用户信息,危害用户信息安全。因此,为了保护用户信息安全,该服务器可以在接收到终端发送的恶意网站查询请求时,基于第一网址信息,对第一网站进行识别。其中,该终端可以是手机、电脑等能够接入互联网的设备,该终端可以在访问第一网站或者在用户输入第一网址信息时,向该服务器发送该恶意网站查询请求,当然,在实际应用中,该终端也可以在其他时机向服务器发送恶意网站查询请求,本发明实施例对此不做具体限定。需要说明的是,第一网址信息可以是ip(internetprotocol,网络协议)地址,也可以是域名地址,当然,在实际应用中,第一网址信息还可以是其它地址,本发明实施例对此不做具体限定。进一步地,当该服务器基于第一网址信息,对第一网站进行识别时,可以判断该服务器存储的恶意信息数据库中是否存在第一网址信息,当该恶意信息数据库中存在第一网址信息时,将第一网站识别为恶意网站;当该恶意信息数据库中不存在第一网址时,下载第一网站的页面内容,进而根据第一网站的页面内容,对第一网站进行识别。其中,该恶意信息数据库可以由该服务器在接收该恶意网站查询请求之前存储,该恶意信息数据库中可以包括多个恶意网址信息,如下述表1所示,网址信息1、网址信息2、网址信息3等都是恶意网址信息。表1网址信息1网址信息2网址信息3……需要说明的是,本发明实施例仅以上述表1所示的恶意信息数据库中包括的多个恶意网址信息为例进行说明,上述表1并不对本发明实施例构成限定。还需要说明的是,当该服务器根据该第一网站的页面内容,对第一网站进行识别时,可以判断该第一网站的页面内容中是否包括特定词语,当出现该特定词语时,将第一网站识别为恶意网站。另外,该服务器根据该第一网站的页面内容对第一网站进行识别的方法,还可以参考现有技术,本发明不再一一赘述。例如,当该服务器接收到恶意网站查询请求1,且恶意网站查询请求中携带网址信息1时,该服务器判断上述表1所述的恶意信息数据库中存在网址信息1,因此,将网址信息1对应的第一网站1识别为恶意网站;当该服务器接收到恶意网站查询请求2,且恶意网站查询请求中携带网址信息4时,该服务器判断上述表1所述的恶意信息数据库中不存在网址信息4,因此,下载网址信息对应的第一网站2的页面内容,进而根据第一网站2的页面内容,对第一网站2进行识别。步骤202:对该第一网站进行识别之后,从该第一网站的页面内容中获取至少一个超链接信息。由于第一网站的页面内容中除了图片和文字等内容之外,经常还包括超链接信息,用户可以通过超链接信息访问到该超链接信息所链接的网站,如果该超链接信息所链接的网站是恶意网站,同样会危害用户信息安全,因此,为了对该超链接信息所链接的网站进行识别,进一步确保用户信息安全,在对该第一网站进行识别之后,可以从该第一网站的页面内容中获取至少一个超链接信 息。需要说明的是,由前述可知,当该恶意信息数据库中存在第一网址信息时,该服务器不下载第一网站的页面内容,也能够将第一网站识别为恶意网站,因此,当该服务器根据该恶意信息数据库,将第一网站识别为恶意网站之后,也可以下载第一网站对应的页面内容,进而对第一网站的页面内容中包括的超链接信息所链接的网站进行识别。进一步地,从该第一网站的页面内容中获取至少一个超链接信息的操作可以为:从该第一网站的页面内容中,获取至少一个超链接开始标签和至少一个超链接结束标签,从该第一网站的页面内容中,将目标超链接开始标签、目标超链接结束标签、以及该目标超链接开始标签与该目标超链接结束标签之间的信息确定为超链接信息,该目标超链接开始标签为该至少一个超链接开始标签中的任一超链接开始标签,该目标超链接结束标签与该目标超链接开始标签对应。其中,超链接开始标签和与该超链接开始标签对应的超链接结束标签用于说明该超链接开始标签、该超链接结束标签、以及该超链接开始标签与该超链接开始标签对应的超链接结束标签之间的内容为超链接信息,比如,该超链接开始标签可以是<a多个标签属性>,该超链接结束标签可以为</a>,当然,在实际应用中,超链接开始标签和超链接结束标签还可以通过其他形式进行表示,本发明实施例对此不做具体限定。需要说明的是,为了准确说明该超链接信息,该超链接开始标签可以包括多个标签属性,比如,target(目标)属性用于说明打开该超链接信息所链接的网站的方式,href(hypertextreference,超文本引用)属性用于说明该超链接信息所链接网站的链接地址信息,当然,在实际应用中,该多个标签属性还可以包括其他属性,本发明实施例对此不做具体限定。还需要说明的是,除上述方法外,从该第一网站的页面内容中获取至少一个超链接信息的操作,还可以参考现有技术,本发明实施例不再一一赘述。例如,当超链接开始标签为<atarget="target属性值"href="href属性值">,超链接结束标签为</a>,第一网站1的页面内容为“<li<atarget="_blank"href="www.123.com">这是123网</a></li>”时,该服务器从第一网站1的页面内容中获取<atarget="_blank"href="www.123.com">、</a>以及<atarget="_blank" href="www.123.com">与</a>之间的内容“<atarget="_blank"href="www.123.com">这是123网</a>”为超链接信息1。进一步地,由前述可知,超链接开始标签通常都包括该超链接信息所链接网站的链接地址信息,因此,为了提高获取超链接信息的效率,该服务器可以只获取超链接开始标签,进而将获取的超链接开始标签确定为超链接信息。步骤203:基于该至少一个超链接信息,分别对至少一个第二网站进行识别,该至少一个第二网站为该至少一个超链接信息分别所链接的网站。由前述可知,用户可以通过超链接信息访问该超链接信息所链接的网站,而当该超链接信息所链接的网站为恶意网站时,该恶意网站可能会危害用户信息安全,因此,为了提高识别恶意网站的效率,在对第一网站进行识别之后,还可以基于该至少一个超链接信息,分别对至少一个第二网站进行识别。其中,基于该至少一个超链接信息,分别对至少一个第二网站进行识别的操作可以为:对于该至少一个超链接信息中的每个超链接信息,从该超链接信息中获取链接地址信息,判断存储的恶意信息数据库中是否存在该链接地址信息,当该恶意信息数据库中存在该链接地址信息时,确定该超链接信息所链接的第二网站为恶意网站。需要说明的是,由于超链接信息在包括链接地址信息的同时,还可能包括其它信息,比如,链接地址说明等信息,其中,链接地址信息为第二网站对应的网址信息,其它信息用于对该链接地址信息进行说明。还需要说明的是,该链接地址信息可以是ip地址,也可以是域名地址,当然,在实际应用中,该链接地址信息还可以是其它地址,本发明实施例对此不做具体限定。例如,在超链接信息1“<ahref="www.123.com">这是123网>/a>”中,“www.123.com”为第二网站对应的链接地址信息,“这是123网”为链接地址说明,用于对该链接地址信息进行说明。进一步地,判断存储的恶意信息数据库中是否存在该链接地址信息之后,当该恶意信息数据库中不存在该链接地址信息时,还可以根据预设条件,对该超链接信息所链接的第二网站进行识别。其中,根据预设条件,对该超链接信息所链接的第二网站进行识别的操作可以包括下述两种方式。第一种方式,从存储的恶意链接索引库中,获取第三网址信息数目,第三网址信息为第三网站的网址信息,且该链接地址信息被该第三网站所引用,当该第三网址信息数目大于第一预设数值时,将该第二网站确定为恶意网站。其中,第三网站为恶意网站,第三网址信息可以是ip地址,也可以是域名地址,当然,在实际应用中,第三网址信息还可以是其它地址,本发明实施例对此不做具体限定。需要说明的是,该恶意链接索引库至少包括第三网址信息和第三网站引用的链接地址信息,当然在实际应用中,为了提高识别第二网站是否为恶意网站的准确性,该恶意链接索引库还可以包括其它内容,比如,为了指示第三网站所属的类型,该恶意链接索引库还可以包括第三网站类型,本发明实施例对此不做具体限定。还需要说明的是,由于第三网站在引用链接地址信息时,常会引用与第三网站类型相同的网站的链接地址信息,当多个恶意网站都引用该链接地址信息时,该第二网站也可能为恶意网站,比如,在博彩类网站为恶意网站的情况下,当多个博彩类网站都引用了该链接地址信息时,第二网站也可能为博彩类网站,进而第二网站也可能是恶意网站,因此,为了提高识别第二网站是否为恶意网站的准确率,该服务器可以从存储的恶意链接索引库中,获取引用该链接地址信息的第三网址信息数目,当该第三网址信息数目大于第一预设数值时,将该第二网站确定为恶意网站。进一步地,该服务器可以在获取第三网址信息数目之前,根据实际应用的需要,设置第一预设数值,比如,可以将第一预设数值设置为2。当然,第一预设数值还可以是其它值,本发明实施例对此不做具体限定。例如,当第一预设数值为2,该服务器从超链接信息中获取到链接地址信息1时,该服务器从如下述表2所示的恶意链接索引库中,获取引用链接地址信息1的第三网址信息数目为3,确定第三网址信息数目3大于第一预设数值2,因此,将链接地址信息1对应的第二网站1识别为恶意网站。表2链接地址信息第三网址信息链接地址信息1第三网址信息1链接地址信息1第三网址信息2链接地址信息1第三网址信息3链接地址信息2第三网址信息4链接地址信息3第三网址信息2链接地址信息3第三网址信息5…………需要说明的是,本发明实施例仅以上述表2所示的恶意链接索引库中包括的链接地址信息、第三网址信息为例进行说明,上述表2并不对本发明实施例构成限定。进一步地,该服务器可以在获取第三网址信息数目之前,将已识别为恶意网站的第三网站对应的第三网址信息和第三网站所引用的链接地址信息存储在恶意链接索引库中。进一步地,在该第三网址信息数目大于第一预设数值,并将该第二网站确定为恶意网站之后,还可以将该链接地址信息存储到恶意信息数据库中,当该服务器需要再次对该第二网站进行识别时,可以根据该恶意信息数据库中的链接地址信息,将该第二网站识别为恶意网站,提高了识别恶意网站的效率。另外,在步骤201中识别第一网站时,也可以通过上述方式从恶意链接索引库中,获取引用了第一网址信息的第三网址信息数目,当获取的第三网址信息数目大于第一预设数值时,将第一网站识别为恶意网站。第二种方式,从存储的恶意链接索引库中,获取第一上下文信息中包括的特定词语数目,当该特定词语数目大于第二预设数值时,将该第二网站确定为恶意网站。其中,由于第三网站在引用该链接地址信息时,通常还会在与该链接地址信息位于同一显示区域,通过文字信息对该链接地址信息进行说明,或者对该第二网站类型进行说明,因此,为了增加识别第二网站是否为恶意网站的准确率,恶意链接索引库中还可以包括第一上下文信息,第一上下文信息即为第三 网站的页面内容中与该链接地址信息位于同一显示区域的文字信息,所以该服务器可以从存储的恶意链接索引库中,获取第一上下文信息中包括的特定词语数目,进而在该特定词语数目大于第二预设数值时,将该第二网站确定为恶意网站。需要说明的是,该服务器可以在获取第一上下文信息之前,根据实际应用需要,设置第二预设数值,比如,第二预设数值可以为3,当然,第二预设数值还可以为其它数值,本发明实施例对此不做具体限定。例如,当第二预设数值为3,特定词语为“博彩”,该服务器从超链接信息中获取到链接地址信息1时,该服务器从如下述表3所示的恶意链接索引库中,获取第一上下文信息中包括的特定词语数目为4,确定该特定词语数目4大于第二预设数值3,因此,将第二网站识别为恶意网站。表3链接地址信息第三网址信息第一上下文信息链接地址信息1第三网址信息1博彩地理链接地址信息1第三网址信息2博彩链接地址信息1第三网址信息3博彩博彩链接地址信息2第三网址信息4教育科学链接地址信息3第三网址信息2天文新闻链接地址信息3第三网址信息5生活百科…………需要说明的是,本发明实施例仅以上述表3所示的恶意链接索引库中包括的链接地址信息、第三网址信息和第一上下文信息为例进行说明,上述表3并不对本发明实施例构成限定。进一步地,该服务器可以在获取第一上下文信息中包括的特定词语数目之前,将已识别为恶意网站的第三网站对应的第三网址信息、第三网站所引用的链接地址信息和第一上下文信息存储在恶意链接索引库中。另外,该服务器还可以通过其它方式,根据预设条件,对该超链接信息所链接的第二网站进行识别,比如,该服务器可以同时从存储的恶意链接索引库中,获取第三网址信息数目和第一上下文信息中包括的特定词语数目,并在第 三网址数目大于第一预设数值且特定词语数目大于第二预设数值时,将第二网站识别为恶意网站,本发明实施例对此不做具体限定。步骤204:对于该至少一个第二网站中任一第二网站,当该第二网站不为恶意网站且该第一网站为恶意网站时,将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到所述恶意链接索引库中。由于当第一网站为恶意网站时,第一网站所引用的第二网站也很可能是恶意网站,因此,为了进一步提高识别第二网站是否为恶意网站的准确性,当该服务器通过步骤201至步骤203将第一网站识别为恶意网站,但未将第二网站识别为恶意网站时,该服务器可以将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到恶意链接索引库中,之后,当该服务器再次对引用了该第二网站对应的链接地址信息的网站进行识别时,还可以对该第二网站进行进一步识别,以确定该第二网站是否为恶意网站。需要说明的是,第二上下文信息为第一网站的页面内容中与第二网站对应的链接地址信息位于同一显示区域的文字信息。另外,当该服务器对第一网站和至少一个第二网站中的任一第二网站进行识别时,除上述将第一网站识别为恶意网站,但未将第二网站识别为恶意网站的结果外,可能会包括下述三种结果:第一种结果,将第一网站和第二网站均识别为恶意网站;第二种结果,将第二网站识别为恶意网站,将第一网站识别为非恶意网站;第三种结果,将第一网站和第二网站均识别为非恶意网站。需要说明的是,该服务器在对第一网站和至少一个第二网站中的任一第二网站进行识别之后,还应该将识别为恶意网站的第一网站或者第二网站存储在该恶意信息数据库中。具体地,对于第一种结果,该服务器可以将第一网址信息和第二网站对应的链接地址信息均存储在该恶意信息数据库中;对于第二种结果,该服务器可以将第二网站对应的链接地址信息存储到该恶意信息数据库中;对于第四种结果,该服务器可以不存储第一网址信息和第二网站对应的链接地址信息。在本发明实施例中,当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,并从该第一网站的页面内容中获取至少一个超链接信息,进而基于该至少一个超链接信息,分别对该至少一个超链接信息所链接的第二网站进行识别,即能够在对第一网站进行识别的同时,还能够识别第一网站的 页面内容中超链接信息所链接的第二网站,提高了识别恶意网站的效率。另外,该服务器识别第二网站时,不需要下载第二网站的页面内容,而是基于存储的恶意信息数据库和恶意链接索引库中的数据,根据实际应用的不同需求,选择不同的预设条件对第二网站进行识别,在提高了识别恶意网站的效率的同时,也提高了识别恶意网站的灵活性。图3为本发明实施例提供的一种识别恶意网站装置示意图,参见图3,该装置包括第一识别模块301、获取模块302和第二识别模块303。第一识别模块301,用于当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,该恶意网站查询请求中携带该第一网址信息,该第一网址信息为该第一网站的网址信息;获取模块302,用于对该第一网站进行识别之后,从该第一网站的页面内容中获取至少一个超链接信息;第二识别模块303,用于基于该至少一个超链接信息,分别对至少一个第二网站进行识别,该至少一个第二网站为该至少一个超链接信息分别所链接的网站。可选地,该获取模块包括:第一获取单元,用于从该第一网站的页面内容中,获取至少一个超链接开始标签和至少一个超链接结束标签;第一确定单元,用于从该第一网站的页面内容中,将目标超链接开始标签、目标超链接结束标签、以及该目标超链接开始标签与该目标超链接结束标签之间的信息确定为超链接信息,该目标超链接开始标签为该至少一个超链接开始标签中的任一超链接开始标签,该目标超链接结束标签与该目标超链接开始标签对应。可选地,该第二识别模块包括:第二获取单元,用于对于该至少一个超链接信息中的每个超链接信息,从该超链接信息中获取链接地址信息;判断单元,用于判断存储的恶意信息数据库中是否存在该链接地址信息;第二确定单元,用于当该恶意信息数据库中存在该链接地址信息时,确定该超链接信息所链接的第二网站为恶意网站。可选地,该第二识别模块还包括:识别单元,用于当该信息数据库中不存在该链接地址信息时,根据预设条件,对该超链接信息所链接的第二网站进行识别。可选地,该识别单元包括:第一获取子单元,用于从存储的恶意链接索引库中,获取第三网址信息数目,第三网址信息为第三网站的网址信息,且该链接地址信息被该第三网站所引用;第一确定子单元,用于当该第三网址信息数目大于第一预设数值时,将该第二网站确定为恶意网站。可选地,该识别单元包括:第二获取子单元,用于从存储的恶意链接索引库中,获取第一上下文信息中包括的特定词语数目,该第一上下文信息为第三网站的页面内容中与该链接地址信息位于同一显示区域的文字信息;第二确定子单元,用于当该特定词语数目大于第二预设数值时,将该第二网站确定为恶意网站。可选地,该装置还包括:第一存储模块,用于对于该至少一个第二网站中任一第二网站,当该第二网站为恶意网站时,将该第二网站对应的链接地址信息存储到该恶意信息数据库中。可选地,该装置还包括:第二存储模块,用于对于该至少一个第二网站中任一第二网站,当该第二网站不为恶意网站且该第一网站为恶意网站时,将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到该恶意链接索引库中,该第二上下文信息为该第一网站的页面内容中与该第二网站对应的链接地址信息位于同一显示区域的文字信息。综上所述,在本发明实施例中,当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,并从该第一网站的页面内容中获取至少一个超链接信息,进而基于该至少一个超链接信息,分别对该至少一个超链接信息所链接的第二网站进行识别,即能够在对第一网站进行识别的同时,还能够识别第一网站的页面内容中超链接信息所链接的第二网站,提高了识别恶意网站 的效率。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。图4为本发明一个实施例提供的另一种识别恶意网站装置结构示意图。该装置可以是服务器,该服务器可以是后台服务器集群中的服务器。参照图4,具体来讲:服务器400包括中央处理单元(cpu)401、包括随机存取存储器(ram)402和只读存储器(rom)403的系统存储器404,以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统)406,和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说,大容量存储设备407可以包括诸如硬盘或者cd-rom驱动器之类的计算机可读介质(未示出)。不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom、eeprom、闪存或其他固态存储其技术,cd-rom、dvd或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。根据本发明的各种实施例,服务器400还可以通过诸如因特网等网络连接 到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412,或者说,也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由cpu执行。所述一个或者一个以上程序包含用于进行本发明实施例提供的如下所述的识别恶意网站方法的指令,包括:当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,该恶意网站查询请求中携带该第一网址信息,该第一网址信息为该第一网站的网址信息。对该第一网站进行识别之后,从该第一网站的页面内容中获取至少一个超链接信息。基于该至少一个超链接信息,分别对至少一个第二网站进行识别,该至少一个第二网站为该至少一个超链接信息分别所链接的网站。可选地,从该第一网站的页面内容中获取至少一个超链接信息,包括:从该第一网站的页面内容中,获取至少一个超链接开始标签和至少一个超链接结束标签;从该第一网站的页面内容中,将目标超链接开始标签、目标超链接结束标签、以及该目标超链接开始标签与该目标超链接结束标签之间的信息确定为超链接信息,该目标超链接开始标签为该至少一个超链接开始标签中的任一超链接开始标签,该目标超链接结束标签与该目标超链接开始标签对应。可选地,基于该至少一个超链接信息,分别对至少一个第二网站进行识别,包括:对于该至少一个超链接信息中的每个超链接信息,从该超链接信息中获取链接地址信息;判断存储的恶意信息数据库中是否存在该链接地址信息;当该恶意信息数据库中存在该链接地址信息时,确定该超链接信息所链接的第二网站为恶意网站。可选地,判断存储的信息数据库中是否存在该链接地址信息之后,还包括:当该信息数据库中不存在该链接地址信息时,根据预设条件,对该超链接信息所链接的第二网站进行识别。可选地,根据预设条件,对该超链接信息所链接的第二网站进行识别,包括:从存储的恶意链接索引库中,获取第三网址信息数目,第三网址信息为第三网站的网址信息,且该链接地址信息被该第三网站所引用;当该第三网址信息数目大于第一预设数值时,将该第二网站确定为恶意网站。可选地,根据预设条件,对该超链接信息所链接的第二网站进行识别,包括:从存储的恶意链接索引库中,获取第一上下文信息中包括的特定词语数目,该第一上下文信息为第三网站的页面内容中与该链接地址信息位于同一显示区域的文字信息;当该特定词语数目大于第二预设数值时,将该第二网站确定为恶意网站。可选地,基于该至少一个超链接信息,分别对至少一个第二网站进行识别之后,还包括:对于该至少一个第二网站中任一第二网站,当该第二网站为恶意网站时,将该第二网站对应的链接地址信息存储到该恶意信息数据库中。可选地,基于该至少一个超链接信息,分别对至少一个第二网站进行识别之后,还包括:对于该至少一个第二网站中任一第二网站,当该第二网站不为恶意网站且该第一网站为恶意网站时,将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到该恶意链接索引库中,该第二上下文信息为该第一网站的页面内容中与该第二网站对应的链接地址信息位于同一显示区域的文字信息。在本发明实施例中,当接收到恶意网站查询请求时,基于第一网址信息,对第一网站进行识别,并从该第一网站的页面内容中获取至少一个超链接信息,进而基于该至少一个超链接信息,分别对该至少一个超链接信息所链接的第二网站进行识别,即能够在对第一网站进行识别的同时,还能够识别第一网站的页面内容中超链接信息所链接的第二网站,提高了识别恶意网站的效率。需要说明的是:上述实施例提供的识别恶意网站的装置在识别恶意网站时, 仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的识别恶意网站的装置与识别恶意网站的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1