一种网页识别方法及装置与流程

文档序号:15700855发布日期:2018-10-19 19:49阅读:163来源:国知局

本发明涉及网络安全技术领域,特别是涉及一种网页识别方法及装置。



背景技术:

随着互联网数据的爆炸性增长,窃取用户提交的银行帐号、密码等私密信息的钓鱼网站也越来越多。钓鱼网站的页面与真实网站界面完全一致,以诱骗用户输入个人的敏感信息。例如,钓鱼网站以中奖为诱饵要求访问者提交账号和密码等隐私信息,欺骗用户填写身份信息、银行账户等信息。又如,钓鱼网站模仿淘宝、工行等在线支付网页,骗取用户银行卡信息或支付宝账户。钓鱼网站的频繁出现给网路用户的隐私和财产安全带来极大的危害。

为了避免钓鱼网站窃取用户信息,技术人员会在安全设备中建立黑名单数据库,该黑名单数据库中存储有技术人员预先收集钓鱼网站的URL(Uniform Resoure Locator,统一资源定位器)。安全设备在检测到用户终端访问某网站时,会先将该网站的URL与黑名单数据库中的URL进行对比,如果黑名单数据库中存在该URL,则判定该网站是钓鱼网站,向用户终端返回告警信息,以提示用户该网站为钓鱼网站。如果黑名单数据库中不存在该URL,则判定该网站不是钓鱼网站,安全设备根据该URL获取该网站的页面数据,并向用户终端返回该页面数据,以使用户访问该网站。

然而,该黑名单数据库是人工建立的,存储的URL不够全面,而且更新也比较滞后,导致识别钓鱼网站的识别率较低。



技术实现要素:

本发明实施例的目的在于提供一种网页识别方法及装置,以提高非法网站的识别率。具体技术方案如下:

第一方面,提供了一种网页识别方法,所述方法应用于安全设备,所述方法包括:

接收用户终端发送的网页请求,所述网页请求中携带有待访问的目标网页的统一资源定位器URL;

根据所述目标网页的URL,从所述目标网页的服务器中获取所述目标网页的页面数据;

根据预设的特征提取规则和所述页面数据,确定所述目标网页的页面特征;

根据所述页面特征和预设的页面分类模型,判断所述目标网页是否为非法网页,如果所述目标网页是非法网页,则向所述用户终端发送告警信息。

第二方面,提供了一种网页识别装置,所述装置应用于安全设备,所述装置包括:

接收模块,用于接收用户终端发送的网页请求,所述网页请求中携带有待访问的目标网页的统一资源定位器URL;

第一获取模块,用于根据所述目标网页的URL,从所述目标网页的服务器中获取所述目标网页的页面数据;

第一确定模块,用于根据预设的特征提取规则和所述页面数据,确定所述目标网页的页面特征;

第一发送模块,用于根据所述页面特征和预设的页面分类模型,判断所述目标网页是否为非法网页,如果所述目标网页是非法网页,则向所述用户终端发送告警信息。

第三方面,提供了一种安全设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-7任一所述的方法步骤。

第四方面,提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现权利要求1-6任一所述的方法步骤。

PP174545

本发明实施例中,安全设备接收到用户终端发送的网页请求后,根据该网页请求中携带的URL,从目标网页的服务器中获取目标网页的页面数据,然后根据预设的特征提取规则和页面数据,确定目标网页的页面特征,根据页面特征和预设的页面分类模型,判断目标网页是否为非法网页,如果目标网页是非法网页,则向用户终端发送告警信息。基于上述处理,可以根据目标网页的页面特征和页面分类模型,判断目标网页是否为非法页面,无需人工建立黑名单数据库,能够避免因黑名单数据库中的数据不全面,而导致无法识别出非法网站的情况,提高了非法网站的识别率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的系统框架图;

图2为本发明实施例提供的一种网页识别方法的方法流程图;

图3为本发明实施例提供的一种网页识别方法的示例;

图4为本发明实施例提供的一种网页识别装置的结构示意图;

图5为本发明实施例提供的一种网页识别装置的结构示意图;

图6为本发明实施例提供的一种网页识别装置的结构示意图;

图7为本发明实施例提供的一种网页识别装置的结构示意图;

图8为本发明实施例提供的安全设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种网页识别方法,该方法可以应用于安全设备,该安全设备可以分别与用户终端和网络中的服务器连接。如图1所示,为本发明实施例提供的系统框架图,其中包括安全设备、多个用户终端和多个服务器。

如图2所示,该方法的处理过程可以包括以下步骤:

步骤201,接收用户终端发送的网页请求。

其中,该网页请求中携带有待访问的目标网页的URL(Uniform Resoure Locator,统一资源定位器)。

在实施中,用户终端中可以安装用于浏览网页的应用程序,比如某浏览器的应用程序。当用户想要访问某个网页(可称为目标网页)时,用户可以在用户终端开启该应用程序,然后点击目标网页对应的图标,或者输入目标网页的网址,用户终端则会接收到对应目标网页的访问指令,然后可以获取预设的目标网页的URL,进而可以生成携带有该URL的网页请求。用户终端可以向安全设备发送该网页请求,安全设备接收到网页请求后,对网页请求进行解析,获取其中的URL。本发明实施例中,目标网页可以为Html页面。

步骤202,根据目标网页的URL,从目标网页的服务器中获取目标网页的页面数据。

在实施中,安全设备获取到目标网页的URL后,可以根据该URL获取目标网页的页面数据。具体的,安全设备可以根据该URL和预设的报文生成算法,重新生成网页请求,该网页请求的源地址为安全设备的地址,这样,安全设备可以模拟用户终端向目标网页对应的服务器发送该网页请求。或者,安全设备也可以根据该URL,将该网页请求转发给目标网页对应的服务器。

服务器接收到该网页请求后,可以响应该网页请求,以返回目标网页的页面数据。安全设备接收到页面数据后,不会直接将该页面数据转发给用户终端,而是执行步骤203,以判断目标网页是否为非法页面。

步骤203,根据预设的特征提取规则和页面数据,确定目标网页的页面特征。

在实施中,安全设备中可以预先存储有特征提取规则,该特征提取规则可以由技术人员进行设定。安全设备接收到页面数据后,根据预设的特征提取规则和该页面数据,确定目标网页的页面特征。

可选的,确定页面特征的具体处理过程可以为:从目标网页的页面数据中,提取第一目标参数,根据提取出的第一目标参数,确定目标网页的页面特征。

其中,第一目标参数可以由技术人员根据经验设定,本发明实施例中,目标参数至少包括目标页面的页面URL、表单中的预设字段、标题信息、网页元素信息和目标网页的页面数据中包含的预设数目个URL。其中,目标页面的页面URL为目标网页的URL,可记为Page_URL;标题信息为页面数据中的<title>,可记为Page_Title;网页元素信息为页面数据中的<meta name>,可记为Page_Meta;目标网页的页面数据中包含的预设数目个URL为目标网页的页面数据中包含URL,可分别记为Content_URLi(i(1,n)),n为预设数目,并将[Content_URL1,Content_URL2,……,Content_URLi]记为Content_URL;表单中的预设字段可以为目标网页中的form(即表单)中的action字段的内容,可记为Page_Action。另外,目标参数还可以包括<head>域中加载的JS脚本,可记为Head_Js,以及从页面数据中随机选取的一个段落,可记为Body_Segment。第一目标参数还可以包括页面数据中的其他参数,本发明实施例不做限定。

在实施中,页面数据中通常包含有多项参数,技术人员可以在安全设备中预先配置需要提取的参数(即第一目标参数),安全设备接收到页面数据后,可以根据预设的字段提取算法,在页面数据中查找第一目标参数,进而提取第一目标参数,然后根据提取出的第一目标参数,确定第一目标网页的页面特征。在一种实现方式中,安全设备可以将提取出的第一目标参数,作为目标网页的页面特征。在实际中,目标网页的页面数据包含的URL的数目可能会大于预设数目,此时,安全设备可以按照URL在页面数据中的出现顺序,提取前预设数目个URL。

例如,安全设备从目标网页中提取出目标参数后,可以得到一个特征向量a,然后将该特征向量作为目标网页的页面特征,其中:

a=[Page_URL,Page_Action,Page_Title,Page_Meta,Content_URL,Head_Js,Body_Segment]。

可选的,安全设备还可以结合目标网页所包含的URL的页面数据,确定目标网页的页面特征,具体的处理过程可以如下:获取预设数目个URL对应的链接网页的页面数据;针对每个链接网页,从该链接网页的页面数据中提取第二目标参数,将第一目标参数以及从预设数目个链接网页中提取出的第二目标参数,作为目标网页的页面特征。

其中,第二目标参数至少包括链接网页的页面URL、表单中的预设字段、标题信息、网页元素信息和链接网页的页面数据中包含的预设数目个URL。其中,链接网页的页面URL为链接网页的URL,可记为A-Page_URL;标题信息为页面数据中的<title>,可记为A-Page_Title;网页元素信息为页面数据中的<meta name>,可记为A-Page_Meta;链接网页的页面数据中包含的预设数目个URL为链接网页的页面数据中包含的URL,可分别记为A-Content_URLi(i∈(1,n)),n为预设数目,并将[A-Content_URL1,A-Content_URL2,……,A-Content_URLi]记为A-Content_URL;;表单中的预设字段可以为链接网页中的form(即表单)中的action字段的内容,可记为A-Page_Action。另外,第二目标参数还可以包括<head>域中加载的JS脚本,可记为A-Head_Js,以及从链接网页的页面数据中随机选取的一个段落,可记为A-Body_Segment。第二目标参数还可以包括页面数据中的其他参数,本发明实施例不做限定。

在实施中,目标网页中通常包含有多个链接网页访问入口,用户可以在目标网页中点击该链接网页对应的图标,访问该链接网页。相应的,目标网页的网页数据中会包含链接网页的URL。

安全设备提取出目标网页的页面数据中包含的预设数目个URL后,针对每个URL,安全设备可以根据该URL和预设的报文生成算法,生成包含该URL的网页请求,然后将该网页请求发送给服务器。服务器接收到该网页请求后,可以响应该网页请求,以返回该URL对应的链接网页的页面数据。

针对每个链接网页,安全设备接收到该链接网页的页面数据后,可以从该链接网页的页面数据中,提取第二目标参数,将提取出的第二目标参数(即特征向量),作为该链接网页的页面特征,具体的处理过程参照上述说明,此处不再赘述。这样,安全设备可以得到目标网页的特征向量、以及目标网页包含的预设数目个链接网页的特征向量,从而得到特征矩阵,例如,预设数目为5,则安全设备可以得到特征矩阵A=[a1,a2,a3,a4,a5,a6,],其中,a1为目标网页的特征向量,a2~a6为5个链接网页的特征向量。安全设备可以将该特征矩阵作为目标网页的页面特征。

可选的,安全设备可以先判断目标网页的网页数据是否为正常页面数据,然后再确定页面特征,具体的处理过程为:判断页面数据包含的验证值是否为预设的正常页面数据对应的验证值;如果验证值为预设的正常页面数据对应的验证值,则执行根据预设的特征提取规则和页面数据,确定目标网页的页面特征步骤;如果验证值不为预设的正常页面数据对应的验证值,则向用户终端发送错误通知消息。

在实施中,由于服务器故障等原因,服务器返回的页面数据可能会存在异常,因此,页面数据中通常会预先设置有一个的验证字段,该验证字段用于存储页面数据的验证值,安全设备可以根据该验证值来识别接收到的页面数据是否为正常页面数据。

安全设备接收到页面数据后,可以在该页面数据中解析该验证字段,从而获取验证值,如果该验证值为预设的正常页面数据对应的验证值,则说明该页面数据为正常页面数据,安全设备则可以对该页面数据进行缓存,并执行根据预设的特征提取规则和页面数据,确定目标网页的页面特征步骤。如果验证值不为预设的正常页面数据对应的验证值,则说明该页面数据为异常数据(比如该页面数据为乱码数据或者无效数据),安全设备向用户终端发送错误通知消息,并不进行其他处理。用户终端接收到错误通知消息后,显示相应的错误提示信息,比如“该页面无法访问”或“您访问的页面不存在”等。例如,如果验证值为200,则判定页面数据为正常页面数据,如果验证值为404,则判定页面数据为异常数据。

这样,安全设备可以在判定页面数据为正常页面数据时,才执行步骤203,如果页面数据为异常数据,将不进行处理,从而可以节约安全设备的处理资源。

步骤204,根据页面特征和预设的页面分类模型,判断目标网页是否为非法网页,如果目标网页是非法网页,则向用户终端发送告警信息。

在实施中,安全设备可以将目标网页的页面特征,输入到预先训练的页面分类模型中,页面分类模型则会输出该目标网页对应的分类结果,分类结果用于指示该目标网页是否为非法网页。如果分类结果指示该目标网页为非法网页,则安全设备会向用户终端发送告警信息,以提示用户目标网页为非法网页,从而阻止用户访问目标网页,提高了用户信息的安全性。

如果分类结果指示该目标网页为合法网页,则安全设备会将目标网页的页面数据发送给用户终端,以使用户终端根据页面数据显示目标网页。

需要说明的是,安全设备在接收到页面数据后,可以先从页面数据中提取基础显示数据,将基础显示数据发送给用户终端,其中,基础显示数据为网页的基本框架对应的显示数据。这样,用户终端可以基于显示数据,先显示目标网页的基本框架,以使目标网页处于加载中的状态,从而可以提高用户体验。当安全设备判定目标网页为合法网页后,再将目标网页具体的内容数据发给用户终端,以使用户终端显示完整的目标网页。

可选的,本实施例还提供了页面分类模型的训练方法,具体处理过程如下:安全设备获取预先存储的多个训练样本,训练样本包括非法网页的页面特征和合法网页的页面特征;基于多个训练样本,对预设的初始神经网络模型进行训练,得到页面分类模型。

在实施中,安全设备中可以构建初始神经网络模型,该初始神经网络模型可以是采用BP(back propagation,反向传播)神经网络或卷积神经网络。技术人员可以对该初始神经网络模型进行初始化,比如设置输入层到隐层的权值ωmn、隐层到输出层的权值vlk以及误差阈值Δt。安全设备中还可以存储多个训练样本,训练样本包括非法网页的页面特征和合法网页的页面特征。具体的,技术人员可以预先收集多个非法网页的页面数据、以及相同数量的合法网页的页面数据,并通过安全设备分别确定每个网页的页面特征,提取页面特征的过程可以参照上述说明,此处不再赘述。

安全设备可以基于多个训练样本,对预设的初始神经网络模型进行训练,得到页面分类模型,具体的处理过程为:将训练样本输入至初始神经网络模型,输出训练样本对应的测试特征向量;通过反向传播算法,利用训练样本对应的测试特征向量,对初始神经网络模型包含的模型参数进行调整,得到页面分类模型,模型参数至少包括输入层到隐层的权值和隐层到输出层的权值。

在实施中,安全设备可以将多个训练样本依次输入到初始神经网络模型中,针对每个训练样本,初始神经网络模型则会根据预设的神经网络算法,计算该训练样本对应的测试特征向量,并计算该测试特征向量与预设的期望特征向量的误差,进而判断该误差是否小于预设的误差阈值。如果该误差大于或等于预设的误差阈值,则根据预设的反向传播算法,调整输入层到隐层的权值ωmn和隐层到输出层的权值vlk,然后,安全设备输入下一个训练样本,并重复执行上述处理,直到确定出的误差小于预设的误差阈值为止。当确定出的误差小于预设的误差阈值时,安全设备会对神经网络当前的输入层到隐层的权值ωmn、隐层到输出层的权值vlk以及误差阈值Δt进行存储,以确定页面分类模型。

如图3所示,为本发明实施例提供的一种网页识别方法的示例,具体处理过程为:

步骤301,接收用户终端发送的网页请求。

步骤302,根据目标网页的URL,从目标网页的服务器中获取目标网页的页面数据。

步骤303,判断页面数据包含的验证值是否为预设的正常页面数据对应的验证值。如果否,则执行步骤304;否则,执行步骤305~步骤306。

步骤304,向用户终端发送错误通知消息。

步骤305,根据预设的特征提取规则和页面数据,确定目标网页的页面特征。

步骤306,根据页面特征和预设的页面分类模型,判断目标网页是否为合法网页。如果否,则执行步骤307;否则,执行步骤308。

步骤307,向用户终端发送告警信息。

步骤308,将目标网页的页面数据发送给用户终端,以使用户终端根据页面数据显示目标网页。

本发明实施例中,安全设备接收到用户终端发送的网页请求后,根据该网页请求中携带的URL,从目标网页的服务器中获取目标网页的页面数据,然后根据预设的特征提取规则和页面数据,确定目标网页的页面特征,根据页面特征和预设的页面分类模型,判断目标网页是否为非法网页,如果目标网页是非法网页,则向用户终端发送告警信息。基于上述处理,可以根据目标网页的页面特征和页面分类模型,判断目标网页是否为非法页面,无需人工建立黑名单数据库,能够避免因黑名单数据库中的数据不全面,而导致无法识别出非法网站的情况,提高了非法网站的识别率。

基于相同的技术构思,如图4所示,本发明实施例还提供了一种网页识别装置,该装置应用于安全设备,该装置包括:

接收模块410,用于接收用户终端发送的网页请求,网页请求中携带有待访问的目标网页的URL;

第一获取模块420,用于根据目标网页的URL,从目标网页的服务器中获取目标网页的页面数据;

第一确定模块430,用于根据预设的特征提取规则和页面数据,确定目标网页的页面特征;

第一发送模块440,用于根据页面特征和预设的页面分类模型,判断目标网页是否为非法网页,如果目标网页是非法网页,则向用户终端发送告警信息。

可选的,如图5所示,该装置还包括:

第二发送模块450,用于如果目标网页不是非法网页,则将目标网页的页面数据发送给用户终端,以使用户终端根据页面数据显示目标网页。

可选的,第一确定模块430,具体用于:

从所述目标网页的页面数据中,提取第一目标参数,所述第一目标参数包括:所述目标页面的页面URL、表单中的预设字段、标题信息、网页元素信息和所述目标网页的页面数据中包含的预设数目个URL;

根据提取出的所述第一目标参数,确定所述目标网页的页面特征。

可选的,第一确定模块430,具体用于:

获取所述预设数目个URL对应的链接网页的页面数据;

针对每个链接网页,从该链接网页的页面数据中提取第二目标参数,所述第二目标参数包括:所述链接网页的页面URL、表单中的预设字段、标题信息、网页元素信息和所述链接网页的页面数据中包含的预设数目个URL;

将所述第一目标参数以及从所述预设数目个链接网页中提取出的第二目标参数,作为所述目标网页的页面特征。

可选的,页面数据中包含验证值,如图6所示,该装置还包括:

判断模块460,用于判断页面数据包含的验证值是否为预设的正常页面数据对应的验证值;

第二确定模块470,用于如果验证值为预设的正常页面数据对应的验证值,则触发第一确定模块430执行根据预设的特征提取规则和页面数据,确定目标网页的页面特征步骤;

第三发送模块480,用于如果验证值不为预设的正常页面数据对应的验证值,则向用户终端发送错误提示信息。

可选的,如图7所示,该装置还包括:

第二获取模块490,用于获取预先存储的多个训练样本,训练样本包括非法网页的页面特征和合法网页的页面特征;

训练模块4100,用于基于多个训练样本,对预设的初始神经网络模型进行训练,得到页面分类模型。

可选的,所述训练模块4100,具体用于:

将所述训练样本输入至所述初始神经网络模型,输出所述训练样本对应的测试特征向量;

通过反向传播算法,利用所述训练样本对应的测试特征向量,对所述初始神经网络模型包含的模型参数进行调整,得到所述页面分类模型,所述模型参数至少包括输入层到隐层的权值和隐层到输出层的权值。

本发明实施例中,安全设备接收到用户终端发送的网页请求后,根据该网页请求中携带的URL,从目标网页的服务器中获取目标网页的页面数据,然后根据预设的特征提取规则和页面数据,确定目标网页的页面特征,根据页面特征和预设的页面分类模型,判断目标网页是否为非法网页,如果目标网页是非法网页,则向用户终端发送告警信息。基于上述处理,可以根据目标网页的页面特征和页面分类模型,判断目标网页是否为非法页面,无需人工建立黑名单数据库,能够避免因黑名单数据库中的数据不全面,而导致无法识别出非法网站的情况,提高了非法网站的识别率。

本申请实施例还提供了一种安全设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,

存储器803,用于存放计算机程序;

处理器801,用于执行存储器803上所存放的程序时,以使该安全设备执行如下步骤,该步骤包括:

接收用户终端发送的网页请求,所述网页请求中携带有待访问的目标网页的统一资源定位器URL;

根据所述目标网页的URL,从所述目标网页的服务器中获取所述目标网页的页面数据;

根据预设的特征提取规则和所述页面数据,确定所述目标网页的页面特征;

根据所述页面特征和预设的页面分类模型,判断所述目标网页是否为非法网页,如果所述目标网页是非法网页,则向所述用户终端发送告警信息。

可选的,所述方法还包括:

如果所述目标网页不是非法网页,则将所述目标网页的页面数据发送给所述用户终端,以使所述用户终端根据所述页面数据显示所述目标网页。

可选的,所述根据预设的特征提取规则和所述页面数据,确定所述目标网页的页面特征,包括:

从所述目标网页的页面数据中,提取第一目标参数,所述第一目标参数包括:所述目标页面的页面URL、表单中的预设字段、标题信息、网页元素信息和所述目标网页的页面数据中包含的预设数目个URL;

根据提取出的所述第一目标参数,确定所述目标网页的页面特征。

可选的,所述根据提取出的所述第一目标参数,确定所述目标网页的页面特征,包括:

获取所述预设数目个URL对应的链接网页的页面数据;

针对每个链接网页,从该链接网页的页面数据中提取第二目标参数,所述第二目标参数包括:所述链接网页的页面URL、表单中的预设字段、标题信息、网页元素信息和所述链接网页的页面数据中包含的预设数目个URL;

将所述第一目标参数以及从所述预设数目个链接网页中提取出的第二目标参数,作为所述目标网页的页面特征。

可选的,所述页面数据中包含验证值,所述根据预设的特征提取规则和所述页面数据,确定所述目标网页的页面特征之前,所述方法还包括:

判断所述页面数据包含的验证值是否为预设的正常页面数据对应的验证值;

如果所述验证值为预设的正常页面数据对应的验证值,则执行所述根据预设的特征提取规则和所述页面数据,确定所述目标网页的页面特征步骤;

如果所述验证值不为所述预设的正常页面数据对应的验证值,则向所述用户终端发送错误提示信息。

可选的,所述方法还包括:

获取预先存储的多个训练样本,所述训练样本包括非法网页的页面特征和合法网页的页面特征;

基于所述多个训练样本,对预设的初始神经网络模型进行训练,得到所述页面分类模型。

可选的,所述基于所述多个训练样本,对预设的初始神经网络模型进行训练,得到所述页面分类模型,包括:

将所述训练样本输入至所述初始神经网络模型,输出所述训练样本对应的测试特征向量;

通过反向传播算法,利用所述训练样本对应的测试特征向量,对所述初始神经网络模型包含的模型参数进行调整,得到所述页面分类模型,所述模型参数至少包括输入层到隐层的权值和隐层到输出层的权值。

机器可读存储介质可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。另外,机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例中,安全设备接收到用户终端发送的网页请求后,根据该网页请求中携带的URL,从目标网页的服务器中获取目标网页的页面数据,然后根据预设的特征提取规则和页面数据,确定目标网页的页面特征,根据页面特征和预设的页面分类模型,判断目标网页是否为非法网页,如果目标网页是非法网页,则向用户终端发送告警信息。基于上述处理,可以根据目标网页的页面特征和页面分类模型,判断目标网页是否为非法页面,无需人工建立黑名单数据库,能够避免因黑名单数据库中的数据不全面,而导致无法识别出非法网站的情况,提高了非法网站的识别率。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1