一种web网页篡改识别方法及系统的制作方法

文档序号:6597469阅读:192来源:国知局
专利名称:一种web网页篡改识别方法及系统的制作方法
技术领域
本发明涉及网络安全领域,尤其涉及一种TOB网页篡改识别方法及系统。
背景技术
随着互联网应用技术的不断发展,网站已经深入人们的生活,发挥着越来越重要 的作用。外部网站因需要被公众访问而暴露于因特网上,容易成为黑客的攻击目标。虽然 目前已有防火墙、入侵检测等安全防范手段,但现代操作系统的复杂性和多样性导致系统 漏洞层出不穷,防不胜防。黑客入侵和WEB页面篡改的事件时有发生。目前TOB篡改模式主要有两种主要形式WEB页面被完全篡改(完全被新文件替 换)和WEB页面被部分篡改(WEB页面大部分内容没有被修改,而其中部分图片、文字内容 或者超链接被修改)。对于以上两种类型的网页篡改攻击,经过统计发现,第一种情况占绝大多数,而后 者相对较少。并且从管理员角度而言,最担心的篡改是第一种,因为这种篡改影响面最大。目前一般的TOB网页防篡改技术方案,较多采用可靠的WEB服务器核心内嵌式,其 篡改检测过程运行于WEB服务器内部,与TOB服务器无缝结合。WEB网页正常发布时,为其 计算出唯一的加密水印。每次网页被浏览时,都对网页进行水印比对,实时地确保每个网页 的真实性。这种技术方案对每个网页文件产生一个水印并保存在服务器上,每次公众浏览 该网页时,服务器就进行水印检测,以判断网页是否被篡改。但是,经过分析发现,目前较多采用的这种WEB页面防篡改技术方案有以下不足(1)服务器上要保存所有网页的水印,并且每次公众浏览都要进行水印检测,对服 务器的运行带来较大的负担。(2)如果黑客将网页及其水印一同篡改,则不能有效地检测出来。(3)目前的技术方案还比较简单,且部署网页防篡改系统或产品需要改变现有的 单服务器模式,增加额外的服务器,并改变服务器的架构。

发明内容
本发明所要解决的技术问题,在于需要提供一种WEB网页篡改识别方法及系统, 以实现对WEB页面的篡改识别。为了解决上述技术问题,本发明提供了一种TOB网页篡改识别系统,包括网页获取模块,用于获取TOB页面;模式提取模块,与所述网页获取模块相连,用于对所述WEB页面进行模式提取,生 成所述WEB页面的页面模式;基线数据库,用于保存WEB页面比较基线;篡改识别模块,与所述模式提取模块及基线数据库相连,用于根据所述TOB页面 比较基线对作为识别目标的目标WEB页面的页面模式进行篡改识别,获得识别结果。
优选地,该系统进一步包括基线建立模块,与所述模式提取模块及基线数据库相连,用于根据未经篡改的TOB 页面的页面模式,生成所述WEB页面比较基线并保存到所述基线数据库。优选地,所述网页获取模块包括地址接收子模块,用于接收所述TOB页面的页面地址;页面请求子模块,与所述地址接收子模块相连,用于根据所述页面地址,向WEB服 务器发出页面请求,以获取所述WEB页面;响应分析子模块,用于从所述TOB服务器返回的页面响应中提取出所述TOB网页。优选地,所述模式提取模块包括解析子模块,与所述网页获取模块相连,用于从所述TOB页面中提取文档对象模 型树;落叶树生成子模块,与所述解析子模块相连,用于对所述文档对象模型树进行删 叶处理,生成文档对象模型落叶树;序列化子模块,与所述落叶树生成子模块相连,用于对所述文档对象模型落叶树 进行序列化,生成落叶树节点序列;模式输出子模块,与所述序列化子模块相连,用于将所述落叶树节点序列作为所 述WEB页面的页面模式进行输出。为了解决上述技术问题,本发明还提供了一种TOB网页篡改识别方法,包括获取WEB页面;对所述WEB页面进行模式提取,生成所述WEB页面的页面模式;根据预存的TOB页面比较基线对作为识别目标的目标WEB页面的页面模式进行篡 改识别,获得识别结果。优选地,该方法进一步包括根据未经篡改的TOB页面的页面模式,生成所述WEB页面比较基线并保存。优选地,获取所述TOB页面的步骤,包括接收所述TOB页面的页面地址;根据所述页面地址,向TOB服务器发出页面请求,以获取该WEB页面;从所述WEB服务器返回的页面响应中提取出所述WEB网页。优选地,所述WEB页面的页面地址,包括所述WEB页面的IP地址或者域名。优选地,对所述WEB页面进行模式提取,生成所述页面模式的步骤,包括从所述WEB页面中提取文档对象模型树;对所述文档对象模型树进行删叶处理,生成文档对象模型落叶树;对所述文档对象模型落叶树进行序列化,生成落叶树节点序列;将所述落叶树节点序列作为所述TOB页面的页面模式。与现有技术相比,本发明技术方案在网页服务器的外部进行TOB网页篡改检测, 克服了现有技术由服务器自己产生和验证页面水印的技术缺陷,减小了服务器的负担,提 高了检测效率,而且不会对页面服务器产生任何影响,实现了 WEB页面的篡改识别。而且, 基于网络技术,本发明技术方案实现了 WEB页面篡改的远程检测,不需要在客户网站上安 装任何软件,也不会向客户网站发送有害探测包。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利 要求书以及附图中所特别指出的结构来实现和获得。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例一起用于解释本发明,并不构成对本发明的限制。在附图中图1为本发明TOB网页篡改识别系统实施例的结构示意图;图2为图1所示实施例中网页获取模块的组成示意图;图3为图1所示实施例中模式提取模块的组成示意图;图4为本发明TOB网页篡改识别方法实施例的流程示意图;图5为图4所示方法实施例中步骤S410的流程示意图;图6为图4所示方法实施例中步骤S420的流程示意图;图7为一种DOM树示意图;图8为对应于图7所示DOM树的DOM落叶树示意图。
具体实施例方式以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用 技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结 合,均在本发明的保护范围之内。另外,在附图的流程图示出的步骤可以在诸如一组计算机 可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况 下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是本发明TOB网页篡改识别系统实施例的结构示意图。如图1所示,该系统 实施例主要包括网页获取模块110、模式提取模块120、基线建立模块130、基线数据库140 以及篡改识别模块150,其中网页获取模块110,用于获取TOB页面;模式提取模块120,与该网页获取模块110相连,用于对该网页获取模块110获取 的TOB页面进行模式提取,生成该WEB页面的页面模式;基线建立模块130,与该模式提取模块120相连,对于正常的未经篡改的TOB页面, 用于根据该模式提取模块120生成的正常的未经篡改的WEB页面的页面模式,生成WEB页 面比较基线;基线数据库140,与该基线建立模块130相连,用于保存由该基线建立模块130建 立的TOB页面比较基线;篡改识别模块150,与该模式提取模块120及基线数据库140相连,用于在进行 WEB页面的篡改识别时,根据基线数据库140保存的TOB页面比较基线对作为识别目标的目 标TOB页面的页面模式进行篡改识别,获得识别结果。其中,该系统实施例在还未进行篡改识别时,需要先根据正常的未经篡改的WEB 页面建立该基线数据库140,然后才能用于篡改识别时对目标TOB页面进行篡改识别。也即应该在该基线数据库140建立完成之后,才能进行后续的目标WEB页面的篡改识别。当然, 如果该基线数据库140预先存储有WEB页面比较基线,则可以直接对目标WEB页面进行篡 改识别,而不需要再重新生成WEB页面比较基线。上述正常的未经篡改的TOB页面,可以在TOB服务器对外发布WEB页面之前,以 TOB客户端的方式,基于安全(如加密等)传输技术,通过统一资源定位器(URL)从TOB服 务器处获得。如此,还可以区别WEB页面发布方的主动修改与外界对WEB页面篡改行为。上述篡改识别模块150在进行篡改识别时,如果在基线数据库140中检索到存在 有与目标TOB页面的页面模式相同的WEB页面比较基线,则认为该目标WEB页面未经篡改, 否则认为该目标WEB页面已经被篡改。图2为图1所示实施例中网页获取模块110的组成示意图。如图2所示,该网页 获取模块110主要包括地址接收子模块210、页面请求子模块220、响应分析子模块230以 及网页输出子模块对0,其中地址接收子模块210,用于接收外部输入的TOB页面的页面地址,该页面地址可以 是TOB页面的IP地址,也可以是TOB页面的域名;页面请求子模块220,与该地址接收子模块210相连,用于根据地址接收子模块 210接收的页面地址,向TOB服务器发出页面请求以获取该WEB页面,该请求的格式可以与 浏览器向服务器发出的页面请求格式相同;响应分析子模块230,用于接收从TOB服务器返回的页面响应,并从该页面响应中 提取出HTML格式的TOB网页;该响应信息可以是一个正常的服务器对浏览器请求的响应消 息;网页输出子模块M0,与该响应分析子模块230及模式提取模块120相连,用于将 响应分析子模块230提取的TOB页面发送给模式提取模块120。图3为图1所示实施例中模式提取模块120的组成示意图。如图3所示,该模式 提取模块120主要包括解析子模块310、落叶树生成子模块320、序列化子模块330以及模 式输出子模块;340,其中解析子模块310,与该网页获取模块110相连,用于对HTML格式的TOB页面进行文 档对象模型(DOM)解析,从HTML格式的TOB页面中提取出DOM树;一种具体的提取方式是 使用开源HTML解析器(如HTMLXX)来实现;落叶树生成子模块320,与该解析子模块310相连,用于对DOM树进行删叶处理,删 除该解析子模块310提取出的DOM树中的叶节点,生成DOM落叶树;序列化子模块330,与该落叶树生成子模块320相连,用于对该DOM落叶树进行序 列化,将该落叶树生成子模块320生成的DOM落叶树转化成落叶树节点序列;模式输出子模块340,与该序列化子模块330相连,用于将序列化子模块330转化 获得的落叶树节点序列作为该WEB页面的页面模式进行输出。图4是本发明TOB网页篡改识别方法实施例的流程示意图。结合图1至图3所示 的系统实施例,图4所示的该方法实施例,主要包括如下步骤步骤S410,获取TOB页面;步骤S420,对获取的TOB页面进行模式提取,生成该WEB页面的页面模式;步骤S430,根据正常的未经篡改的TOB页面的页面模式,生成TOB页面比较基线并保存;步骤S440,根据保存的TOB页面比较基线,对作为识别目标的目标W^页面的页面 模式进行篡改识别,获得识别结果。其中,该方法实施例在还未进行TOB页面的篡改识别时,需要先根据正常的未经 篡改的WEB页面保存TOB页面比较基线,然后再进行对目标WEB页面的篡改识别。当然,如 果在进行篡改识别之前就预先保存有WEB页面比较基线,则可以直接对目标WEB页面进行 篡改识别,而不需要再重新生成WEB页面比较基线。上述篡改识别过程中,如果检索到存在有与目标TOB页面的页面模式相同的WEB 页面比较基线,则认为该目标WEB页面未经篡改,否则认为该目标WEB页面已经被篡改。图5是图4所示方法实施例中步骤S410的流程示意图。结合图1至图3所示的 系统实施例,该步骤S410的流程主要包括如下步骤步骤S510,接收外部输入的TOB页面的页面地址;该页面地址可以是WEB页面的 IP地址,也可以是WEB页面的域名;步骤S520,根据接收的该页面地址,向TOB服务器发出页面请求,以获取该WEB页 面,该请求的格式可以与浏览器向服务器发出的页面请求格式相同;步骤S530,接收从TOB服务器返回的页面响应,并从该页面响应中提取出HTML格 式的TOB网页;该响应信息可以是一个正常的服务器对浏览器请求的响应消息。图6是图4所示方法实施例中步骤S420的流程示意图。结合图1至图3所示的 系统实施例,该步骤S420的流程主要包括如下步骤步骤S610,对HTML格式的TOB页面进行DOM解析,从HTML格式的TOB页面中提取 出DOM树;一种具体的提取方式是使用开源HTML解析器(如HTMLXX)来实现;比如,某一个页面文档的内容如下<HTML><head><title>D0M Example</title></head><body><hl>D0M Example 0ne</hl>
This Page is a Example of DOM 丨 </p></body></HTML>从该页面文档提取出的DOM树如图7所示;步骤S620,对DOM树进行删叶处理,删除所提取出的DOM树中的叶节点,生成DOM 落叶树;比如,对生成的DOM树进行先序遍历,若发现一个节点是叶节点,则将其删除;图7 所示的DOM树,其对应的DOM落叶树如图8所示;步骤S630,对该DOM落叶树进行序列化,将该DOM落叶树转化成落叶树节点序列, 将该落叶树节点作为该WEB页面的页面模式;比如,一种序列化的方法是,对DOM树进行先序遍历,然后即可得到该树的一个节
8点序列;为便于比较,在节点序列中,每个节点用一个三元组(节点名称,节点类型,节点 值)来表示,这样得到的页面模式就是一个三元组序列;比如图8所示的DOM落叶树,其 节点名称和值均为空,序列化后的得到的落叶树节点序列为(,<HTML>, ) (,<head>,)(, <title>,) (,<body>, ) (,<hl>, ) (,
,)。对应于图8所示的DOM落叶树,上述步骤S440识别到目标TOB页面的页面模式 (三元组序列)与WEB页面比较基线(三元组序列)相同,则认为该目标WEB页面未经篡 改,否则认为该目标WEB页面已经被篡改。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的 计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不 同于此处的顺序执行所示出或描述的步骤。另外,本领域的技术人员应该明白,上述的本发 明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上, 或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代 码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成 各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这 样,本发明不限制于任何特定的硬件和软件结合。虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采 用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本 发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化, 但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
权利要求
1.一种WEB网页篡改识别系统,其特征在于,包括 网页获取模块,用于获取WEB页面;模式提取模块,与所述网页获取模块相连,用于对所述WEB页面进行模式提取,生成所 述TOB页面的页面模式;基线数据库,用于保存WEB页面比较基线;篡改识别模块,与所述模式提取模块及基线数据库相连,用于根据所述WEB页面比较 基线对作为识别目标的目标WEB页面的页面模式进行篡改识别,获得识别结果。
2.如权利要求1所述的系统,其特征在于,该系统进一步包括基线建立模块,与所述模式提取模块及基线数据库相连,用于根据未经篡改的WEB页 面的页面模式,生成所述WEB页面比较基线并保存到所述基线数据库。
3.如权利要求1或2所述的系统,其特征在于,所述网页获取模块包括 地址接收子模块,用于接收所述WEB页面的页面地址;页面请求子模块,与所述地址接收子模块相连,用于根据所述页面地址,向WEB服务器 发出页面请求,以获取所述WEB页面;响应分析子模块,用于从所述WEB服务器返回的页面响应中提取出所述WEB网页。
4.如权利要求1或2所述的系统,其特征在于,所述模式提取模块包括解析子模块,与所述网页获取模块相连,用于从所述WEB页面中提取文档对象模型树; 落叶树生成子模块,与所述解析子模块相连,用于对所述文档对象模型树进行删叶处 理,生成文档对象模型落叶树;序列化子模块,与所述落叶树生成子模块相连,用于对所述文档对象模型落叶树进行 序列化,生成落叶树节点序列;模式输出子模块,与所述序列化子模块相连,用于将所述落叶树节点序列作为所述WEB 页面的页面模式进行输出。
5.一种WEB网页篡改识别方法,其特征在于,包括 获取TOB页面;对所述WEB页面进行模式提取,生成所述WEB页面的页面模式; 根据预存的WEB页面比较基线对作为识别目标的目标TOB页面的页面模式进行篡改识 别,获得识别结果。
6.如权利要求5所述的方法,其特征在于,该方法进一步包括根据未经篡改的WEB页面的页面模式,生成所述WEB页面比较基线并保存。
7.如权利要求5或6所述的方法,其特征在于,获取所述WEB页面的步骤,包括 接收所述WEB页面的页面地址;根据所述页面地址,向WEB服务器发出页面请求,以获取该WEB页面; 从所述WEB服务器返回的页面响应中提取出所述TOB网页。
8.如权利要求7所述的方法,其特征在于所述WEB页面的页面地址,包括所述WEB页面的IP地址或者域名。
9.如权利要求5或6所述的方法,其特征在于,对所述WEB页面进行模式提取,生成所 述页面模式的步骤,包括从所述WEB页面中提取文档对象模型树;对所述文档对象模型树进行删叶处理,生成文档对象模型落叶树; 对所述文档对象模型落叶树进行序列化,生成落叶树节点序列; 将所述落叶树节点序列作为所述WEB页面的页面模式。
全文摘要
本发明公开了一种WEB网页篡改识别方法及系统,以实现对WEB页面的篡改识别,其中该系统包括网页获取模块,用于获取WEB页面;模式提取模块,与网页获取模块相连,用于对WEB页面进行模式提取,生成WEB页面的页面模式;基线数据库,用于保存WEB页面比较基线;篡改识别模块,与模式提取模块及基线数据库相连,用于根据WEB页面比较基线对作为识别目标的目标WEB页面的页面模式进行篡改识别,获得识别结果。与现有技术相比,本发明技术方案在网页服务器的外部进行WEB网页篡改检测,提高了检测效率,实现了WEB页面的篡改识别。
文档编号G06F17/30GK102129528SQ20101003427
公开日2011年7月20日 申请日期2010年1月19日 优先权日2010年1月19日
发明者叶润国, 周涛, 孙海波, 胡振宇, 黄宇鸿 申请人:北京启明星辰信息安全技术有限公司, 北京启明星辰信息技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1