一种分析网页内容是否被篡改的方法及系统的制作方法

文档序号:7815801阅读:198来源:国知局
专利名称:一种分析网页内容是否被篡改的方法及系统的制作方法
技术领域
本发明涉及网络安全领域,特别是涉及一种分析网页内容是否被篡改的方法及系统。
背景技术
在电子商务、电子政务日益普及的今天,网站已成为企事业单位、政府机关的形象窗口,也是对外开展业务、提供服务的重要手段。网页篡改主要是指将网页中的内容修改为与原始内容不一致的内容。如果网站页面被篡改,不仅将影响正常业务的开展,而且会对企业形象、政府信誉带来极其不好的影响。更有甚者,某些不法分子还利用篡改网页这种手段进行欺诈犯罪活动。尤其是,对政府网站而言,网页篡改(尤其是含有政治攻击色彩的篡改)会对政府形象造成严重损害。另外一些别有用心的人可能会利用人民对政府网站的信任对网页进行语义篡改,散布谣言,引起民众不必要的恐慌和猜疑,从而给国家和人民造成了巨大的损失。比如,某政府网站上的卫生防疫公告“该地区发现肠道流感病毒”被篡改为“该地区发现禽流感病毒”,加上网络媒体的纷纷转载,结果势必引起民众不必要的恐慌和巨大的经济损失。再比如,某电子商务网站上的某商品价格从1000元被篡改为10元,而大量订单像雪
片一样飞来时,该网站面临的将是现实利润与商业信誉无法兼得的困窘......随着互联
网的迅速发展,网站被入侵、网页被篡改的事件将会更加频繁地发生。现有技术中,分析网页内容是否被篡改的方法主要是利用网络安全公司的服务器对网页内容进行抓取,根据抓取到的网页代码分析网页内容是否被篡改。但是,对于有些被篡改的内容,现有技术中的分析网页内容是否被篡改的方法并不能够准确的分析出那部分被篡改的内容。

发明内容
本发明的目的是提供一种分析网页内容是否被篡改的方法及系统,能够检测出采用AJAX,Javascript, flash等技术对网页内容进行的篡改。为实现上述目的,本发明提供了如下方案一种分析网页内容是否被篡改的方法,所述方法应用于网络系统,所述网络系统中具有网页服务器和网络安全分析服务器,所述网页服务器存储有可供访问的网页代码,所述网络安全分析服务器具有网络爬虫程序,所述网络爬虫程序内嵌有浏览器内核代码,所述方法包括所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;加载所述网页代码;通过所述浏览器内核代码对所述网页代码进行解析,生成解析后的网页代码;根据所述解析后的网页代码,判断所述网页内容是否被篡改。
其中,所述网页代码包括动态网页代码和静态网页代码;所述通过所述浏览器内核代码对所述网页代码进行解析,包括获取所述动态网页代码;通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。其中,所述判断所述网页内容是否被篡改,包括判断所述解析后的网页代码是否符合预设的篡改规则;如果是,则确定所述网页内容被篡改;否则,确定所述网页内容未被篡改。其中,所述判断所述网页内容是否被篡改,包括判断所述解析后的网页代码是否与预先保存的所述网页的网页代码相匹配;如果是,则确定所述网页内容未被篡改;否则,确定所述网页内容被篡改。一种分析网页内容是否被篡改的系统,所述系统应用于网络系统,所述网络系统中具有网页服务器和网络安全分析服务器,所述网页服务器存储有可供访问的网页代码,所述网络安全分析服务器具有网络爬虫程序,所述网络爬虫程序内嵌有浏览器内核代码,所述系统包括代码抓取单元,用于所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;网页代码加载单元,用于加载所述网页代码;网页代码解析单元,用于通过所述浏览器内核代码对所述网页代码进行解析,生成解析后的网页代码;篡改内容判断单元,用于根据所述解析后的网页代码,判断所述网页内容是否被篡改。其中,所述网页代码包括动态网页代码和静态网页代码;所述网页代码解析单元包括动态网页代码获取子单元,用于获取所述动态网页代码;动态网页代码解析子单元,用于通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;解析后网页代码生成子单元,用于根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。其中,所述篡改内容判断单元包括篡改规则判断子单元,用于判断所述解析后的网页代码是否符合预设的篡改规则。其中,所述篡改内容判断单元包括网页代码判断子单元,用于判断所述解析后的网页代码是否与预先保存的所述网页的网页代码相匹配。根据本发明提供的具体实施例,本发明公开了以下技术效果本发明中,将浏览器内核代码嵌入网络爬虫程序中,由于浏览器内核代码可以解析动态网页代码,所以本发明的分析网页内容是否被篡改的方法,可以对采用动态网页代码开发的网页内容进行完全的加载和分析,能够检测出采用AJAX,Javascript, flash等技术对网页内容进行的篡改。此外,本发明的一些具体实施方式
中,在判断网页内容是否被篡改时,可以直接判断解析后的网页代码是否符合预设的篡改规则,篡改规则可以灵活设定,当有新的篡改技术时,可以增加相应的篡改规则,因此,可以适应新的篡改规则,增加本发明的方法的适用范围。本发明的另一些具体实施方式
中,在判断网页内容是否被篡改时,直接将解析后的网页代码与预先保存的所述网页的网页代码进行匹配,如果匹配成功,则认为没有被篡改,否则认为被篡改。由于判断条件严格,所以判断结果更为准确。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明的分析网页内容是否被篡改的方法实施例1的流程图;图2为本发明的分析网页内容是否被篡改的方法实施例2的流程图;图3为本发明的分析网页内容是否被篡改的方法实施例3的流程图;图4为本发明的分析网页内容是否被篡改的系统实施例1的结构图;图5为本发明的分析网页内容是否被篡改的系统实施例2的结构图;图6为本发明的分析网页内容是否被篡改的系统实施例3的结构图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。本发明的分析网页内容是否被篡改的方法应所述方法应用于网络系统,所述网络系统中具有网页服务器和网络安全分析服务器,所述网页服务器存储有可供访问的网页代码,所述网络安全分析服务器具有网络爬虫程序,所述网络爬虫程序内嵌有浏览器内核代码。浏览器内核代码可以是Trident,Gecko,I^resto,Webkit等浏览器内核的代码。另外,在实际应用中,内嵌有浏览器内核代码的网络爬虫程序可以是Python-Webkit,或者也可以是其他的网络爬虫程序。图1为本发明的分析网页内容是否被篡改的方法实施例1的流程图。所述方法包括步骤SlOl 所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;S102 加载所述网页代码;
所述网页代码包括动态网页代码和静态网页代码。S103 通过所述浏览器内核代码对所述网页代码进行解析,生成解析后的网页代码;对于静态网页代码,浏览器内核代码直接根据静态网页代码进行网页页面的解析即可。对于动态网页代码,浏览器内核代码需要对动态网页代码解析,生成解析后的网页代码,根据解析后的网页代码才能够得到相应的显示内容。S104 根据所述解析后的网页代码,判断所述网页内容是否被篡改。对于网页内容是否被篡改,可以判断所述解析后的网页代码是否符合预设的篡改规则;如果是,则确定所述网页内容被篡改;否则,确定所述网页内容未被篡改;也可以判断所述解析后的网页代码是否与预先保存的所述网页的网页代码相匹配;如果是,则确定所述网页内容未被篡改;否则,确定所述网页内容被篡改。下面对本发明的原理进行详细说明。传统的网页内容主要是采用静态网页代码开发的。采用静态网页代码开发的网页,普通用户在使用浏览器浏览时,首先向网页服务器发送访问网页页面的请求,然后网页服务器响应该请求,浏览器必须等待该网页的全部静态网页代码加载完毕,才能根据该静态网页代码分析并得到该网页的网页内容。也就是说,网页服务器在响应该请求时,会一次性将相应的网页代码全部发送至浏览器。因此,现有技术中的网络安全分析服务器,针对采用静态网页代码开发的网页,其分析网页内容是否被篡改的方法是网络安全分析服务器向网页服务器发送访问网页页面的请求,网页服务器会响应这个请求,会一次性将相应的网页代码全部发送至网络安全分析服务器;网络安全分析服务器直接根据获取到的网页代码,去分析网页内容是否被篡改。因为网页服务器在响应该请求时,会一次性将相应的网页代码全部发送至浏览器,所以现有技术中的网络安全分析服务器,直接分析网页服务器响应该请求所发送的网页代码,就可以分析出网页内容是否被篡改。但是,现在的网络开发技术又增加了 AJAX,Javascript, flash等技术。在上述技术中,服务器响应的数据包括了动态的HTML代码。对于动态HTML代码,普通用户在使用浏览器浏览采用AJAX等技术开发的网页时,首先向网页服务器发送访问网页页面的请求,然后网页服务器响应该请求,浏览器不必等待该网页的全部动态网页代码加载完毕,就可以进行网页的渲染和显示。浏览器可以根据接收到的动态网页代码显示网页中的一部分,等待接收到另一部分动态网页代码,再显示另一部分对应的网页内容。也就是说,网页服务器在响应该请求时,会多次将相应的网页代码分批发送至浏览器。因此,现有技术中的分析网页内容是否被篡改的方法,由于只能针对采用静态网页代码开发的网页进行分析,也就是只会根据网页服务器第一次发送至网络安全分析服务器的网页代码进行分析,如果被篡改的网页内容存在于后续发送的网页代码中,那么现有技术中的分析网页内容是否被篡改的方法就无法检测出被篡改的内容。本发明的实施例中,将浏览器内核代码嵌入网络爬虫程序中,由于浏览器内核代码可以解析动态网页代码,所以本发明的分析网页内容是否被篡改的方法,可以对采用动态网页代码开发的网页内容进行完全的加载和分析,能够检测出采用AJAX,Javascript,flash等技术对网页内容进行的篡改。
图2为本发明的分析网页内容是否被篡改的方法实施例2的流程图。所述方法包括步骤S201 所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;S202 加载所述网页代码;S203 获取所述动态网页代码;S204:通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;S205 根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。S206 判断所述解析后的网页代码是否符合预设的篡改规则;如果是,执行步骤S207 ;否则,执行步骤S208。S207 确定所述网页内容被篡改;S208 确定所述网页内容未被篡改。具体的,预设的篡改规则是指事先定义好的一些篡改内容如定义好的黑词、黑链、非法链接等可以长期收集更新,如果分析的页面包含预设的内容则认定该页面被篡改,反之则无篡改。本实施例公开的分析网页内容是否被篡改的方法,由于直接判断解析后的网页代码是否符合预设的篡改规则,篡改规则可以灵活设定,当有新的篡改技术时,可以增加相应的篡改规则,因此,本实施例公开的分析网页内容是否被篡改的方法,可以适应新的篡改规则,增加本发明的方法的适用范围。图3为本发明的分析网页内容是否被篡改的方法实施例3的流程图。所述方法包括步骤S301 所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;S302 加载所述网页代码;S303 获取所述动态网页代码;S304:通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;S305:根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。S306:判断所述解析后的网页代码是否与预先保存的所述网页的网页代码相匹配;如果是,执行步骤S307 ;否则,执行步骤S308。S307 确定所述网页内容被篡改;S308 确定所述网页内容未被篡改。本实施例中的分析网页内容是否被篡改的方法,在判断网页内容是否被篡改时,直接将解析后的网页代码与预先保存的所述网页的网页代码进行匹配,如果匹配成功,则认为没有被篡改,否则认为被篡改。本实施例的分析网页内容是否被篡改的方法,由于判断条件严格,所以判断结果更为准确。本发明还公开了一种分析网页内容是否被篡改的系统。所述系统应用于网络系统,所述网络系统中具有网页服务器和网络安全分析服务器,所述网页服务器存储有可供访问的网页代码,所述网络安全分析服务器具有网络爬虫程序,所述网络爬虫程序内嵌有浏览器内核代码。图4为本发明的分析网页内容是否被篡改的系统实施例1的结构图。如图4所示,该系统包括代码抓取单元401,用于所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;网页代码加载单元402,用于加载所述网页代码;网页代码解析单元403,用于通过所述浏览器内核代码对所述网页代码进行解析,生成解析后的网页代码;篡改内容判断单元404,用于根据所述解析后的网页代码,判断所述网页内容是否
被篡改。本发明的实施例中,将浏览器内核代码嵌入网络爬虫程序中,由于浏览器内核代码可以解析动态网页代码,所以本发明的分析网页内容是否被篡改的系统,可以对采用动态网页代码开发的网页内容进行完全的加载和分析,能够检测出采用AJAX,Javascript,flash等技术对网页内容进行的篡改。图5为本发明的分析网页内容是否被篡改的系统实施例2的结构图。如图5所示,该系统包括代码抓取单元401,用于所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;网页代码加载单元402,用于加载所述网页代码;动态网页代码获取子单元4031,用于获取所述动态网页代码;动态网页代码解析子单元4032,用于通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;解析后网页代码生成子单元4033,用于根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。篡改规则判断子单元4041,用于判断所述解析后的网页代码是否符合预设的篡改规则。本实施例公开的分析网页内容是否被篡改的系统,由于直接判断解析后的网页代码是否符合预设的篡改规则,篡改规则可以灵活设定,当有新的篡改技术时,可以增加相应的篡改规则,因此,本实施例公开的分析网页内容是否被篡改的系统,可以适应新的篡改规则,增加本发明的系统的适用范围。图6为本发明的分析网页内容是否被篡改的系统实施例3的结构图。如图6所示,该系统包括代码抓取单元401,用于所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;网页代码加载单元402,用于加载所述网页代码;
动态网页代码获取子单元4031,用于获取所述动态网页代码;动态网页代码解析子单元4032,用于通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;解析后网页代码生成子单元4033,用于根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。网页代码判断子单元4042,用于判断所述解析后的网页代码是否与预先保存的所述网页的网页代码相匹配。本实施例中的分析网页内容是否被篡改的系统,在判断网页内容是否被篡改时,直接将解析后的网页代码与预先保存的所述网页的网页代码进行匹配,如果匹配成功,则认为没有被篡改,否则认为被篡改。本实施例的分析网页内容是否被篡改的系统,由于判断条件严格,所以判断结果更为准确。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.ー种分析网页内容是否被篡改的方法,其特征在干,所述方法应用于网络系统,所述网络系统中具有网页服务器和网络安全分析服务器,所述网页服务器存储有可供访问的网页代码,所述网络安全分析服务器具有网络爬虫程序,所述网络爬虫程序内嵌有浏览器内核代码,所述方法包括所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;加载所述网页代码;通过所述浏览器内核代码对所述网页代码进行解析,生成解析后的网页代码;根据所述解析后的网页代码,判断所述网页内容是否被篡改。
2.根据权利要求1所述的方法,其特征在干,所述网页代码包括动态网页代码和静态网页代码;所述通过所述浏览器内核代码对所述网页代码进行解析,包括获取所述动态网页代码;通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。
3.根据权利要求1或2所述的方法,其特征在干,所述判断所述网页内容是否被篡改, 包括判断所述解析后的网页代码是否符合预设的篡改规则;如果是,则确定所述网页内容被篡改;否则,确定所述网页内容未被篡改。
4.根据权利要求1或2所述的方法,其特征在干,所述判断所述网页内容是否被篡改, 包括判断所述解析后的网页代码是否与预先保存的所述网页的网页代码相匹配;如果是,则确定所述网页内容未被篡改;否则,确定所述网页内容被篡改。
5.ー种分析网页内容是否被篡改的系统,其特征在干,所述系统应用于网络系统,所述网络系统中具有网页服务器和网络安全分析服务器,所述网页服务器存储有可供访问的网页代码,所述网络安全分析服务器具有网络爬虫程序,所述网络爬虫程序内嵌有浏览器内核代码,所述系统包括代码抓取単元,用于所述网络安全分析服务器通过所述网络爬虫程序抓取所述网页服务器的所述网页代码;网页代码加载単元,用于加载所述网页代码;网页代码解析単元,用于通过所述浏览器内核代码对所述网页代码进行解析,生成解折后的网页代码;篡改内容判断単元,用于根据所述解析后的网页代码,判断所述网页内容是否被篡改。
6.根据权利要求5所述的系统,其特征在干,所述网页代码包括动态网页代码和静态网页代码;所述网页代码解析単元包括动态网页代码获取子単元,用于获取所述动态网页代码;动态网页代码解析子単元,用于通过所述浏览器内核代码解析所述动态网页代码,生成解析后的动态网页代码;解析后网页代码生成子単元,用于根据所述解析后的动态网页代码与所述静态网页代码生成解析后的网页代码。
7.根据权利要求5或6所述的系统,其特征在于,所述篡改内容判断单元包括篡改规则判断子单元,用于判断所述解析后的网页代码是否符合预设的篡改规则。
8.根据权利要求5或6所述的系统,其特征在于,所述篡改内容判断单元包括网页代码判断子单元,用于判断所述解析后的网页代码是否与预先保存的所述网页的网页代码相匹配。
全文摘要
本发明公开一种分析网页内容是否被篡改的方法及系统。方法应用于网络系统,网络系统中具有网页服务器和网络安全分析服务器,网页服务器存储有可供访问的网页代码,网络安全分析服务器具有网络爬虫程序,网络爬虫程序内嵌有浏览器内核代码,所述方法包括网络安全分析服务器通过网络爬虫程序抓取网页服务器的网页代码;加载网页代码;通过浏览器内核代码对网页代码进行解析,生成解析后的网页代码;根据解析后的网页代码,判断网页内容是否被篡改。采用本发明的方法或系统,可以对采用动态网页代码开发的网页内容进行完全的加载和分析,能够检测出采用AJAX,Javascript,flash等技术对网页内容进行的篡改。
文档编号H04L29/06GK102571791SQ201110460628
公开日2012年7月11日 申请日期2011年12月31日 优先权日2011年12月31日
发明者李纪峰, 赵武 申请人:奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1