一种识别被篡改网页的方法及装置的制作方法

文档序号:6444578阅读:448来源:国知局
专利名称:一种识别被篡改网页的方法及装置的制作方法
技术领域
本发明涉及计算机技术领域,特别是涉及一种识别被篡改网页的方法及装置。
背景技术
在电子商务、电子政务日益普及的今天,网站已成为企事业单位、政府机关的形象窗口,也是对外发布信息、开展业务、提供服务的重要手段。如果网站页面被篡改,不仅将影响正常业务的开展,而且会对企业形象、政府信誉带来无法估量的负面影响。更有甚者,某些不法分子还利用篡改网页这种手段进行欺诈犯罪活动。如果是对政府网站的网页篡改, 尤其是含有政治攻击色彩的篡改,会对政府形象造成严重损害;另外一些别有用心的人可能会利用人民对政府网站的信任对网页进行语义篡改,散布谣言,引起民众不必要的恐慌和猜疑,从而给国家和人民造成了巨大的损失。比如,某政府网站上的卫生防疫公告“该地区发现肠道流感病毒”被篡改为“该地区发现禽流感病毒”,消息在网络媒体上纷纷转载,结果势必引起民众不必要的恐慌和巨大的经济损失。再比如,某电子商务网站上的某商品价格从1000元被篡改为10元,导致大量订单像雪片一样飞来,该网站面临的将是现实利润与商业信誉无法兼顾保全的困窘。随着互联网的迅速发展,网站被入侵、网页被篡改的事件频繁发生,各种各样的黑客技术被滥用于互联网,每年都给个人和社会组织造成无法估量的损失。因此,迫切需要本领域技术人员解决的技术问题就在于,如何提供一种有效的鉴别网页是否已经被篡改的方法,为用户和其他的计算机服务提供一种有效的判断网页是否被篡改的手段。

发明内容
本发明提供了一种识别被篡改网页的方法及装置,能够有效识别被篡改网页,为用户和其他的计算机服务提供一种有效的判断网页是否被篡改的手段。本发明提供了如下方案一种识别被篡改网页的方法,包括通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容;通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容;比较所述第一页面内容与第二页面内容,得到一比较结果;根据所述比较结果识别所述目标网页是否为被篡改网页。其中,所述通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,包括通过模拟由搜索引擎给出的搜索结果中的链接进行跳转的方式,发起访问所述目标网页的请求。
其中,所述比较所述第一页面内容与第二页面内容,得到一比较结果,包括比较所述第一页面内容与第二页面内容的关键元素,得到一比较结果。其中,所述比较第一页面内容与第二页面内容,得到一比较结果,包括比较第一页面内容与第二页面内容,得到第一页面内容与第二页面内容的相似度;所述根据所述比较结果识别所述目标网页是为被篡改网页,包括根据所述第一页面内容与第二页面内容的相似度是否达到预置阈值,识别所述目标网页是否为被篡改网页。一种识别被篡改网页的装置,包括第一页面内容获取单元,用于通过模拟在浏览器地址栏中输入统一资源定位符 URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容;第二页面内容获取单元,用于通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容;比较单元,用于比较所述第一页面内容与第二页面内容,得到一比较结果;识别单元,用于根据所述比较结果识别所述目标网页是否为被篡改网页。其中,所述第二页面内容获取单元包括搜索引擎跳转子单元,用于通过模拟由搜索引擎给出的搜索结果中的链接进行跳转的方式,发起访问所述目标网页的请求。其中,所述比较单元包括关键元素比较子单元,用于比较所述第一页面内容与第二页面内容的关键元素, 得到一比较结果。其中,所述比较单元具体用于比较第一页面内容与第二页面内容,得到第一页面内容与第二页面内容的相似度;所述判断单元具体用于根据所述第一页面内容与第二页面内容的相似度是否达到预置阈值,识别所述目标网页是否为被篡改网页。根据本发明提供的具体实施例,本发明公开了以下技术效果通过本发明,可以通过模拟在浏览器地址栏中输入统一资源定位符URL的方式, 发起访问目标网页的请求,以及由链接进行跳转的方式,发起访问目标网页的请求,并比较得到的页面内容,从而发现由两种方式访问目标网页得到的页面内容的区别,并揭示网页被篡改的行为,能够有效的识别目标网页是否为被篡改网页。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的方法的流程图2是本发明实施例提供的装置的示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。首先需要说明的是,互联网用户访问一个网页的时候,无论是通过在浏览器的地址栏中直接输入统一资源定位符URL的方式,还是由链接进行跳转的方式,实际上都是使用本地计算机的浏览器,通过互联网向服务器发送了一个HTTP(超文本传输协议, HyperText Transfer Protocol)请求,这个HTTP请求通常包含了一个或数个,必要或非必要的请求头,或者称为头域,请求头中包含了向服务器请求的请求类型信息。如请求头Accept-Charset,它表示了本地计算机的浏览器可接受的字符集信息; 又比如请求头her-Agent,它包含了客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等,以便服务器通过判断请求头^er-Agent 的具体内容,在响应用户请求的时候根据不同的用户所使用的计算机软硬件环境,生成和发送不同的页面;又比如请求头Referer,它包含了一个统一资源定位符URL,它向服务器表明了本次请求是通过其中包含的URL跳转而来,即用户从该URL代表的页面出发,访问当前请求的页面,在当今网站商业合作密切和搜索引擎使用频繁的环境下,请求头Referer 在大部分页面跳转的请求中被使用,起到了方便服务器对访问数据进行统计等作用。另外需要说明的是,在搜索引擎大行其道的今天,搜索引擎已成为互联网冲浪必不可少的工具,它为人们提供各个领域的信息,为人们的生活提供着便利。而搜索引擎之所以能够提供各种各样的信息,作为搜索引擎的基础组成部分之一的网络爬虫发挥了重要作用。网络爬虫是一种日夜工作,能够按照一定规则自动下载、分析和提取万维网上的网页信息的程序或者脚本,它访问互联网上的Web服务器的提供的页面,为搜索引擎提供了信息来源。而在网络爬虫访问Web服务器的过程中,网络爬虫发出的访问请求的HTTP头通常包含了搜索引擎所特有的信息内容。比如请求头^er-Agent中则包含了每个搜索引擎特有的网络爬虫程序名称,比如谷歌搜索引擎的网络爬虫程序“Googlebot”。在网络的安全方面,黑客与安全服务提供商、计算机用户之间的博弈从未停止过, 黑客在实施黑客行为时,通常会采取一定的策略,对自己的不法行为进行伪装和掩饰,以达到不被揭露的目的。对于网页篡改而言,其中一种黑客技术的特点,可以通过用户浏览网页的过程中经常遇到的以下情况反映出来用户在浏览器的地址栏中直接输入目标网址进行浏览时,打开的是正常的并没有被篡改的网页,而通过搜索引擎的搜索结果或者由其他网页的链接进行跳转进入该网页时,打开的网页却是经过篡改的网页,所呈现出内容与原网页有着相当大的差距,甚至面目全非,完全不是原网页所要展现的信息。在实际应用中的现实情况是,普通互联网用户在需要打开一个新的网页的时候, 大部分情况下,并不是通过在地址栏中直接输入网页的实际网址进行访问,因为大多数网页完整的网址很长,不便于记忆,敲击完整的网址又浪费用户时间,所以,用户想要到达某个网页时,经常采用通过搜索引擎的搜索结果,或者其它网页的链接进行跳转;另外,互联网用户在进行网上冲浪时,很多打开网页的行为并没有明确的目的性,即当用户在当前浏览的网页中发现感兴趣的内容时,通常会通过当前网页的链接跳转到感兴趣的网页。而对于真正关心特定页面内容的人,比如网站的所有者、管理者,当需要进入某个特定页面时,由于熟知特定网页的网址,大多数情况并不会经由搜索引擎搜索结果,或者其他页面的链接跳转到特定网页的方式进行浏览,而是直接在在浏览器的地址栏中直接输入目标网址进行浏览,此时,呈现出来的是没有被篡改的正常的网页,而对于被篡改的内容, 这类特殊的浏览者却很难发现。由此可见,当需要访问一个网页时,普通用户使用的方式大多数属于通过链接进行跳转,而对于网站的所有者、管理者等特殊人群,由于通常不存在使用链接跳转的需要, 常常使用直接在浏览器地址栏中直接输入网页的实际网址的方式进行访问,导致了这类用户人群大部分情况下并不能够发现网页被篡改的内容部分,而正是这些浏览网页的行为特点,给了实施网页篡改行为的黑客以可乘之机,使得实施具有上述特点的网页篡改行为的黑客,对自己篡改网页的行为进行了有效的掩饰。本发明人在实现本发明的过程中发现,之所以会发生在浏览器的地址栏中直接输入目标网址进行网页浏览,与通过搜索引擎的搜索结果或者由其他网页的链接进行跳转进行同一网页的浏览,所呈现出来的内容会有相当大的差距,从技术实现角度而言,是由于在用户访问网页的过程中,实施网页篡改行为的黑客,对用户使用浏览器浏览网页时所发出的HTTP请求实施了劫持,并分析HTTP请求的特征,而后根据不同的分析结果采取不同的手段,以至于用户得到了不同的网页内容。下面对此进行详细地介绍。当用户发起对一个网页的访问请求时,实际上是由浏览器向Web服务器发送了一个HTTP请求,实施网页篡改行为的黑客会劫持到并分析这个请求,并根据HTTP请求的特征进行不同的处理如果发出的浏览请求中,所请求的目标网址来自于用户在浏览器的地址栏中的直接输入,则对这个HTTP请求予以放行,由HTTP请求的目标Web服务器返回正常的网页内容,由此,呈现在用户浏览器上的内容是没有内容篡改的正常网页内容;而对于用户浏览器发出的通过搜索引擎的搜索结果或者由其他网页的链接进行跳转来浏览网页的 HTTP请求,则直接返回给用户一个被篡改的网页。具体的,实施网页篡改行为的黑客对劫持到的向目标Web服务器发送的HTTP请求的进行分析,实际上,实施网页篡改行为的黑客分析的是向目标Web服务器发送的HTTP请求的HTTP头所包含的信息。例如分析Referer请求头,就可以得到Referer请求头所包含的URL,即分析得到用户从哪个URL代表的页面出发访问当前请求的页面,这样实施网页篡改行为的黑客就可以判断出当前HTTP请求是否为通过特定页面的链接跳转而发出的HTTP 请求;又如,分析^er-Agent请求头,得到当前HTTP请求的发出者所使用的软件信息,这样实施网页篡改行为的黑客就可以判断当前HTTP请求的发出者所使用的是什么样的软件, 比如是用户使用的浏览器,或者搜索引擎使用的爬虫程序等。实施网页篡改行为的黑客通过对劫持到的向目标Web服务器发送的HTTP请求的进行分析,根据分析结果,确定是放行该HTTP请求,由该HTTP请求的目标Web服务器返回正常网页,还是返回篡改过的网页。这样就导致了通过不同方式打开同一网页的内容的不同,甚至,由某些搜索引擎的爬虫程序得到的搜索结果中也包含了错误的信息,即搜索引擎的搜索结果中。
基于以上分析,本发明实施例提供了一种识别被篡改网页的方法,参见图1,该方法包含以下步骤SlOl 通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容;在本发明实施例中,首先通过构造一个HTTP请求,模拟以在浏览器地址栏中输入 URL的方式,发起访问目标网页的请求。这个构造的HTTP请求,具备以在浏览器地址栏中输入URL的方式,发起访问目标网页的HTTP访问请求的特征。以在浏览器地址栏中输入 URL的方式,发起的访问目标网页的HTTP访问请求,其请求头中,Referer请求头通常不被包含,即在此类HTTP请求中,没有Referer请求头;另外,构造的HTTP请求的请求头中,包含了 ^er-Agent请求头,在her-Agent请求头中,构造了用户浏览器信息,例如User-Agent =Mozil la/5. 0 (compatible ; MS IE 9. 0 ;Windows NT 6. 1 ; Trident/5. 0)在这个her-Agent请求头的示例中,给出了用户浏览器类型、版本,用户操作系统版本等信息,这个^er-Agent请求头可被识别为以在浏览器地址栏中输入URL的方式, 发起访问目标网页的HTTP访问请求的HTTP请求头。通过构造一个包含以上特征的HTTP请求,模拟一个以在浏览器地址栏中输入URL 的方式,发起访问目标网页的HTTP请求,并向目标Web服务器发送这个构造的HTTP请求, 将得到的页面内容确定为第一页面内容。由于这个构造的HTTP请求具备以在浏览器地址栏中输入URL的方式,发起访问目标网页的HTTP访问请求的特征,那么如果实施网页篡改行为的黑客劫持并分析这个构造的HTTP请求,根据黑客的行为特征,会把这个HTTP访问请求识别为以在浏览器地址栏中输入URL的方式,发起访问目标网页的HTTP请求,并予以放行,然后由Web服务器返回一个正常的网页内容。因此在本发明实施例中,得到的第一页面内容为正常的页面内容。S102:通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容;除了获取第一页面内容之外,还需要通过构造一个HTTP请求,模拟由链接进行跳转的方式,发起访问目标网页的请求。这个构造的HTTP请求,具备由链接进行跳转的方式, 发起访问目标网页的HTTP请求的特征。由链接进行跳转的方式,发起访问所述目标网页的 HTTP请求,其HTTP请求中,包含了 Referer请求头,这个Referer请求头中包含了一个URL 信息,说明了本次HTTP请求是通过Referer请求头中包含的URL跳转而来的,即本次HTTP 请求是通过该Referer请求头中包含的URL出发,访问当前页面的HTTP请求。这个Referer 请求头可被识别为由链接进行跳转的方式,发起访问目标网页的HTTP请求的请求头。通过构造一个包含以上Referer请求头特征的HTTP请求,模拟一个由链接进行跳转的方式,发起访问目标网页的请求HTTP请求,并向目标Web服务器发送这个构造的HTTP 请求,将得到的页面内容确定为第二页面内容由于这个构造的HTTP请求具备由链接进行跳转的方式,发起访问目标网页的 HTTP请求的特征,那么如果实施网页篡改行为的黑客劫持并分析这个构造的HTTP请求,根据黑客的行为特征,会把这个HTTP访问请求识别为由链接进行跳转的方式,发起访问目标网页的HTTP请求,然后返回被篡改的网页内容。因此在本发明实施例中,如果目标网页已经被篡改,通过构造的HTTP请求得到的第二页面内容为被篡改的页面内容。S103 比较所述第一页面内容与第二页面内容,得到一比较结果;具体实现时,比较第一页面内容与第二页面内容得到比较结果,可以有多种具体的实现方式。例如,其中一种实现方式可以是比较第一页面全部内容与第二页面全部内容, 得到一相对精确的比较结果。具体实现时,可以分别根据第一页面和第二页面的HTML代码,生成第一页面和第二页面的DOM Tree,根据两个DOM tree各个对应节点上的元素是否相同,来进行比较。但在实际应用中,由于比较第一页面全部内容与第二页面全部内容的系统开销会比较大,因此除了比较第一页面全部内容与第二页面全部内容的策略之外,也可以使用采取如下策略的另一种实现方式分别根据第一页面和第二页面的HTML代码,生成第一页面和第二页面的DOM Tree,选取两个DOM tree部分对应的节点上的元素,来进行比较。具体在选取时,可以根据需要随机进行选取,或者根据一定的策略指定等等。另外,还可以采用以下方式进行比较比较第一页面内容的关键元素与第二页面内容中对应的关键元素,得到一比较结果。其中,确定页面的关键元素时,可以根据实际需要的不同来确定待比较的关键元素。其中一种确定待比较关键元素的策略可以是,首先将页面所包含的图片、flash、影音等文件,页面里的关键字,关键词,页面标题等内容作为页面关键元素的集合,然后将这个页面关键元素集合的子集,作为比较第一页面内容的关键元素与第二页面内容的待比较关键元素的比较对象。其中,当以页面所包含的图片、flash、 影音等文件作为待比较的关键元素时,可以根据文件的名称、大小、校验值等指标进行比较,其中文件的名称可以直接由页面的HTML代码中获得,文件的大小、校验值,可以通过计算获得。具体在比较第一页面内容的关键元素与第二页面内容中对应的关键元素的过程中,可以在确定需要比较的关键元素子集后,首先根据HTML代码中元素的属性,在第一页面找到待比较关键元素,然后在第二页面中查找是否具有对应的关键元素,比较这些关键元素是否相同。关于比较结果可以有多种表达方式,例如可以将比较结果划分为完全相同和不完全相同,也可以将第一页面内容与第二页面内容的比较结果量化为两者之间的相似度。S104 根据所述比较结果识别所述目标网页是否为被篡改网页。具体实现时,根据比较结果识别目标页面是否为被篡改网页,可以有多种具体实现方式,其中一种是,根据比较结果为完全相同或不完全相同,将目标网页识别为正常网页或被篡改网页。另外,也可以根据比较结果为第一页面内容与第二页面内容的相似度的具体值, 来识别目标网页是否为被篡改网页。这种方式在实际应用中具有如下现实意义在实际应用中,许多网页为了提高搜索引擎的访问频率和搜索排名,以提高知名度等考虑,需要搜索引擎的爬虫程序总是以很高的频率来抓取自己的网页。但是,如果一个网页中存在的都是静态不变的内容,那么爬虫程序来抓取这个网页的频率可能会降低,进而就会导致该网页通过搜索引擎跳转的概率降低,以至于无法通过搜索引擎提高网页的点击率。因此,网页制作者会特意在网页内设置了一部分动态变化的内容,当然这部分动态变化的内容可能只是网页全部内容中的一小部分,其余的大部分体现主题的内容是不变的(因为其目的仅仅是提高被搜索引擎的爬虫程序抓取的频率)。但是,这仍然会导致如下实际情况以本发明实施例的方法获得第一页面内容与第二页面内容有很高的相似度,虽然相似度达不到百分之百,但却不能被定义为被篡改网页。此时如果直接使用“根据比较结果为完全相同或不完全相同,将目标网页识别为正常网页或被篡改网页”的方式进行识别,则可能会将一些正常的网页错误的识别为被篡改的网页。因此,为了降低误判的可能性,采取了“根据比较结果为第一页面内容与第二页面内容的相似度的具体值,来识别目标网页是否为被篡改网页”的策略。之所以这样做是因为如果一个网页中存在制作者特意设置的动态变化的内容,这些内容通常只是页面内容中的一小部分,但如果是一个网页被黑客篡改过,那么通常会将网页中的大部分内容都篡改了。因此,通过本发明实施例的方式抓取到两个页面内容之后,如果发现两者之间虽然不完全相同,但相似度比较大,则可以将其作为正常的网页处理,而如果相似度很低,则可以作为被篡改网页看待。具体实现时,可以预先设置一阈值,将比较第一页面内容与第二页面内容的得到的相似度,与该预设的阈值比较,如果第一页面内容与第二页面内容的得到的相似度小于预设阈值,则将目标页面识别为被篡改页面,反之,则将目标页面识别为正常页面。预设阈值可以根据实际的需要进行设置,或者,还可以采取动态设置的方法,经过反复的实践和校准,将动态阈值选择为一个合理的值,以在有些网页进行的是正常更新,而不是被实施网页篡改行为的黑客所篡改的情况下,避免产生误判的风险。与本发明实施例提供的识别被篡改网页的方法相对应,本发明实施例还提供了一种识别被篡改网页的装置,参见图2,该装置包括第一页面内容获取单元201,用于通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容;第二页面内容获取单元202,用于通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容;比较单元203,用于比较所述第一页面内容与第二页面内容,得到一比较结果;识别单元204,用于根据所述比较结果识别所述目标网页是否为被篡改网页。其中,第二页面内容获取单元202可以包括搜索引擎跳转子单元,用于通过模拟由搜索引擎给出的搜索结果中的链接进行跳转的方式,发起访问所述目标网页的请求。其中,比较单元203可以包括关键元素比较子单元,用于比较所述第一页面内容与第二页面内容的关键元素, 得到一比较结果。具体实现时,比较单元203具体用于比较第一页面内容与第二页面内容,得到第一页面内容与第二页面内容的相似度;相应的,判断单元204具体用于根据所述第一页面内容与第二页面内容的相似度是否达到预置阈值,识别所述目标网页是否为被篡改网页。通过本发明,可以通过模拟在浏览器地址栏中输入统一资源定位符URL的方式, 发起访问目标网页的请求,以及由链接进行跳转的方式,发起访问目标网页的请求,并比较得到的页面内容,从而发现由两种方式访问目标网页得到的页面内容的区别,并揭示网页被篡改的行为,能够有效的识别目标网页是否为被篡改网页。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上对本发明所提供的一种识别被篡改网页的方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种识别被篡改网页的方法,其特征在于,包括通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容;通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容;比较所述第一页面内容与第二页面内容,得到一比较结果; 根据所述比较结果识别所述目标网页是否为被篡改网页。
2.根据权利要求1所述的方法,其特征在于,所述通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,包括通过模拟由搜索引擎给出的搜索结果中的链接进行跳转的方式,发起访问所述目标网页的请求。
3.根据权利要求1所述的方法,其特征在于,所述比较所述第一页面内容与第二页面内容,得到一比较结果,包括比较所述第一页面内容与第二页面内容的关键元素,得到一比较结果。
4.根据权利要求1所述的方法,其特征在于,所述比较第一页面内容与第二页面内容, 得到一比较结果,包括 比较第一页面内容与第二页面内容,得到第一页面内容与第二页面内容的相似度; 所述根据所述比较结果识别所述目标网页是为被篡改网页,包括 根据所述第一页面内容与第二页面内容的相似度是否达到预置阈值,识别所述目标网页是否为被篡改网页。
5.一种识别被篡改网页的装置,其特征在于,包括第一页面内容获取单元,用于通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容;第二页面内容获取单元,用于通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容;比较单元,用于比较所述第一页面内容与第二页面内容,得到一比较结果; 识别单元,用于根据所述比较结果识别所述目标网页是否为被篡改网页。
6.根据权利要求5所述的装置,其特征在于,所述第二页面内容获取单元包括搜索引擎跳转子单元,用于通过模拟由搜索引擎给出的搜索结果中的链接进行跳转的方式,发起访问所述目标网页的请求。
7.根据权利要求5所述的装置,其特征在于,所述比较单元包括关键元素比较子单元,用于比较所述第一页面内容与第二页面内容的关键元素,得到一比较结果。
8.根据权利要求5所述的装置,其特征在于,所述比较单元具体用于比较第一页面内容与第二页面内容,得到第一页面内容与第二页面内容的相似度; 所述判断单元具体用于根据所述第一页面内容与第二页面内容的相似度是否达到预置阈值,识别所述目标网页是否为被篡改网页。
全文摘要
本发明公开了一种识别被篡改网页的方法及装置,其中,所述方法包括通过模拟在浏览器地址栏中输入统一资源定位符URL的方式,发起访问目标网页的请求,并将得到的页面内容确定为第一页面内容;通过模拟由链接进行跳转的方式,发起访问所述目标网页的请求,并将得到的页面内容确定为第二页面内容;比较所述第一页面内容与第二页面内容,得到一比较结果;根据所述比较结果识别所述目标网页是否为被篡改网页。通过本发明,能够有效识别目标网页是否为被篡改网页,为用户和计算机服务提供一种有效的判断目标网页是否被篡改的手段。
文档编号G06F17/30GK102436564SQ20111045617
公开日2012年5月2日 申请日期2011年12月30日 优先权日2011年12月30日
发明者李纪峰, 闫培健 申请人:奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1