一种检测页面篡改的方法与流程

文档序号:16671357发布日期:2019-01-18 23:36阅读:242来源:国知局

本发明涉及信息的正确性验证,尤其涉及一种检测页面是否被篡改的方法。



背景技术:

目前,经常有网页页面被篡改。在多篇中国专利文献cn201210424973、cn201110120998中公开了检测网页被篡改的方法。但是上述方法中均涉及复杂模型的构建、训练,检测方法过于复杂。

因此,特别需要一种能够快速检测网页页面是否被篡改的方法。



技术实现要素:

为解决上述技术问题,本发明涉及一种检测页面篡改的方法,包括:步骤s100,在第二时间获取所述页面;步骤s200,根据所述页面,获得第二页面指纹;步骤s300,根据所述第二页面指纹与第一页面指纹,判断所述页面是否被篡改;其中,所述第一页面指纹为根据第一时间获取的所述页面获得;所述第二时间在第一时间之后。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,将对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本发明,在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。

本发明提供了一种检测网页(尤其是web)页面是否被篡改的方法。本发明中,网页页面包括能够在pc或移动终端上通过浏览器或其他类型的应用程序或app显示的页面;网页页面的内容可以包括文本、表格、图像、音频、视频等任一及其组合能够使用二进制数据表示的格式;网页的所涉及的主题可以包括新闻类、体育类、音乐类、影视类、技术类、广告类等任一及其组合;网页页面可以为html页面、xml页面、wml页面等多种类型。换言之,前述枚举的网页页面的打开方式、内容、主题和类型等均会落入本发明的保护范围。

本发明的第一个实施例中,首先,在第一时间获取网页页面,然后根据所述页面获得第一页面指纹。本发明中,页面指纹为对网页页面进行处理而获得的能够唯一标识网页页面的数据,即相同的页面指纹必然对应着相同的网页页面,不同的页面指纹必然对应不同的网页页面。本领域中,任何能够实现页面指纹的前述功能的处理方法均可以适用于本发明,例如现有技术中的不可逆加密方法均可适用于本发明,即采用不可逆加密方法对网页页面进行处理从而获得页面指纹。具体的,该第一页面指纹是指在对网页页面进行不可逆加密后获得的第一编码数据。优选的,对网页页面进行不可逆加密后获得的第一编码数据,包括对网页页面进行md5加密运算后获得的第一md5编码数据(例如32位编码数据,本领域技术人员知晓,也可以采用其他位数的md5编码数据)。md5编码数据是根据网页页面运算得到的具有唯一性的编码数据,且通过该md5编码数据无法还原出原网页页面。

之后,在与第一时间间隔一段时间后的第二时间,再次获取网页页面,然后根据所述页面获得第二页面指纹。第二页面指纹的含义、具体实现方式、以及获取过程等与第一页面指纹相同,不再赘述。

然后,根据获得的所述第二页面指纹与所述第一页面指纹,判断所述网页页面是否被篡改。本发明的一个实施例中,即将第一页面指纹(例如第一md5编码数据)和第二页面指纹(例如第二md5编码数据)进行比较。若比较结果相同,则判断出所述网页页面没有被篡改。若比较结果不同,则判断出所述网页页面被篡改了。

通过本发明的上述实施例,获得了快速检测网页页面是否被篡改的有益技术效果。该检测方法不需要构建复杂的模型,且获得的检测结果快速。

前述实施例中,虽然能够快速获得检索结果,但是在处理网页页面时也存在一些技术问题。网页页面上呈现的内容包括两种情况,一种是内容(例如文字内容)直接体现在网页中,另一种是内容的链接地址体现在网页源码中。

对于第一种情况,如果网页页面的部分内容被善意的微调,例如两段无关联的文字内容的显示顺序的对调。此时,虽然网页页面的文字内容没有发生变化,但是生成的网页指纹的确发生了改变,从而导致不必要的误判。

对于第二种情况,如果链接地址不发生变化,但是链接地址指向的内容发生了变化。此时,网页页面呈现的内容将发生变化,但是生成的网页指纹仍然不会变化,从而导致误判。

为克服上述问题,本发明进一步提供了以下优选的实施例。

优选的本发明的一个实施例中,首先,在第一时间获取网页页面,所述页面包括多个()组指示在页面上显示内容(例如文本内容)的内容标签。例如,新浪网的网页页面中包括以下两条内容,每条内容中的“<b><b>”构成了一组内容标签,第一组内容标签指示在页面上显示文本“体育”,第二组指示显示“娱乐”。

“<ahref="http://sports.sina.com.cn/"target="_blank"><b>体育<b></a>;

<ahref="http://ent.sina.com.cn/"target="_blank"><b>娱乐</b></a>。”

根据本发明,在第一时间获取网页页面的内容标签(前述例子中的“<b><b>”),根据该内容标签解析获得页面中的一个或多个显示内容。例如,该解析出的显示内容是页面中的文本内容(前述例子中的“体育”和“娱乐”)。之后,对所述解析出的一个或多个显示内容进行排序,形成排序后的显示内容。本领域技术人员应该知晓在现有技术中存在排序的多种方式,例如,对显示内容按字母、拼音、笔画进行排序等。然后,对所述排序后的显示内容进行不可逆加密,形成第一内容编码数据。根据本发明的一个优选实施例,对所述排序后的显示内容进行不可逆加密后获得的第一编码数据,是指对所述排序后的显示内容进行md5加密运算后获得第一md5编码数据(例如32位编码数据,本领域技术人员知晓,也可以采用其他位数的md5编码数据)。

之后,采用与上述在第一时间获取显示内容的相同方式,在与第一时间间隔一段时间后的第二时间,再次获取网页页面中的一个或多个显示内容。同样的,采用相同的排序方法,对再次获得的所述一个或多个显示内容进行排序,形成排序后的显示内容。然后,对所述排序后的显示内容进行不可逆加密,形成第二内容编码数据。对所述排序后的显示内容进行不可逆加密后获得的第二编码数据,是指对所述排序后的显示内容进行md5加密运算后获得第二md5编码数据(例如32位编码数据,本领域技术人员知晓,也可以采用其他位数的md5编码数据)。

然后,根据获得的所述第一md5编码数据与所述第二md5编码数据,判断所述网页页面是否被篡改。即将第一md5编码数据和第二md5编码数据进行比较。若比较结果相同,则判断出所述网页页面中的显示内容没有被篡改。若比较结果不同,则判断出所述网页页面中的显示内容被篡改了,进而判断出网页页面被篡改。

上述优选的本发明的一个实施例有效克服了第一种情况的技术问题,并且取得了以下有益技术效果:在网页页面中的显示内容未发生变化,只是显示的前后顺序进行调整的情况下,进行页面检测时依然能判断出显示内容没有被篡改。显然,这种检测判断方法进一步提高了页面检测的准确性。

本领域技术人员理解,该实施例可以直接使用,作为判断网页内容是否被篡改的方法。进一步的,该实施例可以和第一个实施例结合使用,即当第一个实施例中,若第一、二页面指纹比较结果不同,那么执行该优选实施例中的判断,如果第一、二内容编码数据相同,则判断出所述网页页面没有被篡改了,否则即第一、二内容编码数据不同,才判断网页页面被篡改。通过结合两个实施例,能够进一步提升检测网页篡改的准确度。

优选的本发明的另一个实施例中,首先,在第一时间获取网页页面,所述页面包括多个(组)指示在网页上显示链接(例如url地址)的链接标签。例如,百度网的网页页面中包括以下内容<img…src="//www.baidu.com/img/bd_logo1.png"…>,其中的“img”中的“src”构成了一个链接标签,指示在页面上显示www.baidu.com/img/bd_logo1.png地址处的图片。

根据本发明,在第一时间获取网页页面的m1(m1大于或等于1)个链接标签,根据该链接标签解析获得页面中的m1个链接地址。之后,根据该m1个链接地址分别获得m1个链接内容。根据本发明,所述链接内容包括图像、音频、视频、多媒体、flash,css、js等本领域技术人员所知晓的多种形式的链接内容之任一或其组合。然后,对所述m1个链接内容分别进行不可逆加密,并对m1个加密结果进行排序,形成第一链接编码数据,即第一链接编码数据包括了m1个排序好的链接编码数据,本领域技术人员应该知晓在现有技术中存在排序的多种方式。根据本发明的一个优选实施例,对所述m1个链接内容分别进行不可逆加密并排序后获得的第一编码数据,是指对所述m1个链接内容分别进行md5加密运算并排序后获得第一md5编码数据(例如32位编码数据,本领域技术人员知晓,也可以采用其他位数的md5编码数据)。举例来说,获取到网页页面中的某个链接标签为<img…src="//www.baidu.com/img/bd_logo1.png"…>,根据该链接标签解析获得其中的链接地址//www.baidu.com/img/bd_logo1.png,之后根据该链接地址获得相应的图片bd_logo1.png,对该图片进行md5加密即可得到一个唯一的md5编码数据。

之后,采用与上述在第一时间获取链接地址的相同方式,在与第一时间间隔一段时间后的第二时间,再次获取网页页面中的m2个链接地址,m2大于或等于1。如果m2=m1,那么执行后续处理步骤;否则说明网页页面上的链接数量发生了变化,即可以判断所述页面被篡改。在m2=m1时,根据该m2个链接地址分别获得m2个链接内容。然后,对所述m2个链接内容分别进行不可逆加密,并对m2个加密结果进行排序,形成第二编码数据,即第二链接编码数据包括了m2个(也可以说m1个)排序好的链接编码数据,本领域技术人员应该知晓在现有技术中存在排序的多种方式。根据本发明的一个优选实施例,对所述m2个链接内容分别进行不可逆加密并排序后获得的第二编码数据,是指对所述m2个链接内容分别进行md5加密运算并排序后获得第二md5编码数据(例如32位编码数据,本领域技术人员知晓,也可以采用其他位数的md5编码数据)。

然后,根据获得的所述第一md5编码数据与所述第二md5编码数据,判断所述网页页面是否被篡改。即将第一md5编码数据和第二md5编码数据进行比较。若比较结果相同,即m1或m2个链接编码数据均相同,则判断出所述网页页面中的显示内容没有被篡改。若比较结果不同,即m1或m2个链接编码数据中有一个不相同,则判断出所述网页页面中的显示内容被篡改了。

上述优选的本发明的另一个实施例有效克服了第一种情况的技术问题,并且取得了以下有益技术效果:在网页页面中的链接内容未发生变化,只是链接的地址进行调整的情况下,进行页面检测时依然能判断出链接内容没有被篡改;在网页页面的链接地址没有发生变化,但是链接内容变化时,也能够检测出网页被篡改。显然,这种检测判断方法进一步提高了页面检测的准确性。

本领域技术人员理解,该实施例可以直接使用,作为判断网页链接到的内容是否被篡改的方法。进一步的,该实施例可以和第一个实施例结合使用,即当第一个实施例中,若第一、二页面指纹比较结果不同,那么执行该优选实施例中的判断,如果第一、二链接编码数据相同,则判断出所述网页页面没有被篡改了,否则才判断网页页面被篡改。通过结合两个实施例,能够进一步提升检测网页篡改的准确度。

上述优选的本发明的一个实施例有效克服了第一种情况的技术问题,并且取得了以下有益技术效果:在网页页面中的显示内容未发生变化,只是显示的前后顺序进行调整的情况下,进行页面检测时依然能判断出显示内容没有被篡改。显然,这种检测判断方法进一步提高了页面检测的准确性。

此外,根据公开的本发明的说明书,本发明的其他实现对于本领域的技术人员是明显的。实施方式和/或实施方式的各个方面可以单独或者以任何组合用于本发明的系统和方法中。说明书和其中的示例应该是仅仅看作示例性,本发明的实际范围和精神由所附权利要求书表示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1