网页篡改检测方法、装置、设备及计算机可读存储介质与流程

文档序号：15492947发布日期：2018-09-21 21:00阅读：155来源：国知局

本发明涉及网页篡改检测技术领域，更具体地说，涉及一种网页篡改检测方法、装置、设备及计算机可读存储介质。

背景技术：

目前，在网站的某些页面上会存在一些敏感内容，例如联系电话/支付地址等。这些敏感信息是公开的，很容易受到其他人的恶意篡改，进而会对网站主造成巨大的伤害。例如：2017/07/21coindash平台ico融资700万美元被洗劫，原因是网站内的支付地址被改为黑客的地址。可以看出，敏感信息被篡改会造成很严重的问题。

因此，如何及时发现被篡改的敏感内容，避免由于敏感内容被篡改带来的损失，是本领域技术人员需要解决的问题。

技术实现要素：

本发明的目的在于提供一种网页篡改检测方法、装置、设备及计算机可读存储介质，以实现及时发现被篡改的敏感内容，避免由于敏感内容被篡改带来的损失。

为实现上述目的，本发明实施例提供了如下技术方案：

一种网页篡改检测方法，包括：

获取被保护网页的页面截图；

从页面截图中获取包含敏感信息的敏感内容截图；

判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致；

若否，则判定所述被保护页面被篡改。

其中，所述从页面截图中获取包含敏感信息的敏感内容截图，包括：

对所述页面截图进行切分，生成包括所有连通子图的集合；

去除所述集合中的背景子图，保留前景子图；

将切割位置相邻且风格相近的前景子图合并，生成待识别的局部截图；

按照预定识别算法识别所述待识别的局部截图，确定包含敏感信息的敏感内容截图。

其中，所述按照预定识别算法识别所述待识别的局部截图，确定包含敏感信息的敏感内容截图包括：

利用ocr文本识别技术将所述待识别的局部截图转换为文字信息，并利用文本分类算法判断文字信息中是否包含敏感内容；

若包含敏感内容，则将所述敏感内容所在的待识别的局部截图作为敏感内容截图。

其中，所述判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致，若否，则判定所述被保护页面被篡改，包括：

判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图；

若不存在，则判定所述被保护页面被篡改；

若存在，则判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致；

若不一致，则判定所述被保护页面被篡改。

其中，判定所述被保护页面被篡改之后，还包括：

按照预存的提醒方式，向管理员发送篡改提示信息。

一种网页篡改检测装置，包括：

页面截图获取模块，用于获取被保护网页的页面截图；

敏感内容截图获取模块，用于从页面截图中获取包含敏感信息的敏感内容截图；

判断模块，用于判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致；若否，则判定所述被保护页面被篡改。

其中，所述敏感内容截图获取模块包括：

切分单元，用于对所述页面截图进行切分，生成包括所有连通子图的集合；

筛选单元，用于去除所述集合中的背景子图，保留前景子图；

合并单元，用于将切割位置相邻且风格相近的前景子图合并，生成待识别的局部截图；

识别单元，用于按照预定识别算法识别所述待识别的局部截图，确定包含敏感信息的敏感内容截图。

其中，所述识别单元包括：

文字转换子单元，用于利用ocr文本识别技术将所述待识别的局部截图转换为文字信息；

判断子单元，用于利用文本分类算法判断文字信息中是否包含敏感内容；

敏感内容截图确定子单元，用于在文字信息中包含敏感内容时，将所述敏感内容所在的待识别的局部截图作为敏感内容截图。

其中，所述判断模块包括：

第一判断单元，用于判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图；若不存在，则判定所述被保护页面被篡改；

第二判断单元，用于存在与所述敏感内容截图位置一致的目标标准敏感内容截图时，判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致；若不一致，则判定所述被保护页面被篡改。

其中，本方案还包括：

提示模块，用于按照预存的提醒方式，向管理员发送篡改提示信息。

一种网页篡改检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述网页篡改检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述网页篡改检测方法的步骤。

通过以上方案可知，本发明实施例提供的一种网页篡改检测方法，包括：获取被保护网页的页面截图；从页面截图中获取包含敏感信息的敏感内容截图；判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致；若否，则判定所述被保护页面被篡改。

可见，在本方案中，通过对被保护页面的页面截图，获取该页面的敏感内容截图，并将敏感内容截图与预存的标准敏感内容截图的对比，来确定该页面的敏感内容是否被篡改，从而可及时发现被篡改的敏感内容，避免由于敏感内容被篡改带来的损失；本发明还公开了一种网页篡改检测装置、设备及计算机可读存储介质，同样可实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种网页篡改检测方法流程示意图；

图2为本发明实施例公开的另一种网页篡改检测方法流程示意图；

图3为本发明实施例公开的一种网页篡改检测装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种网页篡改检测方法、装置、设备及计算机可读存储介质，以实现及时发现被篡改的敏感内容，避免由于敏感内容被篡改带来的损失。

参见图1，本发明实施例提供的一种网页篡改检测方法，包括：

s101、获取被保护网页的页面截图；

具体的，在本实施例中，获取被保护网页的页面截图可以理解为在检测阶段获取的，进而，在检测阶段获取被保护网页的页面截图可以通过设置检测间隔，即每隔预定时间间隔便执行s101-s103，对被保护页面进行一次检测。

需要说明的是，预设的时间间隔可为用户预先设置的检测间隔，例如：60s、120s等，也就是说，若间隔时间为60s，那么系统会每间隔60s重新执行s101-s103，以防止被保护网页被篡改；当然，该时间间隔可以根据实际情况进行设定，若被保护页面的重要等级较高，则可设定时间间隔短一些，相反，则可设置长一些。

在本实施例中，被保护网页也就是被保护的页面的url，可以由用户手工指定来确定，也可以由用户指定域名后，通过爬虫获取站点内的网页，再通过s102来判断是否存在敏感内容截图，如果网页内存在敏感信息，则确定为被保护的网页。进一步，确定被保护页面的url后，需要获取被保护页面的页面截图，具体来说，可以使用脚本驱动浏览器访问被保护的url，从而保存整个页面的截图。

s102、从页面截图中获取包含敏感信息的敏感内容截图；

具体的，页面截图中包括被保护页面的所有内容，包括图片、链接、文字等信息。在获取敏感内容截图时，可以由用户指定，也可以通过算法识别，识别算法可以使用ocr技术配合机器学习中的自然语言处理技术，从而可以识别敏感内容所在的区域，并保存该区域的敏感内容截图。可以理解的是，本方案中的识别算法只要能识别敏感信息就可以，在此并不具体限定。

s103、判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致；若否，则判定所述被保护页面被篡改。

具体的，若敏感内容截图与预先存储的标准敏感内容截图是一致，则可以说明敏感内容未被修改，本方案中的标准敏感内容截图，为在初始阶段预先获取的标准敏感内容截图，该标准敏感内容截图所记载的敏感信息以及敏感信息所在的网页位置均是正确的，因此，在检测阶段获取的敏感内容截图可以与标准敏感内容截图进行对比，从而来判定被保护网页是否被篡改。

需要说明的是，在初始阶段获取标准敏感内容截图的手段，可以与检测阶段获取敏感内容截图的手段一致，也可以不一致；具体来说，在初始阶段获取标准敏感内容截图的手段可以为用户指定，在检测阶段获取敏感内容截图的手段可以通过算法识别，同样的，在初始阶段获取标准敏感内容截图的手段可以为通过一种算法识别，在检测阶段获取敏感内容截图的手段可以通过另一种算法识别，只要能实现初始阶段及检测阶段的敏感内容截图的对比便可，具体使用的手段在本方案中并不具体限定。

可以理解的是，本方案中的标准敏感内容截图可以为网页在初始公开时所生成的敏感内容截图，但是，如果被保护页面执行了修改操作，则需要重新更新该标准敏感内容截图，从而保证标准敏感内容截图的准确定，在对网页进行篡改检测时可以更精准；如果新增被保护页面，则会实时生成与新增被保护页面对应的标准敏感内容截图，在检测阶段时，也会增加对新增被保护页面的检测；如果被保护页面被删除，则与删除的被保护页面对应的标准敏感内容截图也会被删除，同样的，在检测阶段则不需要对已被删除的被保护页面检测。

综上可见，在本方案中，通过对被保护页面的页面截图，获取该页面的敏感内容截图，并将敏感内容截图与预存的标准敏感内容截图的对比，来确定该页面的敏感内容是否被篡改，从而可及时发现被篡改的敏感内容，避免由于敏感内容被篡改带来的损失。

参见图2，为本发明实施例提供的另一种网页篡改检测方法，包括：

s201、获取被保护网页的页面截图；

s202、对所述页面截图进行切分，生成包括所有连通子图的集合；

s203、去除所述集合中的背景子图，保留前景子图；

s204、将切割位置相邻且风格相近的前景子图合并，生成待识别的局部截图；

s205、按照预定识别算法识别所述待识别的局部截图，确定包含敏感信息的敏感内容截图；

s206、判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致；若否，则判定所述被保护页面被篡改。

在本实施例中，s201、s205与上一实施例中的s101、s103相对应，在此不再赘述。本方案对页面截图进行处理，获取包含敏感信息的敏感内容截图时，首先，需要对页面截图进行前景背景识别，以过滤掉背景部分。本方案中的前景为包括页面信息的部分，例如图片、文字等信息；本方案中的背景为不包括页面信息的部分，具体来说可以为空白区域。本方案过去背景部分具体可以包括以下内容：

首先将页面截图进行二值化处理，按照连通性，将图片切分为不同区域，生成不同区域的子图的集合。在原图像中，对不同子图区域计算熵值，熵值大于预定阈值的判定为是前景子图，否则，则判定为背景子图，进行删除。熵的计算公式为：

pij＝f(i,j)/n²…………………………(1)

其中，本方案中的熵值是在一维熵的基础上引入能够反映灰度分布空间特征的特征量j来组成图像的二维熵。选择图像的邻域灰度均值作为灰度分布的空间特征量，与图像的像素灰度i组成特征二元组，记为(i,j)，其中i表示像素的灰度值(0＜＝i＜＝255)，j表示邻域灰度均值(0＜＝j＜＝255)，公式(1)能反应某像素位置上的灰度值与其周围像素灰度分布的综合特征，其中f(i,j)为特征二元组(i,j)出现的频数，n为图像的尺度。

再次，对去除背景部分的前景子图进行合并，在合并时将大小相近、位置相邻且风格相近的块合并为大的矩形截图，生成本方案中的待识别的局部截图；其中，风格相近的块具体可以理解为内容相似的块。

再次，使用分类引擎对待识别的局部截图进行判断，判断是否携带敏感信息。具体来说，按照预定识别算法识别所述待识别的局部截图，确定包含敏感信息的敏感内容截图包括：

利用ocr文本识别技术将所述待识别的局部截图转换为文字信息，并利用文本分类算法判断文字信息中是否包含敏感内容；

若包含敏感内容，则将所述敏感内容所在的待识别的局部截图作为敏感内容截图。

可以理解的是，分类过程可以使用ocr计算将图片信息转化为文字信息，再利用文本分类算法进行分类，文本分类算法包括正则匹配、词袋模型、lstm等。也可以直接使用图片进行分类，例如利用训练好的cnn网络进行分类。识别携带敏感信息的敏感内容截图后，保存该敏感内容截图，截图包括敏感内容及其周围的区域，周围区域用于后续定位使用。

基于上述任意方法实施例，在本实施例中，判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致，若否，则判定所述被保护页面被篡改，包括：

判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图；若不存在，则判定所述被保护页面被篡改；

若存在，则判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致；若不一致，则判定所述被保护页面被篡改。

具体的，判断敏感内容截图与预先存储的标准敏感内容截图是否一致时，可以首先判断敏感内容截图的位置是否发生改变，位置发生改变包括原先没有敏感内容截图的位置出现敏感内容截图，原先有敏感内容截图的位置，现在没有敏感内容截图；如果位置发生了变化，则说明敏感内容被修改。进一步的，如果敏感内容截图的位置没有发生改变，则检查敏感内容截图的敏感信息的具体内容是否发生改变，从而来判定被保护页面是否被篡改。

进一步，如果敏感内容截图的敏感信息发生了变化则认为发生了篡改，因此在本方案中，若判定被保护的url已被篡改之后，还包括：按照预存的提醒方式，向管理员发送篡改提示信息。这里的提醒方式可以为邮件/短信/电话等方式，相应的，系统中会存储提醒方式的具体信息，如邮件地址、短信收件人、电话联系人等，进而通知管理员被保护页面的敏感信息已被篡改，尽快采取处理措施，避免带来损失。

下面对本发明实施例提供的网页篡改检测装置进行介绍，下文描述的网页篡改检测装置与上文描述的网页篡改检测方法可以相互参照。

参见图3，本发明实施例提供的一种网页篡改检测装置，包括：

页面截图获取模块100，用于获取被保护网页的页面截图；

敏感内容截图获取模块200，用于从页面截图中获取包含敏感信息的敏感内容截图；

判断模块300，用于判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致；若否，则判定所述被保护页面被篡改。

其中，所述敏感内容截图获取模块200包括：

切分单元，用于对所述页面截图进行切分，生成包括所有连通子图的集合；

筛选单元，用于去除所述集合中的背景子图，保留前景子图；

合并单元，用于将切割位置相邻且风格相近的前景子图合并，生成待识别的局部截图；

识别单元，用于按照预定识别算法识别所述待识别的局部截图，确定包含敏感信息的敏感内容截图。

其中，所述识别单元包括：

文字转换子单元，用于利用ocr文本识别技术将所述待识别的局部截图转换为文字信息；

判断子单元，用于利用文本分类算法判断文字信息中是否包含敏感内容；

敏感内容截图确定子单元，用于在文字信息中包含敏感内容时，将所述敏感内容所在的待识别的局部截图作为敏感内容截图。

基于上述实施例，所述判断模块300包括：

基于上述实施例，本实施例还包括：

提示模块，用于按照预存的提醒方式，向管理员发送篡改提示信息。

本发明还公开了一种网页篡改检测设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述网页篡改检测方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述网页篡改检测方法的步骤。

具体的，该存储介质可以包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

综上可见，相比对整个页面做缓存，计算页面的偏差量来判断页面是否被篡改的方式，在本方案中仅仅对包含敏感信息的敏感内容截图进行检测判断，从而避免由于网页频繁变化，造成大量的误报，进而避免通过计算页面的偏差的方式带来的偏差允许量，减少漏报现象，从而及时发现被篡改的敏感内容，避免由于敏感内容被篡改带来的损失。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马长春
技术所有人：深信服科技股份有限公司
我是此专利的发明人

上一篇：电磁锁的连接检测电路的制作方法
上一篇：一种基于空间位置服务的差分隐私保护方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。