一种网页篡改识别方法、扫描器、装置及系统的制作方法
【专利摘要】本发明提供一种网页篡改识别方法、扫描器、装置及系统,该方法包括:接收网站侧通过第一页面响应发送的被监测页面的期望页面元素集合;接收网站侧通过第二页面响应发送的真实页面元素集合以及刷新页面元素集合;根据期望页面元素集合、真实页面元素集合以及刷新页面元素集合,计算基准页面元素集合;根据基准页面元素集合、真实页面元素集合以及期望页面元素集合,判断被监测页面是否被篡改。本发明能够实现在扫描器侧判断被监测页面是否被篡改,即站在客户端的角度对网页篡改进行识别,避免了现有技术的网页篡改识别方法无法准确判断网页是否被篡改的情况。
【专利说明】一种网页篡改识别方法、扫描器、装置及系统
【技术领域】
[0001] 本发明涉及网络安全【技术领域】,尤其涉及一种网页篡改识别方法、扫描器、装置及 系统。
【背景技术】
[0002] 保证用户正常浏览网页的一项关键内容是防止网站侧发布的网页(页面)被黑客 篡改。所谓篡改,区别于合法的网页内容修改(刷新),是指网页内容的变化不符合网站管 理员或者用户所请求网页的预期。
[0003] 网页被黑客篡改的方式有多种,方式1 :黑客可能攻破网站,直接对该发布的网页 内容进行修改;
[0004] 方式二,黑客攻击DNS(DomainNameSystem,域名系统)系统,通过修改DNS系统 的数据,修改网页内容,从而达到篡改网页的目的。
[0005] 现有技术中,检测网页被篡改的方案为:
[0006] 方案1 :利用扫描器对网站进行周期性监测,具体为:
[0007] 在移动终端用户安装扫面器软件,周期性获取访问被监测网页的URL(Uniform ResoureLocator,统一资源定位器),按照某种算法设置基准页面(群),并将被监测网页 的页面(群)与基准页面(群)相比较,得出被监测网页中被修改的页面元素占该网页所 有页面元素的比例,并根据该比例与预先设置的比例阈值判断页面是否被修改,该比例小 于比例阈值认为被监测网站未被篡改,否则认为被监测网页被篡改。或者,预先设置某些敏 感词,判断被监测网页中包括此类敏感词时,则认为页面被黑客篡改。
[0008] 方案2 :在网站侧预先建立基准页面标识库,其中每个预发布的页面对应一个页 面标识。在网站对外发布页面前,将待发布页面内容与基准页面库中相应页面内容进行比 对,如发现两个页面有不一致的内容,则认为该待发布页面在存储、处理的某环节被(黑 客)篡改,不予发布。
[0009] 上述两个方案存在一下缺陷:由于现有网站动态网页技术很多,因此方案1很难 准确识别网页是被篡改还是正常内容刷新,不可避免地存在误检和漏检。对于方案2,对于 大规模网站站点,由于页面数量十分庞大,该方案存在性能瓶颈,而且该方案是在网站服务 器侧检测网页是否被篡改,无法识别黑客在网页从网站服务器侧发出后所篡改的网页,比 如黑客通过攻击DNS系统篡改网页就是在网页从网站侧发出后所进行的篡改,这种情况下 方案2无法准确判断到达客户端的网页是否被篡改的。
【发明内容】
[0010] 本发明提供一种网页篡改识别方法、扫描器、装置及系统,用以解决现有技术中网 页篡改识别存在漏检和误检以及无法准确判断到达客户端的网页是否被篡改的技术问题。
[0011] 一种网页篡改识别方法,包括:
[0012] 接收网站侧通过第一页面响应发送的被监测页面的期望页面元素集合,所述被监 测页面的期望页面元素集合为网站侧预计在第二扫描周期发送给所述扫描器的所述被监 测页面的页面元素集合;
[0013] 接收网站侧通过第二页面响应发送的真实页面元素集合以及刷新页面元素集合, 所述真实页面元素集合为网站侧在第二扫描周期内真实响应给所述扫描器的所述被监测 页面的页面元素集合,所述刷新页面元素集合为在设定时间段内所述网站侧保存的页面元 素库中所有被合法修改的页面元素对应的页面元素集合,所述设定时间段为:网站侧响应 所述第一页面请求的时刻到响应所述第二页面请求的时刻对应的时间段,所述第一扫描周 期早于所述第二扫描周期;
[0014] 根据所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集 合,计算基准页面元素集合;
[0015] 根据所述基准页面元素集合、所述真实页面元素集合以及所述期望页面元素集 合,判断所述被监测页面是否被篡改。
[0016] 利用本发明实施例,通过考虑被合法刷新的页面元素集合,提高了页面篡改识别 的准确性,并通过利用上一周期获取的期望页面和本周期的真实页面以及在被合法刷新的 页面元素集合,能够实现在扫描器侧判断被监测页面是否被篡改。
[0017] 所述方法中,任一页面元素由该页面元素对应的引用以及该页面元素对应的哈希 值表示。
[0018] 所述方法中,所述根据所述期望页面元素集合、所述真实页面元素集合以及所述 刷新页面元素集合,计算基准页面元素集合,具体包括:
[0019] 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定 时间段内所述被监测页面被合法刷新的页面元素集合SRn;
[0020] 根据所述被监测页面被合法刷新的页面元素集合SRM补集%、期望页面元素 集合En,计算所述机与En交集五,,Π;
[0021] 根据所述尽ΠM以及所述SRn,确定基准页面元素集合E' n;
[0022] 其中,所述基准页面元素集合E'n的计算公式为:式二辦山(尽门
[0023] 本发明实施例提供了计算基准页面元素集合E' "的方法。
[0024] 所述方法中,所述根据所述基准页面元素集合、所述真实页面元素集合以及所述 期望页面元素集合,判断所述被监测页面是否被篡改,具体包括:
[0025] 提取所述所述基准页面元素集合En中的引用集合、所述真实页面元素集合 Rn中的引用集合Re./A.以及所述期望页面元素集合中的引用集合:Re;
[0026] 确定所述1^_4与所述:^/<不相等,或,确定所述1^/^与所述1^/ 7?1不相等时, 确定所述被监测页面的逻辑被篡改;
[0027] 确定所述Re/&与所述相等,且确定所述Re/&与所述Re/&相等时,确定所 述被监测页面的逻辑未被篡改。
[0028] 具体的,利用本发明实施例可确定被监测页面逻辑被修改,或初步确定被监测页 面逻辑未被修改。
[0029] 所述方法中,确定所述被监测页面的逻辑未被篡改时,还包括:
[0030] 将所述基准页面元素集合E'n中所有元素的哈希值按照预设规则排序后,进行哈 希计算,得到所述基准页面集合哈希值
[0031] 将所述真实页面元素集合1^中所有元素的哈希值按照所述预设规则排序后进行 哈希计算,得到所述真实页面集合Rn的哈希值;
[0032] 确定所述不等于所述va/?e<时,确定所述被监测页面的内容被篡改;
[0033] 确定所述1·^^^?,,等于时,确定所述被监测页面未被篡改。
[0034] 利用本发明实施例能够更加准确的确定被监测页面是否被篡改。
[0035] 本发明还提供了一种网页篡改识别方法,包括:
[0036] 网站侧接收到扫描器在第一扫描周期内针对被监测页面发送的第一页面请求时, 将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器,所述被监测 页面的期望页面元素集合为网站侧预计在第二扫描周期发送给所述扫描器的所述被监测 页面的页面元素集合;
[0037]网站侧接收到所述扫描器在所述第二扫描周期内针对所述被监测页面发送的第 二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述被监测页面的真实页 面元素集合,以及在设定时间段内所述网站侧保存的页面元素库中所有被合法修改的页面 元素对应的刷新页面元素集合,所述设定时间段为:响应所述第一页面请求的时刻到响应 所述第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周期;
[0038] 将所述真实页面元素集合以及所述刷新页面元素集合通过第二页面响应发送给 所述扫描器。
[0039] 本发明实施例由网站侧获取识别页面篡改所需要的参数,并发送给扫描器侧,以 使扫描器根据这些参数对页面篡改进行识别。
[0040] 所述方法中,任一页面元素由该页面元素对应的引用以及该页面元素对应的哈希 值表示。
[0041] 所述方法中,所述真实页面元素集合包括:
[0042] 所有真实页面元素对应的真实页面元素引用集合以及所有真实页面元素对应的 哈希值集合,该方法还包括:
[0043] 对所述哈希值集合进行哈希计算,得到所述真实页面元素集合的哈希值;
[0044] 将所述真实页面元素引用集合以及所述真实页面元素集合的哈希值插入第二页 面响应中并通过所述第二页面响应发送给所述扫描器。
[0045] 利用本发明实施例,通过在网站侧计算出页面篡改识别的所需的参数,并发送给 扫描器,不用扫描器计算这些参数,从而在一定程度上减少了扫描器的计算量。
[0046] 所述方法还包括:
[0047] 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定 时间段内所述被监测页面被合法刷新的页面元素集合SRn;
[0048] 将所述被监测页面被合法刷新的页面元素集合SIUi过第二页面响应发送给所述 扫描器。
[0049] 利用本发明实施例,通过在网站侧计算出页面篡改识别的所需的参数,并发送给 扫描器,不用扫描器计算这些参数,从而在一定程度上减少了扫描器的计算量。
[0050] 所述方法中,所述将所述期望页面元素集合、所述真实页面元素集合以及所述刷 新页面元素集合通过第二页面响应发送给所述扫描器,具体包括:
[0051] 将所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合按 照预设算法进行加密或数字签名;
[0052] 将加密后的期望页面元素集合、真实页面元素集合以及刷新页面元素集合插入第 二页面响应中,并通过第二页面响应发送给所述扫描器。
[0053] 利用本发明实施例,可以防止黑客对上述期望页面元素集合、真实页面元素集合 以及刷新页面元素集合进行篡改。
[0054]本发明还提供了一种网页篡改识别扫描器,包括:
[0055] 第一接收单元,用于接收网站侧通过第一页面响应发送的被监测页面的期望页面 元素集合,所述被监测页面的期望页面元素集合为网站侧预计在第二扫描周期发送给第二 接收单元的所述被监测页面的页面元素集合;
[0056] 第二接收单元,用于接收网站侧通过第二页面响应发送的真实页面元素集合以及 刷新页面元素集合,所述真实页面元素集合为网站侧在第二扫描周期内真实响应给所述第 二接收单元的所述被监测页面的页面元素集合,所述刷新页面元素集合为在设定时间段内 所述网站侧保存的页面元素库中所有被合法修改的页面元素对应的页面元素集合,所述设 定时间段为:网站侧响应所述第一页面请求的时刻到响应所述第二页面请求的时刻对应的 时间段,所述第一扫描周期早于所述第二扫描周期;
[0057] 计算单元,根据所述期望页面元素集合、所述真实页面元素集合以及所述刷新页 面元素集合,计算基准页面元素集合;
[0058] 判断单元,用于根据所述基准页面元素集合、所述真实页面元素集合以及所述期 望页面元素集合,判断所述被监测页面是否被篡改。
[0059] 所述扫描器,任一页面元素由该页面元素对应的引用以及该页面元素对应的哈希 值表示。
[0060] 所述扫描器中,所述计算单元具体用于:
[0061] 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定 时间段内所述被监测页面被合法刷新的页面元素集合SRn;
[0062]根据所述被监测页面被合法刷新的页面元素集合SRn的补集%、期望页面元素 集合En,计算所述与En交集尽Π% ;
[0063] 根据所述尽Π%以及所述SRn,确定基准页面元素集合E' n;
[0064] 其中,所述基准页面元素集合E'n的计算公式为:尽
[0065] 所述扫描器中,所述判断单元具体用于:
[0066] 提取所述所述基准页面元素集合En中的引用集合Re.///:.、所述真实页面元素集合 Rn中的引用集合Re/S"以及所述期望页面元素集合中的引用集合Re/ir" ;
[0067]确定所述Re/%与所述不相等,或,确定所述Re与所述Re&不相等时, 确定所述被监测页面的逻辑被篡改;
[0068] 确定所述Re/£n与所述&相等,且确定所述Re与所述Re/&相等时,确定 所述被监测页面的逻辑未被篡改。
[0069] 所述扫描器中,所述判断单元还用于:
[0070] 确定所述被监测页面的逻辑未被篡改时,将所述基准页面元素集合E' n中所有 元素的哈希值按照预设规则排序后进行哈希计算,得到所述基准页面集合哈希值 VCiluer;
[0071] 将所述真实页面元素集合1^中所有元素的哈希值按照所述预设规则排序后进行 哈希计算,得到所述真实页面集合Rn的哈希值
[0072] 确定所述不等于所述#/?4:时,确定所述被监测页面的内容被篡改;
[0073] 确定所述να/we^等于所述时,确定所述被监测页面未被篡改。
[0074] 本发明还提供了一种网页篡改识别装置,包括:
[0075] 第一响应单元,接收到扫描器在第一扫描周期内针对被监测页面发送的第一页面 请求时,将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器,所 述被监测页面的期望页面元素集合为第二响应单元预计在第二扫描周期发送给所述扫描 器的所述被监测页面的页面元素集合;
[0076] 获取单元,用于接收到所述扫描器在所述第二扫描周期内针对所述被监测页面发 送的第二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述被监测页面的 真实页面元素集合,以及在设定时间段内网站侧保存的页面元素库中所有被合法修改的页 面元素对应的刷新页面元素集合,所述设定时间段为:响应所述第一页面请求的时刻到响 应所述第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周期;
[0077] 第二响应单元,将所述真实页面元素集合以及所述刷新页面元素集合通过第二页 面响应发送给所述扫描器。
[0078] 所述装置,任一页面元素由该页面元素对应的引用以及该页面元素对应的哈希值 表不。
[0079] 所述装置,所述真实页面元素集合包括:所有真实页面元素对应的真实页面元素 引用集合以及所有真实页面元素对应的哈希值集合,所述第二响应单元还用于:
[0080] 对所述哈希值集合进行哈希计算,得到所述真实页面元素集合的哈希值;
[0081] 将所述真实页面元素引用集合以及所述真实页面元素集合的哈希值插入第二页 面响应中并通过所述第二页面响应发送给所述扫描器。
[0082] 所述装置中,所述第二响应单元还用于:
[0083] 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定 时间段内所述被监测页面被合法刷新的页面元素集合SRn;
[0084] 将所述被监测页面被合法刷新的页面元素集合SIUI过第二页面响应发送给所述 扫描器。
[0085] 所述装置中,所述第二响应单元具体用于:
[0086] 将所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合按 照预设算法进行加密或数字签名;
[0087] 将加密后的期望页面元素集合、真实页面元素集合以及刷新页面元素集合插入第 二页面响应中,并通过第二页面响应发送给所述扫描器。
[0088] 本发明还提供一种网页篡改识别系统,包括:
[0089] 扫描器,用于接收网站侧设备通过第一页面响应发送的被监测页面的期望页面元 素集合,所述被监测页面的期望页面元素集合为网站侧设备预计在第二扫描周期发送给所 述扫描器的所述被监测页面的页面元素集合;接收网站侧设备通过第二页面响应发送的真 实页面元素集合以及刷新页面元素集合,所述真实页面元素集合为网站侧设备在第二扫描 周期内真实响应给所述扫描器的所述被监测页面的页面元素集合,所述刷新页面元素集合 为在设定时间段内所述网站侧设备保存的页面元素库中所有被合法修改的页面元素对应 的页面元素集合,所述设定时间段为:网站侧设备响应所述第一页面请求的时刻到响应所 述第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周期;根据所 述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合,计算基准页面 元素集合;根据所述基准页面元素集合、所述真实页面元素集合以及所述期望页面元素集 合,判断所述被监测页面是否被篡改;
[0090] 网站侧设备,用于接收到扫描器在第一扫描周期内针对被监测页面发送的第一页 面请求时,将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器, 所述被监测页面的期望页面元素集合为网站侧设备预计在第二扫描周期发送给所述扫描 器的所述被监测页面的页面元素集合;接收到所述扫描器在所述第二扫描周期内针对所述 被监测页面发送的第二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述 被监测页面的真实页面元素集合,以及在设定时间段内所述网站侧设备保存的页面元素库 中所有被合法修改的页面元素对应的刷新页面元素集合;将所述真实页面元素集合以及所 述刷新页面元素集合通过第二页面响应发送给所述扫描器。
[0091] 利用本发明实施例提供的网页篡改识别方法、扫描器、装置及系统,具有以下有益 效果:通过考虑被合法刷新的页面元素集合,提高了页面篡改识别的准确性,并通过利用上 一周期获取的期望页面和本周期的真实页面以及在设定时间段内被合法刷新的页面元素 集合,能够实现在扫描器侧判断被监测页面是否被篡改,即站在客户端的角度对网页篡改 进行识别,避免了现有技术的网页篡改识别方法无法准确判断网页是否被篡改的情况。同 时可准确、快捷地判定页面篡改,无漏报、误报,并且可识别并监测动态页面脚本篡改及静 态页面素材的篡改,不影响网站合法更新,不产生网站的正常内容更新的误报。
【专利附图】
【附图说明】
[0092] 图1为本发明实施例提供的基于扫描器的网页篡改识别方法流程图;
[0093] 图2为本发明实施例提供的计算基准页面元素集合的方法流程图;
[0094] 图3为本发明实施例提供的判断被监测页面是否被篡改的方法流程图;
[0095]图4为本发明实施例提供的确定被监测页面的逻辑未被篡改时进一步进行网页 篡改识别的方法流程图;
[0096] 图5为本发明实施例提供的基于网站侧的网页篡改识别方法流程图;
[0097] 图6为本发明实施例提供的将真实页面元素集合以及刷新页面元素集合通过第 二页面响应发送给扫描器的【具体实施方式】流程图;
[0098]图7为本发明实施例提供的发送真实页面元素集合的哈希值的方法流程图;
[0099] 图8为本发明实施例提供的发送被合法刷新的页面元素集合的方法流程图; [0100]图9为本发明实施例提供的扫描器示意图;
[0101] 图10为本发明实施例提供的装置示意图。
【具体实施方式】
[0102] 下面结合附图和实施例对本发明提供的网页篡改识别方法、装置及系统进行更详 细地说明。
[0103] 具体的,本发明实施例提供的网页篡改识别方法是通过网站侧和扫描器进行交互 实现的,扫描器可以安装在测试客户端中。扫描器会周期性的向网站侧获取同一被监测页 面,并根据网站侧在不同周期响应给该扫描器的被监测页面进行页面篡改识别。从而实现 在网站发出页面后,客户端在收到网站侧发送的页面后,判断收到的页面是否被篡改,从而 使得网页篡改识别更加准确。
[0104] 具体的,本发明实施例提供一种网页篡改识别方法,如图1所示,包括:
[0105] 步骤101,接收网站侧通过第一页面响应发送的被监测页面的期望页面元素集合, 所述被监测页面的期望页面元素集合为网站侧预计在第二扫描周期发送给所述扫描器的 所述被监测页面的页面元素集合。
[0106] 具体的,扫描器周期性的向网站侧发送针对被监测页面的页面请求。扫描器在第 一扫描周期内向网站侧发送针对被监测页面的第一页面请求,网站侧会在第一周期内将第 一页面响应发送给扫描器。扫描器接收网站侧在第一扫描周期内发送的第一页面响应,该 页面响应中包括期望页面元素集合,还包括网站侧针对第一页面请求所返回的被监测页面 的页面元素集合。
[0107] 其中,期望页面元素集合是一个预估集合,为网站侧预计在第二扫描周期发送给 所述扫描器的所述被监测页面的页面元素集合,即,网站侧在响应本周期(第一扫描周期) 的页面请求时,将预计在下一周期(第二扫描周期)内响应给扫描器的被监测页面的页面 元素集合通过第一页面响应发送给扫描器,该预计在下一周期(第二扫描周期)内响应给 扫描器的被监测页面的页面元素集合即为期望页面元素集合。该期望页面元素集合肯定是 未被篡改的页面元素集合。
[0108] 优选地,扫描器在第一扫描周期的开始时刻向网站侧发送针对被监测页面的第一 页面请求;优选地,扫描器子在第一扫描周期内接收第一页面响应。
[0109] 步骤102,接收网站侧通过第二页面响应发送的真实页面元素集合以及刷新页面 元素集合。
[0110] 其中,真实页面元素集合为网站侧在第二扫描周期内真实响应给扫描器的被监测 页面的页面元素集合,刷新页面元素集合为在设定时间段内网站侧保存的页面元素库中所 有被合法修改的页面元素对应的页面元素集合,所述设定时间段为:网站侧响应所述第一 页面请求的时刻到响应所述第二页面请求的时刻对应的时间段。
[0111] 具体的,第二扫描周期早于第一扫描周期,扫描器在第二扫描周期接收网站侧通 过第二页面响应发送的真实页面元素集合以及刷新页面元素集合。真实页面元素集合就是 在该第二扫描周期内网站侧针对扫描器在第二扫描周期内发送的第二页面响应真实响应 给扫描器的被监测页面的页面元素集合。
[0112] 网站侧响应所述第一页面请求的时刻到响应所述第二页面请求的时刻对应的时 间段内,网站侧保存的页面元素集合库可能有部分页面元素已被合法修改(刷新),为了避 免将被监测页面中被合法刷新部分误判为被篡改,因此,本发明实施例需要考虑上述时间 段内网站侧保存的页面元素库中所有被合法修改的页面元素对应的页面元素集合。
[0113] 步骤103,根据所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面 元素集合,计算基准页面元素集合。
[0114] 步骤104,根据所述基准页面元素集合以及所述期望页面元素集合,判断所述被监 测页面是否被篡改。
[0115] 具体的,期望页面元素集合对应的是在第一扫描周期内所期望的第二扫描周期网 站侧预计响应给扫描器的被监测页面;真实页面元素集合对应的是在第二扫描周期内网站 侧实际响应给扫描器的被监测页面;刷新页面元素集合对应的是网站侧的页面元素库在预 设时间段内所有被刷新的页面元素。
[0116] 本发明实施例,通过考虑被合法刷新的页面元素集合,提高了页面篡改识别的准 确性,并通过利用上一周期获取的期望页面和本周期的真实页面以及在被合法刷新的页面 元素集合,能够实现在扫描器侧判断被监测页面是否被篡改,即站在客户端的角度对网页 篡改进行识别,避免了现有技术的网页篡改识别方法无法准确判断网页是否被篡改的情 况。
[0117] 上述实施例中,任一页面元素由该页面元素对应的引用以及该页面元素对应的哈 希值表示;期望页面元素集合、真实页面元素集合以及基准页面元素集合中,每个页面元素 集合中的页面元素都按照设定规则排列。
[0118] 具体的,一个页面是由多个页面元素组成的,页面元素可以是图片、文字、视频、表 格等。页面都有其对应的页面格式,在生成页面时,按照该页面的页面格式将页面元素填充 到页面格式中即可生成一个页面。每个页面元素由该页面元素对应的引用以及该页面元素 对应的哈希值表示,其中,该页面元素的引用可以表示存放该页面元素的路径,即,从什么 位置引用该页面元素,也可表示所指向的数据库以及数据库中的具体数据,还可指一个指 向网站侧服务器之外的服务器的URL地址等。
[0119] 该页面元素的哈希值表示对不同类型的页面元素哈希后得到的值,即根据该页面 元素的哈希值可以得知该页面元素是图片还是文字或者其它。在对页面进行合法刷新,即 对页面元素进行合法修改时,不会修改页面元素的引用,只会修改页面元素的哈希值。优选 地,任一页面元素为(ref,value),其中,ref为该元素对应的引用,value为该元素对应的 哈希值。
[0120] 基于上述实施例,优选地,根据所述期望页面元素集合、所述真实页面元素集合以 及所述刷新页面元素集合,计算基准页面元素集合,如图2所示,具体包括:
[0121] 步骤201,计算所述真实页面元素集合Rn以及所述刷新页面元素集合交集, 得到在设定时间段内所述被监测页面被合法刷新的页面元素集合SRn。
[0122] 具体的,通过计算1^与Sn的交集,可以确定在设定时间段内,被监测页面中是否有 被合法刷新的页面元素,如果该交集为空集,则确定在设定时间段内被监测页面中没有被 合法刷新的页面元素,如果该交集为非空集,则确定在设定时间段内被监测页面中有被合 法刷新的页面元素,并将该交集作为SRn。
[0123] 具体的尺,其中,k表示真实页面元素集合中任一页面元素,M 表示真实页面元素集合中页面元素的总个数,ref表示该任一页面元素对应的引用,value 表示该任一页面元素对应的哈希值。其中,可根据尺=Ut1GetvaZMel提取出该真实页 面元素集合对应的引用集合ReΛ" =ULn?/;,以及该真实页面元素集合对应的哈希值集合 ~/叫" =Ui1Wfeei。其它页面元素集合也可提取出其对应的引用集合以及哈希值集合, 这不再赘述。
[0124] ^=Uf ,其中s表示刷新页面元素集合中任一页面元素,P表示刷新 页面元素集合中页面元素的总个数,ref表示该任一页面元素对应的引用,value表示该任 一页面元素对应的哈希值。
[0125]步骤202,根据所述被监测页面被合法刷新的页面元素集合SRn的补集%、期望 页面元素集合En,计算所述%与En交集五"Π%。
[0126] 具体的,由于期望页面元素集合En*的页面元素肯定不会被篡改,则尽门;^对 应的页面元素集合为:截止到网站侧向扫描器侧发送第二页面响应时为止,真实页面集合 中未被合法刷新且未被篡改的页面元素对应的页面元素集合。
[0127] 可通过设定期望页面元素集合En的大小界定页面篡改的保护范围,从而减少冗余 处理。
[0128] 步骤203,根据所述忍ΠM以及所述SRn,确定基准页面元素集合E'n。
[0129] 其中,基准页面元素集合E'n的计算公式为:
[0130] 基于上述优选实施例,进一步优选地,根据所述基准页面元素集合、所述真实页面 元素集合以及所述期望页面元素集合,判断所述被监测页面是否被篡改,如图3所示,具体 包括:
[0131]步骤301,提取所述所述基准页面元素集合En中的引用集合、所述真实页面 元素集合Rn中的引用集合Re八以及所述期望页面元素集合中的引用集合Re./;:,。
[0132] 步骤302,判断Re/^与Re/式是否相等,如果是,执行步骤303,否则执行步骤 304〇
[0133] 具体的,确定Re/&与Kej/^不相等,或,确定Re/,与Re/&不相等时,可确定被 监测页面逻辑被篡改了,但是当Reyffn与:^/^相等,或,Re/Fn与Re^相等时,可初步确 定被监测页面逻辑未被修改,但是为了进一步提高篡改识别的准确度,执行步骤303。
[0134] 步骤303,判断Re/^与Rej^是否相等,如果是,执行步骤305,否则执行步骤304。
[0135] 步骤304,确定所述被监测页面的逻辑被篡改。
[0136] 步骤305,确定所述被监测页面的逻辑未被篡改。
[0137] 由于页面元素的引用是编辑在页面逻辑脚本中的,因此当引用被篡改时,也可确 定是页面逻辑被篡改,如果确定页面逻辑被篡改就确定页面被篡改。
[0138] 具体的,每个页面元素由该页面元素对应的引用以及该页面元素对应的哈希值表 示,且合法刷新页面不会修改页面元素的引用只会修改页面元素的哈希值,EjPΕ' η中的页 面元素都是按照设定规则排列的,理论上,如果真实页面元素集合中任一页面元素的引用 未被修改,则EdPΕ'η中相应位置上的页面元素对应的引用是相同的,比如En中第一个页 面元素对应的引用和Ε'η中第一个页面元素对应的引用相同,如果E"和Ε' η中任一相应位 置上的页面元素对应的引用不同,则真实页面集合中的页面元素中的引用被篡改。
[0139] 具体的,针对En中第i个(任一个)页面元素对应的引用refi,从Ε'η中查找该引 用refi,如果未查找到该引用refjt,确定被监测页面的逻辑在第二扫描周期内被修改;如 果查找到该引用Mfi时,确定该引用在E' "对应的页面元素,如果该引用在E' n对应的页面 元素不是E'n的第i个页面元素,则确定被监测页面的逻辑在第一扫描周期到第二扫描周 期内被篡改。如果En中的每个页面元素对应的引用在E'n中都查找到且EjPE' "中相应位 置的页面元素集合对应的引用都相同,则确定被监测页面的逻辑在第一扫描周期到第二扫 描周期内未被篡改。
[0140] 利用本发明实施例,通过在比较基准页面元素集合中的引用集合与期望页面元素 集合中的引用集合是否相等,可以准确识别页面逻辑是否被篡改。
[0141] 基于上述进一步的优选实施例,被监测页面的逻辑未被篡改,不能认为是被监测 页面中的页面元素内容没有被篡改,比如,黑客可能将页面元素中原有的图片篡改成了文 字,而未篡改该页面元素的引用,这时需要进一步判断被监测页面的页面内容是否被篡改, 因此,优选地,确定所述被监测页面的逻辑未被篡改时,如图4所示,还包括:
[0142] 步骤401,将所述基准页面元素集合E'n中所有元素的哈希值按照预设规则排序后 进行哈希计算,得到所述基准页面集合E'n的哈希值%。
[0143] 具体的,%的计算公式为:(ULνα/wep,其中j表示基准页 面元素集合中任一页面元素,N表示基准页面元素集合中页面元素的总个数,valium表示任 一页面元素对应的哈希值,να/t%表示从基准页面元素集合提取的各个页面元素对应 的哈希值的集合。哈希计算为现有技术,这里不做详细介绍。其中,由于不同的排列顺序会 使得计算出的哈希值不同,本发明实施例中的预设规则可根据实际情况而定,只要本发明 中计算页面元素集合的哈希值时所采用的预设规则统一即可。
[0144] 步骤402,将所述真实页面元素集合Rn中所有元素的哈希值按照所述预设规则排 序后进行哈希计算,得到所述真实页面集合Rn的哈希值&。
[0145] 具体的,κ?%的计算公式为:心/?\ =凡4? ( Uf=1to/叫),其中k表示真实页 面元素集合中任一页面元素,M表示真实页面元素集合中页面元素的总个数,Valuek表示任 一页面元素对应的哈希值,Ut1 %/?4表示从真实页面元素集合提取的各个页面元素对应 的哈希值的集合。哈希计算为现有技术,这里不做详细介绍。
[0146] 步骤403,判断基准页面集合E'n的哈希值&是否等于真实页面集合Rn的哈 希值,如果是,执行步骤404,如果否,执行步骤405。
[0147] 步骤404,确定所述被监测页面未被篡改。
[0148] 具体的,确定所述被监测页面在第一扫描周期到第二扫描周期内未被篡改。
[0149] 步骤405,确定所述被监测页面的内容被篡改。
[0150] 具体的,确定所述被监测页面在第一扫描周期到第二扫描周期内被篡改。确定被 监测页面内容被篡改时就确定被监测页面被篡改。
[0151] 具体的,由于每个页面元素都对应一个哈希值,且基准页面元素集合和真实页面 元素中的页面元素已按照设定规则排序,因此,如果被监测页面内容未被修改,则 和是相等的,如果被监测页面的内容被篡改就是不相等的。
[0152] 本发明实施例,在确定页面逻辑未被篡改后进一步确定页面内容是否被篡改,从 而可以准确的识别出被篡改页面。
[0153] 以上是基于扫描器侧对本发明实施例提供的网页篡改识别方法进行的说明,下面 基于网站侧对本发明实施例提供的网页篡改识别方法进行的说明。
[0154] 本发明实施例提供一种网页篡改识别方法,如图5所示,包括:
[0155] 步骤501,网站侧接收到扫描器在第一扫描周期内针对被监测页面发送的第一页 面请求时,将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器, 所述被监测页面的期望页面元素集合为网站侧预计在第二扫描周期发送给所述扫描器的 所述被监测页面的页面元素集合。
[0156] 具体的,网站侧获取扫描器的周期配置,并在第一扫描周期内收到扫描器在第一 扫描周期内针对被监测页面发送的第一页面请求时,将被监测页面的期望页面元素集合通 过第一页面响应发送给扫描器,被监测页面的期望页面元素集合具体含义已在上述基于扫 描器侧的网页篡改识别方法中介绍,这里不再赘述。
[0157] 步骤502,网站侧接收到所述扫描器在所述第二扫描周期内针对所述被监测页面 发送的第二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述被监测页面 的真实页面元素集合,以及在设定时间段内所述网站侧保存的页面元素库中所有被合法修 改的页面元素对应的刷新页面元素集合,所述设定时间段为:响应所述第一页面请求的时 刻到响应所述第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周 期。
[0158] 具体的,可通过调用函数WebUpdateCTlri,Tn)获取上述刷新页面元素集合,其中, Tlri为网站侧响应所述第一页面请求的时刻,Tn为网站侧响应所述第二页面请求的时刻。可 通过调用现有处理函数PageLogic分别获取期望页面元素集合以及真实页面元素集合。
[0159] 优选地,第一扫描周期和第二扫描周期相邻。这样可以尽快识别出被篡改的页面。
[0160] 步骤503,将所述真实页面元素集合以及所述刷新页面元素集合通过第二页面响 应发送给所述扫描器。
[0161] 本发明实施例由网站侧获取识别页面篡改所需要的参数,并发送给扫描器侧,以 使扫描器根据这些参数对页面篡改进行识别。
[0162] 优选地,将所述真实页面元素集合以及所述刷新页面元素集合通过第二页面响应 发送给所述扫描器,如图6所示,具体包括:
[0163] 步骤601,将期望页面元素集合、真实页面元素集合以及刷新页面元素集合按照预 设算法进行加密或数字签名。
[0164] 具体的,扫描器和网站侧约定使用同样的预设算法,预设算法可以为非对称加密 算法,如RSA(RivestShamirAdleman)、DH(Diffile-Hellman)、ECC(EllipticCurves Cryptography,椭圆曲线算法)等,也可为对称加密的算法,如AES(AdvanceEncryption Standard,高级加密标准)、3DES(TripleDataEncryptionStandrad,三重数据加密标 准)、IDEA(InternationalDataEncryptionAlgorithm,国际数据加密算法)等。
[0165] 步骤602,将加密或数字签名后的期望页面元素集合、真实页面元素集合以及刷新 页面元素集合插入第二页面响应中,并通过第二页面响应发送给所述扫描器。
[0166] 优选地,可将加密或数字签名后的期望页面元素集合、真实页面元素集合以及刷 新页面元素集合插入第二页面响应中的保留字段中,或者,不用于界面渲染的HTML(Hyper TextMark-upLanguage,超文本标记语言)标签中,或者,以电子邮箱的方式将加密后的期 望页面元素集合、真实页面元素集合以及刷新页面元素集合发送给扫描器。这样可以防止 对正常的页面响应造成影响。
[0167] 扫描器收到网站侧发送的加密或数字签名后的期望页面元素集合、真实页面元素 集合以及刷新页面元素集合后,按照与网站侧约定好的加密算法或数字签名算法进行解 密。扫描器解析出的期望页面元素集合、真实页面元素集合以及刷新页面元素集合与网站 侧发送的不同时,也认为被监测页面被篡改。
[0168] 本发明实施例通过将发送给扫描器的期望页面元素集合、真实页面元素集合以及 刷新页面元素集合进行加密或数字签名,从而可以防止黑客对上述期望页面元素集合、真 实页面元素集合以及刷新页面元素集合进行篡改。
[0169] 具体的,增加期望页面元素集合、真实页面元素集合以及刷新页面元素集合的数 字签名,将签名后的期望页面元素集合、真实页面元素集合以及刷新页面元素集合发送给 扫描器。以防止黑客对上述期望页面元素集合、真实页面元素集合以及刷新页面元素集合 进行篡改。
[0170] 进一步优选地,可将网站侧发送的与本发明实施例进行网页篡改识别相关的参数 数或页面元素集合进行加密或增加数字签名后发送给扫描器。
[0171] 具体的,上述实施例中,任一页面元素由该页面元素对应的引用以及该页面元素 对应的哈希值表示。期望页面元素集合、真实页面元素集合以及基准页面元素集合中,每个 页面元素集合中的页面元素都按照设定规则排列。关于该实施例的详细介绍已在上述基于 扫描器侧的网页篡改识别方法中介绍,这里不再赘述。基于该实施例,真实页面元素集合包 括:所有真实页面元素对应的真实页面元素引用集合以及所有真实页面元素对应的哈希值 集合,如图7所示,还包括:
[0172] 步骤701,对所述哈希值集合进行哈希计算,得到所述真实页面元素集合的哈希 值。
[0173] 具体的,真实页面元素集合为Rn,可表示为:^=Uf 其中,k表示 真实页面元素集合中任一页面元素,M表示真实页面元素集合中页面元素的总个数,ref表 示该任一页面元素对应的引用,value表示该任一页面元素对应的哈希值。其中,可根据 ^ = 提取出该真实页面元素集合对应的引用集合Re./:, = ,以及该 真实页面元素集合对应的哈希值集合心=LliWAr,。其它页面元素集合也可提取出 其对应的引用集合以及哈希值集合,这不再赘述。对所述哈希值集合进行哈希计算的计算 方法与图4所示的实施例中对哈希值集合进行哈希计算的方式类似,这里不再赘述。
[0174] 步骤702,将所述真实页面元素引用集合以及所述真实页面元素集合的哈希值插 入第二页面响应中并通过所述第二页面响应发送给所述扫描器。
[0175] 利用本发明实施例,通过在网站侧计算出页面篡改识别的所需的参数,并发送给 扫描器,不用扫描器计算这些参数,从而在一定程度上减少了扫描器的计算量。
[0176] 基于上述实施例,优选地,如图8所示,还包括:
[0177] 步骤801,计算所述真实页面元素集合Rn以及所述刷新页面元素集合交集, 得到在设定时间段内所述被监测页面被合法刷新的页面元素集合SRn;
[0178] 步骤802,将所述被监测页面被合法刷新的页面元素集合SRn通过第二页面响应发 送给所述扫描器。
[0179] 利用本发明实施例,通过在网站侧计算出页面篡改识别的所需的参数,并发送给 扫描器,不用扫描器计算这些参数,从而在一定程度上减少了扫描器的计算量。
[0180] 优选地,可在网站侧布置backend(后端代理模块)模块,由backend模块实现本 发明实施例提供的网页篡改识别方法。
[0181] 本发明实施例还提供了一种网页篡改识别扫描器,如图9所示,包括:
[0182] 第一接收单元901,用于接收网站侧通过第一页面响应发送的被监测页面的期望 页面元素集合,所述被监测页面的期望页面元素集合为网站侧预计在第二扫描周期发送给 第二接收单元的所述被监测页面的页面元素集合;
[0183] 第二接收单元902,用于接收网站侧通过第二页面响应发送的真实页面元素集合 以及刷新页面元素集合,所述真实页面元素集合为网站侧在第二扫描周期内真实响应给所 述第二接收单元的所述被监测页面的页面元素集合,所述刷新页面元素集合为在设定时间 段内所述网站侧保存的页面元素库中所有被合法修改的页面元素对应的页面元素集合,所 述设定时间段为:网站侧响应所述第一页面请求的时刻到响应所述第二页面请求的时刻对 应的时间段,所述第一扫描周期早于所述第二扫描周期;
[0184] 计算单元903,根据所述期望页面元素集合、所述真实页面元素集合以及所述刷新 页面元素集合,计算基准页面元素集合;
[0185] 判断单元904,用于根据所述基准页面元素集合、所述真实页面元素集合以及所述 期望页面元素集合,判断所述被监测页面是否被篡改。
[0186] 所述扫描器,任一页面元素由该页面元素对应的引用以及该页面元素对应的哈希 值表示。
[0187] 优选地所述计算单元具体用于:
[0188] 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定 时间段内所述被监测页面被合法刷新的页面元素集合SRn;
[0189] 根据所述被监测页面被合法刷新的页面元素集合SRn的补集巧;期望页面元素 集合En,计算所述屈:与En交集& ;
[0190] 根据所述以及所述SRn,确定基准页面元素集合Ε'η;
[0191] 其中,所述基准页面元素集合Ε'η的计算公式为:
[0192] 优选地所述判断单元具体用于:
[0193] 提取所述所述基准页面元素集合En中的引用集合、所述真实页面元素集合 Rn中的引用集合ReA.以及所述期望页面元素集合中的引用集合Re& ,
[0194] 确定所述Re/&与所述Ke/4不相等,或,确定所述Re/&与所述Re不相等时, 确定所述被监测页面的逻辑被篡改;
[0195] 确定所述Re/&与所述Ke相等,且确定所述Re/&与所述Re^n相等时,确定 所述被监测页面的逻辑未被篡改。
[0196] 优选地,所述判断单元还用于:
[0197] 确定所述被监测页面的逻辑未被篡改时,将所述基准页面元素集合E' n中所有 元素的哈希值按照预设规则排序后进行哈希计算,得到所述基准页面集合哈希值 Vaiuefr.;
[0198] 将所述真实页面元素集合1^中所有元素的哈希值按照预设规则排序后进行哈希 计算,得到所述真实页面集合Rn的哈希值胃;
[0199] 确定所述不等于所述时,确定所述被监测页面的内容被篡改;
[0200] 确定所述等于所述时,确定所述被监测页面未被篡改。
[0201] 本发明实施例还提供了一种网页篡改识别装置,如图10所示,包括:
[0202] 第一响应单元1001,接收到扫描器在第一扫描周期内针对被监测页面发送的第 一页面请求时,将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描 器,所述被监测页面的期望页面元素集合为第二响应单元预计在第二扫描周期发送给所述 扫描器的所述被监测页面的页面元素集合;
[0203] 获取单元1002,用于接收到所述扫描器在所述第二扫描周期内针对所述被监测 页面发送的第二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述被监测 页面的真实页面元素集合,以及在设定时间段内网站侧保存的页面元素库中所有被合法修 改的页面元素对应的刷新页面元素集合,所述设定时间段为:响应所述第一页面请求的时 刻到响应所述第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周 期;
[0204] 第二响应单元1003,将所述真实页面元素集合以及所述刷新页面元素集合通过第 二页面响应发送给所述扫描器。
[0205] 基于上述实施例,任一页面元素由该页面元素对应的引用以及该页面元素对应的 哈希值表示。
[0206] 所述真实页面元素集合包括:所有真实页面元素对应的真实页面元素引用集合以 及所有真实页面元素对应的哈希值集合,优选地所述第二响应单元还用于:
[0207] 对所述哈希值集合进行哈希计算,得到所述真实页面元素集合的哈希值;
[0208] 将所述真实页面元素引用集合以及所述真实页面元素集合的哈希值插入第二页 面响应中并通过所述第二页面响应发送给所述扫描器。
[0209] 优选地,所述第二响应单元还用于:
[0210] 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定 时间段内所述被监测页面被合法刷新的页面元素集合SRn;
[0211] 将所述被监测页面被合法刷新的页面元素集合SIUi过第二页面响应发送给所述 扫描器。
[0212] 优选地,所述第二响应单元具体用于:
[0213] 将所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合按 照预设算法进行加密或数字签名;
[0214] 将加密后的期望页面元素集合、真实页面元素集合以及刷新页面元素集合插入第 二页面响应中,并通过第二页面响应发送给所述扫描器。
[0215] 本发明实施例还提供一种网页篡改识别系统,包括:
[0216] 扫描器,用于接收网站侧设备通过第一页面响应发送的被监测页面的期望页面元 素集合,所述被监测页面的期望页面元素集合为网站侧设备预计在第二扫描周期发送给所 述扫描器的所述被监测页面的页面元素集合;接收网站侧设备通过第二页面响应发送的真 实页面元素集合以及刷新页面元素集合,所述真实页面元素集合为网站侧设备在第二扫描 周期内真实响应给所述扫描器的所述被监测页面的页面元素集合,所述刷新页面元素集合 为在设定时间段内所述网站侧设备保存的页面元素库中所有被合法修改的页面元素对应 的页面元素集合,所述设定时间段为:网站侧设备响应所述第一页面请求的时刻到响应所 述第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周期;根据所 述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合,计算基准页面 元素集合;根据所述基准页面元素集合、所述真实页面元素集合以及所述期望页面元素集 合,判断所述被监测页面是否被篡改;
[0217] 网站侧设备,用于接收到扫描器在第一扫描周期内针对被监测页面发送的第一页 面请求时,将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器, 所述被监测页面的期望页面元素集合为网站侧设备预计在第二扫描周期发送给所述扫描 器的所述被监测页面的页面元素集合;接收到所述扫描器在所述第二扫描周期内针对所述 被监测页面发送的第二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述 被监测页面的真实页面元素集合,以及在设定时间段内网站侧设备保存的页面元素库中所 有被合法修改的页面元素对应的刷新页面元素集合;将所述真实页面元素集合以及所述刷 新页面元素集合通过第二页面响应发送给所述扫描器。
[0218] 利用本发明实施例提供的网页篡改识别方法、扫描器、装置及系统,具有以下有益 效果:通过考虑被合法刷新的页面元素集合,提高了页面篡改识别的准确性,并通过利用上 一周期获取的期望页面和本周期的真实页面以及在设定时间段内被合法刷新的页面元素 集合,能够实现在扫描器侧判断被监测页面是否被篡改,即站在客户端的角度对网页篡改 进行识别,避免了现有技术的网页篡改识别方法无法准确判断网页是否被篡改的情况。同 时可准确、快捷地判定页面篡改,无漏报、误报,并且可识别并监测动态页面脚本篡改及静 态页面素材的篡改,不影响网站合法更新,不产生网站的正常内容更新的误报。
[0219] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一 流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算 机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理 器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生 用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能 的装置。
[0220] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0221] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图 一个方框或多个方框中指定的功能的步骤。
[0222] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造 性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优 选实施例以及落入本发明范围的所有变更和修改。
[0223] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1. 一种网页篡改识别方法,其特征在于,包括:接收网站侧通过第一页面响应发送的被监测页面的期望页面元素集合,所述被监测页 面的期望页面元素集合为网站侧预计在第二扫描周期发送给所述扫描器的所述被监测页 面的页面元素集合;接收网站侧通过第二页面响应发送的真实页面元素集合以及刷新页面元素集合,所述 真实页面元素集合为网站侧在第二扫描周期内真实响应给所述扫描器的所述被监测页面 的页面元素集合,所述刷新页面元素集合为在设定时间段内所述网站侧保存的页面元素库 中所有被合法修改的页面元素对应的页面元素集合,所述设定时间段为:网站侧响应所述 第一页面请求的时刻到响应所述第二页面请求的时刻对应的时间段,所述第一扫描周期早 于所述第二扫描周期;根据所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合,计 算基准页面元素集合;根据所述基准页面元素集合、所述真实页面元素集合以及所述期望页面元素集合,判 断所述被监测页面是否被篡改。
2. 如权利要求1所述的方法,其特征在于,任一页面元素由该页面元素对应的引用以 及该页面元素对应的哈希值表示。
3. 如权利要求2所述的方法,其特征在于,根据所述期望页面元素集合、所述真实页面 元素集合以及所述刷新页面元素集合,计算基准页面元素集合,具体包括: 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定时间 段内所述被监测页面被合法刷新的页面元素集合SRn;根据所述被监测页面被合法刷新的页面元素集合补集%、期望页面元素集合En,计算所述承;与En交集尽fl痛:;根据所述尽flM以及所述SRn,确定基准页面元素集合E'n;其中,所述基准页面元素集合E'n的计算公式为:
4. 如权利要求3所述的方法,其特征在于,所述根据所述基准页面元素集合、所述真实 页面元素集合以及所述期望页面元素集合,判断所述被监测页面是否被篡改,具体包括: 提取所述所述基准页面元素集合En中的引用集合Re./<、所述真实页面元素集合&中 的引用集合Re/%以及所述期望页面元素集合中的引用集合Re ;确定所述与所述Re/式不相等,或,确定所述Re/^与所述Re/、不相等时,确定 所述被监测页面的逻辑被篡改;确定所述与所述相等,且确定所述Re.A/:l,与所述Re/i?"相等时,确定所述 被监测页面的逻辑未被篡改。
5. 如权利要求4所述的方法,其特征在于,确定所述被监测页面的逻辑未被篡改时,还 包括: 将所述基准页面元素集合E'n中所有元素的哈希值按照预设规则排序后进行哈希计算,得到所述基准页面集合E' "的哈希值;将所述真实页面元素集合Rn中所有元素的哈希值按照所述预设规则排序后进行哈希 计算,得到所述真实页面集合&的哈希值乂;确定所述va/?e&不等于所述时,确定所述被监测页面的内容被篡改;确定所述等于所述时,确定所述被监测页面未被篡改。
6. -种网页篡改识别方法,其特征在于,包括: 网站侧接收到扫描器在第一扫描周期内针对被监测页面发送的第一页面请求时,将所 述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器,所述被监测页面 的期望页面元素集合为网站侧预计在第二扫描周期发送给所述扫描器的所述被监测页面 的页面元素集合;网站侧接收到所述扫描器在所述第二扫描周期内针对所述被监测页面发送的第二页 面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述被监测页面的真实页面元 素集合,以及在设定时间段内所述网站侧保存的页面元素库中所有被合法修改的页面元素 对应的刷新页面元素集合,所述设定时间段为:响应所述第一页面请求的时刻到响应所述 第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周期;将所述真实页面元素集合以及所述刷新页面元素集合通过第二页面响应发送给所述 扫描器。
7. 如权利要求6所述的方法,其特征在于,任一页面元素由该页面元素对应的引用以 及该页面元素对应的哈希值表示。
8. 如权利要求7所述的方法,其特征在于,所述真实页面元素集合包括:所有真实页面 元素对应的真实页面元素引用集合以及所有真实页面元素对应的哈希值集合,该方法还包 括: 对所述哈希值集合进行哈希计算,得到所述真实页面元素集合的哈希值;将所述真实页面元素引用集合以及所述真实页面元素集合的哈希值插入第二页面响 应中并通过所述第二页面响应发送给所述扫描器。
9. 如权利要求6所述的方法,其特征在于,该方法还包括: 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定时间 段内所述被监测页面被合法刷新的页面元素集合SRn;将所述被监测页面被合法刷新的页面元素集合SRn通过第二页面响应发送给所述扫描器。
10. 如权利要求6所述的方法,其特征在于,将所述期望页面元素集合、所述真实页面 元素集合以及所述刷新页面元素集合通过第二页面响应发送给所述扫描器,具体包括: 将所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合按照预 设算法进行加密或数字签名;将加密后的期望页面元素集合、真实页面元素集合以及刷新页面元素集合插入第二页 面响应中,并通过第二页面响应发送给所述扫描器。
11. 一种网页篡改识别扫描器,其特征在于,包括: 第一接收单元,用于接收网站侧通过第一页面响应发送的被监测页面的期望页面元素 集合,所述被监测页面的期望页面元素集合为网站侧预计在第二扫描周期发送给第二接收 单元的所述被监测页面的页面元素集合;第二接收单元,用于接收网站侧通过第二页面响应发送的真实页面元素集合以及刷新 页面元素集合,所述真实页面元素集合为网站侧在第二扫描周期内真实响应给所述第二接 收单元的所述被监测页面的页面元素集合,所述刷新页面元素集合为在设定时间段内所述 网站侧保存的页面元素库中所有被合法修改的页面元素对应的页面元素集合,所述设定时 间段为:网站侧响应所述第一页面请求的时刻到响应所述第二页面请求的时刻对应的时间 段,所述第一扫描周期早于所述第二扫描周期;计算单元,根据所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元 素集合,计算基准页面元素集合;判断单元,用于根据所述基准页面元素集合、所述真实页面元素集合以及所述期望页 面元素集合,判断所述被监测页面是否被篡改。
12. 如权利要求11所述的扫描器,其特征在于,任一页面元素由该页面元素对应的引 用以及该页面元素对应的哈希值表示。
13. 如权利要求12所述的扫描器,其特征在于,所述计算单元具体用于: 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定时间 段内所述被监测页面被合法刷新的页面元素集合SRn;根据所述被监测页面被合法刷新的页面元素集合SRn的补集:%、期望页面元素集合En,计算所述与En交集H;根据所述尽n%以及所述SRn,确定基准页面元素集合E'n;其中,所述基准页面元素集合E'n的计算公式为:
14. 如权利要求13所述的扫描器,其特征在于,所述判断单元具体用于: 提取所述所述基准页面元素集合En中的引用集合Re./(、所述真实页面元素集合&中的引用集合?Re/S"以及所述期望页面元素集合中的引用集合Re/& ;确定所述Re/t与所述不相等,或,确定所述Re/&与所述Re/%不相等时,确定 所述被监测页面的逻辑被篡改;确定所述Re/&与所述相等,且确定所述Re/&与所述Re/&相等时,确定所述 被监测页面的逻辑未被篡改。
15. 如权利要求14所述的扫描器,其特征在于,所述判断单元还用于: 确定所述被监测页面的逻辑未被篡改时,将所述基准页面元素集合E'n中所有元素的哈希值按照预设规则排序后,进行哈希计算,得到所述基准页面集合E' n的哈希值将所述真实页面元素集合Rn中所有元素的哈希值按照所述预设规则排序后进行哈希 计算,得到所述真实页面集合Rn的哈希值;确定所述^不等于所述时,确定所述被监测页面的内容被篡改;确定所述等于所述时,确定所述被监测页面未被篡改。
16. -种网页篡改识别装置,其特征在于,包括: 第一响应单元,接收到扫描器在第一扫描周期内针对被监测页面发送的第一页面请求 时,将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器,所述被 监测页面的期望页面元素集合为第二响应单元预计在第二扫描周期发送给所述扫描器的 所述被监测页面的页面元素集合;获取单元,用于接收到所述扫描器在所述第二扫描周期内针对所述被监测页面发送的 第二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述被监测页面的真实 页面元素集合,以及在设定时间段内网站侧保存的页面元素库中所有被合法修改的页面元 素对应的刷新页面元素集合,所述设定时间段为:响应所述第一页面请求的时刻到响应所 述第二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周期;第二响应单元,将所述真实页面元素集合以及所述刷新页面元素集合通过第二页面响 应发送给所述扫描器。
17. 如权利要求16所述的装置,其特征在于,任一页面元素由该页面元素对应的引用 以及该页面元素对应的哈希值表示。
18. 如权利要求17所述的装置,其特征在于,所述真实页面元素集合包括:所有真实页 面元素对应的真实页面元素引用集合以及所有真实页面元素对应的哈希值集合,所述第二 响应单元还用于: 对所述哈希值集合进行哈希计算,得到所述真实页面元素集合的哈希值;将所述真实页面元素引用集合以及所述真实页面元素集合的哈希值插入第二页面响 应中并通过所述第二页面响应发送给所述扫描器。
19. 如权利要求16所述的装置,其特征在于,所述第二响应单元还用于: 计算所述真实页面元素集合Rn以及所述刷新页面元素集合Sn的交集,得到在设定时间 段内所述被监测页面被合法刷新的页面元素集合SRn;将所述被监测页面被合法刷新的页面元素集合SRn通过第二页面响应发送给所述扫描 器。
20. 如权利要求16所述的装置,其特征在于,所述第二响应单元具体用于: 将所述期望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合按照预 设算法进行加密或数字签名;将加密后的期望页面元素集合、真实页面元素集合以及刷新页面元素集合插入第二页 面响应中,并通过第二页面响应发送给所述扫描器。
21. -种网页篡改识别系统,其特征在于,包括: 扫描器,用于接收网站侧设备通过第一页面响应发送的被监测页面的期望页面元素集 合,所述被监测页面的期望页面元素集合为网站侧设备预计在第二扫描周期发送给所述扫 描器的所述被监测页面的页面元素集合;接收网站侧设备通过第二页面响应发送的真实页 面元素集合以及刷新页面元素集合,所述真实页面元素集合为网站侧设备在第二扫描周期 内真实响应给所述扫描器的所述被监测页面的页面元素集合,所述刷新页面元素集合为在设定时间段内所述网站侧设备保存的页面元素库中所有被合法修改的页面元素对应的页 面元素集合,所述设定时间段为:网站侧设备响应所述第一页面请求的时刻到响应所述第 二页面请求的时刻对应的时间段,所述第一扫描周期早于所述第二扫描周期;根据所述期 望页面元素集合、所述真实页面元素集合以及所述刷新页面元素集合,计算基准页面元素 集合;根据所述基准页面元素集合、所述真实页面元素集合以及所述期望页面元素集合,判 断所述被监测页面是否被篡改;网站侧设备,用于接收到扫描器在第一扫描周期内针对被监测页面发送的第一页面请 求时,将所述被监测页面的期望页面元素集合通过第一页面响应发送给所述扫描器,所述 被监测页面的期望页面元素集合为所述网站侧设备预计在第二扫描周期发送给所述扫描 器的所述被监测页面的页面元素集合;接收到所述扫描器在所述第二扫描周期内针对所述 被监测页面发送的第二页面请求时,获取在第二扫描周期内真实响应给所述扫描器的所述 被监测页面的真实页面元素集合,以及在设定时间段内所述网站侧设备保存的页面元素库 中所有被合法修改的页面元素对应的刷新页面元素集合;将所述真实页面元素集合以及所 述刷新页面元素集合通过第二页面响应发送给所述扫描器。
【文档编号】G06F21/55GK104484604SQ201410857217
【公开日】2015年4月1日 申请日期:2014年12月31日 优先权日:2014年12月31日
【发明者】李瀛, 郭朝晖, 古琳莹 申请人:北京神州绿盟信息安全科技股份有限公司, 北京神州绿盟科技有限公司