一种页面变更模版自动生成方法与流程

文档序号:12271505阅读:259来源:国知局
本发明涉及信息安全领域,具体涉及一种页面变更模版自动生成方法。
背景技术
:经对现有技术的文献检索发现,中国专利申请号CN201310124832.X,
专利名称:“一种WEB应用系统内容变更的检测方法及系统”,提供了一种WEB应用系统内容变更的检测方法及系统,该方法及系统通过将抓取到的网站网页内容以页面文件为单元存储在检测页面积累库中,并记录该网站被检测的次数;利用保存的检测次数和抓取到的页面文件是否存在来判断该网站是否为新网站和该网页是否为新网页;判断该网页文件中所包含的存储元素与历史保存的该网页文件中所包含的存储元素是否相同,如果检测为发生变更则输出检测结果。但是它只能检测静态页面,不能检测同态页面,无法对WEB应用系统内容进行全方位的检测,网页检测的准确度低,并且对异常的页面篡改进行报警,安全性能低。本发明提供的方法及系统,对WEB应用系统内容进行了全方位的检测,从页面特征库码、页面内容元素和页面动态或者静态内容精细化定位页面内容变更的具体原因,从而取得网页检测的准确度,为WEB应用系统内容变更的检测提供了方便。中国专利申请号CN201210299813.6,
专利名称:“一种检测内容变更的方法和装置”,公开一种检测内容变更的方法和装置,涉及自然语言处理领域,可以提高识别广告主内容变更的准确率,降低错误报警。本发明实施例通过分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。本发明实施例适合检测广告主内容是否变更时采用。技术实现要素:本发明的目的在于针对现有技术的缺陷和不足,提供一种设计合理、使用方便的页面变更模版自动生成方法,用于在页面变更检测时,针对动态页面生成通用化的模版,可以只检测页面的静态部分,减少和避免误报发生。为实现上述目的,本发明所述的页面变更模版自动生成方法,它包含如下步骤:一、通过对目标页面进行远程抓取,获得首次快照;二、经过一段时间,一般是一天以后,进行第二次抓取,通过计算MD5值并与快照的MD5值进行比较,确定页面是否发生变更;三、如果页面发生变更,其公共部分生成新的快照,计算方法如下:对页面逐行或逐标签生成校验码,为每行或每个标签生成一个64位二进制校验码,由此产生一个64位二进制数字组成的校验码数组;校验码计算方法如下:输入数据平均分为8段,每段内部所有字符进行异或运算,生成一个8位二进制数,各段结果连接在一起,生成校验码;采用Needleman/Wunsch算法对两次抓取的页面进行比较,得到匹配的行或标签列表,Needleman/Wunsch算法举例说明如下:假设生成的校验码数组是:A=GGATCGA,B=GAATTCAGTTA使用两个校验码数组组成二维表格,一个数组沿顶部展开,一个数组沿左侧展开,见表1:表1.两个校验码数组组成二维表格GAATTCAGTTA000000000000G0G0A0T0C0G0A0采用公式计算填表:若ai=bj,则LCS(i,j)=LCS(i-1,j-1)+1若ai≠bj,则LCS(i,j)=Max(LCS(i-1,j-1),LCS(i-1,j),LCS(i,j-1))得到结果,见表2:表2.两个校验码数组的计算结果GAATTCAGTTA000000000000G011111111111G011111112222A012222222222T012233333333C012233444444G012233345555A012333345556对以上矩阵进行回溯,若ai≠bj,回溯到左上角、上边、左边中值最大的单元格,若有相同最大值的单元格,优先级按照左上角、上边、左边的顺序,得到以下结果:G_AATTCAGTTAGGA_T_C_G__A相同的部分就是需要获得的静态行或静态标签,将其存储下来,就获得需要的快照;四、重复二和三步骤,就可以获得精确的变更快照。本发明采用的系统为网络设备漏洞的地理分布评估系统;所述的网络设备漏洞的地理分布评估系统内设有页面变更监控管理中心;页面变更监控管理中心内设有页面抓取模块、页面分析检测模块/快照库、异常变更告警模块;页面抓取模块对目标页面进行远程抓取,获得首次快照,经过一段时间,一般是一天以后,进行第二次抓取;页面分析检测模块/快照库比较次抓取的页面不同,取其公共部分生成新的快照,以后再经过若干次抓取,均与原有快照比较,取其公共部分生成新的快照,反复迭代后可以形成最优的快照;异常变更告警模块随时对异常的页面篡改进行报警;采用上述结构后,本发明有益效果为:本发明所述的一种页面变更模版自动生成方法,通过自动生成动态页面的变更模版,有效解决了页面变更检测只能检测静态页面,不能检测同态页面的问题,并通过实现网站页面的全面变更检测,过滤正常的页面变化,可以随时对异常的页面篡改进行报警,提升网站的安全性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是网络设备漏洞的地理分布评估系统结构图。具体实施方式下面结合附图,对本发明作进一步的说明。本发明实施例采用的方法包含如下步骤:一、通过对目标页面进行远程抓取,获得首次快照;二、经过一段时间,一般是一天以后,进行第二次抓取,通过计算MD5值并与快照的MD5值进行比较,确定页面是否发生变更;三、如果页面发生变更,其公共部分生成新的快照,计算方法如下:对页面逐行或逐标签生成校验码,为每行或每个标签生成一个64位二进制校验码,由此产生一个64位二进制数字组成的校验码数组;校验码计算方法如下:输入数据平均分为8段,每段内部所有字符进行异或运算,生成一个8位二进制数,各段结果连接在一起,生成校验码;采用Needleman/Wunsch算法对两次抓取的页面进行比较,得到匹配的行或标签列表,Needleman/Wunsch算法举例说明如下:假设生成的校验码数组是:A=GGATCGA,B=GAATTCAGTTA使用两个校验码数组组成二维表格,一个数组沿顶部展开,一个数组沿左侧展开,见表1:表1.两个校验码数组组成二维表格采用公式计算填表:若ai=bj,则LCS(i,j)=LCS(i-1,j-1)+1若ai≠bj,则LCS(i,j)=Max(LCS(i-1,j-1),LCS(i-1,j),LCS(i,j-1))得到结果,见表2:表2.两个校验码数组的计算结果GAATTCAGTTA000000000000G011111111111G011111112222A012222222222T012233333333C012233444444G012233345555A012333345556对以上矩阵进行回溯,若ai≠bj,回溯到左上角、上边、左边中值最大的单元格,若有相同最大值的单元格,优先级按照左上角、上边、左边的顺序,得到以下结果:G_AATTCAGTTAGGA_T_C_G__A相同的部分就是需要获得的静态行或静态标签,将其存储下来,就获得需要的快照;四、重复二和三步骤,就可以获得精确的变更快照。参看图1所示,本发明实施例采用的系统为网络设备漏洞的地理分布评估系统;所述的网络设备漏洞的地理分布评估系统内设有页面变更监控管理中心;页面变更监控管理中心内设有页面抓取模块、页面分析检测模块/快照库、异常变更告警模块;页面抓取模块对目标页面进行远程抓取,获得首次快照,经过一段时间,一般是一天以后,进行第二次抓取;页面分析检测模块/快照库比较次抓取的页面不同,取其公共部分生成新的快照,以后再经过若干次抓取,均与原有快照比较,取其公共部分生成新的快照,反复迭代后可以形成最优的快照;异常变更告警模块随时对异常的页面篡改进行报警;本发明实施例的有益效果为:通过自动生成动态页面的变更模版,有效解决了页面变更检测只能检测静态页面,不能检测同态页面的问题,并通过实现网站页面的全面变更检测,过滤正常的页面变化,可以随时对异常的页面篡改进行报警,提升网站的安全性。以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1