一种页面篡改的综合检测方法及系统的制作方法

文档序号:6380085阅读:164来源:国知局
专利名称:一种页面篡改的综合检测方法及系统的制作方法
技术领域
本发明涉及计算机安全技术领域,尤其涉及一种页面篡改的综合检测方法及系统。
背景技术
随着互联网技术的不断发展,互联网已经成为人们信息获取和信息交流不可或缺的工具,从而为人们的工作、生活带来了很多便捷。但如此同时,互联网网站也容易成为黑客攻击的目标,网站页面被黑客篡改的事件时有发生,一旦打开被篡改的页面就很容易感染网站上的病毒。
目前对页面篡改的监测技术通常采用文本相似度检测,而文本相似度检测主要是将待检测页面的文本与预存的正常页面的文本进行对比,通过设置的阈值判断待检测页面是否为篡改页面,例如,当相似度低于某个阈值时,就认为待检测页面是篡改页面,而超过某个阈值时,则认为是非篡改页面。但是,由于文本相似度检测主要是通过预设的阈值判断两个页面之间的相似度,若阈值设置过高则容易造成误报,若阈值设置过低又容易产生漏报;另外,若一个网站的某个页面是发布新闻的页面,因此该页面的页面内容会实时变化,当将该页面的文本与预存页面的文本进行比较时,该页面与预存页面的相似度会极低,而这种相似度低的页面却不属于篡改页面的范畴,但是如果采用现有的文本相似度检测却会被误认为是篡改页面。

发明内容
本发明的目的在于提供一种页面篡改的综合检测方法及系统,以解决现有技术中页面篡改的误报漏报问题。本发明的第一个方面是提供一种页面篡改的综合检测方法,包括获取当前检测页面的属性信息;确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。本发明的另一个方面是提供一种页面篡改的综合检测系统,包括获取模块,用于获取当前检测页面的属性信息,所述当前检测页面的属性信息包括页面内容的长度、页面的返回码信息;检测模块,用于若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;判定模块,用于若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。采用上述本发明技术方案的有益效果是本发明通过预设的恶意属性规则与当前检测页面的属性信息进行匹配,并在当前检测页面的属性信息与预设的恶意属性规则不匹配时,进一步对当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面,当至少有两项检测结果确定当前检测页面是疑似篡改页面时,则确定当前检测页面为篡改页面。因本发明的方法能够实现从多方位多角度对页面进行检测,从而减少了页面篡改的误报和漏报问题,使得对页面篡改的检测结果更加精准。


图I为本发明实施例一提供的一种页面篡改的综合检测方法的流程示意图;图2为本发明实施例二提供的一种页面篡改的综合检测系统的结构示意图。
具体实施例方式图I为本发明实施例一提供的一种页面篡改的综合检测方法的流程示意图,如图I所述,所述页面篡改的综合检测方法可以包括如下步骤步骤101,获取当前检测页面的属性信息;步骤102,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;步骤103,若至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。在本实施例中,执行主体可以是页面篡改的综合检测系统,该系统首先截获需要进行检测的检测页面,从而获取当前检测页面的属性信息,所述当前检测页面的属性信息包括页面内容的长度、页面的返回码信息等。在该系统中,预先存储了一系列的恶意属性规贝U,例如页面内容的长度阈值、页面的错误返回码的集合等。系统则根据获取的当前检测页面的页面内容的长度、页面的返回码信息在预先存储的恶意属性规则中进行查找,并判断当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,例如,若系统获取的当前检测页面的页面返回码不属于预先设置的页面的错误返回码的集合中的任一个、系统获取的当前检测页面的页面内容的长度未达到预先设置的页面内容的长度阈值,则可以确定当前检测页面的属性信息与预先存储的恶意属性规则不匹配。此时,系统进一步对当前检测页面分别进行页面元素匹配、页面变化率和页面内容的检测,并分别根据页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面。例如,在本实施例中,如对当前检测页面进行页面元素匹配的检测时,若检测结果为匹配,则可以确定当前检测页面为疑似篡改页面;如对当前检测页面进行页面变化率的检测时,若页面变化率大于预设的变化率阈值,则可以确定当前检测页面为疑似篡改页面;如对当前检测页面进行页面内容的检测时,若当前检测页面的页面内容为恶意页面的概率大于当前检测页面的页面内容为非恶意页面的概率,则可以确定当前检测页面为疑似篡改页面。系统则根据上述三项检测结果综合确定当前检测页面是否为篡改页面,若在上述三项检测结果中至少有两项检测结果可以确定当前检测页面是疑似篡改页面,则系统可以确定当前检测页面为篡改页面。本实施例提供的页面篡改的综合检测方法,通过预设的恶意属性规则与当前检测页面的属性信息进行匹配,并在当前检测页面的属性信息与预设的恶意属性规则不匹配时,进一步对当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面,当至少有两项检测结果确定当前检测页面是疑似篡改页面时,则确定当前检测页面为篡改页面。因本发明的方法能够实现从多方位多角度对页面进行检测,从而减少了页面篡改的误报和漏报问题,使得对页面篡改的检测结果更加精准。进一步的,在上述实施例中,系统判断当前检测页面的属性信息与预先存储的恶 意属性规则是否匹配,具体为,例如,若系统获取的当前检测页面的页面返回码属于预先设置的页面的错误返回码的集合中的一个或系统获取的当前检测页面的页面内容的长度达到预先设置的页面内容的长度阈值,则可以确定当前检测页面的属性信息与预先存储的恶意属性规则匹配,此时,系统则可以直接确定当前检测页面为篡改页面。具体地,在上述实施例中,系统对当前检测页面进行页面变化率的检测,并根据所述页面变化率的检测结果确定当前检测页面是否为疑似篡改页面的检测结果,具体为系统获取当前检测页面的页面内容和预先设置的参照页面的页面内容;根据预设的恶意语料库并通过算法分别将当前检测页面的页面内容和预先设置的参照页面的页面内容转换为词语组文档SI和S2,并根据词语组文档SI和S2确定所述当前检测页面和预先设置的参照页面之间的相似度R,通过T=I-R得到页面变化率T的值,若页面变化率T大于预设的变化率阈值,则可以确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。在本实施例中,所述恶意语料库可以包括预先收集的恶意页面中的至少一个恶意词语以及所述至少一个恶意词语在所述恶意页面中出现的次数。具体的,在本实施例中,页面篡改的综合检测系统中预先存储有恶意语料库,其包括预先收集的恶意页面中的至少一个恶意词语以及该至少一个恶意词语在恶意页面中出现的次数。而本实施例中所指的算法是指在生成词语组文档的同时,会考虑文档中词语、句子的上下文关系,并根据词语在恶意语料库中查找该词语对应的出现次数来将一个文档的上下文进行词语的切分,从而生成文档中词语长度K值可变的词语组文档,其具体过程举例说明如下例如,给定一个文档B= “解释器是比较深入的办理假证内容”,按照上述方法对其生成词语组文档b,若预设的恶意语料库如下表I所示,且给定的词语长度K的最大值为4,则首先从文档B的第一个字符开始,截取第一组K=f 4的词语组bl=(解、解释、解释器、解释器是),然后分别在恶意语料库中查找bl中的各词语对应的出现次数,并将出现次数较高的词语放入文档b中。例如,通过上述方法查找可知,bl中出现次数较高的词语为“解释器”,因此,将“解释器”放入文档b中;然后按照上述方法继续解析文档B中剩下的内容,从“解释器”后的第一个字符开始,即生成词语组b2=(是、是比、是比较、是比较深),通过查找表I可知,“是”的出现的次数最高,因此,将“是”依次放入文档b中;根据上述方法对文档B完成解析,最后生成的文档b=(解释器、是、比较、深入、的、办理、假证、内容)。如果根据上述方法生成的方档b中有重复的词语出现,则只保留其中的一个词语,并删除其余重复的词语。表I :
权利要求
1.一种页面篡改的综合检测方法,其特征在于,包括 获取当前检测页面的属性信息; 确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面; 若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。
2.根据权利要求I所述的方法,其特征在于,还包括 若所述当前检测页面的属性信息与预设的恶意属性规则匹配,则确定当前检测页面为 篡改页面。
3.根据权利要求I或2所述的方法,其特征在于,所述恶意属性规则包括错误返回码集合和页面内容长度阈值;所述确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,具体包括 获取当前检测页面的页面内容的长度、页面的返回码; 若所述页面返回码属于所述错误返回码集合中的一个或所述页面内容的长度达到所述页面内容的长度阈值,则确定当前检测页面的属性信息与预先存储的恶意属性规则匹配,否则确定当前检测页面的属性信息与预先存储的恶意属性规则不匹配。
4.根据权利要求I或2所述的方法,其特征在于,所述对所述当前检测页面进行页面变化率的检测,并根据所述页面变化率的检测结果确定当前检测页面是否为疑似篡改页面的检测结果,具体包括 获取当前检测页面的页面内容和预先设置的参照页面的页面内容; 根据预设的恶意语料库并通过算法分别将所述当前检测页面的页面内容和预先设置的参照页面的页面内容转换为词语组文档SI和S2,所述恶意语料库包括预先收集的恶意页面中的至少一个恶意词语以及所述至少一个恶意词语在所述恶意页面中出现的次数; 根据所述词语组文档SI和S2确定所述当前检测页面和预先设置的参照页面之间的相似度R; 若页面变化率T大于变化率阈值,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面,其中T=l-R。
5.根据权利要求4所述的方法,其特征在于,所述对所述当前检测页面进行页面元素匹配的检测,并根据所述页面元素匹配的检测结果确定当前检测页面是否为疑似篡改页面,具体包括 获取当前检测页面的页面标签; 根据所述页面标签获取与所述页面标签相对应的标签内容; 对所述标签内容进行消息摘要算法第五版MD5计算,获得与所述标签内容相对应的MD5 码; 若预设的恶意特征码集合中存在与所述MD5码相同的恶意特征码,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
6.根据权利要求4所述的方法,其特征在于,所述对所述当前检测页面进行页面内容的检测,并根据所述页面内容的检测结果确定当前检测页面是否为疑似篡改页面,具体包括 获取当前检测页面的页面内容,所述页面内容包括词语Wi,其中I < i < η,η为所述页面内容包括的词语总数; 通过以下公式分别计算所述当前检测页面为恶意页面的概率和为非恶意页面的概率
7.一种页面篡改的综合检测系统,其特征在于,包括 获取模块,用于获取当前检测页面的属性信息,所述当前检测页面的属性信息包括页面内容的长度、页面的返回码信息; 检测模块,用于若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面; 判定模块,用于若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。
8.根据权利要求7所述的系统,其特征在于,所述判定模块还用于 若所述当前检测页面的属性信息与预设的恶意属性规则匹配,则确定当前检测页面为篡改页面。
9.根据权利要求7或8所述的系统,其特征在于,所述恶意属性规则包括错误返回码集合和页面内容长度阈值;所述检测模块具体用于 获取当前检测页面的页面内容的长度、页面的返回码; 若所述页面返回码属于所述错误返回码集合中的一个或所述页面内容的长度达到所述页面内容的长度阈值,则确定当前检测页面的属性信息与预先存储的恶意属性规则匹配,否则确定当前检测页面的属性信息与预先存储的恶意属性规则不匹配。
10.根据权利要求7或8所述的系统,其特征在于,所述检测模块具体用于 获取当前检测页面的页面内容和预先设置的参照页面的页面内容; 根据预设的恶意语料库并通过算法分别将所述当前检测页面的页面内容和预先设置的参照页面的页面内容转换为词语组文档SI和S2,所述恶意语料库包括预先收集的恶意页面中的至少一个恶意词语以及所述至少一个恶意词语在所述恶意页面中出现的次数;根据所述词语组文档SI和S2确定所述当前检测页面和预先设置的参照页面之间的相似度R; 若页面变化率T大于变化率阈值,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面,其中T=l-R。
11.根据权利要求10所述的系统,其特征在于,所述检测模块具体还用于 获取当前检测页面的页面标签; 根据所述页面标签获取与所述页面标签相对应的标签内容; 对所述标签内容进行消息摘要算法第五版MD5计算,获得与所述标签内容相对应的MD5 码; 若预设的恶意特征码集合中存在与所述MD5码相同的恶意特征码,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
12.根据权利要求10所述的系统,其特征在于,所述检测模块具体还用于 获取当前检测页面的页面内容,所述页面内容包括词语Wi,其中I < i <η,η为所述页面内容包括的词语总数; 通过以下公式分别计算所述当前检测页面为恶意页面的概率和为非恶意页面的概率
全文摘要
本发明提供一种页面篡改的综合检测方法及系统,所述方法包括获取当前检测页面的属性信息;确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。本发明的方法能够实现从多方位多角度对页面进行检测,从而减少了页面篡改的误报和漏报问题,使得对页面篡改的检测结果更加精准。
文档编号G06F17/30GK102938041SQ201210424499
公开日2013年2月20日 申请日期2012年10月30日 优先权日2012年10月30日
发明者张鸿勋, 王帅, 卢梁 申请人:北京神州绿盟信息安全科技股份有限公司, 北京神州绿盟科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1