一种自动进行网站分析的方法及装置制造方法

文档序号:6486787阅读:130来源:国知局
一种自动进行网站分析的方法及装置制造方法
【专利摘要】本发明提供了一种自动进行网站分析的方法及装置,其中自动进行网站分析的方法包括:A.从到达网站的请求数据中获取一个以上的链接地址;B.利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;C.将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。通过上述方式,能够很方便地对网站进行监控,提高网站运行的效率。
【专利说明】一种自动进行网站分析的方法及装置
【【技术领域】】
[0001]本发明涉及数据处理技术,特别涉及一种自动进行网站分析的方法及装置。
【【背景技术】】
[0002]网站向用户提供服务,是通过各种各样的网页文件实现的,而这些网页文件在网站上,是通过各种目录进行组织的。在网站提供服务的过程中,作为网站的维护人员,很可能需要对网站中提供服务的网页文件进行修改,包括对网页文件本身进行修改,或者对通向网页文件的路径(即通向网页文件的各个目录)进行修改,这导致网站在运行一段时间以后,结构就可能发生很大的变化。以往在网站规模不大的情况下,还可以通过人工的方式来了解网站结构发生的变化,以及时了解网站的情况,监控网站的运行。但是随着互联网技术的发展,网站提供的服务越来越多,规模也越来越大,这使得仅靠人工的手段,就很难窥探整个网站的全貌了,因此难免造成网站监控的困难,导致网站运行的效率降低。

【发明内容】

[0003]本发明所要解决的技术问题是提供一种自动进行网站分析的方法及装置,以提高网站运行的效率。
[0004]本发明为解决技术问题而采用的技术方案是提供一种自动进行网站分析的方法,包括:A.从到达网站的请求数据中获取一个以上的链接地址;B.利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;C.将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。
[0005]根据本发明之一优选实施例,所述步骤A中通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。
[0006]根据本发明之一优选实施例,所述步骤B包括:B1.将获取的链接地址拆分为主域和各级目录的形式;B2.利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。[0007]根据本发明之一优选实施例,根据统计到的同级目录中的出现值确定同级目录的可能取值的步骤包括:当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的出现值中的最小值,该级目录的可能取值的上限为统计到的出现值中的最大值;当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的每个出现值;当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串。
[0008]根据本发明之一优选实施例,所述步骤C包括:将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对;当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向所述历史链接地址发出访问请求,并且在所述访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址;当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。
[0009]根据本发明之一优选实施例,所述方法在所述步骤C前进一步包括:在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为所述网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值;并且,所述方法在所述步骤C中进一步将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断所述网站中的文件是否存在参数变更。
[0010]根据本发明之一优选实施例,所述方法在步骤A后进一步包括:将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。
[0011]本发明还提供了一种自动进行网站分析的装置,包括:抓取单元,用于从到达网站的请求数据中获取一个以上的链接地址;确定单元,用于利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;比对单元,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。
[0012]根据本发明之一优选实施例,所述抓取单元通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。
[0013]根据本发明之一优选实施例,所述确定单元包括:拆分单元,用于将获取的链接地址拆分为主域和各级目录的形式;第一统计单元,用于利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。
[0014]根据本发明之一优选实施例,所述第一统计单元根据统计到的同级目录中的出现值确定同级目录的可能取值的方式包括:当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的该级目录中的出现值中的最小值,该级目录的可能取值的上限为统计到的该级目录中的出现值的最大值;当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的该级目录中的每个出现值;当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串。
[0015]根据本发明之一优选实施例,所述比对单元包括:范围比对单元,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对;链接确定单元,用于当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向所述历史链接地址发出访问请求,并且在所述访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址;所述链接确定单元还用于当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。
[0016]根据本发明之一优选实施例,所述装置进一步包括第二统计单元,用于在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为所述网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值;并且,所述比对单元进一步用于将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断所述网站中的文件是否存在参数变更。
[0017]根据本发明之一优选实施例,所述装置进一步包括:检测单元,用于将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。
[0018]由以上技术方案可以看出,本发明通过利用用户向网站发送的请求数据,能够对该网站提供服务的各个链接地址进行有效统计,从而充分地了解该网站的当前结构,并通过与网站的历史结构相比较,可以及时地了解网站发生的各种变更,以方便对网站进行监控,从而提闻网站运彳丁的效率。
【【专利附图】

【附图说明】】
[0019]图1为本发明中自动进行网站分析的方法的流程示意图;
[0020]图2为本发明中链接地址范围比对的示意图;
[0021]图3为本发明中自动进行网站分析的装置的实施例一的结构示意框图;
[0022]图4为本发明中确定单元的实施例的结构示意框图;
[0023]图5为本发明中比对单元的实施例的结构示意框图;
[0024]图6为本发明中自动进行网站分析的装置的实施例二的结构示意框图;
[0025]图7为本发明中自动进行网站分析的装置的实施例三的结构示意框图。
【【具体实施方式】】`
[0026]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0027]请参考图1。图1为本发明中自动进行网站分析的方法的流程示意图。如图1所示,该方法包括:
[0028]步骤SlOl:从到达网站的请求数据中获取一个以上的链接地址。
[0029]步骤S102:利用获取的链接地址确定该网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值。
[0030]步骤S103:将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断该网站是否存在新增链接地址或失效链接地址。
[0031 ] 下面对上述步骤进行具体说明。
[0032]步骤SlOl中,通过旁路镜像系统抓取到达网站的请求数据,并从请求数据中提取链接地址。旁路镜像系统的作用是将到达网站的原请求数据复制为一份新的数据,这样原请求数据会继续原有的交互行为,而复制的新的数据可用作其他的处理,在本发明中,正是利用旁路镜像系统复制的数据进行后续的处理的。请求数据中包含了一些与通讯协议相关的信息,还包括了所请求的页面链接地址,步骤SlOl中会从请求数据中提取这些链接地址。可以理解,对于一个网站来说,数据请求都是并发的,因此通常来说,步骤SlOl中可以获取到大量的请求数据并提取出很多的链接地址。
[0033]链接地址是具有层级关系的,链接地址的首级通常表示的是提供服务的主域,在主域之后依次为各级目录,当一个链接地址到达最后一级目录的时候,实际上就对应了网站上的一个网页文件。例如一个完整的链接地址为:jul1.baidu.com/zhuanli/jiagou的形式,其中“/”为链接地址的分隔符,该分隔符将一个完整的链接地址分为了若干部分,其中第一部分“ jul1.baidu.com”表示主域,后面的“zhuanli”和“ jiagou”依次为第一级和
第二级目录。
[0034]具体地,步骤S102包括:
[0035]步骤S1021:将获取的链接地址拆分为主域和各级目录的形式;
[0036]步骤S1022:利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。
[0037]根据上面的叙述可以理解步骤S1021中利用链接地址中的分隔符即可把每个链接地址拆分为主域和各级目录的形式。
[0038]步骤S1022具体包括了:
[0039]步骤S1022_l:将步骤S1021处理后的链接地址按照主域进行分类,将相同主域的链接地址分为一类。
[0040]步骤S1022_2:针对相同主域的链接地址,统计这些链接地址中同级目录中的出现值。
[0041]步骤S1022_3:根据统计到的同级目录中的出现值确定同级目录的可能取值。
[0042]例如下面这些链接地址:
[0043]“ting, baidu.com/artist/1157”、“ting.baidu.com/artist/1107,,、
[0044]“ting, baidu.com/artist/1130”、“ting.baidu.com/album/1474,,、
[0045]“ting, baidu.com/album/1430”、“ting, baidu.com/album/1425”、
[0046]“zhida0.baidu.com/team/74”、“zhida0.baidu.com/team/80”、
[0047]“zhida0.baidu.com/team/65”、“zhida0.baidu.com/team/60”
[0048]上面的链接地址中,有两个不同的主域,分别是“ting, baidu.com”和“zhida0.baidu.com”。对“ting, baidu.com”这个主域,统计上述链接地址,得到第一级目录中的出现值有“artist”和“album”,针对第一级目录“artist”,第二级目录中的出现值有“1157”、“1107”、“ 1130”,针对第一级目录“album”,第二级目录中的出现值有“ 1474”、“ 1430”、“1425”。对“zhida0.baidu.com”这个主域,统计上述链接地址,得到第一级目录中的出现值有“team”,针对第一级目录“team”,第二级目录中的出现值有“74”、“80”、“65”、“60”。
[0049]在步骤S1022_3中根据统计到的同级目录中的出现值确定同级目录的可能取值具体包括:
[0050]A.当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的出现值中的最小值,该级目录的可能取值的上限为统计到的出现值中的最大值。
[0051]B.当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的每个出现值。
[0052]C.当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任
意字符串。
[0053]确定某级目录中的出现值是哪种类型,包括且不限于以下策略:
[0054]当出现值为分布范围大于预设值的数字时,确定该级目录中的出现值为数字型;[0055]当出现值的集合中的个数不超过预设值时,确定该级目录中的出现值为枚举型;
[0056]当出现值为字符且不属于枚举型时,确定该级目录中的出现值为字符串型,应该理解这里的字符可以是字母,或者,字母与数字的组合。
[0057]通过步骤SlOl和S102,能够根据旁路镜像系统捕捉到的数据,确定出网站的各级目录的可能取值,将各级目录的可能取值作为当前值,则由各级目录的当前值可以确定出一个链接地址的范围,例如根据上面确定各级目录的可能取值的方式,针对下面获取到的链接地址:
[0058]“ting, baidu.com/artist/1157”、“ting.baidu.com/artist/1107,,、
[0059]“ting, baidu.com/artist/1130”、“ting.baidu.com/album/1474,,、
[0060]“ting, baidu.com/album/1430”、“ting, baidu.com/album/1425”
[0061]可以由各级目录的当前值确定的链接地址范围有:
[0062]ting, baidu.com/artist/{1107-1474}和 ting, baidu.com/album/{1425-1474}
[0063]在步骤S103中,各级目录的历史值指的是之前存储的各级目录的可能取值,可以理解为上一个时刻执行本发明的步骤SlOl和S102后得到的各级目录的可能取值,本发明的方法还可以用各级目录的当前值更新历史值,以在下一个时刻得到新的当前值时再用作比对。
[0064]步骤S103具体地包括:
[0065]步骤S1031:将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对。
[0066]步骤S1031:当比对结果存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向该历史链接地址发出访问请求,并且在该访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址;当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。
[0067]关于步骤S1031,请参考图2。图2为本发明中链接地址范围比对的示意图。如图2所示,区域I为当前值构成的链接地址范围与历史值构成的链接地址的重合部分,区域2为属于历史值构成的链接地址范围,但不属于当前值构成的链接地址范围的部分,区域3为属于当前值构成的链接地址范围,但不属于历史值构成的链接地址范围的部分,其中区域3中的链接地址为新增链接地址,对于区域2中的链接地址,本发明将模拟用户行为,向该链接地址发送访问请求,如果该请求返回的页面出现404或301或503错误(即无法返回可访问的页面),则说明该链接地址已经失效。
[0068]在另一个实施例中,本发明的方法在步骤S103前进一步包括:
[0069]步骤S104:在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值。这里根据每个组合中各参数出现值确定可接收参数的可能取值的方法与前文所述的确定各级目录的可能取值的方法类似,这里不再重复叙述。
[0070]并且,在该实施例中,步骤S103中进一步将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断网站中的文件是否存在参数变更。
[0071]如前面介绍过的,一个完整的链接地址指向的是网站上的一个网页文件,例如链接地址为:
[0072]zhida0.baidu.com/question/227, html,其指向网站上的一个 HTML 格式的文本文件。有的链接地址中还会传递参数,例如:
[0073]zhida0.baidu.com/ ? a=123&b=456,其中“? ”后的部分表明向 zhida0.baidu.com这个链接地址中传递了两个参数“a”和“b”,并且参数值分别是“123”和“456”,由于一个完整的链接地址代表的一个网页文件,因此zhida0.baidu.com/ ? a=123&b=456这个形式的链接,就是向以“zhida0.baidu.com”这个链接地址表示的网页文件传递了 “a”和“b”两个参数,并且参数值分别为“123”和“456”。步骤S104就是根据获取的链接地址中传递的数据,确定网站中某个确定的网页文件的可接收参数及取值范围的【具体实施方式】。
[0074]上文所说的参数组合,指的是在一条链接地址中同时传递的参数,例如上面所举的例子中,参数组合就是参数a和参数b,应该理解,与获取的链接地址对应的文件的可接收参数,这里的可接收参数也是以组合形式出现的,即如果统计数据中有“a=123&b=456”以及“c=234&d=567”,则对应文件的可接收参数就是同时出现的a和b,以及同时出现的c和CL
[0075]在另一个实施例中,本发明的方法在步骤SlOl后还可以进一步包括:
[0076]S105:将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。
[0077]通过步骤S105,本发明还可以对用户访问起到监视的作用。
[0078]作为本领域技术人员应该理解,本发明的方法可能面临着大规模数据的处理,因此本发明的方法可以通过分布式平台进行处理,具体地,可在旁路镜像系统获得请求数据后,将请求数据传递至分布式计算平台,利用该平台的分散节点(即map节点)实现链接地址提取的动作,以及步骤S1021中的数据拆分动作,进一步地,还包括步骤S105中的匹配验证的动作。步骤S1022、步骤S103、进一步地包括步骤S104中的动作可在聚集节点(即reduce节点)中实现。
[0079]请参考图3,图3为本发明中网站分析装置的实施例一的结构示意框图。如图3所示,该实施例包括:抓取单元201、确定单元202及比对单元203。
[0080]其中抓取单元201,用于从到达网站的请求数据中获取一个以上的链接地址。
[0081]确定单元202,用于利用获取的链接地址确定该网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值。
[0082]比对单元203,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断该网站是否存在新增链接地址或失效链接地址。
[0083]该实施例中,抓取单元201通过旁路镜像系统抓取到达网站的请求数据,并从该请求数据中提取一个以上的链接地址。
[0084]请参考图4,图4为本发明中确定单元的实施例的结构示意框图。如图4所示,确定单元202包括拆分单元2021及第一统计单元2022。其中拆分单元2021,用于将获取的链接地址拆分为主域和各级目录的形式。第一统计单元2022,用于利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。
[0085]其中第一统计单元2022根据统计到的同级目录中的出现值确定同级目录的可能取值的方法包括:
[0086]A.当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的该级目录中的出现值中的最小值,该级目录的可能取值的上限为统计到的该级目录中的出现值的最大值。B.当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的该级目录中的每个出现值。C.当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串。
[0087]请参考图5,图5为本发明中比对单元的实施例的结构示意框图。如图5所示,比对单元203包括范围比对单元2031及链接确定单元2032。其中范围比对单元2031,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对。链接确定单元2032,用于当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向该历史链接地址发出访问请求,并且在该访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址。此外,链接确定单元2032,还用于当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。
[0088]请参考图6,图6为本发明中网站分析装置的实施例二的结构示意框图。如图6所示,实施例二在实施例一的基础之上进一步还包括第二统计单元204。第二统计单元204用于在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为该网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定可接收参数的可能取值,并且,在实施例二中,比对单元203进一步用于将可接收参数与历史参数进行比对,将可接收参数的可能取值与历史参数值进行比对以判断该网站中的文件是否存在参数变更。
[0089]请参考图7,图7为本发明中网站分析装置的实施例三的结构示意框图。如图7所示,实施例三在实施例一的基础之上进一步还包括检测单元205。检测单元205用于将获取的链接地址与预设的关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。
[0090]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种自动进行网站分析的方法,包括: A.从到达网站的请求数据中获取一个以上的链接地址; B.利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值; C.将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括: B1.将获取的链接地址拆分为主域和各级目录的形式; B2.利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。
4.根据权利要求3所述的方法,其特征在于,根据统计到的同级目录中的出现值确定同级目录的可能取值的步骤包括: 当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的出现值中的最小值,该级目录的可能取值的上限为统计到的出现值中的最大值; 当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的每个出现值;` 当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串O
5.根据权利要求1所述的方法,其特征在于,所述步骤C包括: 将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对; 当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向所述历史链接地址发出访问请求,并且在所述访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址; 当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。
6.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤C前进一步包括:在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为所述网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值;并且,所述方法在所述步骤C中进一步将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断所述网站中的文件是否存在参数变更。
7.根据权利要求1所述的方法,其特征在于,所述方法在步骤A后进一步包括: 将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。
8.一种自动进行网站分析的装置,包括: 抓取单元,用于从到达网站的请求数据中获取一个以上的链接地址;确定单元,用于利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值; 比对单元,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。
9.根据权利要求8所述的装置,其特征在于,所述抓取单元通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。
10.根据权利要求8所述的装置,其特征在于,所述确定单元包括: 拆分单元,用于将获取的链接地址拆分为主域和各级目录的形式; 第一统计单元,用于利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。
11.根据权利要求10所述的装置,其特征在于,所述第一统计单元根据统计到的同级目录中的出现值确定同级目录的可能取值的方式包括: 当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的该级目录中的出现值中的最小值,该级目录的可能取值的上限为统计到的该级目录中的出现值的最大值; 当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的该级目录中的每个出现值; 当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串O`
12.根据权利要求8所述的装置,其特征在于,所述比对单元包括: 范围比对单元,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对; 链接确定单元,用于当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向所述历史链接地址发出访问请求,并且在所述访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址; 所述链接确定单元还用于当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。
13.根据权利要求8所述的装置,其特征在于,所述装置进一步包括第二统计单元,用于在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为所述网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值;并且, 所述比对单元进一步用于将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断所述网站中的文件是否存在参数变更。
14.根据权利要求8所述的装置,其特征在于,所述装置进一步包括: 检测单元,用于将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。
【文档编号】G06F17/30GK103530297SQ201210232731
【公开日】2014年1月22日 申请日期:2012年7月5日 优先权日:2012年7月5日
【发明者】石靖岚 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1