网络资源地址URL的处理方法和装置与流程

文档序号:12666176阅读:467来源:国知局
网络资源地址URL的处理方法和装置与流程

本申请涉及数据处理领域,具体而言,涉及一种网络资源地址URL的处理方法和装置。



背景技术:

现有技术中,在处理海量的访问日志时,通常需对访问日志中的网络资源地址URL进行去重和整理,以对于没有统计价值的接口进行识别和剔除,并从中提取出有效的接口,如网站A每天有几十亿级别的访问日志,去重后约6000个。通过上述方案,对于一些扫描器不能支持的漏洞类型(如水平权限漏洞),在把接口地址的数量控制在一定数量(如上述的6000个)之后,可以采取人工增量确认的方法进行覆盖,给大规模排查此类漏洞提供了可能。另外,当出现一个安全问题后,可以基于该一定数量的接口地址快速排查其他URL是否存在问题。

但是,目前对于URL的去重方法主要通过图1所示的方案实现:

步骤S102:获取URL。

步骤S104:判断获取的URL是否携带有参数。

若获取的URL携带有参数,则执行步骤S106;若获取的URL未携带有参数,则执行步骤S108。

步骤S106:去除URL中的参数。

步骤S108:直接输出该URL。

步骤S110:对输出的URL进行去重处理,得到处理后的URL。

具体地,上述方案可能存在如下缺陷:

(1)因为SEO(搜索引擎优化)的原因会把参数放到文件名当中,这会对URL地址的参数产生混淆,如1688.com/view/100.html和1688.com/view/101.html,这两个地址实质上是一个接口地址,但是这两个网址中的参数100和101被放在了文件名中,通过上述方法会被识别为两个接口;

(2)泛域名下的相同接口,也会对结果产生混淆,如100.1688.com/view.html和101.1688.com/view.html,这两个本身是同一个接口地址,但是由于两个接口地址的泛域不同(分别为100.1688.com和101.1688.com),通过上述方法也会被识别成两个接口地址;

(3)参数放到URL路径当中,这会对结果产生混淆,如1688.com/100/view.html和1688.com/101/view.html,这两个其实是同一个接口地址,但在上述方法中会被识别为两个接口。

在上述方案中,把URL中参数部分去掉,对剩下的部分进行去重。仅对没有参数的URL(即接口地址)进行去重操作,不能做到真正有效去重(如100亿级别去重后可能有几十万上百万个)。

针对上述对URL的去重操作结果不精确造成统计URL效率低的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种网络资源地址URL的处理方法和装置,以至少解决对URL的去重操作结果不精确的问题造成统计URL效率低的技术问题。

根据本申请实施例的一个方面,提供了一种网络资源地址URL的处理方法,该方法包括:获取网站流量表中的各个网络资源地址URL;去除各个URL中的参数,得到各个URL的接口地址,并对接口地址进行去重,得到接口地址;获取每个接口地址所属的接口目录,其中,接口地址的信息中记录有接口地址所属的接口目录;按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址;对过滤后的接口地址进行统计。

根据本申请实施例的另一方面,还提供了一种网络资源地址URL的处理装置,该装置包括:

地址获取单元,用于获取网站流量表中的各个网络资源地址URL;地址处理单元,用于去除各个URL中的参数,得到各个URL的接口地址,并对接口地址进行去重,得到接口地址;目录获取单元,用于获取每个接口地址所属的接口目录,其中,接口地址的信息中记录有接口地址所属的接口目录;过滤单元,用于按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址;统计单元,用于对过滤后的接口地址进行统计。

采用本申请,在获取接口地址(如没有参数的接口地址)之后,获取各个待处理资 源地址的接口目录,通过接口目录对接口地址进行过滤,并对过滤得到的接口地址进行统计。在上述实施例中,在基于待处理资源地址的接口目录进行过滤,与现有技术中仅对去除参数后的URL(即接口地址)进行去重的方案相比,去重和过滤的精确度更高,本申请的方案与现有技术中的去重方案相比,得到过滤后的URL的数量大大减少,可以对该精确度高、数量少的过滤后的接口地址作快速、准确地统计,解决了现有技术中对URL的去重操作结果不精确造成统计URL效率低的问题,提高了对URL的去重的精度,可以获取高精确度的过滤后的接口地址,并对其进行准确和快速统计。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据现有技术的一种对网络资源地址URL的去重方法的示意图;

图2是本申请实施例的一种应用网络资源地址URL的处理方法的终端的网络环境图;

图3是根据本申请实施例的网络资源地址URL的处理方法的流程图;

图4是根据本申请实施例的一种可选的网络资源地址URL的处理方法的流程图;

图5是根据本申请实施例的另一种可选的网络资源地址URL的处理方法的流程图;

图6是根据本申请实施例的通过三倍方差剔除法确定有效接口目录中的有效接口地址的示意图;

图7是根据本申请实施例的再一种可选的网络资源地址URL的处理方法的流程图;

图8是根据本申请实施例的又一种可选的网络资源地址URL的处理方法的流程图;

图9是根据本申请实施例的网络资源地址URL的处理装置的示意图;

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于 本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例,还提供了一种网络资源地址URL的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图2是本申请实施例的一种应用网络资源地址URL的处理方法的终端的网络环境图。如图2所示,该终端10可以通过网络与服务器20连接,获取服务器上的网站流量表。

上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

下面首先对本申请中涉及的术语进行解释:

URL地址:统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。基本的URL地址包含模式(或称协议)、服务器名称(或I P地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志,如:1688.com/view/profile.html?nick=lanlan。

接口地址:不带参数的URL地址,如1688.com/view/profile.html。

接口上级目录(即本申请实施例中的接口目录):接口的上级URL地址,该地址不包括文件名,如1688.com/view/profile.html的上级目录为1688.com/view。

镜像流量表:用于存储网站的流量数据。

无效接口:因为搜索引擎优化等原因把参数添加在路径中的接口,将此类接口地址视为无效接口地址,如(1688.com/view/100.html和1688.com/view/101.html)。

在上述运行环境下,本申请提供了如图3所示的网络资源地址URL的处理方法。图3是根据本申请实施例的网络资源地址URL的处理方法的流程图。如图3所示,该方法可以包括如下步骤:

步骤S306:获取多个待处理的接口地址中每个接口地址所属的接口目录,其中,所述接口地址的信息中记录有所述接口地址所属的接口目录。

步骤S308:按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址。

可选地,该方案还可以包括步骤S310:对过滤后的接口地址进行统计。

采用上述实施例,在获取接口地址(如没有参数的接口地址)之后,获取各个待处理资源地址的接口目录,通过接口目录对接口地址进行过滤,并对过滤得到的接口地址进行统计。在上述实施例中,在基于待处理资源地址的接口目录进行过滤,与现有技术中仅对去除参数后的URL(即接口地址)进行去重的方案相比,去重和过滤的精确度更高,本申请的方案与现有技术中的去重方案相比,得到过滤后的URL的数量大大减少,可以对该精确度高、数量少的过滤后的接口地址作快速、准确地统计,解决了现有技术中对URL的去重操作结果不精确造成统计URL效率低的问题,提高了对URL的去重的精度,可以获取高精确度的过滤后的接口地址,并对其进行准确和快速统计。

在执行步骤S306之前,上述方法还可以包括如图3所示的下述步骤:

步骤S302:获取网站流量表中的各个网络资源地址URL。

步骤S304:去除各个URL中的参数,得到各个URL的接口地址,并对URL的接口地址进行去重,得到多个待处理的接口地址。

在上述实施例中,可以通过终端从服务器或者其他终端调取已经存储好的网站A的网站流量表,该网站流量表中保存有访问网站A的访问记录,如某时某刻地址URL1访问网站A。

终端从网站流量表中提取所有的网络资源地址URL,并将提取到的URL的参数去掉,得到接口地址。在得到接口地址之后,按照接口地址进行去重,得到接口地址,由于每个接口地址中都记录有接口地址所属的接口上级目录(即上述实施例中的接口 目录),基于该接口目录对接口地址进行过滤,得到过滤后的接口地址。

通过上述实施例,按照预设过滤条件对接口地址进行过滤,大大提高了接口地址的精确度。

在本申请的上述实施例中,按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址可以包括如下步骤:

S21:判断接口目录中是否包含数字型参数;

S22:若接口目录不包含数字型参数,则判断出接口目录为有效接口目录;

S23:统计有效接口目录所包含的接口地址的总量;

S24:若属于有效接口目录的接口地址的总量超过预设阈值,则对有效接口目录所包含的接口地址进行二次过滤,得到过滤后的接口地址;

S25:若属于有效接口目录的接口地址的总量未超过预设阈值,则将属于有效接口目录的接口地址作为过滤后的接口地址。

在上述实施例中,将判断接口目录中是否包含数字型参数作为第一层的过滤条件,可以将接口地址中包含数字型参数的接口地址过滤掉;在将包含数字型参数的接口地址过滤掉之后,通过预设阈值对有效接口目录下的接口地址做区分,符合阈值条件的认为该接口地址为有效接口;如果不符合条件,则对未包含数字型参数且不符合阈值条件的接口地址做二次过滤,进一步保证了过滤后的接口地址的准确性。

具体地,通过判断接口目录中是否包含数字型参数,将无效的接口目录中包含的所有的地址接口删除,保留有效接口目录(即不包含数字型参数的接口目录)下的接口地址。在统计属于有效接口目录的接口地址的总量之后,将预设阈值作为过滤条件,如果该有效接口目录下的接口地址的总量大于预设阈值,则认为该有效接口目录中可能包含无效接口地址,则对其进行二次过滤,得到过滤后的接口地址;如果该有效接口目录下的接口地址的总量不大于预设阈值,则将该有效接口目录下的接口地址直接输出为过滤后的接口地址。

通过上述实施例,先对接口地址用数字型参数的过滤条件作为第一层过滤,然后使用接口上级目录所包含的接口数量作阀值,对有效接口目录下的接口地址做区分处理,病对不符合阀值条件的接口地址做第二层的过滤,将最后得到的接口地址中的无效接口的数量降到最低。

上述的S23可以通过图4所示的实施例实现。如图4所示,对原始日志的网站流 量表中的数据按照接口地址进行去重之后,统计每个接口目录下面有多少个接口地址,得到接口上级目录和包含接口数的对应关系表,该表被记录为:interface_upper表,从该表中可以得到有效接口目录所包含的接口地址的总量。具体地,该实施例中对接口地址可以执行如下步骤:

步骤S401:获取接口地址。

步骤S403:对接口地址进行去重,得到多个待处理的接口地址。

步骤S405:将多个待处理的接口地址转换为接口目录的表现形式。

步骤S407:将该接口目录所包含的接口数加一。

步骤S409:统计得到该接口目录所包含的接口数量。

保存通过该实施例统计得到的结果,即可得到接口目录所包含的接口地址的总量。

具体地,判断接口目录中是否包含数字型参数可以包括:判断接口目录中是否存在N位连续数字,其中,N为自然数;若接口目录中存在N位连续数字,则判断出接口目录包含数字型参数;若接口目录中不存在N位连续数字,则判断出接口目录不包含数字型参数。

可选地,N可以为6,该N的取值可以根据不同的统计场景而增减,并不一定是6位。

在一个可选的实施例中,对有效接口目录所包含的接口地址进行二次过滤可以包括:获取有效接口目录所包含的各个接口地址的接口数量;计算多个接口数量的标准差;若接口数量大于M倍的标准差,则将接口数量对应的接口地址作为过滤后的接口地址,其中,M为自然数。

可选地,M可以为3,也即可以使用三倍方差剔除法对超过阈值的有效接口目录下的接口地址进行二次过滤。当然,M还可以选取其他的值,本申请对此不做限定。

下面结合图5详述上述实施例,如图5所示,该实施例可以通过如下步骤实现:

步骤S502:获取接口目录中的接口地址。

该实施例中的接口地址均为多个待处理的接口地址中的地址。

步骤S504:判断接口目录中是否存在连续六位数值。

若是,则执行步骤S512:该接口目录为无效接口目录。若否,则确定该接口目录为有效接口目录,执行步骤S506。

步骤S506:判断该接口目录下的接口地址的数量是否大于预设阈值。

若是,则认为该有效接口目录所包含的接口地址中包括无效接口地址,则执行步骤S508;若否,则认为该有效接口目录所包含的接口地址中不包括无效接口地址,则执行步骤S510。

步骤S508:输出出现次数大于三倍方差的接口地址。

具体地,该步骤的实现方法如图6所示:获取该有效接口目录下各个接口地址的数量,如,接口目录为:1688.com/view/,接口地址1688.com/view/100.html的接口数量为58、接口地址1688.com/view/200.html的接口数量为50、接口地址1688.com/view/300.html的接口数量为41、接口地址1688.com/view/400.html的接口数量为63、接口地址1688.com/view/profile.html的接口数量为2000。

计算58、41、50、63和2000的标准差,其中只有2000对应的接口地址大于该标准差的三倍,则该接口地址为有效接口地址,其余的四个均为无效的接口地址。

步骤S510:输出该接口目录所包含的所有接口地址。

需要说明的是,获取属于有效接口目录的各个接口地址的接口数量可以包括:统计每个接口地址在网站流量表中出现的次数,将次数作为接口地址的接口数量;将接口地址与接口数量的对应关系保存在数据表中;从数据表中读取与属于有效接口目录的各个接口地址对应的接口数量。

具体地,在获取到网站流量表之后,可以统计每个接口地址在网站流量表中出现的次数,并生成上述的表数据表,在获取有效接口目录之后,从表中读取该有效接口目录所包含的接口地址的数量。

上述实施例中统计有效接口目录所包含的接口地址的总量,也可以通过该实施例实现,如将各个接口地址的数量求和,得到有效接口目录所包含的接口地址的总量。

如图7所示,该实施例中对个每个URL可以执行如下操作:

步骤S701:获取网站流量表中的每条URL。

步骤S703:去重URL中的参数,得到接口地址。

步骤S705:将该接口地址的出现次数加一。

在对每个URL执行完上述操作之后,可以统计到每个URL的接口地址在网站流量表中出现的次数,得到数据表,该数据表中记录有接口名和接口在访问日志的网站流量表中的出现次数,该表被记录为:interface_num表。

其中的接口名即为上述的接口地址。

上述实施例中的预设阈值可以设置为50。

由于在无效接口地址中所带的参数一般分为数字型(如,用户的数字ID,通常为连续的数字)和字符型(如,用户的登录名或昵称,通常为不规则字符串),在上述实施例中,可以通过提取特征较为简单的数字型参数作为第一层的过滤条件。如果interface_upper表中接口上级目录中存在6位连续数字则判定为无效上级目录(连续数字的位数可以根据BU情况进行增减,并不一定是6位),剩下的确认为有效上级目录(即上述实施例中的有效接口目录)。

进一步地,将有效接口目录中所包含的接口(地址)的总量小于50个的直接输出,也即将该种情况下输出的接口地址确认为有效接口地址(即上述实施例中的过滤后的接口地址;而包含接口数大于50的有效上级目录则认为其中存在无效接口地址,基于interface_num表中各个接口地址的出现次数计算标准差,并按照三倍方差剔除法进行过滤,得到精确的过滤后的接口地址。

上述实施例中,之所以使用三倍方差是因为:接口干扰项所出现的频率较为平均,而且和正常接口的访问次数有较大的差距。三倍方差之前加入接口总数大于五十的判断,是因为包含干扰接口的上级目录所包含的接口数目在日志足够大的情况下肯定会大于50,这样做同时提高了算法的速度和准确性。其中的干扰接口也即为上述的无效接口地址。

根据本申请的上述实施例,对过滤后的接口地址进行统计包括:

获取过滤后的接口地址所属的域名信息;

若过滤后的接口地址所属的域名信息存在于预先获取的域名列表中,则提取过滤后的接口地址;

基于提取到的过滤后的接口地址,统计属于域名信息的接口地址的数量。

具体地,可以通过用户的不同的URL统计需求,获取需要统计的域名列表,并基于该域名列表对过滤后的接口地址做筛选,从过滤后的接口地址提取需要统计的域名的接口地址,并对提取到的接口地址做统计。

如图8所示的实施例中,该实施例可以包括如下步骤:

步骤S801:获取过滤后的接口地址。

步骤S803:获取域名列表。

步骤S805:判断接口地址是否属于需统计的域名。

若是,在执行步骤S807;若否,则执行步骤S809:不输出该接口地址。

步骤S807:输出该接口地址。

在上述实施例中,先将简单的数字型参数的筛选规则作为无效接口的第一层过滤(本例中的规则为6位连续数字),再使用上级目录所包含的接口数量作阀值,病配合三倍方差进行URL去重的算法,可以得到精确度很高的有效接口地址。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例,还提供了一种实施网络资源地址URL的处理装置,如图9所示,该装置包括:目录获取单元95、过滤单元97和统计单元99。可选地,还可以包括:地址获取单元91和地址处理单元93。

其中,地址获取单元,用于获取网站流量表中的各个网络资源地址URL;地址处理单元,用于去除各个URL中的参数,得到各个URL的接口地址,并对URL的接口地址进行去重,得到多个待处理的接口地址;目录获取单元,用于获取多个待处理的接口地址中每个接口地址所属的接口目录,其中,接口地址的信息中记录有接口地址所属的接口目录;过滤单元,用于按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址;统计单元,用于对过滤后的接口地址进行统计。

采用上述实施例,在获取接口地址(如没有参数的接口地址)之后,获取各个接口地址的接口目录,通过接口目录对接口地址进行过滤,并对过滤得到的接口地址进行 统计。在上述实施例中,在基于接口地址的接口目录进行过滤,与现有技术中仅对去除参数后的URL(即接口地址)进行去重的方案相比,去重和过滤的精确度更高,本申请的方案与现有技术中的去重方案相比,得到过滤后的URL的数量大大减少,可以对该精确度高、数量少的过滤后的接口地址作快速、准确地统计,解决了现有技术中对URL的去重操作结果不精确造成统计URL效率低的问题,提高了对URL的去重的精度,可以获取高精确度的过滤后的接口地址,并对其进行准确和快速统计。

在上述实施例中,可以通过终端从服务器或者其他终端调取已经存储好的网站A的网站流量表,该网站流量表中保存有访问网站A的访问记录,如某时某刻地址URL1访问网站A。

终端从网站流量表中提取所有的网络资源地址URL,并将提取到的URL的参数去掉,得到接口地址。在得到接口地址之后,按照接口地址进行去重,得到接口地址,由于每个接口地址中都记录有接口地址所属的接口上级目录(即上述实施例中的接口目录),基于该接口目录对接口地址进行过滤,得到过滤后的接口地址。

通过上述实施例,按照预设过滤条件对接口地址进行过滤,大大提高了接口地址的精确度。

根据本申请的上述实施例,过滤单元包括:参数判断模块,用于判断接口目录中是否包含数字型参数;第一确定模块,用于若接口目录不包含数字型参数,则判断出接口目录为有效接口目录;统计模块,用于统计有效接口目录所包含的接口地址的总量;过滤模块,用于若属于有效接口目录的接口地址的总量超过预设阈值,则对有效接口目录所包含的接口地址进行二次过滤,得到过滤后的接口地址;第二确定模块,用于若属于有效接口目录的接口地址的总量未超过预设阈值,则将属于有效接口目录的接口地址作为过滤后的接口地址。

在上述实施例中,将判断接口目录中是否包含数字型参数作为第一层的过滤条件,可以将接口地址中包含数字型参数的接口地址过滤掉;在将包含数字型参数的接口地址过滤掉之后,通过预设阈值对有效接口目录下的接口地址做区分,符合阈值条件的认为该接口地址为有效接口;如果不符合条件,则对未包含数字型参数且不符合阈值条件的接口地址做二次过滤,进一步保证了过滤后的接口地址的准确性。

具体地,通过判断接口目录中是否包含数字型参数,将无效的接口目录中包含的所有的地址接口删除,保留有效接口目录(即不包含数字型参数的接口目录)下的接口地址。在统计属于有效接口目录的接口地址的总量之后,将预设阈值作为过滤条件,如果该有效接口目录下的接口地址的总量大于预设阈值,则认为该有效接口目录中可 能包含无效接口地址,则对其进行二次过滤,得到过滤后的接口地址;如果该有效接口目录下的接口地址的总量不大于预设阈值,则将该有效接口目录下的接口地址直接输出为过滤后的接口地址。

通过上述实施例,先对接口地址用数字型参数的过滤条件作为第一层过滤,然后使用接口上级目录所包含的接口数量作阀值,对有效接口目录下的接口地址做区分处理,病对不符合阀值条件的接口地址做第二层的过滤,将最后得到的接口地址中的无效接口的数量降到最低。

可选地,参数判断模块包括:判断子模块,用于判断接口目录中是否存在N位连续数字,其中,N为自然数;第一确定子模块,用于若接口目录中存在N位连续数字,则判断出接口目录包含数字型参数;第二确定子模块,用于若接口目录中不存在N位连续数字,则判断出接口目录不包含数字型参数。

可选地,N可以为6,该N的取值可以根据不同的统计场景而增减,并不一定是6位。

根据本申请的上述实施例,过滤模块包括:数量获取子模块,用于获取有效接口目录所包含的各个接口地址的接口数量;计算子模块,用于计算多个接口数量的标准差;地址确定子模块,用于若接口数量大于M倍的标准差,则将接口数量对应的接口地址作为过滤后的接口地址,其中,M为自然数。

可选地,M可以为3,也即可以使用三倍方差剔除法对超过阈值的有效接口目录下的接口地址进行二次过滤。当然,M还可以选取其他的值,本申请对此不做限定。

根据本申请的上述实施例,数量获取子模块可以包括:统计子模块,用于统计每个接口地址在网站流量表中出现的次数,将次数作为接口地址的接口数量;保存子模块,用于将接口地址与接口数量的对应关系保存在数据表中;读取子模块,用于从数据表中读取与属于有效接口目录的各个接口地址对应的接口数量。

上述实施例中统计有效接口目录所包含的接口地址的总量,也可以通过该实施例实现,如将各个接口地址的数量求和,得到有效接口目录所包含的接口地址的总量。

上述实施例中的预设阈值可以设置为50。

由于在无效接口地址中所带的参数一般分为数字型(如,用户的数字I D,通常为连续的数字)和字符型(如,用户的登录名或昵称,通常为不规则字符串),在上述实施例中,可以通过提取特征较为简单的数字型参数作为第一层的过滤条件。如果interface_upper表中接口上级目录中存在6位连续数字则判定为无效上级目录(连 续数字的位数可以根据BU情况进行增减,并不一定是6位),剩下的确认为有效上级目录(即上述实施例中的有效接口目录)。

进一步地,将有效接口目录中所包含的接口(地址)的总量小于50个的直接输出,也即将该种情况下输出的接口地址确认为有效接口地址(即上述实施例中的过滤后的接口地址;而包含接口数大于50的有效上级目录则认为其中存在无效接口地址,基于interface_num表中各个接口地址的出现次数计算标准差,并按照三倍方差剔除法进行过滤,得到精确的过滤后的接口地址。

根据本申请的上述实施例,统计单元包括:信息获取模块,用于在得到过滤后的接口地址之后,获取过滤后的接口地址所属的域名信息;提取模块,用于若过滤后的接口地址所属的域名信息存在于预先获取的域名列表中,则提取过滤后的接口地址;数量统计模块,用于基于提取到的过滤后的接口地址,统计属于域名信息的接口地址的数量。

在上述实施例中,先将简单的数字型参数的筛选规则作为无效接口的第一层过滤(本例中的规则为6位连续数字),再使用上级目录所包含的接口数量作阀值,病配合三倍方差进行URL去重的算法,可以得到精确度很高的有效接口地址。

本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。

实施例3

本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。

可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地,图10是根据本申请实施例的一种计算机终端的结构框图。如图10所示,该服务器或终端包括:一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205。

其中,存储器203可用于存储软件程序以及模块,如本申请实施例中的网络资源地址URL的处理方法对应的程序指令/模块,处理器通过运行存储在存储器内的软件程 序以及模块,从而执行各种功能应用以及数据处理,即实现上述的网络资源地址URL的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。

其中,具体地,存储器203用于存储应用程序。

处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:

获取多个待处理的接口地址中每个接口地址所属的接口目录,其中,接口地址的信息中记录有接口地址所属的接口目录;按照预设过滤条件,基于接口目录对接口地址进行过滤,得到过滤后的接口地址;对过滤后的接口地址进行统计。

可选的,上述处理器还可以执行如下步骤:判断接口目录中是否包含数字型参数;若接口目录不包含数字型参数,则判断出接口目录为有效接口目录;统计有效接口目录所包含的接口地址的总量;若属于有效接口目录的接口地址的总量超过预设阈值,则对有效接口目录所包含的接口地址进行二次过滤,得到过滤后的接口地址;若属于有效接口目录的接口地址的总量未超过预设阈值,则将属于有效接口目录的接口地址作为过滤后的接口地址。

通过上述实施例,在获取接口地址(如没有参数的接口地址)之后,获取各个待处理资源地址的接口目录,通过接口目录对接口地址进行过滤,并对过滤得到的接口地址进行统计。在上述实施例中,在基于待处理资源地址的接口目录进行过滤,与现有技术中仅对去除参数后的URL(即接口地址)进行去重的方案相比,去重和过滤的精确度更高,本申请的方案与现有技术中的去重方案相比,得到过滤后的URL的数量大大减少,可以对该精确度高、数量少的过滤后的接口地址作快速、准确地统计,解决了现有技术中对URL的去重操作结果不精确造成统计URL效率低的问题,提高了对URL的去重的精度,可以获取高精确度的过滤后的接口地址,并对其进行准确和快速统计。

本领域普通技术人员可以理解,图10所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。

实施例4

本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的网络资源地址URL的处理方法所执行的程序代码。

可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:

获取多个待处理的接口地址中每个接口地址所属的接口目录,其中,所述接口地址的信息中记录有所述接口地址所属的接口目录;按照预设过滤条件,基于所述接口目录对所述接口地址进行过滤,得到过滤后的接口地址;对过滤后的接口地址进行统计。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:判断接口目录中是否包含数字型参数;若接口目录不包含数字型参数,则判断出接口目录为有效接口目录;统计有效接口目录所包含的接口地址的总量;若属于有效接口目录的接口地址的总量超过预设阈值,则对有效接口目录所包含的接口地址进行二次过滤,得到过滤后的接口地址;若属于有效接口目录的接口地址的总量未超过预设阈值,则将属于有效接口目录的接口地址作为过滤后的接口地址。

通过上述实施例,在获取接口地址(如没有参数的接口地址)之后,获取各个待处理资源地址的接口目录,通过接口目录对接口地址进行过滤,并对过滤得到的接口地址进行统计。在上述实施例中,在基于待处理资源地址的接口目录进行过滤,与现有技术中仅对去除参数后的URL(即接口地址)进行去重的方案相比,去重和过滤的精确度更高,本申请的方案与现有技术中的去重方案相比,得到过滤后的URL的数量大大减少,可以对该精确度高、数量少的过滤后的接口地址作快速、准确地统计,解决了现有技术中对URL的去重操作结果不精确造成统计URL效率低的问题,提高了对URL 的去重的精度,可以获取高精确度的过滤后的接口地址,并对其进行准确和快速统计。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1