一种URL分类方法和系统、数据处理方法和系统与流程

文档序号:14950665发布日期:2018-07-17 22:28阅读:211来源:国知局

本申请属于数据处理技术领域,尤其涉及一种url分类方法和系统、数据处理方法和系统。



背景技术:

随着网络技术的不断发展,人们对互联网的使用也越来越多。对互联网数据的处理工作也变得更为繁琐。例如:对于网络流量而言,有些是正常的网络流量(例如:人们正常的方位流量),有些是异常的网络流量(例如:非法登陆、请求失败等等)。

如何实现对网络流量的分析处理,对于互联网的安全和有序运行起着重要的作用。考虑到统一资源定位符(uniformresourcelocator,简称为url)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的url,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

因此,对url进行分析可以获知很多的网络信息,例如,通过对url进行分析整理,可以知道哪些url是有危险,哪些是安全的。对url中所携带的信息进行检测,也可以知道网站的流量,以及浏览情况等等。

然而,现有的对url进行分析整理,一般是按照一条url、一条url的方式逐条遍历的方式进行处理的。即,对每条url都进行具体的分析和处理,这显然是不合适的,这种方式大大增加了分析处理操作的工作量,降低了url分析处理的效率。

针对上述问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请目的在于提供一种url分类方法和系统、数据处理方法和系统,可以实现对url的高效处理。

本申请提供一种url分类方法和系统、数据处理方法和系统是这样实现的:

一种url分类方法,所述方法包括:

确定待分类统一资源定位符url中是否有查询参数名字段;

如果没有查询参数名字段,则将所述待分类url中的路径和文件名,作为所述待分类url的标识数据;

如果有查询参数名字段,则将所述待分类url中的查询参数名和文件名,作为所述待分类url的标识数据;

根据所述标识数据,对所述待分类url进行分类。

一种url分类方法,所述方法包括:

按照预设的字段提取规则,从待分类url的中提取字段;

将提取的字段,作为所述待分类url的标识数据,其中,所述标识数据用于表征所述待分类url的处理逻辑;

根据所述标识数据,对所述待分类url进行分类。

一种数据处理方法,所述方法包括:

将待审计的网站流量日志中的url划分为多个类别,其中,同一类别中url对应同一套处理逻辑;

对同一类别中的多条url,仅提取一条进行分析处理。

一种url分类系统,所述系统包括:

确定模块,用于确定待分类url中是否有查询参数名字段;

第一生成模块,用于在确定没有查询参数名字段的情况下,将所述待分类url中的路径和文件名,作为所述待分类url的标识数据;

第二生成模块,用于在确定有查询参数名字段的情况下,将所述待分类url中的查询参数名和文件名,作为所述待分类url的标识数据;

划分模块,用于根据所述标识数据,对所述待分类url进行分类。

一种url分类系统,所述系统包括:

提取模块,用于按照预设的字段提取规则,从待分类url的中提取字段;

生成模块,用于将提取的字段,作为所述待分类url的标识数据,其中,所述标识数据用于表征所述待分类url的处理逻辑;

划分模块,用于根据所述标识数据,对所述待分类url进行分类。

一种数据处理系统,所述系统包括:

划分模块,用于将待审计的网站流量日志中的url划分为多个类别,其中,同一类别中url对应同一套处理逻辑;

处理模块,用于对同一类别中的多条url,仅提取一条进行分析处理。

本申请提供的url分类方法和系统、数据处理方法和系统,按照url的处理逻辑的不同,提取url中可以表征url处理逻辑的标识数据,并根据该标识数据将url划分为不同类别,同一类别中的url适应于相同的处理逻辑,从而有效提高了url的分类效率,且通过url的分类也可以降低后续对url进行集中处理时的操作重复性,从而解决了现有技术中url进行分析处理时,重复性操作太多,处理效率低下的技术问题,达到了提高url的处理效率的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请提供的url分类方法的一种实施例的方法流程图;

图2是本申请提供的url分类方法的另一种实施例的方法流程图;

图3是本申请提供的url特征提取示意图;

图4是本申请提供的网络数据安全分析的原理示意图;

图5是本申请提供的url分类设备的硬件结构示意图;

图6是本申请提供的url分类装置的结构示意图;

图7是本申请提供的数据处理系统的应用场景示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

发明人考虑到现有的url所标识的网页实质上是一种文本,具备很大的相似性,因此,对于不同的url往往有很多url是采用同一套处理逻辑的,例如,同一网站中针对同一主题的url,往往对应着相同的处理逻辑,如果对这些url都分别进行分析处理,往往会造成很大的操作重复和资源浪费。因此,对url进行分类就显得很有必要。

为此,在本发明实施例中,提供了一种url分类方法,如图1所示,可以包括以下步骤:

步骤101:提取待分类url的标识数据,其中,所述标识数据用于表征所述待分类url的处理逻辑;

上述的待分类url可以从实时网络流量中提取的url,也可以是从网络流量日志中提取的url。因为url自身是按照预定格式生成的,待分类url可以是一条url,也可以是多条url组成的集合。

url中是可以包括以下组成部分,且每个组成部分的命名或者生成规则是固定的,例如,按照以下标准生成url:协议://域名:端口/路径/文件名?查询参数名[数组下标]=查询变量。因此,url自身所携带的内容可以标识这该条url的诸多属性和信息,为了实现对url的分类,从而使得对于适用于同一套处理逻辑的url可以属于同一类别,因此,可以从url自身提取标识数据,该标识数据可以表征待分类url的处理逻辑。其中,标识数据可以是url中某个或某几个完整的字段,也可以是url中的某个或者某几个字段进行处理后的得到的字段。

在本例中,可以按照预设的字段提取规则,提取待分类url的标识数据,例如:可以从url的结构中选择一个或者多个有标识性的字段,将这些字段作为url的标识数据。在设定了标识字段之后,可以按照以下方式提取url的标识数据:

s1:确定待分类url中是否有第一字段;

s2:如果没有第一字段,则从待分类url中提取第二字段和第三字段作为待分类url的标识数据;

s3:如果有第一字段,则确定第一字段中是否有用于传递变量值的字符;

s4:如果有用于传递变量值的字符,则从第一字段中去除所述用于传递变量值的字符,将去除用于传递变量值的字符和所述第三字段作为所述待分类url的标识数据;

s5:如果没有用于传递变量值的字符,则将所述第一字段和所述第三字段作为所述待分类url的标识数据。

即,从url的多个字段中选择有标识性的字段,例如:通过第一字段(例如:查询参数名字段)、第二字段(例如:路径字段)、第三字段(例如:文件名字段)等可以标识出该url的处理逻辑,那么就可以通过这些字段生成标识数据。进一步的,考虑到查询参数名字段和文件名字段两者就可以表示,文件名字段和路径名字段两者也可以标识,当然通过查询参数名字段标识更为准确,因此,可以下确定url中是否有查询参数名字段,如果没有,就可以直接通过路径+文件名作为标识数据(也可以称为泛化特征),如果有,就可以用文件名+参数名作为作为标识数据。

其中,查询参数名字段是用来存放查询所需的各项条件的多个键值对的字段,可以包括多个键值对,一个键可以作为一个参数名。路径字段是url中用于表征该url的路径的字段,文件名字段用于表征该url所指向的文件的名称,实现的时候,可以按照以下方式确定文件名字段:对于当前的url从左到右找到最后一个“/”字符,再从这个字符开始找到第一个“?”字符,如果没有“?”字符,则整串作为文件名,如果有“?”字符,则取“/”与“?”之间的字符串作为文件名。

其中,泛化指的是在机器处理输入信号时,对于新输入信号能够提取出具有代表的特征,从而将该输入信号与已有的输入信号进行关联,将具有相同的特征的输入信号作为一类输入信号。因上述标识数据的目的就是为了实现分类,以使得url与已有的同一处理逻辑的url关联起来,因此,上述标识数据也可以称为泛化特征。

上述仅是以参数名字段、路径字段、文件名字段为例进行的说明,在实际实现的时候,也可以根据实际的数据分析处理要求,生成不同的标识数据。本申请对此不作限定。

考虑到对于有些字段中会存在用于传递变量值的字符,这些字符仅仅是作为变量值传递到处理逻辑中。因此,如果标识字段的其它部分都是相同的,仅用于传递变量值的字符不同,那么这种也应该认为是属于同一套处理逻辑,为了避免因为这些用于传递变量值的字符的存在而导致的本应该属于同一处理逻辑的url被划分至不同的类别中,可以先确定标识字段中是否有用于传递变量值的字符,如果有,就先删除用于传递变量值的字符,并以删除用于传递变量值的字符后的字段作为标识数据。

以标识字段是参数名字段为例,[]中一般是用于传递变量值的字符,因此,可以将参数名字段中的[]删除后再生成标识数据。值得注意的是,此处是以url中的参数名字段为例进行的说明,因此,用于传递变量值的字符是[],如果是其它字段,那么相应的用于传递变量值的字符也就可以其它的字符,对于用于传递变量值的字符的选取,可以根据不同的情况适应性选取,本申请对此不作限定。

步骤102:根据所述标识数据,对所述待分类url进行分类。

具体地,可以将待分类url划分至具有相同的标识数据的url类别,或者是划分至指定的url类别中。即,在提取出待分类url的标识数据后,就可以对标识数据进行匹配,将该url划分至对应的url类别中。例如提取出的标识数据:index.php、cid和action为例,就可以查找当前是否有url类别对应的标识数据为:index.php、cid和action,如果有,则可以直接将该url匹配到该类别中,如果没有,则可以新建立一个url类别,该新建立的url类别就是以index.php、cid和action作为标识数据的。

在本例中,待分类的url可以是待安全审计的网站流量日志的url,即,可以从待安全审计的网站流量日志中提取一条url作为待分类url。在进行上述分类操作之后,就可以对待分类url进行处理。例如,如果是需要对url进行安全审计(网络数据安全分析),那么在确定该url所属的类别已经有url被分析处理过,那么该url就不需要进行分析处理了,这样通过对一条url的分析处理,就可以实现对一批同一处理逻辑的url的分析处理。

如果上述url是进行数据统计分析的url,那么通过这种分类方式,也可以有效地将属于同一处理逻辑的url划分至同一类别,以便于后续的数据处理。

在将待分类url划分至具备相同的标识数据的url类别中之后,可以通过划分至的url类别所对应的处理逻辑,确定待分类url是否为安全的网络请求,例如:某一类url都是不安全的请求,那么在划分的时候,只需要确定当前的url属于该类那么就可以确定是不安全的url。进一步的,在将待分类url划分至具备相同的标识数据的url类别中之后,还可以进行统计,例如:同一类目的网站页面的url可以对应着同样的标识数据,那么可以通过对日志中url的分类实现对某一类目的网站页面的访问次数的统计,或者是,对不同类类目的网站页面进行比较、分析和统计等等。即,通过url的分类可以实现对数据简单高效的分析处理。

下面结合一具体实施例对上述url分类方法进行说明,然而值得注意是,该具体实施例仅是为了更好地说明本发明,并不构成对本发明的不当限定:

如图2所示,该url分类方法可以包括:确定待分类统一资源定位符url中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类url中的路径和文件名,作为所述待分类url的标识数据;如果有查询参数名字段,则确定所述查询参数名字段中是否有用于传递变量值的字符;如果有,则将所述待分类url中的文件名、去除用于传递变量值的字符之后的查询参数名、以及不带有用于传递变量值的字符的查询参数名,作为所述待分类url的标识数据。

基于图2所示的url分类方法,下面以几种类型的url为例进行说明如下:

1)存在路径字段,存在文件名字段、存在查询参数值字段,且不存在[]

对于这种类型的url,按照上述标识数据提取方式,得到的标识数据就是:文件名和参

数名集合。

例如:http://example.com/news/index.php?cid=1111&action=down

其中:

https是协议字段;

example.com为域名字段;

news为路径字段

index.php为文件名字段

cid=1111&action=down为查询参数名字段。

由此可见,查询参数名字段是由多个键值对组成的,本例所列举的查询参数名字段中包括如下几个键值对:

cid=1111

action=down

该查询参数名字段中所携带的查询参数也就有2个,分别为:cid和action。

因此,按照上述规则生成该url的标识数据就是:文件名字段+查询参数名作为标识数据,也就是:index.php、cid和action。这些字段可以采用序列的或者数组的形式等进行存储,作为该url的标识数据。具体采用何种方式标识数据可以根据实际情况选取,本申请对此不作限定。

2)不存在路径字段,存在文件名字段、存在查询参数值字段,且存在[]

对于这种类型的url,按照上述标识数据提取方式,得到的标识数据就是:文件名和去掉[]后的参数名集合。

例如:

http://example.com/index.php?aid[9090]=wyjmbv8yiixbijiilciilhsizklkijoimiisi&act=down

所对应的标识数据可以是:index.php、aid和act。

3)存在路径字段、存在文件名字段,不存在查询参数值字段

对于这种类型的url,按照上述标识数据提取方式,得到的标识数据就是:路径和文件名。

例如:http://example.com/news/index.php

所对应的标识数据可以是:news和index.php。

4)不存在路径字段、在文件名字段,不存在查询参数值字段

对于这种类型的url,因为既不存在路径字段,也不存在查询参数值字段,因此,只需要提取文件名作为标识数据即可。

例如:http://example.com/index.php

所对应的标识数据可以是:index.php。

然而值得注意的是,上述仅是列举几种url示例进行的说明,还可以有其它类型的url类型,相应的每种url所应的标识数据的结果也可以按照选择的规则生成字段的不同,按照其它方式生成标识数据,对于url的类型,以及采用哪些字段或者方式生成标识数据,本申请不作具体限定。

下面以几个同一网站中的url地址为例进行说明,在下面四个url中前三个url地址是同一购物网站上,同一活动页面链接同一类物品的网页地址,第四个url是另一活动界面上物品的网页地址:

https://chaoshi.detail.tmall.com/item.htm?spm=a3204.7844270.2739258534.3.d831jb&id=529105235717&acm=lb-zebra-39172-923071.1003.1.1070468&aldid=3yfwqkcp&scm=1003.1.lb-zebra-39172-923071.null_529105235717_1070468&pos=3

https://chaoshi.detail.tmall.com/item.htm?spm=a3204.7844270.2739258534.4.d831jb&id=35303479646&acm=lb-zebra-39172-923071.1003.1.1070468&aldid=3yfwqkcp&scm=1003.1.lb-zebra-39172-923071.null_35303479646_1070468&pos=4

https://chaoshi.detail.tmall.com/item.htm?spm=a3204.7844270.2739258534.8.d831jb&id=525692750271&acm=lb-zebra-39172-923071.1003.1.1070468&aldid=3yfwqkcp&scm=1003.1.lb-zebra-39172-923071.null_525692750271_1070468&pos=8

https://chaoshi.detail.tmall.com/item.htm?spm=a3204.7933263.0.0.njgxsp&id=42158669826&rewcatid=50512009

按照图2的划分方式,可以得到第一个url的标识数据为:item.htm、spm、id、acm、aldid、scm和pos,第二个url的标识数据为:item.htm、spm、id、acm、aldid、scm和pos,第三个url的标识数据为:item.htm、spm、id、acm、aldid、scm和pos,第四个url的标识数据为:item.htm、spm、id和rewcatid。

由此可见,第一个url、第二个url、第三个url是属于同一类的,第四个url是另外一个类别,因为只有第四个url所对应的标识数据与其它几个是不同的,由此可以看出,此种确定识别数据的方式是可取的。

进一步的,在本例中并没有考虑仅采用查询参数名字段这一个字段生成标识数据,是因为有时候会出现不同网站或者是不同处理逻辑,对应着同样的查询参数名,但是文件名是是不同的情况下,即,然后及时查询参数名相同,如果文件名不同,那么就可能是不同的处理逻辑,因此,在本例中并未单一选择查询参数名,而是在确定有查询参数名字段的情况下,同时采用查询参数名和文件名两个字段作为标识数据,例如:

https://chaoshi.detail.tmall.com/item.htm?spm=a3204.7844270.2739258534.8.d831jb&id=525692750271&acm=lb-zebra-39172-923071.1003.1.1070468&aldid=3yfwqkcp&scm=1003.1.lb-zebra-39172-923071.null_525692750271_1070468&pos=8

https://list.tmall.com/search_product.htm?spm=a3204.8.d831jb&id=525692750271&acm=lb-zebra-39172-923071.1003.1.1070468&aldid=3yfwqkcp&scm=1003.1.lb-zebra-39172.null_525692750271_1070468&pos=8

这两个url地址,虽然查询参数名集合是完全相同的,但是因为文件名是不同的,因此会被划分至两个类别中,即,这两个url是采用不同的处理逻辑的。

在判断哪部分是查询参数名字段,哪部分是文件名字段的时候,可以是采用标识位的方式进行简答直接地判断,例如,如图3所示:

一个购物网站中的男装短袖t的url:

https://s.shopping.com/list?spm=a219r.lm895.a214d6t-static.2.tp5fhe&q=%e7%9f%ad%e8%a2%96t&cat=50344007&style=grid&seller_type=shopping。

一个购物网站中的男装长袖t的url:

https://s.shopping.com/list?spm=a219r.lm895.a214d6t-static.3.fhw3a1&q=%e9%95%bf%e8%a2%96t&cat=50344007&style=grid&seller_type=shopping。

其中,url采用的传输协议为超文本传输协议(http,hypertexttransferprotocol),s.shopping.com为域名:端口,list为文件名,spm、q、cat、style、seller_type为查询参数名,a219r.lm895.a214d6t-static.2.tp5fhe、%e7%9f%ad%e8%a2%96t、50344007、grid、shopping为查询变量。在该示例中,第一标识信息为spm、q、cat、style、seller_type。其中,文件名为list。

检测该url是否具有查询参数名称的方式可以是:

1)检测该url中是否包括分隔符“?”,可以看出上述两个url是具有分隔符“?”的;

2)判断分隔符“?”后面是否有字符,可以看出上述两个url的分隔符“?”后面是具有字符的,分别为:

spm=a219r.lm895.a214d6t-static.2.tp5fhe&q=%e7%9f%ad%e8%a2%96t&cat=50344007&style=grid&seller_type=shopping;

spm=a219r.lm895.a214d6t-static.3.fhw3a1&q=%e9%95%bf%e8%a2%96t&cat=50344007&style=grid&seller_type=shopping。

即,通过分隔符“?”确定查询参数名字段的起始位置,如果“?”之后有字符就表明有查询参数名字段,如果“?”之后没有字符就表明没有查询参数名字段。

有的时候,文件名可以为空,查询参数名也可以为空,因此,如果url中不包括查询参数名,则可以直接提取路径信息(即:路径和文件名)作为代表性的泛化特征作为该url的标识数据,例如:

一个购物网站中女包的首页,其url为:

https://www.shopping.com/market/nvbao/shouye.php?。

可以看出,分隔符“?”后面没有字符,分隔符“?”前的路径信息为market/nvbao/shouye.php,即:该url不包括查询参数名,因此,可提取market/nvbao/shouye.php作为该url的标识数据,即,该url的标识数据就是:market/nvbao/shouye.php。

以上所列举的例子中查询参数名字段都没有去除用于传递变量值的字符,然而,考虑到在实际情况中,有时在查询参数名字段会携带用于传递变量值的字符,为了避免这些字符的存在对分类结果的影响,可以在生成标识数据的时候,将这些字符删除,当然,删除的时候,不仅是删除[],[]中间的字符也是删除的,即,仅保留查询参数名字段中[]之外的字符。

在上例中,通过对url标识数据的提取实现对url的分类,可以将标识数据认为是泛化特征,分类可以认为是泛化,即,根据url的路径信息和查询变量名称作为代表性的泛化特征而对url进行泛化表示,由于具有相同的泛化表示的url的路径信息和查询变量名称相同,因此,执行的是同一套的计算机处理逻辑,因此,可以对具有同一泛化表示的多个url中的某一个url进行分析。如果将这种方式应用在日常的网络数据安全分析中,可以通过对一个url的分析,得知多个url的请求原理,从而可以有效减少如对请求日志安全处理分析中的重复性工作,可以有效提升数据分析处理的效率。

进一步的,在对url进行泛化表示时,可以先去除查询变量名称中的数组下标,再基于去除数组下标的查询变量名称对url进行泛化表示,去除查询变量名称中的数组下标的目的是为了使对url的泛化表示准确,例如:数组下标一般仅是作为变量值传达到计算机处理逻辑中,这样的泛化特征无法表示同一套处理逻辑,因此,可以舍弃数组下标,不将其计入泛化特征。

上述的url分类方法可以应用在日常的安全审核工作中,如图4所示,网络数据安全分析处理的一般是一个请求日志,请求日志中的日志量正常情况下是非常庞大的,而且日志中有正常流量也有异常流量,正常流量和异常流量混在一起一般是难以区分的,在本例中,通过url分类的方式,可以对请求日志中的海量url进行泛化处理,对实现执行同一套计算机处理逻辑的url进行聚类,在对请求日志中海量的url请求进行数据分析处理的过程中,只需要针对同一聚类里的一条url请求进行分析便可以得知一批url的请求原理,进而减少了日志分析处理中的重复性工作,提升了日志分析处理的效率。

图5示出了根据本申请的一示例性实施例的基于服务器侧的分类设备的示意结构图。请参考图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成url分类实现装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

请参考图6,在软件实施方式中,该url分类实现装置可以应用于分析处理服务器中,该服务器可以是单独的一个服务器,也可以是一个服务器集群,可以包括提取模块、生成模块和划分模块。其中:

提取模块,用于按照预设的字段提取规则,从待分类url的中提取字段;

生成模块,用于将提取的字段,作为所述待分类url的标识数据,其中,所述标识数据用于表征所述待分类url的处理逻辑;

划分模块,用于将所述待分类url划分至具备相同的标识数据的url类别中。

在一个实施方式中,提取模块具体可以确定所述待分类url中是否有第一字段;如果没有第一字段,则从所述待分类url中提取第二字段和第三字段作为所述待分类url的标识数据;如果有第一字段,则确定所述第一字段中是否有用于传递变量值的字符;如果有用于传递变量值的字符,则从所述第一字段中去除所述用于传递变量值的字符,将去除用于传递变量值的字符和所述第三字段作为所述待分类url的标识数据;如果没有用于传递变量值的字符,则将所述第一字段和所述第三字段作为所述待分类url的标识数据。

上述的第一字段可以是查询参数名字段,第二字段可以是路径字段,第三字段可以是文件名字段,用于传递变量值的字符可以是数组下标。

在一个实施方式中,提取模块可以将待分类url中的查询参数名和文件名,以序列形式,作为所述待分类url的标识数据。

在一个实施方式中,还可以包括获取模块,用于在提取待分类url的标识数据之前,从待安全审计的网站流量日志中提取一条url作为所述待分类url。

在一个具体实施方式中,上述url分类实现装置可以按照以下方式进行url分类:确定待分类统一资源定位符url中是否有查询参数名字段;在确定没有查询参数名字段的情况下,将所述待分类url中的路径和文件名,作为所述待分类url的标识数据;在确定有查询参数名字段的情况下,将所述待分类url中的查询参数名和文件名,作为所述待分类url的标识数据;将所述待分类url划分至具备相同的标识数据的url类别中。具体地,还可以确定查询参数名字段中是否有用于传递变量值的字符;如果有,则将所述待分类url中的文件名、去除用于传递变量值的字符之后的查询参数名、以及不带有用于传递变量值的字符的查询参数名,作为所述待分类url的标识数据。

在本例中,还提供了一种数据处理系统,包括上述的url分类装置,通过该url分类装置将待审计的网站流量日志中的url划分为多个类别,其中,同一类别中url对应同一套处理逻辑;然后对同一类别中的多条url,仅提取一条进行分析处理。

对于其中url分类装置所实现的功能和具体的操作,可以按照上述描述的方式进行,本申请在此不再赘述对此不作限定。

该数据处理系统可以应用在如图7所示的场景中,获取请求日志,该请求日志可以是多个用户对某一网站的访问记录。因为在请求日志中存储有多条url访问记录,因此,url分类装置可以根据需要对url进行分类,当然,在实际操作的时候,可以是对获取的请求日志中的每条url进行分类操作,也可以是逐条确定当前的url所对应的处理逻辑是否已经被处理过,如果处理过,则可以忽略该条url,对下一条url进行处理,从而可以有效减少操作的重复性。

上述对网站的访问记录可以是客户端产生的,所述客户端可以是客户操作使用的终端设备或者软件。具体的,客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备。当然,客户端也可以是能运行于上述终端设备中的软件。例如:手机淘宝、支付宝或者浏览器等应用软件。

需要说明的是,上述本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供的url分类方法和系统、数据处理方法和系统,按照url的处理逻辑的不同,提取url中可以表征url处理逻辑的标识数据,并根据该标识数据将url划分为不同类别,同一类别中的url适应于相同的处理逻辑,从而有效提高了url的分类效率,且通过url的分类也可以降低后续对url进行集中处理时的操作重复性,提高了对url进行处理的处理效率。

本申请中各个实施例所涉及的上述描述仅是本申请中的一些实施例中的应用,在某些标准、模型、方法的基础上略加修改后的实施方式也可以实行上述本申请各实施例的方案。当然,在符合本申请上述各实施例的中所述的处理方法步骤的其他无创造性的变形,仍然可以实现相同的申请,在此不再赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元组合实现。

本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1