一种网络日志URL的分析方法及装置与流程

文档序号:12200783阅读:420来源:国知局
一种网络日志URL 的分析方法及装置与流程
一种网络日志URL的分析方法及装置技术领域本申请涉及数据处理的技术领域,特别是涉及一种网络日志URL的分析方法和装置。

背景技术:
在商业分析中经常会对这些海量Weblog(网络日志)进行各种分析挖掘处理,其中,Weblog的URL中包含着访客访问的重要信息,通常需要使用正则表达式与URL进行匹配,对匹配上的正则表达式所属类别进行商业分析。现有技术中,整个Weblog的URL处理过程分三步:1.收集到海量的Weblog并存储原始数据;2.对URL进行正则表达式的匹配,每一条URL匹配到正则规则可能会有多条(通常为1-10条这个范围内);3.根据正则规则对应的商业分类,产出商业分类的后续数据指标分析。假设原始weblog有n条,匹配正则表达式有m条,那么真实的匹配过程产生的数据匹配就会有n×m条。以上现有技术中存在的问题是,URL正则匹配过程较为复杂,大型互联网Weblog的记录数是海量的,多条正则匹配规则依次对海量的URL逐条进行正则匹配,计算量非常大,计算成本较高。因此,本申请所要解决的技术问题是,提供一种网络日志URL的分析机制,以减少正则匹配的计算量,降低计算成本。

技术实现要素:
本申请所要解决的技术问题是提供一种网络日志URL的分析方法,以减少正则匹配的计算量,降低计算成本。本申请还提供了一种网络日志URL的分析装置,用以保证上述方法在实际中的应用及实现。为了解决上述问题,本申请公开了一种网络日志URL的分析方法,包括:提取网页日志中的URL;对所述URL进行去重处理;依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;对去重前各URL对应的不同的正则表达式编号进行统计。优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。优选的,所述针对去重前的所有URL,在去重后的URL中,找到与其相同的URL对应的正则表达式,作为对应的正则表达式的步骤包括:将第二表格的数据进行行转列;通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。优选的,所述去重前URL对应的正则表达式编号,对应添加到第一表格中。优选的,所述去重前URL对应的正则表达式编号,替换第一表格中对应的URL。优选的,所述对去重前各URL对应的不同的正则表达式编号进行统计的步骤为,分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数。优选的,所述正则表达式的编号为其所属商业类别的编号。本申请还提供了一种网络日志URL的分析装置,包括:URL提取模块,用于提取网页日志中的URL;URL去重模块,用于对所述URL进行去重处理;正则匹配模块,用于依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;匹配结果复制模块,用于针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;统计模块,用于对去重前各URL对应的不同的正则表达式编号进行统计。优选的,去重前和去重后的URL分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,对应存储在第二表格中。优选的,所述匹配结果复制模块包括:行转列子模块,用于将第二表格的数据进行行转列;等值连接子模块,用于通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。与现有技术相比,本申请具有以下优点:依据本申请,针对海量的Weblog中的URL,先去除其中重复的URL,在对去重后的URL进行正则匹配,由于海量的log里面,URL的重复访问的次数非常高,去重后,针对相同的URL进行正则匹配技术成本只有一次,由去重后URL的匹配结果,即可得到与之相同的所有URL对应的正则表达式。因此,能够非常有效的将URL正则匹配的计算成本降低到最低。本申请可以将去重前后的URL存储在表格中,通过将去重前后URL所在列进行等值连接,即可找到去重前所有URL与其正则表达式的对应关系,相比于正则匹配的不等值连接,可以降低计算成本。而且,在进行等值连接时可以选择将正则表达式编号替换掉表中对应的URL,展示结果就只有正则匹配表达式的编号,相比于存在URL的情况,大大减小了表格的列宽,占用资源较小。附图说明图1是本申请的一种网络日志URL的分析方法实施例的流程图;图2是本申请的一种网络日志URL的分析装置实施例的结构框图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。参考图1,示出了本申请的一种网络日志URL的分析方法实施例的流程图,具体可以包括以下步骤:步骤101、提取网页日志中的URL。网页日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件,确切的讲,应该是服务器日志。网页日志中包含了访客请求访问的网页地址URL。URL由协议、域名、请求地址三部分组成,完整地URL唯一确定了一个请求的资源,该资源可以是页面、内容模块、文件或多媒体资源等。URL对于网站而言,URL的用处是对资源的唯一定位,所以方式可以有很多,用资源的唯一描述(资源名称或简称等),资源的唯一识别码(ID、数字标记等),也可以是动态参数。因此,通过提取URL中的信息可以得知访客访问了哪些网页内容,通过对海量日志中URL的分析,可以得知各种网页资源被访问的情况,如次数,频率等信息。步骤102、对所述URL进行去重处理。一个URL一天内会被多次访问,因此,海量的网络日志中会存在大量的重复的URL。所述去重处理为去除所述网页日志中重复的网络地址,保留下的URL均不相同。在进行去重处理的时候,可以提取所有URL中不重复的URL,或将URL依次放入表,在存储之前判断表中是否存在相同的网络地址,若不存在,则添加到表中,若存在,则不进行添加。在本申请的一种优选实施例中,去重前和去重后的URL可以分别以列的形式存储在第一表格和第二表格中。如下例所示。第一表格为:Ahttp://men.taobao.com/123456http://men.taobao.com/123456http://men.taobao.com/123456http://women.taobao.com/123456http://women.taobao.com/123456http://women.taobao.com/123456其中,http://men.taobao.com/123456这个URL重复了3次,http://women.taobao.com/123456这个URL也重复了3次,因此,去重后得到的第二表格为:Dhttp://men.taobao.com/123456http://women.taobao.com/123456步骤103、依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号。公知的是,正则表达式是用于进行文本匹配的工具,通常由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。正则表达式的匹配可以理解为,在给定的字符串中,寻找与给定的正则表达式相匹配的部分。有可能字符串里有不止一个部分满足给定的正则表达式,这时每一个这样的部分被称为一个匹配。此处是将URL与预设的包含关键字的正则表达式进行匹配,匹配上了说明URL中包含正则表达式中的关键字,匹配不上,说明不包含。通过对URL进行多个正则表达式的匹配可以得知URL中所包含的信息或信息的分类。在本申请的一种优选实施例中,所述去重后的URL对应的正则表达式编号,可以对应存储在第二表格中。具体的,所述正则表达式的编号可以为其所属商业类别的编号。如上例,进行匹配后,结果如下表所示:DEhttp://men.taobao.com/123456menhttp://women.taobao.com/123456menhttp://women.taobao.com/123456women对http://men.taobao.com/123456使用多条预置的正则表达式进行正则匹配,得出与编号为men的正则表达式匹配。http://women.taobao.com/123456中既包含men的关键字,也包含women的关键字,可以与编号为men和women的正则表达式匹配。步骤104、针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号。去重前的URL在去重后的URL中均能找到与之相同,因此,针对去重前URL,可以将与之相同的URL对应的正则表达式编号作为自己对应的正则表达式编号。由于本申请是针对去重后的URL进行正则匹配,相对于现有技术中针对每条URL逐个匹配,可以大大减少工作量。如上例,现有技术中需要针对6条URL进行逐条匹配,而去重后,只需对2条URL进行匹配,然后将匹配结果与6条URL对应即可。在具体的实现中,将去重前后的URL和正则匹配的结果放入表格中后,所述步骤104可以包括:子步骤S11、将第二表格的数据进行行转列。子步骤S12、通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。在进行正则匹配后,各条URL对应的正则表达式编号是以列的形式进行存储的,可以将一条url对应的正则表达式的编号按大小顺序存储到一列里面,如下所示:DEFhttp://men.taobao.com/123456menhttp://women.taobao.com/123456menwomen然后,对A列和D列进行等值连接,这样就可以将E列、F列和G列中的正则表达式编号和A列中的URL关联起来。在本申请的一种优选实施例中,所述去重前URL对应的正则表达式编号,可以对应添加到第一表格中,例如,将正则表达式编号添加到第一表格中URL右侧的列中,并与URL进行对应。在本申请的另一种优选实施例中,所述去重前URL对应的正则表达式编号,可以替换第一表格中对应的URL,即针对第一表格中的各个URL,将第二表格中与之相同的URL对应的正则表达式的编号,添加到第一表格中,并替换原URL。本申请针对海量的URL,只对其中不重复的URL进行正则匹配,因此能够非常有效的降低url正则匹配的计算成本到最低。步骤105、对去重前各URL对应的不同的正则表达式编号进行统计。在具体的实现中,所述步骤105可以为,分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数,依据不同正则表达式所对应的关键词或分类,可以对访客访问网站的各种信息进行统计。在具体的实现中,可以在Hadoop或Hive等数据仓库平台中实施本申请。综上所述,依据本申请,针对海量的Weblog中的URL,先去除其中重复的URL,在对去重后的URL进行正则匹配,由于海量的Weblog里面,URL的重复访问的次数非常高,去重后,针对相同的URL进行正则匹配技术成本只有一次,由去重后URL的匹配结果,即可得到与之相同的所有URL对应的的正则表达式。因此,能够非常有效的将URL正则匹配的计算成本降低到最低。本申请可以将去重前后的URL存储在表格中,通过将去重前后URL所在列进行等值连接,即可找到去重前所有URL与其正则表达式的对应关系,相比于正则匹配的不等值连接,可以降低计算成本。而且,在进行等值连接时可以选择将正则表达式编号替换掉表中对应的URL,展示结果就只有正则匹配表达式的编号,相比于存在URL的情况,大大减小了表格的列宽,占用资源较小。对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。参考图2,其示出了本申请的一种网络日志URL的分析装置实施例的结构框图,具体可以包括以下模块:URL提取模块201,用于提取网页日志中的URL;URL去重模块202,用于对所述URL进行去重处理;正则匹配模块203,用于依次采用预置的多个正则表达式,对去重后URL进行正则匹配,提取与去重后URL匹配的正则表达式的编号;匹配结果复制模块204,用于针对去重前URL,复制与其相同的去重后URL的正则表达式编号,作为对应的正则表达式编号;统计模块205,用于对去重前各URL对应的不同的正则表达式编号进行统计。在本申请的一种优选实施例中,去重前和去重后的URL可以分别以列的形式存储在第一表格和第二表格中;所述去重后的URL对应的正则表达式编号,可以对应存储在第二表格中。在本申请的一种优选实施例中,所述匹配结果复制模块可以包括:行转列子模块,用于将第二表格的数据进行行转列;等值连接子模块,用于通过对第一表格和第二表格中URL所在列进行等值连接,使去重前的所有URL找到其对应的正则表达式编号。在本申请的一种优选实施例中,所述去重前URL对应的正则表达式编号,可以对应添加到第一表格中。在本申请的一种优选实施例中,所述去重前URL对应的正则表达式编号,可以替换第一表格中对应的URL。在本申请的一种优选实施例中,所述统计模块可以为,计算模块,用于分别计算各个不同的正则表达式编号在去重前所有URL中出现的次数。在本申请的一种优选实施例中,所述正则表达式的编号可以为其所属商业类别的编号。由于所述装置实施例基本相应于前述图1和图2所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本申请所提供的一种网络日志URL的分析方法,以及,一种网络日志URL的分析装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1