一种识别网页浏览业务的方法及装置制造方法

文档序号:6628859阅读:119来源:国知局
一种识别网页浏览业务的方法及装置制造方法
【专利摘要】本发明公开了一种识别网页浏览业务的方法及装置,用于对网页浏览业务进行准确识别,该方法包括:截获终端发送至服务器的获取信息请求以及所述服务器发送至所述终端的响应信息,所述响应信息与所述获取信息请求相对应;解析所述获取信息请求中的统一资源定位符URL、来源信息以及所述响应信息中的内容类型;根据所述获取信息请求中的URL、来源信息、所述响应信息中的内容类型中的一个或多个,确定所述获取信息请求是主页面获取信息请求或是元素获取信息请求。
【专利说明】一种识别网页浏览业务的方法及装置

【技术领域】
[0001]本发明涉及互联网【技术领域】,具体涉及一种识别网页浏览业务的方法及装置。

【背景技术】
[0002]随着移动互联网的发展,用户通过移动终端访问互联网的情况越来越多。在移动互联网流量中,网页浏览业务产生的流量要远高于其他业务所产生的流量。为了提高用户的使用感知,需要对用户触发的网页浏览业务进行深入分析。在现有技术中,在终端触发网页浏览时需要向服务器发送获取信息请求(即GET请求),由于网页中包括图片、超链接等元素,为了获取网页中的元素也需要向服务器发送GET请求,而现有技术中无法区分各个GET请求的不同,即无法对网页浏览业务进行准确的识别。


【发明内容】

[0003]有鉴于此,本发明提供一种识别网页浏览业务的方法及装置,以解决现有技术中无法对网页浏览业务进行准确识别的技术问题。
[0004]为解决上述问题,本发明提供的技术方案如下:
[0005]一种识别网页浏览业务的方法,所述方法包括:
[0006]截获终端发送至服务器的获取信息请求以及所述服务器发送至所述终端的响应信息,所述响应信息与所述获取信息请求相对应;
[0007]解析所述获取信息请求中的统一资源定位符URL、来源信息以及所述响应信息中的内容类型;
[0008]根据所述获取信息请求中的URL、来源信息、所述响应信息中的内容类型中的一个或多个,确定所述获取息请求是主页面获取息请求或是兀素获取息请求。
[0009]相应的,所述根据所述获取信息请求中的URL、来源信息、所述响应信息中的内容类型中的一个或多个,确定所述获取信息请求是主页面获取信息请求或是元素获取信息请求,包括:
[0010]当所述获取信息请求中的URL包括指定字符,且对应的所述响应信息中的内容类型为text/html,则判断所述获取信息请求为主页面获取信息请求;
[0011 ] 当所述获取信息请求中的URL包括指定字符串,则确定所述获取信息请求为元素获取息请求;
[0012]当第一获取信息请求对应的所述响应信息中的内容类型为text/html,且第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL,则确定所述第二获取信息请求为元素获取信息请求,所述第二获取信息请求是在截获所述第一获取信息请求对应的所述响应信息之后阈值时间内截获的。
[0013]相应的,所述方法还包括:
[0014]当根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则确定所述第一获取信息请求中的URL为主页面地址。
[0015]相应的,所述方法还包括:
[0016]将所述元素获取信息请求作为子消息合并到对应的所述主页面获取信息请求中。
[0017]相应的,所述将所述元素获取信息请求作为子消息合并到对应的所述主页面获取信息请求中,包括:
[0018]当根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则将所述第二获取信息请求作为子消息合并到对应的第一获取信息请求中;
[0019]当所述元素获取信息请求中的来源信息为空,则将所述元素获取信息请求作为子消息合并到之前最近的所述主页面获取信息请求中。
[0020]一种识别网页浏览业务的装置,所述装置包括:
[0021]截获单元,用于截获终端发送至服务器的获取信息请求以及所述服务器发送至所述终端的响应信息,所述响应信息与所述获取信息请求相对应;
[0022]解析单元,用于解析所述获取信息请求中的统一资源定位符URL、来源信息以及所述响应信息中的内容类型;
[0023]第一确定单元,用于根据所述获取信息请求中的URL、来源信息、所述响应信息中的内容类型中的一个或多个,确定所述获取信息请求是主页面获取信息请求或是元素获取信息请求。
[0024]相应的,所述第一确定单元包括:
[0025]第一确定子单元,用于当所述获取信息请求中的URL包括指定字符,且对应的所述响应信息中的内容类型为text/html,则判断所述获取信息请求为主页面获取信息请求;
[0026]第二确定子单元,用于当所述获取信息请求中的URL包括指定字符串,则确定所述获取信息请求为元素获取信息请求;
[0027]第三确定子单元,用于当第一获取信息请求对应的所述响应信息中的内容类型为text/html,且第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL,则确定所述第二获取信息请求为元素获取信息请求,所述第二获取信息请求是在截获所述第一获取信息请求对应的所述响应信息之后阈值时间内截获的。
[0028]相应的,所述装置还包括:
[0029]第二确定单元,用于当根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则确定所述第一获取信息请求中的URL为主页面地址。
[0030]相应的,所述装置还包括:
[0031]合并单元,用于将所述元素获取信息请求作为子消息合并到对应的所述主页面获取信息请求中。
[0032]相应的,所述合并单元包括:
[0033]第一合并子单元,用于根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则将所述第二获取信息请求作为子消息合并到对应的第一获取信息请求中;
[0034]第二合并子单元,用于当所述元素获取信息请求中的来源信息为空,则将所述元素获取信息请求作为子消息合并到之前最近的所述主页面获取信息请求中。
[0035]由此可见,本发明实施例具有如下有益效果:
[0036]本发明实施例对终端发送至服务器的GET请求以及服务器发送至终端的响应信息进行截取,通过分析GET请求以及响应信息确定各个GET请求属于对主网页的GET请求还是对网页中元素的GET请求,并且可以将元素GET请求合并到相应的网页GET请求,从而实现对网页浏览业务的准确识别,为网页浏览业务指标的量化进而通过定量的方式衡量网络用户感知成为可能。

【专利附图】

【附图说明】
[0037]图1为本发明实施例中实现网络浏览业务的流程示意图;
[0038]图2为本发明实施例中提供的识别网页浏览业务的方法实施例的流程图;
[0039]图3为本发明实施例中提供的识别网页浏览业务的装置实施例的示意图。

【具体实施方式】
[0040]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明实施例作进一步详细的说明。
[0041]本发明实施例中提供的方法识别网页浏览业务的方法及装置,是针对现有技术中无法区分各个GET请求的不同,进而无法对网页浏览业务进行准确识别的技术问题,提出通过对终端发送至服务器的GET请求以及服务器发送至终端的响应信息进行截取,对GET请求以及响应信息进行分析确定各个GET请求属于对主网页的GET请求还是对网页中元素的GET请求,并且可以将元素GET请求合并到相应的网页GET请求,从而实现对网页浏览业务的准确识别。
[0042]用户每一次打开网页或点击网页链接的操作,对应产生的页面可以定义为主页面,主页面中包含的文字、图片、超链接等内容可以定义为元素item。参见图1所示,是请求打开主页面的过程,终端发送GET请求到SP服务器,该GET请求为主页面GET请求,主页面GET请求中可以包括所请求的网页地址。服务器响应该GET请求,会发送包括部分或全部网页元素内容的响应信息给终端。当响应信息包括全部网页元素内容时代表服务器中保存有主页面中各个所需元素的内容,终端不再需要发送元素GET请求获取元素内容;当响应信息包括部分网页元素内容时则代表终端需要从其他服务器或服务器的其他路径再次请求获取元素内容,此时服务器下发的响应信息中还会包括所需元素的地址。终端向元素所在服务器发送元素GET请求,会接收到包括元素内容的响应信息,这样实现终端获取主页面。本实施例的目的在于对主页面GET请求与元素GET请求进行识别,并将各元素的GET请求作为子消息归并到主页面的GET请求下,以实现可以在业务统计时一次用户行为对应一个主页面。
[0043]本发明实施例将从识别网页浏览业务的装置角度进行描述,该识别网页浏览业务的装置具体可以集成在客户端中,该客户端可以装载在发送GET请求的终端或接收GET请求的服务器,也可以装载在发送GET请求的终端、接收GET请求的服务器之外的第三方终端,其中终端具体可以为智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
[0044]参见图2所示,是本发明实施例中提供的识别网页浏览业务的方法实施例,可以包括以下步骤:
[0045]步骤201:截获终端发送至服务器的获取信息请求以及服务器发送至终端的响应信息,响应信息与获取信息请求相对应。
[0046]本发明实施例可以根据⑶R(calling detail records,呼叫详细记录)进行网页浏览业务的识别,CDR描述了呼叫接续的全过程。即在本发明实施例中终端发送至服务器的GET请求以及服务器发送至终端的响应信息均被截取获取,可以理解的是终端发送一个GET请求,服务器可以对应产生一个或多个响应信息。
[0047]步骤202:解析获取信息请求中的统一资源定位符URL、来源信息以及响应信息中的内容类型。
[0048]步骤203:根据获取信息请求中的URL、来源信息、响应信息中的内容类型中的一个或多个,确定获取信息请求是主页面获取信息请求或是元素获取信息请求。
[0049]GET请求中可以包括URL、来源信息Referer,响应信息中可以包括内容类型content-type,通过对这些信息进行分析,可以确定终端发送的GET请求是主页面GET请求还是元素GET请求。
[0050]在本发明的一些实施例中,根据获取信息请求中的URL、来源信息、响应信息中的内容类型中的一个或多个,确定获取信息请求是主页面获取信息请求或是元素获取信息请求的具体实现可以包括:
[0051]当获取信息请求中的URL包括指定字符,且对应的响应信息中的内容类型为text/html,则判断获取信息请求为主页面获取信息请求;
[0052]当获取信息请求中的URL包括指定字符串,则确定获取信息请求为元素获取信息请求;
[0053]当第一获取信息请求对应的响应信息中的内容类型为text/html,且第二获取信息请求中的来源信息等于第一获取信息请求中的URL,则确定第二获取信息请求为元素获取息请求,第二获取息请求是在截获第一获取信息请求对应的响应信息之后阈值时间内截获的。
[0054]即在本发明实施例中确定GET请求类型的方式有以下至少三种:
[0055]第一,截取TCP 协议(Transmiss1n Control Protocol,传输控制协议)包的 GET请求,对该GET请求的响应信息进行解码得到content-type为text/html,且该GET请求解码得到的URL以“/”起始,则该GET请求为主页面GET请求;
[0056]第二,截取TCP协议包的GET请求,解码得到的URL末尾或中间有html”或shtml”等指定字符串用于解释网页浏览业务,则该GET请求为元素GET请求;
[0057]第三,当某一GET请求的响应信息中content-type为text/html,且在阈值时间内(例如5秒)接收到另一 GET请求中Referer等于前一 GET请求的URL,则后一 GET请求为元素GET请求,且前一 GET请求的URL代表所访问的主页面。
[0058]即当根据第二获取信息请求中的来源信息等于第一获取信息请求中的URL确定第二获取信息请求为元素获取信息请求,则确定第一获取信息请求中的URL为主页面地址。
[0059]基于上述实施例,在本发明的一些实施例中,本发明实施例提供的识别网页浏览业务的方法还可以包括:
[0060]将元素获取信息请求作为子消息合并到对应的主页面获取信息请求中。
[0061]GET请求合并至少可以有以下两种形式:
[0062]当根据第二获取信息请求中的来源信息等于第一获取信息请求中的URL确定第二获取信息请求为元素获取信息请求,则将第二获取信息请求作为子消息合并到对应的第一获取信息请求中;
[0063]当元素获取信息请求中的来源信息为空,则将元素获取信息请求作为子消息合并到之前最近的主页面获取信息请求中。
[0064]即第一,当GET请求中携带的Referer等于之前GET请求中的URL,则把在后的GET请求作为子消息合并到之前的GET请求下,即把在后的元素GET请求与对应的主页面GET请求合并在一起;
[0065]第二,当元素GET请求没有携带Referer,即Referer为空的情况下,则将该元素GET请求可以与在先的最近一次主页面GET请求合并。
[0066]将各元素的GET请求作为子消息归并到主页面的GET请求下,实现可以在业务统计时一次用户行为对应一个主页面。
[0067]这样,本发明实施例对终端发送至服务器的GET请求以及服务器发送至终端的响应信息进行截取,通过分析GET请求以及响应信息确定各个GET请求属于对主网页的GET请求还是对网页中元素的GET请求,并且可以将元素GET请求合并到相应的网页GET请求,从而实现对网页浏览业务的准确识别,为网页浏览业务指标的量化进而通过定量的方式衡量网络用户感知成为可能。
[0068]参见图3所示,本发明实施例中还提供一种识别网页浏览业务的装置实施例,该装置实施例可以包括:
[0069]截获单元301,用于截获终端发送至服务器的获取信息请求以及服务器发送至终端的响应信息,响应信息与获取信息请求相对应。
[0070]可以截获终端发送至服务器的GET请求以及服务器发送至终端的响应信息,可以理解的是终端发送一个GET请求,服务器可以对应产生一个或多个响应信息。
[0071]解析单元302,用于解析获取信息请求中的统一资源定位符URL、来源信息以及响应信息中的内容类型。
[0072]第一确定单元303,用于根据获取信息请求中的URL、来源信息、响应信息中的内容类型中的一个或多个,确定获取信息请求是主页面获取信息请求或是元素获取信息请求。
[0073]GET请求中可以包括URL、来源信息Referer,响应信息中可以包括内容类型content-type,通过对这些信息进行分析,可以确定终端发送的GET请求是主页面GET请求还是元素GET请求。
[0074]在本发明的一些实施例中,第一确定单元可以包括:
[0075]第一确定子单元,用于当获取信息请求中的URL包括指定字符,且对应的响应信息中的内容类型为text/html,则判断获取信息请求为主页面获取信息请求;
[0076]第二确定子单元,用于当获取信息请求中的URL包括指定字符串,则确定获取信息请求为元素获取信息请求;
[0077]第三确定子单元,用于当第一获取信息请求对应的响应信息中的内容类型为text/html,且第二获取信息请求中的来源信息等于第一获取信息请求中的URL,则确定第二获取信息请求为元素获取信息请求,第二获取信息请求是在截获第一获取信息请求对应的响应信息之后阈值时间内截获的。
[0078]即在本发明实施例中确定GET请求类型的方式有以下至少三种:
[0079]第一,截取TCP 协议(Transmiss1n Control Protocol,传输控制协议)包的 GET请求,对该GET请求的响应信息进行解码得到content-type为text/html,且该GET请求解码得到的URL以“/”起始,则该GET请求为主页面GET请求;
[0080]第二,截取TCP协议包的GET请求,解码得到的URL末尾或中间有html”或shtml”等指定字符串用于解释网页浏览业务,则该GET请求为元素GET请求;
[0081]第三,当某一GET请求的响应信息中content-type为text/html,且在阈值时间内(例如5秒)接收到另一 GET请求中Referer等于前一 GET请求的URL,则后一 GET请求为元素GET请求。
[0082]在本发明的一些实施例中,本发明实施例中提供的识别网页浏览业务的装置实施例还可以包括:
[0083]第二确定单元,用于当根据第二获取信息请求中的来源信息等于第一获取信息请求中的URL确定第二获取信息请求为元素获取信息请求,则确定第一获取信息请求中的URL为主页面地址。
[0084]也即当某一 GET请求的响应信息中content-type为text/html,且在阈值时间内接收到另一 GET请求中Referer等于前一 GET请求的URL,则后一 GET请求为元素GET请求,且前一 GET请求的URL代表所访问的主页面。
[0085]在本发明的一些实施例中,本发明实施例中提供的识别网页浏览业务的装置实施例还可以包括:
[0086]合并单元,用于将元素获取信息请求作为子消息合并到对应的主页面获取信息请求中。
[0087]在本发明的一些实施例中,合并单元可以包括:
[0088]第一合并子单元,用于根据第二获取信息请求中的来源信息等于第一获取信息请求中的URL确定第二获取信息请求为元素获取信息请求,则将第二获取信息请求作为子消息合并到对应的第一获取信息请求中;
[0089]第二合并子单元,用于当元素获取信息请求中的来源信息为空,则将元素获取信息请求作为子消息合并到之前最近的主页面获取信息请求中。
[0090]GET请求合并至少可以有以下两种形式:
[0091]第一,当GET请求中携带的Referer等于之前GET请求中的URL,则把在后的GET请求作为子消息合并到之前的GET请求下,即把在后的元素GET请求与对应的主页面GET请求合并在一起;
[0092]第二,当元素GET请求没有携带Referer,即Referer为空的情况下,则将该元素GET请求可以与在先的最近一次主页面GET请求合并。
[0093]将各元素的GET请求作为子消息归并到主页面的GET请求下,实现可以在业务统计时一次用户行为对应一个主页面。
[0094]这样,本发明实施例对终端发送至服务器的GET请求以及服务器发送至终端的响应信息进行截取,通过分析GET请求以及响应信息确定各个GET请求属于对主网页的GET请求还是对网页中元素的GET请求,并且可以将元素GET请求合并到相应的网页GET请求,从而实现对网页浏览业务的准确识别,为网页浏览业务指标的量化进而通过定量的方式衡量网络用户感知成为可能。
[0095]需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0096]还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0097]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或【技术领域】内所公知的任意其它形式的存储介质中。
[0098]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【权利要求】
1.一种识别网页浏览业务的方法,其特征在于,所述方法包括: 截获终端发送至服务器的获取信息请求以及所述服务器发送至所述终端的响应信息,所述响应信息与所述获取信息请求相对应; 解析所述获取信息请求中的统一资源定位符URL、来源信息以及所述响应信息中的内容类型; 根据所述获取信息请求中的URL、来源信息、所述响应信息中的内容类型中的一个或多个,确定所述获取息请求是主页面获取息请求或是兀素获取息请求。
2.根据权利要求1所述的方法,其特征在于,所述根据所述获取信息请求中的URL、来源信息、所述响应信息中的内容类型中的一个或多个,确定所述获取信息请求是主页面获取信息请求或是元素获取信息请求,包括: 当所述获取信息请求中的URL包括指定字符,且对应的所述响应信息中的内容类型为text/html,则判断所述获取信息请求为主页面获取信息请求; 当所述获取信息请求中的URL包括指定字符串,则确定所述获取信息请求为元素获取信息请求; 当第一获取信息请求对应的所述响应信息中的内容类型为text/html,且第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL,则确定所述第二获取信息请求为元素获取信息请求,所述第二获取信息请求是在截获所述第一获取信息请求对应的所述响应信息之后阈值时间内截获的。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括: 当根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则确定所述第一获取信息请求中的URL为主页面地址。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括: 将所述元素获取信息请求作为子消息合并到对应的所述主页面获取信息请求中。
5.根据权利要求4所述的方法,其特征在于,所述将所述元素获取信息请求作为子消息合并到对应的所述主页面获取信息请求中,包括: 当根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则将所述第二获取信息请求作为子消息合并到对应的第一获取息请求中; 当所述元素获取信息请求中的来源信息为空,则将所述元素获取信息请求作为子消息合并到之前最近的所述主页面获取信息请求中。
6.一种识别网页浏览业务的装置,其特征在于,所述装置包括: 截获单元,用于截获终端发送至服务器的获取信息请求以及所述服务器发送至所述终端的响应信息,所述响应信息与所述获取信息请求相对应; 解析单元,用于解析所述获取信息请求中的统一资源定位符URL、来源信息以及所述响应信息中的内容类型; 第一确定单元,用于根据所述获取信息请求中的URL、来源信息、所述响应信息中的内容类型中的一个或多个,确定所述获取信息请求是主页面获取信息请求或是元素获取信息请求。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元包括: 第一确定子单元,用于当所述获取信息请求中的URL包括指定字符,且对应的所述响应信息中的内容类型为text/html,则判断所述获取信息请求为主页面获取信息请求; 第二确定子单元,用于当所述获取信息请求中的URL包括指定字符串,则确定所述获取信息请求为元素获取信息请求; 第三确定子单元,用于当第一获取信息请求对应的所述响应信息中的内容类型为text/html,且第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL,则确定所述第二获取信息请求为元素获取信息请求,所述第二获取信息请求是在截获所述第一获取信息请求对应的所述响应信息之后阈值时间内截获的。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括: 第二确定单元,用于当根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则确定所述第一获取信息请求中的URL为主页面地址。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括: 合并单元,用于将所述元素获取信息请求作为子消息合并到对应的所述主页面获取信息请求中。
10.根据权利要求9所述的装置,其特征在于,所述合并单元包括: 第一合并子单元,用于根据第二获取信息请求中的来源信息等于所述第一获取信息请求中的URL确定所述第二获取信息请求为元素获取信息请求,则将所述第二获取信息请求作为子消息合并到对应的第一获取信息请求中; 第二合并子单元,用于当所述元素获取信息请求中的来源信息为空,则将所述元素获取信息请求作为子消息合并到之前最近的所述主页面获取信息请求中。
【文档编号】G06F17/30GK104268236SQ201410510033
【公开日】2015年1月7日 申请日期:2014年9月28日 优先权日:2014年9月28日
【发明者】邓博文, 张春林, 刘敬杰, 王振华, 龙文才 申请人:深圳市优网科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1