一种识别处理网页信息的方法和网页信息识别处理装置的制作方法

文档序号:7740783阅读:141来源:国知局
专利名称:一种识别处理网页信息的方法和网页信息识别处理装置的制作方法
技术领域
本发明涉及通信领域,尤其涉及一种识别处理网页信息的方法和网页信息识别处
理装置。
背景技术
B/S结构(Browser/Server,浏览器/服务器模式),是WEB兴起后的一种网络结构 模式,WEB浏览器是客户端最主要的应用软件。这种模式统一了客户端,将系统功能实现的 核心部分集中到服务器上,简化了系统的开发、维护和使用。客户端上只要安装一个浏览器 (Browser),服务器安装 Oracle、Sybase、Informix 或 SQL Server 等数据库。超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广 泛的一种网络协议,HTTP的特点是并行和短连接,也就是说,在B/S结构的应用系统中,一 个页面的所有元素会通过多个数据流传输,且可以同时请求两个页面。如图1示出了一个 会话(Session)中网页请求的例子,在一个kssion中用户请求进入“搜狐主页”后并行请 求进入“体育频道”页面,那么服务器端在响应处理该kssion时会把“搜狐主页”与“体育 频道”合成一个请求页面进行处理,即同时处理“搜狐主页”中的“搜狐photol. gif”、“搜狐 photo2. gif”等页面元素,和“体育频道”页面中的“体育photol. gif”、“体育frame, js”等 页面元素,不利于完整识别用户的一个网页请求。如何处理用户的网页请求,如何更好地识别出用户的一个网页请求,从而测试出 B/S结构的应用系统的终端用户体验,是人们一直研究的问题。

发明内容
本发明实施例在于提供一种识别处理网页信息的方法和网页信息识别处理装置, 通过旁路部署方式,抓获来往Web服务器的HTTP数据包,识别用户完整的网页请求,以分析 出用户使用Web服务的体验。为了达到上述技术效果,本发明实施例提出了一种识别处理网页信息的方法,包 括通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包,并从所述 HTTP数据包中识别出网页元素URL ;检测所述网页元素URL是否有引用URL ;当检测结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL, 当检测结果为否时,判断存储在本端信息库的根页面URL是否存在所述网页元素URL ;当判断结果为否时,将所述网页元素URL作为根页面URL存储在本端信息库中。优选地,所述将所述网页元素URL作为根页面URL存储在本端信息库中的步骤包 括查找存储在本端信息库的子页面URL是否存在所述网页元素URL ;当查找结果为是时,删除本端信息库中所述子页面URL,并将所述网页元素URL作为根页面URL存储在本端信息库中,当查找结果为否时,将所述网页元素URL作为根页面 URL存储在本端信息库中。优选地所述向存储在本端信息库的所述引用URL添加所述网页元素URL的步骤包 括查找本端信息库是否存储有所述引用URL ;当查找结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL ; 当查找结果为否时,结束处理。优选地,所述判断存储在本端信息库的根页面URL是否存在所述网页元素URL的 步骤之前还包括检测所述网页元素URL是否存在动态信息;当检测结果为是时,按照预设的规则对所述网页元素URL进行修正。优选地,所述判断存储在本端信息库的根页面URL是否存在所述网页元素URL的 步骤包括判断存储在本端信息库中根据修正后的网页元素URL是否存在识别出的网页元 素 URL。优选地,经过所述预设的时间段后,重新执行通过旁路在预设的时间段内获取来 往Web服务器的HTTP数据包,并从所述HTTP数据包中识别出网页元素URL的步骤。相应地,本发明实施例公开了一种网页信息识别处理装置,包括信息库,用于存储页面URL ;获取模块,用于通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数 据包;识别模块,用于从所述获取模块获取的所述HTTP数据包中识别出网页元素URL ;分析检测模块,用于检测所述网页元素URL是否有引用URL ;添加模块,用于当所述分析检测模块的检测结果为是时,向存储在所述信息库的 所述引用URL添加所述网页元素URL ;判断模块,用于当所述分析检测模块的检测结果为否时,判断存储在所述信息库 的根页面URL是否存在所述网页元素URL ;判断处理模块,用于当所述判断模块的判断结果为否时,将所述网页元素URL作 为根页面URL存储在所述信息库中。优选地,所述判断处理模块包括第一查找单元,用于查找存储在所述信息库的子页面URL是否存在所述网页元素 URL ;删除单元,用于当所述第一查找单元的查找结果为是时,删除所述信息库中所述 子页面URL,并将所述网页元素URL作为根页面URL存储在所述信息库中;存储单元,用于当所述第一查找单元的查找结果为否时,将所述网页元素URL作 为根页面URL存储在所述信息库中。优选地,所述添加模块包括第二查找单元,用于查找所述信息库是否存储有所述引用URL ;查找处理单元,用于当所述第二查找单元的查找结果为是时,向存储在所述信息库的所述引用URL添加所述网页元素URL;当所述第二查找单元的查找结果为否时,结束处理。优选地,所述网页信息识别处理装置还包括动态信息检测模块,用于检测所述识别模块识别出的网页元素URL是否存在动态 fn息;修正模块,用于当所述动态信息检测模块的检测结果为是时,按照预设的规则对 所述网页元素URL进行修正。优选地,所述判断模块用于当所述分析检测模块的检测结果为否时,判断存储在 所述信息库中根据所述修正模块修正后的网页元素URL是否存在所述识别模块识别出的 网页元素URL。实施本发明实施例,通过在服务器端通过旁路部署方式,抓获来往Web服务器的 HTTP数据包,根据本端信息库实现将一fkssion中用户并行请求多个页面分离处理,解 决了一个kssion中用户并行请求多个页面而导致不利于完整识别用户的一个网页请求 的问题,通过重复多次的识别处理网页信息(即多次旁路学习处理),可以实现更好地识别 出用户的一个网页请求,并便于测试出B/S结构的应用系统的终端用户体验,如便于测试 出各页面的加载时间、是否出现故障等信息。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。图1是现有技术中一个kssion中网页请求的示意图;图2是本发明实施例的识别处理网页信息的方法的流程示意图;图3是本发明实施例定义的一个kssion中内容请求的示意图;图4是本发明实施例中将所述网页元素URL作为根页面URL存储在本端信息库中 的方法流程示意图;图5是本发明实施例的网页信息识别处理装置的结构示意图;图6是本发明实施例的判断处理模块的结构示意图;图7是本发明网页信息识别处理装置的另一实施例的结构示意图。
具体实施例方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结 合附图及实施例,对本发明进行进一步详细说明。请参阅图2示出的本发明实施例的识别处理网页信息的方法的流程示意图,包 括步骤S201 通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据 包,并从所述HTTP数据包中识别出网页元素URL ;具体地,本端是一个网页信息识别处理装置,可以看作服务器端的一个旁路分析
6装置,抓获来往Web服务器的HTTP数据包。本端可以预先定义自身的kssion,即定义在允 许的时间间隔中内容的连续请求,如图3示出了本发明实施例定义的一个kssion中内容 请求的示意图,每个kssion中往往都会有多个网页请求数据包,那么本端将在预设的时 间段内(一fkssion内)获取来往Web服务器的HTTP数据包,并从所述HTTP数据包中 识别出网页元素URL。需要说明的是,网页元素即页面元素;当处理完一fkssion中内容 请求后,将继续处理另一个kssion中内容请求。步骤S202 检测所述网页元素URL是否有引用URL ;具体地,在超文本置标语言(HTML,HyperText Markup Language)中,refer 字 段表明该网页元素URL引用的父页面元素URL,本端可以通过检测所述网页元素URL对应 的refer字段是否为空来检测所述网页元素URL是否有引用(refer) URL,当检测到所述网 页元素URL对应的refer字段不为空时,即表明检测出所述网页元素URL有对应的refer URL,则执行步骤S203 ;当检测到所述网页元素URL对应的refer字段为空时,即表明检测 出所述网页元素URL没有对应的refer URL,则执行步骤S204。步骤S203 向存储在本端信息库的所述引用URL添加所述网页元素URL ;具体地,本端信息库存储有页面URL,通过查找本端信息库存储的页面URL是否含 有所述引用URL ;当查找结果为是时,向存储在本端信息库的所述引用URL添加所述网页元 素URL,结束该网页元素URL的处理;当查找结果为否时,直接结束该网页元素URL的处理。步骤S204 判断存储在本端信息库的根页面URL是否存在所述网页元素URL ;具体地,本端信息库中存储有根页面URL(即页面的根节点信息)以及子页面 URL (即根节点下方展开的子节点信息,也即子树节点信息),本端判断存储在本端信息库 的根页面URL是否存在所述网页元素URL,即判断本端信息库中是否存在以所述页面元素 作为根页面来进行存储,当判断结果为是时,结束处理该页面元素;当判断结果为否时,则 执行步骤S205。步骤S205 将所述网页元素URL作为根页面URL存储在本端信息库中。进一步地,下面结合图4,详细说明步骤S205的方法流程,包括步骤S401 查找存储在本端信息库的子页面URL是否存在所述网页元素URL ;具体地,例如用户直接输入搜狐主页下的体育频道的URL信息,直接打开体育频 道页面,该体育频道的网页元素URL对应的refer字段为空(步骤S2(^),那么本端将判断 存储在本端信息库的根页面URL是否存在该体育频道的网页元素URL(步骤S204),当判断 结果为否时,表明本端信息库中没有单独存储有该体育频道页面的元素,那么本端将查找 存储在本端信息库的子页面URL是否存在所述网页元素URL,本端信息库中存储的子页面 URL即存储的各个页面中的网页元素URL,本端查找存储在本端信息库的各个页面中的网 页元素URL是否存在该体育频道的网页元素URL,当查找结果为是时,则执行步骤S402 ;当 查找结果为否时,则执行步骤S403。步骤S402:删除本端信息库中所述子页面URL,并将所述网页元素URL作为根页面 URL存储在本端信息库中;具体地,例如父页面为搜狐主页下的子树节点信息(子页面URL)中含有该体育频 道页面的元素(网页元素URL),那么本端将删除本端信息库中所述搜狐主页下的该体育频 道的网页元素URL,并将该体育频道的网页元素URL作为根页面URL(即新页面的根节点信息)存储在本端信息库中,相当于把本端信息库中所述搜狐主页下的该体育频道的网页元 素URL分离了出来,以新页面存储在本端信息库中。步骤S403 将所述网页元素URL作为根页面URL存储在本端信息库中。再进一步地,本发明实施例中步骤S204之前还可以包括以下步骤本端检测所 述网页元素URL是否存在动态信息,当检测结果为是时,按照预设的规则对所述网页元素 URL 进行修正。具体地,例如如下 URL 信息:http://www. sohu. com/func. html ? get = weather&date = 2008_10_23,表明用户想查看2008年10月23号的天气情况,那么date = 2008-10-23即为动态信息,通过改变date = 2008-10-23信息,URL信息将会不断改变。当 本端检测到请求的网页元素URL存在动态信息时,将按照预设的规则对所述网页元素URL 进行修正,如把 URL 信息修正为 http //www. sohu. com/func. html ? get = weather,艮口本 端可以根据预先设置的规则删除URL信息含有的&XXX = yyy信息(该xxx、yyy为任意形 式的信息)。需要说明的是,本发明实施例中步骤S204还可以具体地为本端判断存储在本端 信息库中根据修正后的网页元素URL是否存在识别出的网页元素URL,如上述例子URL信息 http://www. sohu. com/func. html ? get = weather&date = 2008-10-23 修正为 http:// www. sohu. com/func. html ? get = weather,那么本端不会判断本端信息库的根页面URL 是否存在 http //www. sohu. com/func. html ? get = weather&date = 2008-10-23,而是判 断本端信息库的根页面 URL 是否存在 http //www. sohu. com/func. html ? get = weather, 当判断结果为是时,表明本端信息库的根页面URL存在识别出的网页元素URL。通过上述实施例的识别处理网页信息的方法,根据本端信息库识别出网页请求中 各个页面对应的页面元素,若处理网页请求中发现某页面中的子树节点中的页面元素属于 另外一个页面的根节点的页面元素,那么该页面元素将从某页面中的子树节点分离出来, 作为新页面的页面元素进行存储,即可以识别出网页请求中各个页面对应的页面元素,归 类出各个页面,解决了现有技术中一个kssion内用户并行请求多个页面而导致不利于完 整识别用户的一个网页请求的问题,而且在上述的识别处理网页信息的方法流程中,当本 端处理完一个kssion中内容请求后,即从经过该kssion抓取的来往Web服务器的HTTP 数据包中提取完所有网页元素URL后,将继续处理另一个kssion中内容请求,即重新执行 步骤S201,通过重复多次学习识别处理网页信息,可以更加完善本端信息库,并可以更精确 地识别网页请求中各个页面对应的页面元素,而且有效解决现有技术中浏览器会高速缓存 (cache)部分请求的页面元素而导致不能识别完整的页面的问题,可以更加完整地更加精 确地识别各个页面请求各自对应的页面元素,归类出各个页面,便于更准确地计算各页面 加载的时间、是否出现故障等信息,从而测试出B/S结构的应用系统的终端用户体验。上述详细说明了本发明的识别处理网页信息的方法,下面对应地,详细说明本发 明的网页信息识别处理装置的结构。如图5示出的本发明实施例的网页信息识别处理装置的结构示意图,网页信息识 别处理装置5包括信息库51、获取模块52、识别模块53、分析检测模块M、添加模块55、 判断模块56和判断处理模块57,其中信息库51用于存储页面URL ;获取模块52用于通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包;识别模块53用于从获取模块52获取的所述HTTP数据包中识别出网页元素URL ;具体地,网页信息识别处理装置5可以看作服务器端的一个旁路分析装置,抓获 来往Web服务器的HTTP数据包。网页信息识别处理装置5可以预先定义自身的kssion, 即定义在允许的时间间隔中内容的连续请求,如图3示出了本发明实施例定义的一个 kssion中内容请求的示意图,每个kssion中往往都会有多个网页请求数据包,那么网 页信息识别处理装置5的获取模块52将在预设的时间段内(一个kssion内)获取来往 Web服务器的HTTP数据包,识别模块53从所述HTTP数据包中识别出网页元素URL。需要 说明的是,网页元素即页面元素;当处理完一个kssion中内容请求后,将继续处理另一个 Session中内容请求。分析检测模块M用于检测所述网页元素URL是否有引用URL ;具体地,在HTML中,refer字段表明该网页元素URL引用的父页面元素URL,分析 检测模块M可以通过检测所述网页元素URL对应的refer字段是否为空来检测所述网页 元素URL是否有refer URL,当检测到所述网页元素URL对应的refer字段不为空时,即表 明检测出所述网页元素URL有对应的referURL ;当检测到所述网页元素URL对应的refer 字段为空时,即表明检测出所述网页元素URL没有对应的refer URL。添加模块55用于当分析检测模块M的检测结果为是时,向存储在所述信息库的 所述引用URL添加所述网页元素URL ;具体地,添加模块55包括第二查找单元551和查找 处理单元552,第二查找单元551用于查找信息库51是否存储有所述引用URL ;查找处理单 元552用于当第二查找单元551的查找结果为是时,向存储在信息库51的所述引用URL添 加所述网页元素URL。判断模块56用于当分析检测模块M的检测结果为否时,判断存储在信息库51的 根页面URL是否存在所述网页元素URL ;具体地,本端信息库中存储有根页面URL(即页面的根节点信息)以及子页面 URL (即根节点下方展开的子节点信息,也即子树节点信息),判断模块56判断存储在信息 库51的根页面URL是否存在所述网页元素URL,即判断信息库51中是否存在以所述页面元 素作为根页面来进行存储,当判断结果为是时,结束处理该页面元素;当判断结果为否时, 触发判断处理模块57进行处理。判断处理模块57用于当判断模块56的判断结果为否时,将所述网页元素URL作 为根页面URL存储在信息库51中。具体地,结合图6示出的本发明实施例的判断处理模块的结构示意图详细说明判 断处理模块57的结构,判断处理模块57包括第一查找单元571、删除单元572和存储单元 573,其中第一查找单元571用于查找存储在信息库51的子页面URL是否存在所述网页元 素 URL ;具体地,例如用户直接输入搜狐主页下的体育频道的URL信息,直接打开体育频 道页面,该体育频道的网页元素URL对应的refer字段为空,那么判断模块56将存储在信 息库51的根页面URL是否存在该体育频道的网页元素URL,当判断结果为否时,表明信息库 51中没有单独存储有该体育频道页面的元素,那么第一查找单元571将查找存储在信息库51的子页面URL是否存在所述网页元素URL,信息库51中存储的子页面URL即存储的各个 页面中的网页元素URL,第一查找单元571查找存储在信息库51的各个页面中的网页元素 URL是否存在该体育频道的网页元素URL。删除单元572用于当第一查找单元571的查找结果为是时,删除信息库51中所述 子页面URL,并将所述网页元素URL作为根页面URL存储在信息库51中;具体地,例如父页面为搜狐主页下的子树节点信息(子页面URL)中含有该体育频 道页面的元素(网页元素URL),那么删除单元572将删除信息库51中所述搜狐主页下的该 体育频道的网页元素URL,并将该体育频道的网页元素URL作为根页面URL(即新页面的根 节点信息)存储在信息库51中,相当于把信息库51中所述搜狐主页下的该体育频道的网 页元素URL分离了出来,以新页面存储在信息库51中。存储单元573用于当第一查找单元571的查找结果为否时,将所述网页元素URL 作为根页面URL存储在信息库51中。如图7示出的本发明网页信息识别处理装置的另一实施例的结构示意图,网页信 息识别处理装置5包括信息库51、获取模块52、识别模块53、分析检测模块M、添加模块 阳、判断模块56和判断处理模块57外,还包括动态信息检测模块58和修正模块59,其中动态信息检测模块58用于检测识别模块53识别出的网页元素URL是否存在动态 fn息;修正模块59用于当动态信息检测模块57的检测结果为是时,按照预设的规则对 所述网页元素URL进行修正。具体地,判断模块56进行判断之前,动态信息检测模块58检测识别模块53识别 出的网页元素URL是否存在动态信息,当检测结果为是时,修正模块59按照预设的规则对 所述网页元素URL信息进行修正。具体地,例如如下URL信息http://www. sohu. com/func. html ? get = weather&date = 2008-10-23,表明用户想查看2008年10月23号的天气情 况,那么date = 2008-10-23即为动态信息,通过改变date = 2008-10-23信息,URL信息 将会不断改变。当动态信息检测模块58检测到请求的网页元素URL存在动态信息时,修 正模块59将按照预设的规则对所述网页元素URL信息进行修正,如把上述URL信息修正 为http://www. sohu. com/func. html ? get = weather,即本端可以根据预先设置的规则 删除URL信息含有的&XXX = yyy信息(该XXX、yyy为任意形式的信息)。那么,判断模块 56将判断存储在信息库51中根据修正模块59调整修正后的网页元素URL是否存在识别 模块53识别出的网页元素URL,如上述例子URL信息http://www. sohu. com/func. html ? get = weather&date = 2008-10-23 被修正模块 59 调整归类为 http//www. sohu. com/ func. html ? get = weather,那么判断模块56不会判断信息库51的根页面URL是否存在 http //www. sohu. com/func. html ? get = weather&date = 2008-10-23,而是判断信息库 51 的根页面 URL 是否存在 http://www. sohu. com/func. html ? get = weather。通过上述实施例,网页信息识别处理装置5根据信息库51识别出网页请求中各个 页面对应的页面元素,若处理网页请求中发现某页面中的子树节点中的页面元素属于另外 一个页面的根节点的页面元素,那么该页面元素将从某页面中的子树节点分离出来,作为 新页面的页面元素进行存储,那么网页信息识别处理装置5可以识别出网页请求中各个页 面对应的页面元素,归类出各个页面,解决了现有技术中一个kssion内用户并行请求多个页面而导致不利于完整识别用户的一个网页请求的问题,而且网页信息识别处理装置5 处理完一个kssion中内容请求后,即识别模块53经过该kssion抓取的来往Web服务器 的HTTP数据包中提取完所有网页元素URL后,网页信息识别处理装置5将继续处理另一个 Session中内容请求,即获取模块52重新获取另一个kssion中内容请求,通过重复多次学 习识别处理网页信息,可以更加完善信息库51,并可以更精确地识别网页请求中各个页面 对应的页面元素,而且有效解决现有技术中浏览器会高速缓存(cache)部分请求的页面元 素而导致不能识别完整的页面的问题,可以更加完整地更加精确地识别各个页面请求各自 对应的页面元素,归类出各个页面。综上所述,通过在服务器端通过旁路部署方式,抓获来往Web服务器的HTTP数据 包,根据本端信息库实现将一个kssion中用户并行请求多个页面分离处理,解决了一个 kssion中用户并行请求多个页面而导致不利于完整识别用户的一个网页请求的问题,通 过重复多次学习识别处理网页信息,可以更精确地识别网页请求中各个页面对应的页面元 素,而且有效解决现有技术中浏览器会高速缓存(cache)部分请求的页面元素而导致不能 识别完整的页面的问题,可以更加完整地更加精确地识别各个页面请求各自对应的页面元 素,归类出各个页面,便于更准确地计算各页面加载的时间、是否出现故障等信息,从而测 试出B/S结构的应用系统的终端用户体验。需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。 基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品 的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包 括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行 本发明各个实施例或者实施例的某些部分所述的方法。以上所揭露的仅为本发明实施例中的较佳实施例而已,当然不能以此来限定本发 明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
权利要求
1.一种识别处理网页信息的方法,其特征在于,包括通过旁路在预设的时间段内获取来往互联网Web服务器的超文本传输协议HTTP数据 包,并从所述HTTP数据包中识别出网页元素统一资源定位符URL ; 检测所述网页元素URL是否有引用URL ;当检测结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL,当检 测结果为否时,判断存储在本端信息库的根页面URL是否存在所述网页元素URL ; 当判断结果为否时,将所述网页元素URL作为根页面URL存储在本端信息库中。
2.如权利要求1所述的方法,其特征在于,所述将所述网页元素URL作为根页面URL存 储在本端信息库中的步骤包括查找存储在本端信息库的子页面URL是否存在所述网页元素URL ; 当查找结果为是时,删除本端信息库中所述子页面URL,并将所述网页元素URL作为根 页面URL存储在本端信息库中,当查找结果为否时,将所述网页元素URL作为根页面URL存 储在本端信息库中。
3.如权利要求1所述的方法,其特征在于,所述向存储在本端信息库的所述引用URL添 加所述网页元素URL的步骤包括查找本端信息库是否存储有所述引用URL ;当查找结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL ;当查 找结果为否时,结束处理。
4.如权利要求1所述的方法,其特征在于,所述判断存储在本端信息库的根页面URL是 否存在所述网页元素URL的步骤之前还包括检测所述网页元素URL是否存在动态信息;当检测结果为是时,按照预设的规则对所述网页元素URL进行修正。
5.如权利要求4所述的方法,其特征在于,所述判断存储在本端信息库的根页面URL是 否存在所述网页元素URL的步骤包括判断存储在本端信息库中根据修正后的网页元素URL是否存在识别出的网页元素URL。
6.如权利要求1-5任一项所述的方法,其特征在于,经过所述预设的时间段后,重新执 行通过旁路在预设的时间段内获取来往Web服务器的HTTP数据包,并从所述HTTP数据包 中识别出网页元素URL的步骤。
7.—种网页信息识别处理装置,其特征在于,包括 信息库,用于存储页面URL;获取模块,用于通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包;识别模块,用于从所述获取模块获取的所述HTTP数据包中识别出网页元素URL ; 分析检测模块,用于检测所述网页元素URL是否有引用URL ;添加模块,用于当所述分析检测模块的检测结果为是时,向存储在所述信息库的所述 引用URL添加所述网页元素URL ;判断模块,用于当所述分析检测模块的检测结果为否时,判断存储在所述信息库的根 页面URL是否存在所述网页元素URL ;判断处理模块,用于当所述判断模块的判断结果为否时,将所述网页元素URL作为根 页面URL存储在所述信息库中。
8.如权利要求7所述的网页信息识别处理装置,其特征在于,所述判断处理模块包括 第一查找单元,用于查找存储在所述信息库的子页面URL是否存在所述网页元素URL ; 删除单元,用于当所述第一查找单元的查找结果为是时,删除所述信息库中所述子页面URL,并将所述网页元素URL作为根页面URL存储在所述信息库中;存储单元,用于当所述第一查找单元的查找结果为否时,将所述网页元素URL作为根 页面URL存储在所述信息库中。
9.如权利要求7所述的网页信息识别处理装置,其特征在于,所述添加模块包括 第二查找单元,用于查找所述信息库是否存储有所述引用URL ;查找处理单元,用于当所述第二查找单元的查找结果为是时,向存储在所述信息库的 所述引用URL添加所述网页元素URL ;当所述第二查找单元的查找结果为否时,结束处理。
10.如权利要求7所述的网页信息识别处理装置,其特征在于,还包括动态信息检测模块,用于检测所述识别模块识别出的网页元素URL是否存在动态信息;修正模块,用于当所述动态信息检测模块的检测结果为是时,按照预设的规则对所述 网页元素URL进行修正。
11.如权利要求10所述的网页信息识别处理装置,其特征在于,所述判断模块用于当 所述分析检测模块的检测结果为否时,判断存储在所述信息库中根据所述修正模块修正后 的网页元素URL是否存在所述识别模块识别出的网页元素URL。
全文摘要
本发明实施例公开了识别处理网页信息的方法,包括通过旁路在预设的时间段内获取来往Web服务器的HTTP数据包,并从HTTP数据包中识别出网页元素URL;检测网页元素URL是否有引用URL;当检测结果为是时,向存储在本端信息库的引用URL添加网页元素URL,当检测结果为否时,判断存储在本端信息库的根页面URL是否存在网页元素URL;当判断结果为否时,将网页元素URL作为根页面URL存储在本端信息库中。相应地,本发明还公开了网页信息识别处理装置,实施本发明实施例,实现将一个Session中用户并行请求的多个页面分离处理,解决一个Session中并行请求多个页面而导致不利于完整识别网页请求的问题。
文档编号H04L29/08GK102129441SQ20101004441
公开日2011年7月20日 申请日期2010年1月14日 优先权日2010年1月14日
发明者梁文锦, 黎吉川 申请人:深圳市深信服电子科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1