专利名称:一种监测网页下载的方法及装置的制作方法
技术领域:
本发明涉及互联网技术领域,尤其涉及一种监测网页下载的方法及装置。
背景技术:
随着互联网的发展,网页(WEB)服务已经成为互联网中应用最广泛的服务,用户对WEB服务的要求也越来越高。而WEB服务中网页的下载情况往往会直接影响用户的体验效果。现有技术可以通过网络抓包软件,例如sniffer、ethereal、wireshark等,来监控网络的整体运行情况。但对于网页中图片、FLASH等外接资源的下载情况,由于资源颗粒较细,还无法有效监控,导致网页下载过程中出现的问题(例如=Active控件、FLASH资源加载失败等)得不到及时的反馈。
发明内容
本发明实施例的目的在于提供一种监测网页下载的方法,旨在解决现有技术无法有效监控网页中外接资源下载情况的问题。本发明实施例是这样实现的,一种监测网页下载的方法,所述方法包括以下步骤A、获取计算机需要访问的网页的XML文件;B、从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表;C、监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。本发明实施例的另一目的在于提供一种监测网页下载的装置,所述装置包括文件获取单元,用于获取计算机需要访问的网页的XML文件;信息提取单元,用于从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表;以及下载监测单元,用于监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。在本发明实施例中,通过获取计算机需要访问的网页的可扩展标记语言 (extensible Markup Language, XML)文件,从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表,监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。实现了对网页中各外接资源下载过程的实时监控,解决了现有技术无法准确真实的反应网页下载情况的问题。
图1是本发明实施例一提供的网络数据下载监测方法的实现流程图2是本发明实施例二提供的网络数据下载监测方法的实现流程图;图3是本发明实施例三提供的网络数据下载监测方法的实现流程图;图4是本发明实施例四提供的网络数据下载监测方法的实现流程图;图5是本发明实施例五提供的网络数据下载监测方法的具体流程图;图6是本发明实施例五提供的网络数据下载监测的效果图;图7是本发明实施例六提供的网络数据下载监测装置的组成结构图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例通过获取计算机需要访问的网页的XML文件,从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表,监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除,实现了对网页中各外接资源下载过程的实时监控,解决了现有技术无法准确真实的反应网页下载情况的问题。为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。实施例一图1示出了本发明实施例一提供的网络数据下载监测方法的实现流程,该方法过程详述如下在步骤SlOl中,获取计算机需要访问的网页的XML文件。在本实施例中,通过现有的libcap (packet capture library,一款开源的网络抓包程序库)建立一个网络抓包软件,并对该网络抓包软件设置一个过滤器,该过滤器中的过滤条件包括但不局限于消息过滤条件和地址过滤条件。其中,所述消息过滤条件设置为超文本传输协议(HyperText Transfer Protocol,HTTP)协议,表示所有端口或者网口中遵循HTTP协议的网络数据都会被抓取;所述地址过滤条件设置为网页服务器的IP地址,以保证网络抓包软件抓取的网页是计算机当前需要访问的网页。在本实施例中,通过建立的网络抓包软件和设置的过滤条件抓取计算机需要访问的网页,并获取所述网页的可扩展标记语言(extensible Markup Language, XML)文件。在步骤S102中,从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表。在本实施例中,为了保证网页中外接资源来源的可靠性以及方便用户了解网页中外接资源是否全部下载完,解析获取的XML文件,从所述XML文件中提取所述外接资源的地址(Uniform/Universal Resource Locator, URL),并将所述提取的 URL 存储至新建的 URL 列表中。其中,所述外接资源包括但不局限于图片资源、源文件资源(例如javascript源文件)以及样式资源(例如层叠样式表)中的至少一种。在步骤S103中,监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。在本实施例中,通过建立的网络抓包软件监测所述网页中外接资源的下载进度,当监测到计算机向TOB服务器发出GET/HTTP或者POST/HTTP请求时,说明计算机已经开始下载某个外接资源。继续监测WEB服务器返回的RESPONSE/HTTP数据包,当返回的 RESPONSE/HTTP数据包中存在与该外接资源对应的数据包时,说明该外接资源下载完成,将该外接资源对应的URL从所述URL列表中删除。在本实施例中,为了保证网页中外接资源来源的可靠性以及方便用户了解网页中外接资源是否全部下载完,从计算机访问的网页的XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表,通过监测所述网页中各外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除,实现了对网页中各外接资源下载过程的实时监控,解决了现有技术无法准确真实的反应网页下载情况的问题。实施例二 图2示出了本发明实施例二提供的网络数据下载监测方法的实现流程,该方法过程详述如下在步骤S201中,获取计算机需要访问的网页的XML文件。在步骤S202中,从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表。其中,步骤S201-S202的具体实施过程参见实施例一中的步骤S101-S102所述,在此不再赘述。在步骤S203中,监测所述计算机发出或者收到的与预设过滤条件相关的所有数据包。在本实施例中,通过建立的网络抓包软件监测计算机发出的或者收到的与预设过滤条件相关的所有数据包。其中,计算机发出的数据包包括GET/HTTP或者POST/HTTP请求包,计算机收到的数据包包括WEB服务器返回的RESPONSE/HTTP响应包。在本实施例中,预设的过滤条件包括但不局限于消息过滤条件和地址过滤条件。 其中,所述消息过滤条件设置为HTTP协议,表示所有端口或者网口中遵循HTTP协议的网络数据都会被抓取;所述地址过滤条件设置为源地址或者目的地址含有当前计算机的IP地址。为了能够有效的抓取到所需的数据包,网络抓包软件根据所述过滤条件抓取源地址或者目的地址含有当前计算机的IP地址且网络协议为HTTP的数据包。在步骤S204中,在接收到与所述外接资源的请求包对应的响应包时,从所述地址列表中删除所述外接资源的地址。在本实施例中,所述外接资源的请求包中携带有该外接资源对应的URL,当接收到的某个响应包中也含有该外接资源对应的URL时,说明该响应包为该外接资源请求包对应的响应包,该外接资源已下载完成,将该外接资源的URL从所述URL列表中删除,从而有效节省系统的存储空间。实施例三图3示出了本发明实施例三提供的网络数据下载监测方法的实现流程,该方法过程详述如下在步骤S301中,获取计算机需要访问的网页的XML文件。在步骤S302中,从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表。其中,步骤S301-S302的具体实施过程参见实施例一中的步骤S101-S102所述,在此不再赘述。在步骤S303中,监测所述计算机发出或者收到的与预设过滤条件相关的所有数据包,其具体实施过程参考实施例二中的步骤S203,在此不再赘述。在步骤S304中,在预设时间阈值内未接收到与所述外接资源的请求包对应的响应包时,则关闭所述外接资源的下载,并反馈下载不成功的原因。在本实施例中,为了提高外接资源的下载效率,为外接资源的下载设定一个时间阈值(例如1分钟),如果在设定的时间阈值内未接收到与所述外接资源的请求包对应的响应包时,通过控件宿主程序关闭该外接资源的下载,并向WEB服务器反馈该外接资源下载不成功的原因(例如响应包超时等),WEB服务器根据反馈的原因对WEB服务进行合理的优化。另外,为了减轻计算机的数据处理压力,在某外接资源的响应时间和下载速度较慢且资源占用率较高时,可以先暂停该外接资源的下载,在其他外接资源下载完成后,再开启该外接资源的下载。实施例四图4示出了本发明实施例四提供的网络数据下载监测方法的实现流程,该方法过程详述如下在步骤S401中,获取计算机需要访问的网页的XML文件。在步骤S402中,从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表。在步骤S403中,监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从地址列表中删除。其中,步骤S401-S403的具体实施过程参见实施例一中的步骤S101-S103所述,在此不再赘述。在步骤S404中,判断所述地址列表是否为空,如果判断结果为“是”,则结束所述网页下载的监测,如果判断结果为“否”,则返回继续执行步骤S403。在本实施例中,通过判断所述地址列表中外接资源的地址是否全部删除完来检测所述网页中各外接资源是否全部下载完成,如果全部删除完,则说明网页中各外接资源都下已载完,结束所述网页下载的监测;如果未全部删除完,则返回继续监测未下载完成的网络资源的下载进度,并在预设时间阈值内未接收到与该外接资源的请求包对应的响应包时,关闭该外接资源的下载,并反馈下载不成功的原因。在本发明实施例中,用户只需查看URL列表即可以了解网页中外接资源的下载完成情况,简单、高效,提高了用户的满意度。实施例五图5示出了本发明实施例五提供的网络数据下载监测方法的具体流程,该方法过程详述如下在步骤S501中,解析当前网页的URL,获取当前网页的IP地址。在本实施例中,解析当前网页的URL,获取该网页的IP地址,例如对URL为www.china, com的网页进行解析,获取该网页服务器的IP地址为112. 90. 216. 12。通过建立的网络抓包软件和设置的过滤条件,抓取网络协议为HTTP且IP地址为 112. 90. 216. 12 的网页。在步骤S502中,提取当前网页中各外接资源的URL,并将所述URL存储至URL列表中。在本实施例中,先获取该网页的XML或者HTML文件,再从所述文件中提取各外接资源的URL,并将外接资源的URL存储至URL列表中。在本实施例中,外接资源具体包括图片资源、源文件资源以及样式资源。例如提取 www. china, comimg 网页的 XML 文件中 text/javascript、text/ess 等关键字表示的外接资源的URL,并将所述提取的URL存储至如下的srcList中
〈link href="/zh_cn/cssl006/style.css" rel=" stylesheet" type="text/css" media="all" />
〈script src="/zh_cn/jsl006/function.js" type="text/javascript"></script> 〈script type="text/javascript" src="http://dvsend.china.com/js/chinaadclient.js" charset="utf-8">//ADCRM</script>
<img src=”http://c.wrating.com/a.gif a=&c=860010-0405010000" width=" 1" height=" 17>
<img src=http://www.china.com/zh_cn/imgl006/logo_china_yasha.gif/> <img src="/zh cn/imgl006/ubeta.gif' width="20" height=" 14" />在步骤S503中,监测计算机发出或者收到的与预设过滤条件相关的所有数据包。在本实施例中,为了有效监测网页中各外接资源的下载以及保证网页中外接资源来源的可靠性,将网络抓包软件中的过滤条件设置为数据包的源地址或者目的地址含有当前计算机的IP地址且网络协议为HTTP,监测计算机发出或者收到的与所述过滤条件相关的所有数据包。其中,所述数据包包括浏览器发出的GET/HTTP或者POST/HTTP请求包,和 WEB服务器返回的RESPONSE/HTTP响应包。例如监测计算机发出的所有符合所述过滤条件的GET/HTTP或者POST/HTTP请求包,判断所述请求包中是否包含所述srclist中第一个URL :/zh_cn/cssl006/style. ess。 刷新网络抓包软件检测到了包含URL为/Zh_cn/css1006/style. ess的请求包,如图6中的黑色横条,这就是浏览器发出的获取/Zh_Cn/CSS1006/Style.CSS外接资源的请求包,该外接资源的目的地址为112. 90.216. 12。在步骤S504中,在接收到与所述外接资源的请求包对应的响应包时,从所述地址列表中删除所述外接资源的地址。在本实施例中,所述外接资源的请求包中携带有该外接资源对应的URL,当接收到的某个响应包中也含有该外接资源对应的URL时,说明该响应包为该外接资源请求包对应的响应包,该外接资源已下载完成,将该外接资源的URL从所述URL列表中删除。具体的,本实施例监测计算机收到的与预设过滤条件相关的所有数据包,并在接收到与所述外接资源的请求包对应的响应包时,从所述地址列表中删除所述外接资源的地址。当监测到计算机发出了获取/Zh_Cn/CSS1006/Style. ess外接资源的请求包后, 继续监测WEB服务端返回的RESPONSE/HTTP响应包,当监测到某个响应包的目的地址为 112. 90. 216. 12、网络协议为 HTTP/1. 1 200 OK 且包含/zh_cn/cssl006/style. ess 信息时, 说明www. china, comimg网页中第一个URL为/zh_cn/cssl006/style. ess的外接资源下载完成,将该外接资源的URL从所述srcList中删除。在步骤S505中,判断所述地址列表是否为空,如果判断结果为“是”,则结束所述网页下载的监测,如果判断结果为“否”,则返回继续执行步骤S503。在本实施例中,通过判断所述地址列表中外接资源的地址是否全部删除完来检测所述网页中各外接资源是否全部下载完成,如果全部删除完,则说明网页中各外接资源都下已载完,结束所述网页下载的监测;如果未全部删除完,则返回继续监测未下载完成的网络资源的下载进度,直到所述网页中的外接资源全部下载完。实施例六图7示出了本发明实施例六提供的监测网页下载的装置的组成结构,为了便于说明,仅示出了与本发明实施例相关的部分。该监测网页下载的装置可以是运行于信息系统内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些信息系统中或者运行于这些信息系统的应用系统中。该监测网页下载的装置包括文件获取单元71、信息提取单元72以及下载监测单元73。其中,各单元的具体功能如下文件获取单元71,用于获取计算机需要访问的网页的XML文件。信息提取单元72,用于从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表。在本实施例中,所述外接资源包括图片资源、源文件资源以及样式资源中的至少一种。下载监测单元73,用于监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。在本发明实施例提供的监测网页下载的装置中,为了保证网页中外接资源来源的可靠性以及方便用户了解网页中外接资源是否全部下载完,从计算机访问的网页的XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表,通过监测所述网页中各外接资源的下载进度,并将下载完成的外接资源对应的地址从地址列表中删除,实现了对网页中各外接资源下载过程的实时监控,解决了现有技术无法准确真实的反应网页下载情况的问题。进一步的,所述下载监测单元73还包括监测模块731、删除模块732以及关闭模块 733 所述监测模块731用于监测所述计算机发出或者收到的与预设过滤条件相关的所有数据包;
所述删除模块732用于在接收到与所述外接资源的请求包对应的响应包时,从所述地址列表中删除所述外接资源的地址;所述关闭模块733用于在预设时间阈值内未接收到与所述外接资源的请求包对应的响应包时,关闭所述外接资源的下载,并反馈下载不成功的原因。在本实施例中,为了提高外接资源的下载效率,为外接资源的下载设定时间阈值, 如果在所述时间阈值内未接收到与所述外接资源的请求包对应的响应包时,则关闭所述外接资源的下载,并反馈下载不成功的原因,WEB服务器可以根据所述反馈的原因,对TOB服务进行合理的优化。在本实施例中,所述预设的过滤条件为所述数据包的源地址或者目的地址含有当前计算机的IP地址且网络协议为HTTP。在本实施例中,为了增强实用性,本实施例可以为用户提供交互式界面,用于接收并保存用户输入的过滤条件,但不以该方式为限。进一步的,本实施例提供的监测网页下载的装置还包括下载控制单元74 所述下载控制单元74用于判断所述地址列表是否为空,若是,则结束所述网页下载的监测。在本实施例中,通过判断所述地址列表中外接资源的地址是否全部删除完来检测所述网页中各外接资源是否全部下载完成,使得用户只需查看URL列表即可以了解网页中外接资源的下载完成情况,简单、高效,提高了用户的满意度。本发明实施例六提供的监测网页下载的装置可以使用在前述对应的监测网页下载的方法实施例一、二、三、四和五中,详情参见上述实施例一、二、三、四和五的相关描述, 在此不再赘述。本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种监测网页下载的方法,其特征在于,所述方法包括以下步骤A、获取计算机需要访问的网页的XML文件;B、从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表;C、监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。
2.如权利要求1所述的方法,其特征在于,所述步骤C具体包括Cl、监测所述计算机发出或者收到的与预设过滤条件相关的所有数据包; C2、在接收到与所述外接资源的请求包对应的响应包时,从所述地址列表中删除所述外接资源的地址。
3.如权利要求2所述的方法,其特征在于,所述预设过滤条件为所述数据包的源地址或者目的地址含有当前计算机的IP地址且网络协议为超文本传输协议。
4.如权利要求2所述的方法,其特征在于,所述步骤C还包括在预设时间阈值内未接收到与所述外接资源的请求包对应的响应包时,则关闭所述外接资源的下载,并反馈下载不成功的原因。
5.如权利要求1所述的方法,其特征在于,所述方法在步骤C之后,还包括 判断所述地址列表是否为空,若是,则结束所述网页下载的监测。
6.如权利要求1所述的方法,其特征在于,所述外接资源包括图片资源、源文件资源以及样式资源中的至少一种。
7.—种监测网页下载的装置,其特征在于,所述装置包括 文件获取单元,用于获取计算机需要访问的网页的XML文件;信息提取单元,用于从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表;以及下载监测单元,用于监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。
8.如权利要求7所述的装置,其特征在于,所述下载监测单元包括监测模块,用于监测所述计算机发出或者收到的与预设过滤条件相关的所有数据包; 删除模块,用于在接收到与所述外接资源的请求包对应的响应包时,从所述地址列表中删除所述外接资源的地址;关闭模块,用于在预设时间阈值内未接收到与所述外接资源的请求包对应的响应包时,关闭所述外接资源的下载,并反馈下载不成功的原因。
9.如权利要求8所述的装置,其特征在于,所述预设过滤条件为所述数据包的源地址或者目的地址含有当前计算机的IP地址且网络协议为超文本传输协议。
10.如权利要求7所述的装置,其特征在于,所述装置还包括下载控制单元,用于判断所述地址列表是否为空,若是,则结束所述网页下载的监测。
11.如权利要求7所述的装置,其特征在于,所述外接资源包括图片资源、源文件资源以及样式资源中的至少一种。
全文摘要
本发明涉及互联网技术领域,提供了一种监测网页下载的方法及装置,所述方法包括下述步骤A、获取计算机需要访问的网页的XML文件;B、从所述XML文件中提取所述网页中外接资源的地址,并将所述地址存储至地址列表;C、监测所述网页中外接资源的下载进度,并将下载完成的外接资源对应的地址从所述地址列表中删除。本发明实现了对网页中各外接资源下载过程的实时监控,解决了现有计算机无法准确真实的反应网页下载情况的问题。
文档编号H04L12/26GK102215146SQ20111016566
公开日2011年10月12日 申请日期2011年6月20日 优先权日2011年6月20日
发明者曾献辉, 阳天发 申请人:Tcl集团股份有限公司