收集高速缓存web内容的多样化web服务器活动数据的制作方法

文档序号:6471442阅读:640来源:国知局
专利名称:收集高速缓存web内容的多样化web服务器活动数据的制作方法
技术领域
本发明涉及客户-服务器计算机系统,更具体地,本发明涉及对全球通信网上Web站点服务器的信息访问请求。
所有Web页面均用超文本标记语言(HTML)编写。超文本和通用性是HTML的2个必要特征。超文本意味着程序员可以在Web页面上创建将访问者引导到任何其他Web页面或互联网上任何地方的链接。超文本允许从许多不同方向访问Web上的信息。通用性意味着由于HTML文档被保存成ASCII或纯文本文件,实际任何计算机均可以读取Web页面。HTML允许Web设计人员为文本加上格式,增加图形、声音和视频,并且将其全部保存在任何计算机均可以读取的文本或美国信息交换标准码(ASCII)文件中。HTML的关键在于标签,标签是括在小于号(<)和大于号(>)之间、指示后面的内容的类型的关键字。虽然任何计算机实际上均可以显示Web页面,然而这些页面的实际外观如何取决于计算机的类型,监视器,互联网连接速度和被用来观看页面的浏览器软件。
高级Web设计人员经常使用被称作JavaScript的脚本语言和由Web页面中被称作文档对象模型(DOM)的命名部分构成的系统,以及HTML来创建页面上的动态内容。这种效果有时被称作动态HTML或DHTML。HTML标签是在角括号(<>)之间编写的、指示浏览器如何显示文本的命令。HTML标签的例子是BASE、FORM、FRAME、IMG和SCRIPT。许多标签有开放和封闭版本,并且受影响的文本被包含在2个标签内。开放和封闭标签使用相同的命令字;封闭标签传递以正斜杠(/)为首的符号。许多标签具有为包含的文本提供各种选项的特殊属性。属性被输入在命令字和最后的角括号之间。通过按照任何顺序、以彼此之间以空格分隔的方式逐个编写,可以在单个标签中使用一系列属性。属性常常具有数值。在某些情况下,从较小的选项组中选择数值。其它属性对其能够接受的数值的类型的要求更加严格。属性的例子是HREF、SRC、ACCESSKEY和VALUE。
Web页面只是用HTML标签编写的文本文档。与任何其他文本文档类似,Web页面具有文件名,文件名向Web站点设计人员、Web站点访问者和访问者的Web浏览器标识文档。统一资源定位符(URL)包含有关文件所处的位置,和浏览器应当对文件进行哪些处理的信息。互联网的各个文件具有唯一的URL。URL的第一部分被称作模式。它告诉浏览器如何处理其将要打开的文件。一个最常见的Web页面访问模式是超文本传送协议(HTTP)。URL的第二部分是文件位于的服务器的名称后跟指向文件的路径和文件名。有时URL以结尾正斜杠结束,其中没有提供文件名。在这种情况下,URL指向路径的最近目录中的缺省文件(即index.html),缺省文件通常对应于主页。例如,考虑Web地址″census.rolandgarros.org/rc/images/...″。
域名是″census.rolandgarros.org″。这是对应Web页面所位于的具体主计算机。URL的下一段是含有具体Web站点的主计算机上的目录(″rc″)和子目录(″images″)。URL中由省略标记表示的最后一段是被请求的具体Web页面的文件名。URL可以是绝对的,也可以是相对的。绝对URL给出到文件的整个路径,包含模式、服务器名、完全路径和文件名本身。相对URL描述期望文件相对于含有URL本身的文件位置的位置。对于和当前文件处于相同目录的文件,其相对URL只是文件名和扩展名。
为了观看单个页面,客户端计算机上运行的浏览器可以从Web站点服务器请求和下载许多文件。Web站点服务器的访问日志中存储的对象访问请求(″点击″)数量通常会超过其中客户端正在访问Web站点上信息的不同客户端会话的数量,从而降低访问日志的准确度。
数据网络正在以惊人的速度增长。Web用户的数量在今后几年可望增加5倍。Web访问需求不受控制的增长迫使人们全力满足带宽要求。另外,尽管互联网上的Web传输量令人难以置信,然而大多数传输是冗余的,即任意指定站点上的多个用户请求大量相同的内容。这意味着相当比例的广域网(WAN)基础设施传递了相同的内容和对其进行日常访问的相同请求。Web高速缓存对Web内容进行本地存储以便更加快速地为这些冗余用户请求提供服务,并且不在广域网上发送请求和相应的内容。
高速缓存是在接近请求者的位置保存经常访问的信息的技术。Web高速缓存在物理或逻辑上接近用户的存储设备上存储Web页面和内容。这种对存储的Web内容的访问比Web查找更加接近和快速。通过降低广域网链路和已经过载的Web服务器上的传输量,高速缓存对于互联网服务提供商(ISP)、企业网络和终端用户而言有显著的益处。Web高速缓存的2个重要益处是因WAN带宽降低而节省成本,以及因更快速的访问而提高终端用户的效率。ISP可以将高速缓存引擎放在其网络的控制关键点上,以提高响应时间和降低其干线的带宽要求。ISP可以将高速缓存引擎配置在关键WAN接入点上,以便从本地存储而不是远程或过载Web服务器伺服Web请求。在企业网络中,Web高速缓存造成的带宽使用的惊人降低允许通过低带宽WAN链路为用户群提供服务。可选地,有关机构可以增加用户或增加更多利用现有WAN链路上的空闲带宽的服务。对于终端用户,本地Web高速缓存的响应比广域网上相同内容的下载时间几乎快三倍。因此,用户注意到响应时间的惊人改进,而Web高速缓存的实现对其是完全透明的。
Web高速缓存提供的其它益处包含访问控制、监视和工作日志。高速缓存引擎为网络管理员提供简单、安全的方法以便通过统一资源定位符(URL)过滤实施全站点访问策略。网络管理员可以了解哪些URL接受点击,高速缓存正在伺服的每秒点击数量,从高速缓存伺服的URL的百分比,以及其它相关的工作统计。从终端用户访问互联网上的Web页面开始进行Web高速缓存。在页面被发送到终端用户的同时,高速缓存系统在本地存储上保存页面及其所有相关图形。现在页面内容被高速缓存。另一个用户,或初始用户以后可以访问该Web页面,但不是通过互联网向Web服务器发送请求,而Web高速缓存系统从本地存储传送Web页面。这种处理减少了用户的下载时间,并且降低了对WAN链路的带宽要求。可以通过若干种方式更新高速缓存数据,所述方式取决于Web高速缓存系统的设计。
Web高速缓存可以是Web内容发布者关心的主要问题。例如,如果某些访问者访问高速缓存服务器中已有的Web内容,发布者可能收集不准确的点击数量。此外,如果高速缓存服务器不迅速更新内容,则会向用户返回过期或陈旧的内容。

发明内容
高速缓存引擎在环球网中越来越普及。结果,原始Web服务器不用伺服或看不见大多数针对Web站点内容的用户请求。分组探测器不会看见请求,因为互联网其它地方的高速缓存引擎已经满足了请求。使用单象素清晰GIF(single pixel clear GIF)(不可高速缓存)的技术几年来已经被用来保证某些记录被原始服务器记录以用于广告。然而这个解决方案只记录有关针对单象素GIF文件本身的请求的信息。
单象素透明GIF(图形交换格式)是Web设计人员的工具箱中最灵活的工具。使用透明GIF是离散控制文本和图形在Web页面上的布局的方式。无论透明GIF被放到页面的哪个位置上,它都会保持不可见,其中所有背景图形和填充色均不被感知。之前已经使用了单象素清晰GIF,但是数据尚未被多样化(enriched),使得单象素清晰GIF可被用作日志记录的全集的代理(surrogate)。
通过将附加信息追加到单象素清晰GIF上以作为公共网关接口(CGI)查询字符串参数,本发明使不可高速缓存的单象素清晰GIF的Web日志中记录的信息多样化。这允许针对单象素清晰GIF的请求所创建日志记录充当在页面内容尚未高速缓存的情况下已经创建的全集日志记录的″代理″。


通过下列结合附图进行的详细描述可以更好地理解本发明,其中图1图解了全球通信网上Web高速缓存引擎的实现。
图2图解了不可高速缓存单象素GIF的示例性实现,其中CGI查询字符串参数被加到Web日志中记录的多样化信息中。
图3根据本发明的优选实施例图解了处理客户端Web页面请求的处理逻辑,所述请求使用了单象素透明GIF。
图4图解了站点等级分析显示,根据本发明的单象素透明GIF的实现可以产生该显示。
图5图解了指引类别(referral categories)的示例性显示,根据本发明的单象素透明GIF的实现可以产生该显示。
图6图解了搜索引擎和目录的指引类别的示例性显示,根据本发明的单象素透明GIF的实现可以产生该显示。
图7图解了具体搜索引擎的指引结果的示例性显示,根据本发明的单象素透明GIF的实现可以产生该显示。
图8图解了各种Web页面的示例性内容类别,根据本发明的单象素透明GIF的实现可以产生该内容类别。
图9图解了主页的示例性内容类别,根据本发明的单象素透明GIF的实现可以产生该内容类别。
图10图解了可用保存报告的示例性显示,根据本发明的单象素透明GIF的实现可以产生该显示。
图11A-11M图解了各种可用保存报告,根据本发明的单象素透明GIF的实现可以产生该报告。
具体实施例方式
Web服务器软件通常收集和保存涉及各个HTTP请求的信息,包含日期与时间,发起方网际协议(IP)地址,被请求对象和请求的完成状态。周期性地分析日志,以便根据各个周期内的点击,服务的页面数量和对感兴趣页面的要求的等级确定通过服务器的业务量。
互联网浏览器应用程序允许单个用户在其本地硬盘上高速缓存Web页面。用户可以配置一定量的磁盘空间以用于高速缓存。当用户第一次观看Web站点时,其内容被保存成其计算机的硬盘的子目录中的文件。当下一次用户指向该Web站点时,浏览器从高速缓存得到内容,其中并没有访问网络。页面中包含按钮、图标和图象的某些单元的出现速度比其在第一次打开页面时的出现速度快得多。为了限制互联网使用的不受控制的增长所导致的带宽要求,软件开发人员开发出将本地高速缓存扩展到网络层次的应用程序。当前两种网络层次的高速缓存产品是代理服务器和网络高速缓存。代理服务器是在通用硬件和操作系统上运行的软件应用。代理服务器被放到硬件上,该硬件在物理上介于Web浏览器客户端应用程序和Web服务器之间。代理服务器充当接收所有送往Web服务器的分组并检查各个分组以确定其是否可以满足请求本身的看门人。如果代理不能满足请求本身,它向Web服务器转发请求。代理服务器可用于过滤请求,例如防止雇员访问特定Web站点。使用代理服务器的问题是它们对于高速缓存不是最优的,并且在出现沉重网络负载时会出现故障。降低传输速度以允许代理服务器检查各个分组,并且代理软件或硬件的故障使得所有用户不能进行网络访问。此外,代理服务器需要配置各个最终用户的浏览器,这对于ISP和大型企业而言是不可接受的。由于代理服务器的这些缺点,建立网络高速缓存的应用程序变得很普及。通过加强高速缓存软件并且消除代理服务器实现中的其它降速特征,这些面向高速缓存的软件应用被用来提高性能。由于代理服务器在具有非常高的单进程上下文开销的通用操作系统下运行,它们不能轻松承受大量的同时进程。
网络产品提供商提供高速缓存引擎以作为使用高速缓存和检索算法存储并检索内容的单用途网络设备。这样的高速缓存引擎只专用于内容管理和传送。由于只有Web请求被路由到高速缓存引擎,其它用户传输不受高速缓存处理的影响。对于非Web传输,路由器完全发挥其传统作用。高速缓存控制协议定义了高速缓存引擎和路由器之间的通信。在这种协议下,路由器只将Web请求传送到高速缓存引擎而不是所针对的服务器。对于高速缓存引擎,客户端以通常的方式请求Web内容。运行高速缓存控制协议的路由器截取传输控制协议(TCP)端口80的Web传输,并且将Web传输路由到高速缓存引擎。客户端不参与事务处理,并且不需要改变客户端或浏览器。如果高速缓存引擎不具有所请求的内容,高速缓存引擎以通常的方式将请求发送到互联网或内部网。内容被返回到高速缓存引擎并且在其上存储。高速缓存引擎向客户端返回内容。当存在对相同内容的后续请求时,高速缓存引擎从本地存储满足请求。图1图解了诸如互联网的全球通信网上Web高速缓存引擎的实现。客户端计算机12、14、16可以通过路由器18请求Web内容。路由器18截取TCP端口80的Web传输并且将其路由到本地高速缓存引擎20。客户端12、14、16不参与这个事务处理,并且不需要改变客户端计算机或浏览器。如果高速缓存引擎20不具有所请求的内容,高速缓存引擎20通过路由器18将请求发送到互联网以便访问互联网内容服务器40、42、44。内容被返回到高速缓存引擎20并且在其上存储。高速缓存引擎20接着通过路由器18将所请求的内容返回到客户端计算机12、14、16。若干高速缓存引擎32、34、36可以按照分层方式被放在互联网服务提供商(ISP)站点30的高速缓存集群(cache farm)中。通过路由器18和ISP服务器30传送的来自客户端12、14、16的请求被转移到高速缓存集群32、34、36。以便从其存储满足客户端请求。如果高速缓存引擎32、34、36不能从本地存储满足请求,通过互联网50上的ISP服务器30向适当服务器40、42、44发出普通Web请求以获得所请求的互联网内容。除路由器18之外,图中的路由器26、46也被连接到ISP服务器30。路由器18、26、46通常被称作接入服务提供点(POP)。POP是互联网的接入点位置,并且具有唯一的互联网IP地址。POP通常包含路由器、数字/模拟呼叫汇集器、服务器和经常为帧中继或异步传输模式(ATM)的交换机。图中高速缓存引擎48被连接到路由器46。高速缓存引擎28和路由器24被连接到路由器26。路由器24被连接到公司内部网22。
由于路由器将送往Web服务器的分组重定向到高速缓存引擎,高速缓存引擎以对客户端透明的方式工作。客户端不需要将其浏览器配置成代理服务器模式。另外,高速缓存引擎的操作对网络是透明的。对于非Web传输,路由器完全按照其正常的功能进行操作。Web对象可以含有超文本传送协议(HTTP)头以指示高速缓存服务器中的浏览器如何高速缓存Web对象。对于诸如公司标志的静态图象,过期协议头可以被设置成″没有过期″,使得高速缓存服务器可以在高速缓存中始终保存图象。为了收集例如广告的指定页面上的确切点击数量,较小的图象对象可以被加到页面中并且对象被设置成立即过期,因此高速缓存服务器不会高速缓存该对象。于是,每当用户请求该页面时,浏览器或高速缓存服务器会从原始Web服务器检索对象,并且Web服务器可以对请求的确切数量进行计数。
公共网关接口(CGI)是以独立于平台的方式在信息服务器下运行外部程序、软件或网关的简单接口(协议)。CGI只是在服务器和脚本之间发送信息的标准化方式。CGI脚本是以标准方式与服务器通信的程序。当前,所支持的信息服务器是HTTP服务器。各个CGI服务器实现必须定义从服务器向脚本传递有关请求的数据的机制。
Web页面表格上的各个单元会具有与其相关的名称和数值。名称标识被发送的数据。数值是数据,可以来自Web页面设计人员或在字段中输入该数值的访问者。当访问者点击提交按钮时,各个表格单元的名称-数值对被发送到服务器。CGI脚本通常具有2个功能。第一个功能是得到所有名称-数值对并且将其分离成各个可理解的片段。第二个功能是用该数据实际做某些事情,例如打印输出,将字段连接在一起,发送电子邮件确认,或将其存储在服务器上。表格具有3个重要部分表格标签,包含将要处理表格的CGI脚本的URL;诸如字段和菜单的表格单元;和向服务器上的CGI脚本发送数据的提交按钮。脚本是增加Web页面的交互性的小程序。可以编写简单脚本以便向Web页面增加提醒框或某些文本;也可以编写更加复杂的脚本以便加载基于访问者的浏览器的特定页面或根据访问者的鼠标点击改变框架的背景颜色。多数脚本均是使用被称作JavaScript的脚本语言编写的,多数浏览器均支持JavaScript,其中包含Netscape的Communicator和微软公司的Internet Explorer。
JavaScript是面向对象的语言,这意味着JavaScript通过操作Web页面上诸如窗口、图象和文档的对象来进行工作。JavaScript命令被直接放入建立Web页面的HTML文件中。根据所运行的脚本,命令可以被放到文件的若干部分中。命令经常被放置在接近文件顶端的位置。特殊代码引发命令,从而提醒浏览器它们是JavaScript命令。如果命令被放在文件顶端的HTML<Body>标签之前,则脚本会开始执行,同时HTML页面仍然加载。JavaScript是解释性语言,这意味着浏览器按照读取顺序执行JavaScript命令。JavaScript利用对象的动作进行操作。这些动作被称作方法。在JavaScript的基本语法中,对象首先被命名,接着出现一个句点,并且后跟从对象得到的动作,即方法。因此,JavaScript中打开新窗口的命令是window.open。在这种情况下,window是对象而open是方法。这个命令打开新的浏览器窗口。在命令之后可以增加其它参数。所有参数均被放置在一组括号内,其中各个参数位于引号内,并且参数被逗号分隔。
当加载Web页面时,客户端浏览器执行自动脚本。Web页面上可以具有的自动脚本的数量没有限制。HTML页面上脚本的位置决定何时加载脚本。按照其在HTML文档中出现的顺序加载脚本。通过以下HTML代码将自动JavaScript加到HTML文档中<SCRIPT LANGUAGE=″JavaScript″>
类型 脚本内容</SCRIPT>
某些早期的浏览器不能运行脚本并且不理解SCRIPT标签。为了向访问HTML页面的访问者提供信息,一个提供信息的可选方式是使用NOSCRIPT标签并且后跟被视作普通文本的信息。早期浏览器不理解NOSCRIPT标签,并且会忽略它,但是会处理后面的文本。以下内容被加到HTML文档中<NOSCRIPT>
类型 信息</NOSCRIPT>
在建立代理日志文件的单象素GIF的实现中,以下面讨论的图2所示的方式使用下面的标签和属性IMG是用于在页面上插入图象的HTML标签;ALT是在不显示图象的情况下提供用于显示的可选文本的属性;SRC是指定图象的URL的属性;图2中还图解了以下用于IMG标签的属性WIDTH,HEIGHT是指定图象的长度以便可以更加快速地加载HTML页面的属性;BORDER是指定边框(如果有的话)厚度的属性。BORDER=0省略了边框,否则浏览器会自动在图象周围设置边框。
在本发明的一个最优实施例中,在显示页面时以如下方式将数据的CGI字符串附加到单象素GIF的SRC属性上&pag=xxxxxxx 显示GIF的页面的绝对URL;&num=xx 在显示时页面上的单元(SRC)的数量;&ref=xxxxxxxxx请求当前页的页面的URL(通过JavaScript完成)。
另外,可以通过如下方式将用户的站点访问记录(也称作cookie)的固定站点访问记录标识附加到数据的CGI字符串上&usr=xxxxxxxx用户站点访问记录的固定站点访问记录ID(JavaScript)。
图2图解了单象素GIF的实现的例子,其中增加查询字符串参数以充当在尚未高速缓存页面内容的情况下已经建立的日志记录全集的代理。在图2中,JavaScript语句被直接嵌入HTML页面。它包含具有write方法(″document.write″)的文档对象。文档对象含有关于当前文档的信息,并且提供在指定窗口向用户显示HTML表达式的方法。IMG和BR标签是在窗口中显示的HTML表达式。BR CLEAR标签和属性简单产生强制换行和停止文字环绕效果。IMG标签后面的SRC属性提供含有单象素清晰GIF的页面的绝对URL(″uc.GIF″);即,SRC=″http//census.rolandgarros.org/rc/images/uc.GIF?pag=′+location.pathname+`&num=14′+r+`″。
uc.GIF后面的CGI字符串指示HTML页面上有14个SRC单元。变量″r″指示指引页面(referrer page)的URL,根据″if′语句的真值条件(即文档指引对象非空)将该URL定义成`&ref=′+top.document.referrer。JavaScript top.document.referrer反映了用户在当前页之前观看的调用文档(即指引页面)的URL。
在客户端浏览器不能解释脚本语言的情况下,NOSCRIPT标签区分出被浏览器解释的HTML语句。这包含IMG标签,其中SRC属性具有位于″uc.GIF″之后的查询字符串,该查询字符串被修改以便包含HTML页面的缺省URL(即″index.html″)。index.html文件是Web站点的顶层目录的缺省文件。
为了对Web页面提供服务,Web站点需要主计算机和在主机上运行的服务器软件。主计算机管理通信、协议并且容留在国际互联网络建立Web站点所需的页面和有关软件。服务器软件驻留在主机上并且为页面提供服务,或者响应客户端浏览器软件发送的请求而进行操作。服务器处理HTTP请求并且与主机操作系统通信,而主机操作系统则处理TCP/IP通信。存在不同类型的服务器软件,这些服务器软件针对不同类型的客户端执行不同类型的服务。具体地,Web服务器是HTTP服务器,其功能是使用超文本传送协议向客户端软件(浏览器)发送信息。客户端浏览器请求服务器返回HTML文档。服务器接收该请求并且回送应答。应答的顶部包含传输信息,而应答的其余部分是HTML文件。除了向浏览器发送页面之外,Web服务器还向CGI应用程序传递运行CGI脚本的请求。这些脚本运行外部小程序,例如数据库查找或交互式表格处理。服务器通过CGI向应用程序发送脚本并且将脚本回送到浏览器。服务器软件还包含以各种方式保证Web站点的安全和管理Web站点的配置文件和实用程序。
图3图解了本发明的处理逻辑。处理从开始块300开始。在逻辑块302中,客户端浏览器软件请求HTML Web页面。客户端浏览器在判决块302中确定所请求的HTML页面是否已经在客户端高速缓存。如果页面已经在客户端高速缓存,则如逻辑块310所示,HTML文件被传送到浏览器。浏览器解释HTML文件并且用源图象(即来自原始Web服务器)或高速缓存的图象建立Web页面。高速缓存图象可以从本地、路径上的ISP、路由器或其它网络设备得到。如果在判决块304中确定页面没有在客户端高速缓存,则在判决块306中执行另一个测试以确定页面是否已经在ISP高速缓存。ISP高速缓存测试只是为了说明本发明的一个实施例。从客户端开始的下一个转发段可以是到达内部网上的服务器,该服务器具有TCP/IP地址并且提供直接互联网访问。如果页面已经在路径上被高速缓存,则如逻辑块312所示,HTML文件被传送到客户端浏览器,以便解释HTML代码并且用已经高速缓存或从原始Web服务器原始Web服务器到的图象建立Web页面。如果页面尚未在到达Web服务器的路径上高速缓存,则如逻辑块308所示,针对页面的请求被发送到主机,其中在主机中Web服务器软件处理请求。如果浏览器具有请求HTML文件,则如逻辑块314所示,Web服务器检索原始源HTML文件,将协议头附加到文件上,并且向浏览器发送文件。
一旦浏览器从逻辑块310、312或314中的处理接收到HTML文件,则在判决块318中进行测试以确定HTML文件是否含有不可高速缓存单象素GIF(如本发明中的uc.GIF所示)。如果不含有,则显示检索的高速缓存图象以完成所请求的Web页面的建立。接着如结束块326所示完成请求的处理。如果在判决块318中从HTML文件内发现uc.GIF请求,则uc.GIF和CGI查询字符串被发送到原始Web服务器,在原始Web服务器中对它们进行分析以收集本发明使之成为可能的多样化Web服务器活动数据。浏览器再次解释HTML代码,并且用源图象或高速缓存的图象建立页面。在使用图2的例子的情况下,针对Web页面记录14次点击,其中一次点击用于发送的uc.GIF请求,13次点击用于根据HTML文件中的HTML IMG SRC标签/属性检索到的其它源图象。这表示使用不可高速缓存单象素GIF请求的代理性质。14次点击的指引页面作为CGI查询字符串的一部分也被包含进来。在图2中,这由″r=`&ref=′+top.document.referrer″来表示。这种多样化Web服务器活动数据的收集和存储如逻辑块322所示。如结束块324所示,请求处理结束。
当用户访问Web站点时,浏览器检查URL,并且查看客户端计算机的硬盘上存储的站点访问记录文件。如果浏览器发现与该URL相关的站点访问记录,则向服务器发送该站点访问记录信息。如果没有与URL相关的站点访问记录,则服务器将站点访问记录放置在站点访问记录文件内。某些站点会首先提出一系列诸如姓名和口令的问题,并且接着会将其中含有上述信息的站点访问记录放置在硬盘上。需要注册的站点通常都是这样。通常情况下,服务器上的CGI脚本得到用户已经输入的信息,并且接着将站点访问记录写到客户端计算机的硬盘上。当用户离开Web站点时,站点访问记录信息仍然保留在硬盘上,使得用户下一次访问该Web站点时Web站点可以识别用户,除非在用户离开站点时已经特别标明该站点访问记录过期。
利用通过使用上述单象素GIF得到的收集多样化信息的能力,更加详细和精确的涉及Web站点活动的信息可以被收集和存储在多维数据库中,所述多维数据库包含关系数据库的多维实现。此外,也可以使用诸如在线解析处理(OLAP)的相对较新的技术分析所收集的这种数据,下面会简要描述在线解析处理技术。
在线解析处理(OLAP)是一类用于在线专用数据访问和分析的技术。虽然事务处理通常依赖于关系数据库,然而OLAP已经等同于企业数据的多维视图。通过多维数据库技术支持这些多维视图。经常希望得到数据的高级、聚集视图,例如按产品线、区域等等合计的总销售额的分析人员会使用OLAP应用程序。通常以批处理模式从多个数据源更新OLAP数据库,并且OLAP数据库为多个用户应用程序提供解析后端(backend)。
图4图解了示例性的站点等级分析显示,通过将单象素GIF用作在Web页面内容尚未被高速缓存的情况下已经产生的日志记录全集的代理,可以通过收集精确点击信息得到所述显示。该附图描述了针对选择的时间间隔可以得到的各种测量,这些测量包含点击,访问的页面,每次页面查看的秒数,访问,每次访问的点击数,每次访问的页面查看数,和每次访问的秒数。
图5图解了示例性的指引类别显示,通过将单象素GIF用于涉及Web页面指引源的日志信息可以得到该显示。不同的指引类别包含商业,教育,政府,内部指引,ISP指引,和其中的搜索引擎和目录。并且,针对选定时间间隔(例如日历星期)提供数据。各种指引类别被加上下划线,这表示它们可以被″展开″成图6所示的子指引类别。
图6根据从公共搜索引擎或浏览器得到的指引图解了针对选定时间间隔的搜索引擎和目录指引类别的分解。例如,在出现页面指引的峰值数量的周结束6月10日期间,超过71%的页面由Yahoo搜索引擎来指引。此外,可以展开成如加下划线的子类别所示的搜索引擎指引类别。
图7图解了AltaVista指引子类别的展开。例如,该显示表明在周结束6月3日期间AltaVista的84%指引来自AltaVista主页上的CGI查询字符串。
在这个指引子类别上不能进行进一步的展开。
图8图解了按内容类别的Web页面示例性显示,通过将单象素GIF用作在Web页面内容尚未被高速缓存的情况下已经产生的日志记录全集的代理,可以通过收集精确点击信息得到所述显示。内容类别包含绘画,主页,新闻和图片,演员,记分牌,商店(礼品商店),以及其它内容类别。针对选定时间间隔提供数据。各种内容类别被加上下划线,这表示它们可以被展开成更低层次的详细信息。
图9图解了主页内容类别的展开。资源包含可通过支持JavaScript的浏览器访问的英语版本主页(/en);可通过支持JavaScript的浏览器访问的法语版本主页(/fr);可通过不支持JavaScript的浏览器访问的英语版本主页(/en/index.html),等等。对于出现峰值传输的周结束6月10日,58%的主页业务量针对英语版本页面,并且由支持JavaScript的浏览器产生。略微小于42%的业务量针对法语版本页面,并且由支持JavaScript的浏览器产生。
图10图解了示例性保存报告的显示,使用通过本发明的单象素GIF建立的代理日志记录的OLAP处理可以产生该报告。保存报告包含站点等级报告,访问分布报告,业务量报告,内容报告,域/子域报告等等。列出的各个报告带下划线,这表明通过点击报告名称可以得到详细报告。
图11A-11M图解了对应的示例性保存报告的格式。图11A示出可用的站点等级报告。在这种情况下,可用的站点等级报告是站点业务量报告。报告名称带下划线,这表明结果通过点击报告名称可以展开详细报告。这种操作会产生与图4类似的显示。图11B的显示中列出可用的访问分布报告。图11C-11K和11M图解了基本上为″前10″名的各种保存报告。图11C描述了业务量报告,并且允许显示前10个请求的资源。图11D描述了内容报告,并且允许显示前10个请求最多的页面。图11E描述了子域报告,并且允许显示按照查看页面或访问数量排列的前10个子域。图11F描述了域报告,并且允许显示按照查看页面或访问数量排列的前10个域。图11G描述了指引报告,并且允许显示按照查看页面或访问数量排列的前10个指引。图11H描述了进入页面报告,并且允许显示前10个站点进入页面。图11I描述了退出页面报告,并且允许显示前10个退出页面。图11J描述了浏览器报告,并且允许显示按照查看页面或访问数量排列的前10个浏览器。图11K描述了平台报告,并且允许显示按照查看页面或访问数量排列的前10个平台。图11L描述了使用簇报告,并且允许显示使用簇访问。图11M描述了广告报告,并且允许显示按照产生的印象排列的前10个广告。按照选定时间间隔,例如最近5周提供所有可用保存报告。
后面的任意权利要求中的对应结构、部件、操作和任意装置加功能要素的等价特征,均被用来包含用于结合具体要求保护的其它要素而执行的功能的任意结构、部件或操作。
虽然前面参照实施例示出和描述了本发明,然而本领域的技术人员会理解,在不偏离本发明的宗旨和范围的前提下可以在形式和细节方面进行各种改变。
权利要求
1.获得客户-服务器通信网络中多样化活动数据的系统,其中网络单元请求的信息被高速缓存在一或多个其它网络单元中,该系统包括服务器网络单元,包含用于产生和存储可被发出请求的网络单元访问的多个信息文件的服务器软件和数据库,信息文件包含被发出请求的网络单元解释以显示所请求的信息的文本文件和关键字,信息文件还包含不可高速缓存的单象素图形图象格式(GIF)请求;其中在解释信息文件时,从通信网络上发出请求的单元向服务器网络单元发送单象素GIF请求,而服务器网络单元读取和存储单象素GIF请求中包含的多样化数据。
2.如权利要求1所述的系统,用于获得多样化活动数据,还包括一或多个被连接到其它网络单元中的至少一个的高速缓存引擎,所述高速缓存引擎暂时存储所请求的信息文件,所述信息文件根据需要被提供给发出请求的网络单元。
3.如权利要求1所述的的系统,用于获得多样化活动数据,其中单象素GIF请求包含公共网关接口(CGI)查询字符串,所述公共网关接口(CGI)查询字符串被附加在单象素GIF请求上并且包含多样化数据。
4.如权利要求3所述的系统,用于获得多样化活动数据,其中CGI查询字符串包含所请求的信息文件的位置的标识。
5.如权利要求3所述的系统,用于获得多样化活动数据,其中CGI查询字符串包含信息文件中含有的若干图象对象。
6.如权利要求3所述的系统,用于获得多样化活动数据,其中CGI查询字符串包含网络单元的标识,所述标识将发出请求的网络单元指引到服务器网络单元。
7.如权利要求3所述的系统,用于获得多样化活动数据,其中CGI查询字符串包含发出请求的网络单元的固定站点访问记录标识。
8.如权利要求1所述的系统,用于获得多样化活动数据,其中客户-服务器通信网络是诸如互联网的全球网络。
9.如权利要求1所述的系统,用于获得多样化活动数据,其中多个信息文件是使用超文本标记语言(HTML)标签编写的超文本文档。
10.如权利要求9所述的系统,用于获得多样化活动数据,其中超文本文档包含源HTML代码,发出请求的单元解释源HTML代码以产生存储在服务器网络单元的对应Web页面的显示。
11.如权利要求1所述的系统,用于获得多样化活动数据,其中服务器网络单元是超文本传送协议(HTTP)服务器。
12.如权利要求1所述的系统,用于获得多样化活动数据,其中发出请求的网络单元是客户端浏览器应用程序。
13.如权利要求9所述的系统,用于获得多样化活动数据,其中具有附加的公共网关接口(CGI)查询字符串的单象素GIF请求被包含成JavaScript命令的一部分,而JavaScript命令被直接放入HTML文件中。
14.如权利要求13所述的系统,用于获得多样化活动数据,其中JavaScript命令是″document.write″命令,该命令将其后的表达式放在文档窗口中。
15.如权利要求14所述的系统,用于获得多样化活动数据,其中表达式包含具有源(SRC)属性的超文本标记语言(HTML)图象(IMG)标签,源(SRC)属性指定超文本文档的统一资源定位符(URL)位置。
16.如权利要求1所述的系统,用于获得多样化活动数据,其中其它网络单元包含交换设备、路由设备、网关和客户端计算机设备中的任意一或多个。
17.获得客户-服务器通信网络中多样化活动数据的方法,其中网络单元请求的信息被高速缓存在一或多个其它网络单元中,该方法包括操作在服务器网络单元上产生和存储可被发出请求的网络单元访问的多个信息文件,信息文件包含文本文件和关键字,以及单象素图形图象格式(GIF)请求;由发出请求的网络单元解释包含文本文件、关键字和单象素GIF请求的信息文件以显示所请求的信息;从通信网络上发出请求的单元向服务器网络单元发送单象素GIF请求;和在服务器网络单元上读取和存储发送的单象素GIF请求中包含的多样化活动数据。
18.如权利要求17所述的方法,用于获得多样化活动数据,还包括由一或多个被连接到其它网络单元中的至少一个的高速缓存引擎暂时存储所请求的信息文件的操作,所述信息文件根据需要被提供给发出请求的网络单元。
19.如权利要求17所述的方法,用于获得多样化活动数据,还包括将公共网关接口(CGI)查询字符串附加到单象素GIF请求上的操作。
20.如权利要求19所述的方法,用于获得多样化活动数据,其中CGI查询字符串包含所请求的信息文件的位置的标识。
21.如权利要求19所述的方法,用于获得多样化活动数据,其中CGI查询字符串包含信息文件中含有的若干图象对象。
22.如权利要求19所述的方法,用于获得多样化活动数据,其中CGI查询字符串包含网络单元的标识,所述标识将发出请求的网络单元指引到服务器网络单元。
23.如权利要求19所述的方法,用于获得多样化活动数据,其中CGI查询字符串包含发出请求的网络单元的固定站点访问记录标识。
24.如权利要求17所述的方法,用于获得多样化活动数据,其中客户-服务器通信网络是诸如互联网的全球网络。
25.如权利要求17所述的方法,用于获得多样化活动数据,其中多个信息文件是使用超文本标记语言(HTML)标签编写的超文本文档。
26.如权利要求25所述的方法,用于获得多样化活动数据,还包括由发出请求的单元解释超文本文档中的源HTML代码,以产生存储在服务器网络单元的对应Web页面的显示。
27.如权利要求17所述的方法,用于获得多样化活动数据,其中超文本文档被存储在超文本传送协议(HTTP)服务器上。
28.如权利要求17所述的方法,用于获得多样化活动数据,其中发出请求的网络单元是客户端浏览器应用程序。
29.如权利要求25所述的方法,用于获得多样化活动数据,还包含将具有附加的公共网关接口(CGI)查询字符串的单象素GIF请求包含成JavaScript命令的一部分,其中JavaScript命令被直接放入HTML文件中。
30.如权利要求29所述的方法,用于获得多样化活动数据,其中JavaScript命令是″document.write″命令,该命令将其后的表达式放在文档窗口中。
31.如权利要求30所述的方法,用于获得多样化活动数据,其中表达式包含具有源(SRC)属性的超文本标记语言(HTML)图象(IMG)标签,源(SRC)属性指定超文本文档的统一资源定位符(URL)位置。
32.包含用于获得客户-服务器通信网络中多样化活动数据的计算机程序的计算机可读介质,其中网络单元请求的信息被高速缓存在一或多个其它网络单元中,该计算机程序产品包括在服务器网络单元上产生和存储多个可访问信息文件的程序指令,信息文件包含文本文件和关键字,以及单象素图形图象格式(GIF);当发出请求的单元解释信息文件的内容时从发出请求的单元接收单象素GIF请求的程序指令;和在服务器网络单元上读取和存储发送的单象素GIF请求中包含的多样化活动数据的程序指令。
33.如权利要求32所述的计算机程序产品,用于获得多样化活动数据,还包括将公共网关接口(CGI)查询字符串附加到单象素GIF请求上的程序指令。
34.如权利要求33所述的计算机程序产品,用于获得多样化活动数据,其中CGI查询字符串包含所请求的信息文件的位置的标识。
35.如权利要求33所述的计算机程序产品,用于获得多样化活动数据,其中CGI查询字符串包含信息文件中含有的若干图象对象。
36.如权利要求33所述的计算机程序产品,用于获得多样化活动数据,其中CGI查询字符串包含网络单元的标识,所述标识将发出请求的网络单元指引到服务器网络单元。
37.如权利要求33所述的计算机程序产品,用于获得多样化活动数据,其中CGI查询字符串包含发出请求的网络单元的固定站点访问记录标识。
38.如权利要求32所述的计算机程序产品,用于获得多样化活动数据,其中多个信息文件是使用超文本标记语言(HTML)标签编写的超文本文档。
39.如权利要求32所述的计算机程序产品,用于获得多样化活动数据,还包括将超文本文档存储在超文本传送协议(HTTP)服务器上的程序指令。
40.如权利要求38的计算机程序产品,用于获得多样化活动数据,还包括将JavaScript命令直接放入HTML文件的程序指令,所述JavaScript命令包含具有附加的公共网关接口(CGI)查询字符串的单象素GIF请求。
41.如权利要求40所述的计算机程序产品,用于获得多样化活动数据,其中JavaScript命令是″document.write″命令,该命令将其后的表达式放在发出请求的网络单元上的文档窗口中。
42.如权利要求41所述的计算机程序产品,用于获得多样化活动数据,其中表达式包含具有源(SRC)属性的超文本标记语言(HTML)图象(IMG)标签,源(SRC)属性指定超文本文档的统一资源定位符(URL)位置。
全文摘要
全球通信网中收集多样化Web服务器活动数据的方法和系统,其中所请求的信息文件被高速缓存在多个网络设备上。随着Web高速缓存在互联网上的流行,原始Web服务器不再为大多数针对Web站点内容的请求提供服务。单象素清晰图形图象格式(GIF)请求被加入Web页面的超文本标记语言(HTML)源文件。含有增强Web活动数据信息的数据的公共网关接口(CGI)字符串被附加到GIF请求中,其中包含客户端浏览器为建立Web页面必须检索的图象(“点击”)数量,和访问Web页面时引用的标识符。单象素清晰GIF请求是不可高速缓存的,并且当客户端浏览器解释HTML文件时导致请求被发送到原始Web服务器。多样化数据被存储在原始Web服务器上的日志文件中,以便累计Web页面上的精确点击数量。
文档编号G06F15/00GK1494680SQ01814320
公开日2004年5月5日 申请日期2001年8月11日 优先权日2000年8月18日
发明者保罗·R·布里斯考, 保罗 R 布里斯考, D 费尔斯塔特, 卡梅伦·D·费尔斯塔特, R 伽尼斯, 马修·R·伽尼斯, C 汉默, 斯蒂芬·C·汉默, B K 汉森, 加里·B·K·汉森, A 哈珀, 肖恩·A·哈珀, S 尼科尔斯, 迈克尔·S·尼科尔斯, D 佩尔斯利, 赫伯特·D·佩尔斯利, 保罗·里德, 里德, J 斯尼泽, 布赖恩·J·斯尼泽 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1