格式化一个Web页的装置和方法

文档序号：6414317阅读：252来源：国知局

专利名称：格式化一个Web页的装置和方法
技术领域：
本发明总的来说涉及诸如因特网这样的计算机网络。更具体地说，本发明涉及格式化Web页的装置和方法。
1948年EDVAC计算机系统的开发通常被称为计算机时代的开始。从那时起，计算机系统已经演变成为非常高级的设备，而且在许多不同的装置中都可以看到计算机系统。计算机的广泛扩展推动了使各个计算机彼此间相互联系的计算机网络的发展。随着个人计算机(PC机)的引入，用计算机对很多人来说已成为可望又可及的事了。个人计算机网络的开发，使得各个用户之间可以彼此联络。用这种方法，同一个公司内的许多人可以在同一时间使用运行在一个计算机系统上的一个应用软件进行联络。最近颇受欢迎的一个重要的计算机网络就是因特网。该因特网由于计算机和网络的激剧扩展而发展起来，而且已经演变成一个非常复杂的世界范围的计算机系统资源的网络，一般称之为“万维网”，或WWW网。一个用户在一台单个PC机(即工作站)上想要访问因特网的典型做法是使用一种叫做Web浏览器的应用软件。Web浏览器使之通过因特网与其它被称为Web服务器的计算机相联系，并从Web服务器中接受信息显示在用户工作站上。从Web服务器发送到Web浏览器的信息一般是使用一种特殊的叫作超文本标记语言(HTML)的语言来格式化的，而且典型的作法是组织成一些叫作Web页的页面。许多Web页包含一个或多个叫作“链接”的特定的引用地址，链接可调用其它Web页。链接可以使用户用一个鼠标或其它指示装置点按适当的链接很容易地进入其它感兴趣的Web站点。
一个Web用户经常希望将当前看到的Web页打印出来。Web浏览器通常具有打印功能，可使用户打印当前页面。但是，随着Web站点复杂程度的增加，寻找所需信息变得越来越困难，而且打印若干有关的Web页的过程成为一项非常枯燥乏味的工作，它包括调用Web页、打印该Web页，再调用下一个Web页、打印、调用、打印等等。换句话说，先有技术的浏览器要求用户在打印前先调用页面。用这种先有技术的浏览器，如果用户需要打印40页有关的Web页，该用户就必须人工调用和打印这40个Web页的每一页。勿需多言，这一过程是非常费时的。
随着因特网用户、供应商、以及Web服务器的数量持续地快速增长，对于用户来说，不用人工调用和打印每一页就能打印出有关的Web页将变得越来越重要。如果不改进目前这种Web页的打印方式，那末Web页的打印将继续成为有效利用因特网上资源的障碍。
根据本发明，揭示了一种把一组指定的有关的Web页格式化成一单个Web页的装置和方法。用户定义被选页面的数量及每一被选页面有关的相关标准。一个格式化机构负责收集被选页面和那些根据相关标准而相关的页面的URL，并把这些URL储存在URL容器中。该格式化机构进而将与包含在URL容器中的URL相关的每一个Web页面调出并生成一个集成页。该集成页可以包含在一个或多个被选页面中所插入或引用的数据。然后，这个集成页可用标准浏览器的打印功能打印。
本发明的上文所述目的及其它目的、特性和优点将从下面对本发明的优选实施例的更详细的描述及结合

而变得更加清楚明了。
下面将要结合附图描述本发明的优选实施例，图中相同的标号表示相同的单元图1是根据本发明的计算机系统的方框图；图2是典型的因特网连接方框图；图3是根据优选实施例的如何格式化所选择的和所相关的Web页的方法步骤的流程图；图4是根据优选实施例的较佳实施例用作相关标准的嵌套结构的方框图；图5是根据优选实施例格式化所选择和所相关的Web页的计算机系统方框图；图6是根据优选实施例收集和格式化被选和相关Web页的方法步骤的流程图；图7是根据优选实施例收集被选和相关Web页的递归方法的伪码表示；图8是根据优选实施例的URL容器的处理方法的伪码表示；以及图9是根据优选实施例的平展处理的伪码表示。
概述本发明的方法和装置对于格式化因特网上的Web页具有特别的实用性。对于那些不熟悉因特网的人们，在此对有关因特网的概念作一个概述。
图2表示一个典型的因特网连接的例子。一个想要从因特网170上获取信息的用户通常拥有一个计算机工作站200，该工作站执行一个称作Web浏览器210的应用程序。在Web浏览器210的控制下，工作站200通过因特网170发送一个对Web页的请求。Web页数据可以是文本、图形，也可以是其它信息形式，统称为MIME数据。因特网上的每一个Web服务器有一个已知的地址，叫作“统一资源定位器”(URL)，Web浏览器用它来连接适当的Web服务器。由于Web服务器220可以包含一个以上的Web页，所以用户还需指定他想在Web网服务器220上看的特定的Web页的地址。Web服务器计算机系统220执行Web服务器应用程序222，监视请求，并对其负责的请求服务。当一个请求指定了Web服务器220时，Web服务器应用程序222一般是访问对应于该特定请求的一个Web页，并将其发送到用户的工作站200上。
Web页一个Web页可以包含各种形式的MIME数据。大多数Web页包含准备在用户工作站200的监视器上显示的可视数据。Web页一般用“超文本标记语言”(HTML)编写。当Web服务器220收到一个Web页请求时，它将把这个所请求的页面以HTML形式通过因特网170送到发出请求的Web浏览器210。Web浏览器210理解HTML语言，将它翻译成Web页并送往用户工作站200的监视器。在用户屏幕上显示的Web页可能含有任何适当的MIME数据，包括文本、图形，以及链接(它引用其它Web页的地址)。这些其它的Web页(即由链接代表的那些页面)可以在同一Web服务器上，也可能在不同的Web服务器上。用户可以使用鼠标器或其它指示设备敲击这些链接来调用这些其它的Web页。这个具有连接到其它服务器上的其它Web页链接遍布世界的整个Web页系统叫作“万维网”(WWW)。
说明书的剩余部分将要描述本发明如何提高格式化和打印相关Web页的方便程度，它是通过提供各种方式使用户不用进行通常所需的调用和打印每一Web页的反复操作就能格式化和打印有关的Web页而实现的。本领域的普通技术人员将认识到本发明可以同样用于任何有关数据的格式化和/或打印，无论这种数据是Web页的形式、数据库记录的形式还是可能相互有关的其它数据形式。详细说明参看图1，根据本发明的一个计算机系统100包括一个处理器110、一个主存储器120、一个大容量存储器接口140和一个网络接口150。它们都由一个系统总线160连接起来。本领域普通技术人员应理解该系统包括了所有类型的计算机系统个人计算机、中等规模计算机、大型计算机等等。注意，在本发明的范围内，可以对这个计算机系统100做许多增加、修改和删减。可能增加的设备举例如包括计算机监视器、键盘、高速缓冲存储器，以及打印机那样的外设。
处理器110可以由一个或多个微处理器和/或一些集成电路构成。处理器110执行储存在主存储器120中的程序指令。主存储器120储存程序和计算机可以访问的数据。当计算机系统100起动时，处理器110开始执行构成操作系统126的程序指令。操作系统126是一个管理计算机系统100的资源的复杂程序。这些资源中的一部分有处理器110、主存储器120、大容量存储器接口140、网络接口150以及系统总线160。
主存储器120包括一个或多个应用程序122、数据124、操作系统126、Web页格式化机构128以及一个或多个Web页130。应用程序122在操作系统126的控制下被处理器110执行。应用程序122可以用程序数据124作为输入来运行，应用程序122还可以输出其结果作为主存中的程序数据124。本发明中，计算机系统100包括一个Web页格式化机构128，它能够把多个相关的Web页格式化成一单个页面，然后可以打印出来、下载到磁盘上、放到因特网上或用于一个本领域普通技术人员所知的任何其它用途。
大容量存储器接口140可使计算机系统100从辅助存储设备如磁盘(硬盘、软盘)和光盘(CD-ROM)中检索和储存数据。这些大容量存储设备一般称为“直接存取存储装置”(DASD)，其作用是永久储存信息。一个适当的DASD类型是一个从软盘186读取和向其写入数据的软盘驱动器180。从DASD来的信息可以是多种形式。一般的形式是应用程序和程序数据。通过大容量存储器接口140检索的数据通常放在处理器110可以处理它的主存储器120中。
尽管主存储器120和DASD装置180在通常情况下是分离的存储设备，但计算机100使用众所周知的虚拟寻址机制，它使计算机系统100的程序运行起来好象不是访问多个、较小的存储实体(例如主存120和DASD装置185)，而是只访问一个大的、单一的存储实体。因此，尽管某些单元被表示为驻留在主存储器120中，将认识到这些单元未必在同一时间都完全包含在主存储器120中。应当注意的是在此使用的“存储器”一词一般是指计算机系统100的整个虚拟存储器。此外，根据本发明的装置包括含有本发明的各单元的任何可能的硬件和软件配置，不论这种装置是单个计算机系统还是由共同运行的多个计算机系统构成的系统。
网络接口150使计算机系统100可以对该计算机系统可能连接的任何网络发送和接收数据。这个网络可以是局域网(LAN)，也可能是广域网(WAN)，或者更特殊的说是因特网170。连接到因特网的适当方法包括公知的模拟和/或数字技术，以及未来将要开发出来的连网络机制。许多不同的网络协议都可以用来实现一个网络。这些协议是一些能使计算机通过网络进行通信的特定的计算机程序。过去常用于通过因特网通信的TCP/IP(传输控制协议/互连网协议)就是一个适当的网络协议的例子。
系统总线160使得数据能在计算机系统100的各个组件之间传递。虽然图中所示的计算机系统100只包含一个主处理器和一条系统总线，但是本领域普通技术人员将认识到本发明可以用一个具有多个处理器和/或多条总线的计算机系统来实现。此外，在这个优选实施例中用到的接口还可以包括用来从处理器110卸载计算密集处理的分离的、全编程的微处理器，或者也可以包括完成同样功能的I/O(输入/输出)适配器。
在这一方面，注意到以下情况很重要虽然本发明至今是以(而且还将继续以)一个全功能的计算机系统描述的，但本领域普通技术人员将认识到本发明也能作为程序产品以各种形式分布，而且不论实际上用来进行这种分布的信号载体的特定类型，本发明均可同样使用。合适的信号载体的例子包括可记录型载体，如软盘(如图1中的186)和CD ROM，以及传输类载体，如数字的和模拟的通信链路。
本说明书剩下的部分将描述Web页格式化机构128的优选实施例，该格式化机构能取得若干被选的Web页，收集其URL，并建立一个可以称为“集成”或“展平”的Web页的单一文件。此处使用的“展平的Web页”一词是形象地表示在通常以交叉链接的树状结构中存在的几个相关的页面全都被组合起来或“展平”成一个单一页面，因而取消交叉链接并将各页面按顺序排列。
现在参看图3，为了格式化一个Web页，方法300从用户定义一个URL表并为每个被选的URL定义一个相关标准(步骤310)开始。做到这一点可以有许多不同的方式由机械的方法由人类用户机械地输入到菜单屏幕，从Web浏览器的历史存储器中检索一个URL表，或任何其它的本领域普通技术人员公知的方法来确定URL数据。一旦URL表和每个URL的相关标准被定义后，用所有这些被选的和相关的URL建立URL容器(步骤320)。最后，从此展平容器内的被选的和相关的URL中产生一个展平页面(步骤330)。
在格式化过程中，相关标准是一个重要的因素，因为它定义了那些被认为“相关的”URL间必须存在的必要的联系，从而确定哪些页面将包含在这一被展平的页面内。在本发明的范围内，关于两个URL是否“相关”的标准可能会改变。此处一个特定的相关标准是指“嵌套层”，将参照图4对此给予说明。
彼此间具有链接的页面可以会如图4所示那样排列成树状结构400。嵌套结构400至少有一个所选择的Web页411(如第一所选择的Web页411和/或第二所选择的Web页450)，这些页面具有若干链接421至439(即链接1，链接2，链接3)与其它页面441至448连结。每一个链接由一个调用一个Web页的机构构成，如URL，该机构可以被用户激活。当一个用户定义了嵌套层时，他们就确定了该格式化机构寻找相关的URL所达到的嵌套树400的深度。例如，如果一个用户选择了第一被选的Web页411作为其被选的页面，而且确定了两级嵌套收集相关的URL的相关标准，这些相关的URL包括第一被选的Web页411的URL以及所有那些直接与该第一被选的Web页链接的Web页中所包含的所有链接的URL，即第一被选Web页411、链接1Web页441、链接2Web页442、链接3Web页443、链接Aweb页444、链接Bweb页445、链接Dweb页446、链接FWeb页447以及链接GWeb页448的URL。如果嵌套等级设为三级，那么相关的URL除了包括上述两级嵌套的URL外，还另外包括链接Ⅰ429、链接Ⅱ430、链接Ⅲ431、链接Ⅳ432、链接Ⅴ433、链接Ⅵ434、链接Ⅶ435、链接Ⅷ436、链接Ⅸ437、链接Ⅹ438以及链接Ⅺ439的URL。
其它相关URL的适当的相关标准包括URL是否在同一Web服务器上；一个指定的搜索字是否出现在Web URL搜寻表中；URL间是否有一个链接；或者URL是否有相同的基地址。
下面是基地址相关标准的一个例子。一个主页的地址可以是WWW.corporation X.com/home.html，那么任何有WWW.corporationX.com基地址的URL都与该主页有关。再举另外一个例子，选择一个地址是WWW.corporation X.com/support/index.html的URL，那么共有基地址WWW.corporation X.com/support的任何URL都与这个被选URL有关，而该站点上的其它URL与之无关。如下面将要更详细讨论的那样，不论使用什么样的特定相关标准，相关的URL都被格式化成一个单一的Web页。
通过下述优选实施例的例子，可以更好地理解上面描述的步骤。现在参看5-6图，用于因特网的根据本优选实施例的装置500包括一个Web客户机200和一个通过因特网170与之相连的Web服务器220。Web客户机200包括一个Web浏览器应用程序210和一个Web页格式化机构128。Web浏览器应用程序210是一个业内人士公知的标准Web浏览器。Web页格式化机构128包括一个Web页选择机构540、Web页储存机构550，以及Web页集成机构560。虽然图5中所示的Web页格式化机构128是与Web浏览器210分开的，但本发明的最佳模式是希望把Web页格式化机构128并入Web浏览器应用程序，从而提供一个对有关的Web页具有诸如打印、下载、文件传送等功能的高度格式化能力的浏览器。或者是，Web页格式化机构128既可以是一个在Web客户机200上运行的单独的应用程序，也可以是一个Web浏览器应用程序210的插入式的或Java小程序(Java applet)/应用程序。这里在描述Web页格式化机构128的功能时不考虑机构128是在Web浏览器应用程序210内还是在Web浏览器应用程序210之外。
Web页选择机构540的作用是建立一个用户选中的和相关的Web页表。Web页储存机构550将这一被选的和相关的Web页表以URL形式储存。集成机构560取出被选的URL并将其格式化一个展平的Web页。因为装置500把许多排成行列的Web页展平成单一的集成Web页，所以任何浏览器提供的标准打印功能都能打印这个集成的Web页。联系图6的流程图可以最好地理解机构540-560的功能。
用来格式化多个相关的Web页或URL的方法600从选择那些将明显包含在所展平的Web页中的Web页或URL开始(步骤610)。一旦Web页被选中，则每一个被选的Web页的挖掘层就确定了(步骤620)。挖掘层是一个适当的相关标准的特定例子，它相当于参照图4讨论的嵌套层。当所有这些Web页和它们的挖掘层被确定后，一个这些Web页和相应的挖掘层的URL表就建立了(步骤630)。然后这个表处于一种可用于填充URL容器的格式。从步骤640开始处理这个表。如果URL表不是空的(步骤640=NO)，则取出表中下一个URL(步骤650)。这个被选的URL然后被加入URL容器中准备处理(步骤660)。然后，所有与该被选的URL相关的URL被递归收集，收集方法是沿着相关的URL向下通过嵌套结构400直到到达所需挖掘层，并把这些URL加进URL容器中待处理(步骤670)。步骤650、660和670连续进行直到URL表中所有的URL都被处理(步骤640=YES)。一旦URL表中所有的URL都被处理了(步骤640=YES)，则开始处理URL容器中的URL，处理方法是调用每一个URL并收集这些Web页(步骤680)。Web客户机和Web服务器之间调用一个Web页的机制和相互作用是本领域中众所周知的。一旦这些Web页被调用，就由这些被调用的Web页产生一个展平的Web页(步骤690)，最好是把这些相关的Web页一起添加进一单个Web页中。这个所展平的(即集成的)Web页处于这样一种形式它可以下载到磁盘，可以向其他因特网用户传送，可以在本地发送到其他网上用户，可以被打印或者被用作本领域所知的其它用途。
为了更好地理解图6中一些步骤的细节，我们现在参看图7-9。图7的方法700表示一个用来把URL放入URL容器的适当的递归收集过程的一个特定例子(步骤670)。图8的方法800表示一个处理URL容器中的URL的一个特定例子(步骤680)。图9中的方法900表示产生一个展平的Web页的一个特定例子(步骤690)。
现在参看图7，方法700用递归伪码表示，并且把被选的URL和由适当相关标准(如挖掘或嵌套层)相关的URL递归地储存在URL容器中。当收集URL方法700被调用时，URL表、URL容器以及挖掘层必需被确定。这个URL表就是用户选择的那个URL表(如图6的步骤630)。URL容器参数指定了所用的URL容器的名字。而且挖掘参数为了联系这些URL指定了相关URL的挖掘或嵌套层。对于URL表中的每一个URL(步骤710)，它要被加入URL容器(步骤712)。一旦URL被加入URL容器，该URL就被用来调用对应的Web页(步骤714)，从这个页面中可收集相关的URL(步骤716)。如果用户确定的被选的URL的挖掘层大于零(步骤720)，那么那于每一个要收集的URL，必需按照相关标准(即挖掘层)进行递归访问(即挖掘)(步骤724)进入嵌套树结构来收集其它相关的URL并将它们放进URL容器中。这一过程连续进行，直到所有的被选的URL和所有相关的URL都被收集起来并放入URL容器中为止。例如如果被选的URL有连到其它页面的三个链接，而且用户确定的挖掘层是三首先，将这个被选的URL作为第一挖掘层被加入到URL容器中；其次，调用被选的URL来产生这三个所链接的Web页的URL，并把这些URL收集进URL容器作为第二挖掘层；第三，分别调用这三个所链接的页面来产生它们所链接的Web页的URL并规定其为第三挖掘层，再收集这些URL并放入URL容器以完成URL表中的URL的处理。
现在参看图8，方法800以伪码表示，它为展平成一个集成页面准备URL。对URL容器中的每一个URL(步骤810)，对应于每个URL的Web页被调用(步骤820)。所有在被调用的Web页内引用的URL被收集起来待处理(步骤830)。下一步，步骤830中收集的每一个URL被处理(步骤840)。如果这个URL引用在URL容器内的一个URL(步骤842)，则使用NAME属性将该URL的第一次出现标记为目标(步骤846)，而该URL所有后续的出现都交叉引用回该目标引用，这是通过修改HREF标记使其包含文本“See Section_”而进行的，这里“_”是在目标HREF中所规定的文本(步骤848)。例如，对于一个形式为<A NAME=“X”>Chapter X</A>的“锚”(anchor)来说(这里的chapterX包含在URL容器中)，插入到该文本的说明将可能是“See Chapter X”。如果这个URL引用一个不在URL容器内的URL，则相关的HREF属性被修改成包括文本“Section Not Included”(步骤850)。这一过程持续进行，直到所有URL容器中的URL都被标识为目标、交叉引用或标识为“Not Included”为止。
现在参看图9，方法900以伪码表示，它在方法800(图8)结束时处理被修改的URL容器，以便生成展平的或集成的Web页。对于URL容器中的每一个URL(步骤910)，每一个URL被调用来产生相关的Web页(步骤920)。下一步，收集该页面中引用的URL(步骤930)。对于每一个收集到的URL(步骤940)，如果HREF语句包括EMBED属性(步骤942)，则包括EMBED属性的HREF语句中指定的页面中的那些部分被插入该页面(步骤944)。然后最好是通过把该新的页面添加到该展平的页面文件的末尾而将这个页面加到展平的页面文件中(步骤950)。由本发明所定义的EMBED属性及其它新属性将在下面进行更详细的讨论。
从最基本上说，一个Web页是由被一些叫作“标记”的特别的定界符分开的各种信息字段组成的。标记告诉Web浏览器用这个特殊字段的信息做什么。例如，标记可以让Web浏览器显示一个图像、显示一个文本、播放一个声音消息、或者显示一个叫作超文本链接的特殊字段的文件。超文本链接是一个标识远程资源的引用机制，这个远程资源存放在该系统虚拟存储空间的任何地方，不论它存放在同一台计算机上、辅助存储装置上，还是网络上的远程计算机上。换句话说，链接标识的是地址(即URL)，这个地址是当用户选择该链接时(典型的作法是用鼠标器或其它指示装置敲击该链接)计算机将要调用的地址。在HTML一个超文本链接用“锚”(anchor)标记定义。定义锚开始的标记是<A>，定义锚终止的标记是</A>。锚可以包括诸如HREF和NAME这样的属性。HREF属性确定链接的超文本引用(即URL)。NAME属性把一个记号放在一个页面中，该记号可以被一个链接用于指定该页面中某个特殊的位置或部分。指定一个名字就是告诉浏览器从哪里开始显示数据。例如，NAME=“X”用文本X来命名这个HTML页面的一部分来标记一个页面。本发明规定了一个定义被命名的字段或部分的结束的附加属性。这个结束属性是类似的，但写成NAME=“X.end”，从而结束一个部分。重要的是要注意浏览器将简单地忽略任何它不认识的标记或属性。这一特点使得Web页设计者可以加一些特殊浏览器能够识别和处理的特殊标记或属性(如NAME=“X.end”)，同时又保证该同一页面在现有的浏览器上显示没有问题。
格式化HTML各部分的另外一种方法是假定该部分从一个NAME属性延伸到一个NAME属性，该属性在页面的某一点上定义一个新的部分。例如一个目录可以包括以下URLmyUrl#a
myUrl#bmyUrl#cmyUrl#d这个myUrl页面可以包括以下各部分<A NAME=a></A>(HTML数据)<A NAME=aO></A>(HTML数据)<A NAME=an></A>(HTML数据)<A NAME=b></A>(HTML数据)<A NAME=bO></A>(HTML数据)<A NAME=bn></A>(HTML数据)<A NAME=c></A>(HTML数据)<A NAME=d></A>(HTML数据)<A NAME=dO></A>(HTML数据)<A NAME=dn></A>(HTML数据)假定整个文件将按目录中的各个表目打印，如果部分b被引用了，我们可以假定我们需要从<A NAME=b></A>标记到<A NAME=c></A>标记的全部HTML。注意，该部分的终止可以由所遇到的紧挨着的标记或如上面的例子那样由一个具有不同标签的标记来定义，使得部分bO和bn被包括在对部分b的引用中，而部分c则是作为不同的部分被标识的。用这种方式，如果能够有把握地对HTML各部分的结束进行某种假定，那么上面定义的X.end属性就不需要了。
本发明定义的另一个属性是EMBED属性。在本优选实施例中，另一个属性EMBEDSRC是一个具有特殊目的的EMBED属性的特例。为了说明本发明的这一概念，EMBED属性被用来将普通文本嵌入一个HTML页面中，此页面中由NAME=“X”属性和NAME=“X.end”属性或NAME=“X”属性和下一个NAME属性隔开，这些属性决定下一部分的开始(因而也决定前一部分的结束)。EMBEDSRC属性用来嵌入代表源码表一部分的文本。把源码用不同的可视特性嵌入，使得程序员可以用一种特殊形式(如颜色、字型、字型大小等等)在计算机程序的文件页面中显示源码。这些属性被放在一个HREF语句中。例如，这个嵌入源码的HREF语句可以写成<A HREF=“mysource.java#method”EMBEDSRC>Seemethod</A>，而嵌入HTML部分的HREF写成<A HREF=“mysource.html#section”EMBED>See method</A>。这些新的属性标识在格式化Web页面期间可以插入所链接的信息的嵌入位置，这些在方法900和图9中已描述了。
本发明定义的另一个新的锚属性是FOLLOW、SHOULDFOLLOW和NOFOLLOW。这些属性又放在HREF语句中分别指出一个链接是否必须被跟随、可能被跟随或必须不被跟随。下面是使用FOLLOW属性的一个可能的例子<A HREF=“mysource.html#section”FOLLOW>Seemethod</A>。如果这个被引用的URL包含一种即使嵌套层规定不包括而应包括在这个集成Web页中的信息(如关键信息)的话，那么，一个具有FOLLOW属性的URL就会被包括进去。NOFOLLOW属性作用相反，即使嵌套层可能已经包括它，也不会包括这个被引用的URL。SHOULDFOLLOW属性也被规定为如果相关标准指示跟随用SHOULDFOLLOW属性标记的链接，则把所引用的材料包括进集成Web页中。SHOULDFOLLOW和NOFOLLOW属性以与FOUOW属性同样的方式在HREF语句中使用。应当注意另外的标记或属性可能被建立去进行其它操作，如象压缩或扩展数据、把数据重新格式化另一种源形式或本领域普通技术人员公知的其它操作。
这些属性如何被处理取决于用户确定的相关标准。例如，用户可以确定严格按照嵌套层，而忽略所遇到的任何FLOOLW、SHOULDFOLLOW或NOFOLLOW属性。另一种选择是用户可以确定一种相关标准，它包括所有具有FOLLOW属性的URL，而不包括具有NOFOLLOW属性和SHOULDFOLLOW属性的URL。还有一种选择是将具有FOLLOW或SHOULDFOLLOW属性的URL包括在集成Web页面中，而特别不包括具有NOFOLLOW属性的URL。由本发明规定的这些属性使用户可以确定一个可能更容易改变以满足某种需要的更复杂的相关标准。注意在这里确定的所有的新属性统称为“嵌入属性”。
对于图9的方法900来说，每一个相关的Web页都被扫描以判断上面讨论过的那些新属性即EMBED、EMBEDSRC、NAME=“X.end”、FOLLOW、SHOULDFOLLOW、NOFOLLOW等等位于什么地方(步骤940和942)。定位所有那些用来指定已命名部分的终止的NAME标记以标识数据部分。一旦数据部分被确定，任何一个EMBED和EMBEDSRC标记都被定位，而且对应的相关的部分就被插入到相应的相关的Web页中的对应的EMBED或EMBEDSRC的位置处(步骤944)。这一过程持续到URL容器中所有那些具有EMBED或EMBEDSRC属性的URL都被插入到集成页面为止。所有被选页面都被收集起来并放进新的集成页面来完成Web页面的格式化过程。
应当注意的是Web页面格式化机构128的这个优选实施例使用HTML标记来标识各部分和插入点，但是，本领域的普通技术人员会认识到使用其它的语言和系统如Java和Java Script也能进行同样的操作。
在本发明的这个优选实施例中，上面讨论过的HTML属性已经包含在被选的和相关的Web页面的代码中。但是，根据本发明的一种方法使用户可以手动地或动态地把上面讨论的属性插入现有的Web页面以使所有现有的Web页在本发明的格式化过程中能被使用。这种方法最好是一个交互过程，在这里，现有页面的HTML被扫描来找出HREF语句，而且给用户一个机会适当地插入上面新近定义的属性中的任何一个。用于进行现有HTML的这种转换的一个工具使用户可以迅速地把页面转换成根据本发明的格式，它使格式化机构128在处理这些页面时就好象这些页面原来就是用本文定义的那些属性开发的。
虽然参照其优选实施例已经对本发明进行专门的展示和描述，但本领域普通技术人员将会理解到在不脱离本发明的精神和范围的情况下，在形式和细节上可以做各种各样的变化。例如虽然本文的优选实施例是按照HTML页面讨论的，但其它的页面格式和数据格式也同样包括在本发明中。本文使用的术语页面意在包括任何数量的可以被处理或显示的数据。此外，虽然为了示范目的，相对于通过因特网通信的Web客户机和Web服务器来展示本发明，但本发明可以用于任何适当的网络上的任何类型的客户机服务器的场合。而且，使用URL把若干页面收集起来并格式化成一个单一Web页面仅仅是本发明范围内收集所需数据的一种方法。还有，本文所称作的用户可以执行某种功能。本说明书和权利要求书中使用的术语“用户”一词显然包括可以执行用户功能的任何媒体，它包括无限的人类用户、计算机功能，以及任何形式的软件程序。
权利要求
1．一种装置，其特征在于包括至少一个处理器；一个耦连到该至少一个处理器上的存储器；以及一个位于该存储器中的并由该至少一个处理器执行的格式化装置，该格式化装置从至少一个被选页面和从多个与该至少一个被选页面有关的页面中产生一个集成页面。
2．权利要求1的装置，其特征在于该格式化装置包括一个选择至少一个页面的装置；一个储存该至少一个页面和至少一个相关页面的装置；以及一个从这些所储存的页面中产生该集成页面的装置。
3．权利要求2的装置，其特征在于用来选择该至少一个页面的装置包含从用户方面判断这个被选的至少一个页面和至少一个用来把该相关页面中的至少一个页面关连到该至少一个被选页面上的相关标准的装置。
4．权利要求2的装置，其特征在于用来储存该至少一个被选页面和至少一个相关页面的装置包括一个用来从该至少一个被选页面中判断该至少一个相关页面。
5．权利要求2的装置，其特征在于产生该集成页面的装置包括调用该至少一个被选页面和多个相关页面搜索至少一个嵌入代码的一个装置；以及根据该嵌入代码把被引用的页面的一部分嵌入该集成页面的一部分中的嵌入装置。
6．权利要求5的装置，其特征在于被嵌入的部分包括源代码。
7．权利要求5的装置，其特征在于被嵌入的部分包括一个HTML部分。
8．权利要求1的装置，其特征在于用统一资源定位器(URL)选择该被选页面。
9．权利要求1的装置，其特征在于该被选页面是一个超文本标记语言(HTML)页面。
10．权利要求1的装置，其特征在于如果两个页面中的任何一个与另一个在一个预定的嵌套层内，则这两个页面相关。
11．权利要求1的装置，其特征在于如果该两个页面中的任何一个具有一个通向另一个的链接，则这两个页面相关。
12．权利要求1的装置，其特征在于如果该两个页面存在于该同一个服务器上，则这两个页面相关。
13．权利要求1的装置，其特征在于，如果该两个页面具有相同的基地址，则这两个页面相关。
14．权利要求1的装置，其特征在于，还包括一个打印该集成Web页的装置。
15．一个装置，它包括至少一个处理器；一个耦连到该至少一个处理器上的存储器；驻留在这个存储器中的多个页面；以及一个驻留在该存储器中的并由该至少一个处理器执行的页面格式化装置，该格式化装置包括一个从该多个页面中选择至少一个页面的装置；一个储存该至少一个页面和至少一个相关页面的装置；以及一个从所储存的页面中产生该集成页面的装置。
16．权利要求15的装置，其特征在于该多个页面中至少有一个页面包括至少一个嵌入属性。
17．权利要求16的装置，其特征在于该至少一个嵌入属性包括至少一个属性，该属性至少部分地判断是否跟随一个通向该多个页面中的另一个页面的链接。
18．权利要求15的装置，其特征在于该多个页面中至少一个页面包括至少一个属性，该属性决定该至少一个页面的至少一个部分的结束。
19．一种程序产品，包括(A)一个格式化装置，该格式化装置从一个被选页面和从与这个被选页面相关的多个页面中产生一个集成页面；以及(B)携带这个格式化装置的信号载体介质。
20．权利要求19的程序产品，其特征在于该信号载体介质包括可记录介质。
21．权利要求19的程序产品，其特征在于该信号载体介质包括传输介质。
22．权利要求19的程序产品，其特征在于如果两个页面中的任何一个具有通向另一个的链接，则这两个页面相关。
23．权利要求19的程序产品，其特征在于如果两个页面驻留在同一服务器上，则这两个页面相关。
24．权利要求19的程序产品，其特征在于如果两个页面具有同样的基地址，则这两个页面相关。
25．一个程序产品，包括(A)一个Web页格式化装置，这个Web页格式化装置包括一个用于选择至少一个页面的装置；一个用于储存该至少一个页面和至少一个相关页面的装置；以及一个从所储存的页面中产生该集成页面的装置，(B)携带该Web页格式化装置的信号载体介质。
26．权利要求25的程序产品，其特征在于该信号载体介质包括可记录介质。
27．权利要求25的程序产品，其特征在于该信号载体介质包括传输介质。
28．权利要求25的程序产品，其特征在于该Web页格式化装置还包括一个打印该集成页面的装置。
29．权利要求25的程序产品，其特征在于使用统一资源定位器(URL)选择该被选页面。
30．权利要求25的程序产品，其特征在于该被选页面是一个超文本标记语言(HTML)页面。
31．一种把若干相关的Web页格式化成一个集成页面的方法，其特征在于包括以下步骤(A)选择至少一个Web页并为该至少一个Web页选择至少一个相关标准；(B)存储该至少一个被选Web页并根据该相关标准储存与该至少一个被选Web页相关的至少一个Web页；(C)从所储存的页面中产生该集成页面。
32．一种对现有Web页重新格式化的方法，其特征在于包括下列步骤从该现有Web页中确定在现有Web页中对数据的至少一个引用以包括在该现有Web页中；通过把至少一个嵌入代码插入该现有Web页来修改该现有的Web页，该嵌入代码标识现有Web页中数据的位置并标识要被并入该现有Web页中的数据。
33．权利要求32的方法，其特征在于在该现有Web页中该至少一个引用包括一个URL。
34．权利要求32的方法，其特征在于要被并入现有Web页的数据包括MIME数据。
35．将若干相关的Web页格式化为一个单一文件并打印的方法，其特征在于包括以下步骤(A)选择对应于至少一个被选Web页的至少一个URL；(B)为每一个被选的URL选择一个相关标准；(C)根据该对应的相关标准为每一个被选的URL递归地收集所有的相关的URL；(D)调用该至少一个被选Web页和对应于该相关URL的相关的Web页；(E)把该至少一个被选Web页和该相关的Web页储存在该单一文件中，该至少一个被选Web页和该相关的Web页包括至少一个嵌入属性，该属性指示要被嵌入的至少一个被引用的Web页的至少一部分；(F)把由该至少一个嵌入代码指定的该至少一个被引用的Web页的至少一部分插入在该单一文件的该对应的Web页处；以及(G)打印该单一文件。
36．权利要求35的方法，其特征在于该至少一个嵌入属性包括至少一个属性，它至少部分地决定是否跟随一个通向该多个页面中的另一个页面的链接。
37．权利要求35的方法，其特征在于该至少一个嵌入属性确定该至少一个页面的至少一部分的结束。
全文摘要
把一组指定的相关的Web页格式化成一个单一Web页的装置和方法,使得用户可以定义若干被选页面和与每个被选页面相关的相关标准。一个格式化装置收集被选页面和根据相关标准的那些相关页面的URL,并把这些URL储存在URL容器中。格式化装置进一步调用与储存在URL容器中的这些URL相关的每一个Web页,并产生一个集成页面。这个集成Web页面可以包括插入到一个或多个被选页面中的数据在其中引用的数据。然后,这个集成Web页可以用一个标准的浏览器打印功能打印出来。
文档编号G06F17/21GK1226030SQ9811568
公开日1999年8月18日申请日期1998年7月7日优先权日1997年8月8日
发明者C·H·布罗布斯特, P·B·蒙地申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C.H.布罗布斯特;P.B.蒙地
技术所有人：国际商业机器公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。