用于创建统一的可打印的超链接文档集的系统和方法

文档序号:6572835阅读:426来源:国知局
专利名称:用于创建统一的可打印的超链接文档集的系统和方法
技术领域
本发明总地涉及创建文档集的系统和方法,更具体地说,涉及将超链接文档集作为一个合成的文档进行刊印(publish)。
背景技术
在万维网上的信息激增已经使对相关信息进行归类的任务变得困难。超链接通常用在在线文档内以提供对相关信息的访问。超链接,或者链接是从一个对象(例如,文字、图像、声音和/或视频)到另一个对象的连接,它能够由用户选择。通常,链接是一被加亮的文字或图片,当选择该文字或图片时则导致另一个文件的即刻提供。被加亮的对象称为链接点(anchor)。链接点引用(reference)和对应的对象组成了基本的超链接。
超链接提供了快速的和方便的对电子文档的访问,但是,当将它们传输到其它介质时,例如当将在线文档打印为硬拷贝(即,纸张)时,它们会丢失功能。任何超链接的功能丢失,也就是说,超链接再不能引导用户方便地得到已提供的相关信息。
在某些Web浏览器中,例如Microsoft的IE,当打印在线文档时,提供一种打印所有链接的文档的选项。然后浏览器独立地打印每个文档,其中仅附有包括指向因特网地址的快捷文字的表。
因此,存在着对收集超链接文档并将其作为一体的文档刊印的系统和方法的需求。而且,由于目前大多数的信息可以在网上以包括链接的网页的形式获得,从而出现了对从初始的一组超链接文档(种子(seed))编辑出版物的方法的需求。
发明概述本发明涉及一种用于创建元文档(meta-document)的方法。该方法根据种子文档收集至少一个超链接文档,并使集内的文档交叉引用(cross-referencing)。交叉引用包括分辨(resolve)链接点和对象,并在元文档内根据各自位置引用链接点和对象(referencing)。
该方法组织收集的文档和种子文档。该方法还刊印包括各交叉引用的文档的元文档。
最好,该收集方法包括接收具有指向对象的链接点的种子文档,并将包括对象的文档添加到集中。另外,收集包括手动修改集的步骤。
元文档是种子文档和超链接文档的集。进而,引用步骤包括向链接点或/和对象提供脚注、尾注、内容表、以及附录中的一种。
该方法还包括将每个超链接(即,被加亮的文字)表示为对应的文档的维度,确定每个超链接的频率,将超链接的频率定义为对应的超链接维度的坐标,以及将每个文档群集(cluster)成一矢量。该方法还包括依照宽度优先对集进行排序,或者,该方法包括依照深度优先对集进行排序。
或者,组织(organize)可以包括将具有最大数量连接的文档定义为第一等级的链接点。该方法可以将由链接点指向的和指向链接点的任意文档定义为第一等级节点,并且可以根据每个第一等级节点指向的节点的数量对第一等级的节点进行排序。该方法至少可以定义包括由第一等级指向的但还未由另一个节点指向的文档的第二等级。最好一旦确定所有文档都指配有等级,则该方法就可以完成组织。如果存在未指配的文档,则一旦确定没有文档指配给最后定义的等级,该方法就可以将具有最大数量连接的文档定义为第一等级的链接点。该方法一旦确定文档已指配给了最后定义的等级,就定义包括由下一个更高等级指向的但还未由另一个节点指向的文档的附加等级。
刊印可以包括打印、存储(例如,存储在可卸盘、硬盘、存储器中等)、发传真以及发电子邮件中的一种。
上述用于创建元文档的方法可以采用计算机可读程序代码的方式实现。
根据本发明的一个实施例,刊印元文档的方法可以包括在刊印者处接收用户请求,根据用户请求收集至少一个超链接文档,利用集对文档进行交叉引用,以及向用户刊印该集。用户请求可以包括电子请求、口头请求和书面请求中的一种。
该方法还可以包括确定所收集的文档的版权信息,并为使用该文档对版权所有者进行补偿。


下面将参照附图对本发明的优选实施例进行详细的描述图1是依照本发明的网络环境的图;图2是根据本发明的综合的刊印系统的结构框图;图3是图2的刊印系统逻辑的流程图;图4是根据本发明的一个实施例的文档收集例程的流程图;图5是依照本发明的Web站点的示意性站点图;图6是根据本发明的组织例程的流程图;图7是根据本发明的文档排序例程的流程图;图8是根据本发明的综合例程的流程图;和图9是根据本发明的分层结构例程的流程图。
具体实施例方式
所提供的根据本发明的系统和方法用于收集超链接文档,将这些文档综合为一个合成的单元或元文档,以及向元文档内的对应的超链接(即,链接点和对象)提供交叉引用。
应理解本发明可以采用硬件、软件、固件、专用处理器或其组合形式的各种形式实现。在一个实施例中,本发明可以作为在程序存储设备上明确包含的应用程序以软件的形式实现。应用程序可以上载至包括任何适合的结构的机器,并由该机器执行。最好,该机器在计算机平台上实现,此平台具有诸如一个或更多中央处理单元(CPU)、随机存储器(RAM)以及输入/输出(I/O)接口之类的硬件。计算机平台还包括操作系统和微指令代码。在此描述的各种处理和功能可以是微指令代码的一部分,也可以是应用程序的一部分(或者其结合形式),这些指令代码和应用程序都是通过操作系统执行的。另外,各种其它外围设备,如附加的数据存储设备和打印设备,可以连接到该计算机平台。
还应理解,因为在附图中叙述的某些系统组成部件和方法步骤可以以软件的形式实现,所以系统部件(或处理步骤)之间的实际连接可能根据本发明编程的方式而不同。根据对在此提供的本发明的原理,在相关技术领域内的一个普通技术人员将能够理解本发明的这些和类似的实现方式或配置。
在本发明的一个实施例中,至少从一个初始文档中收集和汇编超链接文档。这个初始文档称为种子。种子文档用作生成更大文档的基础。具体地说,元文档的组织或结构源于种子文档被创建。组织通过分辨元文档内的交叉引用的超链接来提供。
参照图1,在根据本发明的系统中,客户站115、125和135连接到网络110。另外,带有Web站点的Web服务器130、140和150连接到网络。客户站能够配置其浏览器,以便通过代理服务器(即,160、170或180)来访问各种带有Web站点的Web服务器130、140和150。
现在参照图2,根据本发明的刊印系统的图被示出。刊印系统节点203能够访问网络110。此刊印系统最好包括CPU260、诸如随机存储器(RAM)的存储器263、以及诸如直接存取存储设备(DASD)的存储设备262。存储器263存储刊印系统逻辑268(如图3所示),该刊印系统逻辑最好以从DASD262加载到存储器263中的由CPU260执行的计算机可执行代码来实现。刊印系统逻辑268包括文档收集例程264(如图4所示)、组织例程265(如图6所示)和综合例程266(如图8所示)。刊印系统节点可以是客户工作站,或者可以在Web上作为单独的服务器节点实现。
参照图3,在305,收集例程264被调用以根据至少一个由用户提供的初始种子文档创建超链接文档集。超链接文档的典型实例包括例如遍布在各种Web站点130-150的网页。另一个实例包括独立刊印的具有参考目录的学术文章。组织例程265被调用以创建用于文档集的组织或结构310。这包括分层的子集,如多个章和节。综合例程266被调用以分辨在集内的交叉引用315。如果在一个文档内的超链接或链接点指向该集内的另一个文档中的对象,则脚注或其它类似的构件将与链接点相结合用于指向诸如对应于该对象的页号或章节。
刊印例程被调用以处理综合文档320。刊印例程产生用户指定的最终的(打印好的或可打印的)输出。刊印例程能够产生打印好的硬拷贝或者在另一种介质中刊印内容,例如写入CD-ROM。该系统和方法还能够提供传真文档或可打印的电子文档(例如,Lotus Word Pro或可移植文档格式(pdf)等格式的文档)。
参照图4,种子文档例程被调用,在此该例程从用户收集至少一个初始种子或核心超链接文档405。在本领域内的普通技术人员在本发明的启发下,将会意识到还存在着收集种子文档的替换方法,例如可以通过让用户直接提供这些文档中的每个文档的名称或URL,或者,可以提供图形用户界面以允许用户从图形用户界面(GUI)选择种子文档。例如可以利用站点图界面(例如,图5)以允许用户在网站站点图中选择网站的文档子集。扩展例程用于在集中添加又一个文档410。这通过在由用户指定的种子集中提取文档来完成。这些文档可以设置在本地和/或分布在一个网络中,如因特网。该系统和方法识别嵌入在每个文档中的超链接,并将这些引用文档(例如,那些由作为链接点嵌入在网页中的URL指向的文档)添加到集中。本发明考虑到了上述系统和方法的不同实现方式。
根据本发明的一个实施例,用户能够定义扩展的停止标准。一个标准是至种子文档的距离。例如,两者之间的最大距离指的是仅由种子文档直接引用的(或通过超链接指向的)文档和由(种子文档直接引用的)那些文档引用的的文档将包括在集中。停止标准的另一个实例是引用计数。例如,两者之间的最小引用计数指的是文档必须由至少两个将包括在集中的种子文档引用。其它的限制可以包括文档的来源(例如,网站、服务器、代理等)、刊印的日期(包括修改文档的最后时间)、文档的大小等。
当集从初始种子文档扩展之后,用户互动例程能够被调用以允许用户浏览该集并删除任何不需要的文档415。用户还能够重复收集处理以汇编更多的文档。例如,该用户能够修改停止标准或者添加附加的种子文档,并重复扩展例程以获得新的结果集。
本领域内的技术人员在本发明的启发下,将会意识到对于扩展例程还存在着其它的停止标准,例如,文档的年限(遇到旧的文档停止)、文档的分级(例如,正如由因特网内容选择平台所提供的、用于提供有关电子内容的元信息的方法)、页面的重要性(例如,识别出在集中的中心/官方页面,其中正如S.Chakrabarti等在文章“通过分析超链接结构和相关的文本进行自动的资源汇编(Automatic Resource Compilation by Analyzing HyperlinkStructure and Associated Text)”,《计算机网络与ISDN系统》1998年4月,第30卷(Computer Network and ISDN Systems,Vol.30,April 1998)中所述,官方页面是一主题的权威,而中心页面指向有关该主题的众多页面)、页面的尺寸(避免大的页面,或者不考虑短的页面)。
本技术领域的技术人员能够看到还存在着创建或获取种子文档的不同办法。一个可供选择的办法是根据个人或团体的过去使用历史,例如从Web浏览器的历史高速缓冲存储器中,收集种子文档。
参照图6,组织例程265创建由收集例程264提供的文档集的结构。在一优选实施例中使用了矢量空间表示法,其中每个文档连同其计数或频率被表示为文字矢量(例如,超链接)605。具体地说,每个文档能够表示为(a1,a2,...,an)形式的项矢量。每一项ai具有一文字和与其有关的权重wi,其中wi表示该文字的出现次数。或者,wi表示出现次数的函数,例如,出现次数的平方根。将每个文字视为一个维度并将对应的计数视为在该维度上的坐标,每个文档则被转换成文字的高维度空间的点或矢量。群集算法应用于这些矢量以形成由用户指定的给定数量的群集或子集610。目前有大量可用的群集方法。例如,在Charu Aggarwal等所著的“投影群集的快速算法(FastAlgorithms for Projected Clustering)”(《1999 ACM SIGMOD会议会刊》第61-72页,1999年5月,费城,宾州(Proc.1999 ACM SIGMOD ConferencePhiladelphia,PA,May 1999,pp.61-72))中,作者“探讨了被称为投影群集问题的群集问题的概况,其中所选维度的子集对于群集本身是特定的”。又例如,在Charu Aggarwal等所著的“采用受监控的群集建立分类化系统的优点(On the Merits of Building Catego rization Systems by SupervisedClustering)”(《1999 ACM SIGKDD会议会刊》第352-356页,1999年8月,圣迭哥,力州(Proc.1999 ACM SIGKDD Conference,San Diego,CA,Aug.1999,pp.352-356))中,作者探讨了利用“来自预先存在的分类系统以便监控一组相关的群集的创建信息,尽管具有某种定义和创建类的自由,而进行受监视的群集以创建用于文档分类的类别的集合”。
在子集中的每个文档的顺序是通过调用排序例程来确定的615。排序例程615的替换方法将在下面参照图7和图9进行描述。示意性标题被得到以用于每个子集620。那些本领域的技术人员将会理解还存在着许多可供选择的实现方式。在优选实施例中,在每个子集中最频繁出现的文字用作示意性标题。用户修改程序能够被调用625,从而用户能够选择用于子集的标题中的一个或者输入替换的标题。另外还向用户提供有子集,用户能够修改每个子集的构成或者每个子集内的文档顺序。根据本发明,用户或者采用可附上的注解的形式,或者采用完全成形的(full fledged)介绍性(或概述性)的段落能够对先前处理中的元结构进行注解(类似于从多篇文章中提取篇章而制作一本书,例如,其中特约编辑介绍每篇文章并随后附有后续作品的概述)。
一种用于执行初始群集610的替换方法被提供以用于将文档划分成多个子集。该方法能够按照页面的时间年限,或者通过URL/域进行群集,来划分文档。或者,本发明略过群集而仅仅执行文档的排序。例如,一个用户能够利用从种子文档(根据某些用户指定的标准或用户说明所选择的)中提取出的超链接结构来执行宽度优先或者深度优先的排序。例如,假设文档1指向文档2、3和4,文档2指向文档4和5,而文档3指向文档6和7。在收集每个文档时,该集的宽度优先排序基本上是1、2、3、4、5、6和7。或者,本发明能够实现深度优先群集,例如1、2、4、5、3、6、7和4。根据深度优先的实施例,该方法跟踪超链接直至其达到尽头(其中在文档中再无法找到另外的超链接)或某些预定的标准。该方法然后返回更高级别并继续收集下一个超链接的文档。更复杂的排序方法在图7中说明。
参照图7,定向图(directed graph)被创建以表示文档的集或子集705。此定向图是在组织之前的文档结构的图。每个文档指向另一个文档,并且/或者被另一个文档指向。每个文档表示为一个节点,并且如果在文档i中出现文档j的超链接(或URL),则添加从节点i到节点j的定向弧(arc)。顺序队列被初始化为“空的”,并用于按顺序列出文档。在定向图中具有最大数量的流出弧的节点从图中去除,并添加到顺序队列的末尾710。对能够从先前去除的节点的流出弧直接到达的节点做标记(如果对它们还没有做标记的话)720。该方法确定是否还有做标记的节点留在定向图中730。如果有,从做标记的节点的组中,具有最大数量的流出弧的节点从图中去除并添加到顺序队列的末尾740。该方法然后确定是否还有遗留的未做标记的节点750。如果没有,所有节点都在提供文档集顺序的顺序队列中。
根据图8所述的本发明的一个实施例,对超链接进行的交叉引用在方框805中进行分辨。在文档集中,对于每个文档,所有指向该文档的超链接被识别。在优选实施例中,脚注或交叉引用被添加到超链接。该脚注通过页、节和章的号码指向对应的文档。用于一个集的内容表在方框810中被创建。其它的特征,例如索引、内容表、表和/或图、超链接的汇总以及词汇表,也能够根据用户的需要或喜好进行添加。
另外,本发明考虑了可替换的用于创建子集的实现方式,例如,用户能够对每个子集递归地重复图6中所述的群集算法,以创建子集的层次。或者,可以研究整个超链接结构以创建分层的子集,如图9所示。如图7所示,文档集的定向图表示用作创建子集的基础。而且,如图7所示,每个文档表示为一个节点。在文档集的定向图表示中具有最多流出弧的节点被选为分层的文档组织的等级1的链接点节点905。在由该链接点节点直接指向的节点中,那些具有直接指回该链接点节点的流出弧的节点也被指定为等级1的节点910。等级1的节点根据来自每个节点的流出链接的数量进行排序915(即,数量越高的节点,其等级越高)。计数器k在方框920中设定为1。在方框925中,就每个等级k的节点而言,在其下面等级k+1的节点是由等级k的流出弧指向的节点,但还没有分配给更早等级的其它节点或者处于相同等级k的在其之前的节点。该方法确定每个节点是否已经指配有等级930。如果有,则该例程完成。否则,该方法确定在方框925的最后一次调用中是否还存在任何指配给等级k+1的节点。如果没有,定向图的那些部分(文档)从当前识别的链接点节点(或多个节点)是无法到达的。方框905在此被重复,以从图中其余未指配的部分中选择另一个链接点节点。k在方框940中增加1。
随着现在大多数信息在因特网上以网页或超链接文档的形式获得,本发明提供了用于从至少一个初始种子超链接文档发展成详细的、全面的和综合的出版物的系统和方法。刊印和分配服务被提供。此服务为印刷厂提供了一个模型。附加的服务被提供,例如为用户解决每个文档来源的版权问题。另外还考虑了提供包装、分配和/或发送服务的方法。分配和发送服务即可以采用硬拷贝,也可以采用可打印的软拷贝的形式。通过例如客户工作站的Web浏览器界面或文字处理应用程序,用户能够改变文档集(如图4中的用户互动程序(415)所述),或者修改作品的章或节的标题(如图6中的用户修改程序625所述)。
本领域的技术人员能够看出还可以包括各种附加的服务。例如,本发明可以包括或者通过“回执”协议(类似于诸如Lotus Notes的用于电子邮件的协议)、或者使用用于发送/跟踪物理打印的文档的跟踪系统(如联邦快递(Federal Express)使用的系统)来对文档跟踪/发送的服务。本发明还允许(1)本地刊印(在纸上或在其它介质上),随后发运,或者(2)在靠近最终用户的地点远程刊印或打印,在那里客户能够直接取得文档。
在本发明的一个实施例中,根据印刷的拷贝数量,提供了用于收集和向综合的文档的组成部分(即,收集的文档)的作者分配作品使用费的刊印方法。
虽然已经描述了用于创建统一的可打印的超链接文档集的系统和方法的实施例,应注意在上述指导的启发下本领域的技术人员可以进行修改和变更。因此应理解在所附权利要求限定的本发明的范围和精神内,可以对刊印的本发明的特定实施例进行改变。按照专利法的对已经详细地和具体地描述了本发明,由专利证书保护的所要求和希望的内容在所附权利要求书中给定。
权利要求
1.一种用于创建元文档的方法,包括步骤根据种子文档收集至少一个超链接文档;分辨该种子文档中的链接点和该超链接文档中的对象;和在元文档内根据各个位置引用链接点和对象。
2.如权利要求1所述的方法,其特征在于还包括刊印包括交叉引用的文档的元文档的步骤。
3.如权利要求1所述的方法,其特征在于收集的步骤还包括步骤接收具有指向对象的链接点的种子文档;和将包括该对象的文档添加到集中。
4.如权利要求3所述的方法,其特征在于还包括手动修改集的步骤。
5.如权利要求1所述的方法,其特征在于元文档是种子文档和被收集的文档的集。
6.如权利要求1所述的方法,其特征在于引用步骤包括向链接点和对象中的一个提供脚注、尾注、内容表、以及附录中的一种。
7.如权利要求1所述的方法,其特征在于还包括组织收集的文档和种子文档的步骤。
8.如权利要求7所述的方法,其特征在于还包括步骤将每个超链接表示为对应的文档的维度;确定每个超链接的频率;将超链接的频率定义为对应的超链接维度上的坐标;和将每个文档群集成一矢量。
9.如权利要求7所述的方法,其特征在于还包括依照宽度优先对集进行排序的步骤。
10.如权利要求7所述的方法,其特征在于还包括依照深度优先对集进行排序的步骤。
11.如权利要求7所述的方法,其特征在于还包括步骤将具有最大数量连接的文档定义为第一等级链接点;将由该链接点指向的和指回该链接点的任意文档定义为第一等级节点;根据每个第一等级节点指向的节点的数量对第一等级节点进行排序;至少定义包括由第一等级指向的但还未由另一个节点指向的文档的第二等级;一旦确定所有文档都指配有等级,则完成组织;一旦确定没有文档指配有最后定义的等级,就将具有最大数量连接的文档定义为第一等级的链接点;和一旦确定文档已指配有最后定义的等级,就定义包括由下一个更高等级指向的但还未由另一个节点指向的文档的又一个等级。
12.如权利要求3所述的方法,其特征在于刊印的步骤还包括打印、存储、发传真以及发电子邮件中的一种。
13.一种计算机程序产品,包括计算机可用介质,该介质包含计算机可读程序代码,用于创建元文档,该计算机程序产品中的计算机可读程序代码包括计算机可读程序代码,用于根据种子文档收集至少一个超链接文档;计算机可读程序代码,用于分辨链接点和对象;和计算机可读程序代码,用于在元文档内根据各自的位置引用链接点和对象。
14.如权利要求13所述的计算机程序产品,其特征在于还包括计算机可读程序代码,用于组织收集的文档和种子文档。
15.如权利要求13所述的计算机程序产品,其特征在于还包括计算机可读程序代码,用于刊印包括交叉引用的文档的元文档。
16.如权利要求13所述的计算机程序产品,其特征在于用于收集的步骤的计算机可读程序代码还包括计算机可读程序代码,用于接收具有指向对象的链接点的种子文档;和计算机可读程序代码,用于将包括该对象的文档添加到集中。
17.如权利要求13所述的计算机程序产品,其特征在于还包括计算机可读程序代码,用于将具有最大数量连接的文档定义为第一等级链接点;计算机可读程序代码,用于将由该链接点指向的和指向该链接点的任意文档定义为第一等级节点;计算机可读程序代码,用于根据每个第一等级节点指向的节点的数量对第一等级节点进行排序;计算机可读程序代码,用于至少定义包括由第一等级指向的但还未由另一个节点指向的文档的第二等级;计算机可读程序代码,用于一旦确定所有文档都指配有等级,则完成组织;计算机可读程序代码,用于一旦确定没有文档指配给最后定义的等级,就将具有最大数量连接的文档定义为第一等级的链接点;和计算机可读程序代码,用于一旦确定文档已指配给了最后定义的等级,就定义包括由下一个更高等级指向的但还未由另一个节点指向的文档的又一个等级。
18.如权利要求13所述的计算机程序产品,其特征在于引用包括向链接点和对象中的一个提供脚注、尾注、内容表、以及附录中的一种
19.如权利要求14所述的计算机程序产品,其特征在于还包括计算机可读程序代码,用于将每个超链接表示为对应的文档的维度;计算机可读程序代码,用于确定每个超链接的频率;计算机可读程序代码,用于将超链接的频率定义为对应的超链接维度上的坐标;和计算机可读程序代码,用于将每个文档组成一矢量。
20.如权利要求14所述的计算机程序产品,其特征在于还包括计算机可读程序代码,用于依照宽度优先对集进行排序。
21.如权利要求14所述的计算机程序产品,其特征在于还包括计算机可读程序代码,用于依照深度优先对集进行排序。
22.如权利要求15所述的计算机程序产品,其特征在于刊印包括打印、存储、发传真以及发电子邮件中的一种。
23.一种刊印元文档的方法,包括步骤在刊印者处接收用户请求;根据该用户请求收集至少一个超链接文档;利用集对文档进行交叉引用;和向用户刊印该集。
24.如权利要求23所述的方法,其特征在于用户请求包括电子请求、口头请求和书面请求中的一种。
25.如权利要求23所述的方法,其特征在于刊印包括打印、存储、发传真以及发电子邮件中的一种。
26.如权利要求23所述的方法,其特征在于还包括确定所收集的文档的版权信息的步骤。
27.如权利要求26所述的方法,其特征在于还包括为使用受版权保护的文档对作者进行补偿。
全文摘要
本发明涉及一种用于创建元文档的方法。该方法根据种子文档收集至少一个超链接文档,并交叉引用集内的文档。交叉引用包括分辨链接点和对象,并在元文档内根据各个位置引用分辨过的链接点和对象。该方法组织收集的文档和种子文档。该方法还刊印包括交叉引用的文档的元文档。最好,收集方法包括接收带有指向对象的链接点的种子文档,并将包括该对象的文档添加到集中。另外,收集包括手动修改集的步骤。元文档是种子文档和超链接文档的集。进而,引用是脚注、尾注、内容表、以及附录中的一种。
文档编号G06F17/30GK1356630SQ0114252
公开日2002年7月3日 申请日期2001年11月30日 优先权日2000年12月1日
发明者布伦特·T·黑尔珀恩, 约尔·马里克, 菲利普·S·L·俞 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1