用于重建网上内容的方法和数据处理系统的制作方法

文档序号:6570178阅读:169来源:国知局

专利名称::用于重建网上内容的方法和数据处理系统的制作方法
技术领域
:本发明一般涉及用于重建Web(网上)内容的方法和数据处理系统,并且尤其涉及用于重建Web内容以便增加Web内容的可用性的方法和数据处理系统。
背景技术
:Web内容通常由多个网页组成。术语Web内容这里通常指万维网的内容,以及公司的内联网的内容或指门户(portal)的内容。在本上下文中,术语门户指通过Web浏览器的使用可访问的任何种类的网页。构成Web内容的多个网页的各网页通常以树形结构安排,该树形结构通常源于起始网页。典型的情景是用户访问他的公司的内联网或处于相应的起始网页的门户。为了访问他喜好的网页之一,他可能不得不点击通过许多其它的网页,以便从起始网页到达他喜好的网页之一。例如如果用户负责他的公司的子单位的管理,则他喜好的网页之一可能是他通过其能够管理该子单位的网页。该网页可能正好位于树形结构中这样的位置,使得用户不得不点击通过许多其它的网页以便达到该网页。内联网或门户的静态结构不识別用户的行为,并且不重新安排各网页以便缩短用户未来不得不走过该树形结构的路径。用户可能不得不点击通过许多其它的网页直到他到达他喜好的网页的原因可能是他是使用该网页的唯一用户,而管理员因此已经决定将该网页放置于树形结构中远离起始网页的位置。系统管理员不能实现多个网页的拓朴的"完美安排"。他不能以使得所有用户的要求被满足的方式安排各网页。系统管理员不了解也没有时间基于用户的希望来做,此外用户的行为也可能随着时间改变。因此存在对用于重建Web内容的改进的方法和数据处理系统的需要。
发明内容本发明提供一种重建Web内容的方法,其中Web内容由多个网页组成,并且其中该方法包括生成日志文件的步骤。该日志文件包括各网页的历史记录(history),并且各网页的历史记录包括已经由用户从多个网页选4奪的所有网页。该方法还包括为由用户选择的每个网页确定访问频率的步骤。访问频率通过使用网页的历史记录确定。然后确定各网页的子集。各网页的子集包含最大数目的网页。该最大数目的网页是预定的。各网页的子集包含具有最大访问频率的网页。因而在该日志文件中收集了已经由用户访问的各网页的历史记录。为每个网页确定访问频率。通过^^用已经为每个网页确定的访问频率,确定用户最经常访问的各网页。存在分配到各网页子集的最大数目的网页。该网页的子集包含给定数目的由用户最频繁访问(visit)或访问(access)的网页。因此根据本发明的方法通过解析和分析日志文件确定用户喜好的网页,该用户喜好的网页是包括在各网页子集中的网页。给定的数目是指定但可配置的数目。根据本发明的实施例,多个网页以树形结构安排,其中该树形结构源于起始网页,其中各网页的子集由用户从小门户(portlet)可访问,其中该小门户链接到起始网页。因而,该网页的子集现在由用户直接从小门户可访问,该小门户离起始网页仅一次点击。因此根据本发明的方法是特别有利的,由于它允许用户直接从小门户直接访问他喜好的网页,他能够从起始网页直接访问该小门户。因此为了到达他喜好的网页之一,他不必点过所有其它网页。根据本发明实施例,多个网页以树形结构安排,其中该树形结构源于起始网页,其中用户特定的特殊网页链接到该起始网页,其中各网页的子集在当用户访问该用户特定的特殊网页时的时间点确定,其中为包括在网页子集中的每个网页分配临时标签,其中每个临时标签链接到该用户特定的特殊网页,并且其中该用户能够经由对应的临时标签访问各网页的子集。各网页的子集在当用户访问该用户特定的特殊网页时的时间点确定。这确保该各网页子集总是包含由用户最频繁访问的各网页,该网页的子集通过已经为已经由用户访问的每个网页确定的访问频率的使用来确定。那么用户能够直接从该用户特定的特殊网页访问该网页的子集。因此为了到达他喜好的网页之一,他不必点过所有其它网页。根据本发明实施例,多个网页以树形结构安排,其中该树形结构源于起始网页。转换被附加到起始网页。各网页的子集在当用户访问该起始网页时的时间点确定。通过使用该转换确定网页的动态子模型,由此该网页的子集由所述用户从该起始网页可访问。根据本发明实施例,多个网页包括在门户中。当经由该门户访问多个网页时,根据本发明的方法是特别有利的。因为由该门户提供的各应用和服务可能由多类用户可访问,所以根据本发明的方法提供了动态安排该门户的结构的方法,由此每个用户的特定需要被满足。根据本发明实施例,该门户包括日志记录(logging)组件、解析组件和可视化组件,其中日志记录组件用于日志文件的生成,其中解析组件用于语义地分析该日志文件,并且其中可视化组件用于门户中的页面子集的可视化。根据本发明实施例,该日志记录组件是Tivoli的站点分析工具,并且该日志文件是组合NSCA的访问日志文件。根据本发明实施例,网页的访问频率由用户访问网页的次数或由用户花在该网页上的时间测量。考虑用户花在网页上的时间的访问频率具有这样的优点,由用户仅为了访问另一个网页而使用的网页通常不具有高的访问频率。才艮据本发明实施例,如果没有从网页访问其它网页,则只为该网页确定访问频率。因而不为由用户访问只是为了浏览另一个网页的网页确定访问频率。这具有只有由用户实际使用的网页被分配到网页子集的优点。在另一个方面,本发明涉及一种计算机程序产品,包括用于执行根据本发明方法的计算机可执行指令。在另一个方面,本发明涉及一种用于从多个网页中识别用户特定的喜好网页的数据处理系统。该数据处理系统包括用于生成日志文件的装置。该日志文件包括各网页的历史记录,并且各网页的历史记录包括已经由用户从多个网页选择的所有网页。该数据处理系统还包括用于为由用户选择的每个网页确定访问频率的装置。该访问频率通过使用各网页的历史记录来确定。该数据处理系统还包括用于确定网页的子集的装置。该网页的子集包括最大数目的网页。该最大数目是预定的并且网页的子集包含具有最大访问频率的网页。随后,通过参照附图将更详细地描述本发明的优选实施例,附图中:图1显示用于重建Web内容的数据处理系统的方块图2显示图示用于重建Web内容的各基本步骤的流程图3显示描述用于重建Web内容的各步骤的流程图4显示图示用于重建Web内容的各步骤的流程图5显示由以树形结构安排的多个网页组成的Web内容的方块图6显示用于空中交通管理的门户的起始网页;图7显示用户能够通过其访问网页的子集的门户的网页;图8描述用户能够从其访问他喜好的网页的门户的网页;图9显示用户能够通过其访问网页的子集的门户的网页;图10描述用户能够从其访问他喜好的网页的门户的网页。具体实施例方式图1显示用于重建Web内容106的数据处理系统的方块图。该数据处理系统包括计算机系统100,该计算机系统100包括屏幕102、微处理器108、非易失性存储器设备110、易失性存储器设备112、键盘160、鼠标126、以及网络卡128。计算机系统100例如能够是利用网络卡128连接到服务器154的客户端计算机。浏览器104在屏幕102上可视化。Web内容106能够通过网络卡128的使用从服务器154加载到计算机系统100,并且在浏览器104内可视化。Web内容106由以树形结构安排的多个网页130.....150组成。该树形结构源于起始网页130。网页可通过位于网页上的链接从另一网页访问。例如,起始网页130包括通过其能够到达网页132的链接,以及通过其网页140可访问的另一个链接。用户通常在起始页130进入Web内容106。然后用户能够利用鼠标126或经由键盘160导航通过网页130.....150。例如,如果他想要访问网页138,则他通过位于网页130上的适当链接进入网页132。然后他从网页132导航到网页134,他能够从那里访问网页136。在网页136上,他点击链接,通过该链接他能够访问网页138。微处理器108执行计算机程序产品144,其监视用户对网页130.....150执行的动作。该计算机程序产品114包括日志记录组件116。该日志记录组件116生成存储在非易失性存储器设备110或者易失性存储器设备112上的日志文件122。该日志文件122包括网页的历史记录124。在网页的历史记录124中,已经由用户访问的所有网页被记录。网页的历史记录124例如可以是列表的形式,其中在每行由用户访问的一个网页连同用户的ID、当用户访问该网页时的时间点、以及用户花费在该网页上的时间量一起记录。用户从起始网页130对该网页138的访问例如可以在网页的历史记录124中记录如下用户ID、网页130、T=11:00:00、RP=10s;用户ID、网页132、T=ll:00:10、RP=ls;用户ID、网页134、T=ll:00:15、RP=5s;用户ID、网页136、T=ll:00:20、RP=5s;用户ID、网页138、T=ll:00:25、RP=200s;在该列表的第一列,记录用户的ID,在第二列,记录网页(为了从网页130访问网页138,用户不得不点击通过网页132、134和146)。在第三列,记录当用户访问该网页时的时间点,以及在最后一列存储用户在该页面上的停留时间段。计算机程序产品114还包括解析组件118。该解析组件118为已经由用户访问的每个网页130.....144确定存储在非易失性存储器设备IIO上的访问频率。特定网页的访问频率例如通过用户已经访问该特定网页的次数来确定。为了确定该访问频率,解析组件118审查(scanthrough)日志文件122并且确定特定网页的进入的数目。因而通过审查上面给定的列表,网页130、132、134、136和138的访问频率将是一,因为每个网页只列出一次。特定网页的访问频率还能够由用户已经花费在特定网页上的时间来确定,该时间例如标准化为一秒。因而,从上面给定的列表中,网页138的访问频率确定为200,而网页132的访问频率为1。这确保页面138的访问频率高于页面132的访问频率,该页面132可能只是由用户访问以便访问页面138,因而用户可能对其没有很大兴趣。或者,特定网页的访问频率只在没有其它网页通过该特定网页访问时确定。然后该访问频率通过不得不从起始网页被点击通过以便访问该特定网页的网页数目测量。例如,将只为记录在上面的列表中的网页138确定访问频率。对于所有其它网页将没有访问频率被确定。访问频率将通过被访问以便到达网页138的网页的数目测量。因而,网页138的访问频率将是3,因为网页132、网页134和网页136被访问以便到达网页138。在当用户只使用网页138和144并且它只点击通过所有其它网页以便访问网页138或144时的情况下,那么两个网页138、144将是具有最高访问频率的网页。网页的子集162保持具有最高访问频率的给定最大数目156的网页。假定该最大数目156等于2。那么网页138和144将被分配到网页的子集162。数目156例如能够由系统管理员或由用户自己指定。在本发明的实施例中,创建被直接链接到起始网页130的小门户164。网页的子集162链接到该小门户,使得用户能够经由该小门户164直接从起始网页130访问该网页的子集162,在上面给定的示例中为网页138和144。因此,他不再必须点击通过所有其它的网页以便能够访问网页138和144。在本发明的另一个实施例中,用户特定的网页链接到起始网页。网页的子集162在当用户访问用户特定的特殊网页时的时间点确定。临时标签被分配给包含在网页的子集中的每个网页。该临时标签链接到用户特定的网页。该用户能够经由对应的临时标签访问包含在网页的子集中的网页。这将在下面更详细地描述。图2显示描述用于重建Web内容的各基本步骤的流程图。在步骤200中,生成日志文件。该日志文件包括网页的历史记录,并且该网页的历史记录包括已经由用户从包含在Web内容中的多个网页选择的所有网页。在步骤202中,为已经被用户选择的每个网页确定访问频率。利用网页的历史记录确定该访问频率。在步骤204中,确定网页的子集。该网页的子集包含预定的最大数目的网页。这些网页是由用户最频繁地访问的网页。因而,网页的子集包含用户的喜好网页。图3显示描述用于重建Web内容的各步骤的流程图。在步骤300中,生成包括已经由用户从多个网页选择的网页的历史记录的日志文件。在步骤302中,确定已经由用户选择的每个网页的访问频率。在步骤304中,利用对每个可用的访问频率确定网页的子集。该网页的子集包括最大数目的网页。这些网页是已经由用户最频繁地访问的网页。因而该网页的子集包括作为用户喜好的网页的网页。在步骤306中,该网页的子集链接到小门户。该小门户直接链接到起始网页,使得用户能够利用该小门户直接访问他喜好的网页。图4显示图示用于重建Web内容的各步骤的流程图。在步骤400中,生成包含已经由用户访问的网页的历史记录的日志文件。在步骤402中,为已经由用户访问的每个网页确定访问频率。在步骤404中,在当用户访问用户特定的特殊页面时的时间点确定网页的子集。在步骤406中,临时标签分配给网页的子集的每个网页,并且在步骤408中,该临时标签链接到用户特定的特殊网页。图5显示由以树形结构安排的多个网页组成的Web内容的方块图500。该树形结构源于起始页501。考虑用户最经常使用网页508、510和520。为了到达网页508,用户必须导航通过网页502、504、506,然后最终他到达508。或者,他能够点击>^人页506到页510,^v而他到达另一个他喜好的网页。因而,他总是需要四次点击以便到达508或网页510。如果用户想要使用网页520,则他不得不从起始页501浏览到页512,然后到页514,然后到页516,然后到518,然后最终他到达网页520。因而,他不得不浏览通过四个其它页面,以便到达网页520。如果他频繁使用网页508、510和520,则这三个页面的访问频率将高。如果包含在网页的子集中的网页的最大数目大于三,则这三个页将被识别为用户的喜好页。这三个页将是具有最大访问频率的页。因此,网页的子集将由网页508、510和520组成。用户特定的特殊网页530直接链接到起始网页501。因为网页508、510和520是用户的喜好网页,所以临时标签将^fe分配给这些网页的每一个。临时标签332分配给网页508。临时标签534分配给网页510,并且临时标签536分配给网页520。无"^仑何时用户访问起始网页都开始确定网页的子集的处理。因此,在当用户访问网页530时的时间点动态地确定临时标签,并且其配合用户的行为。如果用户开始更频繁地访问网页522,并且不像之前一样频繁地访问网页508,则当网页522的访问频率变得大于网页508的访问频率时,临时标签532将分配给网页522。用户能够经由用户特定的特殊网页530访问他最经常使用的网页。他不再需要浏览通过例如网页512、514、516和518以便访问网页520。或者,可以丢掉特殊网页或小门户的概念,并且可以将重新安排Web内容501.....528的转换直接附加到起始网页501。通过应用根据本发明的相同的分析方法,例如可能是网页508、510和520的用户的喜好网页能够被识别。用户的喜好网页508、510和520然后直接从起始网页501可访问。已经分配该转换至其的起始网页之下的所有网页因而将是只代表匹配用户的行为的最合理结构的动态网页,其将是即时(on-the-fly)构建的动态子模型的一部分。这里,动态标签将不链接到用户的喜好网页。它们将是实际网页而不仅是标签,并且将包含它们引用的潜在网页的内容。在起始网页501上的点击将因而直接给出用户想要访问的内容。图6显示用于空中交通的管理的小门户的起始网页600。该小门户由来自IBM公司的商用程序WepSpherePortal实现。用户访问在起始网页600的门户。该起始网页600特征在于包含在工具栏604中的"欢迎"登记(register)602利用不同的颜色编码与工具栏604分开设置。图7显示通过其用户能够访问网页的子集的门户的网页700。用户能够访问门户的网页700,从该门户他能够通过点击也包含在工具栏708中的"我的快速链接"登记704访问网页的子集。当他选择"我的快速链接"登记704时,该登记通过不同的颜色与工具栏708分开设置,而"欢迎"登记702采用工具栏的颜色。从网页700,"快速链接"小门户706变得对用户可访问。图8描述门户的网页800,用户从该门户能够访问他的喜好网页。通过点击用户选择"快速链接"小门户802,并且作为响应,包含网页的子集804的列表打开。网页的子集804包括到在之前一段时间期间已经由用户最频繁访问的网页的链接。网页的子集804包含用户的喜好网页。如果用户例如是斯图加特机场的管理员,则他将已经频繁地选择通过其他能够管理斯图加特机场的网页。因而,网页的子集804包含到"斯图加特机场"806的链接。通过点击"斯图加特机场"链接806,用户能够访问在其上他能够管理斯图加4争才几场的网页。图9显示门户的网页900,用户通过该门户能够访问网页的子集。用户能够通过点击"我的快速链接"登记904访问门户的网页卯0,他从该门户能够访问网页的子集。当他选择"我的快速链接"登记904时,该登记通过不同的颜色与工具栏910分开设置,而"欢迎"登记902采用工具栏900的颜色。从网页700,除了"快速链接"小门户906之外的对应于用户特定的特殊网页的"快速链接转换"网页908对用户可访问。图IO描述门户的网页1000,用户从该门户能够访问他喜好的网页。当用户选择"快速链接"转换网页1002时,则确定包含用户的喜好网页的网页的子集1004。临时标签分配给网页的子集的每个网页,并且每个临时标签链接到"快速链接"转换网页1002。如果用户例如是斯图加特机场的管理员,则他将已经频繁地选择通过其他能够管理斯图加特机场的网页。因而,网页的子集1004包含用于"斯图加特机场"1006的临时标签,通过该临时标签用户能够访问在其上他能够管理斯图加特机场的网页。参考标记的列表<table>complextableseeoriginaldocumentpage13</column></row><table><table>complextableseeoriginaldocumentpage14</column></row><table><table>complextableseeoriginaldocumentpage15</column></row><table>权利要求1.一种重建Web内容(104)的方法,所述Web内容(104)包括多个网页(130、...、150),所述方法包括生成日志文件(122),所述日志文件(122)包括各网页的历史记录(124),所述各网页的历史记录(124)包括由用户从所述多个网页(130、...、150)选择的所有网页(130、...、144);为由所述用户选择的每个网页(130、...、144)确定访问频率(156),所述访问频率(156)利用所述各网页的历史记录(124)确定;确定网页的子集(162),所述网页的子集(162)包含最大数目(158)的网页,所述最大数目(158)是预定的,所述网页的子集(162)包含具有最大访问频率(156)的网页。2.如权利要求l所述的方法,其中所述多个网页(130.....150)以树形结构安排,其中所述树形结构源于起始网页(130),其中所述网页的子集(162)由用户从小门户(164)可访问,其中所述小门户(164)链接到所述起始网页(130)。3.如权利要求l所述的方法,其中所述多个网页(130....,50)以树形结构安排,其中所述树形结构源于起始网页(130),其中用户特定的特殊网页链接到所述起始网页(130),其中所述网页的子集(162)在当所述用户访问所述用户特定的特殊网页时的时间点确定,其中为包括在所述网页的子集(162)中的每个网页分配临时标签,其中每个临时标签链接到所述用户特定的特殊网页,.其中所述用户能够经由对应的临时标签访问网页的子集(162)。4.如权利要求l所述的方法,其中所述多个网页(130....,150)以树形结构安排,其中所述树形结构源于起始网页(130),其中转换被附加到所述起始网页(130),其中所述网页的子集(162)在当所述用户访问所述起始网页(130)时的时间点确定,其中通过所述转换确定网页的动态子模型,由此所述网页的子集(162)由所述用户从所述起始网页(130)可访问。5.如权利要求1至4的任一所述的方法,其中所述多个网页(130、...,150)包括在门户中。6.如权利要求5所述的方法,其中所述门户包括日志记录组件、解析组件和可视化组件,其中所述日志记录组件用于所述日志文件的生成,其中所述解析组件用于所述网页的子集的选择,并且其中所述可视化组件用于所述门户中的所述页面的子集的可视化。7.如权利要求6所述的方法,其中所述日志记录组件是Tivoli的站点分析工具,并且其中所述日志文件是组合NSCA的访问日志文件。8.如权利要求1至7的任一所述的方法,其中网页的访问频率由所述用9.如权利要求1至8的任一所述的方法,其中如果没有其它网页由用户从所述网页访问,则只为所述网页确定访问频率。10.—种计算机程序产品,包括用于执行根据前述权利要求的任一的方法的计算机可执行指令。11.一种用于重建Web内容(104)的数据处理系统,所述Web内容(104)包括多个网页(130.....150),所述数据处理系统包括用于生成日志文件(122)的装置,所述日志文件(122)包括各网页的历史记录(124),所述各网页的历史记录(124)包括由用户从所述多个网页(130.....150)选择的所有网页(130、…、144);用于为由所述用户选择的每个网页(130.....144)确定访问频率(156)的装置,所述访问频率(156)利用所述各网页的历史记录(124)确定;用于确定网页的子集(162)的装置,所述网页的子集(162)包含最大数目(158)的网页,所述最大数目(158)是预定的,所述网页的子集(162)包含具有最大访问频率(156)的网页。12.如权利要求11所述的数据处理系统,其中所述多个网页以树形结构安排,其中所述树形结构源于起始网页,其中所述数据处理系统提供用于由所述用户从小门户访问所述网页的子集的装置,其中所述小门户链接到所述起始网页。13.如权利要求11所述的数据处理系统,其中所述多个网页以树形结构安排,其中所述树形结构源于起始网页,其中用户特定的特殊网页链接到所述起始网页,其中所述数据处理系统提供用于在当所述用户访问所述用户特定的特殊网页时的时间点确定所述网页的子集的装置,其中所述数据处理方法包括用于为包括在所述网页的子集中的每个网页分配临时标签的装置,其中每个临时标签链接到所述用户特定的特殊网页,其中所述用户能够经由对应的临时标签访问网页的子集。14.如权利要求11所述的数据处理系统,其中所述多个网页(130.....150)以树形结构安排,其中所述树形结构源于起始网页(130),其中所述数据处理系统包括用于附加转换到所述起始网页(130)的装置、用于在当所述用户访问所述起始网页(130)时的时间点确定所述网页的子集(162)的装置、以及用于通过所述转换确定网页的动态子模型的装置,由此所述网页的子集(162)由所述用户从所述起始网页(130)可访问。15.如权利要求11至14的任一所述的数据处理系统,其中所述多个网页包括在门户中。16.如权利要求15所述的数据处理系统,其中所述门户包括日志记录组件、解析组件和可视化组件,其中所述日志记录组件用于所述日志文件的生成,其中所述解析组件用于所述网页的子集的选择,并且其中所述可视化组件用于所述门户中的所述页面的子集的可视化。17.如权利要求16所述的数据处理系统,其中所述日志记录组件是Tivoli的站点分析工具,并且其中所述日志文件是组合NSCA的访问日志文件。18.如权利要求11至17的任一所述的数据处理系统,其中网页的访问频率由所述用户访问所述网页的次数或由所述用户花在所述网页上的总时间量测量。19.如权利要求11至18的任一所述的凄t据处理系统,其中如果没有其它网页由用户从所述网页访问,则只为所述网页确定访问频率全文摘要提供一种用于重建包括多个网页的Web内容的方法和数据处理系统。该方法包括生成包括网页历史记录的日志文件的步骤。网页历史记录包括已经由用户从多个网页选择的所有网页。利用网页历史记录为每个选择的网页确定访问频率。确定包括已经由用户用最大访问频率访问的网页的网页子集。该子集限于最大数目的网页。多个网页通常以树形结构安排。该树形结构源于起始网页。包括在网页子集中的网页链接到直接链接到起始网页的小门户、或同样直接链接到起始网页的在当用户访问用户特定的特殊网页时的时间点确定的网页子集。根据本发明的方法特别有利,因为它允许用户直接访问离起始网页几次点击远的网页。因而为到达他的喜好网页他不必点击通过许多网页。文档编号G06F17/30GK101346720SQ200680048958公开日2009年1月14日申请日期2006年11月29日优先权日2005年12月21日发明者安德烈亚斯·诺尔兹,斯蒂芬·利希申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1