从电子文档组装、提取和配置内容的方法和装置的制作方法

文档序号:6569006阅读:251来源:国知局
专利名称:从电子文档组装、提取和配置内容的方法和装置的制作方法
技术领域
本发明的实施方式涉及数据处理领域,具体地说,涉及对来自电子 文档的内容进行组装、提取和配置的工具、方法和系统。
背景技术
尽管在过去的数十年取得了显著的进步,电子文档技术仍然具有很 多缺点,这些缺点阻止了用户完全意识到计算和相关技术的进步带来的 益处。
超文本标记语言或级联样式表(HTML/CSS)提供了将来自万维网 上任何地点的图像文件和视频文件等的内容组装成Web页面或帧的工 具。典型地由结合了与HTML/CSS相关的布局规则的Web浏览器来管理 Web页面和帧的显示。
使用服务器页面技术将Web上的很多动态内容组装到模版中。服务 器页面技术还允许来自各种源的内容片段的组装。
各种Web站点使用HTML/CSS提供的工具并通过诸如Javascript之
类的脚本语言,在内容项目集的指定位置中使可见性循环,或者在单个
内容项目的各个要素之间在指定位置中移动可视性。
非常有限的下载带宽和与移动设备相关的屏幕实际使用面积已经成
了创建WAP (无线接入协议)网络的动机。因为建立WAP站点是极需 要劳力的,和万维网相比,WAP网络非常小,相应地提供给用户的内容也较少。出于搜索的目的,与WAP网络相比,万维网是更加强大的源。 有限的下载带宽和有限的屏幕实际使用面积还推动了对移动设备上 呈现的HTML文件进行重新格式化的浏览器的创建。这种移动浏览器对 内容进行重新格式化,以减少水平滚动操作。它们可以向长的页面引入 页面分割。它们可以移除或替换对大文件的引用。它们可以替换字体。 它们还提供不同的用户界面。还通过服务器转码器提供类似的功能,所 述服务器转码器截取用户对HTML文件的请求。这种服务器转码器可应 用于对满足搜索标准的Web页面进行重新格式化。当前的移动浏览器和 服务器转码器基于有限范围的简单标准,至多提供初步的内容提取工具。 真正简单整合(RSS)源(feed)是Web页面要素(constituent),典 型地每个要素占用了总的Web页面区域的很小比例。RSS源包括与其他 Web站点的随时间变化的链接,具有与该链接相关的内容项目的简单描 述。软件工具("刮刀(scrapers)")可用于从Web页面自动地产生RSS 源。刮刀识别这些Web页面上的链接要素。
与前些日子的Web中可用的工具相比,与诸如XPath、 XQuery、 XPointer以及XLink之类的XML (扩展标记语言)相关的标准和推荐标 准为访问内容提供更强大的工具。然而,即使当内容源使用相同语言的 相同的语调,且即使该内容源具有十分相似的内容,该内容源在它们怎 样表现内容方面可能极大地不同。XPath、 XQuery和类似技术的有效使 用要求知道内容在特定源怎样表达的详细知识。使用这些技术,如果从 大量的潜在源抽取内容,可能需要不切实际的庞大的复杂代码。
某些Web站点从其他Web站点聚集内容。例如, 一个新闻聚集Web 站点包括来自各个Web新闻站点的随时间而变的标题。当链接到源站点 上的相关文章时,这些标题变成2倍大。这些Web站点上可用的动态内 容受限于固定的项目表,用户从所述项目表中选择他们希望观看的项目。 某些Web站点允许用户在极其受限的限定中个性化信息的组装和显 示。例如,用户可能能够选择他/她希望在他/她的个性化页面中包括哪些 RSS源。用户还能够指定RSS源到显示栏的分配、栏目本身的布置、诸 如字体和颜色之类的图形处理以及其他微小的显示变化。不管是独立地还是一起采用,这些技术不能完全支持对来自电子文 档的内容进行灵活的组装、提取和/或部署,其中内容项目本身(与内容 项目的链接相对)出现在用户的显示上,其中内容项目不需要直接对应于 任何现有的链接,其中内容项目不需要对应于页面或帧,且其中内容项
目可以从总体上包含公共Web的任何源提取。无论是独立地还是一起采 用,这些技术不能完全支持对灵活提取的内容聚集体(content aggregation^无论是独立地还是一起采用,这些技术不能完全支持用于 能够方便地观看大量变化内容的显示的内容组织,同时屏幕实际使用面 积的使用被基本最小化,同时带宽的使用被基本最小化,且同时诸如滚 动条之类的屏幕平移机制的使用被基本最小化。用于显示的内容的这种 灵活的组装、提取和组织对于移动设备是尤其需要的。无论是独立地还 是一起采用,这些技术不能提供用于指定需要从各种源组装、提取和/或 组织的预期内容的图形方法。无论是独立还是一起采用,这些技术不提 供用于在内容的直观人类感受与标记语言中的内容表达细节之间进行调 和的有效、高效且易于使用的工具。


图1例示了根据各个实施方式的本发明的内容组装、提取和部署方 法和装置的概览;
图2例示了显示Web内容的个性化聚集体的示例性显示页面;
图3例示了显示意在用于移动设备且表征了内容移动的Web内容的
个性化聚集体的示例性显示;
图4例示了根据各个实施方式的用于构建显示Web内容的个性化聚
集体的显示页面的过程;
图5例示了根据各个实施方式的适用于实施本发明的示例性计算机 系统。
具体实施例方式
本发明的说明性实施方式包括但不限于从电子文档提取并部署内容的方法和装置。将使用本领域技术人员通常釆用的术语描述说明性实施 方式的各个方面,以向本领域的其他人员传达他们工作的精髓。然而, 对于本领域技术人员来说,很明显,可以仅使用某一些所述方面来实践 可替换的实施方式。为解释目的,提出了特定的数字、材料和配置以提 供对说明性实施方式的彻底理解。然而,对于本领域技术人员而言,很 明显,备选实施例可以不使用特定细节来实施。在其他实例中,现有特 征被省略或简化以不混淆说明性实施方式。此外,各个操作将以最有助
于理解说明性实施方式的方式依次被描述成多个分离的操作;然而,说 明的顺序不应被解释为暗示着这些操作必须是依赖于次序的。具体而言, 这些操作不需要以表达的顺序进行。
短语"在一个实施方式中"被重复地使用。该短语通常并不是指同一 实施方式;然而,它可以是指同一实施方式。术语"包含"、"具有"以及"包 括"是同义词,除非上下文有其他规定。短语"A/B"意味着"A"或"B"。短 语"A禾口/或B"意思是"(A)、 (B)或(A和B)"。短语"A、 B和C其中 至少一个"表示"(A)、 (B)、 (C)、 (A禾卩B)、 (A和C)、 (B和C)或(A、 B和C)"。短语"(A) B"意思是"(B)或(AB),,,艮P, A是可选的。 本发明的实施方式允许从电子文档得出的内容聚集体的说明和服 务,其中文档内容可以是动态的,其中聚集体可以结合任何数目的内容 项目(包括由单个内容项目构成的聚集体,这种情况对应于退化,但仍 是可能的),其中聚集体可以用于任何数目的用户,且其中聚集体定义可 以是更加或更不持久的。内容聚集体的说明可以被结合到客户端应用程 序中、Web服务中、客户端Web浏览器插件、下载到客户Web浏览器的 脚本中、应用程序服务提供商中、内容管理系统中或Web浏览器本身中。 内容聚集体的服务可以被结合到客户端应用中、Web服务中、客户端Web 浏览器插件中、下载到客户Web浏览器的脚本中、应用服务提供商中、 内容管理系统中、或Web浏览器本身中。内容可以包括Web或非Web 内容。各个实施方式能够在一个或多个计算设备(客户端和/或服务器) 上实现;在每个计算环境中利用单线程或多线程来实现。各个实施方式 能够对内容和/或媒介工作信息(也称为注释)进行或不进行缓存来实现。内容聚集体可以与实物剪贴簿相比较, 一个重要差异是所包括的内 容项目可以随时间变化。内容的个性化聚集是用户所希望的,因为它们 为用户提供了对他们最感兴趣内容的优化的便利访问。用户可以直接付 款以许可支持内容个性化聚集的软件。或者用户可以直接付款以订阅支 持内容个性化聚集的服务。另外,内容的个性化聚集为广告业、尤其是定向广告业提供了可能性。支持内容(诸如Web内容)个性化聚集的服 务可以在所构建的显示上为广告预留空间,且可以根据用户简介发送广 告到特定的用户,所述用户简介完全或部分地基于用户已经选择包含在 他/她的内容个性化聚集中的内容。本发明的实施方式使得内容聚集体能够直接引入任何可访问电子资 源的内容,包括但不限于整个万维网。集合体的内容项目可以对应于任 何可访问文档的任何要素。引入的内容项目不需要对应于现存的链接。 内容项目本身(与内容项目的链接相对)可以出现在聚集体中。内容项目的说明可以包括搜索条件。本发明的实施方式使得内容聚集体能够显 示在显示呈现中,该显示呈现的布局可以适应于不同的程度。本发明的 实施方式提供了用于对内容聚合体进行显示呈现的灵活的内容移动方 法。本发明的实施方式提供了用于指定哪些内容项目要包括在内容聚合 体中以及用于指定这些内容项目将在显示呈现中怎样组织的图形方法。 本发明的实施方式支持对内容进行组织以用于使得能够方便地观看大量 的各种内容的显示,同时尽量少用屏幕实际使用面积,同时尽量少用下 载带宽,且同时尽量少用诸如滚动条之类的屏幕平移机制。本发明由此 使得能够将内容聚集体显示在移动和其他设备上而不浪费下载带宽和屏 幕实际使用面积。本发明的实施方式提供用于指定要提取的内容以及用 于指定对显示的内容进行组织的图形方法。本发明的实施方式釆用从源文档的目标布局得出的信息来构建对于 来自各个源的文档保持有效且对于时间保持有效的内容项目的说明。本发明的实施方式采用了卓越的分类法和描述修饰语来使得容易构建和维 护内容项目的说明。本发明的实施方式采用经验优化的方法以使得内容 说明可以在内容请求时被更有效处理的其他内容说明代替。本发明的实施方式釆用各种附加的内容请求时之前的优化并采用各种内容请求时优化。现在参考图1,其中示出了说明根据各个实施方式的内容组装、提 取和部署方法和装置的框图。如图所示,对于各实施方式,与本发明的 教导相结合,内容请求引擎111控制内容请求的处理和实行,该内容请 求可以涉及来自多种类型和/或源的多个电子文档的内容。用户和/或程序可以直接递交各个内容请求125到内容请求引擎111,或者内容请求125 可以与内容聚集体说明122相关联。可以从内容聚集体说明库121得到 内容聚集体说明122。内容请求引擎111可以在内容描述库120中查询有助于处理内容请 求或有助于处理内容请求的要素的信息。内容请求引擎111可以在类别 库110中査询定义项的定义以及有助于处理包含有定义项的内容请求的 其他信息。内容请求引擎111可以在一个或多个内容片段缓存119中査 询满足内容请求、或包含满足内容请求的要素、或被包含在满足内容请 求的内容项中的内容片段。内容请求引擎111可以在内容片段缓存119 中放置内容请求的中间结果。对于包括搜索表达式的内容请求,内容请求引擎111可以指示一个 或多个搜索引擎108识别来自各种源101的内容106,源106包括但不限 于应用程序102、 Web 103以及内容数据库和缓存104。搜索引擎108还 可以识别来自内容片段缓存119的内容。搜索引擎108表示包括但不限 于文档搜索引擎、字符串搜索引擎以及结构化内容搜索引擎的广泛类别 的应用程序。文档搜索引擎表示包括但不限于Web搜索引擎、内容管理 系统以及数据库管理系统的广泛类别的应用。当识别了包含所需内容的文档(如有必要使用搜索引擎108)时, 内容请求引擎111指示一个或多个文档检索引擎107来检索文档,或从 一个或多个片段缓存119中检索文档或其他内容片段。在某些情况下, 文档搜索和文档检索功能可以组合于单个引擎中。内容请求引擎111可以把检索到的文档和其他内容片段引导到一个 或多个文档解析器112,例如,文档解析器112以树或其他图表结构的形 式提供关于检索到的文档和内容片段的结构化信息。内容请求引擎111可以把解析后的文档和内容片段引导到一个或多个测量引擎113。在其他 的实施方式中,Web搜索引擎、内容片段缓存等可以返回经过预解析或 等同地准备的文档。对于这些实施方式,内容请求引擎111可以把预解 析后的文档和其他内容片段直接引导到一个或多个内容提取引擎123。内 容提取引擎123可以直接调用字符串搜索引擎108和测量引擎113,或者 可以通过内容请求引擎111的中介来访问这些引擎的功能,如图1所示。内容提取引擎123可以直接访问类别库110和内容描述库120,或者 可以通过内容请求引擎111的中介而访问类别库110和内容描述库120, 如图1所示。在某些添加了注释的情况下,内容提取引擎123遍历文档 和其他内容片段并返回这些文档和其他内容片段的子要素。测量引擎113 提供与预期布局以及检索到的文档和它们的要素的呈现相关的信息。可以在单个引擎中组合下述功能中的一个或多个文档检索引擎 107、搜索引擎108、文档解析器112、测量引擎113。在本发明的各个实施方式中,在某些添加来自内容请求125、类别 库110、内容描述库120、 一个或多个内容片段缓存119、 一个或多个搜 索引擎108、 一个或多个文档解析器112、 一个或多个测量引擎113中的 一个或多个的信息的情况下,内容请求引擎111把内容要素组装成内容 要素目录115。在本发明的各个实施方式中,内容要素目录被导向内容选择引擎 116,该内容选择引擎116与布局引擎117 —起工作以构建显示呈现118。 内容提取引擎123可以直接或通过内容请求引擎111的中介与内容选择 引擎116通信,如图l所示。同时为了便于理解,内容请求引擎lll、内容搜索引擎123执行的功 能例示为不同的组件,实际上,它们的功能可以被划分且分配到不同的 更小模块和/或任务。或者,它们可以组合于单个模块中。各种模块和/ 或任务可以执行为单线程,或在适当时执行为多线程。在各个实施方式 中,文档检索引擎107、搜索引擎108、内容请求引擎lll、文档解析器 112、测量引擎113、内容提取引擎123、内容选择引擎116和布局引擎 118的执行以及类别库110、内容请求引擎120和内容片段缓存119的存储可以在同一系统中,且在其他实施方式中,它们可以在不同的系统中,例如,110、 111、 112、 113、 114、 116、 117、 119、 120、 121和123在 一个服务器上,且内容检索引擎107和内容搜索引擎108在不同的服务 器上。对于后面的实施方式,内容请求引擎111和内容检索引擎107以 及搜索引擎108之间的通信可以依照大量通信协议中的任何一个,包括 但不限于HTTP和/或HTTPS,通过或不通过一个或多个通信模块/层(其 中HTTP二超文本传输协议,且HTTPS二安全超文本传输协议)。在各个实施方式中,内容聚集体说明库121、类别库110、内容描述 库120、内容片段缓存119、内容请求引擎111和内容提取引擎123与文 档检索引擎107、搜索引擎108、文档解析器112、测量引擎113、内容 选择引擎116和布局引擎117—起,可以实现为"更大"产品的一部分。例 如,在各个实施方式中,所有12个组件107、 108、 110、 111、 112、 113、 116、 117、 119、 120、 121和123可以实现为内容交付服务的一部分。在 另一些其他实施方式中,107、 108、 110、 111、 112、 113、 119、 120、 121 和123可以实现为内容交付服务的一部分,而内容选择引擎116和布局 引擎117可以是改进的Web浏览器或发布工具的一部分。在另一些其他 实施方式中,也可以有其他的实施配置。I.内容描述和内容请求本发明的实施方式可以包括早先描述的组件的所选组件之间的"内 容描述"和"内容请求"的交换,如下所述。为便于理解,内容描述可以被考虑成类比于名词短语。内容描述具 有类比于名词的"标题"。内容描述标题类比于普通名词。例如,如在 "HTML文件"或"XML文件"中,内容描述标题可以对应于标记文件的类 另廿,或者如在"HTML表格"中,内容描述标题可以对应于标记要素的简 单类别。如在"万维网"或"www.senata.gov"(引用特定的网站)中,内容 描述标题还可以对应于适当的名词。其他"适当的"内容描述标题可以对 应于特定的服务器,或对应于特定的服务器中的特定目录,或对应于特 定的数据库、或对应于内容管理系统的特定实例。如在"位于万维网上的HTML文件"或"匹配haydn的XML文件"中,内容描述可以包括关系从句的类似物。如在"包含匹配haydri的文本的 HTML表格"中,关系从句类似物可以包括嵌入的关系从句类似物。且如 在"包含匹配haydn的文本并被HTMLDIV包含的HTML表格"中,关系 从句类似物可以包括布尔连接词。如在"包含至少三个HTML段落的 HTML表格"中,关系从句类似物可以包括存在判断的、通用的以及数字 的量词。此后,内容请求中的关系从句类似物将被称为"资格 (qualification)"。资格可以基于内容源固有的信息。对于标记文档,固 有信息对应于文档解析树。此后,基于从解析器之外的引擎的应用程序 得到的信息的资格被称为"导出资格(derivedqualification)"。此后,资格的标题将被称为"关系"。 一些代表性的关系是"match"(如 在匹配某一搜索表达式中)、"contain"(如在包含某一子要素中)、 "haveURT (如在具有某一 URI作为地址中)、"haveArea"(如当处于某 些环境中时具有一定面积)、"haveHTMLTag"(如在具有某一 HTML标签 中)、"haveCSSWidth"(如具有某一宽度作为CSS宽度属性值)以及"greater than (大于)"。关系的某些对象是嵌入的内容描述的可能标题。而诸如 单位的量和诸如搜索表达式之类的其他对象则不是。通过包括内容描述 作为关系的对象,内容描述可以在任何的递归级别包含嵌入的内容描述。具有资格的内容描述可称为"合格描述(qualified description)"。具有 导出资格的内容描述可称为"导出描述(derived description)"。为了符号表 达的方便,合格描述将根据下面的方案表达[描述一标题(关系对象)], 其中内容描述被方括号划分,且其中资格由圆括号划分。"内容请求"是 使用一个或多个发送内容片段的指令进行注释的内容描述,其中这些指 令可以应用于内容描述本身和/或它的嵌入内容描述中的一个或多个。此 后,响应内容请求而发送相容内容片段的内容描述将由波形括号划分。 例如[HTMLTable (contain(text (match /2">^") })]表示包含匹酉己/2aydw 的文本的HTML表格,且还表示匹配被包含在HTML表格中的/zaj^w的 文本。contaz'wec^y作为 cowfcw'w的反,它等价于(text(containedBy [HTMLTable]&match ^Wm)}。这些表达中的波形括号表示发送指定文本 的请求。在(HTMLTable (contain(text(match Aa;^")}) }中,HTML表格和文本都被请求。"非限制性的"资格可以使用尖括号引入,如在{HTMLTable ( contain[text ( match /z";^ " ) ]&&<contain{text ( match 6occ/zen'm') }>) }中。该内容请求请求包含匹配haydn的文本的HTML 表格的发送。它包括发送被包含在这些HTML表格中的匹配boccherini 的文本的指令。资格化ontain(text (matchZ^cc/zen'm') }>不影响与内容描 述相关的HTML表格集。它是发送可以在属于该集中的HTML表格中找 到的匹配6occen'm'的任何文本的指令。在内容描述中,单个变量可以出现在右方括号或右波形括号的紧靠的 左边。例如,变量x出现在《HTMLTable(contain[text(match /za;^")x])}中。 变量还可以出现在不是内容描述的关系的对象的紧靠右边。假设在内容描 述中出现变量,该变量能够在内容描述中在初始出现的右边再次出现,作 为嵌入的内容描述的标题或关系的对象,如在(captionedlmage (containedBy [newsAticle x] &&renderAbove[advertisement(containedBy[x])])}, 它请求 新闻文章中的标题图像,包括当新闻文章被呈现时位于包含的新闻文章中的至少一个广告之上的标题图像。明确的量词可以被包括在左方括号 和左波形括号的紧靠左边,如在(captiondedlmage(containedBy [newsArticle x]&&renderAbove every[advertisement(containedBy[x])])}中。当描述没有量词时,存在暗示的存在判断量词。在某些情况下,可能必 须明确地不仅必须提供量词,还要提供限定的领域。在这种符号方案中, 为了屏蔽只包含变量的描述,并不需要在与引入变量的描述相关的明确 的或暗示的量词的语意范围中出现描述。然而,受限的变量必须在引入 变量的描述的右边出现。(在这方面符号与如every man that owns a donkey beats it的自然语句类似)。它直接提供内容描述、内容描述的各个要素以 及其范围规则的更正式的定义。本发明的实施方式可以将内容描述的可能标题组织成子类和超类的有向非循环图。这种组织可以记录在类别库iio中。为了使内容请求有效,它的每个资格必须有效。为容易理解,关系 可以考虑成类似于及物动词。资格的有效性依赖于资格所应用的描述标 题、资格的主要关系以及关系的对象。例如,(HTMLTable(link[300pixels]》无效。HTML表格可以包含能够链接但不链接自身的要素。像素测量不 是链接关系可能对象。内容请求的详细语法可以包括关系的可能主题和 对象的分类。在各个实施方式中,为了使内容请求多产,要求其所有分支都包含 于实际对应于内容源的描述标题。例如 (captionedlmage(containedBy[newsArticle(containedBy[page(locatedAt[ww w.senate.gov])])]》请求www.senate.gov站点的页面中的新闻文章中的标 题图像。语境可以提供内容请求的暗示基础。例如,可以理解,手头的 内容请求应用于特定的标记解析树,或另一 内容请求应用于整个万维网。类似于可以以询问定义数据库查看的方式,内容组可以以内容请求 的方式定义。类似于数据库查看可以被具体化的方式,内容组可以在或 多或少地持续的内容片段缓存119中缓存。本发明的实施方式递归地对 先前的内容请求的结果应用内容请求。类似于数据库查询结果可以根据 各个属性被排列或结构化的方式,本发明的实施方式根据各种属性排列 或构造内容组。本发明的实施方式还可以指定仅构造的内容组的一部分 将被发送给下游处理。例如,给定结果是一组图像的内容请求,可以指 定仅将具有最大面积的图像发送给用户。又例如,给定结果是来自一个 文档的一组产品描述的内容请求,当文档呈现为一页时,可以指定仅将 发送给用户的产品描述定位于最接近文档的左上角。又例如,假设结果 是一组文本的内容请求,可以指定仅将/7qyd"出现密度最高的文本发送 给用户。本发明的实施方式(例如,内容选择引擎116)可以在这些内容片段 被呈现给用户之前向内容片段应用删除。各实施方式使用内容请求来指 定要删除的要素。这些内容请求可以被称为"删除说明"。各实施方式使 用删除说明来补充内容请求。 一旦对应于内容请求的内容片段被提取, 对于这些内容片段其中每一个,对应于删除说明的子要素被删除。删除 说明可以应用于单个的内容请求,或可以作为内容表达的通用策略的部 分应用。在各个实施方式中,删除可以被记录为暂定的,使得图1所示 的内容选择引擎116和布局引擎117能够判定应用哪个暂定的删除。如段落0082—0089中所述,本发明的实施方式使用聚集调用来捕获 内容描述。本发明的备选实施方式使用推荐标准的XPath族(包括 XQuery、 XQuery Full Text、 XPoint以及XLink)的混合和扩展来捕获内 容描述。本发明的其他备选实施方式在诸如C或Java之类的语言中的程 序代码中获取内容描述。A.复杂树图案本发明的其他备选实施方式以其他语言或形式来捕获内容描述。例 如,本发明的实施方式用"复杂树图形(complex tree pattern)"来捕获内 容描述。"简单树图形(simple tree pattern)"是通过分支连接的节点的树, 具有零个或更多个被指定为通配符的终端节点,其中通配符节点可以对 应于任何数目的同胞子树。这里假设非通配符节点匹配条件可以比对标 签的等同性做简单的检査更加复杂。例如,节点匹配条件可能涉及指派 给节点属性的值。节点匹配条件可以是节点匹配条件的布尔组合。"复合 树图形(compound tree pattern)"是简单树图形或简单树图形的布尔组合。 "简单语境树图形(simple contextual tree pattern)"类似于简单树图形,除它的非通配符终端节点之一被指定为"文本"之外。"复合语境树图形 (compound contextual tree pattern),,是简单语境树图形或语境树图形的布 尔组合。"复杂树图形"是其第一成员是复合语境树图形且其第二成员是 复合树图形或复杂树图形的有序对。注意复杂树图形可以递归地构建。 复杂树图形的解释是第一成员标识语境而第二成员的实例将视为匹配(作 为定义,如果复杂树图形的第一成员为空,找寻第二成员不存在限制)。例如,考虑根被标为A的简单语境树图形,其中—所述根具有两个子 节点。根的左子节点具有标签B且被指定为语境。右子节点是通配符。 进一步考虑根被标为C而没有其他节点的简单树图形。包括这两个图形 的复杂树图形被任何树T匹配,使得T的根具有标签C且使得T的根是 节点N的后代,其中N具有标签B且N是具有标签A的节点的最左边 的子节点。又例如,考虑根被标为D的简单语境树图形,其中根具有两个子节 点。根的右子节点具有标签E且被指定为语境。左子节点是通配符。考虑复杂树图形,其第一成员是该语境树图形且其第二成员是前面段落的复杂树图形。该复杂树图形被任何树T匹配,使得T的根具有标签C且 使得T的根是节点N,的后代,其中N,具有标签B且&是具有标签A的 节点N2的最左边的子节点,其中N2是具有标签E的节点N3的后代,且 其中N3是具有标签D的节点的最右边的子节点。复杂树图形的定义动机是用于描述如下情况(用于HTML文档) 在最右边的TABLE(其为BODY的子节点)中,发现WIDTH属性被设置 为大于300像素的值的IMG标签。B.创建(authoring)本发明的实施方式可以根据迭代的两步程序从终端用户或信息技术 员或软件开发员引出内容描述和内容请求。第一步骤是产生用于内容描 述或内容请求的候选公式。第二步骤是将候选公式提交给用户(广义的 "用户")以获得反馈。在进行到反馈步骤之前,各个实施方式需要多个 候选公式。在各个实施方式中,得出的内容描述或内容请求可以与一个或多个 内容聚集体相关,该相关性记录在内容聚集体说明库121中。在各个实 施方式中,关于得出的内容描述或内容请求的详细信息可以被记录在内 容描述库120中。在各个实施方式中,内容聚集体说明库121和内容描 述库120可以包括与来自用户的内容描述和内容请求的导出没有联系的 记录。各个实施方式使用诸如在Web创建工具中发现的图形用户界面获取 内容描述或内容请求的第一候选公式。用户构建待公式化的内容描述的 图形特征。如果该内容描述是内容请求,则用户在该图形特征化中对请 求的片段进行标注。现有技术算法然后将用户的图形特征与标记关联起 来。另外的实施方式通过使用户把包含满足内容描述或内容请求的实例 的文档加载到呈现文档的浏览器或其他软件程序而获取第一候选定义。 记录识别文档源的信息。用户然后可以在呈现的实例上拖动鼠标。现有 技术算法将鼠标拖动的坐标与呈现的标记要素的坐标关联起来,且可能 考虑了诸如候选要素是否是具有稍大面积的要素的子要素的因素,假定最合适的要素。其他备选实施方式使用对过去用户的对话中获取的数据 执行归纳的现有技术算法获取第一候选定义。各个实施方式通过在对话中提出问题得到用户反馈。当在对话中提 出问题时,各个实施方式呈现候选要素并强调相关的子要素。可以向用 户提出的问题的例子包括但不限于下面该要素必须存在,该要素必须 较高/较短,该要素必须具有较宽/较窄的边界,该文本必须包含某一子串。 备选实施方式使用诸如在Web创建工具中发现的图形用户界面呈现候选 要素,从而使用根据现有技术的算法在标记中捕获的改变的要素,用户能 够对这些候选做出改变。各个实施方式根据现有技术的学习和归纳算法从用户反馈产生候选 定义。备选实施方式通过策略性地改变原先的候选产生候选定义。该改 变的例子包括但不限于插入子要素、删除子要素、在标记树中移动子要 素、在布局中重新定位子要素、改变子要素的大小、改变与子要素相关 的图形处理、改变文本。其他备选实施方式将推导算法与策略性地改变 原候选定义的算法结合起来。II来自布局结构的信息本发明的实施方式可以使用从布局结构得出的信息来补充与内容相 关的解析树。具体而言,当前信息的实施方式使用测量信息来对解析树的节点进行注释。图1中的测量引擎113是提供测量信息的模块。例如, Web浏览器布局模块是适于动态HTML (DHTML)文件中包含的内容的 测量引擎。又例如,附加了 XSLT处理模块和XSLT样式表的Web浏览 器布周模块可以包括适于XML文档类的测量引擎。测量信息包括但不限于宽度和高度、水平和垂直位置、字符中的长 度(对于文本)以及引用文件的大小(对于图像、视频等)。某些测量信 息已经可用。文本长度在树本身中是显现的。宽度和高度可以按像素或 其他单位指定为节点属性。文件的大小可以通过下载文件获得。然而, 其他潜在的有用测量信息需要并不简单的计算。例如,对于HTML文件, 浏览器呈现引擎计算要素大小和位置。尽管浏览器呈现引擎大多引入了 相同的标准,它们在某些情况下得出不同的测量结果。且某些测量结果依赖于客户端设备的特性(例如屏幕分辨率、窗口宽度、窗口高度以及浏 览器文本尺寸设置)。当要素宽度被(可能是间接地)指定为窗口宽度的 百分比时,这些依赖性可能是明显的。脚本可以影响要素测量。在各个实施方式中,如果浏览器呈现引擎的相关模块可用,这些模块在需要时可以被调用。缺少完全引入DHTM呈现标准的引擎时,轻量 模块能够评估要素测量。例如,可以基于字体和文本长度粗略地估算文 本组件的面积。最有用于内容提取目的的测量信息往往涉及低级的要素。 在很大程度上,当客户显示参数改变时,这些要素的测量是不变的,或 变化相对很少。另外,本发明的实施方式可以在解析树中插入"虚拟要素"。某些文 档包括在文档的解析结构中远离但是当呈现文档时在窗口 (或打印页面) 中彼此靠近的要素。例如,HTML Web页面可以在表格单元包含文章文 本,而与该文章相关的标题图像在属于不同表格的表格单元中,且这两 个表格在体要素之下没有共同的祖先,这两个表格中每一个都具有插入 在它和体要素之间的多个级别的祖先。然而在本例中,标题图像呈现在 文章文本的紧靠右边。本发明的实施方式安置虚拟要素,该虚拟要素包 含作为子要素的解析树的要素。对于上述文章示例,包括文章文本和标 题图像的文章要素被放置。在解析树的根下,或其他地方,本发明的实 施方式将虚拟要素插入到解析树中。虛拟要素的子要素然后在内容树中 从它们的原始位置删除。在备选实施方式中,虚拟要素的紧靠的子要素 在解析树中保留它们的原始父节点。在这些实施方式中,虚拟要素被插 入到变成(如果它还不是)不是树的有向非循环图中,某些节点具有多 个父节点。指定标记要素且包括基于来自布局结构的信息的资格的内容描述是 导出描述的基本示例。在不存在不使用来自布局结构的信息的简明或鲁 棒的内容描述的某些情况下,来自布局结构的信息的使用允许相关源不 变和时间不变的简明的内容描述。例如,创建布局的专业人员和一般用 户容易意识到标题图像是标题图像,但是HMTL不包括用于标题图像的 标签。而是,除了用于图像本身的IMG标签,Web设计者使用诸如TALBE、 DIV和SPAN之类的HTML标签、对应于标题的文本,以及可 能的对应于图像属权的其他文本或其他补充信息以各种方式创建标题图 像的效果。服务器页面技术使得Web站点容易采用标题图像的模板。一 旦知道了模板,识别站点的标题图像是容易的。然而,即使在一个站点 中,标题图像可以对应于不同的模板。模板可以对应于非常复杂的标记 树。模板会受到未宣告的修改。简单模板的实例可以会有变化,诸如子 要素的插入和删除。此外,在某些Web页面上,标题图像呈现出不对应 于文档对象模型(DOM)树中的单个节点。例如,具有三行和三列的表 格可用于呈现两个标题图像,图像位于左上方和右上方的单元中、标题 位于左下方和右下方的单元中且中间行和中间列用作间隔。这两个标题 图像分别对应于左和右列,它们在HTML源中不作为要素呈现。意在从 多个Web站点(包括原先未遇到的Web站点)抽取标题图像的内容请求 在不包括基于布局的说明时实际上不可能被公式化。标题图像能够使用布局说明相对直接地特征化。标题图像可以基本 考虑为布局类别。立体式标题图像包括图像和标题。标题图像还可以包 括一个或可能更多的附加短文本要素,例如,图像属权。用于Web页面 的"理想标题图像,,可以被定义为包括(1)至少100像素宽且至少100像 素高的图像;(2)文本,可能包括诸如HTML FONT和P之类的较高的 节点,以及诸如HTMLBR之类的附加节点,包括不多于200个字符的文 本,且它的测量面积不大于图像的测量面积的一半;(3)可选地,附加 文本,其包括不大于100个字符的文本,它的测量面积不大于图像的测 量面积的八分之一。"理想标题图像"的定义可以进一步指图像的底部边 缘位于文本的顶部边缘之上,且文本的左边缘不位于图像的左边缘的左 边,且文本的右边缘不位于图像的右边缘的右边。当然可以对这种定义 进行细化。该定义中的大多数细节("100个像素"、"200个字符"等)可 以调整。该定义可以扩展到包括标题位于图像之上的标题图像等。III显著类别(distinguished category)和描述修饰语(description modifier)本发明的实施方式可以包掛'显著类另lj"和"描述修饰语"的使用。在各个实施方式中,关于显著类别和描述修饰语的信息被记录在类别库110中。为容易理解,显著类别可以类比于编程语言中的宏。内容描述可以 指定为显著类别并被赋予名称。显著类别的名称本身可以是内容描述的标题。设category,是显著类别的名称。当处理包含categoryi的内容描述 desc2时,categoryj皮显著类别指定的内容描述desd代替,使得desCl变 成desc2中的嵌套的内容描述。如果desc2被公式化,使得资格con山应用 于category"且desc!被定义为category2 (cond2),贝廿desc2中的categoryi (cond。被category2 (cond2&& con山)代替。显著类别可以根据其他显 著类别递归地定义。此后,显著类别的名称将简单地称为"显著类别"。 从段落0041中窄的语意定义扩展"合格描述"的用途,指定合格描述的显 著类别本身是合格描述的示例。指定导出描述的显著类别本身是导出描 述的示例。例如,显著类别poster可以被定义为HTML图像,它在1280像素 宽的窗口中呈现时宽度为600像素至800像素之间且高度至少是宽度的 1.5倍。为容易理解,描述修饰语也可以类比于编程语言中的宏。但是在显 著类别对应于内容描述且类比于普通名词时,描述修饰语对应于资格且 类比于形容词。依赖于它修饰的哪个公共类别,描述修饰语可以对应于 不同的资格。例如,描述修饰语large可以被定义为应用于Web页面或 HTML表格行,使得大的Web页面是其下载(包括引用的文件)涉及大 于1兆字节的页面,且使得大的表格行是包括多于10个子单元的行。显著类别和描述修饰语可以分别对应于任何复杂内容描述和任何复 杂资格。例如,沿着段落0064中的理想标题图像的轮廓定义的线, captionedlmage可以被定义为显著类别。在本发明的各个实施方式中,用 于显著类别的定义内容描述以及用于描述修饰语的定义资格可以结合源 说明、标记串说明、标记树说明、以及从布局结构得出的说明。在本发 明的实施方式中,定义内容描述以及用于描述修饰语的定义资格可以结 合量词和比较。例如,"expositorytext(解释文本)"可以被定义为段落的序 歹U,其中段落的数目超过指定的最小值,且其中包含的词的总数超过指定的最小值。又例如,"image-centric constituent(图像中心要素)"可以被定 义为包含图像的要素,所述图像的呈现区域超过了要素的呈现区域的指 定的最小百分比。本发明的实施方式允许显著类别的定义和被描述修饰语修饰的内容 描述标题的定义,以包括删除说明。段落0047讨论了删除说明。本发明的实施方式使得标记要素能够一定程度地与显著类别一致, 或一定程度地与描述修饰语修饰的内容描述标题一致。在某些实施方式 中,否定范围之外的显著类别和描述修饰语的定义中的资格被赋值在0 一l之间。缺省地,这种资格被赋予O的值。基于给出的内容描述的形式,用 于内容描述的较高要素的值被计算,显著类别和描述修饰语的扩展被代 替一没有标准形式被计算。否定范围的非零赋值被忽略。分离范围中非 零赋值被忽略。如果关联本身具有非零赋值,位于其范围内的非零赋值 被忽略。这些忽略情况之外,如果任何资格失效,对于文档中的内容要 素,资格的值被包括在一个乘积中。该乘积对应于内容要素匹配内容描 述的程度。本发明的实施方式在内容描述中类似地更一般化地注释了资 格,使得标记要素可以在一定程度上与对应于显著类别或被描述修饰语 修饰的内容描述标题的内容描述相一致。本发明的实施方式将显著类别 组织成基于子类别关系的有向非循环图。子类别关系可以是逻辑结果, 或categoryl和category2之间的子类别可以确保基于部署内容的领域中 的期望规定,categoryl的成员的每个内容要素也是category2的成员。类 似地,描述修饰语之中的牵连关系(例如huge暗示着big)可以基于逻 辑或外延的背景确立。本发明的实施方式可以在类别库110中记录显著 类别、它们的定义和子类别关系、它们的定义的描述修饰语和牵连关系。 另外,本发明的实施方式在类别库110中记录显著类别的子情况的 定义和描述修饰语的子情况的定义。例如,某一 Web站点上的所有标题 图像可以从简单HTML模板得出且因此对应于简单树图形。而且,检査 该图形比检查标题图像的一般定义更加有效。因此内容库记录了标题图 像的较简单的定义并注释了它被应用于来自该Web站点的文档。段落00125 — 00129讨论了这种子情况。本发明的实施方式根据子情况关系将 子情况组织为有向非循环图。
除了显著类别之中的子类别关系以及描述修饰语之中的牵连关系, 本发明的实施方式使用类别库110记录包含关系。例如,captionedlmage 类别的实例可以包含image类别的实例、caption类别的实例以及 imageCredit类别的实例。本发明的实施方式在类别库中记录哪个类别可 以对应于独立内容项目的指示。各个实施方式进一步在内容库中记录显 著类别实例怎样被组装和/或在显示呈现中布局,且对于描述修饰语修饰 的描述标题的实例,情况类似。在各个实施方式中,类别库中组装和布 局指令的实例是间接的。例如,这些记录可以采用査询表中索引的形式。 在各个实施方式中,组装和布局指令可以包括模版。在各个实施方式中, 组装和布局指令可以采用诸如C和Java这类的语言中的程序代码的形 式。当然,组装和布局指令可以引入源标记中不存在的要素。包含关系 的记录在如段落0063中讨论的示例的显著类别的实例不对应于源标记的 任何要素的情况下可能尤其有用。
本发明的实施方式根据现有技术的方法组织类别库110以用于快速 存取。在各个实施方式中,类别库110可以包括子库的组织。
A.创建
显著类别和描述修饰语能够帮助在内容部署细节和人类对于内容的 察觉之间进行调解。本发明的实施方式根据段落0054—0058中描述的迭 代的两步程序从终端用户或信息技术员或软件开发员引入了显著类别和 描述修饰语的定义。在描述修饰语的情况中,这两步程序引入了被描述 修饰语修饰的内容描述标题的定义。
IV内容聚集体的显示呈现
本发明的实施方式(例如,内容选择引擎116和/或布局引擎117) 可以呈现所提取的内容以进行显示。实施方式根据呈现的内容的预定程 度改变且根据显示呈现的布局的预定程度改变。考虑呈现的内容的确定, 在一个极端,用户可以组成ad hoc内容请求且立即提交它们以便处理。 例如,用户可以从报纸A请求标题图像,使得标题匹配pw^fe"f。在相反的极端,内容请求在这些内容请求被处理之前被提前组成且固定。当 内容请求被提前固定且请求的内容项目随时间改变(即,当内容源是动 态的)时,显示呈现将根据内容请求何时被处理而改变。无论内容请求 被预定与否,用户(包括信息技术员和开发员以及最终用户的广义"用
户")可以使用如段落0048所讨论的程序化或非程序化的语言来组成内 容请求,或他们可以使用如段落0054—0058中所讨论的图形用户界面。 在内容预定的两个极端之间,用户可以从内容请求的库选择内容请求。 而且在内容预定的极端之间,可以使用不完整或可扩展的内容请求且使 得他们能够完成或扩展这些内容请求的接口呈现给用户。 一组未完成或 可扩展的内容请求可以在其整体使用中固定,或可以包括用户可以进行 选择的库。
考虑布局的确定,在一个极端,显示的内容项目保持与它们的源文 档中的内容项目相关的布局。在一个相反的极端,显示的内容项目被强 迫成与目标显示呈现相关一致的严格的布局,内容项目的要素在必要时 被删除以确保与这些严格的布局的兼容性。在另一相反极端,显示的内 容可以为自适应布局,它允许内容项目与目标在于各种显示介质的各种 其他的内容项目相组合,以具有广泛变化的布局。布局的某些方面可以 做得一致,而布局的其他方面可以保持源文档布局,且布局的某些方面 可以做成自适应的行为。例如,宽度和/或高度和/或纵横比可以做得一致, 或者可以被限制为落在指定范围内。对于另一实例,字体和/或背景颜色 和/或其他图形处理类型可以做得一致。除了各个内容项目中的布局,如 果显示呈现包含多于一个内容项目,布局呈现的布局涉及确定显示呈现 中内容项目的相对布局,并涉及确定各个内容项目外部的元件的图形处 理。在一个极端,内容请求可以与将用于动态内容的槽在服务器页面中 定位的相同方式定位在标记中。段落0082—0089讨论了这种实施方式。 然后当对应于内容请求的内容项目被检索时,对应于内容项目的标记简 单地代替了作标记的内容请求,且标记相继被呈现在Web浏览器或呈现 标记的一些其他软件程序中。在一个相反的极端,内容项目的大小和相 对位置以及各个内容项目外的元件的大小和相对位置以及各个内容项目外的元件的图形处理可以是对内容项目的组合敏感和/或对显示参数敏感
的自适应布局。通过囊括内容选择引擎116和布局引擎117,且通过内容 要素目录115的使用,段落0026—0036中描述的结构支持了段落0077 一0080中描述的备选的全部范围。这些备选其中某些可以由省略段落 0026—0036中描述的一个或多个引擎的结构的版本支持。
A.聚集页面(aggregate page)和聚集调用(aggregation call)
本发明的实施方式使用"聚集页面"和"聚集调用"来支持预定布局 (以在呈现标记的Web浏览器和其他软件程序中呈现为模)中预定的内 容(以Web和其他内容的动态性质为模)的呈现。备选实施方式使用XPath 族的推荐标准的混合和扩展来支持预定布局中预定内容的呈现。例如, 链接句法可以延伸,使得链接能够完全引入递归XQueries。
与内容的链接相对,"聚集页面"显示来自多个源的实际内容。它包 括一个或多个聚集调用。
"聚集调用"包括由内容源(CS)、复杂树图形(TP)以及过程(PR) 组成的三角(CS、 TP、 PR)。根据本发明的备选实施方式,"聚集调用" 包括由内容源(CS)、路径表达(PE)以及过程(PR)组成的三角(CS、 PE、 PR)。内容源是对包含层级结构的文档的文件(诸如HTML文件或 XML文件)的指定(诸如URI)。复杂树图形将对应于内容源中的零个 或更多的子树。类似地,路径表达将对应于内容源中的零个或多个子树。 过程将返回一个或多个树。过程可以包括它的子过程之间进一步的聚集 调用。注意聚集调用((CS, TP, PR)与(CS,PE,PR))的两种定义基本 等价。将在下面的讨论中使用复杂树图形的定义,但是可以全部替换成 使用路径表达的定义。在可以称为合适的情况下,与聚集调用(CS, TP, PR)相关的过程将返回包括来自匹配TP的CS的文档的子树的材料、或 返回包括经由PR中的聚集调用到达的子树的材料的树。在被称为简单的 情况下,PR返回匹配TP的CS的文档的单个子树。
缺省地,PR应用于CS相关文档树DC的至多一个要素。因而,如 果DC包含匹配TP的多个子树,实际上这些子树中的一个被随机地选择 为PR的输入。所选的子树可以是DC路径中遇到的第一匹配子树。在一般的情况下,PR能够应用于匹配子树的整个集合。可以向聚集调用提供
第四个成员以表示PR是否应用于单个匹配子树(如在(CS, TP, PR, 十single)中),或匹配子树集合(如在(CS、 TP、 PR, -single)中)。为 了简化下面的说明,假设PR应用于匹配TP的单个子树。因而将讨论包 括三角而不是四角的聚集调用。
在聚集页面上,聚集调用对应于页面相关文档的终端节点。与聚集 页面上的聚集调用相关的过程返回单个树。当页面被处理以用于显示时, 对于每个聚集调用(CS、 TP、 PR),对应于聚集调用的节点被PR返回的
子树代替。
如果聚集调用Ad,..., ACn共享了相同的内容源CS,则几乎肯定的 是下载一次内容源是合理的而不是n次。用于CS的文档DC的优化树搜 索策略将依赖于n、 DC的属性以及与AQ,...ACn相关的复杂树图形 TPp…TP。的属性。段落00137描述了一种代表性的树搜索策略。在各 个实施方式中,线程技术能够应用于聚集调用的执行。例如,可以在不 同的线程中搜索不同的下载页面。
又例如,可以在不同的线程中执行与不同聚集调用相关的过程。
B.内容项目、槽(slot)以及内容移动
本发明的实施方式将内容项目与槽关联起来以显示预定内容的集 合,并在槽中与槽之间移动内容。"槽"可以是标记中的可替换的要素, 或可以通过布局来定义为要填充的区域或定义为要填充的容器。槽可以 递归地构造成树或有向非循环图,使得较低的槽是较高槽的要素。
预定内容还可以递归地构造为树或有向非循环图。可以建立内容组 织树(或有向非循环图)使得节点近似反映了句法的相似性或介质的相 似性或源的相似性。或者内容组织树(或有向非循环图)的布置可以完 全是任意的。考虑下面的内容组织树的示例包括对应于新闻内容的节 点^的树。在其他节点中,Ni直接支配对应于新闻评论的节点Nw和对 应于新闻视频剪辑的节点N口。在其他节点中,Nu直接支配对应于评论 栏目的节点Ni,u。在其他节点中,直接支配对应于在线报纸A的评 论栏目的节点Nw,u。 Nu>1还直接支配对应于在线报纸B的评论栏目的节点N"w。从报纸A得出的视频内容和从报纸B得出的视频内容被定
位于节点N^下。在该示例中,与内容如何寻源无关地组织内容树。来
自不相关源的内容项目作为同胞节点出现在树中。来自紧密相关源的内
容项目在树的周围分散。
要强调的是,内容组织树不同于对应于解析标记的树。内容组织树
的终端节点对应于内容项目。如果作为可解析的标记提供内容项目,则 内容项目具有相关的标记树。
递归内容组织可以是或多或少地动态的。例如,如果内容组织树支 持用户浏览器会话,则允许会话过程中用户的行为向内容组织树添加
节点、从内容组织树删除节点以及在内容组织树中移动节点。作为相反 的极端,内容组织树可能对于应用、对于所有的用户且对于所有的用户 会话是固定的。
内容可以缓存在客户端和服务器上。在各个实施方式中,主服务器 从各种源收集内容且然后发送该内容到客户端。主服务器可以与按照客 户请求的预期缓存内容的代理服务器系统相关。
如果与较高或较低内容组织节点相关的内容一致地与单个较高或较 低槽相关,可以提高可用性。如果内容在习惯的位置,用户能够更容易 找到它。本发明的实施方式将较高或较低内容组织节点与较高或较低槽 相关联。这种关联可以保留或可以不保留内容组织节点和槽的相对等级 水平。例如,终端槽可以与终端前的内容组织节点相关,终端前的槽可 以与终端前之前的内容组织节点的节点相关等。内容组织节点和槽之间 的关联可以由用户或由代表用户或用户组的信息技术员通过合适的图形 界面建立,或这种关联可以通过产品开发商确立。本发明的实施方式可
以在内容聚集说明库121中记录内容组织结构、槽组织结构以及内容组
织节点和槽组织节点之间的关联。内容组织结构、槽组织结构以及内容组 织节点和槽组织节点之间的关联可以但并不需要特定于内容聚集的实例。 内容项目具有内部结构。本发明的实施方式将布局规则指派给与槽 相关的内容,且将内容移动方法指派给与槽相关的内容。例如,英文的 文本以行的形式从左到右从上到下布置。特定文本的各个部分可以具有各种不同的相关字体。文本可以以一定数目的列布置。标准印刷规则可 应用于文本布局,使得避免出现寡妇节点和孤儿节点。如果仅文本的部 分在显示内可见,可以提供用于导航文本的各个方法。滚动条和其他平 移机制可以提供文本中的前向或后向增量前进,其中增量以显示宽度和/ 或高度来定义。可以提供图书页面的类似物,使得用户能够一页一页的 前进或后退。可以提供内容的表格、索引、搜索访问或甚至随机访问。 文本可以呈现在页面中,可以一个词一个词地前进或后退,和/或可以通 过全部文本的比例前进或后退。内容增量进行的向前和向后的前进可以 被称为"内容滚动"。
假设终端之前内容组织节点N与终端槽相关,本发明的实施方式有 效地从N支配的内容项目构建虚拟内容项目。该虚拟内容项目可以具有 内部结构,可以与布局规则相关,且可以与内容移动方法相关。例如, 假设内容组织节点N支配了一组标题图像。该组在其他的可能性中可以 被组织为序列、或组织为序列的序列。如果该组被组织为序列的序列, 它可以与调用内部序列的布局规则相关以对应于表格的行,内部序列中 的标题图像依次从左到右分配给单元。外部序列对应于表格行从上到下 的顺序。在该例中的导航通过标准滚动条实现。或者,如果将该组标题 图像组织为序列,它可以与允许一次显示一个标题图像的布局规则全面 相关。该示例中的内容移动通过按钮实现,该按钮提供了在序列中前进 和后退的动作。
当内容项目被序列化且与序列中的前向或后向内容移动相关,该序 列可以设置或可以不设置为循环,使得序列的第一成员跟随最后成员, 且使得最后成员在第一成员之前。布局规则可以或可以不规定给定的内 容项目能够一次在不多于一个的显示区域呈现。
显示匹配要求可以自顶向下和/或自底向上地过滤,限制在槽中一次 可见的内容的数量。涉及用户信息过载的要求或对审美的考虑也可以限 制在槽中一次可见的内容的数量。如果将比能够一次可见的内容更多的 内容分配给较高或较低的槽,则该槽被"装填过度"。为了使用户能够最 终看见分配给装填过度的槽的所有内容,它们必须使用与该槽相关的内容移动方法。
本发明的实施方式以自底向上的方式在内容组织树(或有向非循环 图)上递归地操作,以从源内容项目或较低的虚拟内容项目构建虚拟内 容项目。从较低的虚拟内容项目构建的较高的虚拟内容项目可以是以与 从源内容项目构建虚拟内容项目相同的方式分配的内容结构。以与从源 内容项目构建的虚拟内容项目配对的槽相同的方式,与较高虚拟内容项 目配对的槽可以与布局规则和内容移动方法相关。虚拟内容项目的布局 可以考虑它的要素内容项目的布局,或可以不考虑其要素内容项目的布 局。用于虚拟内容项目的布局说明可以包括寡妇节点和孤儿节点的类似 物一 约定虚拟内容项目的哪个要素可以以哪种方式不束缚于布局。与较 高虚拟内容项目相关的内容移动方法可以考虑或可以不考虑较低内容项 目的内容移动方法。
作为递归内容组织和源及虚拟内容项目对槽的递归分配的示例,考
虑新闻注释的虚拟内容项目C。 C被分配给包含终端较低槽S^ S2和s3 的较高槽S。从被组织为有向非循环图的源内容项目得出C。该图具有9 个终端前节点,分别对应于报纸A的评论栏目(CA1)、报纸的社论漫画
(Ca2)、给报纸A的编辑的信(CA3)、报纸B的评论栏目(CB1)、报纸 B的社论漫画(CB2)、给报纸B的编辑的信(CB3)、报纸C的评论栏目
(CC1)、报纸C的社论漫画(CC2)、给报纸C的编辑的信(CC3)。所有 的内容是动态的,从每日在线报纸的当前编辑得出。内容组织图表中的9 个终端前节点中的每一个具有两个父节点。CA1, Cm和CA3是对应于报 纸A的新闻评论的CA的子节点;CB1, Cb2和cb3是对应于报纸B的社论 漫画CB的子节点;CC1, Cc2和Cc3是对应于给报纸C的编辑的信的CC
的子节点。CA1, Cm和Cd是对应于报纸A的评论栏目的d的子节点;
Ca2, CB2和Cc2是对应于社论漫画的C2的子节点;CA3, CB3和CC3是对 应于给编辑的信的C3的子节点。CA、 CB、 CC、 d、 C2和C3是C的子节
点。对于内容组织图表中的终端前节点中的每一个节点,将分配给节点
的源内容项目组织为序列。因而,分配给c^的评论栏目被组织为序列等
等。槽Si与d相关,对应于评论栏目。槽S2与C2相关,对应于社论漫画。槽S3与Q相关,对应于给编辑的信。可以限制内容移动,使得较高 的槽S —次仅显示一份报纸的内容,但是用于该示例目的,假设并不是 这种情况。然而,限制用于S^ S2和S3中的每一个的内容移动,使得这 些槽其中每一个一次只显示一份报纸的内容。而且,Si能够显示一个评论栏目的全部或一部分,但是不能显示多于一个评论栏目的部分。&必 须只全面显示一个社论漫画。S3能够显示多于一封的给编辑的信的全部 或一部分,信件根据指派的顺序一封一封地显示。S,和S3中的布局考虑安装要求,且还考虑寡妇节点和孤儿节点的策略。S,设置有下面的9个 内容移动控制(la)将当前评论栏目向前移动到内容的下一完全分配 (即,页面在当前评论栏目中前进),(lb)将当前评论栏目向后移动到 内容的前一个完全分配,(lc)将当前评论栏目向前前进一个段落,(ld) 将当前评论栏目向后前进一个段落,(le)将当前评论栏目向前前进一个 单词,(lf)将当前评论栏目向后前进一个单词,(lg)移动到序列中的下 一评论栏目,(lh)移动到序列中的前一评论栏目,(li)从报纸A的评 论栏目移动到报纸B的评论栏目或从报纸B的评论栏目移动到报纸C的 评论栏目,或从报纸C的评论栏目移动到报纸A的评论栏目。(从可用 性角度,用于一个槽的9种内容移动控制可能过多,本示例示出多种有代表性的控制)。S2和S3设置有与它们的相应的布局策略一致的类似的控制。另外,S设置有使S专用于报纸A的内容、或专用于报纸B的内容、 或专用于报纸C的内容的内容移动控制。如果这种控制用于使S专用于 报纸A的内容,则在Si中出现报纸A的评论栏目,在S2中出现报纸A 的社论漫画,且在S3中出现给报纸A的编辑的信。对于S的这种控制从 Ca依次移幼到Cb到Cc且然后返回到Ca,或如果S当前不专用于CA、 Cb或Cc中的任何一个,这种控制将使S专用于CA。根据本发明的实施方式,内容槽中的内容移动可以串列地进行。例 如,扩展段落00101—00102中的示例,S可以具有内容移动控制,该内容移动控制向前前进到每个Sh S2和S3中的内容的下一完全分配,使得根据安装要求且根据段落0096—0097中描述的布局显示策略确定Si和S3的完全分配,并使得S2的内容的完全分配整体作为单个社论漫画。串列内容移动可以涉及任何数目的(内容项目,槽)对,其中内容项目可 以是源内容项目或虚拟内容项目,且其中槽可以在槽组织结构中的相同 或不同的级别。本发明的实施方式使得能够使用灵活的槽结构创建内容聚集,从而 可以基于用户行为或其他行为在请求时或之后确定/选择用于呈现聚集内 容的精确槽结构。在各个实施方式中,槽可以被添加或删除,且将槽组 织成树或有向非循环图的组织可以改变。在各个实施方式中,槽可以是 激活的或未激活的,且父子关系在槽的树或有向非循环图中可以是激活 或未激活的。在各个实施方式中,诸如位置和尺寸之类的槽的属性可以 改变。在各个实施方式中,触发槽组织和槽属性的改变的用户行为可以 与导航内容的用户行为在时间上混合。在各个实施方式中,用于改变槽 的用户控制可以与用于内容移动的用户控制在用户接口上混合。本发明 的实施方式使得内容与槽的关联能够基于用户行为或其他行为改变。在 各个实施方式中,触发内容一槽关系的改变的用户行为可以与导航内容 的用户行为在时间上混合。在各个实施方式中,用于内容一槽关系改变 的用户控制可以与用于内容移动的用户控制在用户接口上混合。因而本 发明的实施方式提供了内容移动与创建相混合的用户接口。例如,假设希望在移动设备上显示内容聚集体,同时最小化下载和 最小化滚动。除极少数外几乎所有的槽都是未激活的。只下载用户内容 移动所涉及到的内容。对于能够分割成诸如文本之类的独立可显示的块的大内容项目,根据匹配和其他要求显示块。提供如段落0090—00104 中描述的允许用户移动内容的控制。还提供允许用户激活和未激活槽的 控制。如果用户希望显示分配给当前未激活的槽S的内容,他或她能够 使当前激活的槽解除激活,且激活S并取代它的位置。使用段落0090—00105中描述的机制,本发明的实施方式使得Web 站点发布者/提供者能够设置一个或多个站点版本作为包括内容移动控制 的内容聚集,其中内容移动控制可以与创建控制相混合。用于控制的服 务可以通过客户端应用程序、通过Web服务、通过客户端Web浏览器插 件、通过下载到客户端Web浏览器的脚本、通过应用服务提供者、通过内容管理系统、或通过Web浏览器本身提供。本发明的实施方式延迟了内容项目的下载,直到用户内容移动行为 触发了这些内容项目的下载为止。在各个实施方式中,下载触发可以直 接置于源或虚拟内容项目上,使得仅当项目一开始出现在槽中,或仅当 项目被移动以在槽中出现时,属于内容项目的内容被下载。在各个实施 方式中,下载触发可以与较高的内容组织节点相关,使得一旦内容组织 节点下的源或虚拟内容项目在某个槽中出现,内容组织节点支配的所有 其他内容也被下载。延迟的下载在把内容部署到移动设备中的情况下是 尤其有用的。本发明的实施方式可以在内容聚集说明库121中记录内容移动说明/控制以及任何混合的创建控制。具有或不具有混合的创建控制的内容移 动说明/控制可以但不必一定特定于个别内容聚集。C. Web内容的个性化聚集的示例图2例示了显示Web内容的个性化聚集的Web页面。该示意性示例 可以根据本发明的各个实施方式(例如段落0082—0089中描述的实施方 式)实现。为说明目的,假设应用服务提供商服务于该聚集页面。具有 垂直影线的要素("利用用户和页面标识打造个性化聚集服务的品 牌"201,"广告"204、"个性化聚集服务放置的通知和链接"211)被放置在 应用服务提供商的选项上,明确或含糊表明用户的共同存在。具有水平 影线的要素("来自第四报纸站点的RSS源"210,"用户配偶的肖像'202, "用户的附加聚集页面的链接"209)通过不涉及Web页面的个性化聚集的 现有技术放置于用户的选项。具有对角影线的要素("来自第一报纸站点 的漫画"206,"来自第二报纸站点的评论栏目,删除了专栏作家的肖 像"205,"第二报纸站点的旅游版的头版文章的未剪裁图像"203,"来自第 三报纸的标题列表,'208,"来自零售站点的促销商品的介绍"207)被放置 在用户的选项处且通过本发明的方法服务(注意这些要素已经被选择以 简明地说明各种可能性。并不暗示要素的这种特定的选择将可能对应于 任何用户在他的/她的聚集页面上想要的东西)。"来自第一报纸站点的漫画"准确地对应于第一报纸站点的页面上的要素。与相应的聚集调用相关的过程返回的树是整个要素的简单拷贝,包括img节点,该img节点具有被设置给第一报纸站点的文件中的src 属性。"来自第二报纸站点的评论栏目,删除了专栏作家肖像"对应于来自 第二报纸站点的页面上的要素。与相应的聚合调用相关的过程PR包括嵌 入的聚集调用,它在评论栏目内返回呈现专栏作家肖像的要素。PR返回 了评论栏目的拷贝,但是对应于专栏作家的肖像的要素被删除。"第二报纸站点的旅游版的头版文章的未剪裁图像"涉及来自第二报 纸站点的三个不同页面上的三个要素。服务该要素遵循聚集调用的三个 级别。最外面的聚集调用(CSp TP" PR。位于聚集页面本身上。CS, 是用于新闻旅游版的主页面。TP,匹配连到旅游版的头版文章的链接LN" PR,包括聚集调用(CS2, TP2, TP2),其中CS2是包含头版文章的页面。 PR基于LN,指定CS2。头版文章页面包括图像,其中每个图像包括连到在分离的页面上呈现的其本身较高分辨率的未剪裁版本的链接。TP2匹配连接到具有故事的第一图像的高分辨率未剪裁版本的分离的页面Q的链 接LN2。 PR2包括聚集调用(CS3, TP3, PR3)。 PR2基于LN2指定CS3。TP3匹配高分类未剪裁图像。PR3返回图像要素的拷贝,包括它的标题且包括img节点,该img节点具有设置给第二报纸站点的文件的src属性。 P&和PRi依次返回所述相同的树。"来自第三报纸的标题列表"类似于RSS源, 一定程度上因为包括报 纸站点上文章的描述性链接。它不同于RSS源, 一定程度上因为它是详 细地个性化的, 一定程度上因为它的产生不涉及现有链接要素,一定程 度上因为它的所列内容项目不对应于独立的页面,且一定程度上因为点 击它的元素中的任何一个不引起在浏览器窗口上呈现新的页面。为说明 目的,该特定列表包括对应于报纸站点的国内版的前两个标题的描述性 链接、对应于报纸站点的国际版的前两个标题的说明性链接以及对应于 包括词语"piano (钢琴)"(如果存在这种标题)的报纸站点的娱乐版的 第一标题的说明性链接。第三报纸站点呈现它的每个版为包含多个文章 的单个页面。该站点不包含对应于文章的链接要素。在聚集页面上,连到第三报纸站点的每个链接对应于分离的聚集调用。简而言之,通过在 文章本身中匹配标题要素产生链接。产生所述娱乐链接涉及在标题串中搜索词语"piano"。产生的链接不是页面的标准链接。而是,它们引用聚 集调用。当产生的链接之一被点击时,返回对应于所选故事的树的拷贝。 用于该示例的目的,假设聚集页面已经被设立,使得当链接之一被点击 时,对应的故事代替当前填充被第二报纸站点的评论栏目最初占用的页 面位置的任何要素。"零售站点的促销商品的介绍"精确地对应于来自用户选择的零售站 点的页面上的要素。与相应的聚集调用相关的过程返回的树是整个要素 子树的简单拷贝,包括两个img节点,所述img节点具有设置给零售站 点上的文件的src属性。D.用于移动设备的具有内容移动的内容聚集的示例 图3示出了与图2所示的Web内容的个性化聚集共享内容的Web 内容的个性化聚集的显示呈现。不像图2中所示的Web页面,该显示呈 现用于移动设备。且不像图2中所示的Web页面,该显示呈现特征在于 内容移动。该说明性示例可以根据本发明的各个实施方式实现,如段落 0090—00108中描述的实施方式。为说明目的,假设应用服务提供商服务 于该显示呈现。图3中示出的显示呈现基于简单的内容组织树。该树(C)的根具有 5个子节点。C的最左边的子节点(d)是终端前的节点且具有一个子节 点,对应于包括被个性化聚集服务放置的通知和链接的内容项目。Q下 的内容项目具有类似于图2中的内容211相似的内容。当用户连接到该 个性化聚集服务时,初始显示呈现示出Q下的内容项目,以及品牌、用 户id和内容id信息。C的剩余的4个子节点对应于4个个性化内容聚集, 每个个性化内容聚集对应于用户识别的话题的类别。C2支配各种内容项 目,以新闻评论作为主导主题。C3具有作为主导主题的体育新闻,Q具 有作为主导主题的技术新闻,且C5具有作为主导主题的商业新闻。C2具 有8个子节点,分别对应于具有预设的审美要求的图像(C2>1)、评论栏 目(C2,2)、社论漫画(C2,3)、促销产品介绍(C2,4)、来自各个报纸的标题列表(C2,5)、各种报纸的RSS源(C2,6)以及潜在的用户配偶的肖像 (C2,7)。 C2,rC2,4其中每一个支配了从报纸Web站点得出的源内容项目的 序列。C2,5支配标题列表的序列,其中每个标题列表类似于段落00113中 描述的标题列表。Cw支配RSS源的序列。C2,7支配用户配偶的单个图像。 图3中示出的显示呈现包括水平滚动条309和垂直滚动条308。它 还包括广告302和4个内容移动控制303—306。它只包括一个专用于内 容组织树C2中的内容的槽(S) 307。在用户与该显示呈现的交互的过程 中,广告302可以被与显示的内容相关的其他广告、或显示的内容的故 事、或C中更一般的内容、或用户人物简介代替。S 307当前被分配给 C2,4, S—次显示一个内容项目的全部或一部分。因为只有一个内容项目 在该槽中显示,所需的滚动是有限的。诸如图像和字体减小以及文本要 素细分成显示页面之类的其他方法可以与本发明的方法相结合以完全消 除滚动。图3中的最左边的控制303在图3中被贴上了"下一产品"的1f签,反映C2,4对S的当前分配。当该按钮被按下时,被C2,4支配的内容项目依 次被显示, 一次显示一个。如果当C2,4支配的最后的内容被代替时按下该 按钮,则在显示中该内容项目被C2,4支配的第一内容项目代替。左边的第二控制305反映了C2,4对S的当前分配。当该按钮305被按下时,它将 内容从C2,4向C2,5移动。该按钮305在内容树的次最高级操作。当305 被按下时,最左边按钮303上的文本被再次贴上"下一标题"的标签且该 按钮303然后通过S用于循环C2,5支配的内容。从左边开始的第二控制305从C2)1到C2,2到C2,3到C2,4到C2,5到C2,6到C2,7并返回C2j循环内容。从左边开始第三个按钮306是类似的,但是在C的更高一级从d到C2 到C3到Q到Cs然后返回d循环内容。图3中最右边的按钮304导致整 个内容树C的图形呈现,具有对应于内容链接的节点。 E.内容要素目录本发明的实施方式支持"要素完整性"作为选择内容要素的标准。"完 整的要素"不仅仅是它的部件的总和。在完整要素中,子要素的并置增加 了单独的子要素传达的意思。为采用十分简单的示例,考虑在一个表格单元中包括产品名称且在另一表格单元包括产品价格的产品描述。是这 两个单元的并置传达了该产品具有该价格的信息。诸如新闻文章和短文 或者小说和诗歌之类的文本是完整要素的基本示例。连环图画也是。完 整的要素可以是其他完整要素的子要素。例如,标题图像是新闻文章的 子要素的完整要素,其中所述新闻文章也是完整要素。要素完整性可以是程度、且最终是个人感知方面的事情。不过在该 方面在要素中存在鲜明的对照。例如,单个新闻文章已经被认为是完整要素,即使它分割在多个Web页面。与此对照,从不相关的较小的要素组装或从边缘相关的较小要素组装的要素不被认为是完整的。例如,当 包含页面被呈现时,包括新闻文章、到其他文章的链接列表以及广告的HMTL表格可能在视觉上很明显,但是并不被认知完整要素。当某些子 要素被删除时, 一些完整要素保留它们的全部或大多数的已被承认的完 整性。(因而,术语"要素完整性"是基于不完美的暗喻。)例如,新闻文 章的文本可以包括嵌入的广告,所述广告能够被删除和从新闻文章单独 发送而不减少传达的全部信息。对于某些简单指定的要素类别,涉及要素完整性的特性是相当直接 的。例如,段落已经组合以形成较高完整的要素。在缺少关于要素完整 性的完整信息的情况下,某些一般的原则可用于以或多或少的信心推断 哪些要素是完整的。例如,满足下面两个可调节条件之一 (两个更好) 的标题要素的最低祖先要素将是完整的(1)包含在较高要素中的文本 的总数远大于包含在标题中的文本的总数;(2)较高的要素呈现的区域 远大于标题的呈现区域。如果标题要素在较高元素的顶端呈现,较高要 素是完整的可能性增加。为显示要素完整性的推论的另一示例,如果要 素包含大量的类似的复杂完整要素,它将不太可能是完整的,其中不知 道这些被包含的要素是较高完整要素的可能的子要素。本发明的实施方式在确定哪些要素包括在显示呈现中时应用要素完 整性作为辅助过滤器。根据这些实施方式,给定内容请求,且给定满足 该内容请求的内容片段,具有较高程度要素完整性的内容片段是更加优 选的。本发明的实施方式将提取的内容组织为内容要素的注释目录,如图 l所示("内容要素目录"115)。注释可以包括但不限于呈现的大小、要素 完整性以及要素对应于指定内容请求的程度。注释还可以包括对应于内 容请求的要素的哪些子要素是删除候选的指示。且注释可以包括内容要 素向内容组织树(或有向非循环图)的分配。本发明的实施方式向内容选择引擎(图1中的116)引入了内容要素目录,所述内容选择引擎在各个内容选择标准中权衡以根据内容请求确 定哪些内容要素被呈现,且可能确定内容要素将要被呈现的顺序。在这些实施方式的某一些中,内容选择引擎与布局引擎(图1的117)通信。 当布局引擎根据布局标准放置内容要素时,它可以产生能与内容选择引 擎通信的极其特定的要求。例如,过程中的布局可以具有用于特定大小 的要素的空间。布局引擎能够从内容选择引擎请求该大小的要素,内容 选择引擎然后有效地提供最满足选择标准的所需大小的要素。V.请求时之前的优化A.经验优化假设可能在将用于标题图像的用户内容请求应用到多个文档源的过 程中,该请求被应用到特定的报纸("报纸A")。进一步假设内容请求包 括显著类别c叩"ow^Z/mag。且该显著类别使用来自如段落0059—0064 中的布局结构的信息进行定义。进一步假设报纸A中的标题图像能够以 简单标记属性来特征化。例如,报纸A中的标题图像可以准确地对应于 对于CLASS属性具有值CAPTIONEDIAMGE的HTML DIV要素。可以 假设,寻找对于CLASS属性具有值CAPTIONEDIAMGE的DIV要素比 寻找满足段落0064中所勾画的要素在计算方面是更廉价的。在这种情况 下,不仅节点标签和节点属性值的定义更加简单,而且找寻满足它的要 素不需要呈现。当从报纸A提取标题图像时,使用较简单的定义代替标 题图像的一般定义是很值得的优化,尤其当没有什么单独的原因从报纸A 呈现页面时。尽管开发员和信息技术员可以细化报纸A的c。/^'o"e必mage的定义, 使得优化的定义在类别库中可用,这种优化对于人而言是极费劳力的。优化依赖于对于各种源怎样被创建文档的构想。这些优化是经验式的。 必须观察、记录和测试创建的特性。理想地,在很多文档源上为很多显 著类别、描述修饰语以及内容描述注释优化。
一般地,文档源必须比只根据Web站点或文档数据库更加精细地分类。例如,报纸A中标题图像 可以具有不同的标记特征,所述特征依赖于该加了标题的图像是来源于 新闻版中的文章还是娱乐版中的文章。本发明的实施方式自动地得出了经验优化。现有技术Web爬虫(Web crawling)方法可用于釆集Web文档以用于检查。数据库和文件系 统中的文档可以被系统地检查。考虑显著类别为代表的情况,感兴趣的 每个文档都对感兴趣的每个显著类别的实例进行检査。假设考虑显著类 别的简单特征。例如, 一类文档中的显著类别的每个实例共享了标识符 吗(在HMTL的情况,每个实例都具有用于ID属性的相同的值吗)? 又例如, 一类文档中的显著类别中的每个示例都共享节点标签吗?又例 如, 一类文档中的显著类别的每个实例共享一对特征(属性、值)吗? 又例如, 一类文档中的显著类别的每个实例都具有到达包含文档的根节 点的相同的简单路径(如在"HTML文档的根的第一BODY子节点的第一 TABLE子节点的第一 TBODY子节点的第三TR子节点的第二 TD子节 点的第一 DIV子节点"中)吗?显著类别的每个实例都满足类似于这些的 条件的某些联合且满足该联合示例的所有要素都属于该显著类别吗?对于某些文档源,来自该源的每个文档都包括被称为"参考节点"的 东西。例如,对于每个来自报纸A的HTML新闻文章,社论内容被完全 包含在文章的DOM树中BODY节点下的6个级别的表格单元中。目标 是来自报纸A的新闻文章的社论内容的内容请求能够使用在该表格单元 处开始而不是在文档根处开始的路径,结果是请求时效率的提高。本发 明的实施方式产生关于参考节点的假设。候选者包括支配大的子树的节 点、支配感兴趣的要素的节点、当呈现文档时对应于大区域的节点以及 对应于包括对应于感兴趣的要素的区域的区域的节点。当一个候选参考 节点包括另一候选节点时,这两个候选节点的对应区域在面积上稍微不同, 一个或另一个候选节点在此基础上可以是优选的。给定段落00125—0012S中描述的用于产生关于显著类别的简单特 征、或关于描述修师语的简单特征、或关于内容描述或内容描述片段的 简单特征、或关于参考节点的特征的假设组的机制,本发明的实施方式 采用现有技术的学习和归纳算法以确定哪个假设是有效的。本发明的实 施方式采用现有技术优化规格来判定哪个有效的假设是优选的。
B. 内容片段缓存
本发明的实施方式(例如,内容请求引擎111)可以缓存与内容聚集 相关的内容项目、缓存包含与内容聚集相关的项目的文档和内容片段, 并缓存被适当地包含在与内容聚集相关的内容项目中的内容片段。内容 片段缓存在图1中显示为119。如段落0074中所讨论的,被适当地包含 在内容项目中的内容片段可以与组装和/或布局指令相关联。各个实施方 式在对它们进行缓存之前组装和/或布局这些内容片段成内容项目。取决 于所述的内容片段的动态属性,这些缓存可以以每日或其他周期为基础 进行更新。当内容项目或内容片段的需求增加时,且更新的周期减小时, 这种缓冲提供了越来越多的优点。本发明的实施方式根据现有技术的方 法组织内容片段缓存119以用于快速访问。
C. 关于缓存文档的注释
本发明的实施方式在文档被缓存之前对这些文档进行注释(例如, 在内容片段缓存119中),使得对应于显著类别或满足描述修饰语或对应 于内容请求或感兴趣的内容描述或对应于参考节点的节点被相应地标 记。注释处理涉及针对显著类别的各种实例检査文档等,且可以要求呈 现。优点在于这种检查可以在用户请求内容之前进行。在内容请求时, 针对注释检查文档 一般会提供优于基于内容描述针对内容检查文档的效 率优势。
各个实施方式提供了用于文档节点的注释的附加形式,所述文档节 点对应于被适当地包含在内容项目中的显著类别的实例。注释的这种附 加形式使得内容片段的实例能够在组装内容项目中一起正确地匹配。例 如,如果文档包含caj^o"W/mage显著列表的两个实例,这两个实例分 别根据/mage类别的两个实例和cc2/7"o打类别的两个实例组装,该附加注释使得^"ge实例能够与正确的cqp"o"实例相关联。在各个实施方式中,
注释的这种附加形式采用了数字式的"实例索引"的形式。注意要素可以 用作显著类别的不止一个实例的子要素,或不止一个显著要素的实例的 子要素。本发明的实施方式还在请求时之前呈现缓存的内容,且然后使
用来自布局结构的信息(诸如文档要素的宽度、高度、x-位置以及y-位 置)注释文档。在各个实施方式中,这些注释指示来自多个不同测量引 擎的测量。在各个实施方式中,这些注释表示反映了多个不同组的客户 显示参数的测量。尽管解析在计算方面是相对便宜的,本发明的各个实 施方式缓存文档的解析树。
D.其他的请求时之前的优化
编译器、数据库以及XML研究和开发团体已经提出了很多可用于内 容描述和内容请求的请求时之前的处理机制的优化技术。 VI.请求时优化
当请求内容时,希望避免单个文档的重复下载。还希望避免单个文 档的重复呈现、单个文档的重复解析以及单个文档解析树和解析树片段 的重复搜索。当在文档解析树或解析树片段中搜索以发现树图案的实例 时,希望在搜索过程中最小化在任何点处正在寻找的图形数量。即使具 有段落00125—00134中讨论的请求时之前的优化,请求时优化仍存在充 足的范围。
各种研究和开发团体已经提出了可应用的请求时优化技术。具体而 言,编译器研究和开发团体已经发明了可应用的树图案匹配技术。本发 明的实施方式(例如,内容提取引擎(123))可以结合/修改这些各种技 术中的一种或多种。
图4示出了根据各个实施方式的与本发明相关的代表性请求时算 法。该代表性算法应用于聚集页面。它使用单线程来执行下面的操作 以预定顺序在整个聚集页面中搜索,在页面上累积全组聚集调用402。根 据内容源对聚集调用编目录403。对于每个内容源(当就绪时404),下 载内容源406并以预定顺序在相关文档中搜索407 — 412。假设((CS i,TPii,PRiO,…(CSi,TPik,PRik》是与该内容源相关的一组聚集调用407。在CSj的文档搜索过程中407—412,对于每个TPij (当就绪时409),保持检 查TPij,直到遇到了匹配TPij的子树为止。(更精确地说,从TPij保持检 查语境树图案,并维持在搜索中的当前位置满足那些语境树图案的记录。 维持检査当前满足语境树图案的TPij的第二成员)。当遇到匹配TPij的子 树时,执行PRij 410 (如果PRij包括聚集调用(CS',TP,,PR),检查CS, 是否被缓存。如果CS,不被缓存,将其下载并缓存。嵌入的聚集调用的执 行是迫切的,使得如果文档与多个嵌入聚集调用关联,它将被搜索多次)。 使用PRij返回的树代替聚集页面中的相应的聚集调用节点。当来自每个 内容源的内容都被搜索过时416,聚集页面准备显示418。 VII.计算设备结构
图5示出了适于根据一个实施方式实践本发明的计算设备500 (例 如桌面电脑或移动设备(诸如移动电话或个人数字助理(PDA)))的结 构示图。计算设备500可以是服务器或客户端。无论作为服务器或客户 端,计算设备500可以在一个或多个私网和/或公网(包括著名的公网"因 特网")上经由无线或有线互连而耦合到客户端或服务器。
如上所述,对于该实施方式,计算设备500包括在常规计算设备中 找到的元件,诸如经由总线514彼此耦合的微控制器/处理器502、数字 信号处理器(DSP) 504、非易失性存储器506、显示器508、输入键盘 510 (诸如12键盘、选择按钮、D-单元)以及发射/接收(TX/RX) 512, 所述总线可以是单个总线或分级的桥接总线。
此外,非易失性存储器506包括修改用来实现早先描述的内容聚集 技术的所有或选定方面的操作逻辑520。所述实现可以经由数字编程语 言、组装、C等中的任何一个进行。
除了支持本发明的内容聚集技术,图5中各种列举的元件的功能和 构造在现有技术中是己知的,因此将不再做进一步描述。在备选实施方 式中,所述内容聚集技术的所有或一部分可以在硬件、固件或其组合中 实现。硬件实现可以在专用集成电路(ASIC)、再配置的可再配置电路(诸 如现场可编程门阵列(FPGA))等中实现。
权利要求
1.一种由计算设备实施的方法,该方法包括利用计算设备从用户征求用于多个内容要素部件的多个与特征化相关的输入;响应于所接收的输入,通过所述计算设备,生成或者使得生成候选内容聚集说明,所述候选内容聚集说明直接或间接地包括多个候选指示,所述候选指示以相应地结合了多个资格的多个合格描述来表征所述要素部件;对于所生成的候选聚集说明,通过所述计算设备从用户征求反馈;以及在需要时一次或多次通过所述计算设备修改所述候选聚集说明或重复所述征求和生成,以实现用于请求内容的内容聚集说明。
2. 根据权利要求1所述的方法,其中所述征求包括通过所述计算设 备,通过呈现的文档、归纳或学习,从所述用户征求所述多个与要素部 件特征化相关的输入。
3. 根据权利要求2所述的方法,其中所述征求包括通过所述计算设 备,通过使所述用户识别所呈现的电子文档的要素部件,征求所请求的 要素部件的特征化;且所述生成包括生成用于合格描述的一个或多个资 格以描述所识别的要素部件。
4. 根据权利要求3所述的方法,其中所述导出包括通过所述计算设 备测量或者使得测量所识别的要素部件的一个或多个布局资格。
5. 根据权利要求1所述的方法,其中所述征求包括通过所述计算设 备,通过使所述用户以图形的方式定义电子文档的要素部件,征求所请 求的要素部件的特征化;且所述生成包括生成用于合格描述的一个或多 个资格以描述所述以图形方式定义的要素部件。
6. 根据权利要求1所述的方法,其中所述生成包括从内容聚集说明 库中检索现有的内容聚集说明,且至少部分地基于所检索的现有内容聚 集说明来生成候选聚集说明。
7. 根据权利要求1所述的方法,所述方法还包括所述计算设备帮 助用户创建所请求内容的呈现说明,包括多个显示槽以及所述显示槽的 全部或子集的一个或多个可选择的布置。
8. —种由计算设备实施的方法,该方法包括接收内容聚集说明,所述内容聚集说明直接或间接地包括多个指示, 所述指示以相应地结合了多个资格的多个合格描述来表征多个要素部 件;以及处理至少一个所述指示以简化所述指示,从而直接识别要素部件。
9. 根据权利要求8所述的方法,所述方法还包括通过所述计算设备, 在请求时之前,预处理或者使得预处理所述内容聚集说明,以预识别所 述资格,从而减少请求时处理。
10. 根据权利要求9所述的方法,其中所述预处理或使得预处理包 括通过所述计算设备访问或者使得访问一个或多个电子文档源,以确定 所述一个或多个电子文档源是否具有包含满足所述预识别的资格的要素 部件的电子文档。
11. 一种由计算设备实施的方法,该方法包括通过计算设备,接收对包括多个要素部件的内容的请求,所述请求 以内容聚集说明的形式存在,所述内容聚集说明直接地或间接地包括多个指示,所述指示以多个导出描述来表征所请求的要素部件,每个导出 描述结合了导出资格;通过所述计算设备,有效地从具有满足所述导出描述的导出资格其 中选择出的导出资格的要素部件的多个电子文档中获得或者使得获得所 请求的要素部件;以及通过所述计算设备,以所获得的满足导出资格的要素部件响应或者 使得响应所述请求。
12. 根据权利要求11所述的方法,其中所述接收包括从耦合到所述 计算设备的客户端设备接收所述请求,所述客户端设备是服务器、桌面 计算设备或移动计算设备之一,且所述响应或使得响应包括向所述客户 端设备提供所获得的满足导出资格的要素部件。
13. 根据权利要求ll所述的方法,其中至少一个所获得的满足导出 资格的要素部件包括文本、图形、图像、 一个或多个视频帧或音频剪辑。
14. 根据权利要求ll所述的方法,其中所述内容聚集说明包括间接 地指定所述指示的至少一个子集的显著类别名称。
15. 根据权利要求ll所述的方法,其中至少一个所述指示以一个或 多个导出布局资格来表征所请求的要素部件。
16. 根据权利要求15所述的方法,其中至少一个所述导出布局资格 是当电子文档被呈现时的呈现位置、呈现大小、呈现长度、呈现宽度、 呈现高度、呈现像素的数目或电子文档的要素部件的呈现字符的数目。
17. 根据权利要求ll所述的方法,所述方法还包括,所述计算设备 使用户便于创建直接或间接地具有所述指示的所述内容聚集说明,所述 指示以具有导出资格的导出描述来表征所述要素部件。
18. 根据权利要求11所述的方法,所述方法还包括通过计算设备处 理或者使得处理包括所述指示的导出描述的导出资格的所述内容聚集说 明,以识别所请求的要素部件。
19. 根据权利要求18所述的方法,其中至少一个指示包括修饰合格 描述的描述修饰语,且所述方法还包括所述计算设备处理或者使得处 理所述描述修饰语,至少部分地基于所述描述修饰语修饰的合格描述、 根据上下文解释所述说明修饰语。
20. 根据权利要求18所述的方法,其中所述计算设备的所述处理包 括通过所述计算设备访问用于分别与一个或多个导出描述术语相关或一 个或多个导出描述类别相关的信息的导出描述库或内容类别库,以协助 所述计算设备处理所接收的内容聚集说明。
21. —种由计算设备实施的方法,该方法包括 通过计算设备接收用于响应内容请求的多个要素部件,所述内容请求以直接或间接地包括多个指示的内容聚集说明的形式提出,所述指示 以结合了资格的多个合格描述来表征所述要素部件,且所接收的要素部 件是满足所述资格的电子文档的要素部件;通过所述计算设备,组织或使得组织所接收的满足资格的要素部件页以用于呈现,包括生成多个聚集调用以呈现所述多个接收的满足资格的要素部件;以及通过所述计算设备,利用包含所生成的聚集调用的有组织的满足资 格的要素部件来响应或者使得响应所述请求。
22. 根据权利要求21所述的方法,其中至少一个所述聚集调用包括 CS、 TP和PR的三角,其中CS识别满足资格的要素部件的源,TP识别 与所述要素部件相关的复杂树图形,及PR识别用于使用所述复杂树图形 呈现所述要素部件的过程,所述复杂树图形包括多个节点以及至少一个 与所述节点耦合的分支,所述节点中的至少一个终端节点包括对应于多 个同胞子树的通配符。
23. 根据权利要求21所述的方法,其中至少一个所述聚集调用包括 CS、 PE和PR的三角,其中CS识别满足资格的要素部件的源,PE识别 与所述要素部件相关的路径表达,且PR识别用于使用所述复杂树图形呈 现所述要素部件的过程,所述路径表达对应于所述要素部件的一个或多 个子树。
24. 根据权利要求21所述的方法,其中所述响应或使得响应包括, 仅当为呈现而实际需要所述有组织的满足资格的要素部件时,通过所述 计算设备,利用所述有组织的满足资格的要素部件来响应或使得响应。
25. 根据权利要求21所述的方法,所述方法还包括通过所述计算设 备向位于另 一计算设备上的内容请求弓I擎发送所述请求。
26. —种由计算设备实施的方法,该方法包括 通过计算设备,接收用于响应内容请求的多个要素部件,所述内容请求以直接或间接地包括多个指示的内容聚集说明的形式提出,所述指 示以结合了资格的多个合格描述来表征要素部件;且所接收的要素部件 是满足所述资格的电子文档的要素部件;通过所述计算设备,组织或使得组织所接收的满足资格的要素部件 或导致其被组织以用于呈现,包括选择显示槽集合的多种排列之一,且 将所接收的满足资格的要素部件与所选显示槽排列的显示槽关联起来; 以及通过所述计算设备,利用与有组织的满足资格的要素部件相关联的 显示槽来响应或使得响应所述请求。
27. 根据权利要求26所述的方法,其中所述关联包括在显示槽内部 或之间移动所述要素部件。
28. 根据权利要求27所述的方法,其中所述关联包括将多个接收到 的满足资格的要素部件与所述显示槽排列的显示槽关联起来,且通过所 述计算设备,为用户提供或使得提供一个或多个用户接口元件,以导致 所接收的满足资格的要素部件经由显示槽而进行选择性顺序呈现。
29. 根据权利要求28所述的方法,其中所述提供或使得提供包括 通过所述计算设备,为用户提供或使得提供用户接口元件,以导致所接 收的满足资格的要素部件的所选子集经由所述显示槽而进行顺序呈现, 以及为所述用户提供或使得提供至少一个或多个用户接口元件,以选择 所接收的满足资格的要素部件的另一子集以经由显示槽进行顺序呈现。
30. 根据权利要求28所述的方法,其中所述提供或使得提供包括 通过所述计算设备为所述用户提供或使得提供用户接口元件,以导致所 接收的满足资格的要素部件的组织的呈现。
31. —种装置,该装置包括内容请求弓I擎,其使用户便于创建表征多个内容要素部件的内容聚 集说明,所述内容聚集说明直接或间接地包括具有与资格结合的合格描 述的多个指示;以及内容聚集说明库,其耦合到所述内容请求引擎以存储所创建的内容 聚集说明。
32. 根据权利要求31所述的装置,其中所述内容请求引擎进一步被 调整为使用户便于使用原先创建的内容聚集说明来创建所述内容聚集说 明。
33. 根据权利要求31所述的装置,所述装置还包括与所述内容请求 引擎耦合的测量引擎,以测量所呈现文档的用户识别的要素部件或以图 形方式定义的要素部件,以协助所述内容请求引擎使用户便于创建结合 了导出资格的导出描述。
34. 根据权利要求33所述的装置,进一步包括与所述内容请求引擎 耦合的内容描述库或内容类别库,以存储内容描述或内容类别,所述内 容请求引擎进一步被调整为访问所存储的内容说明或内容类别,以协助 所述内容请求弓1擎在请求时处理所述内容聚集描述。
35. 根据权利要求31所述的装置,其中所述内容请求引擎被进一步 调整为协助用户创建用于呈现所获得的满足资格的要素部件的显示槽的 一种或多种可选的排列。
36. —种装置,该装置包括内容检索引擎,其用于检索电子文档的要素部件;以及耦合到所述内容检索引擎的内容请求引擎,以接收对包括多个要素部件的内容的请求,所述请求为直接或间 接地包括多个指示的内容聚集说明的形式,所述指示以多个导 出描述来表征所述请求的要素部件,每个导出描述具有导出资 格;处理所述内容聚集说明;使所述内容聚集引擎获得满足所述导出资格的电子文档的要 素部件;以及利用所获得的满足导出资格的要素部件来响应所述请求。
37. 根据权利要求36所述的装置,所述装置还包括耦合到所述内容 请求引擎的内容搜索引擎,以使用满足所述导出资格的要素部件来搜索 和定位电子文档;以及耦合到所述内容请求引擎的内容提取引擎,以从 所检索的电子文档提取满足导出资格的要素部件。
38. 根据权利要求36所述的装置,所述装置还包括耦合到所述内容 请求引擎的内容呈现引擎,以将所获得的满足导出资格的要素部件与显 示槽布置的显示槽关联起来,从而呈现所获得的满足导出资格的要素部 件。
39. —种装置,该装置包括.-内容呈现引擎,其用于接收多个获得的要素部件,所述获得的要素 部件是满足指定请求的请求内容的内容聚集说明的指示的合格描述的资格的电子文档的要素部件,以组织所接收的要素部件;并且,用于将有 组织的要素部件与显示槽排列的显示槽关联起来,以呈现所接收的满足 资格的要素部件。
40. 根据权利要求39所述的装置,其中所述内容呈现引擎被调整为 将多个接收的满足资格的要素部件与显示槽排列的显示槽关联起来,并 为用户提供一个或多个用户接口元件,以导致所接收的满足资格的要素 部件经由所述显示槽而进行选择性顺序呈现。
41. 根据权利要求40所述的装置,其中所述内容呈现引擎被进一步 调整为,向用户提供用户接口元件以导致所接收的满足资格的要素部件 的所选子集经由所述显示槽而顺序呈现,以及向所述用户提供至少一个 或多个用户接口元件,以选择所接收的满足资格的要素部件的另一子集, 以经由显示槽而顺序呈现。
42. 根据权利要求41所述的装置,其中所述内容呈现引擎被进一步 调整为向所述用户提供用户接口元件,以导致所接收的满足资格的要素 部件的组织的呈现。
43. 根据权利要求39所述的装置,其中所述内容呈现引擎被进一步 调整为选择所述显示槽排列。
44. 根据权利要求39所述的装置,所述装置还包括耦合到所述内容 呈现引擎的内容请求引擎,以接收所述内容请求;从而获得所述满足资 格的要素部件;并且从而提供具有满足资格的要素部件的内容呈现引擎。
45. 根据权利要求39所述的装置,所述装置还包括请求引擎以向位 于另 一计算设备上的内容请求引擎发送所述请求。
46. 根据权利要求45所述的装置,其中所述装置是具有显示器的计 算设备,该显示器具有相对有限的实际显示面积。
全文摘要
本发明的实施方式允许从电子文档得到的内容要素部件的聚集的说明和服务。并入的内容要素部件可以对应于任何可访问文档的任何要素部件。在各个实施方式中,从源文档的目标布局得出的信息被用来创建要素部件的说明。所述说明可以包括搜索条件。可以采用图形方法来构建所述说明。本发明的实施方式使得内容聚集能够出现在显示呈现上,该显示呈现的布局可以适应于不同的级别。在各个实施方式中,为内容聚集的显示呈现采用了灵活的内容移动方法。结果是,可以在不浪费下载带宽和显示屏幕实际使用面积的情况下,实现移动设备和其他设备上的内容聚集的显示。
文档编号G06F17/00GK101288067SQ200680034718
公开日2008年10月15日 申请日期2006年8月9日 优先权日2005年8月9日
发明者塞缪尔·S·爱泼斯坦 申请人:沙力股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1