选择性内容提取的制作方法

文档序号:6596500阅读:183来源:国知局
专利名称:选择性内容提取的制作方法
选择性内容提取
背景技术
网页页面常常被设计为用于屏幕显示而不是打印。除可以包括文本和图像的主要文章之外,网页页面常常包括动态地生成的广告及其它外围信息。结果,期望打印网页页面的用户常常对结果感到挫败。打印的网页页面可以具有跨越多个页面的杂乱外观,主要文章一被点缀广告及其它外围内容一出现在一个页面上或分裂于两个或更多页面之间。


图1是网页页面格式的示例性描绘。图2是具有点缀内容的图1的网页页面格式的示例性描绘。图3 5是根据实施例的分级结构的示例性描绘。图6是根据实施例的提取的内容的示例性描绘。图7是根据实施例的其中已经排除了所选提取内容的示例性描绘。图8是根据实施例的产生的内容的示例性描绘。图9是根据实施例的选择性内容提取系统的示例性描绘。图10是根据实施例的其中可以实现权利要求9的系统的环境的示例性描绘。图11和12是描绘实现各种实施例所采取的步骤的流程图。
具体实施例方式介绍下述各种实施例进行操作以选择性地和自动地从网页页面或一系列相关网页页面提取内容。然后可以产生提取的内容,正如本文所使用的,产生所提取的内容可以包括但不限于打印、显示、传送和以电子方式存储。在操作中,检查网页页面以识别诸如DOM (文档对象模型)的分级结构。检查该结构的节点以识别潜在文章节点。在示例中,潜在文章节点是包括超过门限的数量的文本的那些节点。该门限限定一定数目的字符或词语。首先出现在结构中的潜在文章被识别为文章节点。提取、合并并产生来自同一分级水平处的文章节点和兄弟节点的内容。在某些情况下,排除诸如来自兄弟节点的广告的内容。网页内容可以使用网页内容来向用户传送信息。该信息包括用户请求的文章内容以及诸如网站识别、链接和各种各样广告的外围内容。文章内容可以包括诸如与特定主题有关的文本和图像的信息,诸如新闻故事、处方或任何其它主题。图1是用于网页页面10的示例性格式。虽然所示的格式是示例性的,但其包括普通部分,包括文章 12 (article)、页眉(header) 14、专栏(column) 16 和页脚(footer)18。 文章部分12包括诸如与感兴趣的特定主题有关的文本和图像的文章内容。示例包括但不限于新闻故事、建筑平面图和处方。它还可以包括不是直接与文章内容有关的内嵌广告及其它外围内容。页眉14通常包括识别网站、导航链接和通常横幅广告的数据。专栏16可以包括与文章部分14的内容有关或无关的广告和链接。页脚18可以包括识别网站、用于网站的导航链接和广告的数据。
图2是具有点缀在每个部分12 18内的示例性内容的图1的网页页面10的描绘。页眉14被示为包括横幅广告20、网站标题22和网站链接条M。横幅广告20—般地表示充当到另一网页页面的链接的图像。网站标题22表示诸如识别网站的文本和图像的内容。网站链接条M表示用于导航所识别的网站的一组链接。通常,内容20、22和对中没有一个直接与部分12的文章内容的主题有关。文章部分12被示为包括标题沈、文本28、图像30、内嵌广告32、文本34、内嵌广告 36、文本38和在某些情况下的继续链接40。标题沈表示文章内容的标题。文本观、34和 38表示文章内容的主要文本。图像30表示作为文章内容的一部分的图片或其它图形内容。 内嵌广告32和36表示到其它网站的链接,并且不必要与标题沈、文本观、对和38以及图像30有关,并且在文章内容外围。文章内容可以跨越一个或多个附加网页页面。在这种情况下,包括继续链接40。继续链接40表示到包含附加文章内容的后续网页页面的链接,并且时间常常出现在文章部分12的结尾处且包括词语“下一个”或“1”和“2”。该附加网页页面可以包括或可以不包括到又另一网页页面的另一继续链接。专栏部分16被示为包括专栏广告44、相关链接46以及专栏广告48。专栏广告 44和48表示到其它网站的链接,并且可以是或可以不是与文章内容的主题有关。相关链接46表示到网站的其它网页页面的链接,其包括与网页页面10的文章内容有关的其它文章内容。页脚18被示为包括横幅广告50和网站链接条52。横幅广告50 —般地表示充当到另一网页页面的链接的图像。网站链接条52表示用于导航网站的一组链接。通常,内容 44 52中没有一个直接与部分12的文章内容的主题有关。内容提取使用图2的网页页面10作为示例,下文相对于图3 8所讨论的各种实施例进行操作以自动地提取部分12的文章内容。排除来自部分14 18的内容。然后可以以诸如打印、存档、电子邮件发送等多种方式来产生提取的内容。当然,网页页面10仅仅被用作示例。下文所讨论的程序对多种网页页面格式起作用。从图3开始,识别主题网页页面的分级结构52。在这里,主题网页页面是图2的网页页面10。此类分级结构可以是如在图3中描绘并在图4和5中扩展的网页页面的DOM (文档对象模型)。结构52包括多个分级地组织的节点。节点M是根节点,其在本示例中将网页页面语言识别为HTML (超文本标记语言)。请注意,节点M包括打开标签“〈HTML〉” 和关闭标签“〈/HTML〉”。出于参考附图的效率的目的,将两个标签称为单数节点Μ。在其它上下文中,可以将每个标签识别为结构52上的单独节点。根节点M包括或另外包含子节点56和58。关于彼此,节点56和58是结构52内的同一分级水平处的兄弟。节点56对应于HTML代码的头部标签并包括被识别为头部内容 60的一个(或多个)子节点。头部内容60表示包含对于网页页面的观看者而言不直接可见的内容的一个或多个子节点。头部内容60可以包括到诸如样式表和Java脚本程序的项目的外部链接。头部内容60还包括出现在观看者的浏览器的顶栏中的用于网页页面的标题。 其它元素可以包括页面描述和关键字。节点58对应于HTML代码的主体标签,并包括或另外包含在本示例中对应于网页页面10的部分12 18的内容62 68。换言之,主体内容62 68表示定义在观看网页页面时能够看到的内容的各种子节点。页眉内容62表示定义网页页面10的页眉部分14 的内容的各种节点。相对于图4被扩展的文章内容64表示定义网页页面10的文章部分12的内容的各种节点。相对于图5被扩展的专栏内容66表示定义网页页面10的专栏部分16 的内容的各种节点。页脚内容68表示定义网页页面10的页脚部分18的内容的各种节点。现在参考图4,文章内容64包括节点70,其表示对应于网页页面10的文章部分12 的打开和关闭标签。示例性标签可以包括但不限于<div>、
和<br>。标签70包括或另外包含子节点72 86。相对于图2
节点72对应于用于标题沈的标签和内容72a ; 节点74对应于用于文本28的标签和内容74a ; 节点76对应于用于图像30的标签和内容76a ; 节点78对应于用于内嵌广告32的标签和内容78a ; 节点80对应于用于文本34的标签和内容80a ; 节点82对应于用于内嵌广告36的标签和内容74a ; 节点84对应于用于文本38的标签和内容84a ;以及 节点86对应于链接40的标签和内容86a。参考图5,专栏内容66包括表示对应于网页页面10的专栏部分16的打开和关闭标签的节点88。示例性标签可以包括但不限于<div>、
和<br>。标签88包括或另外包含子节点90 94。相对于图2
节点90对应于用于专栏广告44的标签和内容90a ; 节点92对应于用于相关链接46的标签和内容92a ;以及 节点94对应于用于专栏广告48的标签和内容94a。如上所指出的,目的是从文章部分12提取并公布内容,其排除了来自其它部分 14 18的内容。另一目的是在公布之前进一步从提取的文章内容削减广告及其它外围信息。为了这样做,检查图3 5中所示的结构52以识别潜在的文章节点。在图1 5的示例中,文章节点是包含作为文章部分12的一部分的内容的那些节点。潜在文章节点是具有特性的节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。在一个示例中,潜在文章节点是包含超过门限的数量的文本的节点。该门限可以限定一定数目的字符或词语。从所识别的潜在文章节点,首先出现在结构中的节点被识别为文章节点。提取、合并并产生来自文章节点和兄弟节点的内容。在某些情况下,排除诸如广告的内容。在返回参考图3 5的同时移动至图6,假定节点74的文本74a、节点84的文本 8 和节点92的相关链接9 每个包括超过门限的数量的文本。因此,可以将节点74、84 和92中的每一个识别为潜在文章节点。在结构52内,节点74首先出现,并因此具有所识别的潜在文章节点的最高等级(rank)。结果,在本示例中,将节点74选作文章节点。节点 72和76 86是节点74的兄弟节点。换言之,节点72和76 86在结构52内处于与节点 74相同的分级水平。如图6的示例性内容结构96所描绘的,提取并合并来自所识别的文章节点74和兄弟节点72和76 86的内容。在产生结构96的内容之前,识别在所识别的文章节点74 的文本外围的内容并将其排除,如图7的示例性内容结构98所描绘的。可以以许多方式来识别外围内容。例如,外围内容可以包括具有文本“广告”的链接或图像。外围内容可以是具有在门限值以下的数量的文本的链接。例如,到相关页面的继续链接可以简单地包括词语“下一个”或“继续”或“1”和“2”。因此,在图7中,已经从图7中的结构98排除内容78a、82a 禾口 86a。然后可以如图8的产生的内容100所描绘地产生内容结构98的内容72a、74a、 76a、80a和84a。如上所指出的,可以以许多方式来产生提取的内容,包括打印、在监视器上显示、经由电子邮件或网页页面传送以及以电子方式存储在文件中。在图8的示例中,产生的内容100包括直接与网页页面10的主要主题、即文章部分12的主题有关的内容。从产生的内容100排除的是来自部分14 18的内容和来自部分12的外围内容。提取系统图9 10描绘根据实施例的充当系统102的各种物理和逻辑部件,用于选择性地提取网页内容。系统102被示为包括结构引擎104、文章引擎106和产生引擎 108。结构引擎104—般地表示能够在网页页面内检测包括多个节点的分级结构的硬件和编程的任何组合。如所指出的,此类分级结构可以包括DOM (文档对象模型)。文章引擎106 —般地表示能够识别来自分级结构的多个节点的潜在文章节点的硬件和编程的任何组合。文章引擎106可以通过识别包含超过给定门限的数量的文本(诸如许多词语或字符)的那些节点来执行此任务。文章引擎106然后将在分级结构中具有最高等级的潜在文章节点识别为文章节点。文章引擎106从所识别的文章节点提取内容。在所识别的文章节点具有兄弟节点、它们是处于同一分级水平处的节点的情况下,文章引擎 106从那些兄弟节点提取内容并将所提取的内容合并。文章引擎106还可以负责从合并的内容排除来自兄弟节点中的一个或多个的内容。检查所提取的内容,文章引擎106可以排除来自兄弟节点的包括与图像相结合的词语“广告”或“ad”的内容。文章引擎106还可以排除来自兄弟节点的包括落在门限以下的数量的文本的内容。文章引擎106还可以负责确定所识别的文章节点的兄弟节点是否包括指示相关后续网页页面的存在的内容。相关后续网页页面是具有文章节点的网页页面,该文章节点具有作为当前网页页面的提取内容的继续的内容。如在图4中所描绘的,诸如节点86的兄弟节点可以包括与词语“下一个”或后续网页页面包含与所提取的内容有关的内容的某个其它指示符的链接。因此,文章引擎106可以针对包括链接和词语“下一个”或“1”和“2” 或“继续”的内容检查兄弟节点。在检测到此类内容时,结构引擎104在由该链接参考的网页页面内检测包括多个节点的分级结构。检查该新的多个节点,文章引擎106以先前所述的方式提取内容,将新提取的内容附加于先前提取的内容。此过程可以重复直到文章引擎 106不再发现相关后续网页页面的指示。产生引擎108 —般地表示能够产生提取和合并的内容的硬件和编程的任何组合。 如上所指出的,可以以许多方式来产生提取的内容,包括打印、在监视器上显示、经由电子邮件或网页页面传送以及以电子方式存储在文件中。可以在诸如图10的环境110的许多环境中实现图9的系统102。环境110包括客户端设备112、服务器设备114和116、打印机118、数据储存库122和显示设备124。客户端设备一般地表示能够获得和处理网页内容的任何计算设备。例如,客户端设备112可以是台式计算机、膝上型计算机、智能电话。服务器设备114 一般地表示能够向客户端设备112 提供网页页面服务的任何计算设备。服务器设备116 —般地表示能够向客户端设备112提供远程应用服务的任何一个或多个计算设备。打印机118 —般地表示能够产生打印的图像的任何图像形成设备。数据储存库一般地表示能够存储电子数据以供稍后检索和使用的任何服务。显示设备1 一般地表示能够显示期望图像的诸如计算机监视器或电视的任何设
7备。链接124将客户端设备112与设备114 122互连。链接124 —般地表示经由电信链接、红外链接、射频链接或提供电子通信的任何其它连接器或系统的电缆、无线、光纤或远程连接的一个或多个。链接1 可以表示内部网、因特网或两者的组合。如在图10中描绘的客户端设备112与设备114 122之间的链接IM所遵循的路径表示这些设备之间的逻辑通信路径,不必要是设备之间的物理路径。在图10的示例中,客户端设备112包括处理器1 和存储器128。处理器160 — 般地表示能够执行存储在存储器130中的程序指令的任何设备。存储器130 —般地表示被配置为存储程序指令的任何存储器,该程序指令在被执行时促使处理器1 选择性地从网页页面提取网页内容或促使处理器1 请求由服务器设备116执行的远程应用做相同的事情。存储器130被示为包括OS (操作系统)130、驱动程序132和浏览器134。0S130 一般地表示诸如驱动程序132和浏览器134的其它程序或应用在其顶部上运行的任何软件平台。示例包括Linux 和Microsoft Windows 。驱动程序132—般地表示在被执行时控制打印机118、数据储存库120和显示设备122的操作的任何程序指令。特别地,驱动程序 132为OS 130和浏览程序134提供转换服务。驱动程序132将从OS 130和浏览器134接收到的一般命令转换成能够被外围设备118、120和122利用的设备特定命令。浏览器134 一般地表示在被执行时进行操作以通过驱动程序132的使用来从服务器设备114检索网页页面的任何程序指令,驱动程序132进行操作以引起网页页面的显示并打印网页页面。如上所指出的,图9的系统102的各种部件包括硬件和编程的组合。相对于图10, 可以通过处理器1 和/或服务器设备116来实现硬件部件。可以将编程元件实现为OS 130、驱动程序132、浏览器134和/或由服务器设备116执行的编程的一部分。操作图11 12是为了实现各种实施例所采取的步骤的示例性流程图。在讨论图11 12时,对图2 10的图进行参考以提供上下文示例。然而,实施方式不限于那些示例。从图11开始,在网页页面内检测分级结构(步骤136)。该结构包括多个分级地组织的节点。在给定示例中,结构是如在图3 5的示例中描绘的DOM (文档对象模型)。在图 9的示例中,结构引擎104负责实现步骤136。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现结构引擎104。从在步骤136中检测的结构的多个节点识别潜在的文章节点(步骤138)。在这样做时,检查多个节点以识别具有特性的那些节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。此类特性可以包括超过门限数目的词语或字符的文本量。 选择结构内的具有最高等级的潜在文章节点一即首先出现的潜在文章节点作为文章节点 (步骤140)。参考图9,文章引擎106负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现文章引擎106。产生来自所选文章节点的内容(步骤142)。产生可以包括打印、显示、经由电子消息传送、张贴到网站和保存到文件。参考图9,产生引擎108负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116 执行的编程来实现产生引擎108。
在步骤140中选择的文章节点可以不是包括所有文章内容。在这种情况下,识别所选文章节点的兄弟节点。将来自所选文章节点的内容与从那些兄弟节点提取的内容合并,并在步骤142中产生合并的内容。然而,某些兄弟节点可以包括在文章内容的主题外围的诸如广告和链接的内容。在产生合并的内容之前,识别那些兄弟节点,其包括在门限以下的数量的广告内容和文本内容中的一个或多个。可以例如通过搜索包括词语“广告”或“ad” 或其变体且如果有任何其他文本则很少的注释来识别包含广告内容的兄弟节点。将来自此类识别的一个或多个兄弟节点的内容从合并的内容中排除。移动至图12,在获得的网页页面内检测分级结构(步骤144)。该结构包括多个分级地组织的节点。在给定示例中,该结构是如在图3 5的示例中描绘的DOM(文档对象模型)。在图9的示例中,结构引擎104负责实现步骤144。参考图10,可以至少部分地经由 OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现结构引擎 104。从在步骤144中检测的结构的多个节点识别潜在的文章节点(步骤146)。在这样做时,检查多个节点以识别具有特性的那些节点,该特性指示节点包含直接与网页页面的主要主题有关的内容的可能性。此类特性可以包括超过门限数目的词语或字符的文本量。 选择在步骤144中检测的结构内的具有最高等级的潜在文章节点-即首先出现的潜在文章节点作为文章节点(步骤148)。从所选文章节点中提取内容(步骤150)。确定是否存在相关后续网页页面(步骤152)。此类网页页面包含作为所选文章节点的内容的继续的内容。兄弟节点可以包括与词语“下一个”或后续网页页面包含与所选文章节点的内容有关的内容的某个其它指示符的链接。因此,文章引擎106可以在步骤152 中针对包括链接和词语“下一个”或“继续”或“ 1”和“ 2 ”的内容检查所选文章节点的兄弟节点。在步骤152中的肯定确定时,获得后续网页页面(步骤154)且过程跳回至步骤144。 在这种情况下,可以在每次重复步骤150时从所选文章节点提取内容。在步骤152中的否定确定时,过程继续至步骤156,其中,将在步骤150中从在步骤148中选择的一个或多个文章节点提取的内容合并。参考图9,文章引擎106负责实现步骤146 156。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现文章引擎106。然后产生合并的内容(步骤142)。产生可以包括打印、显示、经由电子消息传送、张贴到网站和保存到文件。参考图9,产生引擎108负责实现步骤138和140。参考图10,可以至少部分地经由OS 130、驱动程序132、浏览器134或者甚至由服务器设备116执行的编程来实现产生引擎108。在步骤140中选择的一个或多个文章节点可以不包括所有文章内容。在这种情况下,识别所选文章节点的兄弟节点。在步骤150中提取来自那些兄弟节点的内容并在步骤 156中合并。然而,某些兄弟节点可以包括在文章内容的主题外围的诸如广告和链接的内容。在产生合并的内容之前,识别那些兄弟节点,其包括在门限以下的数量的广告内容和文本内容中的一个或多个。可以例如通过搜索包括词语“广告”或其变体且如果有任何其他文本则很少的注释来识别包含广告内容的兄弟节点。将来自此类识别的一个或多个兄弟节点的内容从步骤156的合并内容中排除。结论图1 8的图用来相对于示例性网页页面描绘选择性内容提取。然而,实施方式不受限制。图9 10示出了各种实施例的架构、功能和操作。图9 10中所示的各种部件被至少部分地定义为程序。每个此类部件、其部分或其各种组合可以整体地或部分地表示包含将实现一个(或多个)任何指定逻辑功能的一个或多个可执行指令的模块、段或代码部分。每个部件或其各种组合可以表示将实现一个(或多个)指定逻辑功能的电路或许多互连电路。并且,可以在供指令执行系统使用或与之有关的任何计算机可读介质中实施本发明,该指令执行系统诸如基于计算机/处理器的系统或ASIC (专用集成电路)或能够从计算机可读介质取出或获得逻辑并执行包含在其中的指令的其它系统。“计算机可读介质”可以是可以包含、存储或保持供指令执行系统使用或与之有关的程序和数据的任何介质。计算机可读介质可以包括许多物理介质中的任何一个,诸如,例如电子、磁性、光学、电磁或半导体介质。适当计算机可读介质的更具体示例包括但不限于诸如软盘或硬盘驱动器的便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程序只读存储器或便携式压缩盘。虽然图11 12的流程图示出执行的特定顺序,但执行的顺序可以与所描绘的顺序不同。例如,可以相对于所示的顺序扰乱两个或更多方框的执行的顺序。并且,可以同时地或部分同时地执行连续地示出的两个或更多方框。所有此类变型在本发明的范围内。已经参考前述示例性实施例示出并描述了本发明。然而,应理解的是在不脱离在以下权利要求中限定的本发明的精神和范围的情况下可以产生其它形式、细节和实施例。
权利要求
1.一种用于提取网页内容的方法,包括在网页页面内检测包括多个节点的分级结构; 从所述多个节点识别潜在文章节点;选择在分级结构中具有最高等级的所识别的潜在文章节点中的一个作为文章节点;以及产生从文章节点提取的内容。
2.权利要求1的方法还包括将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并;以及其中,产生包括产生合并的内容。
3.权利要求2的方法,还包括在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及将来自所识别的节点的内容从合并的内容中排除。
4.权利要求1的方法,其中,识别潜在文章节点包括识别所述多个节点中的一个或多个,其包含超过门限的数量的文本内容。
5.权利要求1的方法,其中,网页页面是第一网页页面且文章节点是第一文章节点,该方法还包括确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点; 在肯定确定时在第二网页页面内检测包括多个节点的分级结构; 从所述多个节点识别潜在文章节点;选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及从第二文章节点提取内容;以及其中,产生包括产生从第一和第二文章节点提取的内容。
6.一种具有记录在其上面的计算机可执行指令的计算机可读介质,其中,该指令在被执行时促使处理系统实现方法,该方法包括在网页页面内检测包括多个节点的分级结构; 从所述多个节点识别潜在文章节点;选择在分级结构中具有最高等级的所识别的潜在文章节点作为文章节点;以及产生从文章节点提取的内容。
7.权利要求6的介质,其中该方法包括将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并;以及产生包括产生合并的内容。
8.权利要求7的介质,其中,该方法包括在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及将来自所识别的节点的内容从合并的内容中排除。
9.权利要求6的介质,其中,识别潜在文章节点包括识别所述多个节点中的一个或多个,其包含超过门限的数量的文本内容。
10.权利要求6的介质,其中,网页页面是第一网页页面且文章节点是第一文章节点, 并且该方法包括确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点; 在肯定确定时在第二网页页面内检测包括多个节点的分级结构; 从所述多个节点识别潜在文章节点;选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及从第二文章节点提取内容;以及其中,产生包括产生从第一和第二文章节点提取的内容。
11.一种用于提取网页内容的系统,包括结构引擎,其可操作用于在网页页面内检测包括多个节点的分级结构; 文章引擎,其可操作用于从所述多个节点识别潜在文章节点以及选择在分级结构中具有最高等级的所识别的潜在文章节点作为文章节点;以及产生引擎,其可操作用于产生从文章节点提取的内容。
12.权利要求11的系统,其中文章引擎可操作用于将文章节点的内容与来自在与文章节点相同的分级水平处的其它节点的内容合并并提取合并的内容;以及所述产生引擎可操作用于产生合并的内容。
13.权利要求12的系统,其中,所述文章引擎可操作用于在与文章节点相同的分级水平处识别节点,该节点包含广告内容和在门限值以下的数量的文本内容中的一个或多个,以及将来自所识别的节点的内容从合并的内容中排除。
14.权利要求11的系统,其中,文章引擎可操作用于通过识别所述多个节点中的一个或多个来识别潜在文章节点,其包含超过门限值的数量的文本内容。
15.权利要求11的系统,其中,网页页面是第一网页页面且文章节点是第一文章节点, 并且文章引擎可操作用于确定第一网页页面是否包括包含指示第二网页页面的存在的内容的节点,所述第二网页页面包含具有作为第一文章节点内容的继续的内容的第二文章节点并且在肯定确定时促使结构引擎在第二网页页面内检测包括多个节点的分级结构; 从第二网页页面的所述多个节点识别潜在文章节点;选择在第二网页页面的分级结构上首先出现的所识别的潜在文章节点作为第二文章节点;以及促使产生引擎产生从第一和第二文章节点提取的内容。
全文摘要
一种用于提取网页内容的方法包括在网页页面内检测包括多个节点的分级结构。识别来自多个节点的潜在文章节点。将在分级结构中具有最高等级的所识别的潜在文章节点识别为文章节点。从文章节点提取内容。
文档编号G06F17/30GK102460432SQ200980160237
公开日2012年5月16日 申请日期2009年6月30日 优先权日2009年6月30日
发明者阿特金斯 C., 刘 J., 乔施 P., 刘 S., 熊 Y. 申请人:惠普开发有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1