网页内容提取方法和装置的制作方法

文档序号:6578190阅读:394来源:国知局
专利名称:网页内容提取方法和装置的制作方法
技术领域
本发明涉及互联网信息处理领域及图像处理领域,特别涉及一种基于视觉布局分 析的网页内容提取方法和装置,其通过应用图像处理的文档布局分析技术和自然语言处理 的相关统计技术来完成对网页正文内容的自动提取。
背景技术
当前,互联网已经成为现有信息系统的主要信息来源之一。由于互联网的开放性 和用户的随意性,Web网页在存在大量有价值的信息的同时也存在大量诸如导航、版权、广 告等与正文无关的噪声信息。噪声信息的存在使得后续信息服务的数据质量无法保证。从 网页中提取有价值的内容来保证数据质量无疑可以为后续的网页信息处理应用奠定基础。 在信息搜索、信息过滤、文本分类、文本聚类、文摘等应用中,去除掉网页中的噪声信息,提 取网页的内容是非常重要的一步。比如在信息搜索中,在去除掉噪声信息的网页内容基础 上建立索引可以有效地提高搜索的准确率;而在信息过滤、文本分类、文本聚类和网页自动 摘要等应用中,准确的网页内容对系统的性能有很大的提升作用。网页内容提取技术经历了长时间的发展,演化出了多种方法,这些方法大致可以 分为以下几类基于用户设计的特定语言来开发提取网页内容的包装器的方法;基于HTML 文档的树结构(D0M树或标签树),通过自动或半自动的方法来推导提取内容的包装器的 方法;基于自然语言处理相关技术的提取方法;以及基于已标注样本学习的包装器推导方 法;基于Ontology的内容提取方法。上述的分类方法只是众多分类方法中的一种,各种分类方法的界限并不是截然分 明的,现有的很多方法也通常是多种技术的有机结合。在传统的提取网页正文的方法中,虽然考虑了网页的布局信息,但其采用的方法 都是从DOM树推导出来的一种伪布局,DOM树中的节点的顺序与显示的布局之间有很大的 差异,所以传统的方法得到的布局只是对网页的一种粗略的分块,从而经常造成提取内容 的部分缺失和噪音夹杂的问题。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定 本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简 化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。鉴于现有技术的上述情形,本发明的目的是提供一种基于视觉布局分析的网页内 容提取方法和装置,其通过应用图像处理的文档布局分析技术和自然语言处理的相关统计 技术来完成对网页正文内容的自动提取,从而能够有效地克服或减轻现有技术中的上述技 术问题。为了实现上述目的,根据本发明的一方面,提供了一种网页内容提取方法,其包括
5如下步骤对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每 个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立 所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布 局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布 局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内 容。根据本发明的另一方面,还提供了一种网页内容提取装置,其包括布局分析单 元,用于对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;布局块识 别单元,用于对每个布局块进行光学字符识别,以生成所述布局块中的识别文本;网页分析 单元,用于对所述网页进行分析,以建立所述网页的文档对象模型树;文本节点映射单元, 用于利用所述文档对象模型树中的文本节点的真实文本与所述布局块中的识别文本之间 的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及网 页内容提取单元,用于至少利用所述布局块在所述网页中的位置信息来提取所述网页的正 文内容。根据本发明的另一方面,还提供了用于实现上述网页内容提取方法的计算机程序
女口
广 PFt O根据本发明的另一方面,还提供了计算机可读介质,其上记录有用于实现上述网 页内容提取方法的计算机程序代码。在本发明的上述技术方案中,可以使用基于图像的文档布局分析技术对网页进行 视觉布局分割,从某种意义上来说该方案模拟了用户浏览网页时对网页布局的第一感知, 克服了传统方案中从网页的文档对象模型(DOM)树来推导出网页分块的不确定性,复杂程 度相比之下也大大降低,同时,还结合了自然语言处理的相关技术来完成对网页内容的提 取,提高了提取内容的正确性。由上可知,本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形 成了一个全自动、高效、准确的网页内容提取方案。


本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中 在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下 面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明 的优选实施例和解释本发明的原理和优点。在附图中图1示出了根据本发明实施例的网页内容提取方法的总体流程图;图2具体示出了图1所示的步骤SllO的视觉布局分析处理的流程图;图3示出了对示例性输入网页进行视觉布局分析处理的示意图;图4示出了与图3的输入网页相对应的DOM树及其中的文本节点的示意图;图5具体示出了图1所示的步骤S140的文本节点映射处理的流程图;图6示出了布局块的坐标示意图;以及 图7示出了根据本发明实施例的网页内容提取装置的框图。 本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,
6而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以 便有助于提高对本发明实施例的理解。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明 关系不大的其它细节。下面参照附图详细描述根据本发明实施例的网页内容提取方法。图1示出了根据本发明实施例的网页内容提取方法的总体流程图。首先,在步骤S110,对网页的图片进行视觉布局分析,以将所述图片分割为至少一 个布局块。接下来,在步骤S120,对每个布局块进行光学字符识别(OCR),以生成所述布局块 的识别文本。接下来,在步骤S130,对所述网页进行分析,以建立所述网页的文档对象模型 (DOM)树。接下来,在步骤S140,利用所述文档对象模型树中的文本节点的真实文本与所述 布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述 布局块之一中。最后,在步骤S150中,至少利用所述布局块在所述网页中的位置信息来提取所述 网页的正文内容。下面结合附图对根据本发明实施例的网页提取方法的各个步骤的具体实施方式
进行详细描述。但是,本领域的技术人员应当清楚,本发明不局限于下述具体实施方式
。根据本发明的一个具体实施例,图1所示的步骤SllO的视觉布局分析处理的流程 图如图2所示,其具体包括在步骤S210,将输入的网页转存为图片;以及在步骤S220,利用基于图像的布局分析算法,对图片进行区域布局划分。步骤S220中的处理所采用的布局分析算法例如可以采用现有技术中公知的各 种基于图像的文档布局分析算法,例如“Whitespace cover”算法。该算法通过寻找图 像中的最大空白区域来完成各区域的界定与分割,具体实现请参见Τ. M. Breuel所著的 ”Two geometric algorithms for layoutanalysis,,(Workshop on Document Analysis Systems, 2002)。通过基于图像的布局分析算法,完成对网页的布局分割,形成各布局块,并 给出各布局块在网页中的坐标信息。这样,可以很直观地模拟出用户浏览网页时对于网页 布局的视觉感知与定位,较之传统的基于DOM树来反推网页布局的方法更加直接,更加准确。图3示出了对示例性输入网页进行视觉布局分析处理的示意图,其中该图的上半部分 示意性地示出了输入网页,而下半部分示意性地示出了所产生的各布局块及其中的识别文 本。对于图1的步骤S130中的网页分析处理,其基本做法就是,依次读入网页的内容, 识别每一个HTML标签的名称、类别、参数和内容,以树状结构进行存储,从而形成网页的 DOM树。该过程对于本领域的技术人员是熟知的,在此不再赘述。图4示出了与图3的输入 网页相对应的DOM树及其中的文本节点的示意图。根据本发明的一个具体实施例,图1所示的步骤S140的文本节点映射处理的流 程图如图2所示,其具体包括在步骤S610,根据自然语言处理中的η元语法统计技术,形 成与所述文本节点的真实文本相对应的η元短语集合;在步骤S620,对于每个布局块,通过 将所述η元短语集合中的短语包含在所述布局块的识别文本中的数目除以所述η元短语 集合中的总短语数目来计算所述布局块相对于所述文本节点的短语包含率;以及,在步骤 S630,将所述文本节点映射到其短语包含率大于预定阈值的布局块中。对于步骤S610的处理,η元短语集合可以以字为单位来形成,也可以以词为单位 来形成。在η元短语集合以词为单位形成的情况下,需要首先对文本节点的真实文本进行 分词。举例来说,假设文本节点的真实文本为“视觉布局分析”,且η为3的情况下,则在以 字为单位的情况下,其3元短语集合为{ “视觉布”,“觉布局”,“布局分”,“局分析” },而在 以词为单位的情况下,“视觉布局分析”首先经分词为“视觉”、“布局”和“分析”这三个词, 因而其3元短语集合为{ “视觉布局分析” }。对于步骤S620的处理,遍历所有的布局块,计算布局块相对于当前文本节点的短 语包含率。具体地说,首先,对于当前文本节点的η元短语集合中的每个短语,判断其是否 能够在布局块的识别文本中搜索到。如果能够搜索到,则将相应的计数值增1。在处理完 该η元短语集合中的所有短语后,将最终得到的计数值除以η元短语集合中的短语总数来 算出布局块相对于当前文本节点的短语包含率。对于步骤S630的处理,预定阈值可以根据经验调整,优选地可以设为0. 8。可选地,如果当前文本节点在任一布局块中的短语包含率都小于预定阈值,则该 文本节点不被映射到任何布局块。在这种情况下,可以查找与当前文本节点相邻的已被映 射文本节点,并且将当前文本节点映射到所找出的相邻文本节点所被映射的布局块中,从 而可以将DOM树中的所有文本节点都一一映射到某个布局块中。由于位于DOM树同一层上的文本节点,即编号连续的节点通常在网页显示时其中 的内容也是上下接续的,因此查找与当前文本节点相邻的已被映射文本节点优选地可以通 过以下方式来实现首先,对网页的DOM树中的各个文本节点按照广度优先的次序进行顺序编号。优 选地,该处理可以在步骤S130分析网页来建立DOM树时一并完成。例如,图4示出了与图 3的输入网页相对应的DOM树中各个文本节点的编号;然后,查找其编号与当前文本节点的编号连续的已被映射文本节点,作为与当前 文本节点相邻的已被映射文本节点,即,其编号比当前文本节点的编号大1或小1的已被映 射文本节点。根据本发明的一个具体实施例,图1的步骤S150中的网页提取处理具体包括根
8据布局块在网页中的位置坐标信息,判定布局块是否位于网页的预定区域,优选地是网页 的中间区域;以及至少根据判定的结果来提取所述网页的正文内容。具体地说,首先,根据各布局块在网页中的坐标信息过滤掉网页的边缘布局块。人 们习惯于将网页的内容放在网页的相对中央的部分,边缘的布局块多为一些广告、导航、相 关链接等信息,这类布局块中含有网页正文的几率很小。假定网页的布局块及网页本身的 坐标如图6所示,则可以分别在X轴及Y轴方向上设定阈值参数来过滤布局块,如布局块的 坐标满足如下两对条件,则认为该布局块为候选正文块,否则认为该布局块不包含网页的 正文内容条件 1 :Xl/w > a&&x2/w < b条件 2 =Y1A > c&&y2/h < d其中,a、b、C、d四个阈值可以根据欲提取内容的网页的类型及经验设定。优选地,在确定了候选正文块以后,可以根据在本技术领域内公知的各种手段,对 候选各块进行进一步的判断,以决定其是否可以作为正文内容被提取出来。例如,在决策的过程中,可以采用链接正文比和/或DOM树节点的标签属性来判断 其是否是正文。所谓的链接正文比是指布局块内容中包含链接的文字的长度!^-与整个布 局块包含内容的长度Ln。de的比例R R = Llink/Lnode如果R大于预定阈值,则认为该块包含的文字非正文,因为其链接文字的长度过 大,极有可能是相关链接及其他形式的噪音内容。该预定阈值可以根据网页的类型及经验 设定。同时,根据DOM树节点的标签属性来进一步过滤布局块,对于一些常用的用户交互式 的节点,如〈input〉、〈select〉、〈option〉、<form>等标签,这些标签主要是用来与用户进行 交互使用,不构成网页的内容,因此,如果一个布局块中全部为此类节点或者有部分此类节 点,则将该布局块或布局块中这些节点对应的内容过滤掉,得到最终的网页内容。虽然上面结合附图详细描述了根据本发明实施例的网页提取方法,但是本领域的 技术人员应当明白,图1所示的流程图仅仅是示例性的,并且可以根据实际应用和具体要 求的不同,对图1所示的方法流程进行相应的修改。根据需要,可以对图1所示的方法中的某些步骤的执行顺序进行调整,或者可以 省去或者添加某些处理步骤。例如,虽然图3中示出了网页分析处理(即,步骤S130)在视 觉布局分析处理和布局块识别处理(即,步骤SllO和S120)之后执行,但是显然它们也可 以并行执行,或者是颠倒顺序地执行。根据本发明的上述技术方案,可以基于图像的布局分析得到相对精确的网页布 局,同时利用OCR技术获得布局块中的大致内容,再结合自然语言处理中的相关技术完成 对布局块真实内容的恢复和最终的网页正文内容的提取,这种方法适合任何类型的网页, 不需要针对不同的网站进行特殊处理,同时,该方法得到的布局更接近于用户浏览网页时 的视觉感知,更能准确的反映出网页中主体内容所在的位置,在充分利用了布局位置信息 和自然语言处理中的η元短语(n-gram)统计技术的基础上,最大程度上保证了提取内容的 完整性和正确性,很好地克服了传统方法中经常造成提取内容的部分缺失和噪音夹杂的问 题。下面将结合附图描述根据本发明实施例的网页提取装置。图7示出了根据本发明
9实施例的网页提取装置700的框图,其中,为了简明起见仅仅示出了与本发明密切相关的 部分。在网页提取装置700中,能够执行以上参考图1所描述的网页接入方法。如图7所示,网页提取装置700可以包括布局分析单元710、布局块文本识别单元 720、网页分析单元730、文本节点映射单元740以及网页内容提取单元750。其中,布局分析单元710可以对网页的图片进行视觉布局分析,以将所述图片分 割为至少一个布局块。布局块文本识别单元720可以对每个布局块进行光学字符识别,以 生成所述布局块中的识别文本。网页分析单元730可以对所述网页进行分析,以建立所述 网页的文档对象模型树。文本节点映射单元740可以利用所述文档对象模型树中的文本节 点的真实文本与所述布局块中的识别文本之间的对应关系,将所述文档对象模型树中的每 个文本节点映射到所述布局块之一中。网页内容提取单元750可以至少利用所述布局块在 所述网页中的位置信息来提取所述网页的正文内容。在本发明的一个具体实施例中,布局分析单元710可以进一步包括网页转存单 元,用于将所述网页转存为所述图片;以及布局划分单元,用于利用基于图像的布局分析算 法,对所述图片进行区域布局划分。在本发明的一个具体实施例中,文本节点映射单元740可以进一步包括n元短语 集合形成单元,用于根据自然语言处理中的η元语法统计技术,形成与所述文本节点的真 实文本相对应的η元短语集合;短语包含率计算单元,用于对于每个布局块通过将所述η元 短语集合中的短语包含在所述布局块的识别文本中的数目除以所述η元短语集合中的总 短语数目来计算所述布局块相对于所述文本节点的短语包含率;以及第一映射单元,用于 将所述文本节点映射到其短语包含率大于预定阈值的布局块中。在本发明的一个具体实施例中,文本节点映射单元740还可以包括相邻节点查 找单元,用于如果所述文本节点未被映射到任一布局块中,则查找与所述文本节点相邻的 已被映射文本节点;以及第二映射单元,用于将所述文本节点映射到所找出的相邻文本节 点所被映射的布局块中。在本发明的一个具体实施例中,相邻节点查找单元可以进一步包括文本节点编 号单元,用于对所述文档对象模型树中的各个文本节点按照广度优先的次序进行顺序编 号;以及查找单元,用于查找其编号与所述文本节点的编号连续的已被映射文本节点,作为 与所述文本节点相邻的所述已被映射文本节点。在本发明的一个具体实施例中,网页内容提取单元750可以进一步包括区域判 定单元,用于根据所述布局块在所述网页中的位置坐标信息,判定所述布局块是否位于所 述网页的预定区域;以及提取单元,用于至少根据所述区域判定单元作出的判定结果来提 取所述网页的正文内容。在本发明的一个具体实施例中,提取单元还利用所述布局块中所包含的文字长度 与所包含的链接文字的长度的比例以及所述文本节点的属性中的一个或两者来提取所述 网页的正文内容。由于在上文中已经参照方法的流程图对网页提取装置700的各个组成部件的具 体和/或可选处理过程进行了描述,因此,在此为了避免重复,就不再对它们的操作和处理 过程进行详述了。在此需要说明的是,图7所示的网页提取装置700的结构仅仅是示例性的,本领域
10技术人员可以根据需要对图7所示的结构框图进行修改。此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可 读的存储介质中的计算机可执行程序的方式实现。而且,本发明的目的也可以通过下述方式实现将存储有上述可执行程序代码的 存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理 单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则 本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释 器执行的程序或者提供给操作系统的脚本程序等。上述这些机器可读存储介质包括但不限于各种存储器和存储单元,半导体设备, 磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。另外,计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序 代码下载和安装到计算机中然后执行该程序,也可以实现本发明。在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。 这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以 自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤 可以并行或彼此独立地执行。以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实 施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可 以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的 范围仅由所附的权利要求及其等效含义来限定。
权利要求
一种网页内容提取方法,包括如下步骤对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。
2.根据权利要求1所述的网页内容提取方法,其中对网页的图片进行视觉布局分析进 一步包括将所述网页转存为所述图片;以及利用基于图像的布局分析算法,对所述图片进行区域布局划分。
3.根据权利要求1所述的网页内容提取方法,其中将所述文档对象模型树中的每个文 本节点映射到所述布局块之一中进一步包括根据自然语言处理中的η元语法统计技术,形成与所述文本节点的真实文本相对应的 η元短语集合;对于每个布局块,通过将所述η元短语集合中的短语包含在所述布局块的识别文本中 的数目除以所述η元短语集合中的总短语数目来计算所述布局块相对于所述文本节点的 短语包含率;以及将所述文本节点映射到其短语包含率大于预定阈值的布局块中。
4.根据权利要求3所述的网页内容提取方法,其中将所述文档对象模型树中的每个文 本节点映射到所述布局块之一中还包括如果所述文本节点未被映射到任一布局块中,则查找与所述文本节点相邻的已被映射 文本节点;以及将所述文本节点映射到所找出的相邻文本节点所被映射的布局块中。
5.根据权利要求4所述的网页内容提取方法,其中查找与所述文本节点相邻的已被映 射节点进一步包括对所述文档对象模型树中的各个文本节点按照广度优先的次序进行顺序编号;以及查找其编号与所述文本节点的编号连续的已被映射文本节点,作为与所述文本节点相 邻的所述已被映射文本节点。
6.根据权利要求1所述的网页内容提取方法,其中至少利用所述布局块在所述网页中 的位置信息来提取所述网页的正文内容进一步包括根据所述布局块在所述网页中的位置坐标信息,判定所述布局块是否位于所述网页的 预定区域;以及至少根据所述判定的结果来提取所述网页的正文内容。
7.根据权利要求6所述的网页内容提取方法,其中至少利用所述布局块在所述网页中 的位置信息来提取所述网页的正文内容还包括利用所述布局块中所包含的文字长度与所包含的链接文字的长度的比例以及所述文 本节点的属性中的一个或两者来提取所述网页的正文内容。
8.—种网页内容提取装置,包括布局分析单元,用于对网页的图片进行视觉布局分析,以将所述图片分割为至少一个 布局块;布局块识别单元,用于对每个布局块进行光学字符识别,以生成所述布局块中的识别 文本;网页分析单元,用于对所述网页进行分析,以建立所述网页的文档对象模型树; 文本节点映射单元,用于利用所述文档对象模型树中的文本节点的真实文本与所述布 局块中的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述 布局块之一中;以及网页内容提取单元,用于至少利用所述布局块在所述网页中的位置信息来提取所述网 页的正文内容。
9.根据权利要求8所述的网页内容提取装置,其中所述布局分析单元进一步包括 网页转存单元,用于将所述网页转存为所述图片;以及布局划分单元,用于利用基于图像的布局分析算法,对所述图片进行区域布局划分。
10.根据权利要求8所述的网页内容提取装置,其中所述文本节点映射单元进一步包括η元短语集合形成单元,用于根据自然语言处理中的η元语法统计技术,形成与所述文 本节点的真实文本相对应的η元短语集合;短语包含率计算单元,用于对于每个布局块通过将所述η元短语集合中的短语包含在 所述布局块的识别文本中的数目除以所述η元短语集合中的总短语数目来计算所述布局 块相对于所述文本节点的短语包含率;以及第一映射单元,用于将所述文本节点映射到其短语包含率大于预定阈值的布局块中。
11.根据权利要求10所述的网页内容提取装置,其中所述文本节点映射单元还包括 相邻节点查找单元,用于如果所述文本节点未被映射到任一布局块中,则查找与所述文本节点相邻的已被映射文本节点;以及第二映射单元,用于将所述文本节点映射到所找出的相邻文本节点所被映射的布局块中。
12.根据权利要求11所述的网页内容提取装置,其中所述相邻节点查找单元进一步包括文本节点编号单元,用于对所述文档对象模型树中的各个文本节点按照广度优先的次 序进行顺序编号;以及查找单元,用于查找其编号与所述文本节点的编号连续的已被映射文本节点,作为与 所述文本节点相邻的所述已被映射文本节点。
13.根据权利要求8所述的网页内容提取装置,其中所述网页内容提取单元进一步包括区域判定单元,用于根据所述布局块在所述网页中的位置坐标信息,判定所述布局块 是否位于所述网页的预定区域;以及提取单元,用于至少根据所述区域判定单元作出的判定结果来提取所述网页的正文内容。
14.根据权利要求13所述的网页内容提取装置,其中所述提取单元还利用所述布局块中所包含的文字长度与所包含的链接文字的长度的比例以及所述文本节点的属性中的一 个或两者来提取所述网页的正文内容。
全文摘要
本发明公开了一种网页内容提取方法和装置,其中该网页内容提取方法,包括如下步骤对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。
文档编号G06F17/30GK101937438SQ20091013974
公开日2011年1月5日 申请日期2009年6月30日 优先权日2009年6月30日
发明者于浩, 付雷, 孙俊, 孟遥 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1