提取网页内容的方法和装置的制作方法

文档序号:6461194阅读:275来源:国知局
专利名称:提取网页内容的方法和装置的制作方法
技术领域
本发明涉及网页处理,更具体地说,本发明涉及^是取网页内容的装置和方法。
背景技术
如今,因特网已经成为最大的信息来源,人们的日常生活越来越依赖于网络。随着网络的普及,网页内容提取(也称为网页分割)的应用越来越广泛。
举例来说,网页内容提取可以使得网页搜索的速度更快,结果更加精确。和传统的文本文档相比,网页的内容更加多样化,同一个网页的不同区域可以包含不同的主题。而且,出于浏览和发布的需要,网页中往往包含很多和主题无关的内容,如广告、导航条、装饰、版权信息以及联系方法等。由于网页的以上特征,相较于把整个网页作为一个信息检索单元,通过对网页进行分割,把每个分割单元作为独立的信息检索单元会使网页搜索结果更加精确。并且,通过网页分割可以排除与网页主题无关的内容,从而使网页搜索的速度更快,结果更加精确。
再例如,网页内容提取也可用于在手持设备上浏览网页。近年来,手持
设备,如掌上电脑、个人数字助理(PDA)、移动电话等发展迅速。但是使用手持设备上网仍然很大程度上受到显示器过小的限制。传统的网页都是针对个人计算机设计的,对于手持设备用户来说,如果需要不停地滚动网页来寻找所需的信息,上网将变得枯燥和费事。通过网页分割,可以将网页的内容一块一块地显示在手持设备上,从而解决了这一问题。
此外,如果用户需要使用已有文档来产生新的文档,则对已有的版面进行分割是必不可少的步骤。
由于其广泛的应用背景,用户对于网页内容提取的需求很大。研究人员已经提出了一些用于网页内容提取的系统和方法。
例如,美国专利申请公开No. 2006/0149775A1 7>开了 一种基于文档的可视模型分割文档的方法。在该方法中,根据文档中可视的空白或间隙来确定可视模型,利用该可视模型确定文档的层次结构,并利用所确定的层次结构进行文档分割。但是对于那些逻辑结构和物理结构不一致的文档,该方法容易造成错误分割。
再例如,美国专利申请公开No. 2006/0106798A1公开了 一种自上而下的、和标签树无关的用于检测网页结构的方法。该方法基于目标的尺寸、位置、颜色以及背景等,通过投影的方法把文档分成若干块,之后,通过比较块之间的视觉相似程度来判断是否继续分为更小的块或与其他块合并。
现有的文档内容提取方法主要可以分为两类。第 一类方法专注于文档图像处理,通过图像处理的方法来实现文档内容提取,本文中将其称为文档图像处理(DIR)方法。第二类方法专注于文档文件格式分析,通过分析输入文件描述的文档结构来提取内容,本文中将这类方法称为数字文档分析(DDA )。但是无论是DDA方法还是DIR方法都有其自己的局限性。
参考文献
专利文献1:美国专利申请公开No. 2003/0215136A1, METHOD ANDSYSTEM FOR DOCUMENT SEGMENTATION, Hui Chao等,2003年11月20曰;
专利文献2:美国专利申请公开No. 2006/0149775A1, DOCUMENTSEGMENTATION BASED ON VISUAL GAPS, Daniel Egnor, 2006年7月6
曰;
专利文献3:美国专利申请公开No. 2006/0106798A1, VISION-BASEDDOCUMENT SEGMENTATION, Ji-Rong Wen等,2006年5月18日;
非专矛J文南夂1: JL Fisher, SC Hinds and DP D,amato, "A rule-based systemfor document image segmentation" , Proc. 10th ICPR,第567-572页,1990年7
月;
非专利文献2: Deng Cai, Shipeng Yu, Ji-Rong Wen and Wei—Ying Ma,"Extracting Content Structure for Web Pages based on Visual Representation" ,■The Fifth Asia Pacific Web Conference (APWeb2003), 2003年。

发明内容
本发明提出了 一种网页内容提取方法,其融和DDA和DIR方法的网页提取结果,从而产生比两种方法都更优的网页提取结果。本发明可用于网页检索,以及涉及网页分割、网页信息重用的文档解决方案。
根据本发明的一个方面, 一种用于提取网页内容的方法包括基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。其中,提取结果可以表示为至少一个目标的集合,所述目标代表与网页中的矩形区域相对应的网页内容,所述目标至少包含相应矩形区域的位置信息和该目标的类型信息,并且所迷类型包括文字、图片和表格。
根据本发明的一方面,所述融合DDA提取结果和DIR提取结果包括
确定DDA目标与DIR目标之间的?十应关系;基于DDA目标和DIR目标之
间的对应关系以及DDA目标和DIR目标的类型执行DDA提取结果与DIR
提取结果的融合。其中,确定DDA目标和DIR目标之间的对应关系包括计
算DDA目标与DIR目标的重叠尺度。如果DIR提取结果表示为G={G,,
G2, ...,GM}, DDA提取结果表示为D= {D!, D2, DN},则DDA目标与
DIR目标Gj的重叠尺度通过下式计算
j聽(G, n Z),) —爿冊(G,nD》
一~以及" ' , / = 1,2,.",A/J = l,2,...,;v ,
其中,Area(Dj)是Dj对应的矩形区域的面积,Area(Gj)是对应的矩形区域的面积,Area(G.,nDj)是D:l对应的矩形区域与G;对应的矩形区域之间的重叠面积,并且N和M分別是DDA提取结果和DIR提取结果中的目标个数。
根据本发明的一方面,执行DDA提取结果与DIR提取结果的融合包括基于DDA目标和DIR目标之间的对应关系以及目标类型对DDA目标和DIR目标进行分类;以及按照目标的类别来融合DDA提取结果和DIR提取结果,从而产生融合结果。
才艮据本发明的以方面,对于一个DIR目标Gi,如果存在DDA目标Dp使得、^并且 "1,而且Gi和Dj的类型相同,则将该Gi和该Dj分类到匹配类;对于一个DIR目标Gj,如果存在DDA目标Dj,使得几*1并且 "1,而且G,和Dj的类型不同,则将该Gj和该Dj分类到类型错误类;对于一个DIR目标G,,如果对于所有DDA目标均有 "Q,则将该Gj分类到漏检类;对于一个DDA目标Dj,如果对于所有DIR目标均有、*0 ,则将该Dj分类到虛警
ii类;对于一个DIR目标Gi,如果Z 〉;,并且将与之重叠的DDA目标合并 后得到的合并目标与该Gi匹配,腐'将该Gi以及与该Gi重叠的DDA目标分类 到分割类,其中,T,是第一预定阈值;对于一个DDA目标D,,如果^>,/>7^, 并且将与之重叠的DIR目标合并后得到的合并目标与该D」匹配,j^'将该Dj 以及与之重叠的DIR目标分类到合并类,其中,丁2是第二预定阈值;以及将 不属于以上类别的DDA目标和DIR目标分类到其他类。
根据本发明的一方面,将匹配类中的DDA目标添加到融合结果中;将 类型错误类中的DIR目标的位置信息和相应的DDA目标的类型信息结合产 生一个新的目标,并把该新的目标添加到融合结果;将虛警类中所有的目标 都添加到融合结果中;将分割类中的DIR目标添加到融合结果中;对于合并 类,如果与DDA目标重叠的DIR目标都是图片类型的目标,则将相应的DIR 目标添加到融合结果中;如果与DDA目标重叠的DIR目标中既包括图片类 型的目标又包括文字类型的目标,则将相应的DDA目标添加到融合结果中; 如果与DDA目标重叠的DIR目标都是文字类型的目标,则将与DDA目标重 叠的DIR目标合并而成的合并目标添加到融合结果中;以及将其他类中的 DDA目标添加到融合结果中。
根据本发明的一方面,基于DDA方法提取输入网页的网页内容包括 提取输入网页的文档对象模型 (DOM)树,并至少保存DOM树中每个节点 的父节点、字节点、标签名称、内部文字和位置的属性信息;利用DOM树 分别提取输入网页中的文字目标、图片目标和表格目标。利用DOM树提取 文字目标包括对于DOM树中的每个节点,如果该节点的内部文字属性不 为空,而且该节点的子节点中不包含块节点,则确定该节点表示的元素为候 选文字目标;参考候选文字目标的属性信息对所确定的候选文字区域执行合 并操作,以得到文字目标,其中,如果节点的标签名称不是"INPUT"、 "!"、 "A',、 "B"、 "U"、 T、 "BIG"、 "SMALL" 、 "FONT" 、 "HR"、 "BR"、 "PRE"、 "TT,'、 "S"、 "BLOCKQUOTE" 、 "ADDRESS" 、 "DFN,, 、 "SAMP"、 "KBD"、 "VAR"、 "CODE"、 "CITE"、 "ABBR"、 "ACRONYM" 、 "SUB"、 "SUP"、 "INS"、 "DEL"、 "P"、 "EM"、 "TEXT"、 "STRONG"、 7A,,之一, 则该节点为块节点。对候选文字目标执行合并操作包括如果两个文字目标 在位置上重叠,则将它们合并为一个文字目标;如果一个文字目标被另夕l、一 个文字目标包含,则删除被包含的文字目标;如果两个文字目标所对应的矩形区域在垂直方向上位置相邻,并且它们的字体和文字高度属性相同,它们 的左边缘相近,而且宽度相似,则将它们合并为一个文字区域。
根据本发明的一方面,如果DOM树节点的标签名称是"IMG",并且其 尺寸大于第三预定阈值,则确定该节点为图片目标。如果DOM树节点的标 签名称为"TABLE",并且该DOM树节点包含至少3个"TR"子节点,而 且多数的"TR"子节点包含多于一个的"TD"子节点,则确定该节点为表格 区域。
根据本发明的另一方面,提供一种用于提取网页内容的装置,包括数 字文档分析■ ( DDA )网页内容提取单元,其基于DDA方法冲是取输入网页的 网页内容,产生DDA提取结果;文档图像识别(DIR)网页内容提取单元, 其基于DIR方法提取输入网页的网页内容,产生DIR提取结果;融合单元, 其融合所述DDA提取结果和DIR提取结果,产生融合结果。


图1是示出根据本发明实施例的网页内容提取装置的示例结构的框图2是示出根据本发明实施例的网页内容提取方法的流程图。
图3是示出图1中的DDA网页内容提取单元的示例结构的框图4示出了网页文件源码及其对应的DOM杉十的例子;
图5是示出根据本发明示例实施例的DDA网页内容提取方法的流程图6是示出图1中的结果融合单元的示例结构的框图7是示出根据本发明实施例的融合DDA和DIR提取结果的方法流程
图8A-8C分别示出了 DDA网页内容提取结果、DIR网页内容提取结果 和融合结果的示例;
具体实施例方式
下面将参照附图详细描述本发明的示例实施例。附图中,相似的附图标 记始终指代相似的元素。
图1是示出根据本发明实施例的网页内容提取装置100的示例性结构的 框图。根据本发明的示例实施例,网页内容提取装置100包括输入单元110、 DDA网页内容提取单元120、网页到图像转换单元130、 DIR网页内容提取单元以及DDA和DIR提取结果融合单元150。输入单元110用于输入网 页。在本发明的示例实施例中,输入的网页例如可以是超文本标记语言 (HTML )格式的网页文件。DDA网页内容提取单元120对输入网页进行基 于DDA方法的网页内容提取处理,产生并输出DDA网页内容提取结果。下 文中将参照图3对DDA网页内容提取单元进行更具体地描述。网页到图像转 换单元130接收输入网页,将其转换成具有与输入网页相同外观的图像文件 并输出。DIR网页内容提取单元140对该图像文件进行处理,产生并输出DIR 网页内容提取结果。这里,DIR网页内容提取单元可以使用任意的基于图像 处理的文档内容提取方法来进行提取。鉴于基于图像处理的文档内容提取方 法为公知技术,在此省略对DIR网页内容提取单元的详细描述。结果融合单 元150接收DDA和DIR网页内容提取结果,对两个结果进行比较,产生并 输出融合后的网页内容提取结果。下文中将参照图6对结果融合单元150进 行更详细地描述。在本发明的示例实施例中,网页内容提取结果可以表示为 目标集合,该集合中的每一个目标代表网页中一个矩形区域内的网页内容, 并且该目标可以包含该相应的网页内矩形区域的位置信息以及类型信息。在 本发明的示例实施例中,所述类型可以包括文字、表格和图片。
图2是示出根据本发明示例实施例的网页内容提取方法的流程图。参照 图2,在步骤S210输入网页文件,在步骤S220基于DDA方法提取输入网页 的内容,产生并输出包括至少一个目标(称为DDA目标)的DDA网页内容 提取结果。在步骤S230将输入网页转换成具有与输入网页相同外观的图像文 件,并在步骤S240基于DIR方法提取该图像文件的内容,产生并输出包括 至少一个目标(称为DIR目标)的DIR网页内容提取结果。最后,在步骤 S250将DDA提取结果和DIR提取结果进行比较,基于DDA目标与DIR目 标的对应关系以及目标类型来融合DDA提取结果和DIR提取结果,产生新 的目标集合作为最终的网页内容提取结果。应当注意,步骤S220与步骤 S230-S240可以以任意次序顺序执行,也可以并行执行。
下面,参照图3对DDA网页内容"R取单元120进行具体描述。图3是 示出根据本发明实施例的DDA网页内容提取单元120的示例结构的框图。
格和图片类型的网页内容(下文中称为文字区域、表格区域和图片区域),并 输出DDA网页内容提取结果。参照图3, DDA网页内容提取单元120包括
14文档目标模型(DOM)树提取单元310、文字区域提取单元320、图片区域 提取单元340、表格区域提取单元350和输出单元360。
DOM树提取单元310接收输入网页,-提取输入网页的DOM树。如上所 述,在本发明的示例实施例中,输入的网页可以是超文本标记语言(HTML) 格式的网页文件。DOM树是对应于输入网页的树形结构。网页中的每个元素 都被表示为该树形结构中的一个节点,并通过不同的路径连接到根节点。图 4示出了网页文件源码及其对应的DOM树的例子。DOM树提取单元310在 提取DOM树之后,保存网页中每个元素的父节点、子节点、标签名称、内 部文字以及位置信息等属性,并使所述属性可以被后续单元访问。注意,在 网页的源码中,元素的位置信息并没有被记录,DOM树提取单元310可以考 虑特定的网页浏览器,例如微软公司的Internet Explorer,计算出元素的位置 信息。在本发明的示例实施例中,DOM树提取单元310可以借助于微软公司 提供的COM接口 MSHTML来计算元素的位置信息。
文字区域提取单元320利用DOM树提取单元310提取的DOM树来提 取文字区域,并将所提取的文字区域输出给输出单元360。具体来说,文字 区域提取单元320包括候选文字区域提取单元321和候选文字区域合并单元 322。候选文字区域提取单元321通过DOM树访问每个网页元素,如果该元 素的内部文字属性不为空,而且该元素的子节点中不包含块节点,则候选文 字区域提取单元321确定(提取)该元素为候选文字区域,并将其添加到候 选文字区域序列中。这里,如果一个节点的标签名称不是"INPUT"、 "!"、 "A"、 "B"、 "U"、 T'、 "BIG"、 "SMALL" 、 "FONT"、 "HR"、 "BR"、 "PRE" 、 "TT"、 "S"、 "BLOCKQUOTE" 、 "ADDRESS" 、 "DFN"、 "SAMP"、 "KBD"、 "VAR"、 "CODE" 、 "CITE" 、 "ABBR" 、 "ACRONYM" 、 "SUB" 、 "SUP" 、 "INS" 、 "DEL"、 "P"、 "EM"、 "TEXT"、 "STRONG"、 "/A,,之一,则该节点被定义为块节点。 在访问了每一个网页元素之后,候选文字区域提取单元321将生成的候选文 字区域序列输出到候选文字区域合并单元322。候选文字区域合并单元322 参考候选文字区域的属性信息,对候选文字区域执行合并操作。例如,如果 两个文字区域在位置上重叠,则可以将它们合并为一个更大的文字区域。或 者,如果一个文字区域被另外一个文字区域包含,则可以删除较小的文字区 域。再例如,如果两个文字区域在垂直方向上位置相邻,字体以及文字高度 等属性相同,左边缘相近,并且宽度相似,则可以将它们合并为一个更大的文字区域。以上给出了合并单元执行合并操作所遵循的规则的例子,然而本
发明不限于此,也可以使用其它规则。文字区域合并单元322将合并后的文 字区域输出到输出单元360以作为文字类型的DDA目标。
图片区域提取单元340利用DOM树提取单元310提取的DOM树来提 取图片区域。在本发明的示例实施例中,图片区域提取单元340也可以对提 取文字区域之后DOM树中剩余的元素进行处理来提取图片区域。如果一个 元素的标签名称是"IMG",并且它的尺寸大于预定阈值,则确定该元素为图 片区域,并将所确定的图片区域输出到输出单元360以作为图片类型的DDA 目标。
表格区域提取单元350利用DOM树提取单元310提取的DOM树来提 取表格区域。在本发明的示例实施例中,表格区域提取单元350也可以对提 取文字区域和图片区域之后DOM树中剩余的元素进行处理来提取表格区域。 表格区域提取单元350可以将标签名称是"TABLE"的元素确定为表格区域。 或者,考虑到网页文件中"TABLE"元素经常被用来规范版面,而不是表示 真正的表格区域,因此,表格区域提取单元350也可以对标签名称为"TABLE" 的元素进行进一步地判断以确定表4各区域。例如,如果一个元素的标签名称 是"TABLE",并且包含至少3个"TR"子节点,而且多数的"TR"子节点 包含多于一个的"TD"子节点,则确定该元素为表格区域。表格区域提取单 元350将所提取的表格区域输出到输出单元360,以作为表格类型的DDA目 标。
输出单元360集合文字区域提取单元320、图片区域提取单元340和表 格区域提取单元350提取的DDA目标,以作为DDA网页内容提取结果输出。
以上,参照图3对DDA网页内容提取单元进行了详细描述。然而应当 理解,以上描述仅仅是示例性的,而非限制性的。本发明的DDA网页内容提 取单元也可以具有其它结构,或者采用其它的基于DDA的方法来提取网页内 容。
图5是示出根据本发明示例实施例的DDA网页内容提取方法的流程图。 参照图5,该DDA网页内容提取方法首先在步骤S510提取输入网页的DOM 树。在步骤S520,利用DOM树提取候选文字区域,并在步骤S530参考候选 文字区域的属性信息对候选文字区域执行合并操作,产生类型为文字的DDA 目标。在步骤S540,利用DOM树提取图片区域作为图片类型的DDA目标。在步骤S550,利用DOM树提取表格区域作为表格类型的DDA目标。在步 骤S560,集合文字、图片和表格类型的DDA目标以作为DDA网页内容提取 结果输出。注意,上述步骤S520 -S530、步骤S540和步骤S550被示为并行 执行。然而本发明不限于此,以上步骤也可以以任意次序顺序执行。
下面,参考图6对结果融合单元150进行详细描述。图6是示出根据本 发明示例实施例的结果融合单元150的示例结构的框图。结果融合单元150 接收DDA网页内容提取单元120输出的DDA网页内容提取结果(以下称为 DDA提取结果)和DIR网页内容提取单元140输出的DIR网页内容提取结 果(以下称为DIR提取结果),确定DDA目标和DIR目标之间的对应关系, 基于该对应关系和目标类型融合DDA提取结果和DIR提取结果,由此产生 更优的融合的网页内容提取结果(以下称为融合结果)。如图6所示,根据本 发明示例实施例的结果融合单元150可以包括对应关系确定单元610和融合 执行单元620。对应关系确定单元610接收DDA提取结果和DIR提取结果并 确定DDA目标和DIR目标之间的对应关系。在一种实现方式中,DDA目标 和DIR目标之间的对应关系可以表示为DDA目标和DIR目标所对应的矩形 区域的重叠尺度。如上所述,网页内容提取结果可以表示为代表网页内容的 目标的集合。在这里,将DIR提取结果表示为目标集合G:(G,,G2,…,GM〉, 将DDA提取结果表示为目标集合D-{D,, D2,…,DN},其中,每个目标G, 和每个目标Dj均对应于网页中的矩形区域,并且至少包含相应矩形区域的位 置信息和类型信息,M和N分别为DIR网页内容提取单元120和DDA网页 内容提取单元140提取的目标个数。则重叠尺度可以定义如下
<formula>formula see original document page 17</formula>
这里Area(Dj)是第j个DDA目标对应的矩形区域的面积,Area(Gi)是第i 个DIR目标对应的矩形区域的面积,Area(GinDj)是第i个DIR目标和第j个 DDA目标所对应的矩形区域之间的重叠面积。也就是说,对应关系确定单元 610计算任意Dj与Gi之间的重叠尺度。
融合执行单元620根据DDA目标和DIR目标之间的对应关系以及目标 类型来融合DDA提取结果和DIR提取结果。在一种实现方式中,融合执行 单元621可以包括分类单元621和选择单元622。分类单元根据重叠尺度和目标类型对DDA目标和DIR目标进行分类。如上所述,目标类型包括 文字、图片以及表格。在本发明的示例实施例中,分类单元620可以将DDA 目标和DIR目标分成如下7类
1) 、对于一个DIR目标Gi,如果存在DDA目标Dj,使得、"1并且 "1 , 而且Gi和Dj的类型相同(同为文字,图片或表格),则Gi和Dj被分类到匹 配类。
2) 、对于一个DIR目标Gi,如果存在一个DDA目标Dj,使得、^并且
而且Gi和Dj的类型不同,则将Gi和Di分类到类型错误类。
3) 、对于一个DIR目标Gi,如果对于所有DDA目标,均有 "0,也就 是说不存在与之重叠的DDA目标,则该Gi被分类到漏检类。
4) 、对于一个DDA目标Dj,如果对于所有DIR目标,均有、-0,也就 是说不存在与之重叠的DIR目标,则该Dj被分类到虚警类。
5) 、对于一个DIR目标Gi,如果^>,, 〉A,并且将与之重叠的DDA目标
合并后得到的合并目标与该Gi匹配,则将该Gi以及与该Gj重叠的DDA目标 分类到分割类,并将与该G,重叠的DDA目标定义为该Gi的分割。其中,T, 是可以由用户根据输入网页的特性以及用户的需求来预先确定的预定阈值, L越小,分类到分割类的目标越多。
6) 、对于一个DDA目标Dj,如果IX >r2,并且将与之重叠的DIR目标
合并后得到的合并目标与该Dj匹配,则将该D」以及与之重叠的DIR目标分 类到合并类,并将D,称为与Dj重叠的DIR目标的合并。其中,丁2是可以由 用户根据输入网页的特性以及用户的需求来预先确定的预定阈值,丁2越小, 分类到合并类的目标越多。
7) 、将剩余的不属于以上6类的DDA目标和DIR目标分类为其他类。 选择单元622根据分类单元621的分类结果选择目标以构成融合结果R
={Rh R2,…,R。并输出,其中,L为融合结果中目标的个数,从而实现对 DDA和DIR提取结果的融合。在本发明的示例实施例中,选择单元622可以 对不同的类别采取不同的融合策略。举例来说,对于匹配类中的每对目标, 选择单元622可以选择对应的DDA目标并将其添加到融合结果中;对于类型 错误类中的每对目标,选择单元622可以将DIR目标的位置信息和DDA目 标的类型信息结合产生一个新的目标,并把该新的目标添加到融合结果中。再例如,选择单元622可以简单地忽略漏;险类中所有的目标;并且将虛警类 中所有的目标都添加到融合结果中。此外,对于分割类,选择单元622可以 将其中的DIR目标添加到融合结果中。对于合并类中的每组目标,可以根据 目标类型来选择添加到融合结果中的目标。例如,如果与DDA目标(例如 Dj )重叠的至少一个DIR目标都是图片类型的目标,则将相应的至少一个DIR 目标添加到融合结果中;如果与DDA目标重叠的至少一个DIR目标中既包 括图片类型的目标又包括文字类型的目标,则将相应的DDA目标(例如Dj) 添加到融合结果中;如果与DDA目标(例如Dj)重叠的至少一个DIR目标 都是文字类型的目标,则将相应的至少一个DIR目标合并为新的目标,并将 该新的目标添加到融合结果中。对于其他类中的目标,选择单元622可以将 其中的DDA目标添加到融合结果中。
图7是示出根据本发明实施例的融合DDA提取结果和DIR提取结果的 方法流程图。在本发明实施例中,基于DDA目标和DIR目标的对应关系和 类型来对DDA提取结果和DIR提取结果进行融合。参照图7,首先,在步骤 S710接收DDA提取结果和DIR提取结果。然后在步骤S720确定DDA目标 和DIR目标之间的对应关系,该对应关系可以通过计算DDA目标和DIR目 标之间的重叠尺度来确定。在步骤S730,基于重叠尺度和目标类型来对DDA 目标和DIR目标进行分类。在步骤S740,基于类别和目标类型来确定包括在 最终的融合网页内容提取结果中的目标。
图8A-8C分别示出了 DDA网页内容提取结果、DIR网页内容提取结果 和融合结果的示例。例如,从图中可以看出,DDA提取结果中的D2到D5 过于精细,对应的DIR提取结果G2更好;而DIR提取结果漏掉了右下角的 页码信息,该信息被DDA方法检测到,为D13。本发明的网页内容提取装置 将DDA提取结果和DIR提取结果进行融合,从而能够得到更好的网页内容 提取结果,如图8C所示。
以上参照附图对本发明进行了描述。应当理解,以上内容仅仅是示例性 的,而非限制性的。本领域技术人员可以在不偏离权利要求书所限定的本发 明的精神和范围的前提下,对这里公开的装置和方法进行形式和细节上的各 种变更。
19
权利要求
1、一种用于提取网页内容的方法,包括基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。
2、 如权利要求1所述的方法,其中,所述提取结果包括至少一个目标, 所述目标代表与网页中的矩形区域相对应的网页内容,所述目标至少包含相 应矩形区域的位置信息和类型信息,并且所述类型包括文字、图片和表格。
3、 如权利要求2所述的方法,其中,所述融合DDA提取结果和DIR提 取结果包括确定DDA提取结果包含的DDA目标与DIR提取结果包含的DIR目标 之间的对应关系;基于所述对应关系以及目标类型执行DDA提取结果与DIR提取结果的 融合。
4、 如权利要求3所述的方法,其中,确定DDA目标和DIR目标之间的 对应关系包括计算DDA目标与DIR目标的重叠尺度。
5、 如权利要求4所述的方法,其中,DIR提取结果表示为G = {G,, G2,..., GM}, DDA提取结果表示为D= {Dl5D2, .,.,DN},则DDA目标Dj与DIR目 标Gi的重叠尺度通过下式计算y 以及" ^舰("》,/ = 1,2,"-,乾_/ = 1,2,".,^,其中,Area(Dj)是Dj对应的矩形区域的面积,Area(G;)是Gi对应的矩形区域的 面积,Area(GiHDj)是Dj对应的矩形区域与Gj对应的矩形区域之间的重叠面 积,并且N和M分别是DDA提取结果和DIR提取结果包含的目标个数。
6、 如权利要求5所述的方法,其中,基于所述对应关系和目标类型执行 DDA提取结果与DIR提取结杲的融合包括基于DDA目标和DIR目标之间的对应关系以及目标类型对DDA目标和 DIR目标进行分类;以及按照目标的类别来融合DDA提取结果和DIR提取结果,从而产生融合 结果。
7、如权利要求6所述的方法,其中,按照以下规则对DDA目标和DIR 目标进行分类对于一个DIR目标Gi,如果存在DDA目标Dj,使得、"并且 "1 ,而 且Gi和Dj的类型相同,则将该Gi和该Dj分类到匹配类;对于一个DIR目标Gi,如果存在DDA目标Dj,使得、"1并且 "1 ,而 且Gi和Di的类型不同,则将该G,和该Dj分类到类型错误类;对于一个DIR目标G,.,如果对于所有DDA目标均有 "0 ,则将该G, 分类到漏检类;对于一个DDA目标D」,如果对于所有DIR目标均有、《0,则将该Dj 分类到虚警类;对于一个DIR目标Gi,如果|>,, >石,并且将与之重叠的DDA目标合并后得到的合并目标与该Gi匹配,则将该G,以及与该Gi重叠的DDA目标分类 到分割类,其中,T,是第一预定阈值;对于一个DDA目标Dp如果|>,, 〉r2 ,并且将与之重叠的DIR目标合并后得到的合并目标与该Dj匹配,则将该Dj以及与之重叠的DIR目标分类到合并类,其中,T2是第二预定阔值;以及将不属于以上类别的DDA目标和DIR目标分类到其他类。
8、如权利要求7所述的方法,其中,按照目标的类别来融合DDA提取结果和DIR提取结果以产生融合结果包括将匹配类中的DDA目标添加到融合结果中;将类型错误类中的DIR目标的位置信息和相应的DDA目标的类型信息 结合产生一个新的目标,并把该新的目标添加到融合结果; 将虛警类中所有的目标都添加到融合结果中; 将分割类中的DIR目标添加到融合结果中;对于合并类,如果与DDA目标重叠的DIR目标都是图片类型的目标, 则将相应的DIR目标添加到融合结果中;如果与DDA目标重叠的DIR目标 中既包括图片类型的目标又包括文字类型的目标,则将相应的DDA目标添加 到融合结果中;如果与DDA目标重叠的DIR目标都是文字类型的目标,则将与DDA目标重叠的DIR目标合并而成的合并目标添加到融合结果中;以 及将其他类中的DDA目标添加到融合结果中。
9、 如权利要求2所述的方法,其中,基于DDA方法提取输入网页的网 页内容包括提取输入网页的文档对象模型(DOM)树,并至少保存DOM树中每个 节点的父节点、字节点、标签名称、内部文字和位置的属性信息;利用DOM树分别提取输入网页中的文字目标、图片目标和表格目标。
10、 如权利要求9所述的方法,其中,利用DOM树提取文字目标包括 对于 DOM 树中的每个节点, 如果该节点的内部文字属性不为空,而且该节点的子节点中不包含块节点,则确定该节点表示的元素为候选文字目标; 参考候选文字目标的属性信息对所确定的候选文字区域执行合并操作, 以得到文字目标,其中,如果节点的标签名称不是"INPUT"、 "!"、 "A"、 "B"、 "U"、 'T,、 "BIG"、 "SMALL" 、 "FONT"、 "HR"、 "BR"、 "PRE"、 "TT"、 "S"、 "BLOCKQUOTE" 、 "ADDRESS" 、 "DFN" 、 "SAMP"、 "KBD"、 "VAR"、 "CODE"、 "CITE"、 "ABBR"、 "ACRONYM" 、 "SUB"、 "SUP"、 "INS"、 "DF丄"、"P"、 "EM,'、 "TEXT"、 "STRONG"、 7A,,之一,则该节点为块节 点。
11、 如权利要求10所述的方法,其中,对候选文字目标执行合并操作包括如果两个文字目标在位置上重叠,则将它们合并为一个文字目标。
12、 如权利要求10所述的方法,其中,对候选文字目标执行合并操作包 括如果一个文字目标被另外一个文字目标包含,则删除被包含的文字目标。
13、 如权利要求10所述的方法,其中,对候选文字目标执行合并操作包括如果两个文字目标所对应的矩形区域在垂直方向上位置相邻,并且它们 的字体和文字高度属性相同,它们的左边缘相近,而且宽度相似,则将它们 合并为一个文字区域。
14、 如权利要求9所述的方法,其中,利用DOM树提取图片目标包括: 如果DOM树节点的标签名称是"IMG",并且其尺寸大于第三预定阈值,则确定该节点为图片目标。
15、 如权利要求9所述的方法,其中,利用DOM树提取表格目标包括 如果DOM树节点的标签名称为"TABLE",并且该DOM树节点包含至少3个"TR"子节点,而且多数的"TR"子节点包含多于一个的"TD"子 节点,则确定该节点为表格区域。
16、 一种用于提取网页内容的装置,包括数字文档分析(DDA)网页内容提取单元,其基于DDA方法提取输入 网页的网页内容,产生DDA提取结果;文档图像识别(DIR)网页内容提取单元,其基于DIR方法提取输入网 页的网页内容,产生DIR提取结果;融合单元,其融合所述DDA提取结果和DIR提取结果,产生融合结果。1
17、 如权利要求16所述的装置,其中,提取结果表示为至少一个目标的包含相应矩形区域的位置信息和类型信息,并且所述类型包括文字、图片和 表格。
18、 如权利要求17所述的装置,其中,所述融合单元包括对应关系确定单元,其确定DDA目标与DIR目标之间的对应关系; 融合执行单元,其基于DDA目标和DIR目标之间的对应关系以及DDA目标和DIR目标的类型执行DDA提取结果与DIR提取结果的融合,以生成融合结果。
19、 如权利要求18所述的装置,其中,所述对应关系确定单元通过计算 DDA目标与DIR目标的重叠尺度来确定DDA目标和DIR目标之间的对应关系。
20、 如权利要求19所述的装置,其中,DIR提取结果表示为G: (G,,G2,…, GM}, DDA提取结果表示为DHD,,D2, ...,DN},则DDA目标D;与DIR目 标G」的重叠尺度通过下式计算一~^簡(G,)^以及爿履(Z),), ,'二1,2,…,M,"1,2,…,A^ ,其中,Area(Dj)是D」对应的矩形区域的面积,Area(Gi)是Gi对应的矩形区域 的面积,Area(Gi门Di)是Dj对应的矩形区域与G;对应的矩形区域之间的重叠 面积,并且N和M分别是DDA提取结果和DIR提取结果中的目标个数。
21、 如权利要求18所述的装置,其中,所述融执行合单元包括 分类单元,其基于DDA目标和DIR目标之间的对应关系以及目标类型对DDA目标和DIR目标进行分类;以及选择单元,其按照DDA目标和DIR目标的类别来确定所述融合结果中 包含的目标。
22、 如权利要求21所述的装置,其中,所述分类单元按照以下规则对 DDA目标和DIR目标进行分类对于一个DIR目标G,,如果存在DDA目标D」,使得「, ftl并且 "1 ,而 且Gi和Dj的类型相同,则将该Gj和该D,分类到匹配类;对于一个DIR目标Gj,如果存在DDA目标Dj,使得U1并且 w1 ,而 且G,和Dj的类型不同,则将该Gi和该Di分类到类型错误类;对于一个DIR目标Gi,如果对于所有DDA目标均有 "0 ,则将该G, 分类到漏检类;对于一个DDA目标Dp如杲对于所有DIR目标均有、-0,则将该D, 分类到虛警类;对于一个DIR目标Gi,如果|>,, >7i ,并且将与之重叠的DDA目标合并后得到的合并目标与该Gi匹配,则将该Gi以及与该Gi重叠的DDA目标分类 到分割类,其中,T,是第一预定阈值;对于一个DDA目标D」,如果|>,,『2,并且将与之重叠的DIR目标合并后得到的合并目标与该Dj匹配,则将该D,以及与之重叠的DIR目标分类到合并类,其中,丁2是第二预定阈值;以及将不属于以上类别的DDA目标和DIR目标分类到其他类。
23、如权利要求22所述的装置,其中,所述选择单元如下确定融合结果中包括的目标将匹配类中的DDA目标添加到融合结果中;将类型错误类中的DIR目标的位置信息和相应的DDA目标的类型信息 结合产生一个新的目标,并把该新的目标添加到融合结果;将虛警类中所有的目标都添加到融合结果中; 将分割类中的DIR目标添加到融合结果中;对于合并类,如果与DDA目标重叠的DIR目标都是图片类型的目标, 则将相应的DIR目标添加到融合结果中;如果与DDA目标重叠的DIR目标 中既包括图片类型的目标又包括文字类型的目标,则将相应的DDA目标添加 到融合结果中;如果与DDA目标重叠的DIR目标都是文字类型的目标,则 将与DDA目标重叠的DIR目标合并而成的合并目标添加到融合结果中。;以 及将其他类中的DDA目标添加到融合结果中。
24、 如权利要求18所述的装置,其中,所述DDA网页内容提取单元包括文档对象模型(DOM)树提取单元,其提取输入网页的DOM树,并至 少保存DOM树中每个节点的父节点、字节点、标签名称、内部文字和位置 的属性信息;文字目标提取单元,其利用DOM树提取输入网页中的文字目标;图片目标提取单元,其利用DOM树提if又输入网页中的图片目标;以及表格目标提取单元,其利用DOM树提取输入网页中的表格目标。
25、 如权利要求24所述的装置,其中,根据所述文字目标提取单元包括 候选文字目标提取单元,对于DOM树中的每个节点,如果该节点的内部文字属性不为空,而且该节点的子节点中不包含块节点,则其确定该节点 表示的元素为候选文字目标;合并单元,其参考候选文字目标的属性信息对所确定的候选文字区域执行合并操作,以得到文字目标,其中,如果节点的标签名称不是"INPUT" 、 "!"、 "A"、 "B"、 "U"、 T、 "BIG"、 "SMALL" 、 "FONT"、 "HR"、 "BR" 、 "PRE"、 "TT"、 "S"、 "BLOCKQUOTE" 、 "ADDRESS", "DFN,, 、 "SAMP"、 "KBD,'、 "VAR"、 "CODE"、 "CITE"、 "ABBR"、 "ACRONYM" 、 "SUB"、 "SUP"、 "INS"、 "DEL',、 "P"、 "EM"、 "TEXT"、 "STRONG"、 "/A"之一,则该节点为块节,泉。
26、 如权利要求25所述的装置,其中,如果两个文字目标在位置上重叠, 则所述合并单元将它们合并为一个文字目标。
27、 如权利要求25所述的装置,其中,如果一个文字目标被另夕l、一个文 字目标包含,则所述合并单元删除被包含的文字目标。
28、 如权利要求25所述的装置,其中,如果两个文字目标所对应的矩形 区域在垂直方向上位置相邻,并且它们的字体和文字高度属性相同,它们的 左边缘相近,而且宽度相似,则所述合并单元将它们合并为一个文字区域。
29、 如权利要求24所述的装置,其中,如果DOM树节点的标签名称是 "IMG",并且其尺寸大于第三预定阈值,则所述图片目标提取单元确定该节 点为图片目标。
30、 如权利要求24所述的装置,其中,如果DOM树节点的标签名称为 "TABLE",并且该DOM树节点包含至少3个"TR"子节点,而且多数的 "TR"子节点包含多于一个的"TD"子节点,则所述表4^目标确定单元确定该节点为表格区域。
全文摘要
本发明提供一种用于提取网页内容的方法和装置。所述方法包括基于数字文档分析(DDA)方法提取输入网页的网页内容,产生DDA提取结果;基于文档图像识别(DIR)方法提取输入网页的网页内容,产生DIR提取结果;融合所述DDA提取结果和DIR提取结果,产生融合结果。根据本发明,能够得到比传统技术更优的网页提取结果。
文档编号G06F17/30GK101515272SQ20081008078
公开日2009年8月26日 申请日期2008年2月18日 优先权日2008年2月18日
发明者成 杜 申请人:株式会社理光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1