形成用于生成文档模板的合并树的方法以及装置的制作方法

文档序号:6608112阅读:149来源:国知局
专利名称:形成用于生成文档模板的合并树的方法以及装置的制作方法
技术领域
本发明总体上涉及计算机领域,更具体而言,涉及形成用于生成文档模板的合并树的方法以及装置。
背景技术
随着因特网和电子技术的飞速发展,人们不再受地域的限制,可以方便的在网上交换各种各样的信息。在大量用户的参与之下,网站(比如论坛、博客、产品目录网站等)的网页中存在大量的有用信息,这些信息不仅对于个人而且对于企业都有很好的使用价值。为了获得这些有用信息,需要下载网站中所包括的多个网页以进行进一步的分析提取。对于同一个网站的网页,大多数都具有相似的结构和组成,如果使用这些页面的模板,那么去除噪音后提取其中的有用信息,就会变得简单而精确。其中,如何生成正确的模板就成为其中的关键所在。而且,原来的模板生成通常是通过手工来实现的,但是由于站点的众多以及站点模板的变化,使得生成和长期维护一个模板成为一件费时而且费力的工作。

发明内容
针对上述情况,本发明的目的是提出一种通过对由多个页面解析成的多棵树进行比较和合并来形成合并树的方法,以提高使用合并树生成模板的准确率。此外,本发明的另一目的是提出一种通过对合并树根据节点的特征进行归纳和提取来生成站点网页的模板的方法,以使得模板的生产变得简单。按照本发明的一方面,提供了一种形成用于生成文档模板的合并树的方法,包括以下步骤相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。按照本发明的一方面,提供了一种形成用于生成文档模板的合并树的装置,包括相似度计算单元,配置成当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并单元,配置成使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理单元,配置成对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。根据本发明实施例的方法和装置可获得的一个益处是,通过合并由多个页面解析成的多棵树得到用于生成模板的合并树,能够提高生成模板的准确率。进一步,通过对合并树根据节点的特征进行归纳和提取,能够降低因为页面中的一些微小变化而导致生成错误模板的风险。此外,通过对一些参数的改变,可以提高不同情况下的准确率。可获得的另外益处是,通过对多个页面的归纳,可以明确地发现模板路径中容易发生变化的节点,通过把这些节点变化信息添加到路径模板中,可以减少以后提取信息的时间消耗和增加提取信息的准确率,从而增加了生成模板的灵活性。可获得的又一益处是,根据节点的特征进行信息路径的归纳和提取,使得模板的生产变得自动而简单,而且能够通过对抽取结果和原来存储结果的对比,从而及时发现其中的改变并修改发生变化的模板。


从对说明本发明的主旨及其使用的优选实施例和附图的以下描述来看,本发明的以上和其它目的、特点和优点将是易明白的。附图中的部件不一定成比例绘制,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,使其相对于在依据本发明的示例性装置中的其它部件变得更大。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1是示出了根据本发明实施例的用于生成文档模板的合并树的形成方法的流程简图;图2是示出了应用图1所示方法的一个具体例子的流程简图;图3是示出了在如图1所示实施例的方法的一个具体示例中所应用的相似度计算步骤的流程简图;图4是示出了在如图1所示的实施例的方法的一个具体示例中所应用的后处理步骤的流程简图;图5是示出了根据本发明的实施例的形成用于生成文档模板的合并树的装置的简化框图;以及图6是示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施例方式下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。图1是示出了根据本发明实施例的用于生成文档模板的合并树的形成方法100的流程简图。如图1所示,该方法开始于步骤S110。在相似度计算步骤S120,当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时,计算被比的两颗树中位于同一层的子树的相似度,以从被比的两颗树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点。在合并步骤S130,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点。然后,在后处理步骤S140,对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。下面参照图2-4详细地描述根据图1的实施例的方法的一个具体示例。图2是示出了应用了图1所示方法的一个具体例子的流程简图。如图2所示,在步骤S212,获取某一站点的η个页面例如η个主题页面,并把页面解析成η颗DOM(DocumentObject Model,文档对象模型)树(η > 1)。优选地,选取同一站点的η个URL(统一资源定位器)相似度最高的主题页面,以便提高生成模板的准确性。在一个示例中,可以通过网页下载程序实时地下载网页的源代码。在另一个示例中,还可以将下载的网页的源代码形成一个临时的网页文件预存在存储装置(例如计算机硬盘)中。网页的源代码可以是HTML格式的。通过解析网页的源代码,可以利用DOM技术来建立网页的DOM树结构。网页的DOM树结构中可以包括一个或多个节点。接着,在步骤S214,按照一定规则对DOM树进行诸如剪枝的预处理,以去除其中的常见干扰项,例如注释节点、脚本节点、框架节点、图片节点和显示表示节点等对于形成DOM合并树无用的节点。然后,在相似度计算步骤S220,把DOM树按层次进行比较,以找到同层相似子树。下面结合图3来示范性说明在根据本发明实施例的用于生成模板的合并树的形成方法中相似度计算步骤的流程。在图3所示的相似度计算步骤S320,首先在步骤S322,从η棵DOM树的任意两颗DOM树中各自顺序选取根节点相同的一颗子树作为用于比较的两颗子树,取出两颗子树的所有叶节点并为两颗子树分别形成叶节点列表。在步骤S3M,对于每个叶节点,根据该叶节点的所有父节点名称,形成从该叶节点至该叶节点所在子树的相应根节点的路径字符串,并且在步骤S325记录每个叶节点的父节点数目ΡΝ。接下来,在步骤,找出两颗子树中叶节点名称相同的路径中的相同路径(相同路径字符串),并确定所述相同路径在两颗子树中分别存在的数目LN。过程进行到步骤S327,通过把两颗子树的叶节点列表中路径字符串相同的叶节点进行合并来合并两颗子树的叶节点列表,以生成一个总叶节点列表,其中总叶节点列表中的叶节点数目为N,表示两颗子树中路径字符串互不相同(路径不同)的叶节点的数目之和。然后,在步骤,按照下面的公式(1),计算两颗子树的相似度A。
j^PN^LN^LN^A = -χ logmax PNi(1)
^PNi(LNa-LNi2)
i=\其中PNi表示总叶节点列表中第i个叶节点的父节点的数目,max PNi表示针对两颗子树的所有叶节点的父节点数目的最大值,i为整数(i =。...,吣,以及!!^和I^i2分别表示两颗子树的第一颗子树和第二颗子树中针对第i个叶节点的路径中相同路径的数目。在所有叶节点的LNil和LNi2 (i = 1,...,N)分别相等的情况下,上述公式⑴中的分子被取成预定值,例如0. 1 0. 5范围内的某个值。如果相似度A大于或等于预定相似度阈值(第一阈值),则确定被比的两颗子树为相似子树,否则为不相似子树。在判定两颗子树相似的情况下,从被比的两颗DOM树中顺次地各自选取根节点相同的下一颗子树进行比较,直到两颗DOM树的所有层的子树都进行了比较为止。另一方面,在判定两颗子树不相似的情况下,把第二颗DOM树的当前被比子树的具有相同根节点的下一颗子树选为待比较子树,与第一颗DOM树的当前被比子树进行比较,以判断是否为相似子树。在所选取的第二颗DOM树的子树为某一层的最后一颗子树的情况下,可以在该层循环选取子树,从而把当与第一颗DOM树的其他子树进行比较时已被确定为不相似子树的在前子树选为待比较子树。按照上述方法,对两颗DOM树的每一层的子树进行比较,以提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点。接下来,在合并步骤S230,根据相似子树进行树合并,以生成第一 DOM合并树。具体地,按照一定规则把两颗DOM树的相似子树进行合并;而对于被比的两颗DOM树中确定为不相似子树的子树,则原样保留在第一 DOM合并树中。在一个实施例中,可以按照如下方式把两颗DOM树的相似子树进行合并把相似子树中对应的根节点作为合并树的根节点,同时修改该节点的权值,例如把两颗子树的根节点各自的权值与相似度相加来得到合并树的根节点的权值,权值的初始值例如设为0,以及合并节点对应的参数(相同的参数只保留一次即可)和对应的文本内容;根节点合并后,当前两颗子树的子树采用同样的方式依次合并,如此循环直到所有的节点合并完成。在DOM树的数目大于2的情况下(η > 2),过程返回相似度计算步骤S220,从η棵DOM树中再选取一颗DOM树与第一 DOM合并树进行比较,以自这两颗被比DOM树中提取相似子树和该些相似子树的公共根节点。接下来,过程进行到合并步骤S230,使用提取的相似子树和该些相似子树的公共根节点来形成第二 DOM合并树。如此循环进行相似度计算步骤和合并步骤的处理,直到η棵DOM树中的所有DOM树被选取为止。通过此过程,生成了初始合并树。初始合并树的路径部分,由所有DOM树的公共路径部分组成。也就是说,初始合并树以最深公共根节点作为父节点,添加从其他树提取的子树作为其子树。在一替换实施例中,可以首先在相似度计算步骤S220中把η棵DOM树中的每两颗DOM树进行比较,并且在合并步骤S230中把η棵DOM树进行两两合并,以得到第一合并树。在DOM树的数目大于2的情况下(η >幻,过程返回相似度计算步骤S220,把通过两两合并得到的第一合并树中的每两颗第一合并树进行比较,并且在合并步骤S230中把第一合并树进行两两合并。如此循环进行相似度计算步骤和合并步骤的处理,直到最终得到一颗合并树,以作为初始合并树。接下来,过程进行到后处理步骤S240,根据一定规则和特征对初始合并树进行后处理,以通过去除无效子树来获得DOM合并树。下面结合图4来示范性说明在根据本发明实施例的用于生成文档模板的合并树的形成方法中后处理步骤的流程。在图4所示的后处理步骤S440中,首先在步骤S442,取初始合并树中一个节点并得到该节点的所有属性和权值。在一个实施例中,权值是相似度计算步骤中得到的涉及以该节点为根节点的子树的所有次比较的全部相似度之和。在另一实施例中,权值是全部相似度之和经过归一化处理后得到的归一化值。属性例如是文本内容、节点原有的参数。在步骤S444中根据属性去除干扰节点后,过程进行到步骤S446,根据权值与截断阈值(第二阈值)和窗口阈值(第三阈值)的大小关系对初始合并树进行处理。具体地,对于权值小于截断阈值的节点,丢弃以该节点为根节点的子树,对于权值大于窗口阈值的节点则保留。而对于权值大于或等于截断阈值但是小于或等于窗口阈值的节点,则在步骤S448中,根据某些特征对这些节点进行验证。所依据的特征例如是文本特征、参数特征、节点类型特征。此后,过程进行到步骤S449,对于验证通过的节点,提高其权值并保留,而对于验证未通过的节点则丢弃以该节点为根节点的子树,以消除误判和/或错误累加。在上述实施例中,在使用所有DOM树形成初始合并树之后再进行后处理,以去除无效子树。在另一实施例中,在DOM树的数目较大的情况下,可以在初始合并树的形成过程中增加另外的用于去除无效子树的后处理,以简化后续处理。例如,在对使用η/2颗DOM树形成的第(n/2-l)合并树进行去除无效子树的后处理之后,再使用剩余的η/2颗DOM树进行相似度计算步骤和合并步骤的处理。然后,过程进行到步骤S250。在步骤S250,首先从DOM合并树中选取有效信息节点。例如可以通过如下方式提取有效信息节点从DOM合并树的子树中提取所有叶子节点,生成路径并得到路径总数;先按照路径进行分类得到相同路径,再对相同路径按照所对应的所有节点的文本内容进行分类;计算相同路径中按照文本内容的分类数量与路径总数的比率,比率越大说明内容变化越大,就越有可能是有效信息路径,否则就是框架无用信息。接下来,根据选取的节点的特征对DOM合并树进行归纳和提取,以选取需要的信息路径,所述特征可以包括参数特征、节点类型特征和文本特征中的至少一种。在一个实施例中,节点的信息路径可以是字符串形式的。所述信息路径可以包括有关从相应的DOM树结构的根节点到某个节点的信息,具体而言,包括从所述根节点到达该节点要经过的各节点的信息。在一个示例中,信息可以包括节点的名称(如标签)、顺序号等。所述顺序号指示节点在相应的DOM树结构中的位置。在一个示例中,所述顺序号可以指示节点在相应的DOM树结构的所属层中的位置。根据节点特征对DOM树进行归纳和提取是本领域技术人员公知的技术,细节不再赘述。之后,保存选取的信息路径,从而生成页面模板。当生成了所有所选择节点的信息路径后,也就获得了包括这些节点的信息路径的页面模板。在一个示例中,所生成的模板可以是XML(Extensible Markup Language,可扩展标记语言)文件格式的。然后,过程进行到步骤S^K),使用生成的模板从多个页面提取信息,并在步骤S262中判断提取信息的正确率与预定阈值之间的关系。如果正确率大于预定阈值,则判定所生成的模板为正确模板,过程结束。否则判定DOM合并树错误并更改参数,例如相似度阈值、截断阈值或窗口阈值,过程返回相似度计算步骤S220,重新确定相似子树。在上述的形成用于生成文档模板的合并树的方法的各个实施例中,使用文档对象模型(DOM)树结构进行了说明。本领域技术人员能够理解,页面也可以被解析成能够从节点提取出所需特征的其他类型的树,例如标签树。再者,本发明另外的实施例还提供了一种形成用于生成文档模板的合并树的装置。图5示出了这种装置500的简化框图。如图所示,该装置500包括相似度计算单元520,配置成当从由η个页面解析成的η棵树(例如DOM树)中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点;以及合并单元530,配置成使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理单元M0,配置成对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。对于树的数目大于2的情况(η > 2),相似度计算单元所进行的处理和合并单元进行的处理循环进行。在一个实施例中,相似度计算单元520把η棵树中的第一颗树与第二颗树进行比较,以自第一和第二颗树提取相似子树和该些相似子树的公共根节点,并且合并单元530使用提取的相似子树和该些相似子树的公共根节点来形成第一合并树。接着,相似度计算单元520把η棵树中的第三颗树与第一合并树进行比较,以提取相似子树和公共根节点,并且合并单元530使用提取的相似子树和公共根节点来形成第二合并树。如此进行循环。最后,相似度计算单元520把η棵树中的第η颗树与第(n-幻合并树进行比较,以提取相似子树和公共根节点,并且合并单元530使用提取的相似子树和公共根节点来形成第(η-1)合并树,作为初始合并树。上述图5中示出的装置500及其所包括的各个单元520-530,可以被配置成执行上面参照图1-4所描述的各种操作。关于这些操作的进一步细节,可以参考以上描述的各个实施例具体实施方式
和实例,这里不再详细描述。上面已通过框图、流程图和/或实施例进行了详细描述,阐明了根据本发明的实施例的装置和/或方法的不同实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。例如,上述装置500中各个组成模块、单元、子单元可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能。图6示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM) 603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、R0M602和RAM 603经由总线604彼此连接。输入/输出接口 605也连接到总线604。下述部件也连接到输入/输出接口 605 输入部分606 (包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608 (包括硬盘等)、通信部分609 (包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口 605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。因此,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的各种方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本发明的公开中。在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。通过上面对本发明的实施例的描述可知,本发明涵盖的技术方案包括但不限于如下附记所描述的内容附记1. 一种形成用于生成文档模板的合并树的方法,包括以下步骤相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。附记2.按照附记1所述的方法,其中相似度计算步骤和合并步骤包括把多棵树中的第一树与多棵树中的第二树进行比较,以使用自第一和第二树提取的相似子树和该些相似子树的公共根节点来形成第一合并树;以及把第η树与第(η-2)合并树进行比较,以使用自第η树和第(η_2)合并树提取的相似子树和该些相似子树的公共根节点来形成第(η-1)合并树,其中η是大于等于3的整数。附记3.按照附记1或2所述的方法,其中相似度计算步骤包括从被比的两颗树中各自顺序选取根节点相同的一颗子树作为用于比较的两颗子树,形成从两颗子树中每颗子树的所有叶节点至该颗子树的根节点的路径,分别确定两颗子树中叶节点的名称相同的所述路径中相同路径的数目,以及根据以下公式计算两颗子树的相似度A
权利要求
1.一种形成用于生成文档模板的合并树的方法,包括以下步骤相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。
2.按照权利要求1所述的方法,其中相似度计算步骤和合并步骤包括把多棵树中的第一树与多棵树中的第二树进行比较,以使用自第一和第二树提取的相似子树和该些相似子树的公共根节点来形成第一合并树;以及把第η树与第(η-2)合并树进行比较,以使用自第η树和第(η_2)合并树提取的相似子树和该些相似子树的公共根节点来形成第(η-1)合并树,其中η是大于等于3的整数。
3.按照权利要求1或2所述的方法,其中相似度计算步骤包括从被比的两颗树中各自顺序选取根节点相同的一颗子树作为用于比较的两颗子树,形成从两颗子树中每颗子树的所有叶节点至该颗子树的根节点的路径,分别确定两颗子树中叶节点的名称相同的所述路径中相同路径的数目,以及根据以下公式计算两颗子树的相似度A
4.按照权利要求1-3中任一项所述的形成方法,其中后处理步骤包括对于其根节点具有落入等于或大于预定第二阈值且等于或小于预定第三阈值的阈值范围内的与所述相似度有关的权值的所述初始合并树的子树进行处理,以便消除误判和/或错误累加。
5.按照权利要求1-4中任一项所述的形成方法,还包括对解析成的多棵树进行预处理的步骤,以去除对于形成合并树没有作用的节点。
6.按照权利要求1-5中任一项所述的形成方法,还包括后处理步骤之后的归纳和提取步骤,用于根据合并树的节点的特征,对合并树进行归纳和提取处理,以选取需要的信息路径。
7.按照权利要求6所述的形成方法,其中所述特征包括参数特征、节点类型特征和文本特征中的至少一种。
8.按照权利要求6或7所述的形成方法,还包括根据所选取的需要的信息路径来生成文档模板的步骤。
9.一种形成用于生成文档模板的合并树的装置,包括相似度计算单元,配置成当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并单元,配置成使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理单元,配置成对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。
10.按照权利要求9所述的装置,其中相似度计算单元和合并单元包括相似度循环计算子单元和循环合并子单元,以及所述相似度循环计算子单元和循环合并子单元配置成把多棵树中的第一树与多棵树中的第二树进行比较,以使用自第一和第二树提取的相似子树和该些相似子树的公共根节点来形成第一合并树;以及把第η树与第(η-2)合并树进行比较,以使用自第η树和第(η_2)合并树提取的相似子树和该些相似子树的公共根节点来形成第(η-1)合并树,其中η是大于等于3的整数。
全文摘要
本发明涉及一种形成用于生成文档模板的合并树的方法以及装置,所述方法包括以下步骤相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。
文档编号G06F17/30GK102375847SQ20101026074
公开日2012年3月14日 申请日期2010年8月17日 优先权日2010年8月17日
发明者于浩, 夏迎炬, 孟遥, 王新文 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1