一种智能提取文档结构的方法及系统的制作方法

文档序号:6585231阅读:159来源:国知局
专利名称:一种智能提取文档结构的方法及系统的制作方法
技术领域
本发明涉及电子文档数据处理领域,尤其涉及一种智能提取文档结构的方法及系统。
背景技术
随着IT应用的深入普及,各行各业都积累了大量的信息资源,这些信息资源都以 电子文档数据的形式保存。科学管理和合理开发这些内部和外部信息资源已经成为企业正 确决策、增强竞争力的关键。如何有效地从这些信息资源的电子文档数据内容中获取结构 化的内容,也是许多计算机应用开发所需要解决的关键问题。比如,现在各个出版社都有大 量的历史书籍资源,而且书籍的格式是多种多样的,出版社需要把历史资源结构化后入库, 然后对这些结构化的资源进行再加工和利用,可以发布到网页html格式,pdf格式等。目前,对信息资源的内容结构化方法主要是通过人工以储存、流程、元数据 (Metadata)为要件来制作系统。储存多以关联式数据库的方式,也有的以一般数据文件方 式储存,或者是根据需要两种方式并存。在储存方式中,通常使用专门软件对特定数据字段 进行录入,这种方法的缺点是进行录入的数据字段受软件限制,而且需要手工录入,不容易 实现自动化加工。另外还有一种使用类似XML编辑器的软件进行内容结构化加工的方法, 这种方法的缺点是只能对纯内容的数据进行结构化,无法带入原文档内容的版式信息和样 式fe息。因此,在申请号为200810238994. 4的中国专利申请“一种基于样式的内容结构化 方法及系统”中提出了一种内容结构化的自动加工方法。该方法根据需要结构化的文档建 立内容结构化体系,然后建立样式与结构化关键字的对应关系,最后解析该文档提取内容 形成结构化内容,从而完成内容结构化的加工。但是,由于这种方法完全依据段落样式进行 结构化,所以仅能针对设置了段落样式的文档进行提取,而对于非段落样式的文档片段无 法正确提取。也就是说,这种方法仅能对特定格式的文档进行结构化,而不能适用于任意文 档格式的结构化加工。

发明内容
为了解决现有技术中存在的以上问题,本发明提供一种智能提取文档结构的方法 及系统,以实现对任意文档格式内容的结构化自动加工方法。为了实现以上目的,本发明提供的智能提取文档结构的方法包括以下步骤小样 分析步骤,即,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性建立各 部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系;文档结构 化步骤,即,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形成按照结构 化关键字表达的结构化内容。所述关键属性可包括字体样式、段落样式、文字属性和标题级别。所述结构化关 键字是可以任意指定的,可以是但不限于是表示所述关键属性和/或特殊文字内容的关键 字。提取规则和结构化关键字之间的关系也是可以任意指定的。
此外,还可由用户自行设置提取规则和结构化关键字。具体地,向用户提供小样中 所包含的各部分内容及其关键属性,然后,用户根据所提供的信息建立各部分的提取规则 及其相对应的结构化关键字以及结构化关键字之间的层次关系。用户还可根据不同的需要 对所建立的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系进行 添加、删除或更新等修改操作。优选地,在建立或修改提取规则和结构化关键字时,可执行以下步骤对小样应用 用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结 构化内容,并将该结构化内容显示给用户;用户根据显示的结构化内容对所设置的提取规 则和结构化关键字进行调整,直到所形成的结构化内容满足用户要求为止。此外,为了能够以统一的结构化方法处理任意格式的文档,将小样或文档转化为 作为中间结果的逻辑树,然后对该具有一致规范的逻辑树应用统一的方法进行结构化。在这种情况下,所述小样分析步骤包括以下步骤根据待提取结构的文档的小样 生成包含该小样的各部分内容及其关键属性的逻辑树,并依据该逻辑树中所包含的各部分 内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字 之间的层次关系。所述文档结构化步骤包括以下步骤根据待提取结构的文档生成包含该 文档的各部分内容及其关键属性的逻辑树,并对该逻辑树应用所建立的提取规则,提取该 文档的内容形成按照结构化关键字表达的结构化内容。在用户设置提取规则和结构化关键字的过程中,向用户提供根据小样生成的逻辑 树中所包含的各部分内容及其关键属性,然后,用户根据所提供的信息建立或修改各部分 的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。相应地,本发明提供一种智能提取文档结构的系统,该系统包括文档输入单元, 输入文档小样和待处理文档,并将文档小样发送给分析单元,将待处理文档发送给结构化 单元;分析单元,依据从文档输入单元接收的文档小样中所包含的各部分内容及其关键属 性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系, 并将建立的提取规则和结构化关键字作为系统默认的提取规则和结构化关键字发送给结 构化单元;结构化单元,对从文档输入单元接收的待处理文档应用从分析单元接收的提取 规则,提取该文档的内容形成按照从分析单元接收的结构化关键字表达的结构化内容,并 将所形成的结构化内容发送给文档输出单元;文档输出单元,输出从结构化单元接收的结 构化内容。。优选地,该系统还可包括用户设置界面,用户通过这个界面设置或修改提取规则 及其相对应的结构化关键字以及结构化关键字之间的层次关系,并将用户设置的提取规则 和结构化关键字发送给结构化单元。本发明依据文档中的样式(包括文字样式和段落样式)、文字属性、文字内容、标 题级别等属性设置一些简单的提取规则,并根据这些规则智能提取文档中的结构化信息, 从而实现任意文档格式的结构化自动加工。另一方面,用户仅通过简单的操作就可自行设 置提取规则,提取丰富的文档结构,灵活性强。


图1是根据本发明的第一实施例的智能提取文档结构的方法的流程图2是一个文档小样的示例;图3是对图2所示的小样生成的结构化内容;图4是根据本发明的第二实施例的智能提取文档结构的方法的流程图;图5是对图2所示的小样生成的结构化内容;图6是根据本发明的智能提取文档结构的系统的框图;图7是根据本发明的智能提取文档结构的另一系统的框图。
具体实施例方式下面,将结合实施例和附图对本发明进行详细描述。(第一实施例)图1是根据本发明的第一实施例的智能提取文档结构的方法的流程图。参照图1, 该方法包括以下步骤步骤Sl、小样分析步骤在该步骤中,依据待提取结构的文档的小样中所包含的各部分内容及其关键属性 建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,也 就是说,所建立的各个部分的提取规则和结构化关键字应能体现出该部分的内容和/或关 键属性。其中,关键属性可以是,但不限于,字体样式、段落样式、文字属性和标题级别。提 取规则可以依据小样中各部分内容的文字内容设置,还可以,但不限于,依据各部分内容的 关键属性设置。结构化关键字可以是,但不限于是,表示关键属性和/或特殊文字内容的关 键字。并且,提取规则和结构化关键字之间的关系也是可以任意指定的。这样,本发明能够 依据各类文档的各种属性形成文档内容的结构化体系,而不仅适用于设置了段落样式的文 档格式。也即是说,本发明可应用于任意文档格式的结构化加工。步骤S2、文档结构化步骤在该步骤中,对待提取结构的文档应用所建立的提取规则,提取该文档的内容形 成按照结构化关键字表达的结构化内容。这样,通过已经设置好的提取规则和结构化关键 字,就自动完成了文档的结构化加工。这里,需要指出的是,在小样分析步骤Sl中,对于不需要提取结构的部分内容,可 不建立提取规则。相应地,在文档结构化步骤S2中,不提取这些部分内容形成结构化内容。此外,为了实现文档结构的个性化提取,还可由用户设置各部分的提取规则及其 相对应的结构化关键字以及结构化关键字之间的层次关系。具体地讲,向用户提供小样中 所包含的各部分内容及其关键属性,比如,字体、字号、样式等,然后,用户根据所提供的信 息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系。 另外,用户还可根据不同的需要对所建立的提取规则及其相对应的结构化关键字以及结构 化关键字之间的层次关系进行添加、删除或更新等修改操作,从而实现该方法对任意文档 格式的适用性。也就是说,对于一些类似的文档格式,只需修改所建立的少部分提取规则和 结构化关键字,而不需要全部重新设置。优选地,在用户建立或修改提取规则和结构化关键字时,对小样应用用户所设置 的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的结构化内容,并将该结构化内容显示给用户。然后,用户根据显示的结构化内容对所设置的提取规则和 结构化关键字进行调整,直到所形成的结构化内容满足用户要求为止。通过上述交互方法,用户可根据需要自行设置提取规则和结构化关键字,从而实 现个性化提取。另外,由于为用户提供文档小样中用到的字体、字号、样式等,用户仅通过简 单的设置就可提取合适的规则和结构化关键字。这里,不限于用户从所提供的信息中选择 其中一个,用户还可根据所提供的信息自定义一些提取规则和结构化关键字,提取规则和 结构化关键字之间的对应关系,即,映射关系也可任意指定。但是,优选地,一个结构化关键 字可以与多个提取规则映射,而一个提取规则只能与与一个结构化关键字映射。以下将结合一个具体的示例对本实施例进行进一步的说明。在该示例中,以图2 所示的排版文档作为小样,形成一个按照用户自定义的结构化关键字表达的结构化内容。首先,依据图2所示小样中所包含的各部分内容和关键属性,建立文档结构的提 取规则及其相对应的结构化关键字,也就是说,建立文档结构的提取规则和结构化关键字 之间的映射关系。如上所述,可根据标题级别属性、固定样式属性、特殊文字内容或不同文 字颜色属性等各种属性建立该小样的各个部分的提取规则和结构化关键字。在该示例中, 用户建立如表1所示的提取规则和结构化关键字的映射表。表1提取规则与结构化关键字的映射表
权利要求
1.一种智能提取文档结构的方法,包括以下步骤小样分析步骤,即,依据待提取结构的文档的小样中所包含的各部分内容及其关键 属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关 系;文档结构化步骤,即,对待提取结构的文档应用所建立的提取规则,提取该文档的内容 形成按照结构化关键字表达的结构化内容。
2.根据权利要求1所述的方法,其特征在于,所述小样分析步骤包括以下步骤向用户提供小样中所包含的各部分内容及其关键属性;用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构 化关键字之间的层次关系。
3.根据权利要求2所述的方法,其特征在于,还包括用户根据不同的需要对所建立的提取规则及其相对应的结构化关键字以及结构化关 键字之间的层次关系进行添加、删除或更新等修改操作。
4.根据权利要求2或3所述的方法,其特征在于,在用户建立或修改提取规则和结构化 关键字时,执行以下步骤对小样应用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化 关键字表达的结构化内容,并将该结构化内容显示给用户;用户根据显示的结构化内容对所设置的提取规则和结构化关键字进行调整,直到所形 成的结构化内容满足用户要求为止。
5.根据权利要求1所述的方法,其特征在于,所述文档结构化步骤包括以下步骤遍历所述文档的每个部分,使用所建立的提取规则进行关键属性的匹配,如果匹配成 功则提取该部分的内容并使用与该提取规则对应的结构化关键字进行结构化,匹配不成功 的就是不需要提取的内容。
6.根据权利要求1所述的方法,其特征在于,所述关键属性包括字体样式、段落样式、 文字属性和标题级别
7.根据权利要求1所述的方法,其特征在于,所述结构化关键字包括表示所述关键属 性和/或特殊文字内容的关键字,并且,提取规则和结构化关键字之间的关系也是可以任 意指定的。
8.根据权利要求1所述的方法,其特征在于,所述小样分析步骤包括以下步骤根据待提取结构的文档的小样生成包含该小样的各部分内容及其关键属性的逻辑树, 并依据该逻辑树中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应 的结构化关键字以及结构化关键字之间的层次关系;在这种情况下,所述文档结构化步骤包括以下步骤根据待提取结构的文档生成包含该文档的各部分内容及其关键属性的逻辑树,并对该 逻辑树应用所建立的提取规则,提取该文档的内容形成按照结构化关键字表达的结构化内容。
9.根据权利要求8所述的方法,其特征在于,所述小样分析步骤中建立提取规则和结 构化关键字的步骤包括以下步骤向用户提供根据小样生成的逻辑树中所包含的各部分内容及其关键属性;用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字以及结构 化关键字之间的层次关系。
10.根据权利要求8所述的方法,其特征在于,所述逻辑树为XML树,该XML树中的每个 节点中分别包含文档的一个部分的内容及其关键属性。
11.一种智能提取文档结构的系统,包括文档输入单元,输入文档小样和待处理文档,并将文档小样发送给分析单元,将待处理 文档发送给结构化单元;分析单元,依据从文档输入单元接收的文档小样中所包含的各部分内容及其关键属性 建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次关系,并 将建立的提取规则和结构化关键字作为系统默认的提取规则和结构化关键字发送给结构 化单元;结构化单元,对从文档输入单元接收的待处理文档应用从分析单元接收的提取规则, 提取该文档的内容形成按照从分析单元接收的结构化关键字表达的结构化内容,并将所形 成的结构化内容发送给文档输出单元;文档输出单元,输出从结构化单元接收的结构化内容。
12.根据权利要求11所述的系统,其特征在于,还包括用户设置界面,分析单元将小样 中所包含的各部分内容及其关键属性发送给用户设置界面以显示给用户;用户根据所提供 的信息建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间的层次 关系,并将建立的提取规则和结构化关键字发送给结构化单元。
13.根据权利要求12所述的系统,其特征在于,用户根据不同的需要通过用户设置界 面对所设置的提取规则和结构化关键字进行添加、删除或更新等修改操作,并将修改的提 取规则和结构化关键字发送给结构化单元。
14.根据权利要求12或13所述的系统,其特征在于,在结构化单元从用户设置界面 接收到提取规则和结构化关键字时,结构化单元从文档输入单元读取小样,并对该小样应 用用户所设置的提取规则,提取该小样的内容形成按照用户所设置的结构化关键字表达的 结构化内容,并将该结构化内容作为预览内容传送给用户设置界面以在用户设置界面上显 示;用户根据从结构化单元接收的预览内容对所设置的提取规则和结构化关键字进行调 整,并将调整后的提取规则和结构化关键字又发送给结构化单元,结构化单元再次对小样 应用经过用户调整的提取规则,生成结构化内容,然后再次作为预览内容发送给用户设置 界面以显示给用户,如此反复操作,直到所形成的结构化内容满足用户要求为止。
15.根据权利要求14所述的系统,其特征在于,所述结构化单元执行以下操作遍历文档小样或待处理文档的每个部分,使用从分析单元接收的系统默认提取规则或 者由用户通过用户设置界面建立的提取规则进行关键属性的匹配,如果匹配成功则提取该 部分的内容并使用与该提取规则对应的结构化关键字进行结构化,匹配不成功的就是不需 要提取的内容。
16.根据权利要求11所述的系统,其特征在于,还包括逻辑树生成单元,将从文档输入单元接收的文档小样或待处理文档生成包含其各部分 内容及其关键属性的逻辑树,并将生成的逻辑树发送给分析单元和结构化单元,在这种情况下,分析单元依据从逻辑树生成单元接收的逻辑树中所包含的各部分内容及其关键属性建立各部分的提取规则及其相对应的结构化关键字以及结构化关键字之间 的层次关系,并将其作为系统默认的提取规则和结构化关键字发送给结构化单元,结构化单元对从逻辑树生成单元接收的逻辑树应用从分析单元接收的提取规则,提取 逻辑树中所包含的各部分内容形成按照从分析单元接收的结构化关键字表达的结构化内容。
17.根据权利要求16所述的系统,其特征在于,还包括用户设置界面,分析单元将从 逻辑树生成单元接收的逻辑树中所包含的各部分内容及其关键属性发送给用户设置界面 以显示给用户;用户根据所提供的信息建立各部分的提取规则及其相对应的结构化关键字 以及结构化关键字之间的层次关系,并将建立的提取规则和结构化关键字发送给结构化单兀。
18.根据权利要求17所述的系统,其特征在于,在结构化单元从用户设置界面接收到 提取规则和结构化关键字时,结构化单元从逻辑树生成单元读取小样的逻辑树,并对该逻 辑树应用用户所设置的提取规则,提取该逻辑树中所包含的各部分内容形成按照用户所设 置的结构化关键字表达的结构化内容,并将该结构化内容作为预览内容传送给用户设置界 面以在用户设置界面上显示;用户根据从结构化单元接收的预览内容对所设置的提取规则 和结构化关键字进行调整,并将调整后的提取规则和结构化关键字又发送给结构化单元, 结构化单元再次对小样的逻辑树应用经过用户调整的提取规则,生成结构化内容,然后再 次作为预览内容发送给用户设置界面以显示给用户,如此反复操作,直到所形成的结构化 内容满足用户要求为止。
全文摘要
本发明提供一种智能提取文档结构的方法,该方法包括通过对文档小样进行分析,建立提取规则及其相对应的结构化关键字;对待提取结构的文档应用所建立的提取规则,提取文档内容形成按照结构化关键字表达的结构化内容。相应地,本发明提供一种智能提取文档结构的系统,该系统包括文档输入单元、分析单元、结构化单元、用户设置界面和文档输出单元。本发明依据文档中的样式(包括文字样式和段落样式)、文字属性、文字内容、标题级别等属性设置一些简单的提取规则,并根据这些规则智能提取文档中的结构化信息,从而实现任意文档格式的结构化自动加工。另一方面,用户仅通过简单的操作就可自行设置提取规则,灵活性强。
文档编号G06F17/27GK102103605SQ20091024289
公开日2011年6月22日 申请日期2009年12月18日 优先权日2009年12月18日
发明者余忠华, 曹学军, 曾建英, 缪萍, 闫国龙 申请人:北京北大方正电子有限公司, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1