一种提取文档结构化信息的方法及装置的制造方法

文档序号:9888099阅读:597来源:国知局
一种提取文档结构化信息的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数字文本加工领域,具体地说是一种提取文档结构化信息的方法及装 置。
【背景技术】
[0002] 版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无 关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。版式文档主要应用 于成文后文件的发布、传播和存档。版式文档的特点是版面固定、不跑版,即所见即所得 (What you see is what you get,简称WYSIWYG),使电子文档在使用过程中,呈现效果不 因软硬件环境、操作者的变化而变化,在版式、版面、字体、字号等方面与纸质文件保持完全 一致。版式文档格式的特点使它成为电子文档发布、数字化信息传播和存档的理想文档格 式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用版式文档,在 国外,Adobe公司的PDF版式文档格式目前已成为数字化信息事实上的一个工业标准。
[0003] 随着信息技术的发展,越来越多的书籍、报纸逐渐电子化,由原来的纸质图书转变 成各种PC、手持设备的电子阅读器。在报社、出版社等行业,电子文档主要以版式文档为主, 便于打印和印刷。但在电子化阅读时(如各种电子书阅读器),由于屏幕的大小,需要对版 式文档进行重排以适应屏幕,这就需要从版式文档中提取目录、正文、章节标题等结构化信 息。
[0004] 现有技术中公开一种基于TOF的复杂版面的标引方法,用以提供一种省时、省力 的统一的PDF复杂版面的标引方法。通过分析和获取文字信息以及位置、字体、字号等信 息,根据相邻、相似的原则进行自动化的文字成块操作,进一步根据字体字号等信息确定文 章标题与正文,根据位置信息进行正文拼接,使得整个版面上的文章快速构建。该方法的优 点是可以自动化处理复杂版面的文字信息提取、原始文字块合并以及文章内容和样式信息 的提取,但不足之处是该方法在处理过程中使用一组参数进行识别,而目前的版式文档多 种多样且数据量巨大,该方案不能适应多种多样的复杂版面信息,如果需要人为来针对每 种版式进行参数设置,数据量过于复杂,难于实现。

【发明内容】

[0005] 为此,本发明所要解决的技术问题在于现有技术中提取文档的结构化信息的方法 中使用固定的参数,只能针对特定类型的文档提取,从而提出一种可以针对多种多样的文 档自动选择进行格式化信息提取的方法和装置。
[0006] 为解决上述技术问题,本发明的提供一种提取文档结构化信息的方法和装置。
[0007] 本发明提供一种提取文档结构化信息的方法,包括:
[0008] 提取文档的字符块信息;
[0009] 根据文档中字符块信息选择结构化信息模板;
[0010] 根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块;
[0011] 根据所述结构化信息模板和所述文本块形成结构化文档。
[0012] 优选地,所述根据文档中字符块信息选择结构化信息模板的处理前,还包括
[0013] 建立结构化信息模板,所述结构化信息模板中包括文档属性及其对应的属性内 容。
[0014] 优选地,所述文档属性包括标题、正文,所述属性内容包括字体值、字号值、格式 值。
[0015] 优选地,所述根据文档中字符块信息选择结构化信息模板的过程,包括
[0016] 获取字符块信息中存在的属性内容;
[0017] 将该属性内容与所述结构化信息模板中的信息内容匹配,
[0018] 选择匹配程度最高的结构化信息模板。
[0019] 优选地,所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的 位置关系容忍系数。
[0020] 优选地,根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块的处 理中,包括:
[0021] 根据所述结构化信息模板中的字号容忍度系数、和/或字符块之间的位置关系容 忍系数,对字符块进行聚类生成文本块。
[0022] 优选地,根据所述结构化信息模板和所述文本块形成结构化文档的过程,包括:
[0023] 根据结构化信息模板中的属性及属性内容,将属性内容相同的文本块作为该属性 的结构信息,获得结构化文档。
[0024] 本发明还提供一种提取文档结构化信息的装置,包括:
[0025] 提取单元:提取文档的字符块信息;
[0026] 模板选择单元:根据文档中字符块信息选择结构化信息模板;
[0027] 文本块获取单元:根据所述结构化信息模板对字符块进行聚类、排序后合并为文 本块;
[0028] 结构化信息提取单元:根据所述结构化信息模板和所述文本块形成结构化文档。
[0029] 优选地,还包括模板建立单元:建立结构化信息模板,所述结构化信息模板中包括 文档属性及其对应的属性内容。
[0030] 优选地,模板选择单元包括
[0031] 获取子单元:获取字符块信息中存在的属性内容;
[0032] 匹配子单元:将该属性内容与所述结构化信息模板中的信息内容匹配,
[0033] 选择子单元:选择匹配程度最高的结构化信息模板。
[0034] 优选地,所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的 位置关系容忍系数。
[0035] 优选地,文本块获取单元包括:
[0036] 容忍度处理子单元:根据所述结构化信息模板中的字号容忍度系数、和/或字符 块之间的位置关系容忍系数,对字符块进行聚类生成文本块。
[0037] 优选地,结构化信息提取单元包括提取子单元:根据结构化信息模板中的属性及 属性内容,将属性内容相同的文本块作为该属性的结构信息,获得结构化文档。
[0038] 本发明的上述技术方案相比现有技术具有以下优点,
[0039] (1)本发明中提取文档结构化信息的方法,提取文档的字符块信息后,根据文档中 字符块信息选择结构化信息模板,然后根据所述结构化信息模板对字符块进行聚类、排序 后合并为文本块,最后根据所述结构化信息模板和所述文本块形成结构化文档。该方案中, 根据当前文档的特点来选择模板,该模板更符合当前文档的特点,因此使用其来提取结构 话信息,更加准确,此外,不同的文档可以根据其特点选择不同的模板,该方案可以应用于 多种多样的文档中。本发明对现有技术中存在的只针对只适用一种文档的结构化信息提取 方法进行了改进,采用多套模板的方式,使各种复杂的版面信息根据排版样式选择不同的 模式,以提高获取版面信息的准确率。同时该方法不仅适用于PDF文档,还适用于CEBX、0FD 等所有的版式文档。此外,现有的版式文档结构化的过程存在准确率不高、适用范围较小、 处理缓慢的现象,本发明就是在现有技术的基础上,通过模板的方式进行改进,以提高版式 文档提取结构化信息的处理速度以及准确率。
[0040] ⑵本发明中提取文档结构化信息的方法,构建了结构化信息模板,该模板中包括 正文、标题等属性,以及他们对应的属性内容,如正文或标题中的字体值、字号值、格式值, 该结构化信息模板根据需要设置为尽量多的不同形式,保证每种文档都有其对应的合理模 板,这样就可以提高结构化信息的获取精度。
[0041] (3)本发明中提取文档结构化信息的方法,选择结构化信息模板的依据是该模板 中的属性内容与当前文档字符块中属性内容一致,也就是如果当前文本的字库块中存在四 号楷体、二号宋体字,则选择属性内容中也存在这些内容的模板,为后续匹配提供依据。
[0042] (4)本发明中提取文档结构化信息的方法,所述结构化信息模板中还设置有字号 容忍度系数、和/或字符块之间的位置关系容忍系数,由于字号匹配、位置等都具有不可避 免的误差,因此该方案中还提供字号容忍度系数、位置关系容忍系数,保证能够顺利完成匹 配。
[0043] (5)本发明还提供一种提取文档结构化信息的装置,包括提取单元、模板选择单 元、文本块获取单元、结构化信息提取单元,根据当前文档的特
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1