一种列表识别方法与系统的制作方法

文档序号:6514019阅读:132来源:国知局
一种列表识别方法与系统的制作方法
【专利摘要】本发明所述的列表识别方法及系统,对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;针对所述分割片构造出无向图;根据所述基本图元的属性,检测前导符号的缩进特征;根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型;调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。这样以机器学习的方式可以识别列表首行和列表续行的上下文关系,最终实现对版式文档的列表的版面分析及理解,即使列表首行的前导符号变化多样,也能进行识别,提高了版式文档中列表识别的准确性。
【专利说明】一种列表识别方法与系统

【技术领域】
[0001] 本发明涉及电子文档格式转换【技术领域】,具体地说是一种列表识别方法与系统。

【背景技术】
[0002] 根据版式文档的生成过程,文档是数据和结构的集合,具体包括内容数据、物理结 构和逻辑结构。文档分析是对文档物理结构进行抽取,而文档理解则是在物理结构和逻辑 结构之间建立映射关系。在实际应用中,移动设备的可读性需求使物理和逻辑结构的恢复 尤为重要。页面内列表的检测及识别是文档理解的重点之一。列表具有其独立的逻辑功 能,需要对其进行物理划分和逻辑标签标定。但列表从视觉上与正文文本段的特征十分近 似,且列表首行的前导符号变化多样,列表续行不具备明显的可区分性特征,根据规则的方 法其识别效果不能满足实际需求。
[0003] 列表是文档的重要组成部分,如何准确地识别列表及其列表中的内容,对版式文 档的分析尤其重要。现有技术中有一些识别并转换版式文档中列表的方法,如使用一组规 则来检测基于矢量图形的文档中的至少一个列表。模式检测逻辑标识可能开始列表的各字 符、符号、数字、字母和/或图像。另外的模式检测逻辑确定列表是否存在。该系统可以标 识和分析标项目符号的列表、标号的或标字母的列表、以及作为两者的任意组合的嵌套列 表。该方案的不足在于没有考虑列表的邻域信息,邻域信息包括文本模式、缩进基本、标点、 对齐等特征,当文档页面中存在多个列表时,该方案不能识别列表续行和列表首行的上下 文关系,文档整体的识别效果不理想。


【发明内容】

[0004] 为此,为此,本发明所要解决的技术问题在于现有技术中的列表识别方法不能识 别列表续行和列表首行的上下文关系,从而提出一种可以识别列表首行和续行的基于概率 图模型的列表识别方法。
[0005] 为解决上述技术问题,本发明的提供一种列表识别方法与系统。
[0006] 一种列表识别方法,包括以下步骤:
[0007] 对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
[0008] 对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
[0009] 针对所述分割片构造出无向图;
[0010] 根据所述基本图元的属性,检测前导符号的缩进特征;
[0011] 根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训 练学习模型,获得模型参数,建立列表识别模型;
[0012] 调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
[0013] 所述的列表识别方法,所述根据所述缩进特征、所述分割片的局部特征以及分割 片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型的过程中,所述 学习模型为条件随机场模型,过程包括:
[0014] 提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪 概率,作为条件随机场模型的一元特征函数;
[0015] 根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
[0016] 所述的列表识别方法,所述对所述基本图元进行分割,提取页面内分割文本行,并 得到分割片的过程中,将文本行中连续的文本分割到一个分割片中。
[0017] 所述的列表识别方法,所述提取页面内分割文本行时,采用聚类方法。
[0018] 所述的列表识别方法,在所述针对所述分割片构造出无向图的过程中,根据所述 分割片的邻域关系构造无向图。
[0019] 所述的列表识别方法,在所述构造无向图的过程中,采用最小生成树方法构造无 向图。
[0020] 所述的列表识别方法,所述根据所述基本图元的属性,检测前导符号的缩进特征 的过程,包括检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
[0021] 所述的列表识别方法,所述分割片的局部特征包括分割片的长宽比、归一化面积、 缩进级别、图像纹理特征。
[0022] 所述的列表识别方法,所述提取所述无向图中每个分割片的局部特征,进行分类, 然后将分类得分转化为伪概率的过程,包括:通过SVM分类器进行分类,选择RBF径向基核 函数,将分类得分转化为伪概率。
[0023] 所述的列表识别方法,所述缩进特征包括前导符号缩进级别、缩进量以及与其他 前导符号缩进是否一致。
[0024] 一种列表识别系统,包括:
[0025] 提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图 元;
[0026] 分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
[0027] 构造单元:针对所述分割片构造出无向图;
[0028] 检测单元:根据所述基本图元的属性,检测前导符号的缩进特征;
[0029] 建模单元:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关 系特征,训练学习模型,获得模型参数,建立列表识别模型;
[0030] 调用单元:调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
[0031] 所述的列表识别系统,所述学习模型为条件随机场模型,所述建模单元中,包括:
[0032] 第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后 将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
[0033] 第二特征提取子单元:根据无向图邻域关系,提取分割片之间的邻域关系特征作 为二元特征函数。
[0034] 所述的列表识别系统,所述分割单元中,将文本行中连续的文本分割到一个分割 片中。
[0035] 所述的列表识别系统,所述提取页面内分割文本行时,采用聚类方法。
[0036] 所述的列表识别系统,所述构造单元中,根据所述分割片的邻域关系构造无向图。
[0037] 所述的列表识别系统,所述构造单元中,在所述构造无向图时,采用最小生成树方 法构造无向图。
[0038] 所述的列表识别系统,所述检测单元中,检测所述前导符号缩进级别、缩进量以及 与其他前导符号缩进是否一致。
[0039] 所述的列表识别系统,所述分割片的局部特征包括分割片的长宽比、归一化面积、 缩进级别、图像纹理特征。
[0040] 所述的列表识别系统,所述第一特征提取子单元中,通过SVM分类器进行分类,选 择RBF径向基核函数,将分类得分转化为伪概率。
[0041] 所述的列表识别系统,所述缩进特征包括前导符号缩进级别、缩进量以及与其他 前导符号缩进是否一致。
[0042] 本发明的上述技术方案相比现有技术具有以下优点:
[0043] ( 1)本发明所述的列表识别方法及系统,对原始版式文档内的元数据信息进行解 析和分析,提取页面内基本图元;对所述基本图元进行分割,提取页面内分割文本行,并得 到分割片;针对所述分割片构造出无向图;根据所述基本图元的属性,检测前导符号的缩 进特征;根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练 学习模型,获得模型参数,建立列表识别模型;调用所述列表识别模型对所需的文档进行列 表识别,得到识别结果。这样对列表进行抽取,并根据其逻辑功能进行逻辑标签的标定,以 机器学习的方式不仅可以识别列表,还能识别列表首行和列表续行的上下文关系,最终实 现对版式文档的列表的版面分析及理解,即使列表首行的前导符号变化多样,也能通过对 列表逻辑功能的分析进行识别,提高了版式文档中列表识别的准确性。
[0044] (2)本发明所述的列表识别方法,采用条件随机场模型,根据由分割片局部特征 获得一元特征函数、分割片之间的邻域关系特征作为二元特征函数,训练条件随机场模型 (CRF),多特征设计分为一元局部特征和二元邻域特征。一元特征主要来自分割片本身的特 征,二元特征主要来自无向图的邻居分割片的关系特征。CRF模型的目标函数为负对数自然 函数。利用多特征以及各种上下文信息可以极大地减少标注分类的不确定性和模糊性对最 终标记的负面影响。
[0045] (3)本发明所述的列表识别方法,对文本进行分割时,将文本行中连续的文本分割 到一个分割片中,根据文本图元、图像图元一级绘制操作图元来进行分割,获得分割片,将 有具有较多相关性的图元分在同一个分割片中,为无向图的构造以及分割片特征的提取奠 定基础。
[0046] (4)本发明所述的列表识别方法,所述无向图构造步骤中,根据所述分割片的邻域 关系构造无向图,这样在无向图中可以体现出分割片的相对位置关系,通过其邻居的位置 关系来生成无向图,采用最小生成树方法或三角剖分构造无向图,由于无向图可以很好的 表示邻域关系特征,为提取分割片的局部特征和邻域关系特征创造了方便,保证了提取特 征的准确性和高效性。
[0047] (5)本发明所述的列表识别方法,在所述检测步骤中,检测所述前导符号缩进级 另IJ、缩进量以及与其他前导符号缩进是否一致,这样获得了所述前导符号的特征,可以更好 的训练和识别前导符号,便于更好的识别和提取列表。

【专利附图】

【附图说明】
[0048] 为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合 附图,对本发明作进一步详细的说明,其中
[0049] 图1是本发明的列表识别方法的一个实施例的流程图;
[0050] 图2是本发明的列表识别方法的另一个实施例的流程图;
[0051] 图3是本发明的列表识别方法的另一个实施例的MST最小生成树不意图;
[0052] 图4是本发明所述的列表识别方法的一个实施例中列表单元和表注的逻辑标签 示意图。

【具体实施方式】
[0053] 实施例1
[0054] 本实施例提供一种列表识别方法,如图1所示,包括以下步骤:
[0055] (1)对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元。此处 采用现有技术中的分析工具可以提取并获得页面内的基本图元。所述基本图元中包括了文 本图元、图像图元以及绘制操作信息等。
[0056] (2)对所述基本图元进行分割,提取页面内分割文本行,并得到分割片。此步骤中, 将文本行中连续的文本分割到一个分割片中。根据各个基本图元的属性基于周围图元的关 系进行合理的分割,得到分割片。提取页面内分割文本行时,采用聚类方法通过聚类分析的 手段获得页面内分割问本行。
[0057] (3)针对所述分割片构造出无向图。此时,利用所述分割片的邻域关系,采用最小 生成树方法构造无向图。邻域关系也就是与其周围的分割片的邻居关系,位置关系信息等 邻域关系息。
[0058] (4)根据所述基本图元的属性,检测前导符号的缩进特征,即检测所述前导符号缩 进级别、缩进量以及与其他前导符号缩进是否一致,得到的缩进特征包括前导符号缩进级 另IJ、缩进量以及与其他前导符号缩进是否一致。
[0059] (5)根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征, 训练学习模型,获得模型参数,建立列表识别模型。此处的训练模型可以选择条件随机场模 型,也可以选择结构化的支持向量机模型(structural SVM),或者其他可以学习的模型,通 过上述特征进行训练,机器通过自学习的方式,建立列表识别模型。该方法采用一种可学习 的模型继续训练,提高了模型的可训练程度,从而可以提高建模的效率和精度,保证了列表 识别的准确性。
[0060] (6)调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
[0061] 本发明所述的识别方法,以机器学习的方式不仅可以识别列表,还能识别列表首 行和列表续行的上下文关系,最终实现对版式文档的列表的版面分析及理解,即使列表首 行的前导符号变化多样,也能通过对列表逻辑功能的分析进行识别,提高了版式文档中列 表识别的准确性。。
[0062] 作为其他可以替换的实时方式,在所述步骤(5)建立列表识别模型的过程中,所述 学习模型可以选择条件随机场模型,此处建模的过程为:
[0063] 提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪 概率,作为条件随机场模型的一元特征函数。本实施例中,所述分割片的局部特征包括分割 片的长宽比、归一化面积、缩进级别、图像纹理特征,将这些特征通过SVM分类器进行分类, 选择RBF径向基核函数,将分类得分转化为伪概率,从而获得一元特征函数。
[0064] 并根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。然 后将所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征输入所述条件 随机场模型中,然后获得模型参数,并建立了列表识别模型。
[0065] 实施例2 :
[0066] 本实施例提供一种列表识别系统,包括:
[0067] 提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图 J Li 〇
[0068] 分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片。所 述提取页面内分割文本行时,采用聚类方法。将文本行中连续的文本分割到一个分割片中。 [0069] 构造单元:针对所述分割片构造出无向图。根据所述分割片的邻域关系,采用最小 生成树方法构造无向图。
[0070] 检测单元:根据所述基本图元的属性,检测前导符号的缩进特征,即检测所述前导 符号缩进级别、缩进量以及与其他前导符号缩进是否一致,得到的缩进特征包括前导符号 缩进级别、缩进量以及与其他前导符号缩进是否一致。。
[0071] 建模单元:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关 系特征,训练学习模型,获得模型参数,建立列表识别模型。
[0072] 调用单元:调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
[0073] 作为优选的实施方式,所述建模单元中,所述学习模型为条件随机场模型,所述建 模单元还包括:
[0074] 第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后 将分类得分转化为伪概率,作为条件随机场模型的一元特征函数。所述分割片的局部特征 包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。所述分割片的局部特征通过 SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率
[0075] 第二特征提取子单元:根据无向图邻域关系,提取分割片
[0076] 之间的邻域关系特征作为二元特征函数。
[0077] 实施例3 :
[0078] 本实施例所述的列表识别系统对应的列表识别方法流程图如图2所示,包括以下 步骤:
[0079] ( 1)提取步骤:通过解析引擎对原始版式文档内的元数据信息进行解析,提取页面 内的基本图元,包括文本图元、图像图元以及绘制操作。所述文本图元包括文本编码、字体 类型、字体颜色、字体大小等;所述图像图元包括自然图像和合成图像;所述绘制操作图元 信息包括绘制线、绘制图形操作信息。
[0080] (2)分割步骤:对所述文本图元、图像图元以及绘制操作图元进行聚类,分割页面 内容,并得到分割片。此处采用聚类分析的方法提取页面内分割文本行,如采用XY-cut方 法。分割片根据其文本图元、图像图元、绘制操作图元的区域类型获得。
[0081] (3)无向图构造步骤:针对所述分割片构造出无向图。根据所述分割片的邻域关 系构造,所述邻域关系是指分割片与其周围的分割片的邻居关系,在此采用最小生成树的 方法构造无向图。
[0082] 最小生成树(Minimum Spanning Tree, MST)方法及原理具体为:一个有η个结点 的连通图的生成树是原图的极小连通子图,且包含原图中的所有η个结点,并且有保持图 连通的最少的边。在一给定的无向图G= (V,Ε)中,(u,V)代表连接顶点u与顶点V的边(即), 而w (u,V)代表此边的权重,若存在T为E的子集(S卩)且为无循环图,使得的w (T)最小,则 此T为G的最小生成树。
[0083]

【权利要求】
1. 一种列表识别方法,其特征在于,包括以下步骤: 对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元; 对所述基本图元进行分割,提取页面内分割文本行,并得到分割片; 针对所述分割片构造出无向图; 根据所述基本图元的属性,检测前导符号的缩进特征; 根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学 习模型,获得模型参数,建立列表识别模型; 调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
2. 根据权利要求1所述的列表识别方法,其特征在于,所述根据所述缩进特征、所述分 割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表 识别模型的过程中,所述学习模型为条件随机场模型,过程包括: 提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率, 作为条件随机场模型的一元特征函数; 根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
3. 根据权利要求1或2所述的列表识别方法,其特征在于,所述对所述基本图元进行分 害I],提取页面内分割文本行,并得到分割片的过程中,将文本行中连续的文本分割到一个分 害片中。
4. 根据权利要求1或2或3所述的列表识别方法,其特征在于,所述提取页面内分割文 本行时,采用聚类方法。
5. 根据权利要求1-4中任一权利要求所述的列表识别方法,其特征在于,在所述针对 所述分割片构造出无向图的过程中,利用所述分割片的邻域关系构造无向图。
6. 根据权利要求1-5中任一权利要求所述的列表识别方法,其特征在于,在所述构造 无向图的过程中,采用最小生成树方法或三角剖分方法构造无向图。
7. 根据权利要求1-6中任一权利要求所述的列表识别方法,其特征在于,所述根据所 述基本图元的属性,检测前导符号的缩进特征的过程,包括检测所述前导符号缩进级别、缩 进量以及与其他前导符号缩进是否一致。
8. 根据权利要求1-7中任一权利要求所述的列表识别方法,其特征在于,所述分割片 的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
9. 根据权利要求2-8中任一权利要求所述的列表识别方法,其特征在于,所述提取所 述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率的过程,包 括:通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
10. 根据权利要求1-9中任一权利要求所述的列表识别方法,其特征在于,所述缩进特 征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
11. 一种列表识别系统,其特征在于,包括: 提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元; 分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片; 构造单元:针对所述分割片构造出无向图; 检测单元:根据所述基本图元的属性,检测前导符号的缩进特征; 建模单元:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特 征,训练学习模型,获得模型参数,建立列表识别模型; 调用单元:调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
12. 根据权利要求11所述的列表识别系统,其特征在于, 所述学习模型为条件随机场模型,所述建模单元中,包括: 第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后将分 类得分转化为伪概率,作为条件随机场模型的一元特征函数; 第二特征提取子单元:根据无向图邻域关系,提取分割片之间的邻域关系特征作为二 元特征函数。
13. 根据权利要求11或12所述的列表识别系统,其特征在于,所述分割单元中,将文本 行中连续的文本分割到一个分割片中。
14. 根据权利要求11或12或13所述的列表识别系统,其特征在于,所述提取页面内分 割文本行时,采用聚类方法。
15. 根据权利要求11-14中任一权利要求所述的列表识别系统,其特征在于,所述构造 单元中,根据所述分割片的邻域关系构造无向图。
16. 根据权利要求11-15中任一权利要求所述的列表识别系统,其特征在于,所述构造 单元中,在所述构造无向图时,采用最小生成树方法或三角剖分方法构造无向图。
17. 根据权利要求11-16中任一权利要求所述的列表识别系统,其特征在于,所述检测 单元中,检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
18. 根据权利要求11-17中任一权利要求所述的列表识别系统,其特征在于,所述分割 片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
19. 根据权利要求12-18中任一权利要求所述的列表识别系统,其特征在于,所述第一 特征提取子单元中,通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为 伪概率。
20. 根据权利要求11-19中任一权利要求所述的列表识别系统,其特征在于,所述缩进 特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
【文档编号】G06K9/20GK104517106SQ201310455068
【公开日】2015年4月15日 申请日期:2013年9月29日 优先权日:2013年9月29日
【发明者】许灿辉, 汤帜, 徐剑波, 陶欣 申请人:北大方正集团有限公司, 北京方正阿帕比技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1