一种文档和表格数据的识别和提取方法及系统与流程

文档序号:21782207发布日期:2020-08-07 20:11阅读:512来源:国知局
一种文档和表格数据的识别和提取方法及系统与流程

本发明实施例涉及计算机技术领域,特别涉及一种文档和表格数据的识别和提取方法及系统。



背景技术:

现有的文档数据提取通常采用以ocr(光学字符识别)技术为核心的非自学习技术实现方案,通常的技术步骤如下:

1、文档类型识别,根据不同的文档数据特征进行分类处理,包括但不限于:图片、文本、表格、图文混合等多种类型;

2、文档转换,将不同类型的文档统一转换为标准化格式,便于对表格和文字进行识别和提取;

3、表格识别,基于预先开发和设置好的表格样式和特征模板对表格整体进行识别,以区分出对应的表头和表元;

4、文字识别,根据表头和表元的对应关系,使用预先开发和设置好的ocr技术模型,进行成对的数据识别和提取,例如:表头数据为:国籍,表元数据为:中国;

5、反复进行步骤3和步骤4,完成所有的数据识别和提取。

现有技术方案中采用的是以文字为中心的提取方案,没有针对表格的针对性技术,然而在当前的应用环境中,存在大量样式各异的表格,需要进行表格的大小调整、单元格合并等操作,需要识别和提取任意多行数据、任意多列数据和任意多单元格数据,现有技术对不同文档类型采用标准化格式进行识别和处理,对pdf、word、excel等特殊文档中的批注数据、多层数据等会影响识别和提取的结果,表格的大小调整、单元格合并会造成预先开发和设置好的表格模型和文字模型出现偏差,需要单独开发新的表格模型和文字模型,导致效率低;同时现有技术以文字识别和提取为核心,脱离了表格数据对文字数据的抽象和归纳,使得识别和提取的准确率低,效率低。

如何快速检测文档和表格实现文档分类,自动识别和分离文本数据和表格数据,提高识别和提取的效率成为一个亟待解决的问题。



技术实现要素:

针对现有技术中的问题,本发明提供一种文档和表格数据的识别和提取方法和系统,以在多种类型文档的数据识别和提取工作过程中,针对多种类型文档的不同特点进行规则化的处理,提高了不同类型文档的数据识别和提取的准确率,降低了规则生成的复杂度,提高了规则生成的效率;提升了文档识别和提取的通用性和兼容性。

本发明提供一种文档和表格数据的识别和提取方法,所述方法包括:

步骤1,对接收的文档和表格数据进行分类;

步骤2,分别对分类后的各类所述文档和表格数据进行预处理;

步骤3,建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;

步骤4,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;

步骤5,建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;

步骤6,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。

本发明还提供一种文档和表格数据的识别和提取的系统,其特征在于,所述系统包括:文档分类单元,文档和表格识别单元,表格化数据提取单元,以及多个不同类型的文档处理单元;

所述文档分类单元,用于对接收的文档和表格数据进行分类,

所述多个不同类型的文档处理单元,用于分别对分类后的各类所述文档和表格数据进行预处理;

所述文档和表格识别单元,用于建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;判断是否存在特征无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;

所述表格化数据提取单元,用于建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。

本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

通过本发明的方法,能够快速检测文档和表格实现文档分类,自动识别和分离文本数据和表格数据,提高识别和提取的效率,提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明一个实施例中的文档和表格数据的识别和提取系统示意图。

图2是本发明一个实施例中的自学习模型示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。

以下先对本发明的文档和表格数据的识别和提取系统进行说明,参见图1,所述系统包括:文档分类单元,文档和表格识别单元,表格化数据提取单元,以及多个不同类型的文档处理单元。

所述文档分类单元,用于对接收的文档和表格数据进行分类,

所述多个不同类型的文档处理单元,用于分别对分类后的各类所述文档和表格数据进行预处理;

所述文档和表格识别单元,用于建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;判断是否存在特征无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;

所述表格化数据提取单元,用于建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。

在一种优选的实施方式中,所述文档分类单元,进一步包含多协议文档接收模块,多格式文档探测模块以及文档分发模块。

所述多协议文档接收模块,提供多种标准化的国际通用的网络传输协议,用于在需要数据录入、交换及分享的环境中产生的各种文档、表格等数据,包括但不限于http、ftp、s3等。

所述多格式文档探测模块,提供不依赖于文档后缀的内容深度探测方式,用于探测需要数据录入、交换及分享的环境中产生的各种文档、表格等数据;所述实际类型和数据特征,包括:pdf、doc、docx、xls、xlsx、jpg、png、bmp等。

所述文档分发模块,根据文档探测模块的结果,将不同类型的文档分发到不同的处理单元进行针对性处理。文档分发模块采用并行处理技术以提高处理海量文档时的数据传输效率。

具体地,所述多格式文档探测模块可以采用并行镜像探测技术,在探测进行前建立文档、表格等的多个镜像数据,并行应用多个检测规则一一作用与多个镜像数据,检测规则包括不同类型和文档的数据特征、类型特征、版本特征、状态特征等。通过镜像探测技术不会改变原始数据的任何状态,保证了数据的完整性。多个检测规则的并行应用提高了检测效率,可快速得到海量文档的类型、版本和状态的探测结果。

可选地,所述多格式文档探测模块可以采用自学习探测技术,对现有规则无法探测和识别完整的文档、表格等数据,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的检测规则以适配新的文档、表格等数据。

可选地,所述多格式文档探测模块可以采用数据修复技术,对存在错误、损坏或故障的文档、表格等数据,通过一个数据修复模块,对文件头损坏、文件尾损坏、文件体损坏、编码损坏、语法损坏等故障通过读取原始数据后重新生成文档、表格等数据的方式进行修复。

具体地,所述所述文档和表格识别单元还包含特征化数据识别模块,第一特征库模块,第一特征自学习模块;

所述文档和表格识别单元可以包括特征化数据识别模块,所述特征化数据识别模块按照第一特征库模块提供的文档特征和表格特征来建立需要识别的文档和表格的特征规则,所述特征规则包括:

标题特征:针对标题的位置、关键字、图形等特征进行匹配和识别;

页眉和页脚特征:针对页眉和页脚的位置、关键字、图形等特征进行匹配和识别;

行特征:针对文档中的表格行的数量、分布、位置等特征进行匹配和识别;

列特征:针对文档中的表格列的数量、分布、位置等特征进行匹配和识别;

单元格特征:针对文档中的表格的单元格的数量、分布、位置等特征进行匹配和识别;

线条特征:针对文档中的表格线的数量、分布、位置等特征进行匹配和识别。

所述文档和表格识别单元进一步包括第一特征库模块,所述第一特征库模块使用数据管理方式对文档和表格识别单元的所有特征进行集中管理,所述第一特征库能够提供特征库查询、特征库导入和导出、特征库删除等功能。

参考图2的自学习模型,所述第一特征自学习模块,对现有特征无法分离和绘制的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的分离和绘制规则以适配新的表格分离和绘制处理。

在一种优选实施方式中,所述第一特征自学习模块根据相似度较高的特征去尝试识别无法分离和绘制的表格,如果相似度低于一个设定的阈值,则按照随机的方式进行选择,例如,针对特征规则无法分离和绘制的文档和表格数据,根据第一特征自学习模型中相似度高于第一阈值的特征规则去尝试识别无法分离和绘制的文档和表格数据;如果不存在相似度高于第一阈值的的特征,则按照随机的方式选择所述第一特征自学习模型中的特征规则;

所述第一特征自学习模块,根据尝试识别的结果进行评价,识别准确率达到设定的阈值就认为本次尝试达到预期,将结果反馈到特征自学习模块进行模型的自学习正向改进。如果识别准确率低于设定的阈值就认为本次尝试未达到预期,将结果反馈到特征自学习模块进行模型的自学习负向改进。例如接收反馈信息,基于所述反馈信息确定识别准确率,如果识别准确率大于或等于设定的第三阈值,则将结果反馈到第一特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第三阈值,将结果反馈到第一特征自学习模块进行模型的自学习负向改进。经过特征自学习模块的多轮尝试后,再加入人工评价和确认后,本次的特征自学习完成,将相应的特征加入到特征库中。

在一种优选实施方式中,所述表格化数据提取单元包括特征化数据提取模块,第二特征库模块,第二特征自学习模块;

所述特征化数据提取模块按照第二特征库模块提供的文档特征和表格特征来建立需要提取的文档和表格的特征规则,所述建立需要识别的文档和表格的特征规则包括:

表格区域提取:通过自学习的表格特征提取技术解决,实现了按行、按列、按单元格、按区域块、按几何图形的数据提取。对现有特征无法提取的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的提取规则以适配新的表格区域特征提取。

文档尺寸形变提取:通过分区域缩放提取技术解决,实现了相同样式文档由于尺寸发生变化时准确提取数据。

表头和表元提取:针对需要数据录入、交换及分享的环境中文档和数据,实现了表头和表元的数据都匹配的成对提取规则。

字典提取:针对需要数据录入、交换及分享的环境中文档和数据,实现了基于国家名称字典、港口字典、币制字典、计量单位字典、唛头字典的提取规则。

相似提取:针对需要数据录入、交换及分享的环境中文档和数据,实现了数据的相似度提取,针对同义词、近义词、通配符的提取规则。

所述表格化数据提取单元进一步包括第二特征库模块,使用数据管理方式对文档和表格提取单元的所有特征进行集中管理,所述第二特征库能够提供特征库查询、特征库导入和导出、特征库删除等功能。

在一种优选实施方式中,所述第二特征自学习模块,对现有特征无法识别的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的识别规则以适配新的表格化数据提取。

特征自学习模块根据相似度较高的特征去尝试提取无法表格化数据提取的表格,如果提取率低于一个设定的阈值,则按照随机的方式进行选择;

具体地,所述第二特征自学习模块针对无法提取的表格数据,根据第二特征自学习模型中相似度高于第三阈值的特征规则去尝试识别无法提取的表格数据;如果不存在相似度高于第三阈值的的特征规则,则按照随机的方式选择所述第二特征自学习模型中的特征规则;

所述第二特征自学习模块,根据尝试提取的结果进行评价,提取率达到设定的阈值就认为本次尝试达到预期,将结果反馈到特征自学习模块进行模型的自学习正向改进。如果提取率低于设定的阈值就认为本次尝试未达到预期,将结果反馈到特征自学习模块进行模型的自学习负向改进。具体地,可以接收反馈信息,基于所述反馈信息确定提取准确率,如果提取准确率大于或等于设定的第四阈值,则将结果反馈到第二特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第四阈值,将结果反馈到第二特征自学习模块进行模型的自学习负向改进。经过特征自学习模块的多轮尝试后,再加入人工评价和确认后,本次的特征自学习完成,将相应的特征加入到特征库中。

所述多个不同类型的文档处理单元进一步包括:pdf处理单元,word处理单元,excel处理单元,图片处理单元。

所述pdf处理单元,针对需要进行文档传输和保存的环境中产生的pdf文档的特点进行针对性的处理,完成pdf处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。

所述pdf处理单元执行的针对性的处理包括:

多层文本重叠处理:通过分层文本重建技术,实现了按照层次读取后合并处理的效果。

文本读取乱序处理:通过文本区域坐标重建技术,实现了读取结果与视图结果的一致。

文本边框越界处理:通过线框合并技术,实现了文本区域超过表格框时的正确提取。

文件压缩处理:针对特定场景下对文档的文件大小要求,进行文件压缩处理。

所述多个不同类型的文档处理单元进一步还包括:word处理单元,针对需要进行文档传输和保存的环境中产生的word文档的特点进行针对性的处理,完成word处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。

所述word处理单元执行的针对性的处理包括:

文档批注处理:通过批注合并提取技术,实现了同一个区域文本和批注数据后合并处理的效果。

尺寸形变处理:通过分区域缩放技术,实现了相同样式的word文档由于尺寸发生变化时的适应性处理。

兼容性处理:通过版本转换技术,实现了不同操作系统和不同版本的word文档采用同一套提取方法的效果。

文件压缩处理:针对特定场景下对文档的文件大小要求,进行文件压缩处理。

所述多个不同类型的文档处理单元进一步还包括:excel处理单元,针对需要进行文档传输和保存的环境中产生的excel文档的特点进行针对性的处理,完成excel处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。所述excel处理单元执行的针对性的处理包括:

多工作表处理:通过多工作表合并技术,实现了多个工作表按顺序合并的效果

文档批注处理:通过批注合并提取技术,实现了同一个区域文本和批注数据后合并处理的效果。

尺寸形变处理:通过分区域缩放技术,实现了相同样式的excel文档由于尺寸发生变化时的适应性处理。

兼容性处理:通过版本转换技术,实现了不同操作系统和不同版本的excel文档采用同一套提取方法的效果。

文件压缩处理:针对特定场景下对文档的文件大小要求,进行文件压缩处理。

所述多个不同类型的文档处理单元进一步还包括:图片处理单元,针对需要进行文档传输和保存的环境中产生的图片类文档的特点进行针对性的处理,完成图片处理后由文档和表格识别单元、表格化数据提取单元完成后续处理步骤。所述图片处理单元执行的针对性的处理包括:

图片处理:通过图片预处理技术,实现图片反转、倾斜矫正、分割、模糊、旋转、裁剪、亮度、对比度、二值化、灰度等处理,提高图片类型文档的识别准确率和效率。

表格分离和绘制处理:针对应用场景中文档的复杂表格,通过表格分离技术基于分离规则将待识别和提取的文本区域图片和表格线条进行分离,识别和提取文本区域图片的区域、结构和位置特征,识别和提取表格线条的区域、结构和位置特征。通过表格绘制技术基于绘制规则将待识别和提取的文本区域图片和表格线条,按照表格分离提取的特征绘制为pdf类型的文档。对现有特征无法分离和绘制的表格,通过一个自学习模块以“反复试错”的方式来建立一个自动训练、即时反馈和自动建立模型的工作机制,从而形成一个全新的分离和绘制规则以适配新的表格分离和绘制处理。

文件压缩处理:针对特定场景下对文档的文件大小要求,进行文件压缩处理。

本发明引入的多类型的文档检测能够不依赖于任何显式数据(如:文件后缀名)探测出多种文档的类型和质量情况,自动处理由于不同操作系统、不同软件产生的文档差异和文档质量问题,提升了文档识别和提取的通用性和兼容性。本发明的文档并行处理也能够针对需要数据录入、交换及分享的环境中产生的多种类型文档的不同特点进行规则化的处理,提高了不同类型文档的数据识别和提取的准确率。本发明在多种类型文档的数据识别和提取工作过程中,降低了规则生成的复杂度,提高了规则生成的效率,促进了需要数据录入、交换及分享的环境中数据录入、数据交换、数据共享等作业的快速开展。

在另一种实施方式中,本发明还提供一种文档和表格数据的识别和提取方法,其特征在于,所述方法包括:

步骤1,对接收的文档和表格数据进行分类,

步骤2,分别对分类后的各类所述文档和表格数据进行预处理;

步骤3,建立需要识别的文档和表格数据的第一特征规则,依据所述第一特征规则对所述文档和表格数据进行识别;

步骤4,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的的特征规则去尝试识别无法分离和绘制的文档和表格数据;

步骤5,建立需要提取的文档和表格数据的第二特征规则,依据所述第二特征规则对所述文档和表格数据进行提取;

步骤6,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第二阈值的的特征规则去尝试提取无法提取的表格数据。

具体地,步骤1具体包括

步骤11,接收文档和表格数据;

步骤12,建立文档和表格数据的多个镜像数据;

步骤13,采用并行镜像探测技术,并行应用多个检测规则一一作用与多个镜像数据,所述检测规则包括不同类型和文档的数据特征、类型特征、版本特征、状态特征;

步骤14,当存在无法探测和识别完整的文档和表格数据时,通过第三特征自学习模型中相似度高于预定阈值的特征规则去尝试探测无法探测和识别完整的文档和表格数据。

具体地,步骤1还包括

步骤15,判断是否存在错误、损坏或故障的文档和表格数据,如果是,则读取原始数据后重新生成修复后的文档和表格数据。

具体地,步骤3具体包括

步骤31,按照第一特征库模块提供的文档特征和表格特征来建立需要识别的文档和表格数据的第一特征规则,其中所述第一特征规则包括:标题特征规则、页眉和页脚特征规则、行特征规则、列特征规则、单元格特征规则、线条特征规则;

步骤32,依据所述第一特征规则对所述文档和表格数据进行识别。

具体地,步骤4具体包括

步骤41,判断是否存在特征规则无法分离和绘制的文档和表格数据,如果是,则根据第一特征自学习模型中相似度高于第一阈值的特征规则去尝试识别无法分离和绘制的文档和表格数据;如果不存在相似度高于第一阈值的的特征规则,则按照随机的方式选择所述第一特征自学习模型中的特征规则;

步骤42,接收反馈信息,基于所述反馈信息确定识别准确率,如果识别准确率大于或等于设定的第二阈值,则将结果反馈到第一特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第二阈值,将结果反馈到第一特征自学习模块进行模型的自学习负向改进。

具体地,步骤5具体包括

步骤51,按照第二特征库模块提供的文档特征和表格特征来建立需要提取的文档和表格数据的第二特征规则;所述第二特征规则包括:表格区域提取规则、文档尺寸形变提取表格区域提取规则、表头和表元提取规则、字典提取规则、相似提取规则;

步骤52,依据所述第二特征规则对所述文档和表格数据进行提取。

具体地,步骤6具体包括

步骤61,判断是否存在无法提取的表格数据,如果是,则根据第二特征自学习模型中相似度高于第三阈值的特征规则去尝试识别无法提取的表格数据;如果不存在相似度高于第三阈值的的特征规则,则按照随机的方式选择所述第二特征自学习模型中的特征规则;

步骤62,接收反馈信息,基于所述反馈信息确定提取准确率,如果提取准确率大于或等于设定的第四阈值,则将结果反馈到第二特征自学习模块进行模型的自学习正向改进;如果识别准确率低于设定的第四阈值,将结果反馈到第二特征自学习模块进行模型的自学习负向改进。

本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、闪存、可擦式可编程只读存储器(eprom)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1