PDF表格文字识别方法和装置与流程

文档序号:28160494发布日期:2021-12-24 19:36阅读:来源:国知局

技术特征:
1.一种pdf表格文字识别方法,其特征在于,包括如下步骤:第一步,读取pdf表格中的文字和直线;第二步,取出一个待匹配的模板;第三步,根据所述模板定义的关键字及其关键字单元格,寻找所述pdf表格中的关键字及其关键字单元格,确定所述模板与所述pdf表格是否匹配,若匹配成功则进入下一步,否则返回到第二步;第四步,根据所述模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找所述pdf表格中的值单元格、混合单元格和组单元格并提取其中的信息,得到识别结果;第五步,如果还有待匹配的其他模板,则返回到第二步,否则合并处理匹配成功的每一个模板的识别结果,并消除其中重复的部分。2.根据权利要求1所述的方法,其特征在于,所述第一步还包括对读取的文字和直线进行预处理,所述预处理的步骤包括:提取pdf表格中的文字和直线的坐标位置,把不同类型的文字和直线分别归并为同一类型的文字和直线,把方向相同、首尾相连或中间部分重复的直线合并为一条单一的直线,把误差范围内略微倾斜的直线调整成为角度为0
°
或90
°
的直线,以及,把所有的直线和文字分别按照坐标位置排序。3.根据权利要求1所述的表格识别方法,其特征在于,所述第三步包括:寻找所述pdf表格中的一个关键字及其关键字单元格,并根据该已知关键字单元格寻找所述pdf表格内的其它单元格;如果所述模板只定义了一个关键字单元格,则在该关键字单元格找到后,认为所述模板与所述pdf表格匹配成功;如果所述模板定义了多个不同的关键字单元格,再根据所述模板定义的不同的关键字单元格之间的拓扑关系,寻找所述pdf表格中的其它关键字及其关键字单元格;如果成功完成则认为所述模板与所述pdf表格匹配成功。4.根据权利要求3所述的表格识别方法,其特征在于,所述第三步中寻找所述pdf表格中的一个关键字及其关键字单元格的步骤包括:在寻找关键字单元格时,根据关键字所在的位置任意确定一点p,再按上、下、左、右方向,根据以下规则找到所有直线l:从所述点p引垂线到一直线,垂足落在所述直线上即认为获得一个所述直线l;再轮流选取四个方向上的直线,每个方向上均根据距离由近到远排序,如果是水平线,寻找垂直方向上相交的两条直线;如果是垂直线,寻找水平方向上相交的两条直线,直至得到包围该点p、且两两相交的两条水平直线和两条垂直直线,即为所述关键字所在的关键字单元格的四条边。5.根据权利要求3所述的方法,其特征在于,所述第三步中根据该已知关键字单元格寻找所述pdf表格内的其它单元格的步骤包括:反复根据已知关键字单元格在某个方向寻找与其相邻的单元格,其中,寻找左边相邻的单元格的步骤包括:寻找相交于所述已知关键字单元格矩形的左边线的所有直线并分别求出交点,所述交点把所述已知关键字单元格的左边线分隔成若干个线段a,找到分别相交于每个所述线段a的上、下端点的两条水平直线b和c,再寻找位于所述线段a的左边、并且平行于所述线段a、还相交于所述水平直线b和c、同时距离所述线段a最近的直线d,所述线段a、直线b和c、以及直线d组成的单元格就是左边相邻的单元格。
6.根据权利要求1所述的方法,其特征在于,所述第四步中寻找所述pdf表格中的值单元格、混合单元格和组单元格并提取其中的信息的步骤包括:在寻找值单元格式时,根据所述关键字单元格,利用所述模板中规定的所述拓扑关系,找到对应的值单元格;或者在全部单元格中,寻找与所述模板定义的所述值单元格的位置最接近的一个单元格。7.根据权利要求1所述的方法,其特征在于,所述第四步中寻找所述pdf表格中的值单元格、混合单元格和组单元格并提取其中的信息的步骤包括:在寻找混合单元格时,首先搜索包含混合单元格关键字的单元格,然后在单元格的内容中去除关键字部分。8.根据权利要求1所述的方法,其特征在于,所述第四步中寻找所述pdf表格中的值单元格、混合单元格和组单元格并提取其中的信息的步骤包括:在寻找组单元格时,首先搜索与其配对的关键字单元格,然后反复在规定的方向上搜索与其宽度相同的单元格。9.一种pdf表格文字识别装置,其特征在于,包括:读取模块,用于读取pdf表格中的文字和直线;匹配模块,用于:取出一个待匹配的模板;根据所述模板定义的关键字及其关键字单元格,寻找所述pdf表格中的关键字及其关键字单元格,确定所述模板与所述pdf表格是否匹配,若匹配成功,则根据所述模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找所述pdf表格中的值单元格、混合单元格和组单元格并提取其中的信息,得到识别结果;最后,合并处理每一个模板的识别结果,并消除其中重复的部分。10.一种计算机设备,包括处理器和存储器,所述存储器中存储有程序,所述程序包括计算机执行指令,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述计算机设备执行如权利要求1

8中任一项所述的pdf表格文字识别方法。

技术总结
本发明公开了一种PDF表格文字识别方法和装置。所述方法包括:读取PDF表格中的文字和直线;取出一个待匹配的模板;根据模板定义的关键字及其关键字单元格,寻找PDF表格中的关键字及其关键字单元格,确定模板与PDF表格是否匹配,若匹配成功则进入下一步;根据模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找并提取PDF表格中的值单元格、混合单元格和组单元格的信息,得到识别结果;如此匹配所有模板,合并处理匹配成功的每一个模板的识别结果,并消除其中重复的部分。本发明实现了对表格中不同类型的单元格的准确定位,避免了表格位置变化对识别带来的影响,解决了现有技术的不足。解决了现有技术的不足。解决了现有技术的不足。


技术研发人员:黄天祥
受保护的技术使用者:纬衡浩建科技(深圳)有限公司
技术研发日:2021.09.23
技术公布日:2021/12/23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1