基于PDF文件复杂表格识别与结构化数据的方法及装置与流程

文档序号:36503044发布日期:2023-12-28 07:09阅读:29来源:国知局
所属的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述基于pdf文件复杂表格识别与结构化数据的方法实施例中的对应过程,在此不再赘述。本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,pc程序和pc程序产品)。这样的实现本发明的程序可以存储在pc可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的pc来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
背景技术
::1、pdf全称为portable document format,翻译成中文意思就是“可移植文档格式”。可移植性是pdf最突出的特点,通俗来说就是在任何支持打开pdf格式文件的软件硬件系统内,pdf都可以将文件原样呈现,不会因为不同的操作系统或者软件而影响文件的格式和内容。这种优势就是pdf文件经久不衰、流行至今的根本原因。2、不过,pdf虽然广受欢迎,但也是有缺点的——pdf文件的编辑比较困难。pdf文件不像word或其他文本编辑软件那样可以轻松编辑和修改。pdf文件中的文本不适合文本处理,如果需要对pdf中的文本进行复制、粘贴或搜索,可能需要使用ocr技术进行转换。但是现有的技术识别精度欠佳,很多时候还需要人工不停的校验,严重影响工作效率。另一方面,包含复杂图表和图形的pdf文档内容更是无法得到更精准的提取和识别,很难适应现代化办公的高节奏和高效率。另外,实际基层工作中,常常会遇到文件繁多、文件内容无关联、文件查找慢等问题,也是实际工作中急需解决的问题。3、随着互联网技术的发展和内部业务的深入,文件的种类和数量不断增加,不同格式的文档层出不穷,存储规模和管理复杂程度也在经受严峻的考验,传统的图片形式的pdf文档管理方式已经无法满足日益增长的文件存储、搜索及应用需求。在新形势下,我们迫切寻求新的pdf文件管理及应用方式,以便专业、高效地处理pdf自动识别、文字提取以及数据结构化的问题。技术实现思路1、为了解决现有技术中的上述问题,即为了解决具有复杂表格的pdf实现自动识别、文字提取以及数据结构化技术问题,本发明提供了基于pdf文件复杂表格识别与结构化数据的方法及装置。通过综合运用图像处理、模式识别、计算机视觉和自然语言处理等前沿技术,实现对图像中表格的自动识别、文字提取和数据结构化。该方法具有广泛应用价值,可用于自动化数据录入、文档处理、报表分析等领域,提高工作效率和降低人工成本。2、在第一方面,本发明中的基于pdf文件复杂表格识别与结构化数据的方法,包括:3、对pdf文件进行图像预处理,得到第一图像;4、对所述第一图像进行表格线条检测,得到线条的位置关系和各点位坐标;5、根据预设合并规则和所述线条的位置关系,得到简化的表格结构和每个点位与相邻点位的连接关系;6、依据所述各点位坐标及连接关系,将所述第一图像中相邻的点位组合成单元格,得到多个单元格图片;7、依据所述多个单元格图片,得到文字识别结果和数据信息;8、依据所述简化的表格结构,将所述文字识别结果和数据信息进行组织和整合,得到结构化的数据。9、优选地,“对pdf文件进行图像预处理,得到第一图像”的步骤具体包括:10、对所述pdf文件进行灰度处理,得到灰度图像;11、利用图像增强技术对所述灰度图像进行处理,得到第一图像。12、优选地,“对所述第一图像进行表格线条检测,得到线条的位置关系和各点位坐标”的步骤具体包括:13、利用线条识别算法,对所述第一图像中的表格的横线和纵线进行标记,得到线条的位置关系;14、根据所述线条的位置关系,获取所述横线和纵线的交叉点位,得到各点位坐标。15、优选地,“根据预设合并规则和所述线条的位置关系,得到简化的表格结构和每个点位与相邻点位的连接关系”的步骤具体包括:16、根据预设合并规则,将所述各点位坐标进行合并,得到简化的表格结构;17、根据所述线条的位置关系,计算得到每个点位与相邻点位的连接关系。18、优选地,“依据所述多个单元格图片,得到文字识别结果和数据信息”的步骤具体包括:19、将所述多个单元格图片,利用ocr技术,得到文字识别结果;20、基于表格的语义信息和排列规律,对所述多个单元格图片进行数据字段的提取和整理,得到数据信息。21、优选地,“依据所述多个单元格图片,得到文字识别结果和数据信息”的步骤之前还可以包括:22、将所述多个单元格图片进行单元格图片预处理。23、在第二方面,本发明中的基于pdf文件复杂表格识别与结构化数据的装置包括:24、第一模块,用于对pdf文件进行图像预处理,得到第一图像;25、第二模块,用于对所述第一图像进行表格线条检测,得到线条的位置关系和各点位坐标;26、第三模块,用于根据预设合并规则和所述线条的位置关系,得到简化的表格结构和每个点位与相邻点位的连接关系;27、第四模块,依据所述各点位坐标以及连接关系,对所述第一图像进行切割得到多个单元格图片;28、第五模块,用于依据所述多个单元格图片,得到文字识别结果和数据信息;29、第六模块,用于依据所述简化的表格结构,将所述文字识别结果和数据信息进行组织和整合,得到结构化的数据。30、在第三方面,本发明中的存储装置,其中存储有多条程序,适用于由处理器加载并执行以实现上述技术方案所述的基于pdf文件复杂表格识别与结构化数据的方法。31、在第四方面,本发明中的处理装置,包括:32、处理器,适于执行各条程序;以及33、存储设备,适于存储多条程序;34、所述程序适于由处理器加载并执行以实现上述技术方案所述的基于pdf文件复杂表格识别与结构化数据的方法。35、与最接近的现有技术相比,上述技术方案至少具有以下有益效果:36、1.本发明的基于pdf文件复杂表格识别与结构化数据的方法中,相比传统的人工处理方法,本发明实现了对图像表格的自动化处理,极大地提高了处理效率和准确性。传统方法需要耗费大量的人力和时间进行手动分割和数据录入,容易出现误差和繁琐的重复工作,而本发明通过自动化的算法和技术,能够在短时间内完成大量图像表格的处理任务。其次,本发明采用了先进的图像处理和模式识别技术,能够在复杂的图像环境中准确地提取表格的线条和区域,避免了因图像质量不佳或复杂背景干扰而导致的识别错误。37、此外,本发明在文字识别和数据提取方面采用了基于深度学习的ocr技术,具有更高的准确性和适应性,能够识别各种字体和复杂排列方式的文字,同时提取出丰富的结构化数据,满足不同应用场景的需求。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1