一种金融类PDF文档结构化方法及设备与流程

文档序号:32203186发布日期:2022-11-16 03:42阅读:35来源:国知局
一种金融类pdf文档结构化方法及设备
技术领域
:1.本发明涉及一种金融类文档处理方法,尤其是涉及一种金融类pdf文档结构化方法及设备。
背景技术
::2.pdf文档是一种应用非常广泛的文档格式,可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在其中,具有存储文件占空间少,不会被随便篡改,便于传输,不存在兼容问题等优点。几乎所有的金融类文档都以pdf格式存在。但pdf文档也存在缺点,文档中的文本、图片和表格等内容无法直接被导出,这对于许多从文档中提取文本信息、图片资料和表格数据的人群带来了极大的不便。针对少量的内容,人们可通过手动操作将文档从pdf格式转变为其他格式,然后进行格式调整与内容比对后使用,但当文档内容非常多或文档数量非常大时,仅依靠人工操作完成内容的解析,工作量极为巨大,且无法保准准确性。尤其在金融领域,如招股说明书、上市公司研究报告等内容一般在百页以上,其中包含大量的文本、图片和表格内容,且其对解析结果准确率要求极高。3.虽然在市场上已经存在部分产品,可实现文档解析功能,但其存在仅针对特定种类或特定布局文档的缺点。如cn110188649a公开一种基于tesseract-ocr的pdf文件解析方法,该方法用fitz工具包把pdf文件转换为图片序列;针对图片序列的每一个图片,用tablebank工具得到表格的多个区域位置;利用tesseract-ocr进行图片中的图提取、表格单元格的提取和识别:本发明在tesseract-ocr基础上,通过结合tablebank的表格检测和表格结构识别模型,得到了表格各单元格中的内容;匹配docx解析结果,解决了ocr识别错误的问题;对tesseract-ocr的ocr模型进行替换,提升了识别的准确率和速度。但该方法是先将pdf文档内容转化为图片序列,再对图片序列中的信息进行解析,该过程中需要大量训练集,且存在识别准确不高。又如cn110147697a公开一种人机互助的pdf表格提取方法,将待解析的pdf文件上传至浏览器,并打开所述pdf文件;在pdf页面中划选pdf表格区域,得到pdf表格在pdf页面中的位置信息,所述位置信息包括left信息、right信息、bottom信息和top信息;将得到的pdf表格在pdf页面中的left信息、right信息、bottom信息和top信息以及所述pdf表格在pdf文件中的页码信息传输给后台服务器;在后台服务器进行pdf表格的解析。该方法仅针对pdf文档中的表格进行提取,需要人为框选文档中的表格,确定表格的边框范围后才能进一步解析表格内容。4.金融类pdf文档存在着布局多样,表格形式多样的特点,存在大量的图片信息和文本信息,且金融类文档较大,内容较多,仅依靠人为框选无法满足金融类文档信息提取批量、数据挖掘的需求。技术实现要素:5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种解析准确率高、自动化的金融类pdf文档结构化方法及设备。6.发明的目的可以通过以下技术方案来实现:7.一种金融类pdf文档结构化方法,包括以下步骤:8.获取模式指令,若模式指令为第一模式,则执行第一解析过程,若模式指令为第二模式,则执行第二解析过程;9.所述第一解析过程包括:10.获取待解析pdf文档并打开;11.响应框选指令,获取框选指令对应的对象坐标,基于所述对象坐标获取对应的目标对象;12.获取所述目标对象的解析结果;13.所述第二解析过程包括:14.依据待解析pdf文档的存储路径,批量获取待解析pdf文档;15.采用多进程并发方式,提取每一待解析pdf文档的对象坐标,基于所述对象坐标获取对应的目标对象;16.获取所述目标对象的解析结果。17.进一步地,所述待解析pdf文档的布局形式包括单栏布局、双栏布局或复杂布局。18.进一步地,所述目标对象包括文本、图片或表格。19.进一步地,若所述目标对象为表格,则基于所述对象坐标获取对应的目标对象包括:20.判断所述对象坐标是否包含有线条坐标,将所述线条坐标组成线条集合,基于横线和竖线的交叉处理,构造获得表格;21.获取文本坐标的规律性间隔,补充缺失线条。22.进一步地,若所述目标对象为表格,则基于所述对象坐标获取对应的目标对象还包括:23.获取文本的跨行信息,合并跨行表格。24.进一步地,若所述目标对象为表格,则基于所述对象坐标获取对应的目标对象还包括:25.基于表格内容和行列相似度,确定表格形式。26.进一步地,若所述目标对象为表格,则基于所述对象坐标获取对应的目标对象还包括:27.判断是否识别到页眉或页脚信息,若是,则执行跨页表格合并。28.进一步地,若所述目标对象为表格,则基于所述对象坐标获取对应的目标对象还包括:29.对获取的图像进行预处理,消除色块背景,所述预处理包括灰度转换、图像平滑、边缘检测和二值化。30.进一步地,该方法还包括:自动保存所述解析结果,所述解析结果的保存格式包括html、csv或json。31.本发明还提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述金融类pdf文档结构化方法的指令。32.与现有技术相比,本发明具有以下有益效果:33.1、本发明通过解析pdf文档中各元素的位置信息后,自动识别不同布局的pdf文档中的文本、图片和表格坐标,并实现文档结构化,解析准确率高。34.2、本发明是通过直接解析pdf文档中文本、图片和表格内容,可基本实现解析准确率100%。35.3、本发明可通过解析文档的md5值,向服务器提交文件流的方式,实现文档批量结构化,通过对大量pdf文档元素的批量解析,对pdf文档中文本、图片和表格等元素坐标进行快速定位,并将结构化结果保存至目标文档,满足大数据和人工智能时代下,自动批处理的需求。36.4、本发明可根据所解析的pdf文档量来选择不同的解析模式,针对性高,提高处理效率。37.5、本发明不仅针对pdf中的表格信息,还可结构化文档中的图片和文本信息。38.6、对于pdf文档的布局无限制,可准确解析pdf文档的多种布局格式,如单栏、双栏或复杂布局,同时可实现不同形式的表格解析,如有边框、部分边框、无边框或色块为背景。附图说明39.图1为本发明第一解析过程的流程示意图;40.图2为本发明第二解析过程的流程示意图;41.图3为实施例中涉及的金融类pdf文档的布局形式,其中,(3a)为单栏布局,(3b)为双栏布局,(3c)为复杂布局;42.图4为实施例中涉及的金融类文档中的表格形式,其中,(4a)为有边框表格,(4b)为部分边框表格,(4c)为无边框表格,(4d)为色块为背景的表格;43.图5为实施例中无边框表格栅格化示意图。具体实施方式44.下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。45.本实施例提供一种金融类pdf文档结构化方法,能够满足金融类pdf文档文档较大、内容较多的解析特性,提高金融类pdf文档的解析准确率。46.该方法包括两种模式,可基于模式指令针对不同量级的金融类pdf文档进行处理,一是对于内容较少的pdf文档或仅需解析部分或特定内容的pdf文档,进行针对性解析,即第一解析过程,二是对于内容较多或大量pdf文档,进行批处理解析,即第二解析过程。47.如图1所示,第一解析过程包括:获取待解析pdf文档并打开;响应框选指令,获取框选指令对应的对象坐标,基于所述对象坐标,经过坐标换算后获取对应的目标对象,包括文本、图片或表格等,其中表格形式包括有边框表格、边框缺失表格、无边框表格、以色块为背景的表格等,如图4所示;获取所述目标对象的解析结果。48.上述过程适用的待解析pdf文档的布局形式包括单栏布局、双栏布局或复杂布局等,如图3所示。49.在优选的实施方式中,框选指令为可调整指令,以准确地确定目标位置。50.在优选的实施方式中,第一解析过程还包括:对解析结果进行显示。具体地,可在浏览器中直接显示结构化的解析结果。51.在优选的实施方式中,第一解析过程还包括:响应对所述解析结果的复制或下载指令。52.上述第一解析过程适用于少量pdf文档或有特定解析目标的pdf文档,可实现人机交互、实时显示解析结果,使pdf文档结构化,并提供复制和下载服务。53.如图2所示,第二解析过程包括:依据待解析pdf文档的存储路径,批量获取待解析pdf文档;采用多进程并发方式,提取每一待解析pdf文档的对象坐标,基于所述对象坐标,通过坐标换算后获取对应的目标对象;获取所述目标对象的解析结果。54.在具体实施方式中,待解析pdf文档可以以特定文件命名方式置于特定文件目录中或存储于指定文档路径下。批量获取待解析pdf文档可以通过解析文档的md5值实现。55.针对待解析pdf文档中表格对象的提取和解析具体包括以下内容:56.针对有边框表格和部分边框表格,通过解析pdf文档得到的线条坐标后,组成线条集合,将横线和竖线进行交叉处理后得到表格。当表格缺失部分边框时,依据表格区域中文本的横向和纵向间隔进行缺失线条补充,并依据文本的跨行信息(colspan)合并表格,完整表格结构。最后,对表格中文本进行解析,得到完整表格。57.针对无边框表格,本发明基于文字流表格识别方式。在解析pdf文档文本坐标后,依据文本坐标的规律性间隔,对表格进行栅格化处理,如图5所示,并进行缺失线条补充,依据文本的跨行信息(colspan)合并表格,完整表格结构。最后进行表格中文本解析,得到完整表格。58.针对色块为背景的表格,通过解析pdf文档,通过将图像进行灰度转换、图像平滑、边缘检测、二值化的处理过程后,确定表格区域,依据文本规律性间隔进行缺失线条补充,并依据文本的跨行信息(colspan)合并表格,完整表格结构。最后进行表格中文本解析,得到完整表格。59.其中,二值化处理遵循如下公式:[0060][0061]在单栏pdf文档中,当单页文档中存在两张及以上的表格时,在获取文档中的线条集合后,本发明优先处理横线,设y_i是横线在pdf文档中的纵坐标,当存在纵向线条高度h_0,使|y_i-y_(i-1)-h_0|《δh时,可判断线条y_i和y_(i-1)属于同一表格,δh为可容忍偏差。反之,则不属于同一表格。在双栏或复杂布局的pdf文档中,同时进行横线和纵线判断,确定表格线条集合。[0062]在金融类文档中,表格结构和内容相对固定。因此,本发明采用打分判决思想,从表格内容和行列相似度上分别打分,按照如下公式确定表格形式:[0063]traw=β×araw+(1-β)×sraw[0064]tcol=β×acol+(1-β)×scol[0065]type←max{traw,tcol}[0066]其中a表示基于文字内容的得分,s表示行列相似度上的得分,t表示总得分,β是可调节阈值,用于调整文字a和s对最后结果影响权值。[0067]在金融类文档中,经常存在长表格,无法在一页内显示表格所有内容,因此造成表格分页,本发明通过自动识别页眉和页脚,使用元素数据定位算法,深度解析pdf文档,可实现跨页表格的自动合并。[0068]第二解析过程中,在获得解析结果后,可自动将解析结果保存为html、csv或json等格式文档。[0069]上述第二解析过程可针对大量pdf文档的批量解析过程中,存在效率较低的问题,通过解析pdf文档元素的位置信息,快速定位文档中的文本、图片和表格坐标,实现多进程并发的批量解析,实现pdf文档的结构化,并将解析结果存储为html、csv、json等格式。[0070]上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。[0071]在一个具体实施方式中,上述方法可应用于一后台服务器中,并与浏览器实现交互。该方法可使用java语言实现,可实现跨平台作业,提供api服务,可实现远程文档的批量解析,具体为java+canvos+javascript+html:在后端,使用java语言,实现pdf文档解析过程,在前端,使用javascript语言,结合canvos技术,以html、csv、json格式展示结果。[0072]以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本
技术领域
:中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1