PDF文件中无线表格的还原方法、设备及存储介质与流程

文档序号:37339379发布日期:2024-03-18 18:07阅读:14来源:国知局
本发明涉及文件预处理,具体而言,涉及一种pdf文件中无线表格的还原方法、设备及存储介质。
背景技术
::1、上市公司的财务报表、年度报告、股东通讯等文档是投资者和分析师评估企业价值和投资潜力的重要依据。通过对这些公开文档进行关键信息抽取,特别是对于表格数据,可以提供给投资者有价值的数据参考,让投资者可以更全面地了解上市企业的经营状况、财务表现、战略规划、风险管理等方面的情况,从而辅助他们做出投资决策。这些文档通常以pdf格式发布,以保持其原始格式和可视性。但是,pdf格式只保存绘制视觉内容,比如字形、线条等等,不包含任何结构信息,这对文档关键信息抽取的自动化流程产生了重大限制,由于无线表格拥有良好的可视化效果和实时更新的优点,港股财务报表、国内上市公司财务附注等大多采用无线表格进行发布。对于无线表格而言,其特点是缺乏线条特征,并且经常出现跨行跨列的单元格表示,这给其还原带来了更大的挑战。2、传统方法对无线或少线表格的还原大多使用基于启发式规则对表格检测与识别,但对于复杂场景下表格来说,鲁棒性相对较差。近年来,也有少数研究人员仅从图像出发利用图像检测和分割技术提取字符及线条信息,从而实现无线或少线表格的还原。但是,由于舍弃了pdf本身字符信息,导致字符抽取的准确率严重受到图像文字检测技术的影响,尤其对于单元格密集、弯曲等情况的困难样本尤为明显,线条检测加入模型也会延长还原的时间。另外,少数研究人员提出使用图像检测进行单元格合并处理,但仅从图像特征进行单元格合的准确率存在欠缺。因此,如何准确还原pdf文件中的无线表格仍是一个亟待解决的问题。技术实现思路1、为了避免和克服现有技术中存在的技术问题,本发明提供了一种pdf文件中无线表格的还原方法、设备及存储介质。本发明通过在进行无线表格还原时,能够综合利用pdf字符信息、图像信息、单元格语义信息,有针对性地设计算法,快速且准确地学习出数据特征表示,从而提高pdf文件中无线表格还原的准确性和精度。2、为实现上述目的,本发明提供如下技术方案:3、本发明公开一种pdf文件中无线表格的还原方法,包括以下步骤,即s1~s8。4、s1.获取pdf文件的文本单元集合。5、s2.基于目标检测算法定位pdf文件图像中的无线表格及少线表格位置,从而获取页面表格信息集合。6、s3.根据页面表格信息划定表格区域内对应的文本单元,从而生成表格文本单元集合。7、s4.确定表格文本单元集合中的最大列数行,据此获得表格列边界集合。8、s5.基于表格列边界补全表格内部的空白单元格,生成调整后的表格单元格集合。9、s6.提取列文本片段的语义特征以获取列文本片段的跨行特征表示。10、s7.基于跨列单元格坐标位置与表格列边界的比较结果,生成行单元格文本的跨列特征表示,从而结合列文本片段的跨行特征表示以得到表格单元格的跨行跨列合并特征表示。11、s8.基于表格单元格集合中的文本单元信息以及所述跨行跨列合并特征表示,对无线表格进行还原。12、作为上述方案的进一步改进,步骤s1包括以下具体步骤,即s11~s14。13、s11.获取pdf文件的底层文本字符集合p={p1,p2,…,pk,…,pk};其中k为pdf文件的总页数,pk为第k页的字符信息集合,m为第k页的字符总个数,为第k页的第m个字符信息;字符信息是包含字符内容信息char和字符位置信息的列表,记为c=[xmin,ymin,xmax,ymax,char],其中xmin和xmax分别为字符横坐标的最小值和最大值,ymin和ymax分别为字符纵坐标的最小值和最大值。14、s12.设置相邻文本块阈值δ及行阈值β,对第k页所有字符信息中的ymin进行倒序排列,低于行阈值β的为一行数据,从而生成第k页的行字符集合d为行字符集合的总行数,为第k页第d行的字符集合,即其中表示第d行的第s个字符信息,s表示第d行包含的字符个数。15、s13.对单行的字符集合中的所有字符信息按照xmin的大小进行升序排列,若相邻字符的间隔大于文本块阈值δ,即则将视为下一个文本单元中的字符信息,从而得到第k页第d行的文本单元集合i为第d行包含的文本单元总个数,为第d行的第i个文本单元且表示为其中,xmin为文本单元横坐标最小值,对应文本单元中第一个字符信息的xmin;xmax为文本单元横坐标最大值,对应文本单元中最后一个字符信息的xmax;ymin和ymax取文本单元第一个字符信息的ymin和ymax,text由文本单元内的所有字符信息拼接而成。16、s14.参照步骤s12~s13的方式获取行字符集合rk中所有行的文本单元集合,得到第k页的页面文本单元集合从而获取所有页的页面文本单元集合。17、作为上述方案的进一步改进,步骤s2包括以下具体步骤,即s21~s22。18、s21.将pdf文件按页渲染成图像,生成图像流集合。19、s22.基于目标检测算法定位无线表格及少线表格位置,获得页面表格信息集合,记为f={f1,f2,…,fk,…,fk};其中,fk为第k页图像页面的表格检测集合,记为表示检测到的第n个表格信息,n为检测出无线表格及少线表格的总数;表格信息包含表格的坐标位置及该位置对应目标检测到的对象是表格的置信度conf,记为f=[fxmin,fymin,fxmax,fymax,conf],其中fxmin和fxmax分别为表格区块横坐标的最小值和最大值;fymin和fymax分别为表格区块纵坐标的最小值和最大值。20、作为上述方案的进一步改进,步骤s3中,所述表格文本单元集合的表示如下:21、22、其中,为第k页的第n个表格的文本单元集合,dn表示该表格总行数,id’表示第d’行的文本单元个数;每个表格内的任一文本单元均满足以下条件:fymin≤ymin<ymax≤fymax;d’∈[1,…,dn]。23、作为上述方案的进一步改进,步骤s4包括以下具体步骤,即s41~s46。24、s41.确定页面的最大列数行集合,表示为:25、26、其中,为第k页的最大列数行集合,dn’表示该集合的总行数,maxcol为i1,i2,…,idn中的最大值,该集合是由所有文本单元个数为maxcol的行组成;d”∈[1,…,dn’]。27、根据最大列数行集合生成最小最大坐标集合λ={λ1,λ2,…,λj,…,λmax col},其中λj=[λj,min,λj,max],λj,min为最大列数行集合中第j列文本单元xmin的最小值,λj,max为最大列数行集合中第j列文本单元xmax的最大值。28、s42.根据最小最大坐标集合λ生成空白像素边界集合o,记为o={o1,…,oj,…,omaxcol-1},其中,oj=[λj,max,λj+1,min]。29、s43.确定非跨列单元格集合,表示为:30、31、其中,表示第k页的非跨列单元格集合,dn”表示该集合的总行数,该集合中的任一文本单元均不横跨所述空白像素边界集合o,即不存在xmin≤λj-1,max≤λj,min≤xmax。32、s44.基于非跨列单元格集合对最小最大坐标集合λ进行调整,调整方式为:遍历非跨列单元格集合中所有单元格,如果单元格横坐标集合与集合λ元素横坐标组成的集合有交叉,取两个单元格xmin中的较小值作为调整后的最小值取两个单元格xmax中的较大值作为调整后的最大值调整后的最小最大坐标集合为其中33、s45.根据调整后的最小最大坐标集合生成调整后的空白像素边界集合其中34、s46.根据调整后的空白像素边界集合获得表格列边界集合ψ={ψ1,ψ2,…,ψj,…,ψmax col-1};其中35、作为上述方案的进一步改进,步骤s5中,基于表格边界集合ψ补全每一行的空白单元格,生成表格文本集合,表示为:36、37、其中,表示第k页的表格文本集合,该集合初始值设置为空白集合;其中第d’行的文本集合按照如下方式生成:38、将表格文本单元集合中的第d’行文本单元集合与表格边界集合ψ进行比较,并作出以下判断:39、当id’=maxcol时,则为中的文本信息;其中h∈[1,…,id’]。40、当id’<maxcol且时,若横坐标的最小值xmin以及横坐标的最大值xmax均处于边界列表[ψj,ψj+1]内,则为中的文本信息。41、当id’<maxcol且时,若横坐标的最小值xmin大于边界ψj,且距离边界ψj最近时,则为中的文本信息。42、作为上述方案的进一步改进,步骤s6中,按列对表格单元格的文本进行拼接,得到列文本片段;其中,对相邻单元格添加开始字符[cls]、间隔字符[sep]及结束字符[eos],得到表格单元格文本序列,然后采用nsp-bert预训练语言模型进行语义特征提取,结合softmax分类器,获得表格单元格文本序列是否连续的二分类结果,作为该文本序列的跨行特征表示,进而获得列文本片段的跨行特征表示。43、步骤s7中,基于跨列单元格坐标位置与列边界的比较结果,获得单元格跨列特征表示;其中,当表格中任意一行的一文本单元属于非跨列单元格集合时,遍历表格列边界集合ψ中的所有边界,若边界值在该文本单元的横坐标最小值xmin及横坐标最大值xmax集合内,则跨列属性值加1,基于跨列属性值或者跨列个数,从而生成行单元格文本的跨列特征表示。44、作为上述方案的进一步改进,步骤s8中,采用html格式对表格信息进行还原,使用的标签信息包括<table>\</table>、<tr>\</tr>、<td>\</td>;其中,基于列文本片段的跨行特征表示,确定<td>标签的colspan属性值;基于行单元格文本的跨列特征表示,确定<td>标签的rowspan属性值。45、本发明还公开一种计算机设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机程序,处理器可执行计算机程序以实现上述pdf文件中无线表格的还原方法。46、本发明还公开一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述pdf文件中无线表格的还原方法。47、与现有技术相比,本发明的有益效果是:48、1、本发明公开的pdf文件中无线表格的还原方法,将无线表格还原问题转化成表格字符信息提取问题、表格图像定位问题以及单元格合并的分类问题,极大地简化了任务的复杂度,通过综合考虑pdf文件流中的字符信息和图片特征信息,并融合这两种多模态信息,实现对pdf表格的准确还原。49、2、本发明的还原方法中还根据表格特征自回归确定表格内部列边界,从而准确识别行列的空白单元格,有效解决了单元格密集、弯曲等情况下的表格还原问题,实现复杂场景下的边界准确分割。除此之外,回归画线算法相比于传统的分割重现表格的技术,具有更强的可解释性。50、3、本发明采用预训练语言模型来提取跨行单元格语义特征,生成列文本单元连续片段,采用nsp-bert预训练语言模型进行语义特征提取,从而生成单元格跨行特征分类表示。基于边界生成表格文本单元跨列表示,从而实现无线表格跨行跨列情况下的完整还原,以应对更复杂场景下的无线表格还原问题。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1