PDF页面表格内容的重构方法及装置与流程

文档序号:36717173发布日期:2024-01-16 12:16阅读:21来源:国知局
PDF页面表格内容的重构方法及装置与流程

本技术涉及计算机及文档处理,具体涉及一种pdf页面表格内容的重构方法及装置。


背景技术:

1、对pdf文件的表格内容进行识别和重构的难度较大,现有技术通常采用光学字符识别(ocr)技术。光学字符识别技术对文本的识别本身就存在一定的错误率,另外,光学字符识别技术对表格标尺线的识别效果较差。因此,通过光学字符识别技术,往往会出现单元格错行、文字识别错误等各种误差。

2、尤其是在表格中存在合并单元格的情况下,大小形状不一的单元格使得基于光学字符识别技术识别及重构的表格内容更容易出现混乱。

3、为了解决存在合并单元格情况下,pdf文件中表格内容识别及重构的准确率不佳的问题,亟需提出一种能够准确提取表格中的各合并单元格及其中的字符数据、并精确重构表格内容的技术方案。


技术实现思路

1、为解决上述问题,本技术实施例提供了一种pdf页面表格内容的重构方法及装置,有效解决了表格中合并单元格对表格内容识别的影响,重构精确的表格内容。

2、本技术实施例采用下述技术方案:

3、第一方面,本技术实施例提供了一种pdf页面表格内容的重构方法,该方法包括:

4、读取pdf页面中的所有标尺线的信息,根据所有标尺线的信息并基于预设规则确定pdf页面中的所有有效单元格,记录各有效单元格的标识;

5、读取pdf页面中的所有字符矩形,匹配属于各有效单元格范围内的字符矩形,以标准格式对属于各有效单元格范围内的字符矩形进行拼接确定各单元格文本;

6、对所有有效单元格的顶点坐标去重后生成顶点坐标集合,根据顶点坐标集合以预设比例尺构建所有拆分单元格;

7、确定各拆分单元格与各有效单元格的对应关系,将各单元格文本以预设比例尺赋予对应的各拆分单元格,并将各有效单元格的标识赋予对应的各拆分单元格;

8、对标识相同的拆分单元格进行聚合,对标识相同的拆分单元格内的单元格文本去重,重构pdf页面的表格内容。

9、可选的,在上述的pdf页面表格内容的重构方法中,读取pdf页面中的所有标尺线的信息,根据所有标尺线的信息并基于预设规则确定pdf页面中的所有有效单元格,记录各有效单元格的标识,包括:

10、采用pdfbox从pdf页面中读取所有标尺线的信息,其中,标尺线包括水平标尺线和垂直标尺线;

11、基于两条水平标尺线、两条垂直标尺线、以及两条水平标尺线和两条垂直标尺线围合相交的四个交点确定一个内部不再有线条的矩形区域作为有效单元格;

12、基于从左至右、从上至下的顺序遍历所有水平标尺线和垂直标尺线相交的所有交点,确定pdf页面中的所有有效单元格;

13、通过自增数字id作为标识标注各有效单元格。

14、可选的,在上述的pdf页面表格内容的重构方法中,基于两条水平标尺线、两条垂直标尺线、以及两条水平标尺线和两条垂直标尺线围合相交的四个交点确定一个内部不再有线条的矩形区域作为有效单元格,包括:

15、确定水平标尺线和垂直标尺线相交的所有交点;

16、对所有交点中的任一个第一交点,从左至右依次寻找直至找到与通过第一交点的水平标尺线相交且向下延伸的目标垂直标尺线,将目标垂直标尺线与通过第一交点的水平标尺线的相交点作为第二交点;

17、从上至下依次寻找直至找到与通过第一交点的垂直标尺线相交且向右延伸的目标水平标尺线,将目标水平标尺线与通过第一交点的垂直标尺线的相交点作为第三交点;

18、将目标水平标尺线与目标垂直标尺线的相交点作为第四交点;

19、基于通过第一交点的水平标尺线、通过第一交点的垂直标尺线、目标水平标尺线、目标垂直标尺线、第一交点、第二交点、第三交点、第四交点围合确定一个有效单元格。

20、可选的,在上述的pdf页面表格内容的重构方法中,读取pdf页面中的所有字符矩形,匹配属于各有效单元格范围内的字符矩形,以标准格式对属于各有效单元格范围内的字符矩形进行拼接确定各单元格文本,包括:

21、采用pdfbox从pdf页面中读取所有字符矩形并记录各字符矩形的坐标;

22、对任一个有效单元格,将各字符矩形的坐标与围合该有效单元格的标尺线的坐标进行比较,确定属于该有效单元格范围内的字符矩形;

23、对属于该有效单元格范围内的字符矩形,基于字符矩形的坐标排序拼接,确定该有效单元格的单元格文本;

24、遍历拼接各有效单元格范围内的字符矩形,确定各单元格文本。

25、可选的,在上述的pdf页面表格内容的重构方法中,对所有有效单元格的顶点坐标去重后生成顶点坐标集合,根据顶点坐标集合以预设比例尺构建所有拆分单元格,包括:

26、对所有有效单元格的顶点坐标去重后生成x坐标集合和y坐标集合;

27、基于x坐标集合的最大值和y坐标集合的最大值、以及重构页面的尺寸确定预设比例尺;

28、以x坐标集合的最小值和y坐标集合的最小值相交作为原点构建直角坐标系,以x从小至大的顺序从左至右扫描x坐标集合、以y从小至大的顺序从上到下扫描y坐标集合,以预设比例尺构建所有拆分单元格。

29、可选的,在上述的pdf页面表格内容的重构方法中,确定各拆分单元格与各有效单元格的对应关系,将各单元格文本以预设比例尺赋予对应的各拆分单元格,并将各有效单元格的标识赋予对应的各拆分单元格,包括:

30、对任一个拆分单元格,判断该拆分单元格的全部顶点坐标基于预设比例尺逆还原后属于一个有效单元格范围内,则确定该拆分单元格与该有效单元格的对应关系;

31、将该有效单元格的单元格文本以预设比例尺填充至对应的拆分单元格;

32、将有效单元格的标识赋予对应的拆分单元格;

33、按拆分单元格从左至右、从上至下的顺序,依次确定各拆分单元格与有效单元格的对应关系,确定各拆分单元格内的单元格文本以及各拆分单元格的标识;

34、其中,一个有效单元格对应至少一个拆分单元格。

35、可选的,在上述的pdf页面表格内容的重构方法中,对标识相同的拆分单元格进行聚合,对标识相同的拆分单元格内的单元格文本去重,重构pdf页面的表格内容,包括:

36、消除标识相同的拆分单元格中重复共享的顶点坐标、消除标识相同的拆分单元格中重复共享的边线,形成合并单元格;

37、在标识相同的拆分单元格的单元格文本中,仅保留任一个拆分单元格的单元格文本;

38、基于拆分单元格和合并单元格、以及保留的单元格文本,重构pdf页面的表格内容。

39、可选的,在上述的pdf页面表格内容的重构方法中,在读取pdf页面中的所有标尺线的信息的步骤之后,方法还包括:

40、将水平距离小于标准单位的相邻两条垂直标尺线合并为一条合并垂直标尺线,以该相邻两条垂直标尺线的水平中间点坐标作为合并垂直标尺线的水平坐标;

41、和/或,

42、将垂直距离小于标准单位的相邻两条水平标尺线合并为一条合并水平标尺线,以该相邻两条水平标尺线的垂直中间点坐标作为合并水平标尺线的垂直坐标。

43、可选的,在上述的pdf页面表格内容的重构方法中,在根据所有标尺线的信息并基于预设规则确定pdf页面中的所有有效单元格的步骤之后,方法还包括:

44、消除各有效单元格中重复共享的顶点坐标,以及消除各有效单元格中重复共享的边线,形成至少一个边界矩形。

45、第二方面,本技术实施例提供了一种pdf文件表格内容的识别装置,该装置包括:

46、有效单元格识别单元,用于读取pdf页面中的所有标尺线的信息,根据所有标尺线的信息并基于预设规则确定pdf页面中的所有有效单元格,记录各有效单元格的标识;

47、单元格文本识别单元,用于读取pdf页面中的所有字符矩形,匹配属于各有效单元格范围内的字符矩形,以标准格式对属于各有效单元格范围内的字符矩形进行拼接确定各单元格文本;

48、拆分单元格生成单元,用于对所有有效单元格的顶点坐标去重后生成顶点坐标集合,根据顶点坐标集合以预设比例尺构建所有拆分单元格;

49、关系确定单元,用于确定各拆分单元格与各有效单元格的对应关系,将各单元格文本以预设比例尺赋予对应的各拆分单元格,并将各有效单元格的标识赋予对应的各拆分单元格;

50、表格重构单元,用于对标识相同的拆分单元格进行聚合,对标识相同的拆分单元格内的单元格文本去重,重构pdf页面的表格内容。

51、第三方面,本技术实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的pdf页面表格内容的重构方法的步骤。

52、第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序被处理器指令时实现上述的pdf页面表格内容的重构方法的步骤。

53、本技术实施例采用的上述至少一个技术方案能够达到以下有益效果:

54、本技术提供的pdf页面表格内容的重构方法,读取pdf页面中的所有标尺线的信息,根据所有标尺线的信息并基于预设规则确定pdf页面中的所有有效单元格,记录各有效单元格的标识;读取pdf页面中的所有字符矩形,匹配属于各有效单元格范围内的字符矩形,以标准格式对属于各有效单元格范围内的字符矩形进行拼接确定各单元格文本;对所有有效单元格的顶点坐标去重后生成顶点坐标集合,根据顶点坐标集合以预设比例尺构建所有拆分单元格;确定各拆分单元格与各有效单元格的对应关系,将各单元格文本以预设比例尺赋予对应的各拆分单元格,并将各有效单元格的标识赋予对应的各拆分单元格;对标识相同的拆分单元格进行聚合,对标识相同的拆分单元格内的单元格文本去重,重构pdf页面的表格内容。本技术提供的pdf页面表格内容的重构方法,创新性的采用了标尺线相交来确定有效单元格、采用了顶点坐标集合来构建拆分单元格,基于标识快速对拆分单元格进行合并,准确识别并还原pdf页面表格格式和数据。相比于目前的光学字符识别方案,本技术既能快速的读取pdf的标尺线信息和字符矩形进行计算,分析并识别出表格的格式和内容,又能有效避免光学字符识别造成的识别错误,极大的提升了计算速度和准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1