表格构建方法和装置、计算机设备及存储介质与流程

文档序号:37158224发布日期:2024-02-26 17:23阅读:11来源:国知局
表格构建方法和装置、计算机设备及存储介质与流程

本技术涉及金融科技,尤其涉及一种表格构建方法和装置、计算机设备及存储介质。


背景技术:

1、目前,在金融领域,数据通常以表格存储,相关技术中,为了提高表格数据的处理效率,采用预先训练的模型对表格数据进行处理。然而,训练模型需要大量的表格,且需要对表格提前标注以表征表格中的元素内容,再将标注和表格组合形成表格。但表格生成时间长且数量少,且人工标注不仅需要耗费大量人力使得标注成本高,且对于表格集中结构变化较大的表格标注效果差。因此,如何高效且节省人力地构建表格,成为了亟待解决的技术问题。


技术实现思路

1、本技术实施例的主要目的在于提出一种表格构建方法和装置、计算机设备及存储介质,旨在高效构建带有标注的表格,且节省表格标注的人力。

2、为实现上述目的,本技术实施例的第一方面提出了一种表格构建方法,所述方法包括:

3、获取原始网页和所述原始网页的网页结构信息;其中,所述网页结构信息包括:原始表格结构标签信息或网页结构元素信息;

4、根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片;

5、根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片;

6、根据所述第二表格图片构建表格结构标签序列,得到第二表格结构标签信息;

7、根据预设的表格映射关系将所述原始表格结构标签信息进行表格转换,得到所述第一表格图片的第一表格描述信息;

8、根据预设的表格映射关系将所述第二表格结构标签信息进行表格转换,得到所述第二表格图片的第二表格描述信息;

9、根据所述第一表格描述信息、所述第一表格图片、所述第二表格描述信息和所述第二表格图片构建目标表格。

10、在一些实施例,所述根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片,包括:

11、根据预设标签信息和所述原始表格结构标签信息对所述原始网页进行筛选处理,得到选定网页;

12、获取所述选定网页的所述原始表格结构标签信息,得到选定表格结构标签信息;

13、根据所述选定表格结构标签信息对所述选定网页进行表格区域选取,得到选定表格区域;

14、根据所述选定表格区域对所述选定网页进行截取,得到所述第一表格图片。

15、在一些实施例,所述选定表格结构标签信息包括:当前表格结构标签信息和表格祖先结构标签信息,所述根据所述选定表格结构标签信息对所述选定网页进行表格区域选取,得到选定表格区域,包括:

16、根据所述当前表格结构标签信息对所述选定网页进行表格区域锚框处理,得到第一候选表格区域;

17、根据所述表格祖先结构标签信息对所述选定网页进行表格区域锚框处理,得到第二候选表格区域;

18、对所述第一候选表格区域进行面积计算,得到第一表格面积;

19、对所述第二候选表格区域进行面积计算,得到第二表格面积;

20、获取所述第一表格面积和所述第二表格面积之间的比值,得到表格面积比值;

21、根据所述表格面积比值对所述第一候选表格区域和所述第二候选表格区域进行筛选处理,得到选定表格区域。

22、在一些实施例,所述表格面积比值小于1,所述根据所述表格面积比值对所述第一候选表格区域和所述第二候选表格区域进行筛选处理,得到选定表格区域,包括:

23、若所述表格面积比值大于或等于第一预设比值且所述表格面积比值小于或等于第二预设比值,将所述第一候选表格区域和所述第二候选表格区域中任意一个区域作为所述选定表格区域;其中,所述第二预设比值小于1;

24、若所述表格面积比值小于所述第一预设比值或者大于所述第二预设比值,将所述第一候选表格区域作为所述选定表格区域。

25、在一些实施例,所述根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片,包括:

26、根据所述网页结构元素信息对所述原始网页进行网页块级元素提取,得到选定网页块级元素;

27、对所述选定网页块级元素进行面积计算,得到块级元素面积;

28、从所述块级元素面积提取出最大块级元素面积;

29、将所述最大块级元素面积的所述选定网页块级元素作为目标网页块级元素;

30、根据所述目标网页块级元素对所述原始网页进行区域选取,得到选定网页区域;

31、根据所述选定网页区域对所述原始网页进行截取,得到所述第二表格图片。

32、在一些实施例,所述根据所述第二表格图片构建表格结构标签序列,得到第二表格结构标签信息,包括:

33、对所述第二表格图片进行单元格划分,得到图片单元格;

34、获取每一列所述图片单元格的数量,得到候选列跨度;

35、获取每一行所述图片单元格的数量,得到候选行跨度;

36、对所述候选列跨度进行缩减处理,得到目标列跨度;

37、对所述候选行跨度进行缩减处理,得到目标行跨度;

38、根据所述目标列跨度和所述目标行跨度构建所述第二表格结构标签信息。

39、在一些实施例,所述原始表格结构标签信息包括:表格参数标签信息;所述根据预设的表格映射关系将所述原始表格结构标签信息进行表格转换,得到所述第一表格图片的第一表格描述信息,包括:

40、根据所述表格参数标签信息和所述表格映射关系进行表格位置查找,得到表格填入位置信息;

41、根据所述表格填入位置信息和所述表格参数标签信息进行表格构建,得到所述第一表格图片的所述第一表格描述信息。

42、为实现上述目的,本技术实施例的第二方面提出了一种表格构建装置,所述装置包括:

43、获取模块,用于获取原始网页和所述原始网页的网页结构信息;其中,所述网页结构信息包括:原始表格结构标签信息或网页结构元素信息;

44、第一表格截取模块,用于根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片;

45、第二表格截取模块,用于根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片;

46、标签序列构建模块,用于根据所述第二表格图片构建表格结构标签序列,得到第二表格结构标签信息;

47、第一表格转换模块,用于根据预设的表格映射关系将所述原始表格结构标签信息进行表格转换,得到所述第一表格图片的第一表格描述信息;

48、第二表格转换模块,用于根据预设的表格映射关系将所述第二表格结构标签信息进行表格转换,得到所述第二表格图片的第二表格描述信息;

49、表格构建模块,用于根据所述第一表格描述信息、所述第一表格图片、所述第二表格描述信息和所述第二表格图片构建目标表格。

50、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

51、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

52、本技术提出的表格构建方法和装置、计算机设备及存储介质,其通过以表格结构标签信息在原始网页中选取出表格图片,没有原始表格结构标签的原始网页,使用网页结构标签信息在原始网页中选出表格图片,并将表格图片转换为第二表格结构标签信息。然后,使用表格结构标签信息转换为表格,以表格形式的描述信息作为表格图片的标注,以实现自动化标注,节省人力,且标注方式统一。最后,基于描述信息和表格图片构建成目标表格,以构建带有标注的表格,以便于后续模型训练使用。同时,基于网页提取表格,网页属于天然的表格数据库,能够快速且大量地提取出表格,使得表格提取更加高效。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1