信息抽取的方法、服务器及存储介质与流程

文档序号:37008301发布日期:2024-02-09 12:55阅读:18来源:国知局
信息抽取的方法、服务器及存储介质与流程

本申请涉及计算机技术,尤其涉及一种信息抽取的方法、服务器及存储介质。


背景技术:

1、表格作为文档的一部分,简单易用,是日常工作中常用的有效信息表现方式。在大模型与政企加速信息化的背景下,政企中存在着大量包含表格的富视觉文档。大模型也需要输入大量的文档作为知识来源进行训练,这些文档包括各类型登记表单、论文、投研报告、企业年报、财报、产品文档等,其中大部分文档的表格中都包含大量重要的信息。然而人工对表格的打标、分类、抽取都是一项效率极低且费时费力的工作,如何自动化地从大量包含表格信息的文档中抽取出关键字段的信息,成为一个亟需解决的问题。

2、目前针对表格信息抽取的方案中,主要有以下几种方案:一是基于规则抽取的方案,对于样式统一、制式固定的表格信息的抽取效果较好,但是当表格中的内容长短不一,导致字段位置在空间分布上存在变化的情况下,会极大影响表格信息抽取的效果和质量;二是基于固定模板的抽取方案,能够兼容在单个样式模板的表格内容长度不一导致的空间布局不同的问题,对模板表格抽取效果较好,但是当模板数量较大的情况下,如何有效区分表格属于哪个模板成为最终效果的一个制约,当模板数量很大的情况下,识别表格对应模板的效果成为制约表格信息抽取效果和质量的瓶颈。因此,目前基于规则或固定模板的表格信息抽取方案,存在表格信息抽取的效果差、质量低的问题。


技术实现思路

1、本申请提供一种信息抽取的方法、服务器及存储介质,用以解决现有的表格信息抽取方案表格信息抽取的效果差、质量低的问题。

2、第一方面,本申请提供一种信息抽取方法,包括:

3、基于待抽取表格信息的文档,确定所述文档所包含的表格的布局信息;

4、根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征和图像特征;

5、根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息。

6、第二方面,本申请提供一种信息抽取方法,包括:

7、响应于表格信息抽取请求,获取待抽取表格信息的文档;

8、确定所述文档所包含的表格的布局信息,根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征和图像特征;

9、根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息;

10、配置待抽取的目标字段对应的key单元格;

11、根据所述目标字段对应的key单元格,以及所述表格的键值对信息,抽取所述表格中所述目标字段的内容数据;

12、输出所述目标字段的内容数据。

13、第三方面,本申请提供一种服务器,包括:

14、至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行前述任一方面所述的方法。

15、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现前述任一方面所述的方法。

16、本申请提供的信息抽取的方法、服务器及存储介质,通过获取待抽取表格信息的文档所包含的表格的布局信息,根据表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征;根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的键值(key-value)对信息,通过融合单元格中文字的文本特征和图像特征,来构建各个单元格的融合特征,通过多模态特征的融合可以更加全面和准确地理解表格的内容和结构,从而提高key-value对信息抽取的准确率和信息抽取的效果,进一步地基于表格的key-value对信息,可以很容易抽取到任一key单元格对应的value单元格内的内容数据,实现表格中任何字段的抽取,解决了表格板式不固定的问题,提升了表格信息抽取的效果和质量。



技术特征:

1.一种信息抽取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于待抽取表格信息的文档,确定所述文档所包含的表格的布局信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述表格的文字信息和文字坐标信息,以及所述表格的布局信息,生成各所述单元格的文本特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述表格所在区域及所述表格的布局信息,从所述文档中抽取所述表格中各单元格的图像特征,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息,包括:

7.根据权利要求6所述的方法,其特征在于,根据各所述单元格的融合特征,确定各所述单元格的类别,包括:

8.根据权利要求6所述的方法,其特征在于,根据各所述单元格的融合特征,确定各所述单元格与对应的key单元格的位置关系,包括:

9.根据权利要求6-8中任一项所述的方法,其特征在于,所述根据各所述单元格的融合特征,确定各所述单元格的类别,以及各所述单元格与对应的key单元格的位置关系之后,还包括:

10.根据权利要求1-8中任一项所述的方法,其特征在于,生成所述表格的键值对信息之后,还包括:

11.根据权利要求10所述的方法,其特征在于,所述配置待抽取的目标字段对应的key单元格,包括:

12.一种信息抽取方法,其特征在于,包括:

13.一种服务器,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-12任一项所述的方法。


技术总结
本申请提供一种信息抽取的方法、服务器及存储介质。本申请的方法,通过根据文档中表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征;根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的key‑value对信息,通过融合单元格的文本特征和图像特征来构建各个单元格的融合特征,可更加全面和准确地理解表格的内容和结构,提高key‑value对信息抽取的准确度,基于表格的key‑value对信息,可以抽取到任一key单元格对应的value单元格内的内容数据,实现表格中任意key单元格的映射字段的数据抽取,解决了表格板式不固定的问题,提升了表格信息抽取的效果和质量。

技术研发人员:肖谦,林君
受保护的技术使用者:杭州阿里云飞天信息技术有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1