信息处理方法、装置、电子设备和可读介质与流程

文档序号:37779822发布日期:2024-04-30 16:50阅读:8来源:国知局
信息处理方法、装置、电子设备和可读介质与流程

本技术涉及计算机,尤其涉及一种信息处理方法、装置、电子设备和可读介质。


背景技术:

1、随着计算机技术的发展,各类问答系统、翻译系统、知识图谱等技术得到了广泛应用,其中,通过计算机来处理表格中的数据存在大量需求。对于表格数据,计算机会从给定的表格中根据用户的问题来提取出目标信息。因此,如何从表格中提取出有用信息的能力十分关键。

2、在相关技术中,计算机会将表格数据导入数据库,并且根据需要生成对应的数据库语言任务在数据库中执行,从而得到所需要的信息。

3、然而,在此类技术中,数据分析能力受限于数据库对于表格数据的处理能力和处理形式,对于表格数据处理的精细程度和灵活度不足,降低对表格数据中有效信息的提取能力,不利于表格数据分析结果的准确性。


技术实现思路

1、基于上述技术问题,本技术提供一种信息处理方法、装置、电子设备和可读介质,以提高对表格数据中有效信息的提取能力以及表格数据分析结果的准确性。

2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。

3、根据本技术实施例的一个方面,提供一种信息处理方法,包括:

4、获取包含待处理表格信息的待处理文档;

5、对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据;

6、从多个任务信息中获取所述表格数据对应的目标任务信息,其中,每个任务信息用于指示对所述待处理表格信息的处理结果和数据类型;

7、将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,其中,所述预训练表格处理模型是基于所述多个任务信息进行训练得到的模型。

8、在本技术的一些实施例中,基于以上技术方案,对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据,包括:

9、确定所述待处理文档中文档元素的数据类型,所述文档元素至少包含表格元素;

10、根据所述数据类型对应的数据处理策略,对所述待处理文档进行数据提取,得到所述待处理文档中文本块的字符内容和文本块坐标;

11、对所述待处理文档进行布局分析,得到各个文档元素的布局分析结果;

12、根据所述布局分析结果中表格元素的位置信息和所述文本块的文本块坐标,获取所述表格元素的字符内容和位置信息,作为所述待处理表格信息中的表格数据。

13、在本技术的一些实施例中,基于以上技术方案,根据所述布局分析结果中表格元素的位置信息和所述文本块的文本块坐标,获取所述表格元素的字符内容和位置信息,包括:

14、根据所述布局分析结果中表格元素的各个单元格的位置信息,确定文本块坐标与所述位置信息相对应的文本块;

15、根据所述各个单元格在所述待处理表格信息中的相对位置以及在所述待处理文档的位置,将所述单元格对应的文本块组合,得到所述表格元素的字符内容和位置信息。

16、在本技术的一些实施例中,基于以上技术方案,将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,包括:

17、对于所述表格数据中的每个单元格,根据所述单元格在所述待处理表格信息中的相对位置,确定合并单元格;

18、根据所述表格数据的布局分析结果中表格的行列布局信息,确定所述表格数据中合并单元格对应的多个标准单元格;

19、根据将所述合并单元格中的字符内容分别复制到所述多个标准单元格中;

20、将所述表格数据中的所述合并单元格替换为对应的所述多个标准单元格替换,得到待输入信息;

21、将所述待输入信息和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果。

22、在本技术的一些实施例中,基于以上技术方案,所述方法还包括:

23、获取包含训练表格数据;

24、根据所述训练表格数据以及所述多个任务信息,确定每个任务信息对应的训练任务结果;

25、根据所述训练表格数据、所述多个任务信息以及对应的训练任务结果,对预训练模型进行训练,得到所述预训练表格处理模型。

26、在本技术的一些实施例中,基于以上技术方案,所述多个任务信息中包含图谱任务信息;所述根据所述训练表格数据以及所述多个任务信息,确定每个任务信息对应的训练任务结果,包括:

27、根据所述图谱任务信息,确定所述表格数据中的目标单元格;

28、获取所述目标单元格的字符内容、行标签、列标签、单元格类型和键值标签,作为所述目标单元格的描述信息;

29、将所述目标单元格的描述信息作为所述图谱任务信息的训练任务结果。

30、在本技术的一些实施例中,基于以上技术方案,所述将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果之后,所述方法还包括:

31、根据所述目标任务信息中的任务类型信息,获取所述目标处理结果中的指定数据,所述任务类型信息与所述目标处理结果所包含的数据和数据类型之间存在对应关系;

32、对所述指定数据进行数据格式转换,得到所述待处理表格信息的处理结果。

33、根据本技术实施例的一个方面,提供一种信息处理装置,包括:

34、文档获取模块,用于获取包含待处理表格信息的待处理文档;

35、数据识别模块,用于对所述待处理文档中的待处理表格信息进行数据识别,得到所述待处理表格信息中的表格数据;

36、任务获取模块,用于从多个任务信息中获取所述表格数据对应的目标任务信息,其中,每个任务信息用于指示对所述待处理表格信息的处理结果和数据类型;

37、数据提取模块,用于将所述表格数据和所述目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于所述目标任务信息的目标处理结果,其中,所述预训练表格处理模型是基于所述多个任务信息进行训练得到的模型。

38、根据本技术实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的信息处理方法。

39、根据本技术实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的信息处理方法。

40、在本技术的实施例中,方案对待处理文档中的待处理表格信息进行数据识别,得到待处理表格信息中的表格数据,然后从多个任务信息中获取表格数据对应的目标任务信息,其中,每个任务信息用于指示对待处理表格信息的处理结果和数据类型,再将表格数据和目标任务信息输入到预训练表格处理模型进行数据提取,生成对应于目标任务信息的目标处理结果,其中,预训练表格处理模型是基于多个任务信息进行训练得到的模型。通过经过多个任务信息预训练的表格处理模型对待处理表格进行信息提取,数据处理过程不再受限于数据库,增加处理过程对表格信息的理解能力和灵活度,从而提高对表格数据中有效信息的提取能力以及表格数据分析结果的准确性。

41、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1