基于RPA及AI的表格内容提取方法、装置、设备及介质与流程

文档序号:23654306发布日期:2021-01-15 13:51阅读:来源:国知局

技术特征:

1.一种基于rpa及ai的表格内容提取方法,其特征在于,包括:

s1、获取设定区域中的图片,所述图片中包含表格;

s2、对所述图片进行识别,得到所述表格对应的第一识别结果;

s3、如果接收到表格信息提取指令,则从所述第一识别结果中提取与所述表格信息提取指令对应的表格内容。

2.根据权利要求1所述的方法,其特征在于,步骤s2,具体包括:

s21、对所述图片进行光学字符识别ocr识别,得到表格数组,所述表格数组中存储有各表格的行列信息;

s22、对所述表格数组进行解析,得到所述各表格对应的第一识别结果,该第一识别结果包括各个表格在所述图片中的索引序号,以及各表格中各个单元格的行列索引和单元格内容。

3.根据权利要求2所述的方法,其特征在于:

所述图片的识别结果中还包括对非表格内容对应的第二识别结果;

所述表格信息提取指令包括全部表格信息提取指令;所述全部信息提取指令包括全部图片内容提取子指令和所有表格提取子指令;

相应的,步骤s3,具体包括:

s31、如果接收到所有表格提取子指令,则从所述第一识别结果中提取所有表格内容;和/或,

s32、如果接收到全部图片内容提取子指令,则从所述第一识别结果中提取所有表格内容,并提取所述第二识别结果的内容。

4.根据权利要求2所述的方法,其特征在于,所述表格信息提取指令包括部分表格信息提取指令;所述部分表格信息提取指令包括提取类型和待提取内容对应的位置信息;

相应的,步骤s3,具体包括:

s31、如果接收到所述部分表格信息提取指令,则按照所述提取类型,从所述第一识别结果中提取所述位置信息对应的表格内容;

其中,所述提取类型包括区域提取、整行提取、整列提取和单元格提取。

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

s32、如果接收到非表格文字提取指令,则从图片非表格内容对应的第二识别结果中提取所述非表格文字提取指令对应的非表格文字。

6.根据权利要求3所述的方法,其特征在于,在步骤s31之后,所述方法还包括:

s4、如果接收到所有表格存储指令,则获取第一存储文件的文件路径,所述第一存储文件用于存储图片的识别结果;

s5、对于图片中的各个表格,根据表格对应的索引序号的顺序,确定各表格在所述第一存储文件中对应的工作表sheet;

s6、对于任意一个表格,根据该表格中各个单元格的位置信息,将各单元格内容写入到与该表格对应的sheet中。

7.根据权利要求3所述的方法,其特征在于,在步骤s32之后,所述方法还包括:

s4、如果接收到全部图片内容存储指令,则获取第二存储文件的文件路径,所述第二存储文件用于存储图片的识别结果;

s5、对于图片中的各个表格,根据表格对应的索引序号的顺序写入所述第二存储文件的设定sheet中;并且,对于图片中的非表格内容,获取该非表格内容与图片中表格的相对位置关系,并按照所述相对位置关系,将非表格内容存储该所述设定sheet中。

8.一种基于rpa及ai的表格内容提取装置,其特征在于,包括:

图片获取模块,被配置为:获取设定区域中的图片,所述图片中包含表格;

图片识别模块,被配置为:对所述图片进行识别,得到所述表格对应的第一识别结果;

表格内容提取模块,被配置为:如果接收到表格信息提取指令,则从所述第一识别结果中提取与所述信息提取指令对应的表格内容。

9.一种计算设备,其特征在于,包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一所述的基于rpa及ai的表格内容提取方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的基于rpa及ai的表格内容提取方法。


技术总结
本发明公开一种基于RPA及AI的表格内容提取方法、装置、设备及介质,其中,该方法包括:S1、获取设定区域中的图片,所述图片中包含表格;S2、对所述图片进行识别,得到表格对应的第一识别结果;S3、如果接收到表格信息提取指令,则从第一识别结果中提取与表格信息提取指令对应的表格内容。通过采用上述技术方案,实现了将非结构化表格转化为结构化表格,极大地提高了用户的工作效率和表格内容提取的准确率。

技术研发人员:胡一川;汪冠春;褚瑞;李玮;王瑞丰
受保护的技术使用者:北京来也网络科技有限公司;北京奔影网络科技有限公司
技术研发日:2020.10.15
技术公布日:2021.01.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1