结合RPA和AI的表格生成方法、装置、电子设备及存储介质与流程

文档序号:28167695发布日期:2021-12-24 22:56阅读:141来源:国知局
结合RPA和AI的表格生成方法、装置、电子设备及存储介质与流程
结合rpa和ai的表格生成方法、装置、电子设备及存储介质
技术领域
1.本公开涉及人工智能领域,尤其涉及一种结合rpa和ai的表格生成方法、装置、电子设备及存储介质。


背景技术:

2.机器人流程自动化(roboticprocessautomation,rpa)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
3.人工智能(artificialintelligence,ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
4.相关技术中,由工作人员打字、复制粘贴将图片中的表格转化为线上的表格文档,工作重复机械,浪费人力且效率不高。因此,如何提高表格生成的效率,解放人力,是现在需要急迫解决的事情。


技术实现要素:

5.本公开提供了一种结合rpa和ai的表格生成方法、装置、电子设备及存储介质。
6.根据本公开的一方面,提供了一种结合rpa和ai的表格生成方法,包括:
7.rpa系统从图像中基于人工智能ai提取第一表格的横线和竖线;
8.rpa系统获取横线与竖线的交点集合,其中,交点集合中包括由横线和竖线相交而成的第一类交点,以及横线的延长线和/或竖线的延长线相交而成的第二类交点;
9.rpa系统根据交点集合生成与第一表格一致的空白的第二表格;
10.rpa系统将从图像中基于ocr识别出的文本条目,填充至空白的第二表格中,得到目标表格。
11.本公开实施例运用rpa技术,识别图片中的表格,并将其还原为拥有相同表格结构的表格文档,自动地将线下数据转化为线上数据,取代了繁琐的人工处理流程,提高了表格生成的效率。
12.根据本公开的另一方面,提供了一种结合rpa和ai的表格生成装置,包括:
13.提取模块,用于从图像中基于人工智能ai提取第一表格的横线和竖线;
14.交点获取模块,用于获取横线与竖线的交点集合,其中,交点集合中包括由横线和竖线相交而成的第一类交点,以及横线的延长线和/或竖线的延长线相交而成的第二类交点;
15.生成模块,用于根据交点集合生成与第一表格一致的空白的第二表格;
16.填充模块,用于将从图像中基于ocr识别出的文本条目,填充至空白的第二表格中,得到目标表格。
17.根据本公开的另一方面,提供了一种电子设备,包括存储器、处理器;
18.其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现本公开第一个方面实施例的结合rpa和ai的表格生成方法。
19.根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一个方面实施例的结合rpa和ai的表格生成方法。
20.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开第一个方面实施例的结合rpa和ai的表格生成方法。
21.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.图1是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
23.图2是待识别的表格与检测到的横线和竖线的示意图;
24.图3是检测到的横线与竖线构成的交点集合的示意图;
25.图4是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
26.图5是枚举候选单元格的示意图;
27.图6是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
28.图7是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
29.图8是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
30.图9是由交点组成交点对的示意图;
31.图10是由交点对组成基础单元格的示意图;
32.图11是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
33.图12是确定目标单元格后,更新矩阵元素取值的示意图;
34.图13是检测到目标行后,分裂为两个子目标布尔矩阵的示意图;
35.图14是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
36.图15是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
37.图16是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图;
38.图17是根据本公开一个实施例的结合rpa和ai的表格生成装置的结构图;
39.图18是用来实现本公开实施例的结合rpa和ai的表格生成方法的电子设备的框图。
具体实施方式
40.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
41.下面结合参考附图描述本公开的结合rpa和ai的表格生成方法、装置、电子设备及存储介质。
42.图1是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,如图1所示,该方法包括以下步骤:
43.s101,rpa系统从图像中基于人工智能ai提取第一表格的横线和竖线。
44.rpa是模拟人在pc上的操作行为的一项技术,现已开始应用于企业生产办公。rpa的核心是通过自动化技术来“替代人”进行重复性、低价值、无需人工决策等固定性流程化
操作,从而有效提升工作效率,减少错误。
45.rpa系统获取带有表格的图像,第一表格即为图像中待识别的表格,使用表格模型分别检测出图像中的横竖表格线,表格线可以一定程度的倾斜和弯曲。基于人工智能ai提取第一表格的横线和竖线,可选地,可以用传统的计算机视觉(cv)算法提取图中的横竖线。对于端点距离近的线段进行连接,防止有识别误差,得到最终的横竖线。以图2作为示例,从左至右分别为原图、检测到的横线、检测到的竖线。
46.s102,rpa系统获取横线与竖线的交点集合,其中,交点集合中包括由横线和竖线相交而成的第一类交点,以及横线的延长线和/或竖线的延长线相交而成的第二类交点。
47.rpa系统获取横线与竖线的交点集合,假设上述步骤中共得到了x条横线和y条竖线,计算每对横竖线的交点坐标,无论线段是否相交,共可得到x*y个点,如图3所示。
48.其中,交点集合中包括由横线和竖线相交而成的第一类交点,这类交点被横竖线同时穿过。
49.其中,交点集合中还包括由线的延长线和/或竖线的延长线相交而成的第二类交点,这类交点只被一条横线/一条竖线穿过。
50.s103,rpa系统根据交点集合生成与第一表格一致的空白的第二表格。
51.参考图3所示,这些交点能够形成很多个表格,rpa系统根据第一类交点和第二类交点的集合识别第一表格的表格结构,对这些表格进行筛选和去重等操作,从中筛选出与第一表格结构一致的空白表格,即第二表格。
52.s104,rpa系统将从图像中基于ocr识别出的文本条目,填充至空白的第二表格中,得到目标表格。
53.光学字符识别(optical character recognition,orc)技术,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
54.rpa系统基于orc技术识别图片中第一表格的文本条目,并将其填充至第二表格的对应位置,得到目标表格。目标表格的表格格式与表格内容与第一表格相同,第一表格是纸质化的表格数据,而目标表格是电子化的表格数据。
55.本公开实施例中,rpa系统从图像中基于人工智能ai提取第一表格的横线和竖线,rpa系统获取横线与竖线的交点集合,其中,交点集合中包括由横线和竖线相交而成的第一类交点,以及横线的延长线和/或竖线的延长线相交而成的第二类交点,rpa系统根据交点集合生成与第一表格一致的空白的第二表格,rpa系统将从图像中基于ocr识别出的文本条目,填充至空白的第二表格中,得到目标表格。本公开实施例中运用rpa技术,识别图片中的表格,并将其还原为拥有相同表格结构的表格文档,自动地将线下数据转化为线上数据,取代了繁琐的人工处理流程,提高了表格生成的效率。
56.图4是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,在上述实施例的基础上,进一步结合图4,对rpa系统根据交点集合生成与第一表格一致的空白的第二表格的过程进行解释说明,包括以下步骤:
57.s401,rpa系统根据交点集合中的交点对单元进行枚举,获取候选单元格和候选单元格的属性信息。
58.假设上述步骤中共得到了x条横线和y条竖线,则共可得到x*y个交点,对这x*y个
交点枚举所有可能的单元格作为候选单元格,每个单元格由起始行、结束行、起始列、结束列、四个交点坐标构成。
59.候选单元格的属性信息包括单元格的面积、单元格的四角坐标、单元格所对应的横线的起终点和竖线的起终点。
60.以图5中的三对交点为例,对单元枚举的过程进行解释说明,为方便描述,将这三对交点分别编号为a、b、c。如图5所示,a与b可以组成一个候选单元格,相应地,b与c也可以组成一个候选单元格,最后,a与c也可以组成一个候选单元格。
61.s402,rpa系统根据候选单元格的属性信息,从候选单元格中识别用于生成空白的第二表格的目标单元格。
62.rpa系统根据候选单元格的属性信息,对所有的候选单元格进行遍历,逐一判断每个候选单元格的四条边是否都存在,四条边均存在时,将该候选单元格作为目标单元格。
63.s403,rpa系统对目标单元格按照位置排布生成空白的第二表格。
64.rpa系统获取所有的目标单元格和目标单元格的属性信息,根据目标单元格的四角坐标对单元格进行位置排布,生成空白的第二表格。
65.本公开实施例中,rpa系统根据交点集合中的交点对单元进行枚举,获取候选单元格和候选单元格的属性信息,rpa系统根据候选单元格的属性信息,从候选单元格中识别用于生成空白的第二表格的目标单元格,rpa系统对目标单元格按照位置排布生成空白的第二表格。本公开实施例中根据交点集合,生成了与第一表格结构相同的空白的第二表格,实现了表格结构的检测与生成,是表格生成中最重要的步骤,为后续文本条目的填充奠定了基础。
66.图6是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,在上述实施例的基础上,进一步结合图6,对rpa系统根据候选单元格的属性信息,从候选单元格中识别用于生成空白的第二表格的目标单元格的过程进行解释说明,包括以下步骤:
67.s601,rpa系统对枚举的所有候选单元格,按照单元格面积从小到大进行排序。
68.根据候选单元格的四角坐标,可以计算得到单元格的面积,将枚举的所有候选单元格,按照单元格面积从小到大进行排序。
69.s602,rpa系统按序对候选单元格进行遍历,对遍历到的目标候选单元格的存在性进行判断。
70.按照面积从小到大的顺序对候选单元格进行遍历,对遍历到的目标候选单元格的存在性进行判断。
71.rpa系统获取目标候选单元格对应的横线的第一起终点和竖线的第二起终点,根据目标候选单元格的四角坐标、第一起终点和第二起终点,判断目标候选单元格的四条边是否均存在,当四条边均存在时,确定目标候选单元格存在。
72.s603,rpa系统每当判断出目标候选单元格存在,则从未遍历到的候选单元格中删除与目标候选单元格存在重叠的单元格,并将判断出存在的目标候选单元格确定为一个目标单元格。
73.当判断出某个目标候选单元格存在,则与此存在重叠的候选单元格一定不存在。rpa系统从未遍历到的候选单元格中删除与目标候选单元格存在重叠的单元格,减少了后续遍历的工作量。
74.rpa系统将判断出存在的目标候选单元格确定为一个目标单元格,用于生成空白的第二表格。
75.s604,rpa系统对删除后未遍历到的候选单元格继续按序遍历,直至遍历结束得到所有的目标单元格。
76.rpa系统对删除后未遍历到的候选单元格继续按序遍历,在得到新的目标单元格后暂停遍历,删除此时后续未遍历到的与新的目标单元格存在重叠的候选单元格,重复这个操作,直至遍历结束得到所有的目标单元格。
77.本公开实施例中,rpa系统对枚举的所有候选单元格,按照单元格面积从小到大进行排序,rpa系统按序对候选单元格进行遍历,对遍历到的目标候选单元格的存在性进行判断,rpa系统每当判断出目标候选单元格存在,则从未遍历到的候选单元格中删除与目标候选单元格存在重叠的单元格,并将判断出存在的目标候选单元格确定为一个目标单元格,rpa系统对删除后未遍历到的候选单元格继续按序遍历,直至遍历结束得到所有的目标单元格。本公开实施例中从候选单元格中得到了用于生成第二表格的目标单元格,初步确定了第二表格的结构构成,为第二表格的生成奠定了基础。
78.图7是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,在上述实施例的基础上,进一步结合图7,对rpa系统按序对候选单元格进行遍历,对遍历到的目标候选单元格的存在性进行判断的过程进行解释说明,包括以下步骤:
79.s701,rpa系统获取目标候选单元格对应的横线的第一起终点和竖线的第二起终点。
80.rpa系统获取目标候选单元格对应的横线的第一起终点和竖线的第二起终点,即得到了对应横竖线的空间方位和长度。
81.s702,rpa系统根据目标候选单元格的四角坐标、第一起终点和第二起终点,判断目标候选单元格的四条边是否均存在。
82.根据候选单元格的四角坐标,可以得到四个角所形成的四条边,以左上角和左下角两个点形成的边为例:
83.把这个边向y轴投影,得到在y轴上的位置和长度,并且把这个边所对应的扫描出的竖线同样向y轴投影,得到在y轴上的位置和长度。看二者是否有重合部分,如果有重合就证明这条边存在,不重合则证明这条边不存在。同理可证右上角和右下角两个点形成的边是否存在。
84.相应地,以左上角和右上角两个点形成的边为例:
85.把这个边向x轴投影,得到在x轴上的位置和长度,并且把这个边所对应的扫描出的横线同样向x轴投影,得到在x轴上的位置和长度。看二者是否有重合部分,如果有重合就证明这条边存在,不重合则证明这条边不存在。同理可证左下角和右下角两个点形成的边是否存在。
86.s703,rpa系统在判断出四条边均存在时,确定目标候选单元格存在。
87.候选单元格的四条边均存在,则确定目标候选单元格存在,可以将其作为目标单元格。
88.本公开实施例中,rpa系统获取目标候选单元格对应的横线的第一起终点和竖线的第二起终点,rpa系统根据目标候选单元格的四角坐标、第一起终点和第二起终点,判断
目标候选单元格的四条边是否均存在,rpa系统在判断出四条边均存在时,确定目标候选单元格存在。本公开实施例中提供了一种判断目标候选单元格是否存在的方法,为rpa系统遍历候选单元格获取所有目标单元格奠定了基础。
89.图8是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,在上述实施例的基础上,rpa系统根据候选单元格的属性信息,从候选单元格中识别用于生成空白的第二表格的目标单元格之前,如图8所示,还包括:
90.s801,rpa系统将交点集合中的交点进行顺序排列,并按照同一方向将交点集合中相邻的交点,组成多个交点对。
91.rpa系统将交点集合中每一行和每一列的交点按照空间顺序进行排列,并按照同一方向,可选地,可以是横向或者纵向,将交点集合中相邻的交点,组成多个交点对。
92.如图9所示,当按照横向组成交点对时,一个交点会和它左边的交点组成一个交点对,和右边的交点组成另一个交点对,一个交点不是仅可存在于一个交点对中。
93.相应地,当按照纵向组成交点对时,一个交点会和它上方的交点组成一个交点对,和下方的交点组成另一个交点对。
94.s802,rpa系统按照同一方向依次获取相邻的交点对,并由相邻的交点对组成基础单元格。
95.rpa系统按照横向或纵向依次获取相邻的交点对,并由相邻的交点对组成基础单元格。当按照横向将相邻的交点组成交点对时,要按纵向获取相邻的交点对。相应地,当按照纵向将相邻的交点组成交点对时,要按横向获取相邻的交点对。
96.如图10所示,当按照横向获取相邻的交点对组成基础单元格时,一组交点对b会和它左边的交点对a组成一个基础单元格,和右边的交点对c组成另一个基础单元格,一组交点对不是仅可构成一个基础单元格。
97.相应地,当按照纵向获取相邻的交点对组成基础单元格时,一组交点对e会和它上方的交点对d组成一个基础单元格,和下方的交点对f组成另一个基础单元格。
98.s803,rpa系统将基础单元格作为矩阵元素,构建布尔矩阵。
99.rpa系统将基础单元格作为矩阵元素,构建二维布尔矩阵。假设上述步骤中提取了x条横线和y条竖线,则可得到x*y个交点,此时可以构建(x

1)*(y

1)的布尔矩阵,用于标识每个位置的单元格是否存在。
100.本公开实施例中,rpa系统将交点集合中的交点进行顺序排列,并按照同一方向将交点集合中相邻的交点,组成多个交点对,rpa系统按照同一方向依次获取相邻的交点对,并由相邻的交点对组成基础单元格,rpa系统将基础单元格作为矩阵元素,构建布尔矩阵。本公开实施中构建了布尔矩阵,用于标识每个位置的单元格是否存在,可以辅助记录遍历确定的目标单元格和目标单元格的位置,为后续操作提供了便利。
101.图11是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,在上述实施例的基础上,进一步结合图11,对rpa系统对目标单元格按照位置排布生成空白的第二表格的过程进行解释说明,包括以下步骤:
102.s1101,rpa系统根据目标单元格对布尔矩阵中每个矩阵元素进行赋值,以生成目标布尔矩阵。
103.布尔矩阵中的初始矩阵元素全为f,作为第一取值。当确定一个目标单元格时,rpa
系统根据目标单元格的四角坐标,并根据四角坐标获取目标单元格所包括的第一基础单元格,并对第一基础单元格对应的矩阵元素从第一取值f更新为第二取值t。
104.如图12所示,比方第二行这个目标单元格包括了三个基础单元格,就需要将这三个基础单元格的对应矩阵元素从第一取值f更新为第二取值t。
105.根据目标单元格对布尔矩阵中每个矩阵元素进行赋值,以生成目标布尔矩阵,其中目标单元格所对应的矩阵元素更新为第二取值,其余的矩阵元素保持为初始的第一取值不变。
106.s1102,rpa系统识别目标布尔矩阵中是否包括均为第一取值的目标行和/或目标列。
107.rpa系统逐行逐列检测目标布尔矩阵中每个矩阵元素的取值,识别目标布尔矩阵中是否包括均为第一取值的目标行和/或目标列。
108.s1103,rpa系统在存在目标行和/或目标列,按照目标行和/或目标列对布尔矩阵进行分裂,生成子目标布尔矩阵。
109.检测到存在目标行和/或目标列,则证明这行和/或列中不含有目标单元格,说明图中存在上下/左右关系的两个表格,按照目标行和/或目标列对布尔矩阵进行分裂,生成子目标布尔矩阵。
110.如图13所示,检测到存在目标行,则证明这行中不含有目标单元格,说明图中存在上下关系的两个表格。
111.检测到存在目标列,则证明这列中不含有目标单元格,说明图中存在左右关系的两个表格。
112.检测到存在目标行和目标列,则证明这行和这列中不含有目标单元格,说明图中存在“田”字关系的四个表格。
113.s1104,rpa系统获取子目标波尔矩阵对应的目标单元格,并按照位置排布以生成子目标布尔矩阵对应的空白的第二表格。
114.关于步骤s1104中生成子目标布尔矩阵对应的空白的第二表格的过程可参见步骤s403中目标单元格按照位置排布生成空白的第二表格的过程,此处不再赘述。
115.本公开实施例中,rpa系统根据目标单元格对布尔矩阵中每个矩阵元素进行赋值,以生成目标布尔矩阵,rpa系统识别目标布尔矩阵中是否包括均为第一取值的目标行和/或目标列,rpa系统在存在目标行和/或目标列,按照目标行和/或目标列对布尔矩阵进行分裂,生成子目标布尔矩阵,rpa系统获取子目标波尔矩阵对应的目标单元格,并按照位置排布以生成子目标布尔矩阵对应的空白的第二表格。本公开实施例中,rpa系统根据布尔矩阵中每个矩阵元素的取值判断图中有没有存在上下/左右关系的两个表格,进一步确定了表格的结构。
116.图14是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,在上述实施例的基础上,rpa系统在存在目标行和/或目标列,按照目标行和/或目标列对布尔矩阵进行分裂,生成子目标布尔矩阵之后,如图14所示,还包括:
117.s1401,rpa系统识别子目标布尔矩阵中是否存在取值为第一取值的目标矩阵元素。
118.rpa系统按序对子目标布尔矩阵中每个矩阵元素进行遍历,判断每个矩阵元素的
取值是否为第一取值f。若判断出当前遍历到的矩阵元素为第一取值,将该矩阵元素标记为目标矩阵元素。继续对剩余的矩阵元素进行遍历,直至遍历到最后一个矩阵元素,得到子目标布尔矩阵中包括的所有的目标矩阵元素。
119.s1402,rpa系统将目标矩阵元素的取值从第一取值更新为第二取值。
120.为了保证表格的完整性,需要将目标矩阵元素的取值从第一取值更新为第二取值,才能得到最终的第二表格。但是取值为第一取值的目标矩阵元素可能存在两种情况,可能是被漏掉的独立的一个目标单元格,也有可能是属于已经被识别出的目标单元格。本技术实施例中,可以对目标矩阵元素进行判断,如图15所示。
121.rpa系统获取目标矩阵元素对应的目标基础单元格。本公开中,布尔矩阵中一个矩阵元素对应一个基础单元格,在确定出目标矩阵元素后,rpa系统可以基于目标矩阵元素在布尔矩阵中的位置,目标矩阵元素对应的基础单元格,此处称为目标基础单元格。
122.rpa系统判断目标基础单元格是否需要合并到目标矩阵元素相邻的相邻矩阵元素对应的目标单元格中。rpa系统可以获取目标基础单元格的四角坐标,基于四角坐标判断是否需要将目标基础单元格合并已有目标单元格中。若已有目标单元格的覆盖范围包括了目标基础单元格的四角坐标,则确定需要合并到已有目标单元格中。若已有目标单元格的覆盖范围未包括目标基础单元格的四角坐标,则确定无需合并到已有目标单元格中,该目标基础单元格为一个独立的目标单元格。其中,已有目标单元格为目标矩阵元素所相邻的相邻矩阵元素对应的目标单元格中。
123.若rpa系统判断需要合并,则将目标基础单元格合并到相邻矩阵元素对应的目标单元格中,形成一个更大的目标单元格。
124.若rpa系统判断无需合并,则将目标基础单元格确定为一个缺失的目标单元格,,将这个地方的取值补成t,作为一个独立的目标单元格,并在按照位置排布目标单元格时对缺失的目标单元格进行补全。
125.本公开实施例中,rpa系统识别子目标布尔矩阵中是否存在取值为第一取值的目标矩阵元素,rpa系统将目标矩阵元素的取值从第一取值更新为第二取值。本公开实施例中将子目标布尔矩阵中取值为第一取值的目标矩阵元素更新为第二取值,补全了缺失的单元格,确定了表格结构。
126.图16是根据本公开一个实施例的结合rpa和ai的表格生成方法的流程图,在上述实施例的基础上,进一步结合图16,对rpa系统将从图像中基于ocr识别出的文本条目,填充至空白的第二表格中,得到目标表格的过程进行解释说明,包括以下步骤:
127.s1601,rpa系统获取文本条目的四角坐标。
128.rpa系统获取文本条目所在的文本识别框,将文本识别框的四角坐标作为文本条目的四角坐标。
129.可选地,可以通过一种算法从含有表格的文本图像中提取文本条目,该算法通过模板扫描形成包围图像前景像素的矩形框,从而提取出前景像素,进而组合矩形框形成模式链。利用模式的最大黑游程、长、宽三个统计特征实现对模式的分类,并实现文字的提取。
130.s1602,rpa系统将文本条目的四角坐标和目标单元格的四角坐标进行匹配,以获取目标单元格对应的目标文本条目。
131.rpa系统根据文本条目的四角坐标和目标单元格的四角坐标进行匹配,判断文本
条目是否存在占用至少两个目标单元格的第一文本条目。
132.文本条目的四角坐标能够形成一个区域,若一个单元格的四角坐标全部落在区域内部,且还有另一个单元格的其中两角坐标也落在内部,就是占了两个单元格。
133.同理,有两个单元格的四角坐标落在里面,且有第三个单元格的坐标落在里面,就是占了三个单元格。
134.若存在第一文本条目,rpa系统对第一文本条目按照被占用的至少两个单元格进行切分,得到第一文本条目所占用的每个目标单元格的目标文本条目。
135.例如第一文本条目占用了两个相邻单元格,则以相邻单元格的共用边进行切分,得到所占用的两个目标单元格各自的文本条目。
136.若文本条目只占用一个目标单元格,则直接将其作为该目标单元格对应的目标文本条目。
137.s1603,rpa系统将目标文本条目填充至对应的目标单元中,得到目标表格。
138.关于步骤s1603的具体实现可以参见本公开各实施例中相关介绍,此处不再赘述。
139.本公开实施例中,rpa系统获取文本条目的四角坐标,rpa系统将文本条目的四角坐标和目标单元格的四角坐标进行匹配,以获取目标单元格对应的目标文本条目,rpa系统将目标文本条目填充至对应的目标单元中,得到目标表格。本公开实施例中将跨单元格的文本条目进行拆分,可以精准地将文本条目填入对应的目标单元中,生成了完整的表格文档。
140.图17是根据本公开一个实施例的结合rpa和ai的表格生成装置的结构图,如图17所示,结合rpa和ai的表格生成装置1700包括:
141.提取模块1710,用于从图像中基于人工智能ai提取第一表格的横线和竖线;
142.交点获取模块1720,用于获取横线与竖线的交点集合,其中,交点集合中包括由横线和竖线相交而成的第一类交点,以及横线的延长线和/或竖线的延长线相交而成的第二类交点;
143.生成模块1730,用于根据交点集合生成与第一表格一致的空白的第二表格;
144.填充模块1740,用于将从图像中基于ocr识别出的文本条目,填充至空白的第二表格中,得到目标表格。
145.本公开实施例中运用rpa和ai技术,识别图片中的表格,并将其还原为拥有相同表格结构的表格文档,自动地将线下数据转化为线上数据,取代了繁琐的人工处理流程,提高了表格生成的效率。
146.需要说明的是,前述对结合rpa和ai的表格生成方法实施例的解释说明也适用于该实施例的结合rpa和ai的表格生成装置,此处不再赘述。
147.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:根据交点集合中的交点对单元进行枚举,获取候选单元格和候选单元格的属性信息;根据候选单元格的属性信息,从候选单元格中识别用于生成空白的第二表格的目标单元格;对目标单元格按照位置排布生成空白的第二表格。
148.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:对枚举的所有候选单元格,按照单元格面积从小到大进行排序;按序对候选单元格进行遍历,对遍历到的目标候选单元格的存在性进行判断;每当判断出目标候选单元格存在,则从未遍
历到的候选单元格中删除与目标候选单元格存在重叠的单元格,并将判断出存在的目标候选单元格确定为一个目标单元格;对删除后未遍历到的候选单元格继续按序遍历,直至遍历结束得到所有的目标单元格。
149.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:获取目标候选单元格对应的横线的第一起终点和竖线的第二起终点;根据目标候选单元格的四角坐标、第一起终点和第二起终点,判断目标候选单元格的四条边是否均存在;在判断出四条边均存在时,确定目标候选单元格存在。
150.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:将交点集合中的交点进行顺序排列,并按照同一方向将交点集合中相邻的交点,组成多个交点对;按照同一方向依次获取相邻的交点对,并由相邻的交点对组成基础单元格;将基础单元格作为矩阵元素,构建布尔矩阵。
151.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:根据目标单元格对布尔矩阵中每个矩阵元素进行赋值,以生成目标布尔矩阵;识别目标布尔矩阵中是否包括均为第一取值的目标行和/或目标列;在存在目标行和/或目标列,按照目标行和/或目标列对布尔矩阵进行分裂,生成子目标布尔矩阵;获取子目标波尔矩阵对应的目标单元格,并按照位置排布以生成子目标布尔矩阵对应的空白的第二表格。
152.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:根据目标单元格的四角坐标,并根据四角坐标获取目标单元格所包括的第一基础单元格,并对第一基础单元格对应的矩阵元素从第一取值更新为第二取值。
153.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:识别子目标布尔矩阵中是否存在取值为第一取值的目标矩阵元素;将目标矩阵元素的取值从第一取值更新为第二取值。
154.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:获取目标矩阵元素对应的目标基础单元格;判断目标基础单元格是否需要合并到目标矩阵元素相邻的相邻矩阵元素对应的目标单元格中;在判断需要合并则将目标基础单元格合并到相邻矩阵元素对应的目标单元格中。
155.进一步地,在本公开实施例一种可能的实现方式中,生成模块1730,还用于:判断无需合并,则将目标基础单元格确定为一个缺失的目标单元格,并在按照位置排布目标单元格时对缺失的目标单元格进行补全。
156.进一步地,在本公开实施例一种可能的实现方式中,填充模块1740,还用于:获取文本条目的四角坐标;将文本条目的四角坐标和目标单元格的四角坐标进行匹配,以获取目标单元格对应的目标文本条目;将目标文本条目填充至对应的目标单元中,得到目标表格。
157.进一步地,在本公开实施例一种可能的实现方式中,填充模块1740,还用于:根据文本条目的四角坐标和目标单元格的四角坐标进行匹配,判断文本条目是否存在占用至少两个目标单元格的第一文本条目;对第一文本条目按照被占用的至少两个单元格进行切分,得到第一文本条目所占用的每个目标单元格的目标文本条目。
158.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
159.图18示出了可以用来实施本公开的实施例的示例电子设备1800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
160.如图18所示,包括存储器181、处理器182及存储在存储器181上并可在处理器182上运行的计算机程序,处理器182执行程序时,实现前述的表格生成方法。
161.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
162.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
163.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
164.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1