单元格位置的检测方法、装置和电子设备与流程

文档序号:26588452发布日期:2021-09-10 20:05阅读:59来源:国知局
单元格位置的检测方法、装置和电子设备与流程

1.本技术涉及计算机应用技术领域,尤其涉及一种单元格位置的检测方法、装置、电子设备和存储介质。


背景技术:

2.目前,表格数据具有简洁、直观、易于处理等优点,被广泛应用于人们的办公生活中。随着人工智能技术的发展,对表格数据的自动识别的要求越来越高,比如,自动从表格图像中检测出单元格的位置,以便可根据单元格的位置进行信息抽取等操作。然而,相关技术中的单元格位置的检测方法,检测出的单元格的位置信息不全面、鲁棒性较差。


技术实现要素:

3.本技术旨在至少在一定程度上解决相关技术中检测出的单元格的位置信息不全面、鲁棒性较差的技术问题之一。
4.为此,本技术第一方面实施例提出一种单元格位置的检测方法,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
5.本技术第二方面实施例提出一种单元格位置的检测装置。
6.本技术第三方面实施例提出一种电子设备。
7.本技术第四方面实施例提出一种计算机可读存储介质。
8.本技术第一方面实施例提出了一种单元格位置的检测方法,包括:获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列。
9.本技术实施例的单元格位置的检测方法,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
10.另外,根据本技术上述实施例的单元格位置的检测方法还可以具有如下附加的技
术特征:
11.在本技术的一个实施例中,所述第一位置包括所述预测单元格的中心点的二维坐标、所述预测单元格的宽度、所述预测单元格的高度中的至少一种。
12.在本技术的一个实施例中,所述根据所述第一位置,得到所述表格图像的邻接矩阵,包括:基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值。
13.在本技术的一个实施例中,所述基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值,包括:获取所述预测单元格的数量n,并按照编号1至n对每个所述预测单元格进行连续编号,其中,所述n为大于1的整数;从所述第一位置中提取出所述编号为i、j的所述预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n;获取所述表格图像的宽度和高度,以及调整参数;获取所述编号为i、j的所述预测单元格的中心点的横坐标的差值与所述宽度的第一比值,并基于所述第一比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的行维度的取值;获取所述编号为i、j的所述预测单元格的中心点的纵坐标的差值与所述高度的第二比值,并基于所述第二比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的列维度的取值。
14.在本技术的一个实施例中,所述根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征,包括:根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征;将所述结点特征和所述邻接矩阵输入至图卷积网络gcn中,由所述图卷积网络将所述结点特征与所述邻接矩阵进行特征融合,生成所述任一预测单元格的融合结点特征。
15.在本技术的一个实施例中,所述根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征,包括:对所述任一预测单元格的第一位置进行线性映射,得到所述任一预测单元格的空间特征;基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征;将所述任一预测单元格的所述空间特征和所述视觉语义特征进行拼接,得到所述任一预测单元格的结点特征。
16.在本技术的一个实施例中,所述基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征,包括:基于所述任一预测单元格的第一位置,从所述表格图像包含的像素点中确定所述任一预测单元格包含的目标像素点;从所述表格图像中提取出所述目标像素点的视觉语义特征,作为所述任一预测单元格的所述视觉语义特征。
17.在本技术的一个实施例中,所述根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,包括:基于所述任一预测单元格的融合结点特征,得到所述任一预测单元格在每个候选第二位置下的预测概率;从所述任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为所述任一预测单元格的第二位置。
18.在本技术的一个实施例中,所述根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,包括:针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概
率;从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置。
19.在本技术的一个实施例中,所述获取表格图像中预测单元格的第一位置,包括:从所述表格图像中提取出每个所述预测单元格的检测框,并基于所述检测框获取所述预测单元格的第一位置。
20.在本技术的一个实施例中,所述第二位置包括所述预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。
21.本技术第二方面实施例提出了一种单元格位置的检测装置,包括:第一获取模块,用于获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;第二获取模块,用于根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;第三获取模块,用于根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;第四获取模块,用于根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列。
22.本技术实施例的单元格位置的检测装置,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
23.另外,根据本技术上述实施例的单元格位置的检测装置还可以具有如下附加的技术特征:
24.在本技术的一个实施例中,所述第一位置包括所述预测单元格的中心点的二维坐标、所述预测单元格的宽度、所述预测单元格的高度中的至少一种。
25.在本技术的一个实施例中,所述第二获取模块,还用于:基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值。
26.在本技术的一个实施例中,所述第二获取模块,还用于:获取所述预测单元格的数量n,并按照编号1至n对每个所述预测单元格进行连续编号,其中,所述n为大于1的整数;从所述第一位置中提取出所述编号为i、j的所述预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n;获取所述表格图像的宽度和高度,以及调整参数;获取所述编号为i、j的所述预测单元格的中心点的横坐标的差值与所述宽度的第一比值,并基于所述第一比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的行维度的取值;获取所述编号为i、j的所述预测单元格的中心点的纵坐标的差值与所述高度的第二比值,并基于所述第二比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的列维度的取值。
27.在本技术的一个实施例中,所述第三获取模块,包括:获取单元,用于根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征;融合单元,用于将所述结
点特征和所述邻接矩阵输入至图卷积网络gcn中,由所述图卷积网络将所述结点特征与所述邻接矩阵进行特征融合,生成所述任一预测单元格的融合结点特征。
28.在本技术的一个实施例中,所述获取单元,包括:映射子单元,用于对所述任一预测单元格的第一位置进行线性映射,得到所述任一预测单元格的空间特征;提取子单元,用于基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征;拼接子单元,用于将所述任一预测单元格的所述空间特征和所述视觉语义特征进行拼接,得到所述任一预测单元格的结点特征。
29.在本技术的一个实施例中,所述提取子单元,还用于:基于所述任一预测单元格的第一位置,从所述表格图像包含的像素点中确定所述任一预测单元格包含的目标像素点;从所述表格图像中提取出所述目标像素点的视觉语义特征,作为所述任一预测单元格的所述视觉语义特征。
30.在本技术的一个实施例中,所述第四获取模块,还用于:基于所述任一预测单元格的融合结点特征,得到所述任一预测单元格在每个候选第二位置下的预测概率;从所述任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为所述任一预测单元格的第二位置。
31.在本技术的一个实施例中,所述第四获取模块,还用于:针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概率;从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置。
32.在本技术的一个实施例中,所述第一获取模块,还用于:从所述表格图像中提取出每个所述预测单元格的检测框,并基于所述检测框获取所述预测单元格的第一位置。
33.在本技术的一个实施例中,所述第二位置包括所述预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。
34.本技术第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述第一方面实施例所述的单元格位置的检测方法。
35.本技术实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
36.本技术第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述第一方面实施例所述的单元格位置的检测方法。
37.本技术实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位
置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
38.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
39.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
40.图1为根据本技术一个实施例的单元格位置的检测方法的流程示意图;
41.图2为根据本技术一个实施例的单元格位置的检测方法中确定邻接矩阵中对应元素的取值的流程示意图;
42.图3为根据本技术一个实施例的单元格位置的检测方法中得到任一预测单元格的融合结点特征的流程示意图;
43.图4为根据本技术一个实施例的单元格位置的检测方法中得到任一预测单元格的结点特征的流程示意图;
44.图5为根据本技术一个实施例的单元格位置的检测方法中得到任一预测单元格的第二位置的流程示意图;
45.图6为根据本技术另一个实施例的单元格位置的检测方法中得到任一预测单元格的第二位置的流程示意图;
46.图7为根据本技术一个实施例的单元格位置的检测模型的示意图;
47.图8为根据本技术一个实施例的单元格位置的检测装置的结构示意图;以及
48.图9为根据本技术一个实施例的电子设备的结构示意图。
具体实施方式
49.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
50.下面参照附图描述本技术实施例的单元格位置的检测方法、装置、电子设备和存储介质。
51.图1为根据本技术一个实施例的单元格位置的检测方法的流程示意图。
52.如图1所示,本技术实施例的单元格位置的检测方法,包括:
53.s101,获取表格图像中预测单元格的第一位置,其中,第一位置用于表征预测单元格占用的区域在表格图像中的位置。
54.需要说明的是,本技术实施例的单元格位置的检测方法的执行主体可为单元格位置的检测装置,本技术实施例的单元格位置的检测装置可以配置在任意电子设备中,以使该电子设备可以执行本技术实施例的单元格位置的检测方法。其中,电子设备可以为个人电脑(personal computer,简称pc)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的
硬件设备。
55.本技术的实施例中,可获取表格图像中预测单元格的第一位置。可以理解的是,一个表格图像中可包含至少一个预测单元格,不同的预测单元格可对应不同的第一位置。
56.需要说明的是,本技术的实施例中,第一位置用于表征预测单元格占用的区域在表格图像中的位置,即可根据第一位置确定预测单元格占用的区域在表格图像中的位置,即可根据第一位置实现预测单元格的定位。
57.在一种实施方式中,第一位置包括预测单元格的中心点的二维坐标、预测单元格的宽度、预测单元格的高度中的至少一种,此时预测单元格占用的区域为矩形。
58.在一种实施方式中,可对表格图像进行单元格识别,以生成预测单元格的检测框,则获取表格图像中预测单元格的第一位置,可包括从表格图像中提取出每个预测单元格的检测框,并基于检测框获取预测单元格的第一位置。
59.可选的,对表格图像进行单元格识别,以生成预测单元格的检测框,可包括按照单元格识别算法对表格图像进行单元格识别,从而可从表格图像中定位到预测单元格,以生成预测单元格的检测框。其中,单元格识别算法可根据实际情况进行设置,这里不做过多限定。
60.可选的,基于检测框获取预测单元格的第一位置,可包括获取检测框的中心点的二维坐标、检测框的宽度和高度,将检测框的中心点的二维坐标作为预测单元格的中心点的二维坐标,将检测框的宽度和高度分别作为预测单元格的宽度和高度。
61.s102,根据第一位置,得到表格图像的邻接矩阵,其中,表格图像中的每个预测单元格为一个结点,邻接矩阵用于表示预测单元格之间的位置关系。
62.本技术的实施例中,可将表格图像中的每个预测单元格作为一个结点,预测单元格和结点具有一一对应关系,每个结点用于表征对应的预测单元格。相应的,邻接矩阵用于表示预测单元格之间的位置关系。
63.本技术的实施例中,可根据第一位置得到表格图像的邻接矩阵。可以理解的是,可根据任意两个预测单元格的第一位置,得到任意两个预测单元格之间的位置关系,进而得到邻接矩阵中对应元素的取值。其中,位置关系包括但不限于欧式距离、曼哈顿距离等,这里不做过多限定。
64.在一种实施方式中,邻接矩阵中的元素可用于表示任意两个预测单元格对应的结点之间的无向边。
65.s103,根据任一预测单元格的第一位置和邻接矩阵,得到任一预测单元格的融合结点特征。
66.本技术的实施例中,可根据任一预测单元格的第一位置和邻接矩阵,得到任一预测单元格的融合结点特征。由此,该方法可基于预测单元格的第一位置和邻接矩阵得到融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好。
67.例如,假设预测单元格的数量为n个,则获取的预测单元格的第一位置为n个,则可根据n个第一位置和邻接矩阵,得到n个融合结点特征。
68.s104,根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,其中,第二位置用于表征预测单元格的所属行和/或所属列。
69.本技术的实施例中,可根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,即可根据任一预测单元格的融合结点特征,对任一预测单元格的第二位置进行预测,得到任一预测单元格的第二位置。
70.需要说明的是,本技术的实施例中,第二位置用于表征预测单元格的所属行和/或所属列,即可根据第二位置确定预测单元格在表格中的所属行和/或所属列,即可根据第二位置实现预测单元格的定位。
71.在一种实施方式中,第二位置包括预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。可以理解的是,可预先对表格中的行、列分别进行编号。
72.可选的,可根据预测单元格的起始行的编号、终止行的编号确定预测单元格的所属行。例如,可获取处于起始行的编号和终止行的编号之间的候选编号,将起始行的编号、候选编号、终止行的编号确定为所属行的编号,从而根据确定的所属行的编号确定预测单元格的所属行。需要说明的是,确定预测单元格的所属列的方式可参照上述确定预测单元格的所属行的方式,这里不再赘述。
73.本技术的实施例中,根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括将任一预测单元格的融合结点特征输入至位置预测算法中,由位置预测算法根据融合结点特征进行位置预测,生成任一预测单元格的第二位置。其中,位置预测算法可根据实际情况进行设置,这里不做过多限定。
74.综上,根据本技术实施例的单元格位置的检测方法,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
75.在上述任一实施例的基础上,步骤s102中根据第一位置,得到表格图像的邻接矩阵,可包括基于第一位置和预测单元格的编号,确定邻接矩阵中对应元素的取值。
76.可以理解的是,可基于任意两个预测单元格的第一位置,得到任意两个预测单元格之间的位置关系,并根据任意两个预测单元格的编号确定邻接矩阵中对应元素的目标编号,进而可根据任意两个预测单元格之间的位置关系确定邻接矩阵中目标编号的元素的取值。
77.可选的,如图2所示,基于第一位置和预测单元格的编号,确定邻接矩阵中对应元素的取值,包括:
78.s201,获取预测单元格的数量n,并按照编号1至n对每个预测单元格进行连续编号,其中,n为大于1的整数。
79.本技术的实施例中,可按照编号1至n对预测单元格进行连续编号,编号1至n可随机分配。例如,若预测单元格的数量为10,则可按照编号1至10对每个预测单元格进行连续编号。
80.s202,从第一位置中提取出编号为i、j的预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n。
81.本技术的实施例中,第一位置包括预测单元格的中心点的横坐标和纵坐标,可从第一位置中提取出编号为i、j的预测单元格的中心点的横坐标和纵坐标。
82.其中,1≤i≤n,1≤j≤n,且i、j均为整数。
83.可以理解的是,第一位置与预测单元格的编号具有对应关系,则可根据编号i、j查询上述对应关系,得到编号为i、j的预测单元格的中心点的横坐标和纵坐标。
84.在一种实施方式中,可预先建立第一位置与预测单元格的编号之间的映射关系或者映射表,其中,第一位置包括预测单元格的中心点的横坐标和纵坐标,则可根据预测单元格的编号查询上述映射关系或者映射表,获取预测单元格的中心点的横坐标和纵坐标。应说明的是,上述映射关系或者映射表均可根据实际情况进行设置,这里不做过多限定。
85.s203,获取表格图像的宽度和高度,以及调整参数。
86.在一种实施方式中,获取表格图像的宽度和高度,可包括按照图像尺寸识别算法对表格图像进行尺寸识别,得到表格图像的宽度和高度。其中,图像尺寸识别算法可根据实际情况进行设置,这里不做过多限定。
87.需要说明的是,本技术的实施例中,调整参数可根据实际情况进行设置,这里不做过多限定。在一种实施方式中,调整参数与表格的行数和/或列数正相关。
88.s204,获取编号为i、j的预测单元格的中心点的横坐标的差值与宽度的第一比值,并基于第一比值和调整参数的乘积确定邻接矩阵中第i行第j列的元素的行维度的取值。
89.在一种实施方式中,采用如下公式计算邻接矩阵中第i行第j列的元素的行维度的取值:
[0090][0091]
其中,为邻接矩阵中第i行第j列的元素的行维度的取值,为编号为i的预测单元格的中心点的横坐标,为编号为j的预测单元格的中心点的横坐标,w为表格图像的宽度,c为调整参数。
[0092]
可以理解的是,确定邻接矩阵中第i行第j列的元素的行维度的取值还可为其他方式,这里不再赘述。
[0093]
s205,获取编号为i、j的预测单元格的中心点的纵坐标的差值与高度的第二比值,并基于第二比值和调整参数的乘积确定邻接矩阵中第i行第j列的元素的列维度的取值。
[0094]
在一种实施方式中,采用如下公式计算邻接矩阵中第i行第j列的元素的列维度的取值:
[0095][0096]
其中,为邻接矩阵中第i行第j列的元素的列维度的取值,为编号为i的预测单元格的中心点的纵坐标,为编号为j的预测单元格的中心点的纵坐标,h为表格图像的宽度,c为调整参数。
[0097]
可以理解的是,确定邻接矩阵中第i行第j列的元素的列维度的取值还可为其他方
式,这里不再赘述。
[0098]
由此,该方法可综合考虑编号为i、j的预测单元格的中心点的横坐标、表格图像的宽度、调整参数对邻接矩阵中第i行第j列的元素的行维度的取值的影响,以及综合考虑编号为i、j的预测单元格的中心点的纵坐标、表格图像的高度、调整参数对邻接矩阵中第i行第j列的元素的列维度的取值的影响。
[0099]
在上述任一实施例的基础上,如图3所示,步骤s103中根据任一预测单元格的第一位置和邻接矩阵,得到任一预测单元格的融合结点特征,包括:
[0100]
s301,根据任一预测单元格的第一位置,得到任一预测单元格的结点特征。
[0101]
本技术的实施例中,可根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,使得结点特征可与预测单元格的第一位置相匹配。
[0102]
在一种实施方式中,根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,可包括将任一预测单元格的第一位置输入至特征提取算法中,由特征提取算法从第一位置中提取出任一预测单元格的结点特征。其中,特征提取算法可根据实际情况进行设置,这里不做过多限定。
[0103]
s302,将结点特征和邻接矩阵输入至图卷积网络gcn中,由图卷积网络将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征。
[0104]
本技术的实施例中,可将结点特征和邻接矩阵输入至图卷积网络(graph convolutional network,gcn)中,由图卷积网络将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征,即可通过图卷积网络利用邻接矩阵重构结点特征,生成融合结点特征。其中,图卷积网络可根据实际情况进行设置,这里不做过多限定。
[0105]
在一种实施方式中,采用如下公式计算融合结点特征:
[0106]
x'=relu(gcn(x,a))
[0107]
其中,x'为融合结点特征,x为结点特征,a为邻接矩阵,relu(
·
)为激活函数。
[0108]
由此,该方法可根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,并将结点特征和邻接矩阵输入至图卷积网络gcn中,由图卷积网络将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征。
[0109]
在上述任一实施例的基础上,如图4所示,步骤s301中根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,包括:
[0110]
s401,对任一预测单元格的第一位置进行线性映射,得到任一预测单元格的空间特征。
[0111]
可以理解的是,第一位置可为一维或者多维向量。例如,第一位置包括预测单元格的中心点的二维坐标、预测单元格的宽度和高度时,第一位置为4维向量,可用来表示,其中,b
i
为编号为i的预测单元格的第一位置,为编号为i的预测单元格的中心点的横坐标,为编号为i的预测单元格的中心点的纵坐标,为编号为i的预测单元格的宽度,为编号为i的预测单元格的高度。
[0112]
本技术的实施例中,可对任一预测单元格的第一位置进行线性映射,得到任一预测单元格的空间特征。可以理解的是,任一预测单元格的空间特征与第一位置相匹配。
[0113]
在一种实施方式中,对任一预测单元格的第一位置进行线性映射,得到任一预测
单元格的空间特征,可包括将任一预测单元格的第一位置输入至线性映射算法,由线性映射算法对第一位置进行线性映射,得到任一预测单元格的空间特征。其中,线性映射算法可根据实际情况进行设置,这里不做过多限定。
[0114]
s402,基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征。
[0115]
本技术的实施例中,可基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征,使得视觉语义特征可与预测单元格的第一位置相匹配。
[0116]
本技术的实施例中,基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征,可包括基于任一预测单元格的第一位置,确定任一预测单元格在表格图像上占用的区域,并从表格图像中对应的区域中提取出视觉语义特征,作为任一预测单元格的视觉语义特征。
[0117]
在一种实施方式中,基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征,可包括基于任一预测单元格的第一位置,从表格图像包含的像素点中确定任一预测单元格包含的目标像素点,并从表格图像中提取出目标像素点的视觉语义特征,作为任一预测单元格的视觉语义特征。
[0118]
可以理解的是,表格图像包含多个像素点,可基于任一预测单元格的第一位置,从表格图像包含的像素点中确定任一预测单元格包含的目标像素点。应说明的是,目标像素点指的是位于预测单元格占用的区域内的像素点。
[0119]
可选的,从表格图像中提取出目标像素点的视觉语义特征,作为任一预测单元格的视觉语义特征,可包括从表格图像中提取出每个像素点的视觉语义特征,按照预设提取算法从视觉语义特征中提取出目标像素点的视觉语义特征。其中,提取算法可根据实际情况进行设置,这里不做过多限定,例如可为roialign算法。
[0120]
s403,将任一预测单元格的空间特征和视觉语义特征进行拼接,得到任一预测单元格的结点特征。
[0121]
在一种实施方式中,可将任一预测单元格的空间特征和视觉语义特征进行横向拼接,得到任一预测单元格的结点特征。例如,任一预测单元格的空间特征、视觉语义特征分别为x
s
、x
v
,x
s
、x
v
分别为256维、1024维的向量,则可将x
s
、x
v
进行横向拼接,得到任一预测单元格的结点特征为1280维的向量。
[0122]
由此,该方法可分别基于任一预测单元格的第一位置得到空间特征和视觉语义特征,并将空间特征和视觉语义特征进行拼接,得到任一预测单元格的结点特征。
[0123]
在上述任一实施例的基础上,步骤s104中根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括如下两种可能的实施方式:
[0124]
方式1、如图5所示,步骤s104中根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括:
[0125]
s501,基于任一预测单元格的融合结点特征,得到任一预测单元格在每个候选第二位置下的预测概率。
[0126]
以第二位置为预测单元格的起始行为例,若表格的行数为t,候选第二位置包括第1、2至t行,则可基于任一预测单元格的融合结点特征,得到任一预测单元格在第1、2至t行下的预测概率。
[0127]
s502,从任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为任一预测单元格的第二位置。
[0128]
本技术的实施例中,任一预测单元格在每个候选第二位置下的预测概率可能不同,预测概率越大表明候选第二位置为第二位置的可能性越大,则可从任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为任一预测单元格的第二位置。
[0129]
继续以第二位置为预测单元格的起始行为例,若表格的行数为t,候选第二位置包括第1、2至t行,任一预测单元格在第1、2至t行下的预测概率分别为p1、p2至p
t
,p1、p2至p
t
中的最大值为p2,则可将第2行作为预测单元格的起始行。
[0130]
由此,该方法可基于任一预测单元格的融合结点特征,得到任一预测单元格在每个候选第二位置下的预测概率,并从任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为任一预测单元格的第二位置。
[0131]
方式2、如图6所示,步骤s104中根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括:
[0132]
s601,针对任一预测单元格,建立目标向量,目标向量包括n个维度,n为任一预测单元格的候选第二位置的数量。
[0133]
以第二位置为预测单元格的起始行为例,若表格的行数为t,候选第二位置包括第1、2至t行,则此时目标向量包括t个维度。
[0134]
s602,基于任一预测单元格的融合结点特征,得到目标向量的任一向量维度的取值为0或1的预测概率。
[0135]
继续以第二位置为预测单元格的起始行为例,若表格的行数为t,候选第二位置包括第1、2至t行,目标向量包括t个维度,则可基于任一预测单元格的融合结点特征,得到目标向量的第1、2至t向量维度的取值为0或1的预测概率。
[0136]
s603,从任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为任一向量维度的目标取值。
[0137]
本技术的实施例中,任一向量维度的取值为0或1的预测概率可能不同,取值为0的预测概率较大表明任一向量维度的取值为0的可能性较大,反之,取值为1的预测概率较大表明任一向量维度的取值为1的可能性较大,则可从任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为任一向量维度的目标取值。
[0138]
继续以第二位置为预测单元格的起始行为例,若表格的行数为t,候选第二位置包括第1、2至t行,目标向量包括t个维度,目标向量的第m向量维度的取值为0或1的预测概率分别为中的最大值为则目标向量的第m向量维度的目标取值为1。其中,1≤m≤t。
[0139]
s604,基于向量维度的目标取值的和值,得到任一预测单元格的第二位置。
[0140]
本技术的实施例中,目标向量的向量维度的目标取值的和值与第二位置具有对应关系,则可基于向量维度的目标取值的和值,查询对应关系,确定对应的第二位置。应说明的是,上述对应关系可根据实际情况进行设置,这里不做过多限定。
[0141]
在一种实施方式中,针对编号为i的预测单元格,可采用如下公式将每个候选第二
位置的编号转换为候选向量:
[0142][0143]
其中,候选向量包括n个维度,n为候选第二位置的数量,为候选向量的第t向量维度的取值,r
i
为候选第二位置的编号,0≤r
i
≤n

1,1≤t≤n。
[0144]
继续以第二位置为预测单元格的起始行为例,若表格的行数为3,候选第二位置包括第1、2至3行,即候选第二位置的编号为0、1、2,分别对应第1、2、3行,则可按照上述公式将候选第二位置的编号0、1、2转换为候选向量(0,0,0)、(1,0,0)、(1,1,0)。
[0145]
此时可基于目标向量的所有向量维度的目标取值的和值与1的目标和值确定第二位置的编号。若目标向量的所有向量维度的目标取值的和值为2,则可确定预测单元格的起始行的编号为3,即预测单元格的起始行为第3行。
[0146]
由此,该方法可针对任一预测单元格,建立目标向量,并基于任一预测单元格的融合结点特征,确定目标向量的任一向量维度的取值,并根据向量维度的目标取值的和值,得到任一预测单元格的第二位置,得到的第二位置的准确性更好。
[0147]
需要说明的是,本技术实施例中的第二位置的获取方法适用于任一类型的第二位置。在一种实施方式中,本技术实施例中的第二位置的获取方法适用于确定预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号。
[0148]
在上述任一实施例的基础上,步骤s101中获取表格图像中预测单元格的第一位置,可包括从表格图像中提取出每个像素点的视觉语义特征,基于视觉语义特征得到每个像素点在每个类别下的识别概率,从任一像素点在每个类别下的识别概率中获取最大识别概率,并将最大识别概率对应的类别确定为任一像素点对应的目标类别,识别由目标类别为单元格的像素点构成的连通域,将连通域的最小外接矩形确定为预测单元格的检测框,并基于检测框获取预测单元格的第一位置。
[0149]
其中,类别包括但不限于背景、单元格、边界线。
[0150]
其中,基于视觉语义特征得到每个像素点在每个类别下的识别概率,可包括将任一像素点的视觉语义特征输入至分类算法中,由分类算法根据视觉语义特征进行类别预测,生成任一像素点在每个类别下的识别概率。其中,分类算法可根据实际情况进行设置,这里不做过多限定。
[0151]
需要说明的是,基于检测框获取预测单元格的第一位置的相关内容可参见上述实施例,这里不再赘述。
[0152]
与上述图1至图6实施例提供的单元格位置的检测方法相对应,本公开还提供一种单元格位置的检测模型,该检测模型的输入为表格图像,输出为表格图像中预测单元格的第一位置和第二位置。
[0153]
如图7所示,该检测模型包括视觉语义特征提取层、第一分类层、结点特征提取层、图重构网络层、第二分类层。
[0154]
其中,视觉语义特征提取层用于从表格图像中提取出每个像素点的视觉语义特征。
[0155]
其中,第一分类层用于基于视觉语义特征得到每个像素点在每个类别下的识别概
率,进而根据识别概率确定任一像素点对应的目标类别,并识别由目标类别为单元格的像素点构成的连通域,将连通域的最小外接矩形确定为预测单元格的检测框,并基于检测框获取预测单元格的第一位置。
[0156]
其中,结点特征提取层用于根据任一预测单元格的第一位置,得到任一预测单元格的结点特征。
[0157]
其中,图重构网络层用于将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征。
[0158]
其中,第二分类层用于根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置。
[0159]
与上述图1至图6实施例提供的单元格位置的检测方法相对应,本公开还提供一种单元格位置的检测装置,由于本公开实施例提供的单元格位置的检测装置与上述图1至图6实施例提供的单元格位置的检测方法相对应,因此单元格位置的检测方法的实施方式也适用于本公开实施例提供的单元格位置的检测装置,在本公开实施例中不再详细描述。
[0160]
图8为根据本技术一个实施例的单元格位置的检测装置的结构示意图。
[0161]
如图8所示,本技术实施例的单元格位置的检测装置100可以包括:第一获取模块110、第二获取模块120、第三获取模块130和第四获取模块140。
[0162]
第一获取模块110,用于获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;
[0163]
第二获取模块120,用于根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;
[0164]
第三获取模块130,用于根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;
[0165]
第四获取模块140,用于根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列。
[0166]
在本技术的一个实施例中,所述第一位置包括所述预测单元格的中心点的二维坐标、所述预测单元格的宽度、所述预测单元格的高度中的至少一种。
[0167]
在本技术的一个实施例中,所述第二获取模块120,还用于:基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值。
[0168]
在本技术的一个实施例中,所述第二获取模块120,还用于:获取所述预测单元格的数量n,并按照编号1至n对每个所述预测单元格进行连续编号,其中,所述n为大于1的整数;从所述第一位置中提取出所述编号为i、j的所述预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n;获取所述表格图像的宽度和高度,以及调整参数;获取所述编号为i、j的所述预测单元格的中心点的横坐标的差值与所述宽度的第一比值,并基于所述第一比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的行维度的取值;获取所述编号为i、j的所述预测单元格的中心点的纵坐标的差值与所述高度的第二比值,并基于所述第二比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的列维度的取值。
[0169]
在本技术的一个实施例中,所述第三获取模块130,包括:获取单元,用于根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征;融合单元,用于将所述结点特征和所述邻接矩阵输入至图卷积网络gcn中,由所述图卷积网络将所述结点特征与所述邻接矩阵进行特征融合,生成所述任一预测单元格的融合结点特征。
[0170]
在本技术的一个实施例中,所述获取单元,包括:映射子单元,用于对所述任一预测单元格的第一位置进行线性映射,得到所述任一预测单元格的空间特征;提取子单元,用于基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征;拼接子单元,用于将所述任一预测单元格的所述空间特征和所述视觉语义特征进行拼接,得到所述任一预测单元格的结点特征。
[0171]
在本技术的一个实施例中,所述提取子单元,还用于:基于所述任一预测单元格的第一位置,从所述表格图像包含的像素点中确定所述任一预测单元格包含的目标像素点;从所述表格图像中提取出所述目标像素点的视觉语义特征,作为所述任一预测单元格的所述视觉语义特征。
[0172]
在本技术的一个实施例中,所述第四获取模块140,还用于:基于所述任一预测单元格的融合结点特征,得到所述任一预测单元格在每个候选第二位置下的预测概率;从所述任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为所述任一预测单元格的第二位置。
[0173]
在本技术的一个实施例中,所述第四获取模块140,还用于:针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概率;从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置。
[0174]
在本技术的一个实施例中,所述第一获取模块110,还用于:从所述表格图像中提取出每个所述预测单元格的检测框,并基于所述检测框获取所述预测单元格的第一位置。
[0175]
在本技术的一个实施例中,所述第二位置包括所述预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。
[0176]
本技术实施例的单元格位置的检测装置,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
[0177]
为了实现上述实施例,如图9所示,本技术还提出一种电子设备200,包括:存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序,处理器220执行程序时,实现如本技术前述实施例提出的单元格位置的检测方法。
[0178]
本技术实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置
和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
[0179]
为了实现上述实施例,本技术还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如本技术前述实施例提出的单元格位置的检测方法。
[0180]
本技术实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
[0181]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0182]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0183]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0184]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0185]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0186]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0187]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0188]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1