表格识别方法和装置与流程

文档序号:36390425发布日期:2023-12-15 08:20阅读:33来源:国知局
表格识别方法和装置与流程

本发明涉及图片识别领域,具体而言,涉及一种表格识别方法和装置。


背景技术:

1、现有技术中,在识别图片中的表格时,通常需要使用正负样本来训练识别模型,然后,由成熟的识别模型来识别图片中是否存在表格。

2、然而,未包含表格的负样本图片通常携带有多种类型的标签,例如用于标记负样本图片的类型、颜色、包含的内容的标签。而上述标签无法统一用作负样本进行训练,而修改标签会造成样本获取的工作量大。

3、也就是说,现有技术中,如果没有足够准确的负样本的支撑,无法训练得到准确的识别模型,对图片中的表格进行识别的准确度低。


技术实现思路

1、本发明实施例提供了一种表格识别方法和装置,以至少解决在未包含表格的负样本图片不足时,识别图片中的表格准确度低的技术问题。

2、根据本发明实施例的一个方面,提供了一种表格识别方法,包括:提取待识别的目标图片的目标特征图;将所述目标特征图映射为高纬度特征向量;根据所述高纬度特征向量与样本中心图片的特征向量之间的距离,确定所述目标图片中是否包含表格,其中,所述样本中心图片为根据正样本图片确定的图片。

3、作为一种可选的示例,所述根据所述高纬度特征向量与样本中心图片的特征向量之间的距离,确定所述目标图片中是否包含表格,包括:在所述距离小于预设半径的情况下,确定所述目标图片中包含表格,其中,所述预设半径为根据所述正样本图片确定的半径;在所述距离大于或等于所述预设半径的情况下,确定所述目标图片中未包含表格。

4、作为一种可选的示例,所述方法还包括:响应于调整指令,获取所述调整指令中包括的目标值;将所述预设半径的值调整为所述目标值。

5、作为一种可选的示例,所述目标值属于1-x到1+x,其中,所述x为0到1之间的实数。

6、作为一种可选的示例,所述提取待识别的目标图片的目标特征图,包括:获取所述目标图片的原始特征图;对所述原始特征图进行非线性变换处理,得到所述目标特征图。

7、作为一种可选的示例,所述将所述目标特征图映射为高纬度特征向量,包括:对所述目标特征图进行线性变换处理,得到第一特征图;对所述第一特征图进行归一化处理,得到第二特征图;对所述第二特征图进行线性修正处理,得到所述高纬度特征向量。

8、作为一种可选的示例,在提取待识别的目标图片的目标特征图之前,所述方法还包括:使用所述正样本图片确定所述样本中心图片。

9、作为一种可选的示例,使用所述正样本图片确定所述样本中心图片,包括:获取多张正样本图片,并提取每张所述正样本图片的特征向量,其中,所述正样本图片中包含表格;计算所述多张正样本图片的特征向量的均值,得到均值特征向量;将所述特征向量与所述均值特征向量相同的正样本图片作为所述样本中心图片。

10、作为一种可选的示例,所述计算所述多张正样本图片的特征向量的均值,得到均值特征向量,包括:将所述多张正样本图片分为多份;确定每一份所述正样本图片的特征向量的均值,得到多个均值;在任意两个所述均值的差异小于第一阈值的情况下,将多个所述均值中的任意一个均值确定为所述均值特征向量。

11、根据本发明实施例的另一方面,提供了一种表格识别装置,包括:提取模块,用于提取待识别的目标图片的目标特征图;映射模块,用于将所述目标特征图映射为高纬度特征向量;第一确定模块,用于根据所述高纬度特征向量与样本中心图片的特征向量之间的距离,确定所述目标图片中是否包含表格,其中,所述样本中心图片为根据正样本图片确定的图片。

12、作为一种可选的示例,所述第一确定模块,包括:第一确定单元,用于在所述距离小于预设半径的情况下,确定所述目标图片中包含表格,其中,所述预设半径为根据所述正样本图片确定的半径;在所述距离大于或等于所述预设半径的情况下,确定所述目标图片中未包含表格。

13、作为一种可选的示例,所述装置还包括:获取模块,用于响应于调整指令,获取所述调整指令中包括的目标值;调整模块,用于将所述预设半径的值调整为所述目标值。

14、作为一种可选的示例,所述目标值属于1-x到1+x,其中,所述x为0到1之间的实数。

15、作为一种可选的示例,所述提取模块,包括:第一获取单元,用于获取所述目标图片的原始特征图;变换单元,用于对所述原始特征图进行非线性变换处理,得到所述目标特征图。

16、作为一种可选的示例,所述映射模块,包括:处理单元,用于对所述目标特征图进行线性变换处理,得到第一特征图;对所述第一特征图进行归一化处理,得到第二特征图;对所述第二特征图进行线性修正处理,得到所述高纬度特征向量。

17、作为一种可选的示例,所述装置还包括:第二确定模块,用于在提取待识别的目标图片的目标特征图之前使用所述正样本图片确定所述样本中心图片。

18、作为一种可选的示例,第二确定模块,包括:第二获取单元,用于获取多张正样本图片,并提取每张所述正样本图片的特征向量,其中,所述正样本图片中包含表格;计算单元,用于计算所述多张正样本图片的特征向量的均值,得到均值特征向量;第二确定单元,用于将所述特征向量与所述均值特征向量相同的正样本图片作为所述样本中心图片。

19、作为一种可选的示例,所述计算单元,包括:处理子单元,用于将所述多张正样本图片分为多份;确定每一份所述正样本图片的特征向量的均值,得到多个均值;在任意两个所述均值的差异小于第一阈值的情况下,将多个所述均值中的任意一个均值确定为所述均值特征向量。

20、根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述表格识别方法。

21、根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的表格识别方法。

22、在本发明实施例中,采用了提取待识别的目标图片的目标特征图;将所述目标特征图映射为高纬度特征向量;根据所述高纬度特征向量与样本中心图片的特征向量之间的距离,确定所述目标图片中是否包含表格,其中,所述样本中心图片为根据正样本图片确定的图片的方法,由于在上述方法中,在识别目标图片中是否存在表格的过程中,可以提取目标图片的目标特征图,并将提取的目标特征图映射为高纬度特征向量,通过比对高纬度特征向量与样本中心图片的特征向量的距离,来确定目标图片中是否存在表格,从而可以使用正样本图片就可以准确识别图片中是否有表格,解决了负样本图片不足时,识别图片中的表格的准确度低的技术问题。



技术特征:

1.一种表格识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述高纬度特征向量与样本中心图片的特征向量之间的距离,确定所述目标图片中是否包含表格,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述目标值属于1-x到1+x,其中,所述x为0到1之间的实数。

5.根据权利要求1所述的方法,其特征在于,所述提取待识别的目标图片的目标特征图,包括:

6.根据权利要求1所述的方法,其特征在于,所述将所述目标特征图映射为高纬度特征向量,包括:

7.根据权利要求1所述的方法,其特征在于,在提取待识别的目标图片的目标特征图之前,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,使用所述正样本图片确定所述样本中心图片,包括:

9.根据权利要求8所述的方法,其特征在于,所述计算所述多张正样本图片的特征向量的均值,得到均值特征向量,包括:

10.一种表格识别装置,其特征在于,包括:


技术总结
本发明公开了一种表格识别方法和装置。该方法包括:提取待识别的目标图片的目标特征图;将目标特征图映射为高纬度特征向量;根据高纬度特征向量与样本中心图片的特征向量之间的距离,确定目标图片中是否包含表格,其中,样本中心图片为根据正样本图片确定的图片。本发明解决了在未包含表格的负样本图片不足时,识别图片中的表格准确度低的技术问题。

技术研发人员:邓灿赏,林露樾
受保护的技术使用者:珠海金山办公软件有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1