一种处理表格图片中框选文字的方法及装置与流程

文档序号：17064672发布日期：2019-03-08 22:49阅读：955来源：国知局

技术简介：
本发明针对表格OCR识别准确率低、版面还原困难的问题，提出基于联合训练模型的解决方案。通过预处理消除干扰项，利用RGB三通道特征提取与语言模型协同识别字条位置及内容，结合表格结构特性进行智能还原，实现高精度文字识别与版面复原。
关键词：表格OCR识别,联合训练模型

本发明涉及一种表格处理方法，尤其是一种处理表格图片中框选文字的方法及装置。

背景技术：

在ocr识别领域中，对于类似a4纸的大段文字识别的准确率较高。但针对于表格的识别，目前业界准确率都不是很高。因为原有的切字识别的方式会造成难以进行版面还原，且无法利用表格中的信息。

技术实现要素：

针对上述问题中存在的不足之处，本发明提供一种可以提升表格图片中文字识别和还原准确率的一种处理表格图片中框选文字的方法及装置。

为实现上述目的，本发明提供一种处理表格图片中框选文字的方法，包括以下步骤：

步骤1、以去除表格图片中的干扰识别项；

步骤2、利用联合训练模型，在表格图片中圈选出字条，获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容；

步骤3、利用表格特性对字条、字条位置坐标与文字内容进行表格还原。

上述的一种处理表格图片中框选文字的方法，其中，在步骤1中，对表格图片进行预处理，以去除表格图片中的干扰识别项，对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。

上述的一种处理表格图片中框选文字的方法，其中，在步骤2中，包括以下子步骤：

步骤21、对去除干扰识别项的表格图片进行rgb三通道处理，以形成至少两个表格图片层；

步骤22、通过卷积变换对每个表格图片层进行特征提取；

步骤23、在第一表格图片层中，预测出字条在第一表格图片层中的字条位置坐标；

步骤24、在第二表格图片层中，通过图像信息和应用语言模型得到与字条相对应的文字内容。

上述的一种处理表格图片中框选文字的方法，其中，在步骤23中，字条位置坐标包括左上坐标(x0，y0)、右上坐标(x1，y1)、右下坐标(x2，y2)、左下坐标(x3，y3)。

上述的一种处理表格图片中框选文字的方法，其中，在步骤3中，根据字条位置坐标进行表格行与表格列的切分，将文字内容导入字条位置中，根据语义判断进行单元格的结合，以完成整体表格的还原。

上述的一种处理表格图片中框选文字的方法，其中，还包括步骤4、呈现还原后的表格。

本发明还提供一种处理表格图片中框选文字的装置，包括：预处理模块、识别模块与表格还原模块；

预处理模块，用于去除表格图片中的干扰识别项；

识别模块，利用联合训练模型，在表格图片中圈选出字条，获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容；

表格还原模块，利用表格特性对字条、字条位置坐标与文字内容进行表格还原。

上述的装置，其中，所述预处理模块对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。

上述的装置，其中，所述识别模块的实施步骤如下：

对表格图片进行rgb三通道处理，以形成至少两个表格图片层；

通过卷积变换对每个表格图片层进行特征提取；

在第一表格图片层中，预测出字条在第一表格图片层中的字条位置坐标；

在第二表格图片层中，通过图像信息和应用语言模型得到与字条相对应的文字内容。

上述的装置，其中，所述表格还原模块根据字条位置坐标进行表格行与表格列的切分，将文字内容导入字条位置中，根据语义判断进行单元格的结合，以完成整体表格的还原。

与现有技术相比，本发明具有以下优点：

通过基于表格的文字框选和识别进行联合训练深度学习模型，使框选和识别两个任务可以公共表格的图像信息，使最终表格文字识别更加准确，且不丢失表格本身的版面信息，提升表格版面还原的准确率。

附图说明

图1为本发明中方法部分的流程图；

图2为本发明中装置部分的结构框图。

主要附图标记说明如下：

1-预处理模块；2-识别模块；3-表格还原模块；4-呈现模块

具体实施方式

如图1所示，本发明提供一种处理表格图片中框选文字的方法，包括以下步骤：

步骤1、去除表格图片中的干扰识别项。

在步骤1中，对表格图片进行预处理，以去除表格图片中的干扰识别项，对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。

步骤2、利用联合训练模型，在表格图片中圈选出字条，获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容。

在步骤2中，包括以下子步骤：

步骤21、对去除干扰识别项的表格图片进行rgb三通道处理，以形成至少两个表格图片层；

步骤22、通过卷积变换对每个表格图片层进行特征提取；

步骤23、在第一表格图片层中，预测出字条在第一表格图片层中的字条位置坐标；

其中，字条位置坐标包括左上坐标(x0，y0)、右上坐标(x1，y1)、右下坐标(x2，y2)、左下坐标(x3，y3)。

步骤24、在第二表格图片层中，通过图像信息和应用语言模型得到与字条相对应的文字内容。

步骤3、利用表格特性对字条、字条位置坐标与文字内容进行表格还原。

在步骤3中，根据字条位置坐标进行表格行与表格列的切分，将文字内容导入字条位置中，根据语义判断进行单元格的结合，以完成整体表格的还原。

步骤4、呈现还原后的表格。

联合训练模型的训练过程如下：

1.针对不同字体、不同表格类型，生成出表格，且附上字条、文字的对应信息；

2.对已生成的表格添加噪声，保证模型的健壮性；

3.将样本送到联合训练模型中训练；

4.得到训练后的模型用于ocr识别。

如图2所示，本发明提供一种处理表格图片中框选文字的装置，包括：预处理模块1、识别模块2与表格还原模块3。

预处理模块1，用于去除表格图片中的干扰识别项。

预处理模块对表格图片进行预处理，以去除表格图片中的干扰识别项，对表格图片进行的预处理包括图片角度纠偏操作、或水印印章去除操作。

识别模块2，利用联合训练模型，在表格图片中圈选出字条，获取字条在表格图片中的字条位置坐标、并识别出与字条相对应的文字内容。

识别模块的实施步骤如下：

对去除干扰识别项的表格图片进行rgb三通道处理，以形成至少两个表格图片层；

通过卷积变换对每个表格图片层进行特征提取；

在第一表格图片层中，预测出字条在第一表格图片层中的字条位置坐标；

在第二表格图片层中，通过图像信息和应用语言模型得到与字条相对应的文字内容。

其中，字条位置坐标包括左上坐标(x0，y0)、右上坐标(x1，y1)、右下坐标(x2，y2)、左下坐标(x3，y3)。

表格还原模块3，利用表格特性对字条、字条位置坐标与文字内容进行表格还原。

其中，表格还原模块根据字条位置坐标进行表格行与表格列的切分，将文字内容导入字条位置中，根据语义判断进行单元格的结合，以完成整体表格的还原。

还包括呈现模块4，用于呈现还原后的表格。

整体的联合训练模型基于深度学习的ctpn模型，同时在ctpn模型之上创造性的接入ctc和识别字条周围的特征，使识别过程可以利用表格特性，大幅提升准确性。

以上所述仅为本发明的较佳实施例，对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李鹏辉;竺晨曦;邱锡鹏
技术所有人：上海犀语科技有限公司
我是此专利的发明人

上一篇：餐具立面外圆角自动抛光装置的制作方法
下一篇：一种土豆播种机的制作方法