文本区域的确定方法、装置、设备及可读存储介质与流程

文档序号：25735025发布日期：2021-07-06 18:43阅读：来源：国知局

技术特征：

1.一种文本区域的确定方法，其特征在于，所述方法包括：

获取目标图像，所述目标图像中包括文本内容，所述目标图像为所述文本内容所在的文本区域待确定的图像；

对所述目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果，所述区域中心预测结果表示预测得到的所述文本区域所处的区域范围，所述区域边缘预测结果表示预测得到的所述文本区域的边缘位置；

对所述区域中心预测结果和所述区域边缘预测结果进行逻辑结合，得到所述目标图像中的文本连通区域，所述文本连通区域表示具有连通关系的所述文本内容在所述目标图像中的区域；

基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域。

2.根据权利要求1所述的方法，其特征在于，所述对所述区域中心预测结果和所述区域边缘预测结果进行逻辑结合，得到所述目标图像中的文本连通区域，包括：

基于所述区域中心预测结果生成区域二值图；

基于所述区域边缘预测结果生成边缘二值图；

对所述边缘二值图和所述区域二值图进行逻辑结合，得到所述文本连通区域。

3.根据权利要求2所述的方法，其特征在于，所述对所述边缘二值图和所述区域二值图进行逻辑结合，得到所述文本连通区域，包括：

对所述边缘二值图进行取反处理，得到边缘取反图；

对所述边缘取反图与所述区域二值图进行逻辑与运算，得到修正后的所述文本连通区域。

4.根据权利要求2所述的方法，其特征在于，所述区域中心预测结果中包括所述目标图像中的像素点在所述文本区域范围内的第一置信度得分；

所述基于所述区域中心预测结果生成区域二值图，包括：

获取第一概率阈值；

以所述第一概率阈值为二值化分界，基于所述像素点的所述第一置信度得分对所述像素点进行二值化处理，得到所述区域二值图。

5.根据权利要求2所述的方法，其特征在于，所述区域边缘预测结果中包括所述目标图像中的像素点在所述文本区域的边缘范围内的第二置信度得分；

所述基于所述区域边缘预测结果生成边缘二值图，包括：

获取第二概率阈值；

以所述第二概率阈值为二值化分界，基于所述像素点的所述第二置信度得分对所述像素点进行二值化处理，得到所述边缘二值图。

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

对所述目标图像进行文本识别，得到像素点位置预测结果和区域角度预测结果，所述像素点位置预测结果表示预测得到的所述像素点到所述文字区域边界的距离，所述区域角度预测结果表示所述文字区域在所述目标图像中相对基准角度的倾斜角度；

所述基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域，包括：

基于所述文本连通区域、所述像素点位置预测结果和所述区域角度预测结果，确定所述文本内容在所述目标图像中的所述文本区域。

7.根据权利要求6所述的方法，其特征在于，所述基于所述文本连通区域、所述像素点位置预测结果和所述区域角度预测结果，确定所述文本内容在所述目标图像中的所述文本区域，包括：

基于所述文本连通区域对所述像素点位置预测结果和所述区域角度预测结果进行解码，得到与所述文本连通区域对应的至少两个文本框；

基于所述像素点位置预测结果对所述至少两个文本框进行加权融合，得到所述文本内容在所述目标图像中的所述文本区域。

8.根据权利要求7所述的方法，其特征在于，所述至少两个文本框中包括第一边缘文本框和第二边缘文本框；

所述基于所述像素点位置预测结果对所述至少两个文本框进行加权融合，得到所述文本内容在所述目标图像中的所述文本区域，包括：

针对所述第一边缘文本框对应的像素点，根据与所述第一边缘之间的距离确定第一权重；

针对所述第二边缘文本框对应的像素点，根据与所述第二边缘之间的距离确定第二权重；

通过所述第一权重对所述第一边缘文本框赋权，以及通过所述第二权重对所述第二边缘文本框赋权，得到所述文本内容在所述目标图像中的所述文本区域。

9.根据权利要求8所述的方法，其特征在于，所述第一权重和所述第二权重与所述距离之间呈负相关关系；

所述通过所述第一权重对所述第一边缘文本框赋权，以及通过所述第二权重对所述第二边缘文本框赋权，得到所述文本内容在所述目标图像中的所述文本区域，包括：

确定所述第一边缘的第一位置坐标和所述第二边缘的第二位置坐标，所述第一边缘相对所述第一边缘文本框和所述第二边缘相对所述第二边缘文本框属于同侧；

确定所述第一位置坐标与所述第一权重的第一乘积，以及所述第二位置坐标与所述第二权重的第二乘积；

基于所述第一乘积与所述第二乘积之间的平均值确定所述文本区域的第三侧边的第三位置坐标。

10.根据权利要求1至5任一所述的方法，其特征在于，所述对所述目标图像进行文本识别，包括：

对所述目标图像进行编码，得到所述目标图像的编码特征；

对所述编码特征进行下采样，得到下采样特征；

对所述下采样特征进行上采样，得到上采样特征；

基于所述上采样特征对所述目标图像进行文本识别。

11.根据权利要求10所述的方法，其特征在于，所述对所述编码特征进行下采样，得到下采样特征，包括：

对所述编码特征进行n次下采样，得到n个逐层排列的所述下采样特征，n为正整数；

其中，在第i次下采样过程中，通过第i个下采样层对第i-1次下采样结果进行下采样处理，得到处理结果，并通过可分离卷积层对所述处理结果进行卷积处理，得到第i个下采样结果，1＜i≤n，所述可分离卷积层中包括深度可分卷积层和点态卷积层。

12.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域之后，还包括：

基于所述文本区域对所述文本内容进行字符识别，得到字符识别结果；

基于所述字符识别结果对所述目标图像进行转档，得到目标文档，其中，所述目标文档中所述字符识别结果的排版方式与所述文本内容在所述目标图像中的排版方式一致。

13.一种文本区域的确定装置，其特征在于，所述装置包括：

获取模块，用于获取目标图像，所述目标图像中包括文本内容，所述目标图像为所述文本内容所在的文本区域待确定的图像；

识别模块，用于对所述目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果，所述区域中心预测结果表示预测得到的所述文本区域所处的区域范围，所述区域边缘预测结果表示预测得到的所述文本区域的边缘位置；

处理模块，用于对所述区域中心预测结果和所述区域边缘预测结果进行逻辑结合，得到所述目标图像中的文本连通区域，所述文本连通区域表示具有连通关系的所述文本内容在所述目标图像中的区域；

确定模块，用于基于所述文本连通区域确定所述文本内容在所述目标图像中的所述文本区域。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的文本区域的确定方法。

15.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的文本区域的确定方法。

技术总结
本申请公开了一种文本区域的确定方法、装置、设备及可读存储介质，涉及机器学习领域。该方法包括：获取目标图像；对目标图像进行文本识别，得到区域中心预测结果和区域边缘预测结果；对区域中心预测结果和区域边缘预测结果进行逻辑结合，得到目标图像中的文本连通区域；基于文本连通区域确定文本内容在目标图像中的文本区域。在对图像进行文本识别时，同时识别得到用于表示文本区域的中心预测结果和用于表示边缘的边缘预测结果，从而通过对中心预测结果和边缘预测结果的逻辑结合对文本区域的预测进行修正，并最终得到文本区域，在两层检测结果的优化下，文本区域的检测准确率较高，从而后续基于文本区域进行文本内容处理的效率和准确率也较高。

技术研发人员：石世昌;黄飞
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2021.03.15
技术公布日：2021.07.06

完整全部详细技术资料下载

当前第2页1 2