一种文字图片处理方法、装置和介质与流程

文档序号：37178385发布日期：2024-03-01 12:33阅读：14来源：国知局

本申请涉及图片处理领域，尤其是涉及一种文字图片处理方法、装置和介质。

背景技术：

1、ocr识别前要进行图片预处理，由于文字图片具有各种各样的噪音，现有技术不能正确有效的进行预处理，提升后续文字识别的难度。

2、现有技术有边缘投影法、霍夫变换、anglenet模型。边缘投影法对倾斜角度大、翻转的图片的处理存在问题，霍夫变换只能确定直线的方向，丢失了长度信息，而且计算效率低。anglenet较上两种方式有较大改善，但他只能解决单个文本框问题，且在评估小角度歪斜上精度较差，无法矫正整个文字图片。

3、因此，如何通过改善文字图片的预处理过程，提高ocr对文字图片的识别精度，是亟需解决的问题。

技术实现思路

1、本申请提供了一种文字图片处理方法，能通过改善文字图片的预处理过程，提高ocr对文字图片的识别精度。

2、为了实现上述目的，本发明采用了如下技术方案:

3、第一方面，本发明提供一种文字图片处理方法，所述方法包括：

4、获取待识别文字图片；

5、检测所述文字图片中的各个文本框，排除不含文字的文本框，确定所有剩余文本框的各个角的坐标点；

6、连接剩余的每个文本框的各个角的坐标点，得到剩余的每个文本框的长边，计算剩余的每个文本框的长边的倾斜角，基于剩余的每个文本框的长边的倾斜角计算剩余的每个文本框的旋转角度，基于所述文字图片中所有剩余文本框的旋转角度的十位数的数值，计算所述文字图片的临时倾斜角；

7、基于所述临时倾斜角的相反数调整所述文字图片。

8、在本申请一较佳的示例中可以进一步设置为，在所述检测所述文字图片中的各个文本框之前，包括：

9、利用预先训练的公章手印检测模型定位所述文字图片中公章和手印，所述预先训练的公章手印检测模型为将用于训练的包含公章和手印的文字图片输入到yolov5模型训练得到的；

10、采用二值分类法去除所述文字图片中的红色区域。

11、在本申请一较佳的示例中可以进一步设置为，在所述检测所述文字图片中的各个文本框之前，还包括：

12、读取所述文字图片的尺寸，若所述文字图片的尺寸小于预设的尺寸阈值，则判定所述文字图片为低质量图片；或，基于sobel算子提取文字图片的梯度信息，若所述梯度信息的丰富度低于用于参考的模糊图片数据集的模糊阈值，判定所述文字图片为低质量图片；

13、使用图像超分辨方法提取所述低质量图片的特征，将所述特征进行非线性映射，获取所述低质量图片的显著区域，在该区域利用卷积神经网络算法进行图像恢复。

14、在本申请一较佳的示例中可以进一步设置为，在确定剩余文本框的各个角的坐标点之后，包括：

15、检测所述文字图片是否包含的表格；

16、若是，则提取表格所在区域的边界；

17、若检测到所述剩余文本框的各个角的坐标点在所述边界的内部，则判定该剩余文本框为表格内的文本框；

18、若检测到所述剩余文本框的坐标点部分包含在所述边界的内部，则计算剩余文本框在边界内的面积与在边界外的面积的比值，若所述比值高于预设阈值，则判定该剩余文本框为表格内的文本框；

19、通过去除所述表格内部的文本框以更新所述剩余文本框。

20、在本申请一较佳的示例中可以进一步设置为，在基于所述临时倾斜角的相反数调整所述文字图片之后，还包括：

21、判断调整后的所述文字图片是否为翻转；

22、若调整后的所述文字图片为翻转，则对调整后的所述文字图片进行反向翻转。

23、在本申请一较佳的示例中可以进一步设置为，所述计算每个剩余文本框的长边的倾斜角，包括：

24、根据如下公式确定所述长边的倾斜角：

25、θ＝arctan2(dy,dx)*180/π；

26、其中，dy表示剩余文本框的长边在y方向上的投影，dx表示剩余文本框的长边在x方向上的投影。

27、在本申请一较佳的示例中可以进一步设置为，包括：

28、根据如下公式确定所述旋转角度θk：

29、

30、其中，θ为剩余文本框的长边的倾斜角。

31、在本申请一较佳的示例中可以进一步设置为，包括：

32、根据如下公式确定临时倾斜角θg：

33、

34、其中，θl是所有剩余文本框的旋转角度的十位数的数值的出现次数组成的一个降序集合，len(θl)是集合的长度，θl[0]为集合的第1个值，θl[1]为集合的第2个值，count(θl[1])/len(θl)为计算θl集合的第2个值的出现次数与所有十位数数值的出现次数的比值。

35、第二方面，本申请提供一种文字图片处理装置，所述装置包括：

36、数据获取模块，用于获取待识别文字图片；

37、倾斜角计算模块，用于检测所述文字图片中的各个文本框，排除不含文字的文本框，确定所有剩余文本框的各个角的坐标点；连接剩余的每个文本框的各个角的坐标点，得到剩余的每个文本框的长边，计算剩余的每个文本框的长边的倾斜角，基于剩余的每个文本框的长边的倾斜角计算剩余的每个文本框的旋转角度，基于所述文字图片中所有剩余文本框的旋转角度的十位数的数值，计算所述文字图片的临时倾斜角；

38、矫正模块，用于基于所述临时倾斜角的相反数调整所述文字图片。

39、第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，其中所述程序被处理器执行时，实现如上述任一项所述的文字图片处理方法。

40、综上，与现有技术相比，本申请实施例提供的技术方案带来的有益效果至少包括：

41、本申请提供的一种文字图片处理方法，通过获取待识别文字图片，检测所述文字图片中的各个文本框，排除不含文字的文本框，确定所有剩余文本框的各个角的坐标点。连接剩余的每个文本框的各个角的坐标点，得到剩余的每个文本框的长边，计算剩余的每个文本框的长边的倾斜角，基于剩余的每个文本框的长边的倾斜角计算剩余的每个文本框的旋转角度，基于所述文字图片中所有剩余文本框的旋转角度的十位数的数值，计算所述文字图片的临时倾斜角。基于所述临时倾斜角的相反数调整所述文字图片。采用计算文本框长边的倾斜角来评估文本框的角度，可以避免小角度的倾斜无法被识别到的情况，且精度更高。采用文本框倾斜角的十位数数值来协助图片歪斜角度的评估，能使评估值与实际值非常贴近。改善文字图片的预处理过程，提高ocr对文字图片的识别精度。

技术特征：

1.一种文字图片处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文字图片处理方法，其特征在于，在所述检测所述文字图片中的各个文本框之前，包括：

3.根据权利要求1所述的文字图片处理方法，其特征在于，在所述检测所述文字图片中的各个文本框之前，还包括：

4.根据权利要求1所述的文字图片处理方法，其特征在于，在确定所有剩余文本框的各个角的坐标点之后，包括：

5.根据权利要求1所述的文字图片处理方法，其特征在于，在基于所述临时倾斜角的相反数调整所述文字图片之后，还包括：

6.根据权利要求1所述的文字图片处理方法，其特征在于，所述计算剩余的每个文本框的长边的倾斜角，包括：

7.根据权利要求6所述的文字图片处理方法，其特征在于，包括：

8.根据权利要求1所述的文字图片处理方法，其特征在于，包括：

9.一种文字图片处理装置,其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，其中所述程序被处理器执行时，实现如权利要求1至8中任一项所述的文字图片处理方法。

技术总结
本申请涉及图片处理领域，尤其是涉及一种文字图片处理方法、装置和介质，通过获取待识别文字图片；检测所述文字图片中的各个文本框，排除不含文字的文本框，确定所有剩余文本框的各个角的坐标点；连接剩余的每个文本框的各个角的坐标点，得到剩余的每个文本框的长边，计算剩余的每个文本框的长边的倾斜角，基于剩余的每个文本框的长边的倾斜角计算剩余的每个文本框的旋转角度，基于所述文字图片中所有剩余文本框的旋转角度的十位数的数值，计算所述文字图片的临时倾斜角；基于所述临时倾斜角的相反数调整所述文字图片，可以改善文字图片的预处理过程，提高OCR对文字图片的识别精度。

技术研发人员：潘谷,陈利军,洪曙光,林焕凯,冯文豪,刘双广
受保护的技术使用者：高新兴科技集团股份有限公司
技术研发日：
技术公布日：2024/2/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘谷,陈利军,洪曙光,林焕凯,冯文豪,刘双广
技术所有人：高新兴科技集团股份有限公司
我是此专利的发明人

上一篇：一种人工智能数据采集系统的制作方法
上一篇：基于大数据的数据分析方法、装置及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。