一种基于深度学习的字帖图像自动矫正方法及相关产品与流程

文档序号：37468029发布日期：2024-03-28 18:50阅读：13来源：国知局

本发明涉及图像处理，更具体的说是涉及一种基于深度学习的字帖图像自动矫正方法。

背景技术：

1、在文档识别技术领域中，由于拍照镜头角度等原因，容易导致文档图像出现倾斜、变形甚至弯曲等情况，为了方便后续文字识别处理，需要对文档图像进行矫正处理，以提高文字识别算法的准确率。目前存在比较多关于文档矫正相关的专利和方法，但其大多存在一定局限性，例如：公开号为cn116740720a，名称为基于关键点引导的拍照文档弯曲矫正方法及设备的专利，该发明主要是针对弯曲文档图像的平整化处理，而对于存在梯形畸变，倾斜比较大时，矫正效果较差；公开号为cn116453128a，名称为一种扫描文档矫正方法、系统、装置和存储介质的专利，该发明提出通过获取文档图像，对文档图像进行分割处理，获得分割掩膜图，对分割掩膜图进行边界线段检测，获得多条边界线段，根据特征线段进行仿射变换矫正，获得矫正后的文档图像，但是该方法属于比较传统的图像处理方法，受光照环境影响大，鲁棒性差，容易出现矫正失败的情况。

2、因此，如何提高文档图像矫正效果是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本发明提供了一种基于深度学习的字帖图像自动矫正方法及相关产品，针对字帖(如书写练字的普通字帖)，采用深度学习技术的图像处理方法，用于字帖图像自动矫正，可应用于计算机视觉技术领域中文档识别ocr等场景。

2、为了实现上述目的，本发明采用如下技术方案：

3、一种基于深度学习的字帖图像自动矫正方法，包括以下步骤：

4、步骤1：采集字帖图像，构建训练数据集；

5、步骤2：构建字帖图像角点检测模型，并利用所述训练数据集进行训练，获得角点预测模型；

6、步骤3：将待矫正字帖图像输入所述角点预测模型，获得角点图像；

7、步骤4：根据所述角点图像计算变换矩阵，并进行透视变换，获得矫正图像。

8、优选的，采集所述字帖图像，对所述字帖图像标注四个角点，标注后的所述字帖图像构成所述训练数据集。

9、优选的，所述字帖图像角点检测模型采用改进的hourglass模型，包括down-up模块、改进top-down模块和改进residual模块；

10、所述down-up模块包括堆叠的4个下采样block，每个所述下采样block依次由卷积层、归一化层、激活函数、卷积层、归一化层和激活函数组成；

11、所述改进top-down模块包括堆叠的4个上采样block，每个所述上采样block依次由反卷积层、归一化层、激活函数、反卷积层、归一化层和激活函数组成，最后一个上采样block作为输出层，输出4通道的热力图；

12、所述改进residual模块包括3个并列连接的残差block，每个所述残差block依次由卷积层、归一化层和激活函数组成，进行三组特征融合。

13、优选的，所述字帖图像角点检测模型采用smoothl1loss损失函数，表达式为：

14、

15、其中，(x,y)表示图像像素点坐标。

16、优选的，所述字帖图像角点检测模型采用adam优化器进行训练优化。

17、优选的，所述角点图像包括四张角点热力图，步骤4的具体实现过程为：

18、步骤41：根据四张所述角点热力图计算所述待矫正字帖图像对应的四个角点；

19、步骤42：根据所述角点和设定的目标图像角点采用getperspectivetransform()函数计算变换矩阵；

20、步骤43：根据变换矩阵确定目标图像角点，并结合warpperspective()函数对所述待矫正字帖图像进行透视变换，获得矫正图像。

21、优选的，步骤41中根据角点热力图计算所述角点的具体实现过程为：

22、步骤411：对角点热力图分别进行归一化处理，获得归一化热力图；

23、步骤412：对归一化热力图进行ostu自适应二值化处理，获得二值化图像；

24、步骤413：根据二值化图像计算连通区域轮廓；

25、步骤414：根据连通区域轮廓计算质心，作为角点。

26、优选的，归一化处理的表达式为：

27、

28、其中，x为输入角点热力图的像素值，xmin是像素最小值，xmax是像素最大值。

29、优选的，质心的计算表达式为：

30、

31、其中，(cx,cy)表示质心；表示x轴的静力矩之和，p表示连通区域轮廓中像素点的横坐标最大值，i取正整数；表示y轴的静力矩之和，q表示连通轮廓中像素点的纵坐标最大值；m表示连通轮廓中像素点的质量，n表示连通轮廓中像素点个数，j取正整数，mj取值为0或1，每个像素点为黑或白，在二值化图像中当图像像素值为255时，mj＝1；当图像像素值为0时，mj＝0。

32、优选的，根据检测出的所述待矫正字帖图像的四个所述角点，采用opencv的getperspectivetransform()函数计算所述变换矩阵，表示为：

33、

34、

35、其中，w和h分别表示所述字帖图像的宽和高，s0、s1、s2和s3表示所述待矫正字帖图像的四个角点；g0、g1、g2和g3表示目标图像角点；s0x、s1x、s2x和s3x分别表示所述待矫正字帖图像的四个角点的横坐标x；s0y、s1y、s2y和s3y分别表示所述待矫正字帖图像的四个角点的纵坐标y。

36、经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于深度学习的字帖图像自动矫正方法及相关产品，该方法包括两个阶段：第一阶段是基于深度学习训练一个字帖图像角点检测模型，用于自动检测字帖的四个角点，模型训练阶段，一旦完成，后续模型预测无须再次重复训练；第二阶段采用透视变换的方法根据检测出的角点对文档进行自动矫正，矫正后的字帖图像可以进行后续的文字识别处理，进一步提高文字识别精度。本发明采用改进hourglass模型，使得模型更轻量化，参数量更低，计算量更少，推理速度更快，通过上述两阶段处理能够实现字帖图像过的一键自动矫正处理。

技术特征：

1.一种基于深度学习的字帖图像自动矫正方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，采集所述字帖图像，对所述字帖图像标注四个角点，标注后的所述字帖图像构成所述训练数据集。

3.根据权利要求1所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，所述字帖图像角点检测模型采用改进的hourglass模型，包括down-up模块、改进top-down模块和改进residual模块；所述down-up模块包括堆叠的4个下采样block，每个所述下采样block依次由卷积层、归一化层、激活函数、卷积层、归一化层和激活函数组成；所述改进top-down模块包括堆叠的3个上采样block，每个所述上采样block依次由反卷积层、归一化层、激活函数、反卷积层、归一化层和激活函数组成，最后一个上采样block作为输出层，输出4通道的热力图；所述改进residual模块包括3个并列连接的残差block，每个所述残差block依次由卷积层、归一化层和激活函数组成，进行三组特征融合。

4.根据权利要求1所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，所述字帖图像角点检测模型采用smoothl1loss损失函数，表达式为：

5.根据权利要求1所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，所述字帖图像角点检测模型采用adam优化器进行训练优化。

6.根据权利要求1所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，所述角点图像包括四张角点热力图，步骤4的具体实现过程为：

7.根据权利要求6所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，步骤41中根据所述角点热力图计算所述角点的具体实现过程为：

8.根据权利要求7所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，归一化处理的表达式为：

9.根据权利要求7所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，质心的计算表达式为：

10.根据权利要求6所述的一种基于深度学习的字帖图像自动矫正方法，其特征在于，根据检测出的所述待矫正字帖图像的四个所述角点，采用opencv的getperspectivetransform()函数计算所述变换矩阵，表示为：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-10任一所述方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-10任一所述方法的步骤。

技术总结
本发明公开了一种基于深度学习的字帖图像自动矫正方法及相关产品，涉及图像处理技术领域，包括：采集字帖图像，构建训练数据集；构建字帖图像角点检测模型，并利用所述训练数据集进行训练，获得角点预测模型；将待矫正字帖图像输入所述角点预测模型，获得角点图像；根据角点图像计算变换矩阵，并进行透视变换，获得矫正图像。本发明通过训练的角点预测模型对字帖图像的角点进行检测定位，从而根据角点对字帖图像进行矫正，该过程计算量更少，推理速度更快，矫正效果更好。

技术研发人员：潘金全,王子扬,王兆均
受保护的技术使用者：暗物质（北京）智能科技有限公司
技术研发日：
技术公布日：2024/3/27

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘金全,王子扬,王兆均
技术所有人：暗物质（北京）智能科技有限公司
我是此专利的发明人

上一篇：一种建筑给排水管道清理装置的制作方法
上一篇：用于FDM3D打印机的纯机械控制线材缠绕机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。