一种基于深度卷积神经网络的文本矫正方法

文档序号：30371625发布日期：2022-06-11 00:45阅读：来源：国知局

技术特征：
1.一种基于深度卷积神经网络的文本矫正方法，其特征在于，包括以下步骤：步骤1：采集文本图片数据，并对数据进行预处理；步骤2：构建神经网络模型，并使用采集的数据进行训练；步骤3：训练完成后，将待检测图像输入网络模型，得到边缘图像；步骤4：对步骤3得到的边缘图像，进行霍夫投票；步骤5：处理步骤4中的霍夫投票结果，得到四边形；步骤6：根据将步骤5中的四边形的四个角点，对原图像进行单应性变换，得到矫正后的文本。2.如权利要求1所述的方法，其特征在于，步骤1包括：在网络上爬取相应的文本图片，并对爬取到的图片进行筛选，去除其中与文本不对应的图片，并准备桌面物品作为文本图片的噪声，以随机的位置，和文本图片进行结合；步骤1-1，从全部文本图片，选取部分图片，对文本图片随机地添加些遮挡物对原图中的文本进行随机部位的遮挡；步骤1-2，将经过步骤1-1后的数据集中的图像，缩放成像素尺寸为256*256；步骤1-3，对256*256的图像做归一化处理。3.根据权利要求2所述的方法，其特征在于，步骤2包括如下步骤：步骤2-1，构造神经网络模型；步骤2-2，初始化神经网络模型，采用预训练好的网络参数；步骤2-3，用步骤1中预处理后的正方形图像数据对神经网络模型进行训练，并保存训练好的模型。4.根据权利要求3所述的方法，其特征在于，步骤3-1包括如下步骤：构造神经网络模型，该模型采用rcf，基于vgg 16网络架构，该模型包含五个层级的特征提取架构，具体结构为：输入为大小为256*256*3的图像；第1层级为包括2个卷积层，卷积核的大小是3*3，卷积核的数量是64；第2层级为包括2个卷积层，卷积核的大小是3*3，卷积核的数量是128；第3层级为包括3个卷积层，卷积核的大小是3*3，卷积核的数量是256；第4层级为包括3个卷积层，卷积核的大小是3*3，卷积核的数量是512；第5层级为包括3个卷积层，卷积核的大小是3*3，卷积核的数量是512，每个层级的卷积层，连接一个卷积层，卷积核的大小是1*1，卷积核的数量为21，对于每一层级，将所有的1*1卷积的结果，再连接一个的卷积，卷积核的大小是1*1，卷积核的数量为1，然后再进行一次反卷积，到原始图片的大小，作为该层级的中间输出，最后将5个层级的所有中间输出，进行concat操作，对该结果进行最后一个卷积操作，卷积核的大小是1*1，卷积核的数量为1，得到最终结果。5.根据权利要求4所述方法，其特征在于：步骤4-1，建立参数空间；霍夫投票的关键是建立参数空间，即霍夫空间，直线在极坐标系下，由参数θ和参数ρ共同决定，参数θ的范围为(0，π)，均分为m个单元，参数ρ的范围为(-l，l)均分为n个单元参数空间一共m*n个单元，其中l为图片对角线的长度；步骤4-2，建立一个同等大小m*n的投票表格，将之前得到的边缘图像，提取出其中的边缘像素点，可以提取的像素点的个数记为s，对每一个像素点，求其在霍夫空间的m个离散点；
步骤4-3，收集所有的边缘像素点对应的所有的霍夫空间的离散点，一共有s*m个，将所有离散点进行在投票表中进行投票，得票数较多的即可作为候选直线。6.根据权利要求5所述方法，其特征在于，步骤4-3中，得到了霍夫投票结果，在此基础上，进行如下步骤：步骤5-1，将上述得票较多的候选直线，使用聚类的方法，根据θ和ρ，分成4大类直线簇；步骤5-2对每个直线簇lines
i
，选出得票数最多的那条直线top
i
；步骤5-3对每个直线簇lines
i
，继续搜寻可能的候选直线，但这些直线的得票数必须达到一定的阈值，此处，设定每一类的候选直线不能超过3条；步骤5-4将5-3步骤中得到的4类候选直线，各选1条直线，进行组合；步骤5-5组合的结果必须是四边形，且至少有3个交点全部出现在图片内部；步骤5-6对得到的所有的四边形计算面积，得到面积最大的那个四边形，即为最终的目标。7.根据权利要求6所述方法，其特征在于，根据将步骤5中的四边形的四个角点，对角点坐标进行还原，得到在原图中的4个坐标点，根据4个坐标点，对原图像进行单应性变换，得到矫正后的文本。

技术总结
本发明公开了一种基于深度卷积神经网络的文本矫正方法，包括以下步骤：步骤1：采集文本的图像数据；步骤2：用经过预处理后的边缘检测神经网络进行训练模型；步骤3：根据步骤2得到的训练好的模型处理原始文本图像，得到边缘图像；步骤4：对边缘图像进行霍夫投票；步骤5：对投票结果进行筛选，以获得合理的4条直线，组成文本轮廓；步骤6：对检测到的四边形轮廓，进行单应性变换，得到最终的矫正文本。原本由于拍摄姿势不正，导致照片中文本发生畸变，比如A4纸张被拍摄成了梯形，经过该文本矫正，可还原为A4纸形状，降低了文本检测的错误率，使算法更加鲁棒。法更加鲁棒。

技术研发人员：郭延文孟祥祥
受保护的技术使用者：南京大学
技术研发日：2022.03.25
技术公布日：2022/6/10

完整全部详细技术资料下载

当前第2页1 2