一种金属件表面弯曲文本行矫正方法与流程

文档序号：19157008发布日期：2019-11-16 00:57阅读：765来源：国知局

本发明属于图像矫正技术领域，具体是一种金属件表面弯曲文本行矫正方法。

背景技术：

金属件表面文本行除直线排列以外还有倾斜排列和弯曲排列，非直线排列文本行会给字符分割带来困难，导致识别错误。目前关于倾斜矫正的研究通常包括倾斜角检测和图像旋转两个步骤，其关键在于倾斜角的检测，现常用的倾斜角检测方法有：基于直线拟合方法、基于投影直方图方法和基于hough变换方法。黄红燕等(浙江大学，2006)提出了一种用连通区域找文字图像特征点为基础的倾斜矫正算法，并且给出了在gis电子地图和ocr文字图像中的实际应用。蒋治华等(中国科学技术大学，2006)针对依赖于车牌边缘存在的传统车牌倾斜矫正方法，提出了一种基于车牌字符中心走势线特征的水平倾斜矫正方法和一种基于窄孔透视思想的垂直倾斜矫正方法，直接对二值车牌图像进行处理，在车牌边缘不存在和字符缺损的情况下依然能够得到理想的倾斜矫正效果。王逸芳等(河南工业大学，2010)采用水平投影与离散wigner-ville分布结合的方法进行笔迹文档整体和局部倾斜矫正，针对手写笔迹图像中存在的倾斜角不一致问题，能够准确完成文本行倾斜角的检测和矫正。黄新等(东华大学，2011)针对传统的倾斜矫正对不同类型的字符图像处理效果各异的问题，提出了一种改进的算法，加入了新的倾斜角度确定准则、阈值动态调整以及区域后处理，不仅解决了传统方法易受噪声和复杂背景干扰、可操作性差的问题，而且也有效地实现了字符图像的倾斜矫正。王楠楠等(杭州电子科技大学，2014)使用了基于hough变换的倾斜矫正算法对倾斜车牌进行矫正。除以上传统方法外，深度学习方法在文字倾斜矫正领域也得到了应用，m.jaderberg等(googledeepmind,2015)最早提出了stn网络模型，stn分为localizationnetwork、gridgenerator、sampler三个模块，可以显式的学习得到图像的空间变换参数对图像进行矫正。

上述文献和方法主要基于仿射变换思想针对倾斜文本矫正，而单一的仿射变换方法无法应用于弯曲文本的矫正，必须从新的角度针对弯曲文本进行矫正。

因此如何能够对任意方向文本行包括弯曲文本行都得到较好的矫正效果是研究的关键。

技术实现要素：

为克服现有技术中的算法和方法存在的不足，本发明的目的在于提供一种金属件表面弯曲文本行矫正方法，该方法能对任意方向文本行进行较好矫正，包括金属件表面弯曲文本行的矫正。

所述的一种金属件表面弯曲文本行矫正方法，其特征在于包括如下步骤：

步骤1：获取检测框中心点：使用深度学习模型对金属表面的每个字符进行检测，得到每个字符的检测框，并对每个检测框计算中心点pi，得到点集a，a＝{pi|i＝1,2...,n}，n表示点集a中检测框中心点的个数；

步骤2：扩充聚类点集：

步骤2.1：对点集a增加点pil和pir，得到新的点集a，其中，pil和pir分别表示第i个检测框左、右边缘的中点；

步骤2.2：采用dbscan方法进行聚类：聚类时将eps设置为检测框的平均宽度minpts设置为2，得到聚类簇集合b＝{hj|j＝1,2,...,v}，其中，hj表示b中的一个聚类簇，v为b中聚类簇的个数，eps表示扫描半径，minpts表示最小包含点数；

步骤2.3：文本行端部延伸：对hj计算两端末尾处相邻两个检测框中心点的斜率，分别记为kleft和kright；从聚类簇hj左右最末端的检测框中心点出发依据斜率kleft和kright延伸，延伸长度为一个将延伸点添加到点集a中，得到新的点集a’；

步骤2.4：采用dbscan方法对新点集a’再次聚类：聚类时将eps设置为检测框平均宽度minpts设置为2；将聚类结果记为聚类簇点集b'＝{h'j|j＝1,2,...,v'}，其中，h'j表示b'中的一个聚类簇，v'为b'中聚类簇的个数，eps表示扫描半径，minpts表示最小包含点数；

步骤3：拟合曲线：

步骤3.1：以点集b'为约束，采用最小二乘法拟合得到金属件文本行走势曲线，记为y＝φ(x)；

步骤3.2：去除离群点：根据式(1)-(3)计算聚类簇点集h'j内各点到拟合曲线y＝φ(x)的距离dj，并计算距离均值uj与标准差σj；去除距离曲线y＝φ(x)最远的点，该点距离拟合曲线距离表示为dout，重新拟合曲线，并重复步骤3.1-3.2，直到满足|dout-uj|＜4σj，记最终拟合得到的曲线为y＝φ^*(x)；

dj＝|φ(xj)-yj|(1)

式(1)-(3)中的(xj,yj)表示点集h'j中的点的坐标；

步骤4：将校正前的图像称为原图像，校正后的图像为目标图像；设置目标图像高度为2th，宽度为wd，wd为聚类簇点集h'j中左右两端最远点横坐标对应的曲线y＝φ^*(x)的弧长，tw和th分别表示点集h'j中对应的所有目标框的平均宽度和平均高度，wd利用如式(4)所示的复合辛普森规则计算得到：

其中：n为分段数表示计算的精度，a为曲线最左端横坐标坐标值，b为曲线最右端横坐标坐标值，x的取值范围应该是a-b；

步骤5：计算原图像与目标图像坐标点映射关系完成矫正：对原图采样像素值赋值到目标图像上从而完成矫正。

所述的一种金属件表面弯曲文本行矫正方法，其特征在于步骤5中的采用双线性插值方法从原图像中采样坐标点并完成矫正的具体过程如下：

将目标图像高度一半处的直线y＝th表示为对原图拟合曲线的映射，目标图上其他高度的像素值由拟合曲线法线上获取，用(xd,yd)表示目标图像上的像素坐标点，(xs,ys)表示原图像上像素坐标点，特别的拟合曲线上的点表示为(xms,yms)，φ'(x)表示拟合曲线的一阶偏导，原图像和目标图像的像素点映射关系如式(5)(6)所示，θ表示拟合曲线上点(xms,yms)处法线与水平线的夹角：

ys＝(th-yd)*sinθ+yms(5)

xs＝(th-yd)*cosθ+xms(6)

具体为：将目标图像高度一半处的直线y＝th表示为对原图拟合曲线的映射，目标图上其他高度的像素值由拟合曲线法线上获取，原图像和目标图像的像素点映射关系如式(5)(6)所示，θ表示拟合曲线上点(xms,yms)处法线与水平线的夹角：

ys＝(th-yd)*sinθ+yms(5)

xs＝(th-yd)*cosθ+xms(6)

其中(xd,yd)表示目标图像上的像素坐标点，(xs,ys)表示原图像上像素坐标点，(xms,yms)表示拟合曲线上的点。

通过采用上述技术，与现有技术相比，本发明的有益效果如下：

本发明基于深度学习方法结合dbscan聚类对金属件表面弯曲文本行拟合文本线，感受野极大，任意长短文本行都能得到拟合文本线；同时本发明基于文本线对金属件表面弯曲文本行进行矫正，本发明所限定的矫正方法适用于任何文本线方程，能对任意方向的文本行进行矫正。

附图说明

图1为本发明的金属件字符检测框及其检测框中心点图像灰度图；

图2为图1经过dbscan算法处理得到的图像灰度图；

图3为增加延申点后经过dbscan算法处理得到的图像灰度图；

图4为文本线拟合图像灰度图；

图5为金属件弯曲文本矫正效果灰度图。

具体实施方式

下面结合实施例来详细阐述本发明的基于文本线的金属件表面弯曲文本行矫正方法的具体实施方式。

如图所示，本发明的金属件表面弯曲文本行矫正方法，具体包括如下步骤：

步骤1：获取检测框中心点：使用深度学习模型对金属表面的字符进行检测，得到每个字符的检测框，对每个检测框计算中心点pi得到点集a，a＝{pi|i＝1,2...,n}，n表示点集a中检测框中心点的个数；在本实例中，采用yolov3模型对金属件表面字符进行检测，图像大小归一化为832*640，金属件字符检测框及其检测框中心点图像如图1所示；

步骤2.1：扩充聚类点集：对点集a增加点pil和pir，得到新的点集a，其中，pil和pir分别表示第i个检测框左右边缘的中点；

步骤2.2：采用dbscan方法进行聚类：设置eps为检测框的平均宽度设置minpts为2，得到聚类簇集合b＝{hj|j＝1,2,...,v}，其中，hj表示b中的一个聚类簇，v为b中聚类簇的个数，eps表示扫描半径，minpts表示最小包含点数；在本实例中，eps为30，minpts为2，聚类效果如图2所示，其中不同形状标志代表不同簇；

步骤2.3：文本行端部延伸：对hj计算两端末尾处相邻两个检测框中心点的斜率，分别记为kleft和kright；从聚类簇hj左右最末端的检测框中心点出发依据斜率kleft和kright延伸，延伸长度为一个将延伸点添加到点集a中得到新的点集a’；

步骤2.4：采用dbscan方法对点集a’再次聚类：聚类时将eps设置为检测框平均宽度minpts设置为2；将聚类结果记为聚类簇点集b'＝{h'j|j＝1,2,...,v'}，其中，h'j表示b'中的一个聚类簇，v'为b'中聚类簇的个数，eps表示扫描半径，minpts表示最小包含点数；

步骤3.1：以点集b'为约束，采用最小二乘法可拟合得到金属件文本行走势曲线，记为y＝φ(x)；在本实例中，根据金属件表面文本行常见样式设定拟合曲线为二元一次方程、二元二次方程、二元三次方程、椭圆方程四类；

dj＝|φ(xj)-yj|(1)

式(1)-(3)中的(xj,yj)表示点集h'j中的点的坐标，将横坐标xj代入公式y＝φ(x)，求得φ(xj)，φ(xj)与纵坐标yj的差值绝对值为距离dj；在本实例中，无离群点出现，最终得到的文本线拟合曲线如图4所示，拟合曲线方程由上至下分别为：y＝-0.000698x²+0.723x+13.021、y＝-0.000781x²+0.752x+133.094、y＝-0.000836x²+0.769x+260.821；

步骤4：为便于描述，称校正前的图像为原图像，校正后的图像为目标图像；设置目标图像高度为2th，宽度为wd，wd为聚类簇点集h'j中左右两端最远点横坐标对应的曲线y＝φ^*(x)的弧长，tw和th分别表示点集h'j中对应的所有目标框的平均宽度和平均高度，wd利用复合辛普森规则，具体计算公式如式4，其中n为分段数表示计算的精度，a为曲线最左端横坐标坐标值，b为曲线最右端横坐标坐标值；

在本实例中，复合辛普森规则的分段数设置为400；

步骤5：计算原图像与目标图像坐标点映射关系完成矫正：将目标图像高度一半处的直线y＝th表示为对原图拟合曲线的映射，目标图上其他高度的像素值由拟合曲线法线上获取，用(xd,yd)表示目标图像上的像素坐标点，(xs,ys)表示原图像上像素坐标点，特别的拟合曲线上的点表示为(xms,yms)，原图像和目标图像的像素点映射关系如式(5)(6)所示，θ表示拟合曲线上点(xms,yms)处法线与水平线的夹角：

ys＝(th-yd)*sinθ+yms(5)

xs＝(th-yd)*cosθ+xms(6)

基于以上文本行矫正方法获得原图像与目标图像坐标映射关系，利用双线性插值法来对像素点进行采样完成矫正；在本实例中，最终的矫正效果如图5所示，弯曲文本行沿文本线方向被矫正至平直。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高飞;尤黄宇;卢书芳;张元鸣;肖刚
技术所有人：浙江工业大学
我是此专利的发明人

上一篇：基于醚的润滑剂组合物、方法和用途与流程
上一篇：粘度指数改进剂和润滑油组合物的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。