一种弯曲书面文字识别方法

文档序号：8488101阅读：1609来源：国知局

一种弯曲书面文字识别方法
【专利说明】
所属技术领域
[0001]本发明属于数字图像处理技术，涉及一种弯曲书面文字识别方法。
【背景技术】
[0002]随着现代科技的不断进步和发展，电子产品的大量普及，越来越多的人们选择在电子平台进行阅读和学习。但是大量的文档只有纸质版，这就需要将大量的纸质文档进行电子化并进行文字识别。由于数码相机的便携性、方便性，越来越多的人采用数码相机对文档进行图像采集，在对书面进行电子化的时候，一些文档由于厚度较大，不能完全的展平，因此采集的图像大多会出现类似于柱面中间凸、两边凹的现象。为了便于阅读和识别，后期处理需要将弯曲书面图像展平。现如今存在的曲面展平技术大多需要曲面多个角度的图像组合一起，求出图像的3D信息，然后进行展平，这种技术图像采集比较麻烦，因此如何更方便、更准确、更简单的进行弯曲书面矫正，为文字识别创造好的基础成为人们追求的目标。

【发明内容】

[0003]本发明的目的是提供一种速度快效果好的弯曲书面文字识别方法。本发明的技术方案如下:
[0004]一种弯曲书面文字识别方法，包括下列步骤:
[0005]I)采集弯曲书面的曲面图像；
[0006]2)对曲面图像进行预处理，获取各个文本行连通区域；
[0007]3)求取各个文本行的基准线及基准线方程fn(x)，X e (0，len)，n e (1，N)，N为基准线数量，Ien曲面图像的宽度，fn(x)表示基准线的纵坐标值，X表示基准线的横坐标值，下标η表示不同的基准线；
[0008]4)采用Hough变换检测弯曲书面所有基准线中，最长的直线部分，直线所在方向即为弯曲书面图像展平的方向；
[0009]5)求出Hough变换所得最长直线部分的角度，并将图像顺时针旋转相应的角度，使图像展平的方向变为水平方向，并且3)中得到的基准线方程也要进行相应的变换，得到全新的基准线方程Fn(X)；
[0010]6)求出每条基准线方程Fn(X)斜率为O时，其横坐标的值Xtl,并求得其对应纵坐标的值Fn(Xtl)，斜率为O时纵坐标的值，决定着其所在基准线展开后纵坐标的值。
[0011]7)曲面中最顶部一条基准线F1(X)上面的区域只有一边存在基准线，对此区域每列像素竖直向下移动F1(X)-Fn(Xtl)像素距离，将此区域下边的基准线变为水平的；
[0012]8)曲面中最顶部一条基准线F1(X)和最底部一条基准线Fn(X)中间区域两边都存在基准线，图像展平后两边基准线之间的距离Fn+1 (?)-Fn(Xtl)与图像展平前两边基准线之间的差值Fn+1 (x) -Fn (x)不一定相等，所以对此区域每列像素进行竖直移动加缩放处理，采用双线性内插值算法进行缩放；
[0013]9)曲面中最底部一条基准线Fn(X)下面的区域只有一边存在基准线，对此区域每列像素竖直向下移动Fn(X)-Fn(Xci)像素距离，将此区域上边的基准线变为水平的；
[0014]10)对经过上述操作展平的弯曲书面图像进行文字识别。
[0015]作为优选实施方式，步骤2)采用如下的预处理方法:
[0016]a)根据图像的像素大小和经验值，删除二值图像中面积小于一个标点符号面积的对象，去除噪声的影响，得到经过预处理后的二值图像；
[0017]b)设定一个矩形，其长度根据两个字体中心之间的水平距离确定，宽度根据字体高度的1/2确定，利用此矩形对二值图像进行形态学的开闭运算，将每行文本连成同一连通区域。
[0018]c)根据文本行的高度预设一个高度阈值，根据文本行的长度预设一个长度阈值；
[0019]d)计算出每个连通区域的高度值和宽度值，将高度值大于高度阈值的连通区域去除，消除书面中高度较高的插图的影响；将长度值短于长度阈值的连通区域去除，消除书面中长度较短的文本行的影响；然后删除面积小于一个字体面积的对象，最终得到各个文本行连通区域；
[0020]步骤3)采用的方法为:根据得到的各个文本行连通区域的上边界和下边界，求出每组上边界和下边界对应横坐标的中值，对中值采用三阶函数进行曲线拟合，得到弯曲书面的各个文本行的基准线及其对应的方程基准线方程fn(x) = anx2+bnx2+cnx+dn，an，bn，cn，4为常数。
[0021]本发明采用矩形结构对图像进行形态学的开闭运算，求出的文本行连通区域上下边界能够跟文本行的上下边界紧密贴合，使其连通区域不受字体内部比重的影响，求出的中线具有更高的精度。本方法只采用几种形态学的开闭运算和三阶曲线拟合运算来定位基准线，运算简单，具有更高的速度，用此类基准线进行曲面书面展开后的图像具有更平的效果，从而为之后的文字识别打下良好基础。本发明的文字识别方法，在进行弯曲书面展平过程中只需单幅图像，不需要弯曲书面进行多次图像采集，展开过程简单、方便。
【附图说明】
[0022]图1初始图像
[0023]图2形态学开闭运算后的模糊图像
[0024]图3只含有较长文本行部分的模糊图像
[0025]图4中线定位结果的局部放大图像(文本行中白色线条表示中线)
[0026]图5基准线定位结果(文本行中黑色线条表示基准线)
[0027]图6基准线定位结果的局部放大图像(文本行中黑色线条表示基准线)
[0028]图7基准线图(粗白线部分为检测出的最长直线)
[0029]图8每条基准线斜率为O时的位置(基准线中O点的位置)
[0030]图9顶部区域展平
[0031]图10中部区域展平
[0032]图11底部区域展平
[0033]图12前后部分区域对比图，(a)、(c)、(e)为展平前的部分区域，(b)、(d)、(f)为对应的展平后区域。
[0034]图13本发明采用的基于基准线的弯曲书面展平流程图
【具体实施方式】
[0035]下面结合附图和实施例对本发明进行说明。本发明具体包括下列步骤:
[0036]I)采集弯曲书面的曲面图像，如图1所示。
[0037]2)对曲面图像进行灰度变换，并进行二值化。然后根据图像的像素大小和经验值，删除二值图像中面积小于一个标点符号面积的对象，去除噪声的影响，得到经过预处理后的二值图像。
[0038]3)设定一个矩形，其长度根据两个字体中心之间的水平距离确定，宽度根据字体高度的1/2确定，利用此矩形对图像进行形态学的开闭运算，将每行文本连成同一连通区域，如图2所示。
[0039]4)根据文本行的高度预设一个高度阈值，大小约为文本行高度的三倍；根据文本行的长度预设一个长度阈值，大小约为文本行最大长度的3/4 ;
[0040]5)计算出每个连通区域的高度值和宽度值，将高度值大于高度阈值的连通区域去除，消除书面中高度较高的插图的影响；将长度值短于长度阈值的连通区域去除，消除书面中长度较短的文本行的影响；然后删除面积小于一个字体面积的对象，最

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖夏;田健飞;
技术所有人：天津大学;
我是此专利的发明人

上一篇：一种基于实时视频的车辆检测与跟踪方法
上一篇：一种基于视觉一致性约束的图像目标分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。