一种文本图像处理方法

文档序号：6576675阅读：155来源：国知局

专利名称：一种文本图像处理方法
技术领域：
本发明涉及图像处理，具体涉及一种文本图像处理方法。
背景技术：
传统的光学字符识别(OCR)系统一般是通过静态扫描获得整幅文档的图像，并借助计算机强大的存储和处理能力对图像进行预处理和文本分离等操作，最后由识别程序完成对文字或字符的识别。而手持扫描设备是在内部集成小体积扫描传感器，决定了其扫描方式只能是移动扫描。所谓移动扫描，是指因为不能同时获得整幅文档的有效图像，只能由使用者通过手持的方式对文档从左至右逐行逐字进行扫描，得到的不是整幅图像，而是局部图像的帧序列。由于手的抖动等影响，移动扫描得到的图像会产生倾斜、尺度变化等变形，单帧图像中能存在多行文字，等等。因此，传统的OCR识别系统无法直接适用移动扫描。

发明内容
本发明需要解决的技术问题是，如何提供一种文本图像处理方法，能去除移动扫描的影响，使处理后的文本图像满足OCR识别需要。
本发明的技术问题这样解决构建一种图像传感同步方法，包括以下步骤
1. 1)帧间配准与拼接基于最大互信息配准并拼接移动扫描的图像；
1. 2) 二值化使用阈值将图像分成对象和背景； 1. 3)倾斜校正基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。
按照本发明提供的图像传感同步方法，该方法还包括平滑去噪步骤根据噪声与文本图像区别特征去除对象中与文本不相干的内容，用于去除扫描图像中原始噪声。
按照本发明提供的图像传感同步方法，所述平滑去噪步骤位于步骤1. 2) 1. 3) 之间。按照本发明提供的图像传感同步方法，所述平滑去噪步骤位于步骤1. 3)之后。
按照本发明提供的图像传感同步方法，该方法还包括行切分步骤结合所述倾斜角度识别行间距并切分文本行。按照本发明提供的图像传感同步方法，所述行切分还包括根据连续非零像素段、连续零像素段相互交迭的规律等因素进行切分。本发明提供的文本图像处理方法，采用二值化、倾斜校正、平滑去噪、文本行分离、规一化处理进行图像处理，有效抵消了移动扫描产生的图像倾斜、尺度变化等变形和单帧图像中能存在多行文字的不利影响，满足了移动扫描后OCR文字识别的要求。

下面结合附图和具体实施例进一步对本发明进行详细说明。
图1是本发明具体实施例手持移动扫描设备的软件流程示意图。
具体实施例方式
如图1所示，本发明具体实施例的手持扫描设备软件流程包括接触式图像传感器(CIS)输入数据、图像处理和OCR识别，其中图像处理可以细分为二值化、倾斜校正、平滑去噪、文本行分离、规一化处理等五个步骤，具体如下
帧间配准与拼接根据摄像头接口 (CM)取得NXM个数据，每个中断取得的M个数据进行匹配，然后在根据N个中断拼接成一副扫描精度(DPI)是NXM的图像。把一幅图像看作是像素点的集合，图像配准就是寻求一个点集到另一个点集之间的映射的过程，即找出两幅图像中具有相同性质的点，并计算其对应的变换关系。这种变换可以是简单的刚体变换(即图像之间只存在旋转和平移)，也可以是较复杂的弹性变换(图像拉伸、縮放、扭曲变形等)。
基于统计的配准方法通常是指最大互信息MI (X， Y)的图像配准方法，MI (X， Y)=H(X) +H(Y) -H(X， Y) 其中，X/Y代表参加配准的两幅图，H(X)/H(Y)是X/Y图的熵，H(X， Y)是X图和Y
图的联合熵。为了使得衡量参量对两图重叠的大小具有不变性，我们改用归一化互信息NMI :
NMI(X，Y) = (H(X)+H(Y))/H(X， Y)。最终，我们选择使得归一化互信息NMI为最大的配准偏移量。
上述各熵计算如下 1假设两图都是W * H大小的。把两图的灰度值分为K个区间，即将其灰度值从原来的
区间，量化为[O，K-l]区间。 2形成一个统计二维量N，其大小是K * K的。初始化N[i， j]为0。 3对两图的重叠区域中的每个点，检查其量化灰度值，假设X图此点的量化灰度值
为a， Y图对应点的量化灰度值为b，则让N[a， b] = N[a， b]+l。如此，得到最终的N矩形的值。 4则计算各概率为，r (./) = Z尸i (" /) 5进而，根据传统信息论，可以得到上述需要的各熵的值，从而可计算出归一化互信息NMI。该方法的突出优点是鲁棒性好、配准精度高、人工干预少。基于互信息的图像配准是用两幅图像的联合概率分布与完全独立时的概率分布的广义距离来估计互信息，并作为多模态图像配准的测度。当两幅图像达到最佳配准时，它们的对应象素的互信息应为最大。
倾斜检测与校正在文字图像扫描输入的过程中，图像或多或少会出现某种程度的倾斜，这种倾斜不仅会给下一步文本行分离造成困难，也会影响最终的文字识别的正确率。所以，倾斜校正也是文字识别过程中必须要考虑的一个重要环节。通常情况下，应快速准确测量出扫描图像的倾斜角度，从而对图像进行旋转校正。检测文本倾斜角的基本思路是，文本中任何水平方向和垂直方向的线条或者文字行的倾斜方向都与文本的倾斜方向保持一致，因此可以通过这些线条和文字行来估计文本的倾斜角度。
本机采用了基于文本行的文档倾斜校正方法通常文本行是沿水平方向排列的，且相邻文本行之间的距离相对固定，因此检测页面图像的倾角不必对整个图像进行扫描计算，选择合适的文本子区域，其文本行的方向角对应于整个文档图像的倾斜角。具体采用Hough变换法和投影法检测文本图像的倾斜角，具体计算是
在二维图像空间里，直线可表示为xcos e +ysin e = p ，其中p禾p e为参数，定义了一个从原点到该直线最近点的向量(p ， e)，显然这
个向量与该直线垂直。实现Hough变换对文本图像倾斜角检测的算法，详细描述如下。 1、在p， e合适的最大值Pmax， e隨和最小值Pmin， 9幽之间，建立一个离散的参数空间(p ， e)，其中p = {p」Pmin《Pi《Pmax，i《i《m}、 e =(e.|e.《e.《e ，i《i《n}。
L j I min \ j \ max赁丄 \ j \丄丄j o 2、建立一个累加器矩阵A(P ， 9)(大小为mXn)，并初始化每一个元素为k， k是
0-100常量。 3、对图像中每一个目标像素(即二值化后图像中的前景)(x，y)，对每一个9的取
值e j《n)，都计算Pi = xcose j+ysine j，相应累加器A(Pi， e j) =A(Pi， e》+1。4、先求』A) =2>(A，最后取腿x(A( 9 j))所对应的角度9 Dmax，即为Hough变
换算法检测的文字图像的倾斜角。
二值化图像的二值化处理就是把扫描图像分成对象和背景两个区域，求其阈值，去掉不必要的噪声和干扰。因此可以说，二值化的过程，就是阈值选取的过程。阈值是把背景和前景区分开的标尺，其选取的原则是，要在尽可能保存文字信息的同时又尽可能地削除噪声的干扰。本机采用二维0tsu 二值化法进行二值化处理CIS部分得到的数据，具体计算是设一幅图像的像素点数为N，它有L个灰度级(1，2， . . . ， L-l)，灰度级为i的像素
点数为ni，且有A,^f。利用N对图像直方图进行归一化，可以得到灰度级为i的像素点
11
的概率具=# 假设阈值t将图像分成两类C。和Q(物体和背景)，即C。和Q分别对应具有灰度级{0，1， ... ， t}和{t+l， t+2，， L-l}的像素，C0和Q发生的概率分别为w^ =^>,、
/ 1
^ ， co和ci类的均值分别为&w 、《r—，其中
<formula>formula see original document page 5</formula> (r) = E执、Mr = H >,，这样就有

取大值时所对应的t (1《t < L)，即
{1fDW0 + Will, = Wr W0 + W〗=1 ，
两类的类间方差为 o B2 = w0 (u0-uT) 2+w丄(u「Ut) 2 。
最佳阈值t'是指让类间方差o
平滑去噪
经过倾斜校正后的文字图像会附加一定的噪声，这种噪声主要表现为斑点和空洞。其中斑点指的是图像背景中的污点、毛剌之类的与文本图中的文本不相干的内容，一般
相对笔划而言较小，成点状。而所谓空洞指的是文字笔划中的小的像素缺失，一般被o像素
(即黑像素)包围。应用的算法可以是邻域相关法、均值滤波法以及形态学的方法等。
>邻域相关法。邻域相关法是指根据当前像素点一定窗口内的邻域像素点的特性来判断该像素点是否为背景点。例如，选定3X3的辅助窗对图像进行扫描，对图像中各点进行如下处理
(1)对于背景点，若其四邻域有三个点为笔划点，则将它设为笔划点。这一步主要目的是消除空洞。 (2)对于笔划点，则分三种情况讨论若其四邻域点都是背景点，且对角线四个点有任意两个同一边的点(即同在该点的左边、右边，或同在该点的上方、下方)，则设该点为背景点，这一步的目的是消除独立的噪声点；如果该笔划点的八个邻边只有一个是目标像素，证明这一点是悬空点，必须清除；如果该点的四个方向中只有一个方向的三个像素全为目标点，而其他方向全是背景点，说明该点为凸点噪声，也必须清除。
>均值滤波法。均值滤波法的原理是采用如下式所示的平滑模板H对图像进行平滑处理。
—1 1 1—
，0 < n《1000
好=丄
1 1 1 其作用是通过像素点与其邻域点的均值运算(通常为平均运算)来去除突然变化的点，从而达到消除一定噪声的目的。
>形态学方法形态学运算中，开启运算通过消除边缘的突起而使图像的边界得以平滑，而闭合运算则是通过先膨胀后腐蚀的处理方法来填充图像内部空隙并连接临近的物体。因此，通过一次开启和闭合运算，就可以消除二值图中的随机噪声。
行切分经扫描得到的文本图像中可能包含若干行文字，一般情况下，图像的中间部分质量比较好，而两端部分有可能形变比较大，不利于后续处理，因此要对图像进行行切分，称为行分离。
对二值图像的行切分过程可以描述为对于纠偏后的二值图像，统计水平方向每
6行中的前景点数量，生成投影曲线。由于文本行与行之间存在明显的间距，得到的投影曲线必定是连续非零像素段、连续零像素段相互交迭，其中非零像素段表示文本行，零像素段表示行间距。找出靠近图像正中间的行并进行切分，切分出了我们感兴趣的行。
图像规格化处理在移动扫描的过程中，由于手的抖动，扫描得到的图像容易产生变形，导致连续两帧图像中文字的字体大小产生变化，从而使切分出来的文字行图像规格不一样(指图像产生了縮放)。为了便于下一步进行文字行图像的配准和拼接，可把图像规格化成相同大小。可用插值法对图像进行插值放大或縮小，以保证所有切分出的文本行图像高度一致，本机采用双线性插值把源图像变化为目标图像，具体是设f(i， j)表示源图像(i， j)处的的像素值，则可用源图像中坐标为(i， j)、 (i + l， j)、 (i， j + l)、 (i + l， j + l)的四个像素的值，计算目标像素点的值。先通过从目标图像坐标到源图像坐标的反向变换，得到目标图像中的某点，在源图像中的坐标为(i+U， j+V)，其中i、 j均为非负整数，U、V为[O，l]区间的浮点数，则目标图像中此象素点的值，即取为f (i+u， j+v)，且f (i+u， j+v) = (l-u) (l-v)f (i， j) + (l-u)vf(i， j+l)+u(l-v)f(i+l， j)+uvf(i+l， j+l)。以上所述仅为本发明的较佳实施例，凡依本发明权利要求范围所做的均等变化与修饰，皆应属本发明权利要求的涵盖范围。
权利要求
一种图像传感同步方法，其特征在于，包括以下步骤1.1)基于最大互信息配准并拼接移动扫描的图像；1.2)使用阈值将图像分成对象和背景；1.3)基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。
2. 根据权利要求1所述图像传感同步方法，其特征在于，该方法还包括平滑去噪步骤根据噪声与文本图像区别特征去除对象中与文本不相干的内容。
3. 根据权利要求1所述图像传感同步方法，其特征在于，所述平滑去噪步骤位于步骤 1. 2) 1. 3)之间。
4. 根据权利要求1所述图像传感同步方法，其特征在于，所述平滑去噪步骤位于步骤 1.3)之后。
5. 根据权利要求l所述图像传感同步方法，其特征在于，该方法还包括行切分步骤结合所述倾斜角度识别行间距并切分文本行。
6. 根据权利要求5所述图像传感同步方法，其特征在于，所述行切分包括根据连续非零像素段、连续零像素段相互交迭的规律进行切分。
全文摘要
本发明涉及一种文本图像处理方法包括基于最大互信息配准并拼接移动扫描的图像；使用阈值将图像分成对象和背景；基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。这种文本图像处理方法，采用二值化、倾斜校正、平滑去噪、文本行分离、规一化处理进行图像处理，有效抵消了移动扫描产生的图像倾斜、尺度变化等变形以及单帧图像中能存在多行文字的不利影响，满足了移动扫描后OCR文字识别的要求。
文档编号G06T7/00GK101697228SQ200910110509
公开日2010年4月21日申请日期2009年10月15日优先权日2009年10月15日
发明者杨昊民, 邱光益申请人:东莞市步步高教育电子产品有限公司;

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨昊民;邱光益
技术所有人：东莞市步步高教育电子产品有限公司
我是此专利的发明人

上一篇：数据查询方法、装置及系统的制作方法
上一篇：一种erp系统及其用户权限控制方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。