复杂背景图像的处理方法及其装置与流程

文档序号：11831420阅读：218来源：国知局

本发明涉及图像处理技术领域，尤其涉及一种复杂背景图像的处理方法及装置。

背景技术：

随着资讯的发展，图文资料广泛传播，基于图像的文字识别得到了广泛应用。基于图像的文字区域定位以及文字识别是图像处理技术的重要组成部分，随着经济社会的发展，便携式拍照设备的普及，获得图像的手段越来越多，在获取的这些图像中可能会含有一些如车牌号码，商铺名称，道路名称等文字信息，通过对于这些图像中的文字信息进行识别，在自动驾驶，地理信息数据采集，以及交通检测等应用中都有着重要的意义。同时由于图像的来源广泛，图像的背景呈现出多样性，导致OCR处理容易出现大量乱码，使得OCR识别率大大下降，因此，需要对于复杂背景图像的文字区域进行精确定位和识别。

现有技术的文字区域定位和文字识别方法中，通常图像背景较为单调，只需有效消除图像扫描中可能产生的噪声，即可实现文字区域的定位和识别。而在复杂背景图像中，文字信息通常会叠加在背景物体的表面，而背景物体的纹理，色彩错综复杂，文字叠加于复杂的纹理、色彩之上，无法按照现有技术中消除噪声处理，以实现文本区域的定位以及二值化，从而无法进行较为精确的图像文字识别，现有技术的识别方法在复杂背景图像的文字识别中存在着计算效率不高、识别精度低的问题。

技术实现要素：

本发明提供一种复杂背景图像的处理方法及其装置，解决现有技术中相机标定方式复杂、对标定的系统及环境有特定的要求的技术问题。

本发明的目的是通过以下技术方案实现的：

一种复杂背景图像的处理方法，包括：

获取至少两张相关图像，所述至少两张相关图像包含有相同的信息；

对所述至少两张相关图像进行灰度化处理和边缘检测；

对所述至少两张相关图像进行平滑处理，去除先验信息小于预设阈值的边缘信息，以生成至少两张二值图像；

利用Sobel算子对所述至少两张二值图像进行处理，以生成至少两张笔画特征图像；

对所述至少两张笔画特征图像进行开运算，以增强笔画部分的像素密度，并定位所述至少两张笔画特征图像的文字区域；

利用滑动窗口对所述至少两张笔画特征图像的文字区域进行检测，根据预设的规则对文字区域进行过滤，更新所述文字区域在所述至少两张笔画特征图像中的位置；

结合所述文字区域在所述至少两张笔画特征图像中的位置，通过统计理论获得所述文字区域的较精确位置；

根据所述文字区域的较精确位置，分割所述至少两张笔画特征图像中的文字区域和非文字区域，对所述至少两张笔画特征图像中的文字区域进行文字信息的提取和识别。

一种复杂背景图像的处理装置，包括：

获取模块，用于获取至少两张相关图像，所述至少两张相关图像包含有相同的信息；

第一处理模块，用于对所述至少两张相关图像进行灰度化处理和边缘检测；

第二处理模块，用于对所述至少两张相关图像进行平滑处理，去除先验信息小于预设阈值的边缘信息，以生成至少两张二值图像；

第三处理模块，用于利用Sobel算子对所述至少两张二值图像进行处理，以生成至少两张笔画特征图像；

第一定位模块，用于对所述至少两张笔画特征图像进行开运算，以增强笔画部分的像素密度，并定位所述至少两张笔画特征图像的文字区域；

第二定位模块，用于利用滑动窗口对所述至少两张笔画特征图像的文字区域进行检测，根据预设的规则对文字区域进行过滤，更新所述文字区域在所述至少两张笔画特征图像中的位置；

第三定位模块，用于结合所述文字区域在所述至少两张笔画特征图像中的位置，通过统计理论获得所述文字区域的较精确位置；

识别模块，用于根据所述文字区域的较精确位置，分割所述至少两张笔画特征图像中的文字区域和非文字区域，对所述至少两张笔画特征图像中的文字区域进行文字信息的提取和识别。

通过本发明提供的一种复杂背景图像的处理方法及装置，通过获取相关图像；对相关图像进行灰度化处理和边缘检测；对相关图像进行平滑处理，去除先验信息小于预设阈值的边缘信息，以生成二值图像；利用Sobel算子对二值图像进行处理，生成笔画特征图像；对笔画特征图像进行开运算，并定位所述至少两张笔画特征图像的文字区域；对文字区域进行检测和过滤，以更新所述文字区域在图像中的位置；结合文字区域在多张笔画特征图像中的位置，获得所述文字区域的较精确位置；根据文字区域的较精确位置，分割笔画特征图像中的文字区域和非文字区域，对文字区域进行文字信息的提取和识别。提高了图像中文字区域的定位精度和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可根据这些附图获得其他的附图。

图1为本发明实施例提供的一种复杂背景图像的处理方法的流程图；

图2为本发明实施例提供的一种复杂背景图像的处理方法的示例图；

图3为本发明实施例提供的一种复杂背景图像的处理装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例中提供了一种复杂背景图像的处理方法，如图1所示，为本发明实施例中提供的一种复杂背景图像的处理方法的流程图，包括：

步骤101、获取相关图像；

其中，所述至少两张相关图像包含有相同的信息；例如：同一杂志，不同像素精度的相机在相同位置获得的多张图像，不同相机拍摄的多张图像在分辨率，色彩上有着一定的差异，或者由于拍摄问题造成有的图像的文字遮挡、曝光过度、以及拍摄时间不同导致有的图像污损。

步骤102、对相关图像进行灰度化处理和边缘检测；

其中，对步骤101获取的多张相关图像先进行灰度化处理之后，利用边缘Canny算子进行Canny边缘检测；

步骤103、对相关图像进行平滑处理，去除先验信息小于预设阈值的边缘信息，以生成二值图像；

其中，所述步骤103具体包括：

步骤103-1、利用P(i，j)＝G(i，j；σ)*I(i，j)对所述至少两张相关图像I进行高斯平滑，其中，G(i，j；σ)为高斯卷积核，P(i，j)为高斯平滑后的图像P；

步骤103-2、对高斯平滑后的图像P求偏导，并利用有限差分计算梯度的幅值和方向，对梯度幅值进行非极大值抑制，以获得结果图像Q；

步骤103-3、建立训练集Ψ，对于训练集Ψ中的图像进行统计，获得先验信息，并结合应用要求，获得阈值，去除结果图像Q中所述先验信息小于阈值的边缘信息，以生成至少两张二值图像。

步骤104、利用Sobel算子对二值图像进行处理，生成笔画特征图像；

其中，对于步骤103生成的每幅图像Q，使用Sobel算子进行处理，分别求其在水平方向和竖直方向的梯度，对于结果进行结合，从而生成笔画特征图像T；

步骤105、对笔画特征图像进行开运算，并定位所述至少两张笔画特征图像的文字区域；

其中，对笔画特征图像进行开运算，可以增强笔画部分的像素密度。

步骤106、对文字区域进行检测和过滤，以更新所述文字区域在图像中的位置；

其中，步骤106具体可以包括：

步骤106-1、利用滑动窗口对所述至少两张笔画特征图像T进行扫描，并计算所述滑动窗口内的像素密度值ρ和笔画特征强度η，其中，I*J为滑动窗口大小，W为所述滑动窗口内的图像；

步骤106-2、根据实际应用需要，设定像素密度阈值和笔画特征强度阈值，将超过像素密度阈值和笔画特征强度阈值的区域标记为文字区域M，记录所述文字区域M的位置信息，并将所述文字区域M内的像素值置为1，得到图像T₁；

步骤106-3、利用同样的滑动窗口，对所述图像T₁进行扫描，从而得到包含所述位置信息的图像T₂，通过对所述图像T₂中的像素区域进行定位，更新所述文字区域M在所述至少两张笔画特征图像T中的位置.

步骤107、结合文字区域在多张笔画特征图像中的位置，获得所述文字区域的较精确位置；

其中，如图2所示为经过了上述步骤处理之后的两张相关图像，图像中有的部分文字被阻挡，这里进行结合文字区域在两张笔画特征图像中的位置，并利用统计理论获得文字区域的较精确位置；

步骤108、根据文字区域的较精确位置，分割笔画特征图像中的文字区域和非文字区域，对文字区域进行文字信息的提取和识别。

其中，如图2所示，结合两张图像的笔画特征图像中的文字信息，并根据图像置信因子，对文字信息进行补全和综合，以获得较精确的文字信息，所述图像置信因子由图像的清晰度获得。

本发明实施例改进了传统文字识别在复杂背景图片中的文字区域定位方法，同时提高了文字识别的精度。通过对定位方法的改进，可以提高定位的精度和效率，而通过对于多幅相关图像的结合，对文字信息进行补全和综合，并且结合图像的质量给予图像不同的置信因子，从而进一步提高文字区域定位的精度和文字识别的精确度。

本发明实施例中还提供了一种复杂背景图像的处理装置，如图3所示，包括：

获取模块310，用于获取至少两张相关图像，所述至少两张相关图像包含有相同的信息；

第一处理模块320，用于对所述至少两张相关图像进行灰度化处理和边缘检测；

第二处理模块330，用于对所述至少两张相关图像进行平滑处理，去除先验信息小于预设阈值的边缘信息，以生成至少两张二值图像；

第三处理模块340，用于利用Sobel算子对所述至少两张二值图像进行处理，以生成至少两张笔画特征图像；

第一定位模块350，用于对所述至少两张笔画特征图像进行开运算，以增强笔画部分的像素密度，并定位所述至少两张笔画特征图像的文字区域；

第二定位模块360，用于利用滑动窗口对所述至少两张笔画特征图像的文字区域进行检测，根据预设的规则对文字区域进行过滤，更新所述文字区域在所述至少两张笔画特征图像中的位置；

第三定位模块370，用于结合所述文字区域在所述至少两张笔画特征图像中的位置，通过统计理论获得所述文字区域的较精确位置；

识别模块380，用于根据所述文字区域的较精确位置，分割所述至少两张笔画特征图像中的文字区域和非文字区域，对所述至少两张笔画特征图像中的文字区域进行文字信息的提取和识别。

其中，所述识别模块380，包括：

文字分割单元381，用于根据所述文字区域的较精确位置，分割所述至少两张笔画特征图像中的文字区域和非文字区域；

文字补全单元382，用于结合所述至少两张笔画特征图像中的文字信息，并根据图像置信因子，对文字信息进行补全和综合，以获得较精确的文字信息，所述图像置信因子由图像的清晰度获得。

所述第二处理模块330，包括：

平滑处理单元331，用于通过P(i，j)＝G(i，j；σ)*I(i，j)对所述至少两张相关图像I进行高斯平滑，其中，G(i，j；σ)为高斯卷积核，P(i，j)为高斯平滑后的图像P；

第一图像处理单元332，用于对高斯平滑后的图像P求偏导，并利用有限差分计算梯度的幅值和方向，对梯度幅值进行非极大值抑制，以获得结果图像Q；

第二图像处理单元333，用于建立训练集Ψ，对于训练集Ψ中的图像进行统计，获得先验信息，并结合应用要求，获得阈值，去除结果图像Q中所述先验信息小于阈值的边缘信息，以生成至少两张二值图像。

所述第三处理模块340，包括：

第三图像处理单元341，用于通过Sobel算子对所述至少两张二值图像进行处理；

第四图像处理单元342，用于计算所述至少两张二值图像在水平方向，竖直方向的梯度，以生成笔画特征图像T。

所述第二定位模块360，包括：

扫描计算单元361，用于通过滑动窗口对所述至少两张笔画特征图像T进行扫描，并计算所述滑动窗口内的像素密度值ρ和笔画特征强度η，其中， $<mrow> <mi>ρ</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Σ</mi> <mrow> <mo>&ForAll;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mi>W</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>I</mi> <mo>*</mo> <mi>J</mi> </mrow> </mfrac> <mo>,</mo> <mi>η</mi> <mo>=</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>I</mi> </msubsup> <msubsup> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>J</mi> </msubsup> <mfrac> <mrow> <mi>dW</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mi>dx</mi> </mfrac> <mo>+</mo> <mfrac> <mrow> <mi>dW</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mi>dy</mi> </mfrac> <mo>,</mo> </mrow>$ I*J为滑动窗口大小，W为所述滑动窗口内的图像；

文字定位单元362，用于根据实际应用需要，设定像素密度阈值和笔画特征强度阈值，将超过像素密度阈值和笔画特征强度阈值的区域标记为文字区域M，记录所述文字区域M的位置信息，并将所述文字区域M内的像素值置为1，得到图像T₁；

位置更新单元363，用于通过滑动窗口，对所述图像T₁进行扫描，从而得到包含所述位置信息的图像T₂，通过对所述图像T₂中的像素区域进行定位，更新所述文字区域M在所述至少两张笔画特征图像T中的位置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范荣双;曹萌;郑君;贺鹏艳;荆凯旋;杨宗富;
技术所有人：中测高科（北京）测绘工程技术有限责任公司;
我是此专利的发明人

上一篇：一种圆柱棒料自动向下供给机构的制作方法与工艺
上一篇：一种基于悬空送餐装置的旋转结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。