一种基于深度卷积的证件图像文本区域提取方法与流程

文档序号:15737562发布日期:2018-10-23 21:44阅读:498来源:国知局

本发明涉及图像处理领域,尤其涉及一种基于深度卷积的证件图像文本区域提取方法。



背景技术:

证件图像的文本区域提取作为证件识别的关键性步骤,将图像中的文本提取出来,以便于对于字符的提取与识别,以更准确更好的获取证件图像上的文本信息的过程。

证件图像的文本区域提取就是将包含证件的图像进行文本区域的精确定位,并基于定位将文本准确的提取出来。文本区域的提取一般分为两种方式,直接对图像中的文本进行定位分析;先对图像进行校正,再基于校正后的图像进行文本区域的定位。

传统的字符识别(OCR)一般分为图像预处理、文字区域检测、字符切分、字符识别四个模块。图像预处理主要在与对图像进行图像的增强,降噪及矫正等。图像的预处理是图像处理的先行步骤,能够很大程度的提高对图像中文本区域的提取与识别准确率。图像中文字区域的检测分为两种方法,一种使用版面分析,通过对特定的证件图像进行版面上的分析,从而直接对证件的图像进行文本区域的定位,使用版面分析要求证件图像的版面归整,先将证件目标图像提取出来,然后只用相对位置进行定位,准确率受版面的规整程度与目标图像的提取正确度影响;另一种方法是使用神经网络学习的方法,直接对图像进行文本区域的选取,使用神经网络学习方法不受版面等影响,也不需要对目标图像进行提取,直接智能的从图像中定位提取文本区域。

深度卷积神经网络OCR的应用上,有几种形式:使用别的方法提取文本区域,使用深度卷积神经网络对字符图片进行识别;使用深度卷积神经网络对图像中的文本区域进行提取,然后再进行识别;使用深度学习方法,设计一个端到端的系统,直接将图像中的文本区域识别返回识别的结果。其中最理想的方式当然是端到端的系统,但是其实现难度也是最高的,要达到理想的准确率很难。而近年对图像识别的研究主要集中OCR中对于图像中文本区域的定位的研究,Faster R-CNN,Yolo方法等的提出,其可以快速的对图像中目标的定位及识别,以此为基础并加以改进并提出很多对于自然场景的文字区域提取与识别方法,也达到较好的效果。自Faster R-CNN及Yolo算法的相继提出,对自然场景下的文本区域检测也被重点关注,相继有很多基于深度卷积神经网络的方法对自然场景下的文本区域检测,其在自然场景下能够对文本的检测率达到85%左右。

传统的版面分析方法对文本区域的定位准确率较高,但是受证件图像的类型影响,需要对每一类的图像进行版面分析,并且还需要图像是规整的,而有些不规整的证件则没法进行版面分析;基于深度卷积神经网络的文本区域定位虽然能智能的对文本进行定位,但是一方面神经网络的方法学习过程中对区域的定位精确度不够,且最重要的是,基于卷积神经网络的模型在识别定位中需要大量的计算从而需要较长的时间,很难做到实时的效果。



技术实现要素:

本发明的目的在于:为了解决现有技术下的图像识别技术无法对多类型证件或版面不规整的多个证件图像进行文本区域定位的问题,本发明提供了一种基于深度卷积的证件图像文本区域提取方法,对预处理后的目标图像采用深度卷积神经网络进行水平方向上的文本行图像精确定位,能够对图像中的文本精确定位,且具有实时性好的优点。

本发明采用的技术方案如下:

一种基于深度卷积的证件图像文本区域提取方法,包括以下步骤:

S1:对目标图像进行预处理,预处理后的目标图像经水平校正后得到水平图像;

S2:将S1中得到的水平图像代入基于卷积神经网络的网络模型中进行定位,得到以文本行为单位的输出图像。

进一步地,所述S1中的具体内容如下:

S101:对目标图像进行预处理后得到图像轮廓,使用闭运算将图像轮廓连接起来,并结合轮廓查找算法取出轮廓;

S102:对S101中提取出的轮廓利用几何比例进行筛选,选取目标证件轮廓;

S103:基于S102中所选取的目标证件轮廓,根据轮廓的倾斜特征及轮廓的位置对图像进行旋转;

S104:对S103中旋转后的图像使用霍夫变换监测其角点并结合透视变换将图像校正得到水平图像。

进一步地,所述预处理的方法包括以下两种:

方法1:先使用高斯模糊化处理对目标图像进行降噪,再进行灰度化处理,灰度化处理后的图像使用Sobel算子边缘处理,得到图像轮廓;

方法2:先使用锐化处理增强目标图像细节,再使用Canny算子边缘处理得到图像轮廓。

进一步地,所述筛选的标准为根据具体证件的特征以及具体证件的标准长宽比率选取目标证件轮廓。

进一步地,所述S2中的具体内容如下:

S201:对S1中得到的水平图像进行卷积特征提取,使用VGG16的深度卷积模型所提取的数据作为基本网络提取特征,获取VGG第五层卷积层中第3子层特征作为特征图,其大小为W×H×C,W及H分别为输入图像的宽和高,C为卷积核数量,本文仅使用VGG16产生的第五层数据进行处理。

S202:对S201中得到的特征图使用512个3×3大小的滑动窗口作卷积,对每个点卷积得到一个512大小的特征向量;

S203:针对每个窗口中心,都会产生10个高度为13~273的文本框,并对每个文本框使用S202中所提取的特征向量计算区域为文本的概率;

S204:将S202中获取的特征向量作为一个双向LSTM的输入,并规定其输出为W×256长度,在双向LSTM后面连接512的全连接层进行结果的输出;

S205:基于文本线构造算法对输出结果进行整合,将顺序或相临近的文本框进行整合,并对多余的文本框进行非极大值抑制算法进行过滤,最后整合的文本行即为目标图像的文本行。

进一步地,所述输出结果包含文本框位置、文本框的特征判断及用于调整文本行端点位置的预测信息,所述文本框由中心位置和矩形框的高度两个值表示。

进一步地,所述对文本框的特征判断为两项,一项为判断为文本的概率,另一项为判断为非文本的概率。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1.本发明采用基于深度卷积的证件图像文本区域提取方法,可以对多类型证件或版面不规整、多个证件图像的版面不一致的证件图像进行文本区域精确定位。

2.本发明在使用GPU计算的前提下能够在1s内进行文本定位提取,识别速度快,实时性好。

3.本发明突破传统中版面分析的弱点,对不能进行版面分析的证件图像及多种类型的证件图像也能进行文本区域的定位。

4.本发明通过使用图像预处理对图像进行水平校正,能够过滤对由拍照环境导致的对图像的光照影响,角度变换及旋转变换等影响干扰,从而能实现对文本区域进行准确的定位。

附图说明

本发明将通过例子并参照附图的方式说明,在附图中:

图1是本发明整体流程示意图;

图2是本发明基于深度卷积的神经网络模型图;

图3是本发明预处理后结果图,左侧为使用Sobel算子处理结果图,右侧为使用Canny算子处理结果图。

图4是本发明对图像进行旋转校正的效果图;

图5是本发明基于深度卷积神经网络的文本区域定位模型对身份证图像的定位效果图。

具体实施方式

为了本技术领域的人员更好的理解发明,下面结合附图和实施例对本发明进行详细说明。

一种基于深度卷积的证件图像文本区域提取方法,包括以下步骤:

S1:对目标图像进行预处理,预处理后的目标图像经水平校正后得到水平图像;

S2:将S1中得到的水平图像代入基于卷积神经网络的网络模型中进行定位,得到以文本行为单位的输出图像。

作为一种优选的实施方式,所述S1中的具体内容如下:

S101:对图4左侧目标图像进行预处理后得到图像轮廓,使用闭运算将图像轮廓连接起来,并结合轮廓查找算法取出轮廓;

S102:对S101中提取出的轮廓利用几何比例进行筛选,选取目标证件轮廓;

S103:基于S102中所选取的目标证件轮廓,根据轮廓的倾斜特征及轮廓的位置对图像进行旋转;

S104:对S103中旋转后的图像使用霍夫变换监测其角点并结合透视变换将图像校正得到图4右侧所示水平图像,

作为一种优选的实施方式,所述预处理的方法包括以下两种:

方法1:先使用高斯模糊化处理对目标图像进行降噪,再进行灰度化处理,灰度化处理后的图像使用Sobel算子边缘处理,得到图像轮廓,使用Sobel算子得到如图3左侧所述轮廓,使用的Sobel算子大小为5;

方法2:先使用锐化处理增强目标图像细节,再使用Canny算子边缘处理得到图像轮廓,使用Canny算子得到如图3右侧所示轮廓,Canny算子使用大小为3,上下阈值分别为89和40。

作为一种优选的实施方式,S102中所述筛选的方法:将提取的轮廓结合身份证本身的长宽比最接近108:66的比率及身份证的特征进行筛选,选取身份证证件轮廓,通过长宽比进行粗筛选,再训练一个分类是否为身份证图像的SVM分类器进行选取。

作为一种优选的实施方式,所述S2中设立了如图2所示的基于深度卷积神经网络的文本区域定位模型并利用该模型进行目标图像文本定位分析,其具体内容如下:

S201:对S1中得到的水平图像进行卷积特征提取,使用VGG16的深度卷积模型所提取的数据作为基本网络提取特征,获取VGG第五层卷积层中第3子层特征作为特征图,其大小为W×H×C,W及H分别为输入图像的宽和高,C为卷积核数量,本文仅使用VGG16产生的第五层数据进行处理。

S202:对S201中得到的特征图使用512个3×3大小的滑动窗口作卷积,对每个点卷积得到一个512大小的特征向量;

S203:针对每个窗口中心,都会产生10个高度为13~273的文本框,并对每个文本框使用S202中所提取的特征向量计算区域为文本的概率;

S204:将S202中获取的特征向量作为一个双向LSTM的输入,并规定其输出为W×256长度,在双向LSTM后面连接512的全连接层进行结果的输出;

S205:基于文本线构造算法对输出结果进行整合,将顺序或相临近的文本框进行整合,并对多余的文本框进行非极大值抑制算法进行过滤,最后整合的文本行如图5所示,即为目标图像的文本行。

作为一种优选的实施方式,所述输出结果包含文本框位置、文本框的特征判断及用于调整文本行端点位置的预测信息,所述文本框由中心位置和矩形框的高度两个值表示。

作为一种优选的实施方式,所述对文本框的特征判断为两项,一项为判断为文本的概率,另一项为判断为非文本的概率。

以上所述,仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些都属于发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1