图像矫正方法、图像文本识别方法、身份验证方法及装置与流程

文档序号:26175182发布日期:2021-08-06 18:20阅读:101来源:国知局
图像矫正方法、图像文本识别方法、身份验证方法及装置与流程

本发明涉及信息处理技术领域,尤其涉及一种图像矫正方法、图像文本识别方法、身份验证方法及装置。



背景技术:

随着互联网技术的不断发展,互联网在各个行业的应用越来越广泛,例如,互联网金融、银行、电信、教育等行业。为了提高互联网应用的安全性,往往需要对用户进行身份验证。目前,通常是通过自动识别用户上传的卡证图像等上的身份信息对用户进行身份验证,例如,通过识别用户身份证图像上的信息(如姓名、地址、身份证号等)对用户进行身份验证,以提高身份验证的效率。

实际情况中,由于拍摄的角度问题,往往使得拍摄的卡证图像等具有倾斜、透视的效果,这对文字定位、文字识别精准度都会带来较大的影响,因此有必要在卡证图像等上的文字进行识别之前对图像进行矫正。在现有技术中,以身份证图像为例,通常是将输入的彩色身份证图像转换为灰度图,使用阈值对灰度图像进行二值分割得到二值图像,再基于二值图像定位身份证图像中的身份证区域进行图像矫正。但当图像背景复杂时,阈值不好确定,往往不能有效地分出身份证图像中的背景区域和身份证区域,导致图像矫正效果较差。

可见,现有技术中在图像背景较为复杂的情况下存在对图像进行矫正的效果较差的问题。



技术实现要素:

本发明实施例提供一种图像矫正方法及装置,以解决在图像背景较为复杂的情况下对图像进行矫正的效果较差的问题。

为了解决上述技术问题,本发明是这样实现的:

第一方面,本发明实施例提供了一种图像矫正方法。该方法包括:

将待处理图像输入预先训练的图像分割模型以分割所述待处理图像的目标图像区域,得到所述待处理图像的分割图像;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

根据所述分割图像确定所述目标图像区域的位置;

根据所述目标图像区域的位置对所述目标图像区域进行矫正。

第二方面,本发明实施例还提供了一种图像文本识别方法。该方法包括:

利用上述的图像矫正方法对待处理图像的目标图像区域进行矫正;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

定位矫正后的所述目标图像区域中的文本区域;

识别所述文本区域中的文本。

第三方面,本发明实施例还提供了一种身份验证方法。该方法包括:

获取待处理图像,其中,所述待处理图像包括卡证区域,所述卡证区域包括文本区域;

利用上述的图像文本识别方法识别所述待处理图像的卡证区域的文本区域的文本;

根据所述文本进行身份验证。

第四方面,本发明实施例还提供了一种模型训练方法。该方法包括:

获取s张图像样本和所述s张图像样本中每个图像样本对应的标签图像,其中,所述标签图像为标注了图像样本的目标图像区域的位置的图像,s为大于1的整数,所述目标图像区域为所述图像样本中目标对象的图像区域;

根据s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行图像分割模型训练。

第五方面,本发明实施例还提供一种图像矫正装置。该图像矫正装置包括:

输入模块,用于将待处理图像输入预先训练的图像分割模型以分割所述待处理图像的目标图像区域,得到所述待处理图像的分割图像;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

确定模块,用于根据所述分割图像确定所述目标图像区域的位置;

矫正模块,用于根据所述目标图像区域的位置对所述目标图像区域进行矫正。

第六方面,本发明实施例还提供一种图像文本识别装置。该图像文本识别装置包括:

矫正模块,用于利用上述的图像矫正方法对待处理图像的目标图像区域进行矫正;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

定位模块,用户定位矫正后的所述目标图像区域中的文本区域;

识别模块,用于识别所述文本区域中的文本。

第七方面,本发明实施例还提供一种身份验证装置。该身份验证装置包括:

获取模块,用于获取待处理图像,其中,所述待处理图像包括卡证区域,所述卡证区域包括文本区域;

识别模块,用于利用上述的图像文本识别方法识别所述待处理图像的卡证区域的文本区域的文本;

验证模块,用于根据所述文本进行身份验证。

第八方面,本发明实施例还提供一种模型训练装置。该模型训练装置包括:

获取模块,用于获取s张图像样本和所述s张图像样本中每个图像样本对应的标签图像,其中,所述标签图像为标注了图像样本的目标图像区域的位置的图像,s为大于1的整数,所述目标图像区域为所述图像样本中目标对象的图像区域;

训练模块,用于根据s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行图像分割模型训练。

第九方面,本发明实施例还提供一种图像矫正装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的图像矫正方法的步骤,或者实现上述的图像文本识别方法的步骤,或者实现上述的身份验证方法的步骤,或者实现上述的模型训练方法的步骤。

第十方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的图像矫正方法的步骤,或者实现上述的图像文本识别方法的步骤,或者实现上述的身份验证方法的步骤,或者实现上述的模型训练方法的步骤。

本发明实施例中,通过预先训练的图像分割模型对待处理图像的目标图像区域进行分割得到分割图像,并根据分割图像确定所述目标图像区域的位置以对所述目标图像区域进行矫正。由于图像分割模型对于不同复杂程度的图像背景均具有较好的分割效果,因此可以较为准确的分割出待处理图像的目标图像区域,进而可以较为准确的定位出目标图像区域以进行矫正,提高图像的目标图像区域的矫正效果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像矫正方法的流程图;

图2是本发明实施例提供的身份证图像的示意图;

图3是本发明实施例提供的分割图像的示意图;

图4是本发明实施例提供的unet网络的结构示意图;

图5是本发明实施例提供的身份证图像倾斜矫正的示意图;

图6是本发明实施例提供的图像文本识别方法的流程图;

图7是本发明又一实施例提供的图像文本识别方法的流程图;

图8是本发明实施例提供的身份验证方法的流程图;

图9是本发明实施例提供的模型训练方法的流程图;

图10a是本发明实施例提供的样本图像的示意图;

图10b是本发明实施例提供的标签图像的示意图;

图11是本发明实施例提供的图像矫正装置的结构图;

图12是本发明实施例提供的图像文本识别装置的结构图;

图13是本发明实施例提供的身份验证装置的结构图;

图14是本发明实施例提供的模型训练装置的结构图;

图15是本发明又一实施例提供的图像矫正装置的结构图;

图16是本发明又一实施例提供的图像文本识别装置的结构图;

图17是本发明又一实施例提供的身份验证装置的结构图;

图18是本发明又一实施例提供的模型训练装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种图像矫正方法,应用于电子设备,例如,计算机、服务器、手机、平板电脑等。参见图1,图1是本发明实施例提供的图像矫正方法的流程图,如图1所示,包括以下步骤:

步骤101、将待处理图像输入预先训练的图像分割模型以分割所述待处理图像的目标图像区域,得到所述待处理图像的分割图像;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域。

本实施例中,上述目标对象可以是卡证、票据等具有特定格式的对象,例如,上述目标对象可以包括但不限于身份证、银行卡、社保卡、学生证、驾照、护照、工作证、营业执照或发票等。上述待处理图像可以是任意包括目标对象的图像区域的图像,例如,拍摄的身份证图像。实际情况中,身份证图像中除了身份证的图像区域之外,通常还会包括一些背景区域,例如,如图2所示,身份证图像10包括身份证的图像区域11(也即身份证区域)和背景区域12。

上述图像分割模型可以是基于卷积神经网络训练得到的模型,上述神经网络可以包括但不限于全卷积网络(fullyconvolutionalnetworks,fcn)、maskrcnn、segnet、unet或者deeplab等。具体的,可以基于多个图像样本及其标签图像对卷积神经网络进行训练,得到上述图像分割模型。其中,标签图像为标注了图像样本中目标对象的图像区域的位置的图像,进而基于该图像分割模型可以分割出待处理图像中目标对象的图像区域。

以上述目标对象为身份证为例,将待处理图像输入至图像分割模型,可以得到如图3所示的分割图像,该分割图像可以是二值图像,也可以称为掩模图像(即mask图像),例如,身份证的图像区域的像素值为255,背景区域的像素值为0。

可选的,在将待处理图像输入图像分割模型之前,还可以先对待处理图像进行预处理,例如,归一化处理、增强处理、滤波处理等中的一项或多项,再将预处理之后的待处理图像输入图像分割模型。其中,上述归一化处理可以是指将待处理图像转换为预设大小。

步骤102、根据所述分割图像确定所述目标图像区域的位置。

本实施例中,由于在分割图像中将待处理图像中目标对象的图像区域(即目标图像区域)和背景区域进行了区分,因此,可以基于分割图像较为便捷的确定目标图像区域的位置。

以图3所示为例,分割图像中像素值为255的各个像素点即为身份证的图像区域的像素点,可以通过对分割图像进行边缘检测得到身份证的图像区域的边缘像素点,基于身份证的图像区域的边缘像素点可以确定身份证的图像区域的轮廓线的位置,以定位出目标图像区域的位置。

步骤103、根据所述目标图像区域的位置对所述目标图像区域进行矫正。

本实施例中,在确定目标图像区域的位置之后,即可对目标图像区域进行矫正,例如,倾斜矫正或者清晰度矫正等。由于通过上述步骤101至步骤102可以较为准确的定位出目标图像区域的位置,因此可以实现较为准确的对所述目标图像区域进行矫正,减少因复杂背景导致的目标图像区域的位置定位不准确造成的目标图像区域矫正效果较差的问题。

本发明实施例提供的图像矫正方法,通过预先训练的图像分割模型对待处理图像的目标图像区域进行分割得到分割图像,并根据分割图像确定所述目标图像区域的位置以对所述目标图像区域进行矫正。由于图像分割模型对于不同复杂程度的图像背景均具有较好的分割效果,因此可以较为准确的分割出待处理图像的目标图像区域,进而可以较为准确的定位出目标图像区域以进行矫正,提高图像的目标图像区域的矫正效果。

可选的,所述图像分割模型可以为基于unet网络训练得到的模型,所述unet网络包括n层卷积单元和n层反卷积单元,所述n层卷积单元分别与所述n层反卷积单元中输出特征图大小相同的反卷积单元连接,n的取值范围为[6,10],所述n为正整数。

本实施例中,上述n层卷积单元中的每个卷积单元(也可以称为编码器)均可以包括标准卷积层、可分离卷积层或者残差网络层等,用于对输入图像进行卷积操作。上述每个卷积单元还可以包括池化层(即pooling层),其中,池化层用于对输入特征图进行降采样以减少需学习的参数量。上述n层反卷积单元的每个反卷积单元(也可称为解码器)均可以包括反卷积层,用于对输入图像进行反卷积操作。可选的,每个反卷积单元还可以包括批量归一化层(也即batchnorm层)和激活层,其中,激活层的激活函数可以包括但不限于relu函数。上述n层卷积单元的每个卷积单元分别和n层反卷积单元中与其输出特征图大小相同的反卷积单元连接,以最大程度的保留降采样过程丢失的一些重要的特征信息。

本实施例中,由于将目标对象的图像区域当成分割目标,目标比较单一,因此,通过构建较为简单的unet网络即可实现分割目的,还可以提高训练的速度和降低模型大小。可选的,本实施例中n的取值范围可以为[6,10],优选为8。

例如,如图4所示的unet网络,包括8个编码器(即encoder_1至encoder_8)和8个解码器(即decoder_1至decoder_8),编码器和解码器之间加入了跳层连接(即skipconnections)策略,该策略可以很好地保护原图的信息不丢失。具体的,输入图像大小可以为256*256*3,经encoder_1输出的特征图大小可以为128*128*64,经过encoder_2输出的特征图大小可以为64*64*128,经过encoder_3输出的特征图大小可以为32*32*256,经过encoder_4输出的特征图大小可以为16*16*512,经过encoder_5输出的特征图大小可以为8*8*512,经过encoder_6输出的特征图大小可以为4*4*512,经过encoder_7输出的特征图大小可以为2*2*512,经过encoder_8输出的特征图大小可以为1*1*512;经过decoder_8输出的特征图大小可以为2*2*512,经过decoder_7输出的特征图大小可以为4*4*512,经过decoder_6输出的特征图大小可以为8*8*512,经过decoder_5输出的特征图大小可以为16*16*512,经过decoder_4输出的特征图大小可以为32*32*256,经过decoder_3输出的特征图大小可以为64*64*128,经decoder_2输出的特征图大小可以为128*128*64,经decoder_1输出的特征图大小256*256*1,也即输出图像。可选的,上述编码器进行卷积操作时卷积核大小可以为3*3。

可选的,所述n层卷积单元中每个卷积单元均包括可分离卷积层、批量归一化层和激活层。

本实施例中,上述可分离卷积层可以包括深度卷积层和点卷积层(也即1*1的卷积层),用于对输入图像进行可分离卷积。上述批量归一化层可用于加速网络训练,使损失函数快速收敛。上述激活层的激活函数可以包括但不限于relu函数。

本实施例利用可分离卷积层进行可分离卷积操作,可以在保证训练得到的图像分割模型的图像分割效果的同时,降低图像分割模型的大小,加快图像分割模型的训练速度,便于移植至移动终端进行使用。

可选的,所述目标对象的形状为矩形;上述步骤102,也即所述根据所述分割图像确定所述目标图像区域的位置,可以包括:

分别获取所述分割图像中目标图像区域的各条边的轮廓点;

分别对所述分割图像中目标图像区域的各条边的轮廓点进行直线拟合,得到所述目标图像区域的各条边的轮廓线;

根据所述目标图像区域的各条边的轮廓线确定所述目标图像区域的四个角点的位置;

上述步骤103,也即所述根据所述目标图像区域的位置对所述目标图像区域进行矫正,可以包括:

根据所述目标图像区域的四个角点的位置对所述目标图像区域进行倾斜矫正。

本实施例中,上述目标对象可以包括但不限于身份证、银行卡、社保卡、学生证、驾照、护照、工作证、营业执照或发票等形状为矩形且具有特定格式的对象。

具体的,可以分别检测分割图像中目标图像区域的各条边的轮廓点,分别基于目标图像区域的各条边的轮廓点进行直线拟合,得到所述目标图像区域的各条边的轮廓线,再基于目标图像区域的各条边的轮廓线的交点,确定目标图像区域的四个角点的位置,进而可以基于目标图像区域的四个角点的位置对目标图像区域进行倾斜矫正,例如,基于目标图像区域的四个角点的位置对目标图像区域进行透视变换,以得到正向视角的目标图像区域。

本实施例通过分别获取所述分割图像中目标图像区域的各条边的轮廓点;分别对所述分割图像中目标图像区域的各条边的轮廓点进行直线拟合,得到所述目标图像区域的各条边的轮廓线;根据所述目标图像区域的各条边的轮廓线确定所述目标图像区域的四个角点的位置,可以提高所得到的角点的位置准确性,进而基于所得到的角点的位置进行透视变换,以得到正向视角的目标图像区域,可以提高目标图像区域进行倾斜矫正的效果。

以待处理图像为身份证图像、图像分割模型为基于unet网络训练得到的模型为例。参见图5,将输入图像21(也即上述的待处理图像)输入图像分割模型,得到分割图像22,也即mask图像,对分割图像22进行边缘检测和直线拟合,可以得到定位了身份证区域的四个角点的图像23,基于定位了身份证区域的四个角点的图像23进行透视变换,得到输出图像24,也即倾斜矫正后的身份证区域。

本发明实施例还提供一种图像文本识别方法。参见图6,图6是本发明实施例提供的图像文本识别方法的流程图,如图6所示,包括以下步骤:

步骤601、利用上述的图像矫正方法对待处理图像的目标图像区域进行矫正;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域。

本实施例中,上述目标对象可以包括但不限于身份证、银行卡、社保卡、学生证、驾照、护照、工作证、营业执照或发票等。

在该步骤中,可以基于上述任一实施例提供的图像矫正方法对待处理图像的目标图像区域进行矫正,得到矫正后的目标图像区域。其中,上述图像矫正方法的相关内容可以参见前述论述,在此不做赘述。

步骤602、定位矫正后的所述目标图像区域中的文本区域。

本实施例中,可以基于目标图像区域中文本区域的水平投影和垂直投影定位文本区域,也可以通过预先训练的文本定位模型定位目标图像区域中的文本区域。

例如,可以基于预先训练的生成对抗网络模型定位目标图像区域中的文本区域,其中,该生成对抗网络模型可以为基于图像样本和其对应的标签图像训练得到的模型,所述图像样本可以为包括目标图像区域的图像,所述标签图像为标注所述图像样本中目标图像区域的文字区域后得到的图像。

步骤603、识别所述文本区域中的文本。

例如,可以利用ocr(opticalcharacterrecognition,光学字符识别)技术识别定位到的文本区域中的文本。

本实施例利用上述的图像矫正方法对待处理图像的目标图像区域进行矫正,可以提高待处理图像的目标图像区域的矫正效果,进而可以提高目标图像区域中的文本区域的文字识别的准确性。

以下以身份证文字识别为例进行说明:

参见图7,身份证文字识别可以包括如下步骤:

步骤701、输入身份证图像。

该步骤中输入的身份证图像包括身份证区域和背景区域。

步骤702、预处理。

该步骤中,可以将身份证图像调整为大小为256*256的图像。

步骤703、倾斜矫正。

该步骤中,可以基于unet网络训练得到的图像分割模型对预处理后的身份证图像进行身份证区域的分割,并基于分割图像对身份证区域进行倾斜矫正。例如,根据分割图像进行边缘检测和直线拟合,得到身份证区域的四条边,通过求直线的交点得到身份证区域的四个角点的位置,再依据身份证区域的四个角点的位置进行透视变换,得到倾斜矫正后的身份证区域。

步骤704、文字定位。

该步骤中,可以定位倾斜矫正后的身份证区域中的文字区域。

步骤705、文字识别。

该步骤中,可以对定位到的文字区域进行文字识别。

步骤706、输出识别结果。

本发明实施例提供一种身份验证方法。参见图8,图8是本发明实施例提供的身份验证方法的流程图,如图8所示,包括以下步骤:

步骤801、获取待处理图像,其中,所述待处理图像包括卡证区域,所述卡证区域包括文本区域。

本实施例中,待处理图像包括卡证区域,也即卡证的图像区域,此时目标对象为卡证。

步骤802、利用上述的图像文本识别方法识别所述待处理图像的卡证区域的文本区域的文本。

在该步骤中,可以利用上述的图像文本识别方法识别所述待处理图像的卡证区域的文本区域的文本,得到卡证区域的文本区域的文本。其中,上述图像文本识别方法的相关内容可以参见前述论述,在此不做赘述。

步骤803、根据所述文本进行身份验证。

实际情况中,为了保证安全性,许多互联网应用都需要对用户的身份信息进行身份验证,本实施例可以在需要对用户进行身份信息验证的情况下,接收用户上传的卡证图像,并对用户上传的卡证图像的卡证区域进行矫正,识别矫正后的卡证区域的文本区域的文本,也即身份信息,进而可以基于该文本对用户进行身份验证,可以提高身份验证结果的准确性。

本发明实施例提供一种模型训练方法,上述实施例的图像分割模型可以是基于本发明实施例提供的模型训练方法训练得到的模型。参见图9,图9是本发明实施例提供的模型训练方法的流程图,如图9所示,包括以下步骤:

步骤901、获取s张图像样本和所述s张图像样本中每个图像样本对应的标签图像,其中,所述标签图像为标注了图像样本的目标图像区域的位置的图像,s为大于1的整数,所述目标图像区域为所述图像样本中目标对象的图像区域。

上述s的值可以根据实际需求进行合理设置,例如,5000、20000、30000或100000等。上述图像样本可以是任意包括目标对象的图像区域的图像,其中,上述目标对象可以包括但不限于身份证、银行卡、社保卡、学生证、驾照、护照、工作证、营业执照或发票等。上述标签图像可以是标注了图像样本的目标图像区域的位置的图像,以身份证图像为例,上述标签图像可以是标注了身份证图像的身份证区域的四个角点的位置的图像,例如,图10a所示的图像样本,其对应的标签图像可以如图10b所示。实际应用中,可以通过旋转、光照变化等方式扩充图像样本,以提高训练得到的图像分割模型的效果。

步骤902、根据s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行图像分割模型训练。

该步骤中,可以将s张图像样本和所述s张图像样本中每个图像样本对应的标签图像输入预先构建的卷积神经网络进行训练,得到图像分割模型。

可选的,在将s张图像样本和所述s张图像样本中每个图像样本对应的标签图像输入预先构建的卷积神经网络之前,可以先对s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行预处理,例如,归一化为256*256大小的图像。

需要说明的是,在训练得到图像分割模型之后,可以基于测试集对图像分割模型进行测试,以得到该图像分割模型的准确率。

本发明实施例根据s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行图像分割模型训练,进而基于训练得到的图像分割模型在不同复杂程度的图像背景均可以较为准确的分割出待处理图像的目标图像区域,进而可以较为准确的定位出目标图像区域以进行矫正,提高图像的目标图像区域的矫正效果。

可选的,所述图像分割模型可以为基于unet网络训练得到的模型,所述unet网络包括n层卷积单元和n层反卷积单元,所述n层卷积单元分别与所述n层反卷积单元中输出特征图大小相同的反卷积单元连接,n的取值范围为[6,10],所述n为整数。

本实施例中,上述n层卷积单元中的每个卷积单元(也可以称为编码器)均可以包括标准卷积层、可分离卷积层或者残差网络层等,用于对输入图像进行卷积操作。上述每个卷积单元还可以包括池化层(即pooling层),其中,池化层用于对输入特征图进行降采样以减少需学习的参数量。上述n层反卷积单元的每个反卷积单元(也可称为解码器)均可以包括反卷积层,用于对输入图像进行反卷积操作。可选的,每个反卷积单元还可以包括批量归一化层(也即batchnorm层)和激活层,其中,激活层的激活函数可以包括但不限于relu函数。上述n层卷积单元的每个卷积单元分别和n层反卷积单元中与其输出特征图大小相同的反卷积单元连接,以最大程度的保留降采样过程丢失的一些重要的特征信息。

可选的,所述n层卷积单元中每个卷积单元均包括可分离卷积层、批量归一化层和激活层。

本实施例中,上述可分离卷积层可以包括深度卷积层和点卷积层(也即1*1的卷积层),用于对输入图像进行可分离卷积。上述批量归一化层可用于加速网络训练,使损失函数快速收敛。上述激活层的激活函数可以包括但不限于relu函数。

本实施例利用可分离卷积层进行可分离卷积操作,可以在保证训练得到的图像分割模型的图像分割效果的同时,降低图像分割模型的大小,加快图像分割模型的训练速度,便于移植至移动终端进行使用。

参见图11,图11是本发明实施例提供的图像矫正装置的结构图。如图11所示,图像矫正装置1100包括:

输入模块1101,用于将待处理图像输入预先训练的图像分割模型以分割所述待处理图像的目标图像区域,得到所述待处理图像的分割图像;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

确定模块1102,用于根据所述分割图像确定所述目标图像区域的位置;

矫正模块1103,用于根据所述目标图像区域的位置对所述目标图像区域进行矫正。

可选的,所述图像分割模型为基于unet网络训练得到的模型,所述unet网络包括n层卷积单元和n层反卷积单元,所述n层卷积单元分别与所述n层反卷积单元中输出特征图大小相同的反卷积单元连接,n的取值范围为[6,10]。

可选的,所述n层卷积单元中每个卷积单元均包括可分离卷积层、批量归一化层和激活层。

可选的,所述目标对象的形状为矩形;所述确定模块具体用于:

分别获取所述分割图像中目标图像区域的各条边的轮廓点;

分别对所述分割图像中目标图像区域的各条边的轮廓点进行直线拟合,得到所述目标图像区域的各条边的轮廓线;

根据所述目标图像区域的各条边的轮廓线确定所述目标图像区域的四个角点的位置;

所述矫正模块具体用于:

根据所述目标图像区域的四个角点的位置对所述目标图像区域进行倾斜矫正。

本发明实施例提供的图像矫正装置1100能够实现上述图像矫正方法实施例中的各个过程,为避免重复,这里不再赘述。

本发明实施例的图像矫正装置1100,输入模块1101,用于将待处理图像输入预先训练的图像分割模型以分割所述待处理图像的目标图像区域,得到所述待处理图像的分割图像;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;确定模块1102,用于根据所述分割图像确定所述目标图像区域的位置;矫正模块1103,用于根据所述目标图像区域的位置对所述目标图像区域进行矫正。由于图像分割模型对于不同复杂程度的图像背景均具有较好的分割效果,因此可以较为准确的分割出待处理图像的目标图像区域,进而可以较为准确的定位出目标图像区域以进行矫正,提高图像的目标图像区域的矫正效果。

参见图12,图12是本发明实施例提供的图像文本识别装置的结构图。如图12所示,图像文本识别装置1200包括:

矫正模块1201,用于利用上述的图像矫正方法对待处理图像的目标图像区域进行矫正;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

定位模块1202,用户定位矫正后的所述目标图像区域中的文本区域;

识别模块1203,用于识别所述文本区域中的文本。

本发明实施例提供的图像文本识别装置1200能够实现上述图像文本识别方法实施例中的各个过程,为避免重复,这里不再赘述。

本发明实施例的图像文本识别装置1200,矫正模块1201,用于利用上述的图像矫正方法对待处理图像的目标图像区域进行矫正;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;定位模块1202,用户定位矫正后的所述目标图像区域中的文本区域;识别模块1203,用于识别所述文本区域中的文本,可以提高待处理图像的目标图像区域的矫正效果,进而可以提高目标图像区域中的文本区域的文字识别的准确性。

参见图13,图13是本发明实施例提供的身份验证装置的结构图。如图13所示,身份验证装置1300包括:

获取模块1301,用于获取待处理图像,其中,所述待处理图像包括卡证区域,所述卡证区域包括文本区域;

识别模块1302,用于利用上述的图像文本识别方法识别所述待处理图像的卡证区域的文本区域的文本;

验证模块1303,用于根据所述文本进行身份验证。

本发明实施例提供的身份验证装置1300能够实现上述身份验证方法实施例中的各个过程,为避免重复,这里不再赘述。

本发明实施例的身份验证装置1300,获取模块1301,用于获取待处理图像,其中,所述待处理图像包括卡证区域,所述卡证区域包括文本区域;识别模块1302,用于利用上述的图像文本识别方法识别所述待处理图像的卡证区域的文本区域的文本;验证模块1303,用于根据所述文本进行身份验证,可以提高身份验证结果的准确性。

参见图14,图14是本发明实施例提供的模型训练装置的结构图。如图14所示,模型训练装置1400包括:

获取模块1401,用于获取s张图像样本和所述s张图像样本中每个图像样本对应的标签图像,其中,所述标签图像为标注了图像样本的目标图像区域的位置的图像,s为大于1的整数,所述目标图像区域为所述图像样本中目标对象的图像区域;

训练模块1402,用于根据s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行图像分割模型训练。

本发明实施例提供的模型训练装置1400能够实现上述模型训练方法实施例中的各个过程,为避免重复,这里不再赘述。

本发明实施例的模型训练装置1400,获取模块1401,用于获取s张图像样本和所述s张图像样本中每个图像样本对应的标签图像,其中,所述标签图像为标注了图像样本的目标图像区域的位置的图像,s为大于1的整数,所述目标图像区域为所述图像样本中目标对象的图像区域;训练模块1402,用于根据s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行图像分割模型训练,进而基于训练得到的图像分割模型在不同复杂程度的图像背景均可以较为准确的分割出待处理图像的目标图像区域,进而可以较为准确的定位出目标图像区域以进行矫正,提高图像的目标图像区域的矫正效果。

参见图15,图15是本发明又一实施例提供的图像矫正装置的结构图,如图15所示,图像矫正装置1500包括:处理器1501、存储器1502及存储在所述存储器1502上并可在所述处理器上运行的计算机程序,图像矫正装置1500中的各个组件通过总线接口1503耦合在一起,所述计算机程序被所述处理器1501执行时实现如下步骤:

将待处理图像输入预先训练的图像分割模型以分割所述待处理图像的目标图像区域,得到所述待处理图像的分割图像;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

根据所述分割图像确定所述目标图像区域的位置;

根据所述目标图像区域的位置对所述目标图像区域进行矫正。

应理解的是,本实施例中,上述处理器1501能够实现上述图像矫正方法实施例的各个过程,为避免重复,这里不再赘述。

参见图16,图16是本发明又一实施例提供的图像文本识别装置的结构图,如图16所示,图像文本识别装置1600包括:处理器1601、存储器1602及存储在所述存储器1602上并可在所述处理器上运行的计算机程序,图像文本识别装置1600中的各个组件通过总线接口1603耦合在一起,所述计算机程序被所述处理器1601执行时实现如下步骤:

利用上述的图像矫正方法对待处理图像的目标图像区域进行矫正;其中,所述目标图像区域为所述待处理图像中目标对象的图像区域;

定位矫正后的所述目标图像区域中的文本区域;

识别所述文本区域中的文本。

参见图17,图17是本发明又一实施例提供的身份验证装置的结构图,如图17所示,身份验证装置1700包括:处理器1701、存储器1702及存储在所述存储器1702上并可在所述处理器上运行的计算机程序,身份验证装置1700中的各个组件通过总线接口1703耦合在一起,所述计算机程序被所述处理器1701执行时实现如下步骤:

获取待处理图像,其中,所述待处理图像包括卡证区域,所述卡证区域包括文本区域;

利用上述的图像文本识别方法识别所述待处理图像的卡证区域的文本区域的文本;

根据所述文本进行身份验证。

参见图18,图18是本发明又一实施例提供的模型训练装置的结构图,如图18所示,模型训练装置1800包括:处理器1801、存储器1802及存储在所述存储器1802上并可在所述处理器上运行的计算机程序,模型训练装置1800中的各个组件通过总线接口1803耦合在一起,所述计算机程序被所述处理器1801执行时实现如下步骤:

获取s张图像样本和所述s张图像样本中每个图像样本对应的标签图像,其中,所述标签图像为标注了图像样本的目标图像区域的位置的图像,s为大于1的整数,所述目标图像区域为所述图像样本中目标对象的图像区域;

根据s张图像样本和所述s张图像样本中每个图像样本对应的标签图像进行图像分割模型训练。

本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述图像矫正方法实施例的各个过程,或者实现上述图像文本识别方法实施例的各个过程,或者实现上述身份验证方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图像矫正方法实施例的各个过程,或者实现上述图像文本识别方法实施例的各个过程,或者实现上述身份验证方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1