图像识别方法和终端与流程

文档序号：17465836发布日期：2019-04-20 05:30阅读：190来源：国知局

本发明涉及网络技术应用领域，具体而言，涉及一种图像识别方法和终端。

背景技术：

随着互联网的发展，基于互联网产生的各个电商也在蓬勃发展，在网上购物的过程中，电商平台为卖家提供销售推广平台的同时，在与各个卖家建立商务关系之前，需要对各个卖家的身份和资质进行审核，而随着电商平台的业务量增加，如何提升对卖家的身份和资质的审核效率成为了当前技术所需要解决的问题。

其中，在对卖家的身份和资质的审核的过程中，以识别审核卖家身份证件为例，在对卖家进行实人认证中需要用户按照要求上传身份证正反面图片，但是用户经常会忽视提示，往往上传的是两张正面或者背面图片、正背面同页图片、错误图片、与提示顺序相反以及不同方向的图片等等，所导致的结果就是在电商审核的后端身份证识别中出错。

鉴于网络科技的安全性考虑，以保证交易双方的信息真实可靠，实人认证能从多维度来核查申请人的身份真实性。实人认证在卖家开店认证环节中，方便卖家随时随地上线认证，时间更灵活，提交时间也大大缩减为不超过5分钟，降低了等待时间成本。身份证图片中的相关内容作为实人认证中自动化认证的身份信息真实性的判断，其作用显而易见，因此身份证图片内容实时正确识别在保障卖家账号安全和合法利益及时发现账户异常以降低风险至关重要；

一般身份证正反面内容识别包括两个主要步骤：版面分析(待识别的有效子区域块的检测定位)和字符识别(包括对数字、汉字、特殊字符的识别)。

在版面分析阶段，现有基于卷积神经网络(convolutionalneuralnetworks，简称cnn)深度学习方法可以取得较高的定位准确率，但是存在两个方面问题：1.大量的标注样本数据，由于身份证图片涉及用户敏感信息，大量的标注样本需要较大的投入成本；2.运行速度，基于cnn深度学习方法计算消耗依赖网络的复杂性，一般一张图片在pc上需要百毫秒级的消耗。

针对上述由于现有技术中存在对证件信息识别存在缺陷的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种图像识别方法和终端，以至少解决由于现有技术中存在对证件信息识别存在缺陷的技术问题。

根据本发明实施例的一个方面，提供了一种图像识别方法，包括：获取待识别图像，其中待识别图像对应的实体对象包括第一面；获取待识别图像的第一面属性；依据第一面属性,获取对应的识别模式；利用识别模式识别第一面。

可选的，待识别图像对应的实体对象包括正、反、上、下、左、右六个面。

进一步地，可选的，第一面为正面，获取对应的识别过程包括获取正面识别过程。

可选的，第一面为反面，获取对应的识别过程包括获取反面识别过程。

可选的，获取待识别图像的第一面属性包括：通过图像切割获取待识别图像的第一面属性。

可选的，获取待识别图像的第一面属性包括：依据卷积神经网络技术获取第一面属性。

根据本发明实施例的另一个方面，提供了一种图像识别方法，包括：获取待识别证件图像；依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性；依据正面属性和/或反面属性分别匹配对应的图像识别技术；依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像。

可选的，在依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性之前，该方法还包括：在待识别证件图像为第一类型图像的情况下，将待识别证件图像由第一类型图像转换为第二类型图像，其中，第一类型图像为彩色图像，第二类型图像为灰度图像，其中，依据待识别证件图像的颜色属性判断待识别证件图像是否需要转换颜色属性，在第一类型图像为彩色图像的情况下，将彩色图像转换为灰度图像；依据预设尺寸对转换为第二类性图像的待识别证件图像进行归一化处理，得到依据预设尺寸归一化处理的待识别证件图像。

进一步地，可选的，依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性包括：依据卷积神经网络技术识别待识别证件图像，解析得到待识别证件图像的显示类型，其中，显示类型包括：显示正面属性对应的证件图像、显示反面属性对应的证件图像，或显示正面属性对应的证件图像和反面属性对应的证件图像在同一页；依据显示类型通过卷积神经网络技术对证件图像的边框位置进行检测，得到定位后的正面属性和/或反面属性对应的证件图像。

可选的，依据卷积神经网络技术识别待识别证件图像，解析得到待识别证件图像的显示类型包括：判断待识别证件图像的显示类型是否为正面属性对应的证件图像和反面属性对应的证件图像在同一页；在判断结果为是的情况下，分割待识别证件图像得到正面属性对应的证件图像，和反面属性对应的证件图像。

可选的，依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像包括：在待识别证件图像为反面属性对应的证件图像的情况下，依据连通域方法检测反面属性对应的证件图像中的文本行区域；依据连通域的字符切分对文本行区域中的字符信息进行切分，并判断对文本行区域中的字符信息的切分是否正确；在判断结果为是的情况下，依据卷积神经网络技术中的单字符识别对划分后的文本行区域中的字符信息进行纠正，并在判断纠正后的字符信息为无效的情况下，依据卷积神经网络技术对字符信息进行定位；在判断结果为否的情况下，依据卷积神经网络技术中的滑动识别对划分后的文本行区域中的字符信息进行校正，并在判断校正后的字符信息为无效的情况下，依据卷积神经网络技术对字符信息进行定位。

进一步地，可选的，依据连通域方法检测反面属性对应的证件图像中的文本行区域包括：依据连通域方法检测证件图像中文本行区域中的文字区域和号码区域。

可选的，依据连通域方法检测证件图像中文本行区域中的文字区域和号码区域包括：采用预设局部二值化方法得到二值图；腐蚀扩大区域得到连通域图像，生成有序的连通域；依据生成的有序的连通域定位文字区域和号码区域。

进一步地，可选的，依据连通域的字符切分对文本行区域中的字符信息进行切分包括：依据预设局部二值化方法和连通域的分析结果对定位后的文字区域和号码区域进行划分。

可选的，依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像包括：在待识别证件图像为正面属性对应的证件图像的情况下，依据连通域方法中的支持向量机分类器对正面属性对应的证件图像中的文本信息进行识别；判断正面属性对应的证件图像中的文本信息是否正确；在判断结果为是的情况下，依据卷积神经网络技术中的滑动识别对文本信息进行识别，并将识别后的文本信息进行校正；在判断结果为否的情况下，依据卷积神经网络技术中的回归算法对文本信息进行检测，在检测后，通过卷积神经网络技术中的滑动识别对文本信息进行识别，并将识别后的文本信息进行校正。

进一步地，可选的，依据连通域方法中的支持向量机分类器对正面属性对应的证件图像中的文本信息进行识别包括：依据支持向量机分类器对正面属性对应的证件图像中的文本信息依据预设顺序进行扫描定位，分别得到文本信息中的文字区域和数字区域获取证件图像中的有效期位置。

可选的，依据卷积神经网络技术中的滑动识别对文本信息进行识别包括：依据卷积神经网络技术中的滑动识别通过预设顺序对文本信息进行识别，得到文本信息中的数字和文字。

可选的，依据卷积神经网络技术中的回归算法对文本信息进行检测包括：依据卷积神经网络技术中的回归算法对证件图像中的文本信息进行逐级定位，得到文本信息的位置。

根据本发明实施例的又一方面，还提供了一种终端，终端包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待识别证件图像；依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性；依据正面属性和/或反面属性分别匹配对应的图像识别技术；依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像。

根据本发明实施例的再一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述图像识别方法。

根据本发明实施例的再一方面，还提供了一种处理器，其特征在于，处理器用于运行程序，其中，程序运行时执行上述图像识别方法。

在本发明实施例中，通过获取待识别证件图像；依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性；依据正面属性和/或反面属性分别匹配对应的图像识别技术；依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像，达到了有效时报证件信息的目的，从而实现了克服证件信息识别缺陷的技术效果，进而解决了由于现有技术中存在对证件信息识别存在缺陷的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例一的图像识别方法的流程图；

图3是根据本发明实施例一的一种图像识别方法的流程图；

图4是根据本发明实施例一的一种图像识别方法中基于连通域方法检测身份证号码和姓名文字区域的示意图；

图5是根据本发明实施例二的一种图像识别方法的流程示意图；

图6是根据本发明实施例三的一种图像识别装置的结构示意图；

图7是根据本发明实施例四的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

卷积神经网络：convolutionalneuralnetworks，简称cnn；

支持向量机：supportvectormachine，简称svm。

实施例1

根据本发明实施例，还提供了一种图像识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的图像识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的图像识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(networkinterfacecontroller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radiofrequency，rf)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的图像识别方法。图2是根据本发明实施例一的图像识别方法的流程图。

步骤s202，获取待识别证件图像；

步骤s204，依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性；

其中，待识别证件图像的正面属性和/或反面属性包括：

正面属性包括：以身份证为例，身份证的正面为印有发证机关、有效日期、国徽以及防伪图标；

身份证的反面为印有详细信息的一面，其中，该反面属性包括：居民名称、出生年月、性别、民族、身份证号、住址及防伪图标。

这里在本申请中卷积神经网络技术通过对待识别证件图像中正反面进行字符识别，进而获取待识别证件图像的正面属性和/或反面属性。

具体的，卷积神经网络cnn主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。cnn的特征检测层是通过训练数据进行学习，所以在使用cnn时，避免了显式的特征抽取，而隐式地从训练数据中进行学习，通过结构重组和减少权值将特征提取功能融合进多层感知器；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习。

步骤s206，依据正面属性和/或反面属性分别匹配对应的图像识别技术；

具体的，仍旧以身份证为例进行说明，对于反面属性采用传统的基于连通域方法检测文字行区域，先寻找最大连通文本行即身份证号码区域，再向上逐层定位地址首行、生日行、性别行、姓名行，然后使用传统的基于连通域的经验规则的字符切分方法切分身份证号码和姓名的区域，对切分成功的采用cnn单字符识别模块得到识别结果，对切分失败的采用cnn滑动切分/识别的方法弥补传统方法切分失败的情况，并进行一些后处理(主要对一些形似字、繁体字或容易混淆的字进行纠正)，由于身份证反面的身份证号码的规律性辅助姓名等识别的数目，可以很容易判定出识别出来的身份证号码是否有效，如果无效进行基于cnn的身份证号码和姓名的检测，可以弥补传统方法检测失败的情况，没有全部使用cnn检测，有效减少耗时，合理利用cnn的检测，从而提高整体方法的识别准确率。

对于正面属性的识别可以通过采用基于连通域方法的文本行特征的svm分类，自底向上预测有效期的位置，对检测成功的有效期文本行进行cnn滑窗切分/识别方法进行识别，对检测失败的有效期文本行进行cnn回归有效期检测，弥补传统检测方法检测失败的情况，接着进行cnn滑窗切分/识别,并进行一些后处理(身份证正面有效期前后日期的规律性可以相互进行校验纠正识别出错的字符)。

步骤s208，依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像。

可选的，根据本申请另一个实施例，在步骤s204中依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性之前，本申请提供的图像识别方法还包括：

步骤1，在待识别证件图像为第一类型图像的情况下，将待识别证件图像由第一类型图像转换为第二类型图像，其中，第一类型图像为彩色图像，第二类型图像为灰度图像；

其中，依据待识别证件图像的颜色属性判断待识别证件图像是否需要转换颜色属性，在第一类型图像为彩色图像的情况下，将彩色图像转换为灰度图像。

步骤2，依据预设尺寸对转换为第二类性图像的待识别证件图像进行归一化处理，得到依据预设尺寸归一化处理的待识别证件图像。

根据本申请另一个实施例，可选的，步骤s204中依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性包括：

step1，依据卷积神经网络技术识别待识别证件图像，解析得到待识别证件图像的显示类型，其中，显示类型包括：显示正面属性对应的证件图像、显示反面属性对应的证件图像，或显示正面属性对应的证件图像和反面属性对应的证件图像在同一页；

step2，依据显示类型通过卷积神经网络技术对证件图像的边框位置进行检测，得到定位后的正面属性和/或反面属性对应的证件图像。

根据本申请另一个实施例，可选的，步骤s204中的step1中依据卷积神经网络技术识别待识别证件图像，解析得到待识别证件图像的显示类型包括：

步骤a，判断待识别证件图像的显示类型是否为正面属性对应的证件图像和反面属性对应的证件图像在同一页；

步骤b，在判断结果为是的情况下，分割待识别证件图像得到正面属性对应的证件图像，和反面属性对应的证件图像。

根据本申请另一个实施例，可选的，步骤s208中依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像包括：

step1，在待识别证件图像为反面属性对应的证件图像的情况下，依据连通域方法检测反面属性对应的证件图像中的文本行区域；

step2，依据连通域的字符切分对文本行区域中的字符信息进行切分，并判断对文本行区域中的字符信息的切分是否正确；

step3，在判断结果为是的情况下，依据卷积神经网络技术中的单字符识别对划分后的文本行区域中的字符信息进行纠正，并在判断纠正后的字符信息为无效的情况下，依据卷积神经网络技术对字符信息进行定位；

step4，在判断结果为否的情况下，依据卷积神经网络技术中的滑动识别对划分后的文本行区域中的字符信息进行校正，并在判断校正后的字符信息为无效的情况下，依据卷积神经网络技术对字符信息进行定位。

进一步地，根据本申请另一个实施例，可选的，步骤s208中的step1中依据连通域方法检测反面属性对应的证件图像中的文本行区域包括：

步骤a，依据连通域方法检测证件图像中文本行区域中的文字区域和号码区域。

可选的，步骤a中依据连通域方法检测证件图像中文本行区域中的文字区域和号码区域包括：

步骤1，采用预设局部二值化方法得到二值图；

步骤2，腐蚀扩大区域得到连通域图像，生成有序的连通域；

步骤3，依据生成的有序的连通域定位文字区域和号码区域。

进一步地，可选的，步骤s208中的step2中依据连通域的字符切分对文本行区域中的字符信息进行切分包括：

步骤a，依据预设局部二值化方法和连通域的分析结果对定位后的文字区域和号码区域进行划分。

step1，在待识别证件图像为正面属性对应的证件图像的情况下，依据连通域方法中的支持向量机分类器对正面属性对应的证件图像中的文本信息进行识别；

step2，判断正面属性对应的证件图像中的文本信息是否正确；

step3，在判断结果为是的情况下，依据卷积神经网络技术中的滑动识别对文本信息进行识别，并将识别后的文本信息进行校正；

step4，在判断结果为否的情况下，依据卷积神经网络技术中的回归算法对文本信息进行检测，在检测后，通过卷积神经网络技术中的滑动识别对文本信息进行识别，并将识别后的文本信息进行校正。

进一步地，根据本申请另一个实施例，可选的，步骤s208中的step1中依据连通域方法中的支持向量机分类器对正面属性对应的证件图像中的文本信息进行识别包括：

步骤a，依据支持向量机分类器对正面属性对应的证件图像中的文本信息依据预设顺序进行扫描定位，分别得到文本信息中的文字区域和数字区域获取证件图像中的有效期位置。

根据本申请另一个实施例，可选的，步骤s208中的step3依据卷积神经网络技术中的滑动识别对文本信息进行识别包括：

步骤a，依据卷积神经网络技术中的滑动识别通过预设顺序对文本信息进行识别，得到文本信息中的数字和文字。

可选的，步骤s208中的step4中依据卷积神经网络技术中的回归算法对文本信息进行检测包括：

步骤a，依据卷积神经网络技术中的回归算法对证件图像中的文本信息进行逐级定位，得到文本信息的位置。

综上，如图3所示，图3是根据本发明实施例一的一种图像识别方法的流程图。本申请提供的图像识别方法具体如下：

1.图像预处理

2.身份证反面身份证号码、姓名等的识别

3.身份证正面有效期识别

4.基于cnn的单字符识别

其中，

1.图像预处理。

输入图片为用户上传的身份证图像，由于用户上传的图片类型各异，存在正反面同页、身份证在图像中存在多个方向、不按顺序输入正反面图、非身份证图像等情况，都需要对这些情况进行处理。

将彩色图像转为灰度图像，并进行图像128*128的归一化处理，再对归一化图像进行基于cnn的身份证正反面同页类型的判定(前期已对大量样本标注正反面同页时正反面图的位置，并训练模型来预测正反面图片的位置)，分割同页正反面图像，获取单张正反面图像，然后进行基于cnn的身份证正反面外边框位置的定位(前期已对大量样本标注一张图片上的身份证正面或反面图像所在位置，并训练出模型以进行预测其边框位置)得到有效的身份证正反面图像，接着进行基于cnn判断当前身份证图像的方向(正反面和四方向0、90、180、270度)(同上标注样本并训练模型进行预测判定)，并根据方向进行旋转校正图像，得到修正后的身份证正面或反面图像，并进行必要的缩放处理，这里宽度大于1200时进行缩小。

红色虚框内的蓝色字体标明的模块，即基于cnn的身份证正反面同页类型判定、基于cnn的身份证正反面外边框位置检测和基于cnn身份证正反面及四方向判断，这3个核心的预处理方法依次进行，逐层缩减、调整到0度放置的有效身份证区域，以对正反面图片分别采用不同的方法进行识别。3个核心的预处理方法均是基于我们拥有大量的不同类型的标注数据和生成的大量样本数据，并结合身份证特有的正反面的版面结构(cnn方法可以非常有效的进行判断分类)，对用户可能的各种类型的输入图片进行校正。

卷积神经网络cnn主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。3个核心的预处理方法也可以采用传统的分类器和其它神经网络分类器进行分类，但是传统的分类器几乎都是基于统计特征的，这就意味着在进行分类前必须提取某些特征，而且显式的特征提取并不容易，在一些应用问题中也并非总是可靠的，所以需要重复的人工多种显式特征提取、特征是否有效的尝试验证以及分类器中各阈值参数集的人工调优。而cnn的特征检测层是通过训练数据进行学习，所以在使用cnn时，避免了显式的特征抽取，而隐式地从训练数据中进行学习，通过结构重组和减少权值将特征提取功能融合进多层感知器；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。

利用cnns中层间联系和空域信息的紧密关系和其在自动提取图像的显著特征方面表现出的比较优的性能，基于cnn分类准确率能达到99.5％以上，为后续步骤采用不同方法的选择提供一个很重要的保障。

2.对身份证反面图像。

首先采用传统的基于连通域方法检测文字行区域，先寻找最大连通文本行即身份证号码区域，再向上逐层定位地址首行、生日行、性别行、姓名行，然后使用传统的基于连通域的经验规则的字符切分方法切分身份证号码和姓名的区域，对切分成功的采用cnn单字符识别模块得到识别结果，对切分失败的采用cnn滑动切分/识别的方法弥补传统方法切分失败的情况，并进行一些后处理(主要对一些形似字、繁体字或容易混淆的字进行纠正)，由于身份证反面的身份证号码的规律性辅助姓名等识别的数目，可以很容易判定出识别出来的身份证号码是否有效，如果无效进行基于cnn的身份证号码和姓名的检测，可以弥补传统方法检测失败的情况，没有全部使用cnn检测，有效减少耗时，合理利用cnn的检测，从而提高整体方法的识别准确率，如图4所示，图4是根据本发明实施例一的一种图像识别方法中基于连通域方法检测身份证号码和姓名文字区域的示意图。

2.1基于连通域方法检测身份证号码和姓名文字区域

采用niblack局部二值化方法得到二值图，腐蚀扩大区域得到连通域图像，生成有序的连通域，该步会过滤较小、较大的连通域，有序的连通域有利于子块区域的生成。

2.1.1niblack局部二值化方法

采用niblack局部二值化方法，对于每个点p(x,y)，考虑r*r邻域，计算均值m和方差s，可得阈值：

t＝m+k*s

窗口参数r和修正参数k是可以调的。

2.1.2连通域分析

采用队列方法，考虑8连通域。遍历全图，每当找到一个未被访问过的前景点p(x,y)，将其压入队列并标记为已访问，然后开始寻找连通域：当队列不为空，取出队列头的像素位置，将其8邻域内的前景点压入队列，并标记为已访问。直到队列为空，结束。得到该连通域全部像素点，并记录在连通域列表中。

2.1.3子块区域生成

依据连通域，生成文字行，生成过程中主要规则包括连通域的高度差小于设定阈值、连通域左右距离小于前一个连通域的高度、后一个连通域的中心垂直位置要在前一个连通域的上下边界内。

2.1.3身份证号码区域定位

查找最优身份证号码的连通域集，主要判断规则：连通域个数在15～18之间。由于在上一步子块区域生成中有过区域合并，我们利用笔画宽度信息、连通域间距离、连通域的高宽比等信息对候选区域进行再切割。

2.1.4倾斜校正

由于拍摄角度，图片存在一定的倾斜，通过寻找身份证号码区域的连通域集，利用各连通域的中心点，拟合一条直线，根据斜率计算旋转角度a，并做旋转将图片修正到水平放置：

x'＝x*cosa+y*sina

y'＝y*cosa-x*sina

2.1.4身份证姓名区域定位

利用身份证号码区域的位置，向上逐层定位到地址首行、出生日期行、性别行、姓名行，逐层定位的好处是对避免由于图像畸变导致身份证号码和姓名相对位置不稳定所造成的较大偏差。

2.2身份证号码和姓名的字符切分

定位到了准确的身份证号码和姓名的区域位置，利用niblack二值化和连通域分析结果对字符进行切分，切分后的字符区域送入cnn单字符识别引擎进行识别。

首先过滤长或宽小于3的连通域，然后考虑到有可能有一个字符被拆分为多个连通域(汉字明显)，所以需要合并相邻的连通域，最后根据连通域个数、字符宽度方差、空格方差来判断是否切分正确。

2.3基于cnn的身份证号码和姓名的检测

当识别结果不是有效结果时，传统的连通域的身份证号码和姓名区域的定位错误，如反光、尺寸太小、扭曲变形严重的传统的定位方法局限于经验特征和固定阈值的设置就会定位失败，就需要利用cnn重新进行定位，前期我们已对地址行、出生行、性别行、姓名行、身份证号行等进行了人工标注，利用cnn检测身份证号码和姓名的较准确位置，弥补了传统方法的不足，又不会造成单一只使用cnn检测身份证号码和姓名的引入的性能问题。

3.对身份证正面图像。

首先采用基于连通域方法的文本行特征的svm分类，自底向上预测有效期的位置，对检测成功的有效期文本行进行cnn滑窗切分/识别方法进行识别，对检测失败的有效期文本行进行cnn回归有效期检测，弥补传统检测方法检测失败的情况，接着进行cnn滑窗切分/识别,并进行一些后处理(身份证正面有效期前后日期的规律性可以相互进行校验纠正识别出错的字符)。

3.1基于svm的有效期检测

提取输入图像rgb三通道中较暗的通道min(r,g,b)，对暗通道图像进行gauss模糊，并基于局部区域的均值和方差进行二值化得到二值图，类似2.1.2进行连通域分析生成文本行，提取文本行的以下特征：文本行宽高、宽高比、空格均值和方差、空格max值和min值、文本行内文字高宽的均值与方差、文本行内文字高宽的highest值和lowest值、文本行内文字个数以及文本行垂直和水平投影中前景点个数。将以上文本行特征作为svm文本行分类器的特征进行文本行分类。

对分类为文本行的区域和其在图片中的位置，采用自底向上逐层依次预测和定位有效期的位置。

3.2基于cnn的有效期区域检测

当传统的svm预测有效期区域位置失败时，同上如反光、尺寸太小、扭曲变形严重的，已选取的文本行的特征集就不适合，就需要采用cnn的方法定位。通过采用基于cnn的有效期区域检测(前期已经对有效期区域位置进行了人工标注)，利用cnn回归模型对身份证边框进行定位，第一级回归尽可能的过滤掉非身份证正面区域，第二级回归对“有效期”进行“粗”定位，找到“有效期”的大概位置区域,降低方差，第三级回归找到“有效期”的精确位置区域，进一步降低参数的搜索空间范围，利于获取更加准确的模型参数。三级cnn回归模型的优点：单个模型小，速度快；比一次定位精度更高，召回率在99％以上。

3.3基于cnn的滑窗切分/识别

该模块依赖后面4的生成的单字符正负训练样本，在已定位的文本区域中从左至右依次使用一定窗口大小和步长进行区域选择，对选择的区域同时进行cnn识别，被识别为负类的抛弃，识别为数字和汉字的保留作为识别结果，依次滑动窗口进行区域选取，直至到达区域最右侧。我们采用cnn而非其它分类器的理由，不受大量训练样本的局限，且cnn具有的：a)输入图像和网络的拓扑结构能很好的吻合；b)特征提取和模式分类同时进行，并同时在训练中产生；c)权重共享可以减少网络的训练参数，使神经网络结构变得更简单，适应性更强。

4.基于cnn的单字符识别

cnn训练需要大量的样本，基本多是百万级别以上，而人工标注只能作为一个参考的基线，需要更多的样本被提供已丰富样本类型，提升识别核心的抗干扰能力，以便充分展示cnn的优势。上述除了预处理阶段为人工标注的样本外，我们使用的大量样本均是通过该步生成的样本(正样本和负样本)，生成的样本考虑用户上传图像的各类图像的变形。

身份证外边框位置、身份证4方向展示等，我们都可以从人工标注的基线上变形得到我们需要的各类型的样本图片。

4.1单字符正样本

通过初级版的定位和识别方法截取识别正确的字符样本在原图像中的位置，对该样本做上下左右四方形随机移位、四方向随机外扩、上下方向随机外扩、随机旋转、固定高度上下随机移位、随机模糊，并保持背景空白和随机添加身份证图像字符所在背景两种背景，保证样本的多样性和丰富性。

4.2单字符负样本

利用字符在原图像中的位置，做相邻字符区域的各种变形，类似4.1，以及空白或纹理噪声的非字符区域。

4.3通过13类身份证号码和有效期相关的样本，包含0～9的数字、x、“长期”两个汉字。汉字和各类字符种类9868种，中文字体类型193种，非中文字体类型2528种。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的图像识别方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，终端，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例的一个方面，提供了一种图像识别方法，如图5所示，图5是根据本发明实施例二的一种图像识别方法的流程示意图。包括：

步骤s502，获取待识别图像，其中待识别图像对应的实体对象包括第一面；

步骤s504，获取待识别图像的第一面属性；

步骤s506，依据第一面属性,获取对应的识别模式；

步骤s508，利用识别模式识别第一面。

具体的，本申请提供的待识别图像以识别身份证为例，在本申请中获取待识别图像的第一面属性，其中，该第一面属性为身份证正面属性；其中正面属性包括：以身份证为例，身份证的正面为印有发证机关、有效日期、国徽以及防伪图标；根据上述正面属性获取对应的识别过程，进而依据该识别过程识别第一面。

其中，对于正面属性的识别可以通过采用基于连通域方法的文本行特征的svm分类，自底向上预测有效期的位置，对检测成功的有效期文本行进行cnn滑窗切分/识别方法进行识别，对检测失败的有效期文本行进行cnn回归有效期检测，弥补传统检测方法检测失败的情况，接着进行cnn滑窗切分/识别,并进行一些后处理(身份证正面有效期前后日期的规律性可以相互进行校验纠正识别出错的字符)。

而对于反面属性可以采用传统的基于连通域方法检测文字行区域，先寻找最大连通文本行即身份证号码区域，再向上逐层定位地址首行、生日行、性别行、姓名行，然后使用传统的基于连通域的经验规则的字符切分方法切分身份证号码和姓名的区域，对切分成功的采用cnn单字符识别模块得到识别结果，对切分失败的采用cnn滑动切分/识别的方法弥补传统方法切分失败的情况，并进行一些后处理(主要对一些形似字、繁体字或容易混淆的字进行纠正)，由于身份证反面的身份证号码的规律性辅助姓名等识别的数目，可以很容易判定出识别出来的身份证号码是否有效，如果无效进行基于cnn的身份证号码和姓名的检测，可以弥补传统方法检测失败的情况，没有全部使用cnn检测，有效减少耗时，合理利用cnn的检测，从而提高整体方法的识别准确率。

在本发明实施例中，通过获取待识别图像，其中待识别图像对应的实体对象包括第一面；获取待识别图像的第一面属性；依据第一面属性,获取对应的识别模式；利用识别模式识别第一面，达到了有效时报证件信息的目的，从而实现了克服证件信息识别缺陷的技术效果，进而解决了由于现有技术中存在对证件信息识别存在缺陷的技术问题。

可选的，待识别图像对应的实体对象包括正、反、上、下、左、右六个面。

进一步地，可选的，第一面为正面，获取对应的识别过程包括获取正面识别过程。

其中，对于正面对应的正面属性的识别可以通过采用基于连通域方法的文本行特征的svm分类，自底向上预测有效期的位置，对检测成功的有效期文本行进行cnn滑窗切分/识别方法进行识别，对检测失败的有效期文本行进行cnn回归有效期检测，弥补传统检测方法检测失败的情况，接着进行cnn滑窗切分/识别,并进行一些后处理(身份证正面有效期前后日期的规律性可以相互进行校验纠正识别出错的字符)。

可选的，第一面为反面，获取对应的识别过程包括获取反面识别过程。

其中，对于反面对应的反面属性可以采用传统的基于连通域方法检测文字行区域，先寻找最大连通文本行即身份证号码区域，再向上逐层定位地址首行、生日行、性别行、姓名行，然后使用传统的基于连通域的经验规则的字符切分方法切分身份证号码和姓名的区域，对切分成功的采用cnn单字符识别模块得到识别结果，对切分失败的采用cnn滑动切分/识别的方法弥补传统方法切分失败的情况，并进行一些后处理(主要对一些形似字、繁体字或容易混淆的字进行纠正)，由于身份证反面的身份证号码的规律性辅助姓名等识别的数目，可以很容易判定出识别出来的身份证号码是否有效，如果无效进行基于cnn的身份证号码和姓名的检测，可以弥补传统方法检测失败的情况，没有全部使用cnn检测，有效减少耗时，合理利用cnn的检测，从而提高整体方法的识别准确率。可选的，步骤s504中获取待识别图像的第一面属性包括：通过图像切割获取待识别图像的第一面属性。

可选的，步骤s504中获取待识别图像的第一面属性包括：依据卷积神经网络技术获取第一面属性。

实施例3

根据本发明实施例，还提供了一种用于实施上述图像识别方法的装置，如图6所示，图6是根据本发明实施例三的一种图像识别装置的结构示意图。该装置包括：

获取模块62，用于获取待识别证件图像；第一识别模块64，用于依据卷积神经网络技术识别所述待识别证件图像，得到所述待识别证件图像的正面属性和/或反面属性；匹配模块66，用于依据所述正面属性和/或所述反面属性分别匹配对应的图像识别技术；第二识别模块68，用于依据对应的所述图像识别技术识别所述正面属性和/或所述反面属性对应的所述待识别证件图像，得到对应所述正面属性和/或所述反面属性的证件图像。

实施例4

根据本发明实施例的另一方面，还提供了一种终端，图7是根据本发明实施例四的一种终端的结构示意图。终端包括：处理器72；以及存储器74，与处理器72连接，用于为处理器72提供处理以下处理步骤的指令：获取待识别证件图像；依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性；依据正面属性和/或反面属性分别匹配对应的图像识别技术；依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像。

实施例5

根据本发明实施例的又一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述实施例1中图像识别方法。

实施例6

根据本发明实施例的又一方面，还提供了一种处理器，其特征在于，处理器用于运行程序，其中，程序运行时执行上述实施例1中图像识别方法。

实施例7

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的图像识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别证件图像；依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性；依据正面属性和/或反面属性分别匹配对应的图像识别技术；依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性之前，依据待识别证件图像的颜色属性判断待识别证件图像是否需要转换颜色属性；在待识别证件图像为第一类型图像的情况下，将待识别证件图像由第一类型图像转换为第二类型图像，其中，第一类型图像为彩色图像，第二类型图像为灰度图像；依据预设尺寸对转换为第二类性图像的待识别证件图像进行归一化处理，得到依据预设尺寸归一化处理的待识别证件图像。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据卷积神经网络技术识别待识别证件图像，得到待识别证件图像的正面属性和/或反面属性包括：依据卷积神经网络技术识别待识别证件图像，解析得到待识别证件图像的显示类型，其中，显示类型包括：显示正面属性对应的证件图像、显示反面属性对应的证件图像，或显示正面属性对应的证件图像和反面属性对应的证件图像在同一页；依据显示类型通过卷积神经网络技术对证件图像的边框位置进行检测，得到定位后的正面属性和/或反面属性对应的证件图像。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据卷积神经网络技术识别待识别证件图像，解析得到待识别证件图像的显示类型包括：判断待识别证件图像的显示类型是否为正面属性对应的证件图像和反面属性对应的证件图像在同一页；在判断结果为是的情况下，分割待识别证件图像得到正面属性对应的证件图像，和反面属性对应的证件图像。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像包括：在待识别证件图像为反面属性对应的证件图像的情况下，依据连通域方法检测反面属性对应的证件图像中的文本行区域；依据连通域的字符切分对文本行区域中的字符信息进行切分，并判断对文本行区域中的字符信息的切分是否正确；在判断结果为是的情况下，依据卷积神经网络技术中的单字符识别对划分后的文本行区域中的字符信息进行纠正，并在判断纠正后的字符信息为无效的情况下，依据卷积神经网络技术对字符信息进行定位；在判断结果为否的情况下，依据卷积神经网络技术中的滑动识别对划分后的文本行区域中的字符信息进行校正，并在判断校正后的字符信息为无效的情况下，依据卷积神经网络技术对字符信息进行定位。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据连通域方法检测反面属性对应的证件图像中的文本行区域包括：依据连通域方法检测证件图像中文本行区域中的文字区域和号码区域。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据连通域方法检测证件图像中文本行区域中的文字区域和号码区域包括：采用预设局部二值化方法得到二值图；腐蚀扩大区域得到连通域图像，生成有序的连通域；依据生成的有序的连通域定位文字区域和号码区域。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据连通域的字符切分对文本行区域中的字符信息进行切分包括：依据预设局部二值化方法和连通域的分析结果对定位后的文字区域和号码区域进行划分。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据对应的图像识别技术识别正面属性和/或反面属性对应的待识别证件图像，得到对应正面属性和/或反面属性的证件图像包括：在待识别证件图像为正面属性对应的证件图像的情况下，依据连通域方法中的支持向量机分类器对正面属性对应的证件图像中的文本信息进行识别；判断正面属性对应的证件图像中的文本信息是否正确；在判断结果为是的情况下，依据卷积神经网络技术中的滑动识别对文本信息进行识别，并将识别后的文本信息进行校正；在判断结果为否的情况下，依据卷积神经网络技术中的回归算法对文本信息进行检测，在检测后，通过卷积神经网络技术中的滑动识别对文本信息进行识别，并将识别后的文本信息进行校正。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据连通域方法中的支持向量机分类器对正面属性对应的证件图像中的文本信息进行识别包括：依据支持向量机分类器对正面属性对应的证件图像中的文本信息依据预设顺序进行扫描定位，分别得到文本信息中的文字区域和数字区域获取证件图像中的有效期位置。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据卷积神经网络技术中的滑动识别对文本信息进行识别包括：依据卷积神经网络技术中的滑动识别通过预设顺序对文本信息进行识别，得到文本信息中的数字和文字。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据卷积神经网络技术中的回归算法对文本信息进行检测包括：依据卷积神经网络技术中的回归算法对证件图像中的文本信息进行逐级定位，得到文本信息的位置。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、终端或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛琴;王炎;郭山;金炫
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种立式单柱玉米脱粒机的制作方法
上一篇：玫瑰花精油的提取方法及其活性组分的定量分析方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。