基于OCR技术的身份证识别方法、存储介质及装置与流程

文档序号：33051260发布日期：2023-01-24 23:21阅读：139来源：国知局

基于ocr技术的身份证识别方法、存储介质及装置
技术领域
1.本发明涉及ocr技术领域，尤其涉及一种基于ocr技术的身份证识别方法、存储介质及装置。

背景技术：

2.随着移动互联网的发展，许多企业或者政府机关推出了自己的移动app或者小程序等，方便用户通过移动终端进行业务查询、办理等操作。这些操作通常需要获取用户的身份证信息进行身份认证，用户手动输入会比较繁琐且速度较慢，为此，业内技术人员开发了通过ocr技术自动识别身份证图像从而获取身份证信息的功能，用户只需使用移动终端摄像头拍摄身份证图像上传，移动app/小程序即可自动识别身份证图像中的文本并输出文本信息（即身份证信息），无需用户手动输入，方便快捷。但若遇到有些少数民族身份证，由于其除了印刷有以汉语显示的身份证信息以外，还在汉语的上方或者下方印刷有以少数民族语言显示的身份证信息，文本行之间离较近，现有的身份证ocr识别方式容易将少数民族的身份证的相邻的两行文本行误识别为一行文本行，导致识别出错。

技术实现要素：

3.本发明所要解决的技术问题是提供一种基于ocr技术的身份证识别方法、存储有被执行时实现该方法的计算机程序的计算机可读存储介质以及包括该存储介质的身份证识别装置，该方法能够提高身份证信息的识别准确率。
4.为了解决上述技术问题，本发明提供了一种基于ocr技术的身份证识别方法，包括以下步骤：a.获取含有身份证图像的待识别图像，从待识别图像中截取身份证图像；b.采用渐进尺度扩张算法识别出上述身份证图像中的各个文本行的位置坐标；c.根据各个文本行的位置坐标，通过文本识别算法识别出上述身份证图像中各个文本框的文本；d.采用版面分析算法识别出上述身份证图像中的多个身份证信息要素以及各要素的位置坐标；e.根据上述身份证图像中各个身份证信息要素的位置坐标以及各个文本框的位置坐标，将各个文本框的文本与对应的身份证信息要素进行匹配，输出各个身份证信息要素所匹配的文本。
5.进一步：步骤a中具体是通过目标检测模型从待识别图像中截取身份证图像，目标检测模型包括用于提取待识别图像的图像特征的主干网络、对图像特征进行上采样的fpn网络、对图像特征进行下采样的pan网络以及用于进行最优解筛选的nms算法；目标检测模型从待识别图像中截取身份证图像的过程如下：a1.接收所输入的身份证图像；
a2.通过主干网络提取该身份证图像的图像特征；a3.通过fpn网络和pan网络对所提取的图像特征进行上、下采样后输出预测特征图；a4.通过nms算法对该预测特征图进行最优解筛选，输出身份证图像的位置坐标和身份证的面向信息；a5.根据身份证图像的位置坐标从待识别图像中截取身份证图像。
6.进一步地，步骤b具体地，提取上述身份证图像的图像特征，通过fpn网络对该图像特征进行上采样后输出预测特征图，然后采用渐进尺度扩张算法对该预测特征图进行文本检测，从而识别出上述身份证图像中的各个文本框的位置坐标。
7.进一步地，步骤c中，在通过文本识别算法识别出上述身份证图像中各个文本框的文本之前，执行倾斜文本处理步骤：随机取一个文本框的位置坐标，计算该文本框的倾斜角度，若文本框的倾斜角度大于预设角度，则使身份证图像绕其中心进行旋转，直至文本框旋转至水平。
8.进一步地，步骤e具体地：e1.对每个身份证信息要素执行如下文本匹配步骤：——e11.根据该身份证信息要素的位置坐标以及各个尚未匹配的文本框的位置坐标，为该身份证信息要素匹配对应的文本框的文本；——e12.判断该身份证信息要素所匹配的文本是否符合该身份证信息要素的标准格式：——e13.若否，则将该身份证信息要素所匹配的文本与在身份证图像中和该文本位置相邻的文本进行合并，以合并后的文本作为该身份证信息要素所匹配的文本并再次执行步骤e12；——e14.若是，则匹配完成；e2.输出各个身份证信息要素所匹配到的文本。
9.进一步地，步骤e2中，在输出各个身份证信息要素所匹配到的文本之前执行文本校正步骤：根据各个身份证信息要素的固定字段，对该身份证信息要素所匹配到的文本进行校正。
10.进一步地，步骤a具体是从视频流中截取多张不同帧的含有同一个身份证图像的待选图像，采用图像质量评价模型对每张待选图像进行图像质量评分，取评分最高者作为待识别图像。
11.本发明还提供理论一种计算机可读存储介质，其上存储有可执行的计算机程序，该计算机程序被执行时实现如上所述的基于ocr技术的身份证识别方法。
12.本发明还提供了一种基于ocr技术的身份证识别装置，包括用于拍摄身份证图像的摄像头、连接该摄像头的处理器以及连接该处理器的计算机可读存储介质，该计算机可读存储介质是如上所述的计算机可读存储介质，该处理器可执行该计算机可读存储介质中的计算机程序，从而实现如上所述的基于ocr技术的身份证识别方法。
13.渐进尺度扩张算法能够预测每个文本行的尺度逐渐递增的多个kernels，这些kernels和原始文本行具有同样的形状且其中心和原始文本行相同，最大尺度的kernel是原始文本行大小。kernel尺度越小，该尺度下的相邻文本行kernel之间的距离就会越大，故
在最小尺度下的各个文本行kernel中，相邻的两个文本行kernel是完全分离开的，不会被误识别为一个文本行，因此，渐进进度扩张算法从最小尺度的文本行kernel开始，依次在每个尺度下进行文本检测，在从最小尺度逐渐扩增至最大尺度的过程中，本级文本行kernel会受到上一级文本行kernel的监督，因此，即使扩增到原始文本行大小，也能够将文本行边缘像素区分开来。第一方面，本发明给出的基于ocr技术的身份证识别方法采用渐进尺度扩张算法识别出上述身份证图像中的各个文本行的位置坐标，能够准确地识别出各个文本行，降低了将少数民族身份证的相邻的两行文本行误识别为一行文本行的几率。
14.第二方面，本发明给出的基于ocr技术的身份证识别方法采用版面分析算法识别身份证图像中的身份证信息要素，能够将所识别出来的文本精准匹配到对应的身份证信息要素，避免输出的身份证信息错乱。
15.第三方面，在自然场景下拍摄得到的含有身份证图像的待识别图像，可能会含有非身份证上的文本内容，直接进行文本检测可能会检测到不属于身份证的文本，造成干扰。本发明给出的基于ocr技术的身份证识别方法是从待识别图像中截取身份证图像之后再进行文本检测，防止待识别图像中的其他文本对身份证信息识别造成干扰。
16.综合以上三个方面，本发明给出的基于ocr技术的身份证识别方法提高了身份证信息的识别准确率。
附图说明
17.图1是本发明提供的基于ocr技术的身份证识别方法的流程示意图。
18.图2是本发明提供的身份证信息自动识别组件的结构框图。
19.图3是本发明提供的目标检测模型的结构框图。
20.图4是本发明提供的文本框检测模型的结构框图。
具体实施方式
21.以下结合具体实施例对本发明创造作详细说明。
22.本实施例给出一种基于ocr技术的身份证识别装置，包括用于拍摄身份证图像的摄像头、连接该摄像头的处理器以及连接该处理器的计算机可读存储介质。该计算机可读存储介质存储有可执行的计算机程序，该识别装置的处理器可执行该计算机可读存储介质中的计算机程序，从而实现如图1所示的基于ocr技术的身份证识别方法。本实施例将实现该方法的计算机程序（下文称为身份证信息自动识别组件）嵌入到app软件中，实现自动识别身份证信息。下文以安装了上述app的手机作为身份证识别装置，通过具体实例来说明该方法的执行流程。
23.用户在app中办理业务需要输入身份证信息时，通过该app中的身份证拍照识别按钮调用手机摄像头对身份证进行拍照，该照片为动态照片（如苹果手机的live照片，正常显示为照片，长按照片可显示其动态过程）。如图2所示，拍摄完成后，手机app中的身份证信息自动识别组件自动获取该动态照片。该动态照片实际是一小段视频流，该识别组件从该动态照片的视频流中截取多张不同帧的含有用户身份证图像的待选图像，然后采用图像质量评价模型（采用现有的评价模型，例如hyperiqa模型）对每张待选图像进行图像质量评分，取评分最高者作为待识别图像。然后识别组件就通过目标检测模型从待识别图像中截取身
份证图像。如图3所示，目标检测模型包括用于提取待识别图像的图像特征的主干网络、对图像特征进行上采样的fpn网络、对图像特征进行下采样的pan网络以及用于进行最优解筛选的nms(非极大值抑制)算法。
24.该目标检测模型从待识别图像中截取身份证图像的过程如下：a1.接收所输入的身份证图像；a2.通过主干网络提取该身份证图像的图像特征；a3.通过fpn网络和pan网络对所提取的图像特征进行上、下采样后输出预测特征图；a4.通过nms算法对该预测特征图进行最优解筛选，输出身份证图像的位置坐标和身份证的面向信息；a5.根据身份证图像的位置坐标从待识别图像中截取身份证图像。
25.目标检测模型截取到身份证图像之后，将该身份证图像及其面向信息传输给文本框检测模块。如图4所示，文本框检测模型包括用于提取身份证图像的图像特征的主干网络、对图像特征进行上采样的fpn网络以及对图像特征进行文本行检测的渐进尺度扩张算法。文本框检测模型获取身份证图像后，通过特征提取主干网络提取该身份证图像的图像特征，然后通过fpn网络对图像特征进行上采样后输出预测特征图给渐进尺度扩张算法，渐进尺度扩张算法从最小尺度的文本行kernel开始，依次在每个尺度下进行文本检测，在从最小尺度逐渐扩增至最大尺度的过程中，本级文本行kernel会受到上一级文本行kernel的监督，因此，即使扩增到原始文本行大小，也能够将相邻文本行的边缘像素区分开来，即使是对少数民族身份证进行检测，都准确地检测出各个文本行，框出正确的文本框。渐进尺度扩张算法检测出各个文本框后，在身份证图像上标注出各个文本框的位置坐标，然后将其传输给文本识别模型。文本识别模型接收到标注有各个文本框位置坐标的身份证图像后，根据各个文本行的位置坐标计算文本行的倾斜角度，若文本行的倾斜角度大于预设角度（本实施例将预设角度设为30
°
），则身份证图像绕其中心进行旋转，直至文本框旋转至水平，然后通过文本识别算法识别出该身份证图像中的各个文本框的文本。识别出文本后，还需要与身份证信息要素进行匹配，否则计算机无法确定哪个文本是对应哪个身份证信息要素的。身份证信息要素指：姓名、性别、民族、出生、住址、公民身份号码、签发机关、有效期限这8个要素。本实施例的识别组件具有文本匹配模型，文本识别模型将识别出来的文本传输给文本匹配模型进行匹配。文本匹配模型先将目标检测模型所识别出来的身份证图像的面向信息（正面/背面）输入给版面分析算法，版面分析算法据此确定该身份证图像中所包含的身份证信息要素的类别和位置坐标，例如面向信息为正面，则可确定该身份证图像中包含的身份证信息要素有姓名、性别、民族、出生、住址和公民身份号码，然后按照身份证正面的版面规格即可确定上述要素的位置坐标。文本匹配模型根据上述各个身份证信息要素的位置坐标以及各个文本框的位置坐标，将各个文本框的文本与对应的身份证信息要素进行匹配，具体匹配过程如下：e1.对每个身份证信息要素执行如下文本匹配步骤：——e11.根据该身份证信息要素的位置坐标以及各个尚未匹配的文本框的位置坐标，为该身份证信息要素匹配对应的文本框的文本；——e12.判断该身份证信息要素所匹配的文本是否符合该身份证信息要素的标
准格式：——e13.若否，则将该身份证信息要素所匹配的文本与在身份证图像中和该文本位置相邻的文本进行合并，以合并后的文本作为该身份证信息要素所匹配的文本并再次执行步骤e12；——e14.若是，则匹配完成；e2. 根据各个身份证信息要素的固定字段，对该身份证信息要素所匹配到的文本进行校正，输出各个身份证信息要素所匹配到的经校正后的文本。
26.本实施例设定的身份证信息要素的标准格式如下：住址的标准格式为：具有“省、镇、村”或者“市、区、街”三个字眼；公民身份号码的标准格式为：18位数；出生的标准格式为：具有“年、月、日”三个字眼。
27.身份证上出生日期的文本间隔得比较远，住址可能有两个文本行，因此出生、住址所对应的文本容易被分割成多个文本框。一个文本框的文本通常作为一个文本词条，一个身份证信息要素只匹配一个文本词条，在进行匹配时，对于未曾匹配的身份证信息要素，如果识别到某个文本框的位置坐标与该身份证信息要素的位置坐标重合，就将该文本框的文本匹配为该身份证信息要素的文本，但是该文本框的文本可能仅是该身份证信息要素的其中一部分文本，因此，本实施例在匹配好之后利用身份证信息要素的标准格式来判断该身份证信息要素所匹配的文本是否完整。以出生日期为例，假设“出生1995年3月19日”被检测成7个文本框：“出生”“1995”、“年”、“3”、“月”、“19”、“日”，文本匹配模型识别到文本框“出生”的位置坐标与身份证信息要素“出生”的位置坐标重合，就把“出生”匹配为身份证信息要素“出生”的文本，匹配好后，文本匹配模型就判断文本“出生”是否符合身份证信息要素“出生”的标准格式，判断出文本“出生”没含有“年、月、日”三个字眼，则判定为不符合，将文本“出生”与在身份证图像中和该文本位置相邻的文本“1995”进行合并，以合并后的文本“出生1995”作为该身份证信息要素所匹配的文本并判断文本“出生1995”是否符合身份证信息要素“出生”的标准格式，判断出不符合，则将文本“出生1995”与身份证图像中和该文本位置相邻的文本“年”进行合并，得到文本“出生1995年”，然后判断该文本是否符合身份证信息要素“出生”的标准格式，以此类推，直至合并成“出生1995年3月19日”，身份证信息要素“出生”所匹配到的文本“出生1995年3月19日”才符合其标准格式，至此就将该文本“出生1995年3月19日”作为身份证信息要素“出生”的文本，匹配完成。由于文本识别可能存在误差，例如姓名识别成姓各，考虑到身份证信息要素类别的字段都是固定的，可利用固定字段对文本进行校正，因此，本实施例在为各个身份证信息要素匹配完成后，根据每个身份证信息要素的固定字段对该身份证信息要素的文本进行校正，例如身份证信息要素“姓名”的固定字段为“姓名”，首先计算该要素所匹配的文本中的前两个字“姓各”校正为“姓名”。如此则可提高识别准确率。校正完成后，文字匹配模块就输出各个身份证信息要素所匹配到的经过校正的文本。
28.最后应当说明的是，以上实施例仅用以说明本发明创造的技术方案，而非对本发明创造保护范围的限制，尽管参照较佳实施例对本发明创造作了详细地说明，本领域的普通技术人员应当理解，可以对本发明创造的技术方案进行修改或者等同替换，而不脱离本发明创造技术方案的实质和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王先来
技术所有人：广州佰锐网络科技有限公司
我是此专利的发明人

上一篇：一种铝盖摆放设备的制作方法
上一篇：一种大料加工用高效研磨装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。