一种身份证汉字识别方法

文档序号:8361821阅读:1344来源:国知局
一种身份证汉字识别方法
【技术领域】
[0001] 本发明涉及图像处理技术领域,具体是一种身份证汉字识别方法。
【背景技术】
[0002] 身份证是证明公民合法身份的唯一有效证件,是公民参加各种政治、经济、社会活 动所必须的证件,例如:进入活动会场、办理银行卡、入住宾馆、乘坐飞机火车、网吧上网,办 理各类资格证书等。可以说,身份证已经深入我们生活的各个方面。因此,如何快捷、准确 地读取身份证信息变得越来越重要。
[0003] 目前,常用的读取身份证信息的技术方法有以下几种:
[0004] (1)基于身份证读卡器读取信息,该类方法是基于我国二代居民身份证具有内置 非接触式IC卡智能芯片的特点实现的。该类方法的优点是:读取信息的精准度很高;对于 身份证的污迹和磨损,具有很强的抵抗能力;不依赖于可见光,可以在粉尘等恶劣环境下使 用;但其也存在明显的缺点:需要专门的读卡设备,设备成本较高。
[0005] (2)基于光学字符识别技术读取信息,该类方法通过图像处理技术定位身份证相 关元素位置,使用模式识别技术进行字符训练和识别。该类方法的优点是准确度较高,不需 要特定设备,硬件成本较低,对于各种环境的适应性强,可进行多身份证信息同时读取;其 缺点是主要针对身份证的数字部分,对于汉字部分,准确度较低,因此这也限制了该类方法 更广泛的应用。
[0006] 由于我国的常用汉字有三千多个,因此,常用的机器学习方法无法直接适用于身 份证汉字识别,目前,最流行的开源汉字识别库是google的tessract库,但该库对于汉字 的图像质量和字形结构要求很高,如果直接用来识别身份证汉字,准确率只有60%,无法满 足实际的应用需求。

【发明内容】

[0007] 本发明的目的在于针对光学字符识别技术读取身份证汉字信息准确率低的缺点, 提供一种身份证汉字识别方法,充分利用身份证的图像特征,对汉字进行提取和增强,在此 基础上利用tessract库进行汉字识别,准确度更高。
[0008] 本发明的技术方案为:
[0009] 一种身份证汉字识别方法,包括以下步骤:
[0010] (1)获取分类器训练文件;
[0011] ⑵将待识别彩色图像变换成灰度图像;
[0012] (3)对身份证的汉字区域进行精确定位;
[0013] (4)对每个汉字区域进行字符识别;
[0014] (5)判断当前汉字区域是否是最后一个汉字区域,若是,则输出识别结果,若否,则 返回步骤(4)。
[0015] 所述的身份证汉字识别方法,步骤(1)中,所述获取分类器训练文件,具体包括:
[0016] (11)加载已有的人脸检测分类器文件;
[0017] (12)加载tessract汉字识别库;
[0018] (13)基于harr特征和adaboost算法,训练关于身份证国徽的分类器文件;
[0019] (14)训练身份证汉字区域含有的数字的模板。
[0020] 所述的身份证汉字识别方法,步骤(3)中,所述对身份证的汉字区域进行精确定 位,具体包括:
[0021] (31)基于adaboost分类器,检测身份证正面的人脸位置和身份证背面的国徽位 置;
[0022] (32)根据眼睛位置对身份证正面图像进行倾斜校正,根据国徽内五星位置对身份 证背面图像进行倾斜校正;
[0023] (33)基于人脸位置和国徽位置,分别选择身份证正面和背面的汉字检测有效区 域,同时进行反色处理;
[0024] (34)对图像进行模糊处理,去除背景图案干扰;
[0025] (35)获取模糊处理后的灰度图像的二值垂直边缘特征图;
[0026] (36)对二值垂直边缘特征图进行形态学运算,获取连通区域;
[0027] (37)根据面积和位置特征,选择相应的连通区域作为候选区域;
[0028] (38)基于候选区域内字符间距特征,对身份证正面和背面的各汉字区域进行精确 定位;
[0029] (39)判断当前人脸位置或国徽位置是否是最后一个人脸位置或国徽位置,若是, 则输出相应的汉字区域定位结果,若否,则继续执行步骤(32)至步骤(39)。
[0030] 所述的身份证汉字识别方法,步骤(4)中,所述对每个汉字区域进行字符识别,具 体包括:
[0031] (41)精确分割汉字字符;
[0032] (42)通过字符的宽度判断单个字符是汉字还是数字,若是汉字,则执行步骤 (43),若是数字,则执行步骤(45);
[0033] (43)增强汉字字形结构;
[0034] (44)基于tessract库进行汉字识别;
[0035] (45)基于最近邻算法进行数字识别;
[0036] (46)判断当前字符是否是当前汉字区域的最后一个字符,若是,则输出汉字识别 结果,若否,则进入下一个字符,继续执行步骤(42)至步骤(46)。
[0037] 所述的身份证汉字识别方法,步骤(32)中,所述根据眼睛位置对身份证正面图像 进行倾斜校正,具体包括:
[0038] (al)基于三庭五眼布局规律,对左、右两眼进行粗定位;
[0039] (a2)精确定位出眼睛的中心点;
[0040] (a3)根据两眼的中心位置计算倾斜角度;
[0041] (a4)对身份证正面图像进行倾斜旋转校正;
[0042] 所述根据国徽内五星位置对身份证背面图像进行倾斜校正,具体包括:
[0043] (bl)精确定位出国徽内五颗星的中心点;
[0044] (b2)以最大的一颗星为基础,分别定位出四颗小星的相对位置;
[0045] (b3)根据外侧两颗星的中心位置计算倾斜角度;
[0046] (b4)对身份证背面图像进行倾斜旋转校正。
[0047] 所述的身份证汉字识别方法,步骤(36)中,所述对二值垂直边缘特征图进行形态 学运算,获取连通区域,具体包括:
[0048] (a)对二值垂直边缘特征图中所有垂直连通边缘的高度值数据进行统计;
[0049] (b)将统计出的高度值数据从大到小排序,并求出排在前面三分之一位置之内的 高度数据的平均值,作为二值垂直边缘特征图中垂直连通边缘的平均高度fi;
[0050] (C)利用结构元素模板,对二值垂直边缘特征图进行Pl次形态学膨胀运算,其 中,[5]表示不大于H的最大整数;
[0051] (d)利用结构元素模板,对经过pi]次形态学膨胀运算的二值垂直边缘特征图进行 2次形态学闭运算;
[0052] (e)利用结构元素模板,对经过2次形态学闭运算的二值垂直边缘特征图进行 次形态学腐蚀运算。
[0053] 所
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1