一种纸张字符识别方法、装置、电子设备及存储介质与流程

文档序号:21272907发布日期:2020-06-26 23:03阅读:231来源:国知局
一种纸张字符识别方法、装置、电子设备及存储介质与流程

本申请涉及图像处理技术领域,尤其涉及一种纸张字符识别方法、装置、电子设备及存储介质。



背景技术:

通常为了在展示文字信息的同时增强阅读的趣味性和观赏性,会在展示文字信息用的纸质文件、图标等上增添背景图案、边框图案等一些花样效果。纸质文件、图标等的载体为纸张,由于纸张天然具有易起皱、易折叠、易脏污等特征,在需要大批量识别纸张上的字符或者纸张上的字符用肉眼难以分辨时,需要利用计算机对纸张进行字符识别。

通常会通过拍照或者扫描纸张的方法获得待识别图片,该待识别图片上包含待识别字符,将这些待识别图片上传至计算机上之后,首先利用图片裁剪工具将待识别图片上包含待识别字符的字符区域裁剪下来,以缩小图像识别的范围。然后利用字符识别工具识别裁剪得到的字符区域内的待识别字符。

但是,由上文可知,由于纸张本身的性质,待识别图片会区别于理想化图片,存在一些脏污、褶皱、歪曲、花纹干扰等噪声,这些噪声会严重影响字符识别的准确性。



技术实现要素:

本申请提供了一种纸张字符识别方法,以提高字符识别的准确性。

第一方面,本申请提供了一种纸张字符识别方法,所述方法包括:

获取带有待识别字符的纸张的待识别图像;

利用图像目标定位模型,在所述待识别图像中确定覆盖所述待识别字符的第一区域图像;

从所述待识别图像中裁剪出所述第一区域图像;

对所述第一区域图像做去噪声处理,得到去噪图像;

利用字符识别模型,识别所述去噪图像中的待识别字符,得到识别结果。

在本发明实施例第一方面一种可能的实现方式中,所述对第一区域图像做去噪声处理,得到去噪图像包括:

利用角度回归模型计算所述待识别字符在所述第一区域图像中的倾斜角度,所述倾斜角度为所述待识别字符所在直线与水平方向的夹角;

将所述第一区域图像旋转与所述倾斜角度相等的角度,以使所述待识别字符所在直线与水平方向重合,得到校正后图像;

利用边框回归模型对所述校正后图像做边框回归处理,确定第二区域图像,所述第二区域图像为覆盖全部所述待识别字符的最小矩形区域;

从所述第一区域图像中裁剪出所述第二区域图像;

对所述第二区域图像做去噪声处理,得到去噪图像。

在本发明实施例第一方面一种可能的实现方式中,所述对第二区域图像做去噪声处理,得到去噪图像包括:

对所述第二区域图像做二值化处理,以使所述第二区域图像中的各个像素点的像素值转化为0或255,得到二值化图像;

对所述二值化图像做去噪声处理,得到去噪图像。

在本发明实施例第一方面一种可能的实现方式中,所述对二值化图像做去噪声处理,得到去噪图像包括:

确定所述二值化图像中的第一问题像素点,所述问题像素点为像素值连续相等的数量小于预设数量阈值的像素点;

从所述二值化图像中剔除所述第一问题像素点,得到去噪图像。

在本发明实施例第一方面一种可能的实现方式中,所述对二值化图像做去噪声处理了,得到去噪图像包括:

确定所述二值化图像中的第二问题像素点,所述第二问题像素点为像素值连续相等的数量大于或者等于预设数量阈值,且所述第二问题像素点所形成的像素区域的宽度小于预设宽度阈值;

对所述第二问题像素点所形成的像素区域做膨胀处理,以使所述二值化图像中的所述像素区域的宽度大于或者等于预设宽度阈值,得到去噪图像。

在本发明实施例第一方面一种可能的实现方式中,所述利用字符识别模型,识别所述去噪图像中的待识别字符,得到识别结果包括:

按照预设分割标识,将所述去噪图像分割为多个子区域图像,每一所述子区域图像包含至少一个待识别字符;

利用字符识别模型依次识别每一所述子区域图像中的待识别字符,得到子识别结果;

按照所述待识别字符在所述待识别图像中的位置顺序,连接各所述子识别结果,得到识别结果。

第二方面,本申请提供了一种纸张字符识别装置,所述装置包括:

待识别图像获取单元,用于获取带有待识别字符的纸张的待识别图像;

第一区域图像确定单元,用于利用图像目标定位模型,在所述待识别图像中确定覆盖所述待识别字符的第一区域图像;

第一裁剪单元,用于从所述待识别图像中裁剪出所述第一区域图像;

去噪单元,用于对所述第一区域图像做去噪声处理,得到去噪图像;

识别单元,用于利用字符识别模型,识别所述去噪图像中的待识别字符,得到识别结果。

在本发明实施例第二方面一种可能的实现方式中,所述去噪单元包括:

角度计算单元,用于利用角度回归模型计算所述待识别字符在所述第一区域图像中的倾斜角度,所述倾斜角度为所述待识别字符所在直线与水平方向的夹角;

校正单元,用于将所述第一区域图像旋转与所述倾斜角度相等的角度,以使所述待识别字符所在直线与水平方向重合,得到校正后图像;

第二区域图像确定单元,用于利用边框回归模型对所述校正后图像做边框回归处理,确定第二区域图像,所述第二区域图像为覆盖全部所述待识别字符的最小矩形区域;

第二裁剪单元,用于从所述第一区域图像中裁剪出所述第二区域图像;

第一去噪子单元,用于对所述第二区域图像做去噪声处理,得到去噪图像。

在本发明实施例第二方面一种可能的实现方式中,所述第一去噪子单元包括:

二值化单元,用于对所述第二区域图像做二值化处理,以使所述第二区域图像中的各个像素点的像素值转化为0或255,得到二值化图像;

第二去噪子单元,用于对所述二值化图像做去噪声处理,得到去噪图像。

在本发明实施例第二方面一种可能的实现方式中,所述第二去噪子单元包括:

第一问题像素点确定单元,用于确定所述二值化图像中的第一问题像素点,所述问题像素点为像素值连续相等的数量小于预设数量阈值的像素点;

第三去噪子单元,用于从所述二值化图像中剔除所述第一问题像素点,得到去噪图像。

在本发明实施例第二方面一种可能的实现方式中,所述第二去噪子单元包括:

第二问题像素点确定单元,用于确定所述二值化图像中的第二问题像素点,所述第二问题像素点为像素值连续相等的数量大于或者等于预设数量阈值,且所述第二问题像素点所形成的像素区域的宽度小于预设宽度阈值;

第四去噪子单元,用于对所述第二问题像素点所形成的像素区域做膨胀处理,以使所述二值化图像中的所述像素区域的宽度大于或者等于预设宽度阈值,得到去噪图像。

在本发明实施例第二方面一种可能的实现方式中,所述识别单元包括:

分割单元,用于按照预设分割标识,将所述去噪图像分割为多个子区域图像,每一所述子区域图像包含至少一个待识别字符;

子识别单元,用于利用字符识别模型依次识别每一所述子区域图像中的待识别字符,得到子识别结果;

结果连接单元,用于按照所述待识别字符在所述待识别图像中的位置顺序,连接各所述子识别结果,得到识别结果。

第三方面,本发明实施例提供了一种电子设备,包括:

处理器,以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行所述的纸张字符识别方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的纸张字符识别方法。

本申请提供了一种纸张字符识别方法、装置、电子设备及存储介质,其中,首先,获取带有待识别字符的纸张的待识别图像。然后,利用图像目标定位模型,在所述待识别图像中确定覆盖所述待识别字符的第一区域图像,并从所述待识别图像中裁剪出所述第一区域图像。之后对所述第一区域图像做去噪声处理,得到去噪图像。最后,利用字符识别模型,识别所述去噪图像中的待识别字符,得到识别结果。可见,本申请所提供的纸张字符识别方法可以通过对带有待识别字符的图像进行去噪处理,以消除图像中的各种噪声对字符识别准确性的影响,从而提高字符识别的准确度。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种纸张字符识别方法的流程图;

图2为本申请实施例提供的一种待识别图像的示意图;

图3为本申请实施例提供的一种第一区域图像的示意图;

图4为本申请实施例提供的一种图像去噪方法的流程图;

图5为本申请实施例提供的一种校正后图像的示意图;

图6为本申请实施例提供的一种第二区域图像的示意图;

图7为本申请实施例提供的一种图像去噪方法的流程示意图;

图8为本申请实施例提供的一种确定第一问题像素点的方法的流程图;

图9为本申请实施例提供的一种确定第二问题像素点的方法的流程图;

图10为本申请实施例提供的一种分块识别方法的流程图;

图11为本申请实施例提供的纸张字符识别装置实施例一的结构示意图;

图12为本申请实施例提供的纸张字符识别装置实施例二的结构示意图;

图13为本申请实施例提供的纸张字符识别装置实施例三的结构示意图;

图14为本申请实施例提供的纸张字符识别装置实施例四的结构示意图;

图15为本申请实施例提供的纸张字符识别装置实施例五的结构示意图;

图16为本申请实施例提供的纸张字符识别装置实施例六的结构示意图

图17为本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本申请实施例提供的一种纸张字符识别方法的流程图,如图1所示,所述方法包括:

s1、获取带有待识别字符的纸张的待识别图像。

待识别字符通常可以为需要大量识别的字符,或者需要纸张电子化的字符,或者人眼无法识别的字符。通常可以使用拍照或者扫描等方式获取待识别图像,可以采用摄像机、照相机、手机、扫描仪等设备实现。图2为本申请实施例提供的一种待识别图像的示意图。为了减轻后续对待识别图像去噪处理的工作负担,可以在获取待识别图像之前,首先对带有待识别字符的纸张进行优化处理,例如抚平褶皱、去除纸张上的赃物、调整拍摄待识别图像的光线等,尤其需要注意在待识别字符处的处理。

s2、利用图像目标定位模型,在所述待识别图像中确定覆盖所述待识别字符的第一区域图像。

在获取待识别图像之后,通常可以利用图像目标定位模型对该待识别图像中的待识别字符所在区域进行粗略的定位,例如,使用ssd、fasterrcnn、yolo等目标检测算法来定位待识别字符所在矩形区域的左上角坐标以及右下角坐标。如图3所示,为本申请实施例提供的一种第一区域图像的示意图,其中,左上角坐标为(a,a),右下角坐标为(b,b)通过该左上角坐标和右下角坐标可以得到一个将待识别字符覆盖在内的矩形区域a,这个矩形区域a即为第一区域图像。

s3、从所述待识别图像中裁剪出所述第一区域图像。

在确定第一区域图像之后,将所述第一区域图像从待识别图像中裁剪出来,可见,如果待识别图像中的非第一区域图像中存在一些噪声,例如阴影、脏污等,则可以通过裁剪动作直接去除,不仅可以降低待识别图像中的噪声对字符识别准确性的干扰,同时能够缩小字符识别的识别范围,提高字符识别效率。

s4、对所述第一区域图像做去噪声处理,得到去噪图像。

为了提高字符识别的准确性,需要对第一区域图像做去噪声处理,以消除第一区域图像中所携带的噪声。通常,字符识别模型通过海量纸张字符样本训练获得,为了保证可以准确识别各种形态的纸张字符,纸张字符样本会包含多种纸张字符形式。如果待识别字符为歪曲形式的纸张字符,如图3所示,其中待识别字符所在直线与水平方向存在夹角α。那么字符识别模型就需要添加海量的歪曲形式的纸张字符,以满足识别歪曲形式的待识别字符。可见,如果待识别字符为歪曲形式会大大增加识别难度。

为了降低字符识别难度,可以在字符识别之前,首先对待识别字符做校正处理。具体地,如图4所示,为本申请实施例提供的一种图像去噪方法的流程图,所述方法包括:

s401、利用角度回归模型计算所述待识别字符在所述第一区域图像中的倾斜角度,所述倾斜角度为所述待识别字符所在直线与水平方向的夹角;

s402、将所述第一区域图像旋转与所述倾斜角度相等的角度,以使所述待识别字符所在直线与水平方向重合,得到校正后图像;

s403、利用边框回归模型对所述校正后图像做边框回归处理,确定第二区域图像,所述第二区域图像为覆盖全部所述待识别字符的最小矩形区域;

s404、从所述第一区域图像中裁剪出所述第二区域图像;

s405、对所述第二区域图像做去噪声处理,得到去噪图像。

通常可以利用角度回归模型计算出待识别字符在第一区域图像中的倾斜角度,例如图3中的α,通常角度回归模型为神经卷积网络模型cnn。在计算出倾斜角度之后,将第一区域图像整体旋转与该倾斜角度相等的角度,即可获得如图5所示的待识别字符所在直线与追平方向重合的校正后图像b。

进一步地,由上文可知,第一区域图像仅为通过目标定位模型粗略定位的一个区域,第一区域图像很容易大于待识别字符所在的最小区域,造成第一区域图像上存在大片的留白,即与待识别字符无关的区域,为了降低这部分无关区域中可能存在的噪声对字符识别的影响,以及这部分无关区域对字符识别效率的影响,需要将这部分无效区域去除。即可以通过边框回归模型重新确定出可以覆盖全部待识别字符的最小矩形区域,即第二区域图像,如图6所示,为本申请实施例提供的一种第二区域图像的示意图,其中,c即为第二区域图像。将第二区域图像从第一区域图像中裁剪出来,即可有效避免无效区域对字符识别准确性的影响。

进一步地,对于某些带有背景花样的纸张,如果背景花样与待识别字符之间的色彩较为接近,那么该背景花样也相当于一种噪声,此时,需要通过增加背景与待识别字符之间的像素差异,以准确识别字符。

具体地,如图7所示,为本申请实施例提供的一种图像去噪方法的流程示意图,所述方法包括:

s406、对所述第二区域图像做二值化处理,以使所述第二区域图像中的各个像素点的像素值转化为0或255,得到二值化图像;

s407、对所述二值化图像做去噪声处理,得到去噪图像。

通过二值化处理,可以将第二区域图像中的各个像素点的像素值转化为0或255,例如第二区域图像中背景像素点的像素值为0,待识别字符的像素点的像素值为1,两个像素值较接近,比较难以分辨,通过二值化处理后,可以背景像素点的像素值二值化为0,将待识别字符的像素值二值化为255,可见,两者的差异显著增加,可以快速分辨背景和待识别字符,以提高字符识别的准确性。

进一步地,在二值化图像的基础上,可以通过像素值准确确定噪声,具体地,如图8所示,为本申请实施例提供的一种确定第一问题像素点的方法的流程图,所述方法包括:

s408、确定所述二值化图像中的第一问题像素点,所述问题像素点为像素值连续相等的数量小于预设数量阈值的像素点;

s409、从所述二值化图像中剔除所述第一问题像素点,得到去噪图像。

待识别字符上可能存在折痕、阴影、脏污等噪声,这些噪声与待识别字符的像素值存在差异,因此可以通过像素值的变化来确定噪声对应的像素点。通常,这些噪声的像素点的数量较少,缺乏连续性,因此,可以通过判断具有相等像素值的像素点的连续数量,来确定这些像素点是否为第一问题像素点。如果这些像素点的数量大于或者等于预设数量阈值,说明这些像素点的连续性较强,应该为待识别字符;如果这些像素点的数量小于预设数量阈值,说明这些像素点的连续性较弱,应该为噪声,本申请实施例将这些噪声所对应的像素点定义为第一问题像素点。从二值化图像中剔除这些第一问题像素点,即可以有效消除噪声对待识别字符的干扰。

进一步地,如图9所示,为本申请实施例提供的一种确定第二问题像素点的方法的流程图,所述方法包括:

s410、确定所述二值化图像中的第二问题像素点,所述第二问题像素点为像素值连续相等的数量大于或者等于预设数量阈值,且所述第二问题像素点所形成的像素区域的宽度小于预设宽度阈值;

s411、对所述第二问题像素点所形成的像素区域做膨胀处理,以使所述二值化图像中的所述像素区域的宽度大于或者等于预设宽度阈值,得到去噪图像。

当像素值相等的像素点的连续数量大于或者等于预设数量阈值时,说明这些像素点对应于待识别字符,理由见上文,此处将不再赘述。但是,如果这些像素点所形成的像素区域的宽度小于预设宽度阈值,则说明待识别字符的笔画过细,难以分辨。此时,将具有上述特征的像素点定义为第二问题像素点。为了解决上述问题,可以对第二问题像素点所形成的像素区域做膨胀处理,令二值化图像中的过细待识别字符膨胀为正常宽度的待识别字符,从而得到去噪图像。

s5、利用字符识别模型,识别所述去噪图像中的待识别字符,得到识别结果。

在得到去噪图像之后,即可对去噪图像中的待识别字符进行字符识别,例如采用crin、attention等字符识别模型,或者使用orc搭配语义分析模型以识别待识别字符。由于,在一次识别操作中的待识别字符的数量越少,识别精度越高,则为了提高字符识别精度,在识别之前,可以首先对待识别字符进行分割,然后进行逐一识别。

具体地,如图10所示,为本申请实施例提供的一种分块识别方法的流程图,所述方法包括:

s501、按照预设分割标识,将所述去噪图像分割为多个子区域图像,每一所述子区域图像包含至少一个待识别字符;

s502、利用字符识别模型依次识别每一所述子区域图像中的待识别字符,得到子识别结果;

s503、按照所述待识别字符在所述待识别图像中的位置顺序,连接各所述子识别结果,得到识别结果。

具体地,预设分割标识可以为字符之间超过预设宽度的空白,或者标点符号,或者字符数量等,按照预设分割标识可以将去噪图像分割为多个子区域图像。例如,带有20位校验码的去噪图像,其中,每5位字符之间会存在一个空白,这样,可以将空白设为分割标识,按照这些分割标识,可以将该去噪图像分割为4个子区域图像,其中,每个子区域图像中带有5位字符。依次识别每个子区域图像中的字符,可以得到一个对应的子识别结果。按照待识别字符在待识别图像中的位置顺序,将这些子识别结果相连接,最后可以组成最终的识别结果。可见,本申请实施例可以将长串待识别字符分割为较短待识别字符,以提高字符识别精度。

图11为本申请实施例提供的纸张字符识别装置实施例一的结构示意图,所述装置包括:待识别图像获取单元1,用于获取带有待识别字符的纸张的待识别图像;第一区域图像确定单元2,用于利用图像目标定位模型,在所述待识别图像中确定覆盖所述待识别字符的第一区域图像;第一裁剪单元3,用于从所述待识别图像中裁剪出所述第一区域图像;去噪单元4,用于对所述第一区域图像做去噪声处理,得到去噪图像;识别单元5,用于利用字符识别模型,识别所述去噪图像中的待识别字符,得到识别结果。

图12为本申请实施例提供的纸张字符识别装置实施例二的结构示意图,所述去噪单元4包括:角度计算单元41,用于利用角度回归模型计算所述待识别字符在所述第一区域图像中的倾斜角度,所述倾斜角度为所述待识别字符所在直线与水平方向的夹角;校正单元42,用于将所述第一区域图像旋转与所述倾斜角度相等的角度,以使所述待识别字符所在直线与水平方向重合,得到校正后图像;第二区域图像确定单元43,用于利用边框回归模型对所述校正后图像做边框回归处理,确定第二区域图像,所述第二区域图像为覆盖全部所述待识别字符的最小矩形区域;第二裁剪单元44,用于从所述第一区域图像中裁剪出所述第二区域图像;第一去噪子单元45,用于对所述第二区域图像做去噪声处理,得到去噪图像。

图13为本申请实施例提供的纸张字符识别装置实施例三的结构示意图,所述第一去噪子单元45包括:二值化单元451,用于对所述第二区域图像做二值化处理,以使所述第二区域图像中的各个像素点的像素值转化为0或255,得到二值化图像;第二去噪子单元452,用于对所述二值化图像做去噪声处理,得到去噪图像。

图14为本申请实施例提供的纸张字符识别装置实施例四的结构示意图,所述第二去噪子单元452包括:第一问题像素点确定单元4521,用于确定所述二值化图像中的第一问题像素点,所述问题像素点为像素值连续相等的数量小于预设数量阈值的像素点;第三去噪子单元4522,用于从所述二值化图像中剔除所述第一问题像素点,得到去噪图像。

图15为本申请实施例提供的纸张字符识别装置实施例五的结构示意图,所述第二去噪子单元452包括:第二问题像素点确定单元4523,用于确定所述二值化图像中的第二问题像素点,所述第二问题像素点为像素值连续相等的数量大于或者等于预设数量阈值,且所述第二问题像素点所形成的像素区域的宽度小于预设宽度阈值;第四去噪子单元4524,用于对所述第二问题像素点所形成的像素区域做膨胀处理,以使所述二值化图像中的所述像素区域的宽度大于或者等于预设宽度阈值,得到去噪图像。

图16为本申请实施例提供的纸张字符识别装置实施例六的结构示意图,所述识别单元5包括:分割单元51,用于按照预设分割标识,将所述去噪图像分割为多个子区域图像,每一所述子区域图像包含至少一个待识别字符;子识别单元52,用于利用字符识别模型依次识别每一所述子区域图像中的待识别字符,得到子识别结果;结果连接单元53,用于按照所述待识别字符在所述待识别图像中的位置顺序,连接各所述子识别结果,得到识别结果。

图17为本申请实施例提供的电子设备的硬件结构示意图。该电子设备包括:存储器101和处理器102;

存储器101,用于存储计算机程序;

处理器102,用于执行存储器存储的计算机程序,以实现上述实施例中的纸张字符识别方法。具体可以参见前述方法实施例中的相关描述。

可选地,存储器101既可以是独立的,也可以跟处理器102集成在一起。

当所述存储器101是独立于处理器102之外的器件时,所述电子设备还可以包括:

总线103,用于连接所述存储器101和处理器102。

本发明实施例提供的电子设备可用于执行上述实施例中任一所示的纸张字符识别方法,其实现方式和技术效果类似,本发明实施例此处不再赘述。

本发明实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当消息发送的装置的至少一个处理器执行该计算机程序时,消息发送的装置执行上述实施例任一所述的纸张字符识别方法。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于以计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1