一种快速的多文字识别方法

文档序号：9350377阅读：353来源：国知局

一种快速的多文字识别方法
【技术领域】
[0001]本发明涉及图文软件领域，特别是一种快速的多文字识别方法。
【背景技术】
[0002]传统的文字识别技术，通常将各个单个文字分割出来，在使用某些文字识别方法将各个文字识别出来，得出识别的结果，形成用户所需要的可编辑文字等形式，然而对于图片上的文字，在某些特定的情况下，例如在一些图像自动化系统里面，涉及到的文字往往没有生活中那样多变与广泛，使用传统的方法会消耗文字分割这部分额外的消耗。

【发明内容】

[0003]本发明的目的在于提供一种快速的多文字识别方法，以克服现有技术中存在的缺陷。
[0004]为实现上述目的，本发明的技术方案是:一种快速的多文字识别方法，其特征在于，按照如下步骤实现:
步骤S1:将用户选取的文字识别区域作为当前文字识别区域；
步骤S2:将所述当前文字识别区域进行阈值化处理，获取文字识别区域图片；
步骤S3:对所述文字识别区域图片中的文字区域进行定位，使被定位的文字区域包含于该文字区域的最小外接矩形中，获取文字区域图片；
步骤S4:对所述文字区域图片进行大小归一化处理，并作为输入文字图片；
步骤S5:将所述输入文字图片进行区域分割，形成若干个子图像；
步骤S6:对所述子图像进行单独处理，获取所述子图像的特征值，并将所有子图像的特征值重新组合为一个特征向量；
步骤S7:使用BP神经网络对所述特征向量进行训练以及识别，并将识别结果作为所述当前文字识别区域中的文字。
[0005]在本发明一实施例中，在所述步骤S2中，所述阈值化处理包括固定阈值化方法、自适应阈值化方法、大津法或迭代法。
[0006]在本发明一实施例中，在所述步骤S3中，所述文字区域的最小外接矩形的四条边分别与所述文字区域的最上端、最下端、最左端以及最右端相切。
[0007]在本发明一实施例中，在所述步骤S5中，经所述输入文字图片区域分割后的各个子图像的大小均相等。
[0008]在本发明一实施例中，在所述步骤S6中，所述子图像特征值的提取还包括如下步骤:
步骤S61:将所述子图像分别进行X方向和Y方向的积分投影；
步骤S62:在进行投影的同时，获取所述子图像上黑像素的总个数，并将该黑像素的总个数作为文字部分的面积，同时获取所述子图像上总像素点的总个数，并将该总像素点的总个数作为子图像的面积；步骤S63:分别获取X方向以及Y方向上的积分投影的最大值；
步骤S64:将所述文字部分的面积除以所述子图像的面积，得到文字部分面积比，并将该文字部分面积比作为所述子图像一个特征值；
步骤S65:将所述X方向的积分投影的最大值除以所述Y方向的积分投影的最大值，得到最大投影值比，并该最大投影值比作为所述子图像的另一个特征值。
[0009]在本发明一实施例中，在所述步骤S65中，若作为除数的所述Y方向的积分投影的最大值为0，表示该子图像内不存在文字部分，则以O作为所述子图像的另一个特征值。
[0010]在本发明一实施例中，在所述步骤S7中，所述BP神经网络对所述特征向量进行训练以及识别，还包括如下步骤:
步骤S71:将所述特征向量作为所述BP神经网络的输入样本；
步骤S72:设置所述BP神经网络对于所述输入样本的预期输出；
步骤S73:设置所述BP神经网络的学习率；
步骤S74:获取所述BP神经网络的初始权值；
步骤S75:设置所述所述BP神经网络的训练截止误差；
步骤S76:通过所述BP神经网络对所述输入样本进行循环训练；
步骤S77:获取并保存所述输入样本的权值训练结果，作为输入识别样本；
步骤S78:对所述输入识别样本进行识别，获取所述识别结果。
[0011]相较于现有技术，本发明具有以下有益效果:本发明所提出的一种快速的多文字识别方法，有效地减少了某些特定情况下文字识别部分的时间消耗，例如一些图像自动化系统，且本发明实现方法简单，识别时将多个文字作为单个输入样本，直接输出这部分文字的结果，极大地提高了文字识别效率。
【附图说明】
[0012]图1为本发明中快速的多文字识别方法的流程图。
[0013]图2为本发明中所采取的BP神经网络进行训练的流程图。
[0014]图3为本发明一实施例中所采取的BP神经网络进行训练的流程图。
[0015]图4为本发明一实施例中“心想事成”处理结果。
[0016]图5为本发明一实施例中“心想事成”区域分割后的16个子图像。
【具体实施方式】
[0017]下面结合附图，对本发明的技术方案进行具体说明。
[0018]本发明提供一种快速的多文字识别方法，如图1所示，按照如下步骤实现:
步骤S1:将用户选取的文字识别区域作为当前文字识别区域；
步骤S2:将所述当前文字识别区域进行阈值化处理，获取文字识别区域图片；
步骤S3:对所述文字识别区域图片中的文字区域进行定位，使被定位的文字区域包含于该文字区域的最小外接矩形中，获取文字区域图片；
步骤S4:对所述文字区域图片进行大小归一化处理，并作为输入文字图片；
步骤S5:将所述输入文字图片进行区域分割，形成若干个子图像；
步骤S6:对所述子图像进行单独处理，获取所述子图像的特征值，并将所有子图像的特征值重新组合为一个特征向量；
步骤S7:使用BP (Back Propagat1n)神经网络对所述特征向量进行训练以及识别，并将识别结果作为所述当前文字识别区域中的文字。
[0019]进一步地，在本实施例中，在所述步骤S2中，所述阈值化处理可根据实际情况的不同选取不同的阈值化方法，使阈值化分割处理后的图像具有较好的效果，可采取的阈值化方法包括固定阈值化方法，自适应阈值化方法，大津法，迭代法等。
[0020]进一步地，在本实施例中，在所述步骤S3中，所述文字区域的最小外接矩形的四条边分别与所述文字区域的最上端、最下端、最左端以及最右端相切。
[0021]进一步地，在本实施例中，在所述步骤S5中，经所述输入文字图片区域分割后的各个子图像的大小均相等。且通常根据实际情况的不同，选取不同的子图像数目，通常子图像数目较多的，识别效果较好，但是应保证各个子图像的大小均相等。
[0022]进一步地，在本实施例中，在所述步骤S6中，所述子图像特征值的提取还包括如下步骤:
步骤S61:将所述子图像分别进行X方向和Y方向的积分投影；
步骤S62:在进行投影的同时，获取所述子图像上黑像素的总个数，并将该黑像素的总个数作为文字部分的面积，同时获取所述子图像上总像素点的总个数，并将该总像素点的总个数作为子图像的面积；
步骤S63:分别获取X方向以及Y方向上的积分投影的最大值；
步骤S64:将所述文字部分的面积除以所述子图像的面积，得到文字部分面积比，，并将该文字部分面积比作为所述子图像一个特征值；
步骤S65:将所述X方向的积分

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭太良;林志贤;林金堂;郭明勇;姚剑敏;叶芸;
技术所有人：福州大学;
我是此专利的发明人

上一篇：一种基于双目摄像头的车牌识别与定位方法
上一篇：具有图像传感器和可变透镜组件的标记读取终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。