一种快速的多文字识别方法_2

文档序号：9350377阅读：来源：国知局

投影的最大值除以所述Y方向的积分投影的最大值，得到最大投影值比，并该最大投影值比作为所述子图像的另一个特征值。
[0023]进一步地，在本实施例中，在所述步骤S65中，若作为除数的所述Y方向的积分投影的最大值为0，表示该子图像内不存在文字部分，则以O作为所述子图像的另一个特征值。
[0024]进一步地，在本实施例中，在所述步骤S7中，如图2所示，所述BP神经网络对所述特征向量进行训练，还包括如下步骤:
步骤S71:将所述特征向量作为所述BP神经网络的输入样本；
步骤S72:设置所述BP神经网络对于所述输入样本的预期输出；
步骤S73:设置所述BP神经网络的学习率；
步骤S74:获取所述BP神经网络的初始权值；
步骤S75:设置所述所述BP神经网络的训练截止误差；
步骤S76:通过所述BP神经网络对所述输入样本进行循环训练；
步骤S77:获取并保存所述输入样本的权值训练结果，作为输入识别样本；
步骤S78:对所述输入识别样本进行识别，获取所述识别结果。
[0025]为了让本领域人员进一步了解本发明所提出的一种快速的多文字识别方法，下面结合一具体实施例进行说明。
[0026]如图3~图5所示，在本实施例中，以成语“心想事成”为作为被识别对象，字体为微软雅黑，经过区域选取、阈值化、定位、大小归一化之后提取出归一化图像。在本实施例中，阈值化处理选择固定阈值化方法，选取的阈值化值为60，选择将该归一化进行16等分，即Y方向2等分，X方向8等分，形成16个大小相同的字图像。
[0027]根据步骤S6提取出各个子图像特征值，并组成“心想事成”成语的特征向量，且特征向量为{2.400000，0.073333，1.500000，0.095000，1.055556，0.246667，0.857143，0.355000,0.909091,0.221667,0.833333,0.258333,0.777778,0.223333,0.909091，0.278333,2.250000,0.140000,0.625000,0.151667，1.555556,0.190000,0.714286，0.315000,0.954545,0.273333,0.833333,0.280000,0.923077,0.221667，1.076923，0.230000}ο
[0028]将该特征向量作为BP神经网络的输入样本，通过神经网络对该成语进行训练，训练完毕后，即可进行识别，并获取识别结果。
[0029]在本实施例中，以window7 x64，CPU为奔腾T4400，内存为4G平台进行试验，对于输入的成语心想事成，16ms即可完成识别，并输出识别结果。
[0030]以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。
【主权项】
1.一种快速的多文字识别方法，其特征在于，按照如下步骤实现: 步骤S1:将用户选取的文字识别区域作为当前文字识别区域；步骤S2:将所述当前文字识别区域进行阈值化处理，获取文字识别区域图片；步骤S3:对所述文字识别区域图片中的文字区域进行定位，使被定位的文字区域包含于该文字区域的最小外接矩形中，获取文字区域图片；步骤S4:对所述文字区域图片进行大小归一化处理，并作为输入文字图片；步骤S5:将所述输入文字图片进行区域分割，形成若干个子图像；步骤S6:对所述子图像进行单独处理，获取所述子图像的特征值，并将所有子图像的特征值重新组合为一个特征向量；步骤S7:使用BP神经网络对所述特征向量进行训练以及识别，并将识别结果作为所述当前文字识别区域中的文字。2.根据权利要求1所述的一种快速的多文字识别方法，其特征在于，在所述步骤S2中，所述阈值化处理包括固定阈值化方法、自适应阈值化方法、大津法或迭代法。3.根据权利要求1所述的一种快速的多文字识别方法，其特征在于，在所述步骤S3中，所述文字区域的最小外接矩形的四条边分别与所述文字区域的最上端、最下端、最左端以及最右端相切。4.根据权利要求1所述的一种快速的多文字识别方法，其特征在于，在所述步骤S5中，经所述输入文字图片区域分割后的各个子图像的大小均相等。5.根据权利要求1所述的一种快速的多文字识别方法，其特征在于，在所述步骤S6中，所述子图像特征值的提取还包括如下步骤: 步骤S61:将所述子图像分别进行X方向和Y方向的积分投影；步骤S62:在进行投影的同时，获取所述子图像上黑像素的总个数，并将该黑像素的总个数作为文字部分的面积，同时获取所述子图像上总像素点的总个数，并将该总像素点的总个数作为子图像的面积；步骤S63:分别获取X方向以及Y方向上的积分投影的最大值；步骤S64:将所述文字部分的面积除以所述子图像的面积，得到文字部分面积比，并将该文字部分面积比作为所述子图像一个特征值；步骤S65:将所述X方向的积分投影的最大值除以所述Y方向的积分投影的最大值，得到最大投影值比，并该最大投影值比作为所述子图像的另一个特征值。6.根据权利要求5所述的一种快速的多文字识别方法，其特征在于，在所述步骤S65中，若作为除数的所述Y方向的积分投影的最大值为O，表示该子图像内不存在文字部分，则以O作为所述子图像的另一个特征值。7.根据权利要求1所述的一种快速的多文字识别方法，其特征在于，在所述步骤S7中，所述BP神经网络对所述特征向量进行训练以及识别，还包括如下步骤: 步骤S71:将所述特征向量作为所述BP神经网络的输入样本；步骤S72:设置所述BP神经网络对于所述输入样本的预期输出；步骤S73:设置所述BP神经网络的学习率；步骤S74:获取所述BP神经网络的初始权值；步骤S75:设置所述所述BP神经网络的训练截止误差；步骤S76:通过所述BP神经网络对所述输入样本进行循环训练；步骤S77:获取并保存所述输入样本的权值训练结果，作为输入识别样本；步骤S78:对所述输入识别样本进行识别，获取所述识别结果。
【专利摘要】本发明涉及一种快速的多文字识别方法，步骤如下：将用户选取的文字识别区域作为当前文字识别区域；将当前文字识别区域进行阈值化处理，获取文字识别区域图片；对文字识别区域图片中的文字区域进行定位，使被定位的文字区域包含于该文字区域的最小外接矩形中，获取文字区域图片；对文字区域图片进行大小归一化处理，并作为输入文字图片；将输入文字图片进行区域分割，形成若干个子图像；获取所述子图像的特征值，并将所有子图像的特征值重新组合为一个特征向量；使用BP（<b>Back？Propagation</b>）神经网络对特征向量进行训练，并将训练结果作为所述当前文字识别区域中的文字。本发明实现方式简单，在一定程度上提升了文字识别的速度。
【IPC分类】G06N3/08, G06K9/20, G06K9/62
【公开号】CN105069450
【申请号】CN201510415863
【发明人】郭太良, 林志贤, 林金堂, 郭明勇, 姚剑敏, 叶芸
【申请人】福州大学
【公开日】2015年11月18日
【申请日】2015年7月16日

完整全部详细技术资料下载

当前第2页1 2