一种基于垂直字符定位扩展的分割方法与流程

文档序号：21460301发布日期：2020-07-10 17:59阅读：151来源：国知局

本发明涉及文本图像处理技术领域，尤其涉及一种基于垂直字符定位扩展的分割方法。

背景技术：

机器视觉作为人工智能的一个重要分支，近年来取得了飞速发展，并已在各行各业中得到了广泛的应用，极大地提高了人类的生产力和生产方式，不仅减少了人们的劳作，而且减轻了人们的工作负担，为人们的生活方式带来了巨大的便利和改善。

在教育领域，计算机视觉技术已全面应用到了自动化批阅系统中，它能够帮助老师进行试卷的自动化批阅。这不仅大大缩减了老师手动批改试卷所使用的时间，而且提高了老师的工作效率。虽然自动化批阅系统已近趋完善，但实际应用仍面临很多问题，其中的ocr技术很大程度上完全依赖于实际书写的规范性程度，如学生在卷面上作答时由于答案区范围受限，导致书写的字符粘连、超出作答区等情形出现。这会致使答案定位时面临严重问题，甚至无法准确定位学生的答案，最终无法正确识别。

为了能够准确定位答案，本申请提出一种基于垂直字符定位扩展的分割方法，用于解决垂直粘连或无法分开的交错型字符，并在分割时做多次答案区扩展，以便得到含有完整答案的字符图片，达到准确识别的目的。

技术实现要素：

本发明要解决的技术问题是，提供一种基于垂直字符定位扩展的分割方法，解决了垂直粘连或无法分开的交错型字符，并在分割时做多次答案区扩展，以便得到含有完整答案的字符图片，提高了识别的准确率，实现准确识别的目的。

为了解决上述技术问题，本发明采用的技术方案是：该基于垂直字符定位扩展的分割方法，具体包括以下步骤：

(1)文本行定位：对试卷进行进行文本行定位，定位得到的坐标即为所确定文本行高度；

(2)答案区裁剪：将试卷的答案区根据所述步骤(1)确定的所述文本行的高度进行裁剪，分离出包含答案的字符图片；若步骤(2)中分离出的包含答案的字符图片中的答案出现粘连或答案未完全在所述答案区，则对所述文本行进行粘连扩展或残缺扩展后再裁剪获得包含完整答案的字符图片；

(3)字符识别：对所述步骤(2)中通过扩展获得的所述的包含答案的字符图片采用卷积神经网络cnn进行批量识别，获得识别答案；

(4)结果判断：将批量识别得到的所述识别答案与所述答案库中的答案进行比较，得出识别答案是否为正确答案。

作为本发明的优选技术方案，所述步骤(2)中若分离出的包含答案的字符图片中的答案出现粘连，则对所述文本行进行粘连扩展后再裁剪获得所述包含答案的字符图片的具体步骤为：

s21-1首先通过所述文本行和上方文本行以及下方文本行之间的空间确定扩展高度；

s21-2先根据高度向上扩展，裁剪出一张新的图片a；

s21-3再根据高度向下扩展，裁剪出一张新的图片b；

s21-4再根据所述步骤s21-1和s21-2扩展的高度同时向上和向下都扩展至少一次，裁剪出一张新的图片c，获得所述包含答案的字符图片。此处可在扩展的高度范围内扩展多次。采用传统连通域无法定位到准确的字符，而且直接按照文本行高度进行裁剪的结果也可能不是完整的字符；因此出现粘连则需要进行粘连扩展再裁剪。

作为本发明的优选技术方案，所述步骤(2)中若分离出的包含答案的字符图片中的答案未完全在所述答案区的特征为上下结构的字符被定位为两个或者多个连通域。

作为本发明的优选技术方案，所述步骤(2)中若分离出的包含答案的字符图片中的答案未完全在所述答案区，则对所述文本行进行残缺扩展后再裁剪获得所述包含答案的字符图片的具体步骤为：

s22-1在所述答案区进行上下扩展，对扩展后的图片进行连通域定位，获得若个连通域，再根据所述答案库获取当前答案区出现的字符个数做进一步判断；

s22-1-1若定位的所述连通域个数与当前答案区出现的字符个数相同，则不进一步处理；

s22-1-2若定位的所述连通域个数多于当前答案区出现的字符个数，说明手写文字中存在上下结构关系的文字，则对定位到所述若干个的连通域内容进行融合，将所述答案区和扩展的内容合并为一个识别区域。

作为本发明的优选技术方案，所述步骤(4)中若多个所述识别答案中有一个与所述答案库中答案比对相符，则判断此题的答案回答正确；若多个所述识别答案均与所述答案库中的答案不符，则判断此题的答案为错误答案。

作为本发明的优选技术方案，所述步骤s22-1中对扩展后的图片进行连通域定位，所述连通域定位具体的步为：首先，按行和列遍历图片中第一个有像素值的点p(x,y)，并赋予其一个label，然后将与该像素点相邻的所有前景像素都压入栈中；其次，弹出栈顶像素，赋予所述栈顶像素相同的label，然后再将与所述栈顶像素相邻的所有前景像素都压入栈中，重复此步骤，直至栈为空，便得到了图片中的某一个连通区域；最后，重复上述步骤，完成整张图片的遍历，最终可得到图片中所有字符的连通区域，从而实现文本字符的定位。

与现有技术相比，本发明具有的有益效果是：该基于垂直字符定位扩展的分割方法解决了垂直粘连或无法分开的交错型字符，并在分割时做多次答案区扩展，以便得到含有完整答案的字符图片，提高了识别的准确率。

附图说明

下面结合附图进一步描述本发明的技术方案：

图1是本发明的基于垂直字符定位扩展的分割方法的流程图；

图2是本发明的基于垂直字符定位扩展的分割方法中的步骤(1)中的文本行高度示意图；

图3是本发明的基于垂直字符定位扩展的分割方法中的步骤(2)裁剪出现粘连现象图；

图4是本发明的基于垂直字符定位扩展的分割方法中的步骤(2)裁剪出残缺现象图；

图5是本发明的基于垂直字符定位扩展的分割方法中的步骤s21-2向上扩展示意图；

图6是本发明的基于垂直字符定位扩展的分割方法中的步骤s21-3向上扩展示意图；

图7是本发明的基于垂直字符定位扩展的分割方法中的步骤s21-4向上扩展示意图；

图8是本发明的基于垂直字符定位扩展的分割方法中的步骤s22-1-2扩展融合示意图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

实施例：如图1所示，该基于垂直字符定位扩展的分割方法，具体包括以下步骤：

(1)文本行定位：对试卷进行进行文本行定位，定位得到的坐标即为所确定文本行高度；不同的文本行的高度不同，文本行的高度决定了图像分割的高度；如图2所示；

(2)答案区裁剪：将试卷的答案区根据所述步骤(1)确定的所述文本行的高度进行裁剪，分离出包含答案的字符图片；若步骤(2)中分离出的包含答案的字符图片中的答案出现粘连或答案未完全在所述答案区，则对所述文本行进行粘连扩展或残缺扩展后再裁剪获得包含完整答案的字符图片；分离出来的答案可能会有粘连情况，如图3所示，或者答案未完全在答案区等情况，如图4所示；此步骤裁剪的答案并不一定符合最终的识别要求；即可能出现没有包含完整答案的字符图片；

所述步骤(2)中若分离出的包含答案的字符图片中的答案出现粘连，则对所述文本行进行粘连扩展后再裁剪获得所述包含答案的字符图片的具体步骤为：

s21-1首先通过所述文本行和上方文本行以及下方文本行之间的空间确定扩展高度；

s21-2先根据高度向上扩展，裁剪出一张新的图片a；如图5所示，

s21-3再根据高度向下扩展，裁剪出一张新的图片b；如图6所示，

s21-4再根据所述步骤s21-1和s21-2扩展的高度同时向上和向下都扩展至少一次，裁剪出一张新的图片c，如图7所示，获得所述包含答案的字符图片；此处可在扩展的高度范围内扩展多次，从而获得包含完整答案的字符图片；

所述步骤(2)中若分离出的包含答案的字符图片中的答案未完全在所述答案区的特征为上下结构的字符被定位为两个或者多个连通域；字符不仅可能会有粘连，还有可能出现定位不完整残缺的情况，此现象一般出现在语文字符中，特征为上下结构的字被定位成两个或者多个连通域，如图3所示，黑字被定位成两个部分，如果只取一个连通域就会导致识别错误；

所述步骤(2)中若分离出的包含答案的字符图片中的答案未完全在所述答案区，则对所述文本行进行残缺扩展后再裁剪获得所述包含答案的字符图片的具体步骤为：

s22-1在所述答案区进行上下扩展，对扩展后的图片进行连通域定位，获得若个连通域，再根据所述答案库获取当前答案区出现的字符个数做进一步判断；所述步骤s22-1中对扩展后的图片进行连通域定位，所述连通域定位具体的步为：首先，按行和列遍历图片中第一个有像素值的点p(x,y)，并赋予其一个label，然后将与该像素点相邻的所有前景像素都压入栈中；其次，弹出栈顶像素，赋予所述栈顶像素相同的label，然后再将与所述栈顶像素相邻的所有前景像素都压入栈中，重复此步骤，直至栈为空，便得到了图片中的某一个连通区域；最后，重复上述步骤，完成整张图片的遍历，最终可得到图片中所有字符的连通区域，从而实现文本字符的定位。

s22-1-1若定位的所述连通域个数与当前答案区出现的字符个数相同，则不进一步处理；

s22-1-2若定位的所述连通域个数多于当前答案区出现的字符个数，说明手写文字中存在上下结构关系的文字，则对定位到所述若干个的连通域内容进行融合，将所述答案区和扩展的内容合并为一个识别区域；

如图8所示，“黑”的下面四点与上半部分是分离的，导致无法定位到完整的字符，所以根据答案区位置对上下进行扩展，最终融合“黑”的上半部分和下半部分，即将答案区和扩展的内容合并为一个识别区域；

(3)字符识别：对所述步骤(2)中通过扩展获得的所述的包含答案的字符图片采用卷积神经网络cnn进行批量识别，获得识别答案；

(4)结果判断：将批量识别得到的所述识别答案与所述答案库中的答案进行比较，得出识别答案是否为正确答案；

所述步骤(4)中若多个所述识别答案中有一个与所述答案库中答案比对相符，则判断此题的答案回答正确；若多个所述识别答案均与所述答案库中的答案不符，则判断此题的答案为错误答案。

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴冬华;江人杰
技术所有人：南京红松信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。