一种自然场景图像中的中文定位、分割和识别方法与流程

文档序号：12306044阅读：3324来源：国知局

本发明属于图像处理技术领域，具体涉及一种在自然场景图像中的中文定位，分割和识别方法。

背景技术：

自然场景下的文本识别是一种非常重要的视觉检测目标，图像中的文本存有很多有用的信息，对视觉内容理解和获取至关重要。目前有很多相关的文本识别的应用，包括路标、车牌、票据等等。

一般来说，传统的ocr技术受自然场景复杂的背景影响，很难正确完成相关的任务。整体上来说，此类任务可以分为两个阶段，文本的定位和识别。文本的定位是对图像中文本位置的精确定位，主要是根据提取相关的文字特征，如msers，来区分字段和背景。目前相对于传统的基于文字特征的检测方法，也出现了通过对深度神经网络进行训练，从而实现文本定位的方法。不过此种方法往往需要大量的人工标注数据用于训练，同时训练好的模型也很难直接扩展到更多其他的应用场景中。

技术实现要素：

本发明的首要目的在于提供一种简单、有效，可以扩展应用更多场景的一种自然场景图像中的中文定位、分割和识别方法。

为了实现上目的，本发明采用的技术方案是：一种自然场景图像中的中文定位，分割及识别方法，包括以下步骤：

1）通过fastext模型对原始图片进行初步的文字定位，提取候选的文字区域；

2）通过对候选的文字区域进行预分割；

3）对预分割后的文字区域的单字部分进行识别，字段部分进行进一步的单字分割并加以识别。

进一步，候选的文字区域是通过fastext的getcharsegmentation功能进行提取的。

进一步，步骤2）中预分割的具体过程为：对候选的文字区域进行联通区域的标定，去掉一些较小的联通区域（噪声）后，将符合中文字符长宽比的区域认为是单字直接切出，取出剩下的联通区域。

进一步，步骤3）对预分割后的字段部分进行进一步的单字分割的具体过程为：

（1）通过对深度残差神经网络进行训练，得到一个单字识别器resnet；

（2）通过单字识别器对预分割后获得的单字结果直接进行识别；

（3）对预分割后获得的字段结果进一步单字分割，利用fastext获取字段图片中候选字符的区域范围，收集所有区域范围中的竖直线，将其作为单字分割的候选切分线集合；利用路径树的方法生成所有的候选的单字分割方案，每种路径对应一种单字分割方案；

（4）利用训练好的单字识别器resnet对任意一个单字分割方案（如）进行识别，记录识别的每个单字及相应的识别置信度（），然后取平均值；

（5）选取平均置信度最高单字分割方案作为最优单字分割方案；

（6）将最优单字分割方案对应的单字识别结果作为最优字段识别方案，输出相应的字段识别结果。

进一步，步骤（3）的每种路径上的候选单字对应的矩形框互不重叠且覆盖所有fastext检测出的文字笔画。

本发明利用一种基于文字笔画特征的文字笔画检测器fastext提取出候选单字和字段区域，然后在候选单字矩形框的基础上，提出一种路径树的方法，生成候选的单字分割方案。对于每种单字分割方案，利用深度残差神经网络训练出的单字识别器resnet对单字分割方案对应的所有单字进行识别并记录单字识别置信度，计算每种单字分割方案对应的字段识别置信度，选取具有最高字段识别置信度的方案作为最终的单字分割和识别方案。本发明利用文字笔画特征的准确提取，以及深度残差神经网络强大的文字识别能力，结合路径树的方法，简单有效的实现中文定位和识别的目的，能够应用于多种自然场景且无需监督训练。

与现有技术相比，本发明具有如下的有益效果：第一，针对中文字中较为明显的笔画结构特征，采用fastext模型，通过对文字笔画部分的检测，从而实现文字区域的初步定位，这一步有效地去除了背景因素的影响。第二，由于获取的候选区域中既有单字部分，也有字段部分。针对字段部分，本发明采用fastext对检测出的候选字段区域进行进一步的单字分割，同时利用深度残差神经网络对分割后的单字部分进行识别，这种方法将字段的分割和单字的识别融合在一起，并且在尝试所有候选分割方案的前提下，找出最优方案，因而具有更高的鲁棒性和精确性。

附图说明

图1是本发明的流程图。

图2是本发明对中文实例进行定位、识别的效果图。

具体实施方式

如图1所示，本实施例提供一种自然场景图像中的中文定位、分割和识别方法，流程可以分为以下几个步骤：

1）通过fastext模型对原始图片进行初步的文字定位，提取候选的文字区域；

2）通过对候选的文字区域进行预分割；

3）对预分割后的文字区域的单字部分进行识别，字段部分进行进一步的单字分割并加以识别。

如图2所示，其中图（a）是原始图片；步骤1利用fastext的getcharsegmentation功能提取候选图像区域，提取图像如图（b）所示；步骤2的预分割操作具体为先确定步骤1提取出的联通区域，在去掉一些较小的联通区域（噪声）后，将符合中文字符长宽比（接近1:1）的区域认为是单字直接切出，然后再取出剩下的联通区域（如图（c））；步骤3中，对于预分割获得的单字结果可以直接利用单字识别器进行识别，如图（c）中的“口”、“贸”、“易”、“有”、“限”、“公”、“司”，而对于字段结果需要进一步切分成单字，如图（c）中的“上海中实进出”，这里首先需要利用fastext获取字段图片中候选字符（labelcandidates）的区域范围（regionbox）（如图（d）所示）；接着我们收集所有区域范围中的竖直线，将其作为单字切分的候选切分线集合（如图（e）所示）；然后利用路径树的方法生成所有的候选的单字切分方案，对于任意一个单字切分方案（如），分别计算各个单个切分区域在单字识别器resnet上的置信度（），然后取平均值，在所有的切分方案中选择平均置信度最高的作为最终的单字切分方案，而该单字切分方案对应的字段识别结果则作为最终的字段识别结果。

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈凯;韦建;何建华;周异;黄征;杜保发;周文贵;查宏远
技术所有人：厦门商集企业咨询有限责任公司
我是此专利的发明人

上一篇：一种鸭肫和鸭腺胃食管分离装置的制作方法
上一篇：多角度三维空间调整支座的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。