一种基于深度学习的汉字识别系统的实现方法与流程

文档序号：11143308阅读：1078来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像处理技术领域，具体地说是一种基于深度学习的汉字识别系统的实现方法。

背景技术：

随着互联网和人工智能的迅猛发展，交流和信息传递方式从文字向图片和语音的方式转变，图片文字信息的识别的成为一个重要需求。

传统的文字信息识别方法，通过计算图片像素、图片中文字的外围结构、笔划方向等，生成单个文字特征库，识别环节通过与特征库比对找出最小距离，从而判断文字类别，对于不同字号、横纵拉伸及旋转的文字图片识别能力差。

技术实现要素：

本发明的技术任务是针对以上不足之处，提供一种基于深度学习的汉字识别系统的实现方法，使用图像处理技术完成灰度化、二值化，泛化能力强，抗干扰能力强。

本发明解决其技术问题所采用的技术方案是：

一种基于深度学习的汉字识别系统的实现方法，将包含文字的图片进行预处理、切分、识别，重组成一段文本，从而实现图片到文本的转换；包括：

1）图片预处理：用于对输入的原始图片灰度化、二值化、倾斜校正，得到一张比较规整的图片；

2）图片切分：用于对输入的大篇幅文字的图片切分，先切分成行，然后对每一行切分出单个的字；

3）图片识别：用于识别切分出的单个字，将每个单字图片调用识别模块，得出识别文字结果；

4）文本重组：用于对得到的单个字识别结果按照顺序组合，并进行校正，最终产出识别结果文本段。

汉字识别系统，使用图像处理技术完成灰度化、二值化，使用图片像素统计、分析，实现倾斜校正和行、字切分，引入深度学习，实现文字图片识别，引入自然语言处理，实现文本重组和校正。

使用技术：基于汉字识别的图片质量和性能要求，整个识别系统采用C/C++编写，图像处理模块部分调用opencv的处理接口，深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。

图像预处理：输入的文字图像多为多通道、有噪声和有倾斜的图片，在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片，然后将其通过阈值转化为只有0和1的二值化图片，接着分析图片中的文字区域，将其切割出来，对切割图片进行倾斜校正，尽量保证行是水平的，最后对文字区域进行行切割，对每行进行字切割。其中切割部分采用投影方法，行切割中，对每行进行投影，根据行间的空白部分，统计切割出每一行；对于每行文字，采用列投影，根据字间隔统计字的大致宽度及字之间的间隔距离，然后在切割中对每个字宽和左右部首宽度做具体策略，先统计后切割，根据输入图片动态调整阈值，最终实现窄字符及左右或左中右结构汉字不被切割错，完成字切割。

图像识别：图像识别指单个文字图像的识别，包括训练和模型使用两部分。训练过程中，先生成训练和测试两个数据集合，本发明主要针对印刷体的宋体、仿宋、黑体和楷体四种类型，字号采用小四，扫描后切割出单个字符图像，通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合，组合北邮的手写样本1000*3755，最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测，通过模型调节和测试，最终产出网络模型和参数权重文件。

汉字识别系统流程实现：前端部分为图片输入，后端对输入的图像进行预处理、行字切割，调用深度网络模型识别单个图像汉字类别，并按照原始图像的段落重新组合出文本段，然后调用自然语言处理的相关接口，完成文本校正，并将其返回到前端。对于用户使用，只需将待检测图片上传，服务器经过一系列运算，将识别结果返回给用户。

使用时，用户只需要将待识别的文字图片上传，通信服务器将图片转发至后端服务器。后端服务器首先将图片进行灰度化、二值化、倾斜校正、行字切分，调用深度网络模型，计算得到分类预测。然后将单字图片的预测文字按照行和段组合，并调用自然语言处理词库进行文本校正，最后将校正后的文本段返回给用户。

本发明的一种基于深度学习的汉字识别系统的实现方法和现有技术相比，具有以下有益效果：

用户使用移动端或web端上传待识别文字图片后，后端服务器实时计算，完成图片预处理、分割和识别，文本校正后返回给用户。整个后端多任务并发执行，快速反馈结果，并且可以同时响应多个用户的请求；

前端提供用户编辑接口，用户可以标注版面、调整图片倾斜等，满足自主编辑，同时提供一键化识别；

引入深度网络结构，使识别准确率比传统方法提升，同时降低开发者对图像及文字相关专业知识的大量学习成本。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

一种基于深度学习的汉字识别系统的实现方法，将包含文字的图片进行预处理、切分、识别，重组成一段文本，从而实现图片到文本的转换；使用技术：基于汉字识别的图片质量和性能要求，整个识别系统采用C/C++编写，图像处理模块部分调用opencv的处理接口，深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。

包括：

1）图片预处理：用于对输入的原始图片灰度化、二值化、倾斜校正，得到一张比较规整的图片。输入的文字图像多为多通道、有噪声和有倾斜的图片，在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片，然后将其通过阈值转化为只有0和1的二值化图片，接着分析图片中的文字区域，将其切割出来，对切割图片进行倾斜校正，尽量保证行是水平的，最后对文字区域进行行切割，对每行进行字切割。其中切割部分采用投影方法，行切割中，对每行进行投影，根据行间的空白部分，统计切割出每一行；对于每行文字，采用列投影，根据字间隔统计字的大致宽度及字之间的间隔距离，然后在切割中对每个字宽和左右部首宽度做具体策略，先统计后切割，根据输入图片动态调整阈值，最终实现窄字符及左右或左中右结构汉字不被切割错，完成字切割。

2）图片切分：用于对输入的大篇幅文字的图片切分，先切分成行，然后对每一行切分出单个的字。

3）图片识别：用于识别切分出的单个字，将每个单字图片调用识别模块，得出识别文字结果。图像识别指单个文字图像的识别，包括训练和模型使用两部分。训练过程中，先生成训练和测试两个数据集合，本发明主要针对印刷体的宋体、仿宋、黑体和楷体四种类型，字号采用小四，扫描后切割出单个字符图像，通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合，组合北邮的手写样本1000*3755，最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测，通过模型调节和测试，最终产出网络模型和参数权重文件。

4）文本重组：用于对得到的单个字识别结果按照顺序组合，并进行校正，最终产出识别结果文本段。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：衣秀;陈安猛;房善华;王本强;郭运艳
技术所有人：浪潮软件集团有限公司
我是此专利的发明人

上一篇：图像自动裁剪方法与制造工艺
上一篇：一种LED字符自动定位识别方法与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。