智能移动终端场景文字处理方法

文档序号：6631741阅读：211来源：国知局

智能移动终端场景文字处理方法
【专利摘要】本发明涉及一种智能移动终端场景文字处理方法，包括步骤1：基于边缘的文本粗检测；步骤2、获取输入场景图像I的笔画宽度图T，对候选文本区域集合S中的每个候选文本区域进行笔画宽度和几何特征分析，剔除不符合要求的非文本区域，最后输出定位结果图L1；步骤3、识别预处理；步骤4、对切分后的单字符进行规范化和方向线素特征的提取操作；步骤5、基于Gabor特征的细分类。与现有技术相比，本发明的优点在于：准确率有了较大地提升，召回率较高，时间性能上有了大幅提升，字符识别的准确率大幅提升。
【专利说明】智能移动终端场景文字处理方法

【技术领域】
[0001] 本发明涉及模式识别中的文字模式识别领域，具体地涉及智能移动终端场景文字处理方法，用于对智能移动终端拍摄的场景文字进行识别。

【背景技术】
[0002] 随着信息技术的迅速发展，模式识别在很多科技领域得到了广泛的应用和重视，如人工智能、医学、神经生物学、武器制造、导航等领域。在这些领域中，常见的应用有指纹识别、人脸识别、光学字符识别、文字识别、精确制导、故障检测、语音识别和翻译等。模式识别技术的高速发展和广泛应用，极大地促进了国民经济建设和国防科技现代化建设。
[0003] 文字处理是模式识别领域的一个重要分支。现实世界中，人们离不开文字，自然场景文字的处理一直是模式识别中的热点问题之一。自从上世纪90年代以来，国际文档分析与识别会议（International Conference of Document Analysis and Recognition, ICDAR)每隔两年举行一次，极大地促进了文字处理技术的发展。
[0004] 随着移动智能终端的普及与发展，智能手机以其独有的便捷和智能越来越得到人们的钟爱。在日常生活中，人们看到自己感兴趣的文字，可以随时利用自己的手机拍摄成图片，然后提取其中的文字信息，这样会免去人们手写输入的麻烦，使人们的生活更加便捷。同时，移动终端上的文字处理还可以应用于其他多种领域，例如识别街道的路牌，结合GPS 定位，可以给盲人导航；识别汽车牌照，可以更加方便交警管理和记录信息；提取商店门牌的文字信息并翻译成使用者熟悉的语言，可以方便他们在国外的旅行等。因此，在智能手机上进行文字处理有极大的应用前景。
[0005] 然而，在智能手机上实现上述应用存在较大的技术挑战，主要体现在如下两方面：一方面，自然场景中文字的多样性和不确定性使得对自然场景中的文字处理变得异常困难；另一方面，智能手机的CPU、GPU的限制，对文字处理方法的准确度和实时性提出了更高的要求。
[0006] 综上，自然场景文字处理一直是图像识别领域的一个难点，尤其是在智能手机上进行文字处理，开展基于智能手机上的场景文字处理研究对人工智能的发展具有实际意义，对我国的信息化建设也具有重要作用。

【发明内容】

[0007] 本发明所要解决的技术问题是针对上述现有技术提供一种智能移动终端场景文字处理方法，该方法兼顾了速度和准确率，适合在移动平台中使用。
[0008] 本发明解决上述技术问题所采用的技术方案为：一种智能移动终端场景文字处理方法，其特征在于：包括如下步骤：
[0009] 步骤1 :基于边缘的文本粗检测，具体包括：
[0010] (1-1)、采用彩色图像边缘检测方法对智能移动终端内的输入场景图像I进行边缘检测，得到第一中间处理图像I' ；
[0011] (1-2)、对第一中间处理图像I'进行形态学运算，连接第一中间处理图像I'中的断裂文字以及相邻的文字，得到第二中间处理图像I' ；
[0012] (1-3)、通过寻找连通域的方法对第二中间处理图像I'进行处理，从而获得输入场景图像I的候选文本区域集合S ;
[0013] 步骤2、获取输入场景图像I的笔画宽度图T，对候选文本区域集合S中的每个候选文本区域进行笔画宽度和几何特征分析，剔除不符合要求的非文本区域，最后输出定位结果图Ll ;
[0014] 步骤3、识别预处理，具体包括：
[0015] (3-1)、对定位结果图Ll的文本区域进行对比度增强；
[0016] (3-2)、对增强后的文本区域进行中值滤波；
[0017] (3-3)、对中值滤波后的文本区域进行二值化；
[0018] (3-4)、对二值化后的文本区域进行字符切分；
[0019] 步骤4、对切分后的单字符进行规范化和方向线素特征的提取操作，具体包括： [0020] (4-1)、对切分后的每个字符进行裁剪，去掉字符周围的白色背景，对剪裁后的每幅字符图像采用双线性插值法将其尺寸统一变换为NXN ;
[0021] (4-2)、提取统一尺寸后单个字符的轮廓，并计算其方向线素特征；
[0022] (4-3)、采用距离分类器对每个字符进行识别，得到每个字符最接近的X个字符；
[0023] 步骤5、基于Gabor特征的细分类，具体包括：
[0024] (5-1)、将每个字符采用双线性插值法将其尺寸统一变换为MXM。
[0025] (5-2)、对统一尺寸后的字符进行Gabor变换，提取Gabor特征；
[0026] (5-3)、在（4-3)识别后得到每个字符最接近的X个字符的基础上，利用距离分类器再次进行识别，得出每个字符的识别结果。
[0027] 作为改进，所述步骤2具体包括：
[0028] (2-1)、利用Canny边缘检测方法对输入场景图像I进行边缘检测，得到输入场景图像I的边缘图，同时记录下每个边缘像素点的梯度方向；
[0029] (2-2)、对边缘像素点进行笔画宽度变换：
[0030] (2-2-1)、假设P是一个边缘像素点，设dp为边缘像素点P的梯度方向，按照dp方向沿着路线r = p+n ? dp (n 3 0)在边缘图的边缘像素点中寻找与其匹配的另一个边缘像素点q，设dq为边缘像素点q的梯度方向，dq与dp方向相反或dq = - dp± /2 ;
[0031] 如果P没有找到与其匹配的像素点q或者dq与dp的方向不是相反的，则该路线 r = p+n ? dp (n 3 0)被废弃，需要重新选择新的边缘像素点p并且找到与之相对的边缘像素点q ;
[0032] 如果找到相匹配的像素点q，则对应于[p，q]这条路线上的每个像素点的笔画宽度值均被指定为I Ip _ q| I，I Ip _ q| I为像素点P与像素点q之间的欧氏距离，如果[P，q] 这条路线上的像素点已经有了一个笔画宽度值S，则取S与I |p-q| I中较小的一个值作为该像素点的实际笔画宽度值；
[0033] (2-2-2)、重复（2-2-1)，直到计算出所有未被废弃的路线上像素的笔画宽度值；
[0034] (2-2-3)、再次遍历所有没有被丢弃的路线，计算出每个路线上全部像素的笔画宽度均值M，然后找出这条路线上所有笔画宽度值大于M的像素，再把这些像素的笔画宽度值置为M，直到所有路线遍历完毕后，最终得到输入场景图像I的笔画宽度图T ;
[0035] (2-3)、在步骤（2-3)得到的输入场景图像I的笔画宽度图T基础上，对应找到步骤1得到的候选文本区域集合S，然后对候选文本区域集合S进行筛选，筛选规则如下：
[0036] (2-3-a)、将长宽比例不在0. 1到10之间的候选文本区域剔除；
[0037] (2-3-b)、将字符宽度不在W/20和W个像素之间，高度不在H/20和H之间的候选文本区域剔除，其中W和H分别表示图像的宽度和高度；
[0038] (2-3-c)、将面积小于20个像素的候选文本区域删除；
[0039] (2-3-d)、对候选文本区域集合S进行二值化，计算黑色像素点所占的比例Rb,将黑色像素点所占的比例Rb不在0. 2和0. 8之间的候选文本区域剔除，Rb的定义为

【权利要求】
1. 一种智能移动终端场景文字处理方法，其特征在于：包括如下步骤：步骤1:基于边缘的文本粗检测，具体包括： (1-1)、采用彩色图像边缘检测方法对智能移动终端内的输入场景图像I进行边缘检测，得到第一中间处理图像I' ； (1-2)、对第一中间处理图像I'进行形态学运算，连接第一中间处理图像I'中的断裂文字以及相邻的文字，得到第二中间处理图像I' ； (1-3)、通过寻找连通域的方法对第二中间处理图像I'进行处理，从而获得输入场景图像I的候选文本区域集合S; 步骤2、获取输入场景图像I的笔画宽度图T，对候选文本区域集合S中的每个候选文本区域进行笔画宽度和几何特征分析，剔除不符合要求的非文本区域，最后输出定位结果图L1 ; 步骤3、识别预处理，具体包括： (3-1)、对定位结果图L1的文本区域进行对比度增强； (3-2)、对增强后的文本区域进行中值滤波； (3-3)、对中值滤波后的文本区域进行二值化； (3-4)、对二值化后的文本区域进行字符切分；步骤4、对切分后的单字符进行规范化和方向线素特征的提取操作，具体包括： (4-1)、对切分后的每个字符进行裁剪，去掉字符周围的白色背景，对剪裁后的每幅字符图像采用双线性插值法将其尺寸统一变换为NXN; (4-2)、提取统一尺寸后单个字符的轮廓，并计算其方向线素特征； (4-3)、采用距离分类器对每个字符进行识别，得到每个字符最接近的X个字符；步骤5、基于Gabor特征的细分类，具体包括： (5-1)、将每个字符采用双线性插值法将其尺寸统一变换为MXM。 (5-2)、对统一尺寸后的字符进行Gabor变换，提取Gabor特征； (5-3)、在（4-3)识别后得到每个字符最接近的X个字符的基础上，利用距离分类器再次进行识别，得出每个字符的识别结果。
2. 根据权利要求1所述的智能移动终端场景文字处理方法，其特征在于：所述步骤2 具体包括： (2-1)、利用Canny边缘检测方法对输入场景图像I进行边缘检测，得到输入场景图像I的边缘图，同时记录下每个边缘像素点的梯度方向； (2-2)、对边缘像素点进行笔画宽度变换： (2-2-1)、假设p是一个边缘像素点，设dp为边缘像素点p的梯度方向，按照dp方向沿着路线r=p+n?dp(n3 0)在边缘图的边缘像素点中寻找与其匹配的另一个边缘像素点 q，设dq为边缘像素点q的梯度方向，dq与dp方向相反或dq= -dp± 31 /2 ; 如果P没有找到与其匹配的像素点q或者dq与dp的方向不是相反的，则该路线r=p+n?dp(n3 0)被废弃，需要重新选择新的边缘像素点p并且找到与之相对的边缘像素点 Q; 如果找到相匹配的像素点q，则对应于[P，q]这条路线上的每个像素点的笔画宽度值均被指定为I|p-q|I，I|p-q|I为像素点P与像素点q之间的欧氏距离，如果[P，q]这条路线上的像素点已经有了一个笔画宽度值s，则取s与| |p-q| |中较小的一个值作为该像素点的实际笔画宽度值； (2-2-2)、重复（2-2-1)，直到计算出所有未被废弃的路线上像素的笔画宽度值； (2-2-3)、再次遍历所有没有被丢弃的路线，计算出每个路线上全部像素的笔画宽度均值M，然后找出这条路线上所有笔画宽度值大于M的像素，再把这些像素的笔画宽度值置为 M，直到所有路线遍历完毕后，最终得到输入场景图像I的笔画宽度图T; (2-3)、在步骤（2-3)得到的输入场景图像I的笔画宽度图T基础上，对应找到步骤1 得到的候选文本区域集合S，然后对候选文本区域集合S进行筛选，筛选规则如下： (2-3-a)、将长宽比例不在0. 1到10之间的候选文本区域剔除； (2-3-b)、将字符宽度不在W/20和W个像素之间，高度不在H/20和H之间的候选文本区域剔除，其中W和H分别表示图像的宽度和高度； (2-3-c)、将面积小于20个像素的候选文本区域删除； (2-3-d)、对候选文本区域集合S进行二值化，计算黑色像素点所占的比例Rb，将黑色像素点所占的比例Rb不在0. 2和0. 8之间的候选文本区域剔除，Rb的定义为
其中，f(i，j)表示的是候选文本区域图像中（i，j)位置的像素值，w，h分别表示的是候选文本区域的宽度和高度，?表示的是异或运算； (2-3-e)、对候选文本区域集合S进行二值化，计算该区域的交叉性Rcc，将交叉性Rcc不在0. 05和0. 6之间的候选文本区域剔除，交叉性Rcc的定义为：
其中，f(i，j)表示的是候选文本区域图像中（i，j)位置的像素值，f(i，j+1)表示的是候选文本区域图像中（i，j+l)位置的像素值，w，h分别表示的是候选文本区域的宽度和高度，?表不的是异或运算； (2-3-f)、对候选文本区域集合S进行笔画宽度变换，得到将所有候选文本区域的第一笔画宽度图，将候选文本区域集合S反色后再进行笔画宽度变换，得到将所有候选文本区域的第二笔画宽度图，如果某一候选文本区域的第一笔画宽度图和第二笔画宽度图中，笔画宽度方差均超过笔画宽度的平均值的一半，并且相邻像素的笔画宽度比均超过3.0,则将该候选文本区域剔除； (2-4)、文本检测输出：经过（2-3)的筛选后，得到最终的文本区域，然后根据各个文本区域的位置关系，按照从上到下、从左至右的规则进行排序和编号，排序完成之后，将文本区输出。
3.根据权利要求1所述的智能移动终端场景文字处理方法，其特征在于：所述（3-1) 中采用直方图均衡化算法对定位结果图L1的候选区域进行对比度增强；所述（3-2)中采用 3X3矩形滑动模板对增强后的区域进行中值滤波，即采用3X3矩形滑动模板，将模板内的像素按照像素值的大小进行排序，生成单调上升或下降的二维数据序列，再用这组的中值替换模板内每个像素的值，然后输出；所述步骤（3-3)采用最大类间方差法对中值滤波后的区域进行二值化。
4.根据权利要求1所述的智能移动终端场景文字处理方法，其特征在于：所述（2-2) 中，重复执行（2-2_1)、（2-2_2)和（2_2_3) -次，重复执行时，（2_2_1)中，按照-dp方向沿着路线r=p+n?dp(n$ 0)在边缘图的边缘像素点中寻找与其匹配的另一个边缘像素点 q〇
【文档编号】G06K9/20GK104408449SQ201410581464
【公开日】2015年3月11日申请日期:2014年10月27日优先权日:2014年10月27日
【发明者】卢朝阳, 李静, 刘晓佩, 姜维, 通天意, 汪文芳申请人:西安电子科技大学宁波信息技术研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢朝阳;李静;刘晓佩;姜维;通天意;汪文芳;
技术所有人：西安电子科技大学宁波信息技术研究院;
我是此专利的发明人

上一篇：一种轧机多智能体模型系统的信息交换方法
上一篇：一种非对称失真立体图像客观质量评价方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。