一种基于多尺度图匹配核的场景字符识别方法

文档序号：6519314阅读：342来源：国知局

一种基于多尺度图匹配核的场景字符识别方法
【专利摘要】本发明的各实施方式提供了一种基于多尺度图匹配核的场景字符识别方法包括如下步骤：步骤S1：将所有训练图片进行不同尺度的网格划分,并将每幅图片表示为基于这些网格划分的无向图；步骤S2：在每个所述不同尺度的网格划分下，得到所有训练图片两两之间的一个相似度矩阵,将所述相似度矩阵作为支持向量机SVM的核矩阵；步骤S3：进行多核融合,将融合后的核作为所述支持向量机SVM的最终核；步骤S4：获得所述测试图片与所有训练图片之间的相似度核矩阵；以及步骤S5：将每个所述不同尺度下分别得到的相似度核矩阵进行多核融合，将融合后的核作为所述SVM分类器的输入，用所述SVM分类器得到最终的识别结果。
【专利说明】—种基于多尺度图匹配核的场景字符识别方法
【技术领域】
[0001]本发明涉及模式识别与机器视觉领域中的自然场景中场景字符识别领域，具体的涉及一种基于多尺度图匹配核的场景字符识别方法。
【背景技术】
[0002]文字是人们进行交流的主要媒介，真正智能的计算机，需要有识别和理解我们人类语言和文字的能力，光学字符识别(OCR)的概念在计算机时代之前就已经产生了，经过约半个世纪的发展，现阶段扫描文档的识别已经成功地应用于各行各业，为文档的保存及快速检索提供了便利。近年来，智能手机迅速覆盖市场，智能手机一般都装配摄像头，让手机自动理解用户拍摄的图片及视频的高层语义信息无疑具有巨大的应用需求，因此，这也成为近年来的计算机视觉及模式识别领域的研究热点。图片和视频等多媒体文档中大都含有文本信息，与颜色、纹理、边缘、亮度、形状等底层信息相比，图片和视频中的文字直接承载了语义信息，因而文字成为理解图片内容的重要线索。基于识别出的文字信息，可以促成诸如自动翻译、交通监控、安全监察等多种多样的应用。然而，由于真实场景中字符本身的光照、分辨率、形变等各种退化，以及字符背景的不可预见性，即使直接利用传统的OCR识别效果较差，因此真实场景中文字识别方法具有很强的研究必要。
[0003]现有的文本块识别方法大致分为两类:传统的基于二值化、分割再识别的方法，以及基于目标识别的方法。传统的方法基于成熟的OCR识别引擎，由于OCR识别引擎需要二值输入，因此需要对场景中文本块二值化。然而，由于场景文字的颜色、分辨率、光照的多变性，以及场景中各种背景的干扰，传统的二值化方法很多都会失效。如果二值化效果不好，后续的分割及识别效果将很差，而且由二值化带来的识别错误是不能通过后续处理纠正的。
[0004]基于目标识别的方法无需二值化，但此类方法假设文字是一种类内差距较大的目标，采用目标识别的方法来对其进行识别，大部分方法直接在原始图片上提取相应的特征，用各种分类器来进行识别。

【发明内容】

[0005]鉴于以上现状，本发明的一个目的在于克服上述已有文本块识别方法中的至少一个缺陷。本申请的发明人意识到文字是由人类设计的，每个文字均有其特有的结构，因此在识别时应该尽量用到文字的结构信息，在识别框架中利用文字的结构不变性的约束，从而提高识别效果。由此，本发明的基本构思是将文字表示为基于不同尺度划分的无向图，通过图匹配得到两幅图片之间的相似度，以此相似度作为SVM的核来对其进行分类识别。
[0006]因此，根据本发明的又一个目的在于提供了一种基于多尺度图匹配核的场景字符识别方法，其特征在于，包括训练步骤和测试步骤，其中所述训练步骤包括:
步骤S1:将所有训练图片进行不同尺度的网格划分，并将每幅图片表示为基于这些网格划分的无向图，其中网格中的每一块表示为图的节点，相邻的节点之间通过边相连；步骤S2:在每个所述不同尺度的网格划分下，对所有的训练图片进行两两之间的图匹配，用所述图匹配的能量值作为衡量两幅图片的相似度值，得到所有训练图片两两之间的一个相似度矩阵，将所述相似度矩阵作为支持向量机SVM的核矩阵；以及
步骤S3:将所述不同尺度下分别得到的核矩阵进行多核融合，将融合后的核作为所述支持向量机SVM的最终核，用所述最终核来训练SVM分类器；
所述测试步骤包括:
步骤S4:将待识别图片按照步骤SI所述的方法表示为基于所述不同尺度下网格划分的无向图；在每个所述不同尺度的网格划分下，将所述测试图片的无向图与所有训练图片的无向图进行图匹配，进而得到所述测试图片与所有训练图片之间的相似度核矩阵；以及步骤S5:将所述不同尺度下分别得到的相似度核矩阵进行多核融合，将融合后的核作为所述SVM分类器的输入，用所述SVM分类器得到最终的识别结果。
[0007]根据本发明进一步的实施例，其中，所述不同尺度的网格划分包括将图片均匀划分为4Λ3、1(Τ8、5Λ4或8'6的网格。
[0008]根据本发明进一步的实施例，其中，所述图匹配指代任意两幅图片中的一个无向图G匹配另一个无向图G’的同时，保持图的邻域的空间一致性约束。
[0009]根据本发明进一步的实施例，其中，进行所述图匹配包括最大化所述图匹配的能量函数，具体如下:
假定图G中的某个节点η，在图G’中找到其匹配节点η’，
其中将节点η的匹配节点η’的位置记为,则找到节点η的最好匹配节点等同于最大化(Max)如下的能量函数:
【权利要求】
1.一种基于多尺度图匹配核的场景字符识别方法，其特征在于，包括训练步骤和测试步骤，其中所述训练步骤包括: 步骤S1:将所有训练图片进行不同尺度的网格划分，并将每幅图片表示为基于这些网格划分的无向图，其中网格中的每一块表示为图的节点，相邻的节点之间通过边相连；步骤S2:在每个所述不同尺度的网格划分下，对所有的训练图片进行两两之间的图匹配，用所述图匹配的能量值作为衡量两幅图片的相似度值，得到所有训练图片两两之间的一个相似度矩阵，将所述相似度矩阵作为支持向量机SVM的核矩阵；以及步骤S3:将每个所述不同尺度下分别得到的核矩阵进行多核融合，将融合后的核作为所述支持向量机SVM的最终核，用所述最终核来训练SVM分类器；所述测试步骤包括: 步骤S4:将待识别图片按照步骤SI所述的方法表示为基于所述不同尺度下网格划分的无向图；在每个所述不同尺度的网格划分下，将所述测试图片的无向图与所有训练图片的无向图进行图匹配，进而得到所述测试图片与所有训练图片之间的相似度核矩阵；以及步骤S5:将每个所述不同尺度下分别得到的相似度核矩阵进行多核融合，将融合后的核作为所述SVM分类器的输入，用所述SVM分类器得到最终的识别结果。
2.根据权利要求1所述的场景字符识别方法，其中，所述不同尺度的网格划分包括将图片均匀划分为f 3、1(Τ8、54或K6的网格。
3.根据权利要求1所述的场景字符识别方法，其中，所述图匹配表示任意两幅图片中的一个无向图G匹配另一个无向图G’的同时，保持图的邻域的空间一致性约束。
4.根据权利要求3所述的场景字符识别方法，其中，进行所述图匹配包括最大化所述图匹配的能量函数，具体如下: 假定图G中的某个节点η，在图G’中找到其匹配节点η’，其中将节点η的匹配节点η’的位置记为,则找到节点η的最好匹配节点等同于最大化(Max)如下的能量函数:
5.根据权利要求4所述的场景字符识别方法，进一步包括，分别计算出从G匹配到G’的最大化能量，以及从图G’匹配到G的最大化能量，通过以下公式来定义这两个图片之间的相似度值:
6.根据权利要求1所述的所述的场景字符识别方法，其中，步骤S3中的所述多核融合采用平均核的方法；其中，所述平均核的方法包括，给定每个尺度下的核矩阵，最终的核矩阵表示为各个尺度下核矩阵的对应元素求平均值，具体定义如下:
7.根据权利要求1所述的所述的场景字符识别方法，其中，训练所述SVM分类器包括用SVM工具包LibSVM进行训练。
8.根据权利要求1所述的所述的场景字符识别方法，步骤S4还包括将所述测试图片的无向图与所有训练图片的无向图两两之间进行图匹配，将所述图匹配的能量值作为两幅图片之间的相似度，进而得到所述测试图片和所有训练图片之间的相似度核矩阵。
9.根据权利要求1所述的所述的场景字符识别方法，其中，步骤S5中的所述多核融合包括采用平均核的方法进行融合。
【文档编号】G06K9/68GK103544504SQ201310576213
【公开日】2014年1月29日申请日期:2013年11月18日优先权日:2013年11月18日
【发明者】不公告发明人申请人:康江科技(北京)有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：康江科技(北京)有限责任公司
我是此专利的发明人

上一篇：一种提示外接存储设备读写状态的方法及设备的制作方法
上一篇：一种针对词语级别的汉语情感词极性强度量化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。