一种文字识别方法

文档序号:6612686阅读:564来源:国知局
专利名称:一种文字识别方法
技术领域
本发明属于模式识别与人工智能技术领域中的文字识别方向,特别是涉及一种文字识别方法。
背景技术
文字识别是当今备受关注的一个课题,它是模式识别的一个重要分支,也是人工智能和模式识别研究中的一个重要方向。汉字的种类繁多、笔画复杂、相似字多,而且不同人的手写汉字风格迥异,因此手写汉字识别,尤其是手写汉字的相似字识别,一直是文字识别中的一个难点和关注点。在实际应用中,一般的手写汉字识别系统里为了提高识别率通常都要对手写汉字 提取高维的特征向量,以获得更多有助于识别的字体特征信息。但是由于特征向量的维数很高,而且识别中的涉及的字体数目较多,为了运算降低存储量、加快识别的运算速度以及提高识别的正确率,一般都对高维空间的特征向量进行降维映射。目前用于汉字识别比较流行的数据降维算法是线性判别分析法(Linear Discriminate Analysis, LDA)。但是,考虑到汉字类别数众多(如GBl有3755个汉字),采用LDA降维后直接分类,并不能达到很好的识别效果。因此,流行的做法用层级分类的方案。传统的两级LDA选择方案的实现首先是直接用LDA降维,然后进行粗分类得出首选字及其候选字,接着对首选字和其他候选字组成的相似字集合进行第二级LDA映射,最后用小类别的强分类器得出最终的识别结果。这里需要说明的是其他候选字的生成可以采用一种快速的静态候选字生成技术,这里不作叙述。虽然这种使用了两级的LDA层级分类的汉字识别方案,相对于直接的一级分类识别的方法来说,识别率有了很大的提高,但是,如何进一步从样本中获取判别信息,以提高识别率是汉字识别努力的一个方向。传统的LDA并没有很好的保存数据的判别信息。因此,如果能找到适合的降维算法更好地保留手写汉字的判别信息,其识别率仍有改进的空间。数据降维的其中一个最主要的问题就是找到一个合适的投影,使原始数据从高维空间变换到低维子空间。它的目的是将数据从高维数据转换到一个可以揭示数据分布固有空间结构的低维空间,使数据得到一个更加简洁、有效的表达。传统的全局线性降维的方法主要是基于线性的,其中主成分分析法(PCA)、线性判别分析法(LDA)被广泛地应用在模式分类问题上。主成分分析法(PCA)会最大化在原始高维空间中呈现高斯分布的样本之间的相互距离。主成分分析法(PCA)在高斯分布数据的重建中得到最优化。然而,由于它不使用类标签信息,主成分分析法(PCA)并不是一个用于分类的最佳选择。费舍尔的线性判别分析法(LDA)找到一个投影方向使得类别间散布矩阵的迹最大的同时使类别内散布矩阵的迹最小。但是,LDA在实现中存在以下问题1)忽略数据可能存在的非线性特点;2)假设所有的样本对分类的贡献相等;3)样本少的情况下,性能下降严重。总的来说,这两种方法只是在大样本情况下各类模式识别问题中表现得较好,而在小样本情况下的表现并不理想。为了克服上述主成分分析法(PCA)和线性判别分析法(LDA)面临的问题,新的线性算法,判别局部块配准(DLA)算法被提出来用于分类问题。该算法分以下三个阶段执行I)部分最优化阶段;2)整体配准阶段。首先,每个数据块都是由一个样品和它的邻近样本组成,在这个局部数据块内,需要相同类别的样本尽量靠近,不同类别的样本尽量远离;在整体配准阶段,实现方法是将加权后的部分最优校正到整体最优中。由于对本发明的理解需要到许多判别局部块配准(DLA)算法的具体内容,下面对判别局部块配准(DLA)算法的具体步骤进行较为详细的介绍(I)部分最优设定C类别数的训练集为ΕΜβχΛΓ(其中汧表示DXN维的线性空间),对于一个给定的样本Xi,根据类的标签信息,划分其他的样本为两组和样品Xi为同一类的样本,和与Xi不同类的样本。选择与样本Xi同类的Hl1个最近邻的样本,并把它们称为同类近邻样本
权利要求
1.一种文字识别方法,采用文字识别引擎对采集的文字进行识别,其特征在于所述文字识别引擎是基于核判别局部块配准算法的文字相似字识别算法,核判别局部块配准算法的文字相似字识别算法是在再生希尔伯特空间中采用判别局部块配准算法进行降维。
2.根据权利要求I所述文字识别方法,其特征在于所述核判别局部块配准算法的文字相似字识别算法的具体实现方式 1)将一个线性的输入空间通过非线性映射到一个再生希尔伯特空间; 2)在判别局部块配准算法中,局部数据块为
全文摘要
本发明公开一种文字识别方法,采用文字识别引擎对采集的文字进行识别,文字识别引擎是基于核判别局部块配准算法的文字相似字识别算法,核判别局部块配准算法的文字相似字识别算法是在再生希尔伯特空间中采用判别局部块配准算法进行降维。本发明提出文字识别方法,通过证明其效果等效于先用核主成分分析法降维,再用判别局部块配准算法进行降维,以提高实践过程中算法的速度。利用本发明提出的核判别局部块配准算法进行手写汉字相似字的识别,其识别率高于其他有代表性的判别分析提取算法。
文档编号G06K9/20GK102945369SQ20121039648
公开日2013年2月27日 申请日期2012年10月17日 优先权日2012年10月17日
发明者金连文, 陶大鹏, 黎小凤 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1