一种用于联机手写汉字识别的汉字笔画特征并行提取方法

文档序号:6482101阅读:189来源:国知局

专利名称::一种用于联机手写汉字识别的汉字笔画特征并行提取方法
技术领域
:本发明属于联机手写汉字识别
技术领域
,特别是涉及一种用于联机手写汉字识别的笔画特征提取方法。
背景技术
:联机手写汉字识别是指用户一边书写一边识别。一般是指用户通过手写输入设备(比如手写板、触摸屏、鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。按书写限制的程度,一般可以分为限制性手写体(如限制笔顺,横平竖直,没有连笔),手写印刷体(指书写工整的汉字),行书手写体(指有部分笔画变形和连笔的汉字),草书手写体(指大部分笔画变形以及几乎完全连笔书写的汉字)。这几种手写体的识别难度依次增大,以草书手写体的识别难度最大。因为草书手写体的汉字字型通常已经和原汉字字形有了较大的不同,不仅表现在笔画的变形上,还表现在汉字结构的变形上。这些变形一般是由于书写者为了达到更快、更流畅的书写速度而在原有汉字字形的基础上改变而来的。因此在以上几种手写体汉字中,以草书手写体的书写速度最快,因而这种书写方式也是人们最乐于接受的一种书写方式。己有的汉字识别方法大多数是基于汉字笔画来进行识别的,比如中国发明专利98106953.3号专利《手写汉字识别方法及装置》、98108373.0号专利《文字识别装置及文字识别方法》以及98122949.2号专利《一种无笔画顺序的手写字符辨识系统》等专利使用的方法都依赖于笔画的正确提取与识别,而草书手写体汉字不但连笔书^,大部分笔画变形严重,而且有很多短的笔画会被省去,因此以上识别方法无法很好地解决草书手写体汉字的识别。目前,识别草书手写体汉字的一种比较有效的方法是,对联机手写汉字使用虚拟笔画技术后再提取汉字的点特征。虚拟笔画技术最早由日本学者M.Okamoto等人提出,方法是采用虚拟的点将所有笔画连接在一起,目的是模拟人的草书习惯,统一手写汉字的风格。虚拟笔画技术虽然起到一定效果,伹已经被证实会损失相当一部分汉字的识别率,有待改进。
发明内容本发明的目的在于克服现有技术的不足,提供一种使得识別结构精确度较高的用于联机手写汉字识别的笔画特征提取方法,特别是用于联机手写草书字体识别的笔画特征提取方法。为了实现上述发明目的,采用的技术方案如下一种用于联机手写汉字识别的汉字笔画特征并行提取方法,包括如下步骤(1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,即在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;(2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,提取出联机手写汉字的虚拟笔画特征和无虚拟笔画特征;(3)对步骤(2)提取到的两个特征,采用并行融合的方法产生最终的笔画特征,具体的并行融合方法如下令;r和y分别是虚拟笔画特征矢量和无虚拟笔画特征矢量,其中,XeO,re中,(D、甲分别指虚拟笔画特征用于训练的空间集合和无虚拟笔画特征用于训练的空间集合,Z,表示采用并行融合的方法获取到的特征,Z,的获取方法用如下公式表示z,=w(义W,凡Ar)r",j+、『/其中^=0t^;K)为变换矩阵,^和^分别是虚拟笔画训练集空间①和无虚拟笔画训练集空间T的变换矩阵,^和、分别是K和^的权重。上述技术方案中,所述R和^,的取值包括如下两种方式(1)K=^=/,表示直接对原始特征z和y进行线性组合,其中/代表单位矩阵;(2)^=^=^^,表示先对原始特征义和r进行线性组合,再将组合后的特征进行LDA训练,得到一个最佳投影变换矩阵^^一,,利用『^」产生新的特征矢量。本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64X64像素的尺寸。预处理步骤是为了消除不同用户书写同一汉字的区别,对于不同的用户,书写出来的同一个汉字会有很大的不同,预处理的目的是尽可能去除同一类别中不同汉字样本的差别。本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。重采样的目的是减少归一化后汉字样本数据中连续点的距离的变化和一个笔画的采样点的数目变化。同样可消除不同用户书写同一汉字的区别。本发明所述步骤(2)对于每一个时间序列,具体的特征提取方法如下(I)定义二维平面内的八种方向,包括东、西、南、北、东南、西南、东北和西北,计算时间序列中每一点的方向特征,点的方向特征定义为从当前点的前一个点到后一个点的一个矢量,最后将每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,具体的映射方法是分解点特征矢量到最邻近的两个方向;(II)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8x8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(I)中得到八个模式图像中提取网格特征,每一个序列都得到512维的特征矢量;(in)根据步骤(i)和(n),每一手写汉字都提取出两个5i2维的特征矢量,分别代表该手写汉字的虚拟笔画特征和无虚拟笔画特征。本发明与己有的联机手写汉字特征提取方法相比,具有如下的优点和有益效果(1)、融合了手写汉字虛拟笔画特征和无虚拟笔画特征,使得融合后的新特征更能够代表所书写的汉字,因此能很好地解决当前虚拟笔画技术容易造成相当一部分汉字识别性能下降的问题;(2)、采用本发明的方法提取到的融合的特征具有更优异的性能,通过不同的分类器测试,结果显示本发明更加准确识别连笔草书。图1是本发明的特征提取方法流程框图。具体实施方式下面结合附图对本发明做进一步的说明。实施本发明所用的识别设备可以采用手写板书写汉字,用计算机进行识别,用纯平型显示器显示用户图形界面,可采用0^++语言编制各类处理程序,便能较好地实施本发明。本发明的手写汉字特征提取方法如附图1所示。首先对联机手写汉字进行预处理。在预处理包含如下三个步骤(1)线性归一化。用比值线性归一化的方法,把样本的时间序列归一化到固定的64X64像素的尺寸;(2)虚拟笔画处理。定义虚拟笔画为从一个真实笔画的结束点到下一个真实笔画的开始点的一条虚直线。在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列;同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;(3)对歩骤(2)得到的两个时间序列进行重采样。重采样的目的是减少归一化后汉字样本数据中连续点的距离的变化和一个笔画的釆样点的数目变化。每个样本的数据采样点序列用固定的距离重新采样。接着,通过预处理步骤从同一个手写样本汉字中,得到两个时间序列,分别是有虚拟笔画的时间序列和无虚拟笔画的时间序列,然后提取这里两个时间序列的方向特征,分别称之为联机手写汉字的虚拟笔特征和无虚拟笔画特征。提取时间序列的方向特征方法如下(I)定义二维平面内有八种方向,东、西、南、北,东南、西南、东北和西北。计算序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量。最后将每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像。映射的方法是分解点特征矢量到最邻近的两个方向。(U)把每个序列看出一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8x8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(I)中得到8个模式图像中提取网格特征。最后,每一个序列都可以得到512维的特征矢量最后,采用并行融合的方法融合联机手写汉字的虚拟笔特征和无虚拟笔画特征,产生新的特征。设x和r是分别是提取到的联机手写汉字虚拟笔画特征矢量和无虚拟笔画特征矢量,其中,Xe(D,ye甲,O、T分别指虚拟笔画特征用于训练的空间集合和无虚拟笔画特征用于训练的空间集合,Z,表示采用并行融合的方法获取到的新的特征,则Z,的获取方法可以用如下公式表示其中K和^分别是虚拟笔画训练集空间o和无虚拟笔画训练集空间w的变换矩阵,^和、分别是^和^的权重。^和^的取值有如下两种情况①^=^=/,表示直接对原始特征JT和y进行线性组合;②^-^-^^—7,表示先对原始特征x和y进行线性相加,再将相加后的特征进行LDA训练,得到一个最佳投影变换矩阵^^」,利用l-产生新的特征^和、实际上分别代表原始特征x和r在新特征中的权重。可根据实际情况取值,也可通过实验确定i^和、的最佳取值。选取上述①②中一种方法,即可提取到采用并行融合的方法的生产的新特征。本发明的优异性能通过大样本和大类别的实验得到了证实。下面描述采用本发明所述的特征提取方法,对大量联机手写汉字样本的进行相关实验的结果实验采用了华南理工大学人机通信与智能接口实验室的SCUT-COUCH联机手写样本数据库中的GB2312-80—二级汉字样本子集。该子集包含168位不同书写者的汉字样本,每位书写者在自然状态下独立完成6763个GB2312-80—二级汉字的书写。实验对6763个汉字类别进行测试,每个类别有168套样本。每个类随机选取134套样本(占每类总样本数的80%)进行训练,总训练样本数为906,242个;余下34套样本用于测试,总的测试样本数目为229,942个。在实验中,同时测试了三种与虚拟笔画技术相关的手写汉字特征提取方法的识别率,分别是传统的无虚拟笔画特征提取方法,传统的虚拟笔画特征提取方法,以及本发明的并行融合虚拟笔画及无虚拟笔画技术的特征提取方法,识别采用的分类器为最小欧氏距离分类器。通过下面两种方法测试特征识别率①直接对原始特征进行测试;取其变换矩阵为^=^=/;②先对原始特征LDA训练并降成同一维数得到新的特征矢量。取其变换矩阵为^=^=『^^;表1三种手写汉字特征提取方法识别率比较<table>tableseeoriginaldocumentpage11</column></row><table>由表1可以看到,采用本发明提出的特征提取方法,其识别率明显高于传统的不加虚拟笔画的手写汉字特征,和仅采用虚拟笔画的手写汉字特征,因此,实验结果显示了本发明所述的方法获得的手写汉字特征在性能方面,是明显优于传统的无虚拟笔画特征或者虚拟笔画特征的。权利要求1、一种用于联机手写汉字识别的汉字笔画特征并行提取方法,其特征在于包括如下步骤(1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,即在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;(2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,提取出联机手写汉字的虚拟笔画特征和无虚拟笔画特征;(3)对步骤(2)提取到的两个特征,采用并行融合的方法产生最终的笔画特征,具体的并行融合方法如下令X和Y分别是虚拟笔画特征矢量和无虚拟笔画特征矢量,其中,X∈Φ,Y∈Ψ,Φ、Ψ分别指虚拟笔画特征用于训练的空间集合和无虚拟笔画特征用于训练的空间集合,Z1表示采用并行融合的方法获取到的特征,Z1的获取方法用如下公式表示Z1=W1(XY)T=(kxWxkyWy)(XY)T=kxWxX+kyWyY其中W1=(kxWxkyWy)为变换矩阵,Wx和Wy分别是虚拟笔画训练集空间Φ和无虚拟笔画训练集空间Ψ的变换矩阵,kx和ky分别是Wx和Wy的权重。2、根据权利要求l所述的汉字笔画特征提取方法,其特征在于所述^和^的取值包括如下两种方式(1)^=^=/,表示直接对原始特征X和r进行线性组合;(2)^=^,=^<2,表示先对原始特征X和y进行线性组合,再将组合后的特征进行LDA训练,得到一个最佳投影变换矩阵^^」,利用『^_2产生新的特征矢量。3、根据权利要求1或2所述的汉字笔画特征提取方法,其特征在于所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64X64像素的尺寸。4、根据权利要求3所述的汉字笔画特征提取方法,其特征在于所述步骤(l)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。5、根据权利要求4所述的汉字笔画特征提取方法,其特征在于所述步骤(2)对于每一个时间序列,具体的特征提取方法如下(I)定义二维平面内的八种方向,包括东、西、南、北、东南、西南、东北和西北,计算时间序列中每一点的方向特征,点的方向特征定义为从当前点的前一个点到后一个点的一个矢量,最后将每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,具体的映射方法是分解点特征矢量到最邻近的两个方向;(II)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8x8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(I)中得到八个模式图像中提取网格特征,每一个序列都得到512维的特征矢量;(III)根据步骤(I)和(11),每一手写汉字都提取出两个512维的特征矢量,分别代表该手写汉字的虚拟笔画特征和无虚拟笔画特征。全文摘要本发明提供一种用于联机手写汉字识别的汉字笔画特征并行提取方法,其方法主要通过对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,进而提取用于文字识别的笔画特征。本发明融合联机手写汉字的虚拟笔画特征和无虚拟笔画特征,采用融合后的特征进行联机手写体识别,可以大大提高对连笔草书汉字的识别效果,不仅能识别规范书写的汉字,也能够对连笔草书汉字进行识别,故而可以让用户无限制地自由书写汉字。文档编号G06K9/46GK101604392SQ20091004104公开日2009年12月16日申请日期2009年7月10日优先权日2009年7月10日发明者邓国强,金连文申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1