专利名称:一种手写字符输入方法及系统的制作方法
技术领域:
本发明涉及手写字符识别领域,尤其涉及一种手写字符输入方法 及系统。
背景技术:
目前手写输入的识别技术被应用到各种通信终端及信息处理终 端;这种类型的终端产品通常具有一个用于书写的触摸手写荧光屏, 用户能在上面用笔或手指写字,然后经过终端的识别处理,生成相应 的字符显示在终端上,并进行后续的相关操作,手写输入的识别技术 提高了输入的速度和灵活性,因此被普遍地应用。
现在的手写输入的识别过程大多分为信号采集、预处理、特征提 取、特征匹配等步骤,现有方法中的预处理在将字符字迹重心变换到 外框的中心时采用分段线性函数,使得变换后的字符形状不自然,影 响后面的识别处理。
现有技术因计算量大、处理时间长,使得识别速度还是较慢,且
识别精度不高,还有待进一步的改进。
发明内容
基于现有技术的不足,本发明实施例要解决的技术问题在于提供一种 手写字符输入的方法及系统,使识别速度更快,识别精度更准确。
本发明的目的通过以下技术方案实现 一种手写字符输入的方法, 包括以下步骤
A、从预存储字符类的样本的特征矢量中选取部分特征值,计算各个字符类的样本中心,得到由全体字符类的样本中心构成的粗分类
模版;
B、 对预存储字符类的样本的特征矢量进行特征变换,重新计算 各个字符类的样本中心,得到由全体字符类的样本中心构成的细分类 模版;
C、 接收手写字符输入的信号并采集输入字符轨迹点的离散坐标 序列,利用一个平滑连续函数,将采集到的手写字符轨迹点的离散坐 标序列变换成为另 一个离散坐标序列,以调整手写输入字符的大小和 形状以及重心的坐标值,得到该字符的规整坐标序列;
D、 根据输入字符的规整坐标序列,进行特征提取得到该手写字 符的多维特征矢量;
E、 从所述手写输入字符的多维特征矢量中选取部分特征值,将所 述手写输入字符分别与所述粗分类模版进行匹配,从预存储字符类中 选取相似度最大的若干个候选字符类;
F、 对所述手写输入字符的多维特征矢量进行特征变换,将特征变
换后的手写输入字符与从所述细分类模板中选取的候选字符类的样本 中心进行匹配,从中确定最相似的字符类,以供用户选择。
本发明还提供一种手写字符输入的系统,该系统包括
信号采集模块,用于接收手写字符输入的信号并采集手写字符轨 迹点的离散坐标序列;
归一化模块,用于利用一个平滑连续函数,将采集到的手写字符 轨迹点的离散坐标序列变换成为另 一个离散坐标序列,以调整手写字 符的大小和形状以及重心的坐标值,得到该字符的规整坐标序列;
特征提取模块,用于根据所述规整坐标序列,进行特征提取得到 该手写字符的多维特征矢量;
8存储模块,用于存储特征变换矩阵及全体字符类的粗分类模板和 细分类模板,粗分类模板由全体字符类经特征选取后计算得到的样本 中心构成,细分类模板由全体字符类经特征变换后计算得到的样本中
心构成;
粗分类模块,用于从手写输入字符的多维特征矢量中选取部分特 征值,将所述手写输入字符分别与所述存储模块中的粗分类模版进行 匹配,从预存储字符类中选取相似度最大的若干个候选字符类;
细分类模块,用于对手写输入字符的多维特征矢量进行特征变换,
取的候选字符类的样本中心进行匹配,从中确定最相似的字符类,以 供用户选择。
与现有技术相比较,本发明通过采用平滑连续函数对手写字符进 行预处理,使得预处理后的手写字符的大小和形状更自然也更规范, 从而使得之后特征提取的速度更快、精度更高,这样就使本发明具有 对输入的手写字符识别速度更快,识别精度更准确的有益效果。
本发明一种手写字符输入的方法的一种优选实施方式是,所述步 骤C具体还包括步骤
判断 一 个手写字符输入是否结束,当未接收到手写字符输入信号 的时间超过设定的阈值,则结束该手写字符离散坐标序列的采集。
本发明一种手写字符输入的方法的另 一种优选实施方式是,所述 步骤C还包括步骤
检查采集到的手写字符的轨迹点是否只有一个,如果是则删除该 轨迹点重新采集;
检测采集到的手写字符的轨迹点中相邻点之间的坐标距离,如果 该距离小于设定的阈值,则删除其中的一点,使得相邻点之间保持一 定距离。
9本发明一种手写字符输入的方法的另 一种优选实施方式是,所述
步骤C具体包括以下步骤
将所有轨迹点的横坐标值和纵坐标值变换到介于O到IOO之间; 分别计算所有轨迹点横坐标和纵坐标的重心坐标值; 将所有轨迹点坐标值和重心坐标值除以100,使所有轨迹点坐标
值和重心坐标值变为0到1之间,利用使重心坐标值的横坐标和纵坐
标变为0.5的一个平滑连续函数,将采集到的手写字符轨迹点的离散
坐标序列变换成为另 一个离散坐标序列;
再将所有轨迹点坐标值乘以64,得到输入字符的规整坐标序列。
本发明一种手写字符输入的方法的另 一种优选实施方式是,所述 步骤D具体包括以下步骤
根据手写字符的规整坐标序列,将所有相邻轨迹点形成的矢量线 段分解到8个标准方向,每个标准方向上得到矢量线段长度值;
对所述得到的矢量线段长度值进行处理,得到大尺度特征值和小 尺度特征值构成的多维特征矢量。
该特征提取步骤将轨迹点矢量分解到8个标准方向以获得特征矢 量,使得计算量小,从而速度更快且提取的特征更准确。
本发明一种手写字符输入的方法的另 一种优选实施方式是,所述 步骤A具体包括以下步骤
根据Fisher准则,从预存的每一个字符类的样本中,选取使得 Fisher比最大的若干个特征值;
根据由选取特征值构成的样本的特征矢量,计算该字符类的样本 中心的特征矢量,得到由全体字符类的样本中心构成的粗分类模版。
1所述步骤E具体包括以下步骤
根据Fisher准则,从所述手写输入字符的多维特征矢量中选取部 分特征值,所述手写输入字符具有与字符类的样本相同维数的由选取 特征值构成的特征矢量;
将所述手写输入字符分别与所述粗分类模版进行匹配,从预存储 字符类中选取相似度最大的若干个候选字符类。
通过对字符类采用Fisher准则选择特征进行粗分类,选择的特征 具有更好的识别精度,且计算量小。
本发明一种手写字符输入的方法的另 一种优选实施方式是,所述 步骤B具体包括以下步骤
利用根据Fisher准则得到的特征变换矩阵,将所有字符类的样本 进行特征变换,降低其多维特征矢量的维数;
重新计算特征变换后的所有字符类的样本中心;
新计算特征变换矩阵和所有字符类的样本中心,得到由全体字符类的 样本中心构成的细分类模版。
所述步骤F具体包括以下步骤
用迭代调整后的特征变换矩阵对手写输入字符进行特征变换,得 到其低维特征矢量;
该手写输入字符的低维特征矢量分别与从所述细分类模板中选取 的候选字符类的样本中心进行匹配,从候选字符类中确定相似度最大 的字符类,以供用户选择。
在粗分类的基础上,利用特征变换矩阵将手写字符和所述候选字 符类中的字符样本进行特征变换,然后对特征变换矩阵及候选字符类的样本中心进行迭代调整,对候选字符类进行细分类,使得手写字符 输入识别的识别速度快,且识别精度高。
所述步骤A、 B中所述的预存储字符类的样本的特征矢量,是预 先通过所述步骤C、 D获得的多维特征矢量。
本发明一种手写字符输入的系统的一种优选实施方式是,所述信 号采集模块具体包括
采集单元,用于采集手写字符轨迹点的离散坐标序列;
判断单元,用于判断一个手写字符的输入是否结束,当未接收到 手写字符输入信号的时间超过设定的阅值,则结束该手写字符离散坐 标序列的采集;
检测单元,用于检查采集到的手写字符的轨迹点是否只有一个, 如果是则删除该轨迹点重新采集;以及检测采集到的手写字符的轨迹 点中相邻点之间的坐标距离,如果该距离小于设定的阈值,则删除其 中的一点,使得相邻点之间保持一定距离。
本发明 一 种手写字符输入的系统的另 一 种优选实施方式是,该系 统还包括显示模块,用于显示所述细分类模块输出的最相似的字符 类,以供用户选择。
图l是本发明实施例一种手写字符输入方法的流程图。
图2是本发明实施例一种手写字符输入方法的详细流程图。
图3是本发明实施例一种手写字符输入系统的结构示意图。
图4是本发明实施例 一 种手写字符输入系统的详细结构示意图。
图5a是图1中步骤S02中字符大小形状调整前的示意图。
图5b是图1中步骤S02中字符大小形状调整后的示意图。
图6是图1中步骤S02将调整后的字符放进一个网格的示意图。图7是图1中步骤S03中所述的8个标准方向图。
图8是图1中步骤S03中所述的将一个矢量线段分解到2个标准方向的示 意图。
具体实施例方式
为使本发明更加容易理解,结合附图对本发明作进一步阐述,但 附图中的实施例不构成对本发明的任何限制。
本发明是对手写输入的字符经过坐标序列采集,预处理、特征矢 量提取、粗分类、细分类等处理流程,从而最终识別该手写字符。
图1示出了本发明实施例一种手写字符输入方法的流程图,该方法包 括以下步骤
步骤S01,从预先准备的字符类的样本的特征矢量中选取部分特 征值,计算各个字符类的样本中心,得到由全体字符类的样本中心构 成的粗分类模版,将粗分类模版存储在手机等输入终端的存储器中; 具体地,预存储字符类的样本预先通过特征提取,获得其多维特征矢 量,然后根据Fisher准则,从每一个字符类的样本的多维特征矢量中, 选取使得Fisher比最大的若干个特征值,计算各个字符类的样本中心, 得到由全体字符类的样本中心构成的粗分类模版。
该步骤的目的是从预先准备的字符类的样本的特征矢量中获得粗 分类模版,为了提高粗分类的速度,要选择一部分特征计算匹配距离, 特征选择和模版设计是在一个训练样本集合上进行的。训练样本集包 含每个字符类别的手写样本,每个样本经特征提取用640个特征值
(640維的特征矢量x^x"…,x64。]t )表示。设有C个类别的总共N个样 本,其中类别i有Ni个样本。选择特征的准则是Fisher准则(模式识 别教材上有详细说明)Fisher准则函数的基本思想是,构造评价函数, 使得当评价函数最优时,被分类的类别之间的距离尽可能大,同时各
13类内部样本间距离尽可能小。
将第i类的第j个样本表示为特征矢量x'J(由部分候选特征组成), 则各个类别的样本中心(均值)为
C 1 )
(2)
1 '
i=1,...,c
总的中心为w台 。
类内协方差矩阵和类间协方差矩阵分别计算为
丄、"i H
特征选择的目标是在选择部分特征的基础上,矩阵s^b的迹t《《sj
(Fisher比)达到最大值。这里的x;候选特征在特征选择过程中是变 化的。寻找Fisher比最大的特征组合是一个组合优化问题,可用顺序 前向搜索法近似求解
先计算每一个特征的Fisher比,选择Fisher比最大的特征。然后 把余下特征中的每一个依次与已选特征组成特征矢量计算Fisher比, 选择Fisher比最大的特征力口入已选特征。如此反复,直到已选特征达 到规定的数目(定为100以下)为止。
特征选4奪的具体过程如下首先以640个特征中的每一个依次作 为候选,计算Fisher比,以Fisher比最大的一个特征作为选出来的第 一个特征。然后把剩下的639个特征中的每 一 个依次与第 一 次选出来 的特征一起(此时候选特征有两个)评价,选出Fisher比最大的含有 2个特征值的组合。然后对巴剩下的638个特征中的每一个依次与前面 选出来的含有2个特征值的组合一起(此时候选特征有3个)评价, 选出Fisher比最大的含有3个特征值的组合。如此反复,直到选出来 的特征数达到指定的数目为止。特征选择完成后,特征集也就固定了。经过特征选择后,各个类别的粗分类模版是一类样本的中心(均 值),用公式(l)计算。
步骤S02,对预存储字符类的样本的特征矢量进行特征变换,重 新计算各个字符类的样本中心,得到由全体字符类的样本中心构成的
细分类模版;
为了得到更高的识别精度,细分类特征采取特征变换,而不是特
征选择,即把原来D-640维的特征矢量经线性变换得到低維(cKD)矢 量,特征变换后的特征矢量维数一般定为100到150之间。利用公式 y二Wx进行特征变换,其中W为dxD的变换矩阵。求解变换矩阵使
Fisher比吨W、wT)、TSbWT]最大,其结果,W的每一行是矩阵8:、对应 本征值最大的d个本征向量(这是标准的数学方法,不必赘述)。经过 降维后,各个类别的模版是一类样本的中心(公式(l))。
像上面这样得到的特征变换矩阵和类别模版还不能得到很高的识 别精度。为此,对变换矩阵和类别模版进行迭代调整,使在训练样本 集合上的分类错误(每个样本分到距离最近的类别)逐步减少。首先, 将所有训练样本的权重设为l,用Fisher准则得到的变换矩阵和类别
中心模版对所有的训练样本分类,每个错分的样本权重加l。设样本x;
(i类的第j个样本)的权重表示为v〗,按下式重新计算类中心、类内 和类间协方差矩阵
1 N,
w ,、
h ( 4 )
, C N,
s》;w H m
^产1 ( 5 )
sw=^4^££v ')(x;-〃')T
,、
h ( 6 )
15S ,其中 w ( 7 )
在此基础上通过使W(WSwWT)"W、WT]最大化重新计算变换矩阵和特征
变换后的类中心,重新对训练样本分类,错分的样本权重加1;如此 反复,直到训练样本的分类错误不再进一步減少为止。
步骤S03,接收手写字符输入的信号并采集手写字符轨迹点的离 散坐标序列;具体地用笔在触摸屏上书写,下笔时把笔尖的位置(x,y) 坐标序列记录下来。 一个输入字符的完整书写轨迹用 一个(x,y)序列表 示((xl,yl), (x2,y2),…,(xn,yn)}。
利用一个平滑连续函数,将采集到的手写字符轨迹点的离散坐标 序列变换成为另 一 个离散坐标序列,以调整手写字符的大小和形状以 及重心的坐标值,得到该手写字符的规整坐标序列;字符轨迹的归一 化有两个目的大小标准化和形状校正。如图5a-5b所示,图5a中的 字符经过归一化后变成了图5b中的形状,不仅边界变成了规定的大小 (所有字符经归一化后边界变成相同大小),而且形状也发生了变化,
变得更规范,从而更容易识别。
归一化是通过两个座标变换函数1' = ^"和/ = /实现,把字符轨迹中 每 一 点的座标(x,y)用(x, ,y ,)代替后,就得到归 一 化的字符轨迹。
参数a和b的估计方法如下
首先,找出座标序列中x和y的最小值,把所有点的x和y坐标 分别减去x和y的最小值,从而使x和y的最小值都变成0。然后, 所有的x和y值乘以100/u,其中u是所有点x和y的最大值,从而使 x和y {直介于0到100之间。
第二步,求笔划轨迹在水平方向和垂直方向上的投影。把字符笔 划4九迹》欠进一个100x100的网格,如图6所示(示意图中为10x10的 网格)。把每一纵列格子中的笔划长度相加,就得到水平方向的投影fx(i), i=l,2,...,100。同样,把每一行格子中的笔划长度相加,就得到垂 直方向的投影fy(i) , i=l,2,.,.,100.由fx(i)计算水平方向的重心
<formula>formula see original document page 17</formula>
同样,由fy(i)计算垂直方向的重心yc。
第三步,把所有点的坐标及(xc,yc)除以100,变为0到1之间。
<formula>formula see original document page 17</formula>
函数X』X。和J^/分别把XC和yC变为0.5,即^=0'5, l0gXc ,同样
b = log 0.5
y/=0'5, l。gye 。经过变换,使字符轨迹的重心移到(0.5,0.5)而边界 保持不变。
第四步,把(x,,y,)乘以 一个给定的倍数,从而使字符的外框变为 规定的大小。这个倍数我们定为64。最后,归一化字符轨迹中所有点 的坐才示介于0到64之间。
步骤S04,根据手写字符的规整坐标序列,进行特征提取得到该 手写字符的多维特征矢量;基本思想如图7所示,把笔划线段(每 相邻两点之间连成一条矢量线段)分解到Dl至D8的8个标准方向, 记录64x64网格中每个格子中各个方向的线段长度值,然后计算两个 尺度的方向特征值。
第一步,把笔划线段分解到8个标准方向。坐标点序列中每相邻 两点之间连成一条线段,是一个有方向的矢量f;。该矢量f,的方向介于 两个标准方向D2与D3之间,把矢量f,分解成两个标准方向D2与D3 上的分量(如图8所示),每个标准方向上的分量长度计入所在格子中 该方向的线段长度值。这样,在8个方向的每个方向上得到64x64个 线段长度值。
第二步,计算大尺度特征。把每个方向上的64x64网格均匀分成 4x4个方格,计算每个方格中各个方向上线段长度值的和,得到8x4x4=128个特征值。
第三步,计算小尺度特征。把每个方向上的64x64网格均勻分成 8x8个方格,计算每个方格中各个方向上线段长度值的和,得到 8x8x8=512个特征值。
大尺度特征和小尺度特征的总个数为12 8 + 512=64 0 。
步骤S05,从手写输入字符的多维特征矢量中选取部分特征值, 将所述手写输入字符分别与所述粗分类模版进行匹配,从预存储字符 类中选取相似度最大的若干个候选字符类;具体地,按照步骤S01中 所述的根据Fisher准则,从手写输入字符的多维特征矢量中,选取、 使得Fisher比最大的若千个特征值,选取的特征值个数与步骤SOI中 选取的特征值个数相同。
模板匹配的距离计算如下设手写输入字符的多维特征矢量表示 为矢量p^,…'xJT ,粗分类模板中 一 个类别的样本中心表示为特征矢
量5^[^,…,y"]T,则通过如下公式计算匹配距离
M ( 9 )
步骤S06,对所述手写输入字符的多维特征矢量进行特征变换, 将特征变换后的手写输入字符与从所述细分类模板中选取的候选字符 类的样本中心进行匹配,从中确定最相似的字符类,以供用户选择。 该步骤的目的是进行细分类,对一个输入字符,在粗分类中找出M个 候选类别后,细分类采用比粗分类更多的特征,重新计算输入字符到 M个候选类别模板的距离,取距离最近的类别作为最终识别结杲。
细分类给出匹配距离最小的多个( 一般为10个)类别作为最终候 选。这些候选类别可以直接显示出来供用户选择,或利用语言规则根 据上下文自动选择。
步骤S05的粗分类是把输入字符(待识别字符)的特征矢量与模
18版数据库中存储的各个字符类别的模版进行比较(匹配),找出距离最
小(也就是相似度最大)的M(比如M^100)个类别作为候选,在步 骤S06的细分类中再找出距离最小的候选类别作为最终识别结果。
粗分类和细分类所比较的模版不同(特征也不一样)粗分类模版 简单(特征少),计算速度快,细分类模版复杂(特征较多),计算速 度较慢。
粗分类的目的是快速找出M个候选类别后,细分类中不必计算所 有类别的距离(只计算M个候选类别的距离),从而提高总体识别速 度。
综上所述,图2示出了本发明实施例一种手写字符输入方法的详 细流程步骤S02具体包括以下步骤
步骤S021,利用根据Fisher准则得到的特征变换矩阵,将所有字 符类的样本进行特征变换,降低其多维特征矢量的维数;
步骤S022,重新计算特征变换后的所有字符类的样本中心;
步骤S023,对所述特征变换矩阵及所有字符类的样本中心进行迭 代调整,重新计算特征变换矩阵和所有字符类的样本中心,得到由全 体字符类的样本中心构成的细分类模版。
所述步骤S03具体包括以下步骤
步骤S031,接收手写字符输入的信号并采集输入字符轨迹点的离 散坐标序列;
步骤S032,判断一个字符输入是否结束,当未接收到手写字符输 入信号的时间超过设定的阔值,则结束该字符离散坐标序列的采集; 当提笔时间超过一个阈值(如0.5秒)时,视为一个字书写结束;一 个输入字符的完整书写轨迹用 一个(x,y)序列表示Uxl,yl), (x2,y2),…,
19(xn,yn)},其中,提笔用 一个特殊的座标(-l,0)表示。
步骤S033,检查采集到的手写字符的轨迹点是否只有一个,如果 是则删除该轨迹点重新采集;
步骤S034 ,检测采集到的手写字符的轨迹点中相邻点之间的坐标 距离,如果该距离小于设定的阈值,即如果两个相邻点位置重合或离 得非常紧,则删除其中的一点,使得相邻点之间保持一定距离;
步骤S035,利用一个平滑连续函数,将采集到的手写字符轨迹点 的离散坐标序列变换成为另 一个离散坐标序列,以调整手写输入字符 的大小和形状以及重心的坐标值,得到该字符的规整坐标序列。
所述步-腺S04具体包括以下步骤
步骤S041,根据手写字符的规整坐标序列,将所有相邻轨迹点形 成的矢量线段分解到8个标准方向(如图7和8所示),每个标准方向 上得到矢量线段长度值;
步骤S042,对所述得到的矢量线段长度值进行处理,得到大尺度 特征值和小尺度特征值构成的多维特征矢量。
所述步骤S05具体包括以下步骤
步骤S051,根据Fisher准则,从所述手写输入字符的多维特征矢 量中选取部分特征值,所述手写输入字符具有与字符类的样本相同维 数的由选取特征值构成的特征矢量;
步骤S052,将所述手写输入字符分别与所述粗分类模版进行匹 配,从预存储字符类中选取相似度最大的若干个候选字符类。
所述步骤S06具体包括以下步骤
步骤S061,用迭代调整后的特征变换矩阵对手写输入字符进行特征变换,得到其低维特征矢量;
步骤S062,该手写输入字符的低维特征矢量分别与从所述细分类 模板中选取的候选字符类的样本中心进行匹配,从候选字符类中确定 相似度最大的字符类,以供用户选择。
图3示出了本发明实施例一种手写字符输入系统的结构示意图。 该系统包4舌
信号采集模块1,用于接收手写字符输入的信号并采集该手写字 符轨迹点的离散坐标序列;
归一化模块2,用于利用一个平滑连续函数,将采集到的手写字 符轨迹点的离散坐标序列变换成为另 一个离散坐标序列,以调整手写 字符的大小和形状以及重心的坐标值,得到该手写字符的规整坐标序 列;
特征提取模块3,用于根据手写字符的规整坐标序列,将所有相 邻轨迹点形成的矢量线段分解到八个标准方向,得到手写字符的多维 特征矢量;
存储模块4,用于存储特征变换矩阵及全体字符类的粗分类模板 和细分类模板,粗分类模板由全体字符类经特征选取后计算得到的样 本中心构成,细分类模板由全体字符类经特征变换后计算得到的样本 中心构成;
粗分类模块5,用于从手写输入字符的多维特征矢量中选取部分 特征值,将所述手写输入字符分别与所述存储模块4中的粗分类模版 进行匹配,从预存储字符类中选取相似度最大的若干个候选字符类;
细分类模块6,用于对手写输入字符的多维特征矢量进行特征变 换,将特征变换后的手写输入字符与从所述存储模块4中的细分类模 板中选取的候选字符类的样本中心进行匹配,从中确定最相似的字符 类,以供用户选择。图4示出了本发明实施例一种手写字符输入系统的详细结构示意
图;图3中信号采集模块1具体包括
釆集单元101,用于采集手写字符轨迹点的离散坐标序列; 判断单元102,用于判断一个手写字符输入是否结束,当未接收
坐标序列的采集;
检测单元103,用于检查采集到的手写字符的轨迹点是否只有一 个,如果是则删除该轨迹点重新采集;以及检测采集到的手写字符的 轨迹点中相邻点之间的坐标距离,如果该距离小于设定的阈值,则删 除其中的一点,使得相邻点之间保持一定距离。
该系统还包括
显示模块7,用于显示所述细分类模块6输出的最相似的字符类, 以供用户选择。
与现有方法相比,在归一化、特征提取、粗分类、细分类中的技 术有一些不同
归一化坐标变换函数^ = ^和^' = /是新提出的,这样做的好处是
坐标变换的函数为平滑连续函数,从而使变换后的字符形状更为自然, 同时保证字符轨迹的重心变换到外框的中心(0.5)。以前也有把字符 重心映射到外框中心的做法,但是用的是分段线性函数,变换后的字 符形状不自然,也影响后面的识别。
特征提取笔划轨迹线段直接分解到8个方向。现有的方法是先 把轨迹变为一幅图像,对图像中的像素进行方向分解,这样做的计算 量更大,而且生成的图像会有失真。我们的方法避免了生成图像所增 加的计算量,而且得到的方向特征更准确。
粗分类现有方法一般是人工选取一部分特征(如直接使用大尺 度特征)或者采用特征变换。而我们用Fisher准则选择的特征比人工
22选择特征有更好的识别精度,与特征变换相比减少了计算量(因为没 有线性变换)。
细分类特征变换矩阵和类别中心模版的迭代调整能明显提高识
别精度。现有的方法是直接采用Fisher准则得到的变换矩阵,然后在 变换特征上采用学习矢量量化(Learning Vector Quantization, LVQ)算 法调整类别中心模版。我们的方法通过同时调整变换矩阵与类别中心 模版,能得到更高的识别精度。
本方法可适用于中文、英文、数字、符号的识別。
一、 输入字符轨迹
4、
二、 归一化后的轨迹
啖
三、粗分类选出的10个候选类别及其匹配距离(在60个选择特 征上计算距离)
唆唉啥啶唤呋嗅唳喉唛
597621643676689698715732764771
四、细分类对10个候选类别的重新排序及其距离(在120个变换 特征上计算距离)
唉啶唤唆啥唳呋喉嗅唛
1079112111571186123312981374141914621503
五、最后的识别结果为"唉"。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说, 在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改 进和变动也视为本发明的保护范围。
权利要求
1、一种手写字符输入方法,其包括以下步骤A、从预存储字符类的样本的特征矢量中选取部分特征值,计算各个字符类的样本中心,得到由全体字符类的样本中心构成的粗分类模版;B、对预存储字符类的样本的特征矢量进行特征变换,重新计算各个字符类的样本中心,得到由全体字符类的样本中心构成的细分类模版;C、接收手写字符输入的信号并采集输入字符轨迹点的离散坐标序列,利用一个平滑连续函数,将采集到的手写字符轨迹点的离散坐标序列变换成为另一个离散坐标序列,以调整手写输入字符的大小和形状以及重心的坐标值,得到该字符的规整坐标序列;D、根据输入字符的规整坐标序列,进行特征提取得到该手写字符的多维特征矢量;E、从所述手写输入字符的多维特征矢量中选取部分特征值,将所述手写输入字符分别与所述粗分类模版进行匹配,从预存储字符类中选取相似度最大的若干个候选字符类;F、对所述手写输入字符的多维特征矢量进行特征变换,将特征变换后的手写输入字符与从所述细分类模板中选取的候选字符类的样本中心进行匹配,从中确定最相似的字符类,以供用户选择。
2、 根据权利要求1所述的一种手写字符输入方法,其特征在于, 所述步骤C具体还包括步骤判断 一 个手写字符输入是否结束,当未接收到手写字符输入信号 的时间超过设定的阈值,则结束该字符离散坐标序列的采集。
3、 根据权利要求1或2所述的一种手写字符输入方法,其特征在 于,所述步骤C还包括步骤检查釆集到的手写字符的轨迹点是否只有一个,如果是则删除该 轨迹点重新采集;检测采集到的手写字符的轨迹点中相邻点之间的坐标距离,如果 该距离小于设定的阚值,则删除其中的一点,使得相邻点之间保持一 定距离。
4、 根据权利要求1所述的一种手写字符输入方法,其特征在于, 所述步骤C具体包括以下步骤将所有轨迹点的一黄坐标值和纵坐标值变换到介于0到100之间; 分别计算所有轨迹点横坐标和纵坐标的重心坐标值; 将所有轨迹点坐标值和重心坐标值除以100, -使所有轨迹点坐标 值和重心坐标值变为0到l之间,利用Y吏重心坐标值的4黄坐标和纟从坐 标变为0.5的一个平滑连续函数,将采集到的手写字符轨迹点的离散 坐标序列变换成为另 一个离散坐标序列;再将所有轨迹点坐标值乘以64,得到输入字符的规整坐标序列。
5、 根据权利要求1或4所述的一种手写字符输入方法,其特征在 于,所述步骤D具体包括以下步骤根据输入字符的规整坐标序列,将所有相邻轨迹点形成的矢量线 段分解到8个标准方向,每个标准方向上得到矢量线段长度值;对所述得到的矢量线段长度值进行处理,得到大尺度特征值和小 尺度特征值构成的多维特征矢量。
6、 根据权利要求1所述的一种手写字符输入方法,其特征在于, 所述步骤A具体包括以下步骤根据Fisher准则,从预存的每 一 个字符类的样本中,选取使得 Fisher比最大的若干个特征值;根据由选取特征值构成的样本的特征矢量,计算该字符类的样本 中心的特征矢量,得到由全体字符类的样本中心构成的粗分类模版。
7、 根据权利要求6所述的一种手写字符输入方法,其特征在于, 所述步骤E具体包括以下步骤根据Fisher准则,从所述手写输入字符的多维特征矢量中选取部 分特征值,所述手写输入字符具有与字符类的样本相同维数的由选取 特征值构成的特征矢量;将所述手写输入字符分别与所述粗分类模版进行匹配,从预存储 字符类中选取相似度最大的若干个候选字符类。
8、 根据权利要求1或6所述的一种手写字符输入方法,其特征在 于,所述步骤B真体包括以下步骤利用根据Fisher准则得到的特征变换矩阵,将所有字符类的样本 进行特征变换,降低其多维特征矢量的维数;重新计算特征变换后的所有字符类的样本中心;对所述特征变换矩阵及所有字符类的样本中心进行迭代调整,重 新计算特征变换矩阵和所有字符类的样本中心,得到由全体字符类的 样本中心构成的细分类模版。
9、 根据权利要求8所述的一种手写字符输入方法,其特征在于, 所述步骤F具体包括以下步艰A:用迭代调整后的特征变换矩阵对手写输入字符进行特征变换,得 到其低维特征矢量;该手写输入字符的低維特征矢量分别与从所述细分类模板中选取的候选字符类的样本中心进行匹配,从候选字符类中确定相似度最大 的字符类,以供用户选择。
10、根据权利要求1所述的一种手写字符输入方法,其特征在于,所述步骤A、 B中所述的预存储字符类的样本的特征矢量,是预先通 过所述步骤C、 D获得的多维特征矢量。
11、 一种手写字符输入系统,其特征在于,包括信号采集模块,用于接收手写字符输入的信号并采集手写字符轨 迹点的离散坐标序列;归一化模块,用于利用一个平滑连续函数,将采集到的手写字符 轨迹点的离散坐标序列变换成为另 一个离散坐标序列,以调整手写字 符的大小和形状以及重心的坐标值,得到该字符的规整坐标序列;特征提取模块,用于根据所述规整坐标序列,进行特征提取得到该手写字符的多维特征矢量;存储模块,用于存储特征变换矩阵及其全体字符类的粗分类模板 和细分类模板,粗分类模板由全体字符类经特征选取后计算得到的样 本中心构成,细分类模板由全体字符类经特征变换后计算得到的样本中心构成;粗分类模块,用于从手写输入字符的多维特征矢量中选取部分特 征值,将所述手写输入字符分别与所述存储模块中的粗分类模版进行 匹配,从预存储字符类中选取相似度最大的若干个候选字符类;细分类模块,用于对手写输入字符的多维特征矢量进行特征变换, 将特征变换后的手写输入字符与从所述存储模块中的细分类模板中选 取的候选字符类的样本中心进行匹配,从中确定最相似的字符类,以 供用户选择。
12、 根据权利要求11所述的系统,其特征在于,所述信号采集模块中具体包括采集单元,用于采集手写字符轨迹点的离散坐标序列; 判断单元,用于判断一个手写字符输入是否结束,当未接收到手写字符输入信号的时间超过设定的阔值,则结束该字符离散坐标序列的采集;检测单元,用于检查采集到的手写字符的轨迹点是否只有一个, 如果是则删除该轨迹点重新采集;以及检测采集到的手写字符的轨迹 点中相邻点之间的坐标距离,如果该距离小于设定的阈值,则删除其 中的一点,使得相邻点之间保持一定距离。
13、 根据权利要求11或12所述的系统,其特征在于,该系统还 包括显示模块,用于显示所述细分类模块输出的最相似的字符类,以 供用户选择。
全文摘要
本发明公开了一种手写字符输入方法,其包括A.对预存储字符类进行特征选取,计算粗分类模版;B.对预存储字符类进行特征变换,计算细分类模版;C.采集输入字符轨迹点的离散坐标序列,利用一个平滑连续函数,调整手写输入字符的大小和形状以及重心的坐标值;D.特征提取得到该手写字符的多维特征矢量;E.选取手写输入字符部分特征值,将手写输入字符分别与粗分类模版进行匹配,选取相似度最大的若干个候选字符类;F.对手写输入字符进行特征变换,将手写输入字符与从细分类模板中选取的候选字符类的样本中心进行匹配,从中确定最相似的字符类。本发明还公开了一种手写字符输入的系统。本发明手写字符输入识别的速度更快,且识别精度更高。
文档编号G06F3/041GK101452357SQ20081021986
公开日2009年6月10日 申请日期2008年12月11日 优先权日2008年12月11日
发明者胡安进, 蔡沐宇, 陆华兴, 陈炳辉, 高精鍊, 黄新春 申请人:广东国笔科技股份有限公司