用于中文手写汉字识别的预分类方法及系统的制作方法

文档序号:6584246阅读:177来源:国知局
专利名称:用于中文手写汉字识别的预分类方法及系统的制作方法
技术领域
本发明涉及中文手写汉字的识别方法和系统,尤其涉及用于中文手写汉字识别的预分类方法和装置。
背景技术
手持设备的计算能力和存储容量都很有限,因此用于便携式手持设备的中文手写识别(CHWR),与用于台式计算机的中文手写识别大不相同。对于一个针对全部汉字的识别系统,一般需要一个基于汉字高维特征的精细分类器。这种分类器的计算复杂性太高,存储器容量需求太大,以至于无法直接应用于手持设备。
图4a和图4b展示了两种已有的预分类器的流程。图4a中,首先在步骤71输入汉字的结构特征,然后在步骤72进行弹性匹配(动态规划方法)以得到候选字组。但是,其中利用的汉字结构模型并不容易训练,不同汉字的结构差别很大,计算复杂性差别也很大,汉字的结构越复杂,预分类器需要的计算时间也越多。
图4b使用了多级预分类策略,以提高识别速度。在每个预分类器中基于训练数据,为每一类选定特征设定一个范围。如果输入采样的特征在一个类特征的范围内,则该类将包括在候选字组中,否则,该类将不包括在候选字组中。在步骤81输入手写汉字的统计特征,在步骤82与每一汉字的统计特征范围进行比较,得到候选字组。
已有的预分类器仅仅利用一种特征筛选候选字组,在速度和准确率方面进行了折衷,在高速度时准确率低,准确率高时速度慢,其综合性能难以满足手持设备的需求。

发明内容
鉴于已有技术的不足之处,本发明的目的是提供一种新的预分类方法和预分类器。它可以更好地兼顾了预分类的准确度和速度。
本发明的进一步目的是提供一种高效的手写汉字识别方法和系统。
根据本发明的一种用于中文手写汉字识别系统的预分类方法,该手写汉字识别系统对手写汉字的特征进行预分类和精细分类以识别该汉字。该方法包括提取手写汉字的低维的第一种汉字特征,并由此产生第一候选字组;提取手写汉字的高维的第二种汉字特征,用于精细分类;把所述高维的第二种汉字特征降维,来获得低维的第二种汉字特征,并由此产生第二候选字组;以及根据所述第一候选字组和第二候选字组的交集,获得最终候选字组。
对于同一手写汉字,本发明通过两个子预分类器,利用两种不同的汉字特征来分别筛选出两个不同的候选字组。根据这两个基于不同汉字特征的候选字组进行预分类,从而避免了单纯利用一个预分类器和一种汉字特征来产生候选字组带来的不足。
本发明还提供了一种用于中文手写汉字识别系统中识别手写中文汉字的方法。该方法包括提取手写汉字的低维的第一种汉字特征,并由第一子预分类产生第一候选字组;提取所述手写汉字的高维的第二种汉字特征;从所述高维的第二种汉字特征获得低维的第二种汉字特征,并由第二子预分类产生第二候选字组;根据所述第一候选字组和第二候选字组的交集,获得最终候选字组,作为预分类的结果;以及利用所述高维的第二种汉字特征和所述最终候选字组来识别出所书写的汉字。利用两种不同的候选字组和高维的第二种汉字特征,识别书写汉字的准确率和速度综合性能显著地提高。
本发明还提供了一种用于中文手写汉字识别系统的预分类器。它包括低维的第一种汉字特征提取装置,用于提取手写汉字的低维的第一种汉字特征,和第一子预分类器,用于产生第一候选字组;高维的第二种汉字特征提取装置,用于提取手写汉字的高维的第二种汉字特征;降维装置,把所述高维的第二种汉字特征降维,来获得低维的第二种汉字特征;第二子预分类器,根据所说低维的第二种汉字特征来产生第二候选字组;以及最终候选字组产生装置,利用所述第一候选字组和第二候选字组的交集来获得最终候选字组。
本发明还提供了一种中文手写汉字识别系统。它包括低维的第一种汉字特征提取装置,用于提取手写汉字的低维的第一种汉字特征,和第一子预分类器,用于产生第一候选字组;高维的第二种汉字特征提取装置,用于提取所述手写汉字的高维的第二种汉字特征。该手写汉字识别系统还包括降维变换装置,把所述高维的第二种汉字特征降维,来获得低维的第二种汉字特征;第二子预分类器,根据所获得的低维的第二种汉字特征来产生第二候选字组;最终候选字组产生装置,用于产生最终候选字组;以及精细分类器,用于利用所述高维的第二种汉字特征和所述最终候选字组来识别该手写汉字。
本发明的所述精细分类器利用所述第一候选字组和第二候选字组的交集来识别该手写汉字。充分利用了第一候选字组和第二候选字组的互补性,去除了一些多余的候选字,从而提高了精细分类器的识别速度。
本发明的所述低维的第一种汉字特征与所述低维的第二种汉字特征不同。它们之间基本上不相关。因此,所得到第一候选字组和第二候选字组具有一定的互补性。
此外,汉字的外围特征远比其内部特征重要,更有利于识别汉字,因此,本发明的低维的第二种汉字特征选用的是汉字的外围统计特征。本发明的降维变换装置,将采样的高维的第二汉字特征的外围特征进行汇总(summarize),如进行累加,得到低维的第二种汉字特征。这样就省去了独立的低维的第二种汉字特征的提取。
本发明还提出的一种用于中文手写汉字识别系统中通过预分类来产生候选字组的方法包括训练有效统计特征的多个模板;将这些模板分为多个统计特征聚类;在每个聚类中,生成代表其中全部汉字特征的聚类中心;并对每个统计特征聚类,产生一个字索引组;对输入的汉字进行采样来获得该汉字的统计特征;将该汉字采样所得的统计特征与各个聚类的聚类中心进行比较,选出若干组与之最相似的聚类,其中相似聚类组的数量预先确定;以及合并选定的聚类组相对应的字索引组,来产生对输入汉字的候选字组。这种同聚类中心比较的方式,优于已有技术中同每一聚类的聚类特征范围进行比较的方式。其准确率高,并且具有更大的灵活性。


图1是根据本发明的手写汉字分类器的框图。
图2是根据本发明的汉字特征降维方法示意图。
图3是根据本发明的候选字组选择示意图。
图4a和图4b展示了两种现有技术的预分类器的流程。
图4c是根据本发明的预分类器流程图。
图5a和图5b是提取手写汉字的汉字特征高维矩阵的示意图。
图6a和图6b是将图5b中的汉字特征高维矩阵降维的示意图。
具体实施例方式
参考图1,本发明的手写汉字分类器包括一预分类器1和精细分类器2。该预分类器包括第一子预分类器12和第二子预分类器13。预分类器1还包括一个低维的第一种汉字特征提取装置10,用于从输入的汉字中提取出低维的第一种汉字特征。该低维的第一种汉字特征,一般是汉字的低维的汉字统计特征(Statistic Feature),如汉字的低维的频率域特征(low dimension frequency domain feature),或其他汉字统计特征。第一子预分类器12还存储有与低维的第一种汉字特征相适应的多个聚类(图中未示出聚类中心和字索引组),包括该汉字特征的聚类中心和相应的字索引组。其中,每个聚类包括多个特征类似的汉字,并且每个聚类具有一个聚类中心,该聚类中心代表了该聚类中汉字的共同特征。第一子预分类器将低维的第一种汉字特征与第一子预分类器的每个聚类中心进行比较,得到与第一子预分类器聚类中心的距离(distance)。根据与第一子预分类器中各个聚类中心的距离,选择若干个与之距离最小的聚类,作为第一子预分类器的输出。这些距离最小的聚类所包括的汉字组成第一候选字组。
预分类器1还包括一个低维的第二种汉字特征装置,即一个降维变换装置21。该装置将提取高维的第二汉字特征降为低维的第二种汉字特征。该高维的第二汉字特征是由高维的汉字特征提取装置提取的,是用于精细分类的。该高维的或低维的第二种汉字特征也是一种汉字的统计特征。但是,该低维的第二种汉字特征是与所述低维的第一种汉字特征不同的汉字统计特征。前面讲了,汉字的统计特征有很多种。这里讲的第一或第二汉字特征可以是其中的任何一种。但要求所选的第一种汉字特征和第二种汉字特征不同,即,在一定程度上相互正交(几乎没有相关性)。例如,汉字的笔划数特征与笔划方向特征的相关性低。例如,杉和阽的笔划数特征相似在同一聚类,但是它们之间的方向特征差别很大,不在同一聚类。第二子预分类器存儲有与低维的第二种汉字特征相适应的多个聚类。每个聚类包括多个汉字,并且每个聚类具有一个聚类中心。该聚类中心代表了该聚类中汉字的共同特征。第二子预分类器将所输入汉字的低维的第二种汉字特征与第二子预分类器的每个聚类中心进行比较,得到与第二子预分类器聚类中心的距离(distance)。根据其与第二子预分类器聚类中心的距离,选择多个与之距离最小的聚类,作为第二子预分类器的输出。这些距离最小的聚类所包括的汉字组成第二候选字组。
由于第一候选字组和第二候选字组具有一定互补性,可以将第一候选字组和第二候选字组的交集作为预分类器最终候选字组,也就是作为精细分类器候选字组,以便去除根据低维的第一种汉字特征筛选出的第一候选字组中的多余汉字,以及根据低维的第二种汉字特征筛选出的第二候选字组中的多余汉字。这由图1中所示的最终候选字组产生装置(交集生成装置)14和预分类器最终候选字组存储装置15来完成。这种方法可以减少精细分类器所要处理的候选字组中的汉字的个数,也就提高了精细分类器的识别速度。进而提高了整个手写汉字分类器的速度。
作为选择,由于低维的第一种汉字特征与低维的第二种汉字特征在一定程度上相互正交,所以第一候选字组和第二候选字组具有一定互补性。根据低维的第一种汉字特征筛选出的第一候选字组,与根据低维的第二种汉字特征筛选出的第二候选字组可以相互补充。此时,可以将图1中的最终候选字组产生装置(交集生成装置)14替换为一并集生成装置(图中未示出)即可。这样,由第一候选字组和第二候选字组中所有的汉字组成预分类器最终候选字组,就可以作为精细分类器候选字组,由精细分类器22识别出该手写汉字。
所述精细分类器22,包括一个高维的某一种汉字特征的提取装置20,用于从手写汉字中提取高维的汉字特征。为了使汉字识别具有足够的精度,高维的汉字特征一般选高维的方向特征(high dimensiondirectional feature)。该精细分类器22利用所述高维的汉字特征,从输送到该精细分类器的预选后的候选字组中识别出所述手写汉字。
所述低维的第二种汉字特征,是通过把用于精细分类器的高维的汉字特征经过降维变换得到。此功能由降维变换装置21来完成的。前面讲了,对于手写汉字,其外围特征要比其内部特征更重要。因此,在降维时,本发明优先提取高维的汉字特征中的外围特征。图2a所示为高维汉字特征提取装置提取的高维的一种汉字统计特征。其中每个黑点代表多维特征。提取汉字的高维的汉字特征中四个角的特征(即外围特征),如图2b所示。然后,将每一虚线内的外围特征进行汇总(summarize),如进行累加,得到如图2c所示的降维后的统计特征。将降维后的统计特征作为低维的第二种汉字特征,从而简化了汉字特征的提取。
下面参考图3,说明本发明的字索引组生成装置5。该装置用于根据汉字的特征将需要识别的汉字划分为多个聚类。每个聚类具有一个聚类中心。聚类中心代表聚类的特征,即该聚类中所有汉字的共同特征。每个聚类对应于一个字索引组,该字索引组中包括聚类中汉字的索引。字索引组生成装置5包括统计特征模板51,聚类装置52,字索引组存储装置53,和聚类中心存储装置54。
假设需要识别m个汉字,首先训练有效的统计特征模板51,使该模板数量也为m个。然后利用聚类技术,将m个模板分为n个聚类。为了使预分类过程具有较快的速度,n和m的取值需要满足n<<m。即聚类的个数要远远少于模板数量。然后,取得每一聚类的聚类中心,以及每一聚类的字索引组,聚类的字索引组中记录了该聚类中所有汉字的索引。同一聚类中的汉字的特征相似。
这样,由低维的第一种汉字特征可以得到关于该m个汉字的多个第一聚类、聚类中心以及多个第一字索引组。由低维的第二种汉字特征可以得到关于该m个汉字的多个第二聚类、聚类中心以及多个第二字索引组。利用汉字的频率域特征结合上述方法,可以得到与频率域特征相关的多个频率域特征聚类、频率域特征聚类中心以及频率域特征字索引组。
利用汉字的方向特征结合上述方法,可以得到与方向特征相关的多个方向特征聚类、方向特征聚类中心以及方向特征字索引组。
下面结合图3详细说明本发明的候选字组生成装置。每一子预分类器都包括一个候选字组生成装置6。它包括特征输入装置60、聚类中心比较装置61、聚类选择装置62和字索引组组合存储装置63。在提取手写汉字的特征之后,特征输入装置60将该汉字特征输入给子预分类器。聚类中心比较装置61将输入该子预分类器中的汉字特征与相应的聚类(或字索引组)对应的聚类中心相比较。聚类选择装置62利用比较得到的差别选出P个与之距离最小的聚类,即P个字索引组。这P个字索引组中的汉字由字索引组组合存储装置63组成了一个候选字组。
将两个子预分类器得到的候选字组结合起来,就得到了预分类器最终候选字组。P的取值影响手写汉字的识别准确度,以及候选字组中聚类的多少,即候选字组中的候选字多少。如果P的取值大,手写汉字识别的准确度将提高,但是候选字组中的候选字也会增多,使得后续精细分类器的识别过程变慢。如果P的取值小,则后续精细分类器的识别过程快,但是识别准确度将下降。
下面结合图5a、图5b、图6a以及图6b说明手写汉字“手”的识别。在手写汉字“手”输入之后,手写汉字分类器将提取这个汉字的两种统计特征。低维的第一种汉字特征提取装置10提取“手”的低维的一种(第一种)汉字特征。高维的第二汉字特征提取装置20提取“手”的高维的另一种(第二种)汉字特征。这两种统计特征可以选自常用的汉字识别统计特征,比如方向特征(directional feature)、轮廓特征(contour feature)、笔划数特征和频率域特征(frequency domainfeature)等等。一种统计特征用于第一子预分类器12,另一种统计特征用于精细分类器2。上述两种统计特征优先根据汉字不同特性选取的统计特征。因为,该分类器还将要上述高维的第二种汉字特征经过降维变换后,变成低维的第二汉字特征用于第二子预分类器13。
在该实施例中,低维的第一种汉字特征选用低维的频率域特征,如小于30维的频率域特征。高维的第二汉字特征选用高维的方向特征,如大于100维的方向特征。
图5示意性地展示了提取汉字“手”的高维的一种汉字特征。为区别用于第一子预分类器12的汉字特征,称之为第二种汉字特征。汉字“手”在输入后,被划分为多个块,如图5a所示。图5a仅为举例目的,实际划分的块根据需要的统计特征维数来确定。在每一个块中,系统计算笔画的方向特征,提取结果如图5b所示。图5b中“—”“|”和“/”“\”分别代表不同的方向特征。
图6展示了降维变换装置21如何将图5中的高维的第二种汉字特征降维,以得到低维的统计特征。该低维的统计特征将用作低维的第二种汉字特征。如上文所述,汉字的外围特征要比汉字的内部特征重要的多。在图6a中,用虚线矩形选取输入汉字四个角的高维的汉字特征。然后,将每个虚线矩形中的块内的方向特征进行汇总(summarize),如进行累加,降低维数,得到图6b所示的低维的方向特征。该低维的方向特征将用于第二子预分类器13,故称之为低维的第二汉字特征。
根据上述方法,就得到了预分类器所需的低维的第一种汉字特征和低维的第二种汉字特征。第一子预分类器12将得到的低维频率域特征与每一频率域特征聚类中心进行比较,得到它们之间的距离。基于该距离,从多个频率域特征聚类中选出P1个距离最小的频率域特征聚类。这些频率域特征聚类中的汉字将组成第一候选字组。P1的取值要考虑在识别准确度(识别率)和所需的计算量(速度)之间进行折衷。
同样,第二子预分类器13将得到的低维的方向特征与每一方向特征聚类中心进行比较,得到它们之间的距离。基于该距离,从多个方向特征聚类中选出P2个距离最小的方向特征聚类。这些方向特征聚类中的汉字将组成第二候选字组。P2的取值也要考虑在识别准确度(识别率)和所需的计算量(速度)之间进行折衷。
接下来,交集求取装置14,接收第一子预分类器12输出的第一候选字组和第二子预分类器13输出的第二候选字组,求取第一候选字组和第二候选字组的交集,作为预分类器的最终候选字组。最后精细分类器22利用得到的高维的方向特征,从该候选字组中识别出手写汉字。
求取第一候选字组和第二候选字组的交集,相当于利用低维的第一种汉字特征筛选得到第一候选字组后,根据低维的第二种汉字特征排除第一候选字组中不可能的汉字,即多余的汉字。这样,就缩小了最终候选字组中的汉字数量,也就缩小了精细分类器的识别范围,从而加快了识别速度。
图4c示出了本发明的预分类器与图4a和图4b中已有的预分类器之间的不同。其中,本发明首先在步骤91采样并输入手写汉字的统计特征,然后在步骤92将汉字的统计特征与每一个聚类的聚类中心进行比较。在步骤93,根据比较结果,选出与输入手写字的统计特征距离最小的P个聚类。在步骤94,将这P个聚类中的汉字组成候选字组。本发明是利用汉字的统计特征,并且本发明的分类器是距离分类器,而不是动态规划分类器。
本发明的手写汉字分类器在确定识别速度和识别率之后,可以综合考虑选取第一聚类数量P1的取值、选取第二聚类数量P2的取值,以及利用第一候选字组和第二候选字组的交集或并集,根据不同需求来确定手写汉字识别方案。
权利要求
1.一种用于中文手写汉字识别系统的预分类方法,该手写汉字识别系统用于对手写汉字的特征进行预分类和精细分类以识别该汉字,所述方法包括提取所述手写汉字的低维的第一种汉字特征,并产生第一候选字组;其特征在于所述方法包括提取所述手写汉字的高维的第二种汉字特征,用于精细分类;把所述高维的第二种汉字特征降维,获得低维的第二种汉字特征,并产生第二候选字组;以及由所述第一候选字组和第二候选字组的交集,获得最终候选字组。
2.如权利要求1所述的预分类方法,其特征在于所述第一种汉字特征和第二种汉字特征是两种不同的汉字统计特征(StatisticFeatures),它们是分别选自汉字统计特征中的笔划方向特征、轮廓特征、笔划数特征和频率域特征。
3.如权利要求1所述的预分类方法,其特征在于所述第一种汉字特征是汉字的频率域特征,第二种汉字特征是汉字的笔划方向特征。
4.如权利要求1所述的预分类方法,其特征在于所述的低维的第一种汉字特征和第二种汉字特征都小于30维,所述的高维的第二种汉字特征大于100维。
5.如权利要求1所述的预分类方法,其特征在于所说降维是从已提取的高维的第二汉字特征的汉字的四角外围特征汇总后成为低维的第二汉字技术特征。
6.一种用于中文手写汉字识别系统中识别手写中文汉字的方法,包括提取所述手写汉字的低维的第一种汉字特征,用于第一子预分类器产生第一候选字组;以及提取所述手写汉字的高维的第二种汉字特征,用于精细分类;其特征在于所述方法包括把所述高维的第二种汉字特征降维,获得低维的第二种汉字特征,并用于第二子预分类来产生第二候选字组;由所述第一候选字组和第二候选字组的交集,获得最终候选字组,作为预分类的结果;以及利用所述高维的第二种汉字特征,从所述最终候选字组中识别出该手写汉字。
7.如权利要求6所述的手写中文汉字识别方法,其特征在于所述第一种汉字特征和第二种汉字特征是不同的汉字统计特征,它们是分别选自汉字统计特征中的笔划方向特征、轮廓特征、笔划数特征和频率域特征。
8.如权利要求6所述的手写中文汉字识别方法,其特征在于所述第一种汉字特征是汉字的频率域特征,第二种汉字特征是汉字的笔划方向特征。
9.如权利要求6所述的手写中文汉字识别方法,其特征在于所述低维的第一种汉字特征和第二种汉字特征都小于30维,所述高维的第二种汉字特征大于100维。
10.如权利要求6所述的预分类方法,其特征在于所说降维是从已提取的高维的第二汉字特征的汉字的四角外围特征汇总后成为低维的第二汉字技术特征。
11.一种用于中文手写汉字识别系统的预分类器,包括低维的第一种汉字特征提取装置,用于提取所述手写汉字的低维的第一种汉字特征,和第一子预分类器,根据低维的第一种汉字特征产生第一候选字组;其特征在于所述预分类器还包括高维的第二种汉字特征提取装置,用于提取所述手写汉字的高维的第二种汉字特征;低维的第二种汉字特征提取装置,用于从所述高维的第二种汉字特征获得低维的第二种汉字特征;第二子预分类器,根据低维的第二种汉字特征产生第二候选字组;以及最终候选字组产生装置,根据所述第一候选字组和第二候选字组的交集获得最终候选字组。
12.一种中文手写汉字识别系统,包括低维的第一种汉字特征提取装置,用于提取所述手写汉字的低维的第一种汉字特征,和第一子预分类器,根据所提取的低维的第一种汉字特征产生第一候选字组;高维的第二种汉字特征提取装置,用于提取所述手写汉字的高维的第二种汉字特征;其特征在于所述手写汉字识别系统还包括降维变换装置,把所提取的高维的第二种汉字特征降维,以获得低维的第二种汉字特征;第二子预分类器,根据所述低维的第二种汉字特征产生第二候选字组;最终候选字组产生装置,用于产生最终候选字组;以及精细分类器,利用所述高维的第二种汉字特征,从所述最终候选字组中识别出该手写汉字。
13.如权利要求12所述的手写汉字识别系统,其特征在于所述最终候选字组产生装置,根据所述第一候选字组和第二候选字组的交集来获得最终候选字组。
14.一种用于中文手写汉字识别系统中通过预分类来产生候选字组的方法,包括训练有效统计特征的多个模板;将所述模板分为多个统计特征聚类;在每个聚类中,生成代表其中全部汉字特征的一个聚类中心;对每个统计特征聚类,产生一字索引组;对于输入汉字,提取该汉字样本的统计特征;将该汉字样本的统计特征与所述各个聚类中心进行比较,选出多组与所输入汉字统计特征距离最小的聚类,其中所述相似组的个数是预先确定的;以及合并所选定的多组聚类的字索引组,来产生对应所输入汉字的候选字组。
15.如权利要求14所述的产生候选字组的方法,其特征在于所述统计特征聚类的个数远远小于所述统计特征模板的个数。
16.一种生成子预分类器的候选字组的方法,包括对于手写输入汉字样本提取其统计特征;其特征在于将该汉字样本提取的统计特征与预分类器中存储的各个汉字聚类的聚类中心进行比较,其中所说聚类中心代表该聚类中的汉字的共同特征;选出若干组与所输入汉字统计特征距离最小的聚类,其中所述聚类组的个数是预先确定的;以及合并所选定的多组聚类的字索引组,来产生对应所输入汉字的候选字组。
全文摘要
根据本发明是一种用于中文手写汉字识别系统的预分类方法。该手写汉字识别系统对手写汉字的特征进行预分类和精细分类来识别手写的汉字。该方法包括提取手写汉字的低维的第一种汉字特征,并产生第一候选字组;提取所述手写汉字的高维的第二种汉字特征,用于精细分类;把所提取的高维的第二种汉字特征降维,获得低维的第二种汉字特征,并产生第二候选字组;再由所述第一候选字组和第二候选字组的交集,获得最终候选字组。对于同一手写汉字,本发明通过两个子预分类器进行预分类,并利用两种汉字特征来分别筛选出两个不同的候选字组。从而避免了单纯利用一个预分类器和一种汉字特征来筛选候选字组带来的不足。
文档编号G06K9/80GK1471042SQ0212700
公开日2004年1月28日 申请日期2002年7月25日 优先权日2002年7月25日
发明者郭丰俊, 镇立新, 黄建成 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1