一种基于归一化的手写识别方法和识别装置的制作方法

文档序号:6605596阅读:146来源:国知局
专利名称:一种基于归一化的手写识别方法和识别装置的制作方法
技术领域
本发明涉及手写识别技术领域,特别是涉及一种基于归一化的手写识别方法和识 别装置。
背景技术
手写识别(Handwriting Recognize),是指将在手写设备上书写时产生的手写轨 迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过 程,是人机交互最自然、最方便的手段之一。随着智能手机、掌上电脑等移动信息工具的普 及,手写识别技术也进入了规模应用时代。手写识别能够使用户按照最自然、最方便的输入 方式进行文字输入,易学易用,可取代键盘或者鼠标。实际应用中,用于手写输入的设备有 许多种,比如电磁感应手写板、压感式手写板、触摸屏、触控板、超声波笔等。目前,一种手写识别实现方法为根据用户输入的笔画轨迹和特定字符模板之间的 距离来判断笔画轨迹属于哪个字符,对于不同的特定字符模板,输入的笔画轨迹与他们间 计算出的距离是有可比性,即字内距离具有可比性。但是,对于不同的输入笔画轨迹来说, 这种距离不具有可比性,即字间距离不具可比性,当输入结构比较复杂的字符时,按照所述 的方法进行识别,有可能会出现识别错误,具体的来说,如输入一个“月,,和一个“生”,上述 方法可能会将其识别为一个“胜”,又或者当输入为一个“胜”,受所述字间距离不可比的限 定,而将其误识别为一个“月”和一个“生”。因此,目前需要本领域技术人员迫切解决的一个技术问题就是如何能够创新地 提出一种新的识别方法,以解决现有技术中存在的问题,有效提高识别的准确性和可靠性。

发明内容
本发明所要解决的技术问题是提供一种基于归一化的手写识别方法和识别装置, 用以提高手写识别的准确性和可靠性。为了解决上述问题,本发明公开了一种基于归一化的手写识别方法,所述方法包 括创建训练数据集;所述数据集中包括各字符的手写样本集;统计样本集中各字符的字内距离;所述字内距离也即识别引擎给出的识别距离, 包括字符笔画特征的相对坐标位置的特性;获取各样本集字内距离的协方差;接收输入的笔画轨迹;计算所接收的笔画轨迹到每个字符的字内距离;用各样本集的协方差对计算所得的字内距离进行归一化处理,获取马氏距离;按所获取的马氏距离进行排序,并对排序靠前字符的字内距离进行加权处理;输出加权处理后排序靠前的预设数量的字符。优选的,所述方法在统计样本集中各字符的字内距离前还包括
4
用识别引擎对所创建的训练数据集中各字符的手写样本集进行筛选,滤除样本集 中不能正确识别的字符。优选的,所述获取各样本集字内距离的协方差包括以下子步骤构建各样本集字内距离的协方差矩阵;计算各协方差矩阵的协方差,获取各样本集字内距离的协方差。优选的,所述协方差矩阵用0作为中心进行构建。优选的,所述创建训练数据集包括以下子步骤采集各字符的手写样本集;用所采集的各字符的手写样本集创建训练数据集。本发明还公布了一种基于归一化的手写识别装置,所述装置包括创建模块,用于创建训练数据集;所述数据集中包括各字符的手写样本集;统计模块,用于统计样本集中各字符的字内距离;所述字内距离也即识别引擎给 出的识别距离,包括字符笔画特征的相对坐标位置的特性;获取模块,用于获取各样本集字内距离的协方差;接收模块,用于接收输入的笔画轨迹;计算模块,用于计算所接收的笔画轨迹到每个字符的字内距离;归一化处理模块,用于用各样本集的协方差对计算所得的字内距离进行归一化处 理,获取马氏距离;加权处理模块,用于按所获取的马氏距离进行排序,并对排序靠前字符的字内距 离进行加权处理;输出模块,用于输出加权处理后排序靠前的预设数量的字符。优选的,所述装置还包括过滤模块,用于用识别引擎对所创建的训练数据集中各字符的手写样本集进行筛 选,滤除样本集中不能正确识别的字符。优选的,所述获取模块包括以下子模块构建子模块,用于构建各样本集字内距离的协方差矩阵;计算子模块,用于计算各协方差矩阵的协方差,获取各样本集字内距离的协方差。优选的,所述构建子模块构建协方差矩阵时用0作为中心进行构建。优选的,所述创建模块包括以下子模块采集子模块,用于采集各字符的手写样本集;创建子模块,用于用所采集的各字符的手写样本集创建训练数据集。与现有技术相比,本发明具有以下优点本发明通过创建训练数据集,所述数据集中包括各字符的手写样本集,统计样本 集中各字符的字内距离,所述字内距离也即识别引擎给出的识别距离,包括字符笔画特征 的相对坐标位置的特性,获取各样本集字内距离的协方差,接收输入的笔画轨迹,计算所接 收的笔画轨迹到每个字符的字内距离,用各样本集的协方差对计算所得的字内距离进行归 一化处理,获取马氏距离,按所获取的马氏距离进行排序,并对排序靠前字符的字内距离进 行加权处理,输出加权处理后排序靠前的预设数量的字符,从而准确可靠的完成了字符的 识别。


图1是本发明实施例一所述的一种基于归一化的手写识别方法的流程图;图2是本发明实施例二所述的一种基于归一化的手写识别装置的结构图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。随着数字时代的到来,各种数字产品纷纷问世,便携式掌上电脑、个人数字助理 (PDA, Personal Digital Assistant)、智能手机、导航设备、学习机、电子书等移动信息工 具逐日普及,手写输入成为越来越多用户的需要。如果能够提出一种有效识别手写文字的 方法,那么将会给数字产品的发展提供强有力的帮助。因此,本专利发明人创造性地提出了本发明实施例的核心构思之一,即提供一种 基于归一化的手写识别方法和识别装置,通过创建训练数据集,所述数据集中包括各字符 的手写样本集,统计样本集中各字符的字内距离,所述字内距离也即识别引擎给出的识别 距离,包括字符笔画特征的相对坐标位置的特性,获取各样本集字内距离的协方差,接收输 入的笔画轨迹,计算所接收的笔画轨迹到每个字符的字内距离,用各样本集的协方差对计 算所得的字内距离进行归一化处理,获取马氏距离,按所获取的马氏距离进行排序,并对排 序靠前字符的字内距离进行加权处理,输出加权处理后排序靠前的预设数量的字符。实施例一参照图1,示出了本发明的一种基于归一化的手写识别方法的流程图,所述方法具 体包括S101,创建训练数据集;所述数据集中包括各字符的手写样本集;所述创建训练数据集,是包括全部字符的所有手写样本集,例如一个汉字集 GB2312中,包括“旗”,“开”,“得”,“胜”等等字符共6763个字,每个字符都有多个训练样本, 如可以有1000、2000或者其他任意多个个训练样本。优选的,所述创建训练数据集包括以下子步骤采集各字符的手写样本集;用所采集的各字符的手写样本集创建训练数据集。具体来说,在创建训练数据集时,先进行采集各字符的手写样本集,如采集100个 或1000个不同背景人书写的手写样本,待各个字符的手写样本都采集完成后,用所采集的 各字符的手写样本集来创建训练数据集。当然,也可以通俗的理解为完成各字符手写样本 集的采集工作也就完成了训练数据集的创建。S102,统计样本集中各字符的字内距离;所述字内距离也即识别引擎给出的识别 距离,包括字符笔画特征的相对坐标位置的特性;通过统计训练数据集中各字符样本集的字内距离,获得到各字符的特征,从而能 够在未知笔迹信号输入后进行识别。所述的字内距离也即识别引擎的识别距离,包括字符 笔画特征的相对距离,同时,也可能会包含更多能够更为精细识别字符的特性。以字符手写 样本集中的“胜”字,“月”字,“生”字为例进行简要说明,通过统计和转换直观的来看“胜”字,“月”字,“生”字的字内距离均值分别为903,747,646。所述的均值是指按照所采集的 样本的个数而求得的平均值。优选的,所述方法在统计样本集中各字符的字内距离前还包括用识别引擎对所创建的训练数据集中各字符的手写样本集进行筛选,滤除样本集 中不能正确识别的字符。在实际应用中,往往可能出现这样的情形,所采集的样本可能当前的识别引擎是 不能够识别的,为了提高整体识别的准确性,在进行字内距离的统计前,通过识别引擎对所 创建的数据集中各字符的手写样本集进行筛选,滤除掉字符集中当前识别引擎所不能准确 识别的字符。比如“胜”字采集了 1000个手写样本,识别引擎能够正确识别的有950个,然 后将不能准确识别的50个过滤掉,在统计字内距离时,仅统计过滤后字符样本集中所包含 字符的字内距离。S103,获取各样本集字内距离的协方差;优选的,所述S103包括以下子步骤构建各样本集字内距离的方差矩阵;计算各协方差矩阵的协方差,获取各样本集字内距离的协方差。在统计完各字符样本集中字符的字内距离后,用各样本集中字符的字内距离构建 协方差矩阵,并且计算各样本集字内距离的协方差。对应前面所介绍的,如通过计算得到“胜”字,“月”字,“生”字的协方差为267432, 207825,183436。优选的,所述协方差矩阵用0作为中心进行构建。基于各字符其字内距离的不相同,这里采用0作为协方差矩阵的中心,更进一步 的保证了所获取协方差值的客观性。实际应用中,为简化计算量,也可能会通过构建简单的 协方差矩阵,求取简单的协方差值,但其核心思想都是一样的。S104,接收输入的笔画轨迹;其中,所述的笔画轨迹也即笔迹,是人在书写的过程中留下的痕迹,是书写者的主 观因素和客观条件之间相互作用、相互矛盾的产物。本实施例中所述的笔迹信息简单的来 说,是指用户在使用电子设备时,手写输入所产生的痕迹。其中,手写所输入的痕迹,也即这 里所要接收的输入笔迹信息。在输入笔画轨迹时,笔画的相对位置的坐标序列将会被记录。 例如用户输入一个“胜”字,这个“胜”字笔画的相对位置坐标序列串将被记录。S105,计算所接收的笔画轨迹到每个字符的字内距离;在接收到输入笔画轨迹后,计算所接收的笔画轨迹到每个字符的字内距离,计算 工作由识别引擎完成,实际识别中,由于接收到的输入笔画轨迹与创建训练数据集不同的 是,创建的过程中明确知道输入的是哪个字符,而当前输入的笔画轨迹,并不知道其输入哪 个字符也不知道笔画轨迹包含几个字符,因此需要对其分析分割后,将其假设为训练数据 集中各个字符分别计算所接收笔画轨迹到每个字符的字内距离。S106,用各样本集的协方差对计算所得的字内距离进行归一化处理,获取马氏距 罔;在计算完成后,用各样本集的协方差对计算所得的字内距离进行归一化处理,从 而获得其马氏距离。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为
7无量纲的表达式,成为纯量。马氏距离是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的,表示数据 的协方差距离。它是一种有效的计算两个未知样本的相似度的方法。它不仅考虑到各种特 性之间的关系,而且是量纲无关的。为了便于理解,这里以一个字符为例进行介绍归一化处理,假设当前输入的笔画 轨迹针对该字符的字内距离为A,该字符所在字符样本集的协方差为B,具体的归一化为用 A除以B的平方根,用归一化的结果再乘以A即为所需的马氏距离。以前面所介绍的输入“胜”为例进行介绍,计算得到输入“胜”的笔画轨迹到“胜” 字,“月”字,“生”字的字内距离分别为824,786,815,分别对应的马氏距离分别为1313, 1357,1551。S107,按所获取的马氏距离进行排序,并对排序靠前字符的字内距离进行加权处 理;按照前面的介绍,将所获取的马氏距离进行排序,对排序靠前字符的字内距离进 行加权处理,对照上面的例子进行介绍,当前输入笔画轨迹马氏距离排序靠前的字符为 “胜”字,“月”字,“生”字,其马氏距离分别为1313,1357,1551,具体的加权处理为将“月”字 和“生”字的马氏距离求和后除以字的个数,这里为1357+1551后除以2。S108,输出加权处理后排序靠前的预设数量的字符。通过前面的处理得到排序靠前的字符,这里为方便介绍所选的输出字符的数量为 2,当然,实际中可以进行自由设定,得到当前输入笔画轨迹排序靠前的字符为“胜”字以及 “月”字和“生”,两者对应的处理后的马氏距离分别为1313和1454。很显然,当前输入的笔 画轨迹对应的字符为“胜”字。采用简化的协方差矩阵对输入的笔画轨迹和特定字符的字内距离进行归一化处 理,得到了简化的马氏距离。对马氏距离进行进一步加权处理后,利用处理后的马氏距离来 判断用户输入的笔画轨迹属于哪个特定字符。因为马氏距离具有消除距离量纲差异的作用,本实施例所述的方法有效的给出了 计算两个字符相似度的方法,它不仅考虑到用户输入的笔画轨迹和特定字符的相似度,而 且是与特定字符本身的复杂程度无关。而且因为通过对协方差矩阵的简化,达到了高效的 目的,准确的识别出输入笔画轨迹所对应的字符。实施例二 参照图2,示出了本发明的一种基于归一化的手写识别装置的结构图,所述装置包 括创建模块201,用于创建训练数据集;所述数据集中包括各字符的手写样本集;统计模块202,用于统计样本集中各字符的字内距离;所述字内距离也即识别引 擎给出的识别距离,包括字符笔画特征的相对坐标位置的特性;获取模块203,用于获取各样本集字内距离的协方差;接收模块204,用于接收输入的笔画轨迹;计算模块205,用于计算所接收的笔画轨迹到每个字符的字内距离;归一化处理模块206,用于用各样本集的协方差对计算所得的字内距离进行归一 化处理,获取马氏距离;
8
加权处理模块207,用于按所获取的马氏距离进行排序,并对排序靠前字符的字内 距离进行加权处理;输出模块208,用于输出加权处理后排序靠前的预设数量的字符。优选的,所述装置还包括过滤模块209,用于用识别引擎对所创建的训练数据集中各字符的手写样本集进 行筛选,滤除样本集中不能正确识别的字符。优选的,所述获取模块203包括以下子模块构建子模块2031,用于构建各样本集字内距离的协方差矩阵;计算子模块2032,用于计算各方差矩阵的协方差,获取各样本集字内距离的协方 差。优选的,所述构建子模块构建协方差矩阵时用0作为中心进行构建。优选的,所述创建模块201包括以下子模块采集子模块2011,用于采集各字符的手写样本集;创建子模块2012,用于用所采集的各字符的手写样本集创建训练数据集。本发明可以应用于各种具有手写输入功能的移动信息工具,如便携式掌上电脑、 PDA、智能手机、导航设备、学习机、电子书等,用以准确可靠的完成文字的识别。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与 其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例 而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部 分说明即可。以上对本发明所提供的一种基于归一化的手写识别方法和识别装置进行了详细 介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明 只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本 发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应 理解为对本发明的限制。
权利要求
一种基于归一化的手写识别方法,其特征在于,所述方法包括创建训练数据集;所述数据集中包括各字符的手写样本集;统计样本集中各字符的字内距离;所述字内距离也即识别引擎给出的识别距离,包括字符笔画特征的相对坐标位置的特性;获取各样本集字内距离的协方差;接收输入的笔画轨迹;计算所接收的笔画轨迹到每个字符的字内距离;用各样本集的协方差对计算所得的字内距离进行归一化处理,获取马氏距离;按所获取的马氏距离进行排序,并对排序靠前字符的字内距离进行加权处理;输出加权处理后排序靠前的预设数量的字符。
2.如权利要求1所述的方法,其特征在于,所述方法在统计样本集中各字符的字内距 离前还包括用识别引擎对所创建的训练数据集中各字符的手写样本集进行筛选,滤除样本集中不 能正确识别的字符。
3.如权利要求1所述的方法,其特征在于,所述获取各样本集字内距离的协方差包括 以下子步骤构建各样本集字内距离的协方差矩阵; 计算各协方差矩阵的协方差,获取各样本集字内距离的协方差。
4.如权利要求3所述的方法,其特征在于 所述协方差矩阵用0作为中心进行构建。
5.如权利要求1所述的方法,其特征在于,所述创建训练数据集包括以下子步骤 采集各字符的手写样本集;用所采集的各字符的手写样本集创建训练数据集。
6.一种基于归一化的手写识别装置,其中特征在于,所述装置包括 创建模块,用于创建训练数据集;所述数据集中包括各字符的手写样本集;统计模块,用于统计样本集中各字符的字内距离;所述字内距离也即识别引擎给出的 识别距离,包括字符笔画特征的相对坐标位置的特性; 获取模块,用于获取各样本集字内距离的协方差; 接收模块,用于接收输入的笔画轨迹;计算模块,用于计算所接收的笔画轨迹到每个字符的字内距离; 归一化处理模块,用于用各样本集的协方差对计算所得的字内距离进行归一化处理, 获取马氏距离;加权处理模块,用于按所获取的马氏距离进行排序,并对排序靠前字符的字内距离进 行加权处理;输出模块,用于输出加权处理后排序靠前的预设数量的字符。
7.如权利要求6所述的识别装置,其特征在于,所述装置还包括过滤模块,用于用识别引擎对所创建的训练数据集中各字符的手写样本集进行筛选, 滤除样本集中不能正确识别的字符。
8.如权利要求6所述的识别装置,其特征在于,所述获取模块包括以下子模块构建子模块,用于构建各样本集字内距离的协方差矩阵;计算子模块,用于计算各协方差矩阵的协方差,获取各样本集字内距离的协方差。
9.如权利要求8所述的识别装置,其特征在于所述构建子模块构建协方差矩阵时用0作为中心进行构建。
10.如权利要求6所述的识别装置,其特征在于,所述创建模块包括以下子模块 采集子模块,用于采集各字符的手写样本集;创建子模块,用于用所采集的各字符的手写样本集创建训练数据集。全文摘要
本发明提供了一种基于归一化的手写识别方法和识别装置,通过创建训练数据集,所述数据集中包括各字符的手写样本集,统计样本集中各字符的字内距离,所述字内距离也即识别引擎给出的识别距离,包括字符笔画特征的相对坐标位置的特性,获取各样本集字内距离的协方差,接收输入的笔画轨迹,计算所接收的笔画轨迹到每个字符的字内距离,用各样本集的协方差对计算所得的字内距离进行归一化处理,获取马氏距离,按所获取的马氏距离进行排序,并对排序靠前字符的字内距离进行加权处理,输出加权处理后排序靠前的预设数量的字符,从而准确可靠的完成了字符的识别。
文档编号G06K9/62GK101901348SQ20101022188
公开日2010年12月1日 申请日期2010年6月29日 优先权日2010年6月29日
发明者张连毅, 李健, 武卫东 申请人:北京捷通华声语音技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1