专利名称:一种字符书写规范度评测的方法和装置的制作方法
技术领域:
本发明涉及模式识别领域,特别是涉及ー种字符书写规范度评测的方法和装置。
背景技术:
随着信息交互的发展,计算机辅助教学得到了广泛的应用。例如,在汉语教学方面,计算机辅助教学提供了汉字演化、拼音示范、汉字书写动态演示等应用,然而,在对用户汉字书写规范度评估方面却较少涉及。ー个书写规范的汉字通常要求笔画标准、笔顺符合规范,同时字符整体结构紧凑符合美观的要求。由于汉字数量较大,对汉字的规范性评估实现较为复杂,涉及图像处理、模式识别等技术,因此如何 有效地针对用户书写的字符进行规范度评估成为ー个具有挑战性的课题。现有技术中,在对书写字符进行规范度评价时,往往采用书写字符与单个标准字符比较计算相似度进行评判的方法,由此获取的评价结果往往不够可靠。这时,出现了ー种基于置信度的汉字书写质量评价方法。在这种方法中,通过计算字符匹配的置信度,获知当前书写字符和标准模板相似的可靠程度,进而对汉字书写质量进行评价。在这一方法中,首先利用修正二次判决函数分类器对手写汉字进行识别,得到K个候选字,并计算每个候选字与手写样本的距离;随后利用候选字距离计算置信度,再利用置信度进行汉字书写质量评价。这里,采用基于手写汉字字符模板和候选字符集模板得分比值的方法来计算置信度。一般来说,置信度越高,说明书写字符与其他候选字符的区分性越大,字符书写越规范。这种方法与传统的汉字书写质量评价方法相比,评价的标准主要基于训练样本的选取,在训练样本书写エ整的条件下,该评价系统对样本书写エ整性有较好的评价能力。在实现本发明的过程中,发明人发现现有技术中至少存在如下问题现有技术提供的方法中,采用的基于应用字符模板和候选字符集模板得分比值的置信度计算来评估书写字符的规范度,虽然能较好的区分大部分字符的书写规范度,然而对诸如“天,夫”,“人,入”,“日,曰” “己、已、巳”等仅在局部有细微差异的字符对却存在低估其书写规范度的问题。一般来说,混淆字符的參考模板较为相似,相应的其和输入字符的特征向量的相似度也较为接近,在基于比值的置信度计算设定下,计算出的置信度得分往往偏低,即使用户正确规范地输入了该字符,系统也容易给出字符书写不够规范的结论。例如,对于用户输入汉字字符“己”,通过识别得出候选字符分别是“己”、“已”、“巳”,假设分别与候选字符计算得出的距离(或相似度)是O. 9、0.8、0. 7,在基于比值的置信度计算设定下,得出的置信度是O. 375。尽管用户输入的字符与标准模板的相似度很高,由于得出的置信度得分偏低,系统会得出书写不规范的结论。因此,现有技术提供的方法对于易混淆字符的评价往往不够准确。
发明内容
为解决上述技术问题,本发明实施例提供了字符书写规范度评测的方法和装置,可以有效解决现有技术中对混淆字符评价不准确的问题,提高了书写规范度评估的合理性、准确性。一方面,本发明实施例提 供了ー种字符书写规范度评测的方法,所述方法包括提取书写字符的笔画轨迹的原始特征矢量;将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第一置信度;当判断所述第一置信度不满足预设的评测条件吋,执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度;根据所述第二置信度对所述书写字符进行评价。优选的,所述提取书写字符的笔画轨迹的原始特征矢量包括采集并记录书写字符的笔画轨迹;对所述书写字符的笔画轨迹进行预处理;提取预处理后的书写字符的笔画轨迹的原始特征矢量。优选的,所述将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第一置信度包括获取与书写字符对应的标准字符模板;获取第一字符集;分别将提取的所述原始特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配,获取多个相似度值;根据所述多个相似度值获取第一置信度。优选的,在分别将提取的所述原始特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配之前,所述方法还包括对所述原始特征矢量进行特征转换,获取第一特征矢量;所述分别将提取的所述原始特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配为将获取的第一特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配。优选的,所述执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度包括获取第二字符集;根据所述第二字符集获取第二特征转换矩阵,根据所述第二特征变换矩阵对所述原始特征矢量进行特征变换以获取第二特征矢量;将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度。优选的,所述根据第二字符集获取第二特征转换矩阵包括根据与所述书写字符对应的标准字符模板以及与所述书写字符对应的混淆字符模板确定所述标准字符模板与所述混淆字符模板共属的子集;判断所述子集是否为决策树的根节点,如果不是,获取所述子集对应的特征转换矩阵作为第二特征变换矩阵。优选的,所述根据与所述书写字符对应的标准字符模板以及与所述书写字符对应的混淆字符模板确定所述标准字符模板与所述混淆字符模板共属的子集包括
判断书写字符对应的标准字符以及与所述书写字符对应的混淆字符是否属于同
一子集;如果不是,获取所述标准字符以及所述混淆字符的上ー级子集,重复上ー判断步骤;如果是,将所述子集作为所述标准字符模板与所述混淆字符模板共属的子集。优选的,所述方法进ー步包括 当判断所述第二置信度不满足预设条件时,执行再次二次匹配处理。另ー方面,本发明实施例还公开了ー种字符书写规范度评测装置,所述装置包括特征提取単元,用于提取书写字符的笔画轨迹的原始特征矢量;第一匹配単元,用于将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第一置信度;第一判断単元,用于判断所述第一置信度是否满足预设条件;第二匹配単元,用于接收第一判断単元的判断结果,当判断结果表明所述第一置信度不满足预设的评测条件时,执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度;第二评价单元,用于根据所述第二置信度对所述书写字符进行评价。优选的,所述特征提取单元包括采集单元,用于采集并记录书写字符的笔画轨迹;预处理単元,用于对所述书写字符的笔画轨迹进行预处理;提取单元,用于提取预处理后的书写字符的笔画轨迹的原始特征矢量。优选的,所述第二匹配単元包括第一获取单元、第二获取单元、特征转换单元、第三获取单元,其中所述第一获取单元用于获取第二字符集;所述第二获取单元用于根据所述第二字符集获取第二特征转换矩阵;所述特征转换单元,用于根据所述第二特征变换矩阵对所述原始特征矢量进行特征变换以获取第二特征矢量;所述第三获取单元,用于将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度。优选的,所述第二获取单元包括确定单元,用于根据与所述书写字符对应的标准字符模板以及与所述书写字符对应的混淆字符模板确定所述标准字符模板与所述混淆字符模板共属的子集;第二判断単元,用于判断所述子集是否为决策树的根节点,如果不是,获取所述子集对应的特征转换矩阵作为第二特征变换矩阵。本发明实施例能够达到的有益效果为本发明实施例提供的方法提取书写字符的笔画轨迹的原始特征矢量,将提取的所述原始特征矢量与第一字符集中的字符模板进行ー次匹配,获取第一置信度;当判断根据所述第一置信度不满足预设条件时,执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第ニ置信度;根据所述第二置信度对所述书写字符进行评价。在本发明实施例提供的方法中,当根据一次匹配获取的置信度无法对书写字符做出正确的评价时,则对书写字符进行二次匹配,在二次匹配中由于采用了高区分性的第二特征矢量,井根据所述第二特征矢量与第二字符集即混淆字符集进行匹配,提高了模型匹配的区分性,由此获取的置信度评估结果往往比较可靠,提高了书写规范度评价的准确性和合理性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I为本发明实施例提供的字符书写规范度评测方法第一实施例流程图;图2为本发明实施例提供的字符书写规范度评测方法第二实施例流程图;图3为本发明实施例提供的基于决策树的聚类算法示意图;图4为本发明实施例提供的字符子集的树结构示意图;图5本发明实施例提供的字符书写规范度评测装置示意图。
具体实施例方式本发明实施例提供了字符书写规范度评测的方法和装置,可以有效解决现有技术中对混淆字符评价不准确的问题,提高了书写规范度评估的合理性、准确性。为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。參见图1,为本发明提供的字符书写规范度评测的方法第一实施例流程图,所述方法包括SlOl,提取书写字符的笔画轨迹的原始特征矢量。在本发明实施例提供的方法中,用户可以预先选定当前想要练习的汉字,并在预设的书写区域内书写对应的字符,以建立用户书写的待评估的字符与标准字符的对应关系。当然,也可以不包括选择的步骤,直接提供书写区域,采集用户书写的字符的笔画轨迹。系统将采集得到的字符的笔画轨迹记录为一系列ニ维坐标点列PiOci, Yi)。原始笔迹的ニ维坐标点列信号容易受到各种噪音的干扰,且存在大量冗余信息,直接据其进行书写规范度评估将导致运算量和评估准确度的下降。因此,本发明实施例提供的方法首先从原始笔画轨迹中提取具有高表征カ的特征向量,例如八方向特征或DEF特征(Directional Element Feature,方向单元特征)等。通过原始特征矢量的提取,将用户输入的书写字符的原始T个采样点序列的笔迹表征为ー个D维特征矢量。具体实现时,系统首先将字符笔迹调整到预先设定的尺寸大小,进行大小归ー化处理。优选的,还可以对调整后的字符笔迹进行预处理,例如通过非线性规整、平滑、重采样等预处理技术获得干净的字符轨迹。随后系统从原有时域的字符轨迹坐标构成的ニ维空间上考虑笔迹的各采样点位置,形成描述字符像素点分布ニ维图像。最后在该ニ维图像上,对其进行分区,在每个单独区域提取描述该区域像素分布规律的特征,并据此形成描述整个ニ维图像的像素分布规律特征矢量。具体的,提取的特征矢量可以是八方向特征或DEF特征等,本发明对此不进行限定。下面以提取八方向特征为例进行说明。其中,八方向特征用于衡量字符图像中在系统预设八个方向上的投影分量的分布规律。具体的,前面提到,系统将原有时域的字符轨迹坐标变换成ニ维图像,然后对ニ维图像进行分区,这时,对于获取的每个单独分区内的每个字符采样点,分别计算其和前一或后一采样点形成的笔段在8个方向上的投影大小,随后将该分区内八个方向上的分量通过累计等方法形成一个新的八维特征。最后将每个分区的八维特征拼接,或通过高斯拟和等统计方法构成新的特征矢量。在本发明实施例中,是将字符笔迹当作一个ニ维图像来提取特征矢量的,着重考虑其空间分布特点。举例进行说明,系统将时间顺序的笔迹按照笔迹采样点的位置分布规整到ー个N*N大小空间的图像,随后将该N*N的图像划分成8*8个小分区,分别考虑每个分区的所有采样点在八个不同方向上的投影,并累计得到ー个8维的特征矢量。最后每个分区提供ー个8维特征,8*8个分区将提供8*8*8维的特征。可选的,系统还可继续将对8*8*8的特征进行后处理,或者通过高斯拟和方法以突出字符之间的区分性。S102,将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第
一置信度。S102A,获取第一字符集。在本发明第一实施例中,第一字符集是系统预置的字符模型集,存储有系统支持的所有字符參考模板。具体的,所述字符模型集是系统通过在采集的海量训练样本上训练得到的,用于模拟字符的笔画、笔顺及字体结构等特征。具体的,为了提高系统运行效率,在本发明实施例中,每个字符采用单模板的模型结构,并利用其对应训练样本训练其模型參数。其中第i个字符的单模板模型參量记为
权利要求
1.一种字符书写规范度评测的方法,其特征在于,所述方法包括 提取书写字符的笔画轨迹的原始特征矢量; 将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第一置信度;当判断所述第一置信度不满足预设的评测条件时,执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度; 根据所述第二置信度对所述书写字符进行评价。
2.根据权利要求I所述的方法,其特征在于,所述提取书写字符的笔画轨迹的原始特征矢量包括 采集并记录书写字符的笔画轨迹; 对所述书写字符的笔画轨迹进行预处理; 提取预处理后的书写字符的笔画轨迹的原始特征矢量。
3.根据权利要求I所述的方法,其特征在于,所述将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第一置信度包括 获取与书写字符对应的标准字符模板; 获取第一字符集; 分别将提取的所述原始特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配,获取多个相似度值; 根据所述多个相似度值获取第一置信度。
4.根据权利要求3所述的方法,其特征在于,在分别将提取的所述原始特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配之前,所述方法还包括 对所述原始特征矢量进行特征转换,获取第一特征矢量; 所述分别将提取的所述原始特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配为 将获取的第一特征矢量与所述标准字符模板、第一字符集中的字符模板进行匹配。
5.根据权利要求I所述的方法,其特征在于,所述执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度包括 获取第二字符集; 根据所述第二字符集获取第二特征转换矩阵,根据所述第二特征变换矩阵对所述原始特征矢量进行特征变换以获取第二特征矢量; 将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度。
6.根据权利要求5所述的方法,其特征在于,所述根据第二字符集获取第二特征转换矩阵包括 根据与所述书写字符对应的标准字符模板以及与所述书写字符对应的混淆字符模板确定所述标准字符模板与所述混淆字符模板共属的子集; 判断所述子集是否为决策树的根节点,如果不是,获取所述子集对应的特征转换矩阵作为第二特征变换矩阵。
7.根据权利要求6所述的方法,其特征在于,所述根据与所述书写字符对应的标准字符模板以及与所述书写字符对应的混淆字符模板确定所述标准字符模板与所述混淆字符模板共属的子集包括判断书写字符对应的标准字符以及与所述书写字符对应的混淆字符是否属于同一子集; 如果不是,获取所述标准字符以及所述混淆字符的上一级子集,重复上一判断步骤; 如果是,将所述子集作为所述标准字符模板与所述混淆字符模板共属的子集。
8.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 当判断所述第二置信度不满足预设条件时,执行再次二次匹配处理。
9.一种字符书写规范度评测装置,其特征在于,所述装置包括 特征提取单元,用于提取书写字符的笔画轨迹的原始特征矢量; 第一匹配单元,用于将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第一置信度; 第一判断单元,用于判断所述第一置信度是否满足预设的评测条件; 第二匹配单元,用于接收第一判断单元的判断结果,当判断结果表明所述第一置信度不满足预设的评测条件时,执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度; 第二评价单元,用于根据所述第二置信度对所述书写字符进行评价。
10.根据权利要求9所述的装置,其特征在于,所述特征提取单元包括 采集单元,用于采集并记录书写字符的笔画轨迹; 预处理单元,用于对所述书写字符的笔画轨迹进行预处理; 提取单元,用于提取预处理后的书写字符的笔画轨迹的原始特征矢量。
11.根据权利要求9所述的装置,其特征在于,所述第二匹配单元包括第一获取单元、第二获取单元、特征转换单元、第三获取单元,其中 所述第一获取单元用于获取第二字符集; 所述第二获取单元用于根据所述第二字符集获取第二特征转换矩阵; 所述特征转换单元,用于根据所述第二特征变换矩阵对所述原始特征矢量进行特征变换以获取第二特征矢量; 所述第三获取单元,用于将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度。
12.根据权利要求11所述的装置,其特征在于,所述第二获取单元包括 确定单元,用于根据与所述书写字符对应的标准字符模板以及与所述书写字符对应的混淆字符模板确定所述标准字符模板与所述混淆字符模板共属的子集; 第二判断单元,用于判断所述子集是否为决策树的根节点,如果不是,获取所述子集对应的特征转换矩阵作为第二特征变换矩阵。
全文摘要
本发明涉及模式识别领域,特别是一种字符书写规范度评测的方法和装置,所述方法包括提取书写字符的笔画轨迹的原始特征矢量;将提取的所述原始特征矢量与第一字符集中的字符模板进行匹配,获取第一置信度;当判断所述第一置信度不满足预设评测条件时,执行二次匹配处理,获取第二特征矢量,将所述第二特征矢量与第二字符集中的字符模板进行匹配,获取第二置信度;根据所述第二置信度对所述书写字符进行评价。本发明实施例提供的方法有效解决了现有技术对混淆字符评价不准确的问题,提高了书写规范度评估的合理性、准确性。
文档编号G06K9/68GK102663454SQ201210115469
公开日2012年9月12日 申请日期2012年4月18日 优先权日2012年4月18日
发明者何婷婷, 刘庆峰, 胡国平, 胡郁 申请人:安徽科大讯飞信息科技股份有限公司