基于数字手写设备的汉字书写正误自动评测方法和装置的制作方法

文档序号:2587076阅读:614来源:国知局
专利名称:基于数字手写设备的汉字书写正误自动评测方法和装置的制作方法
技术领域
本发明属于汉字书写的信息处理技术领域,具体地涉及ー种基于数字手写设备的汉字书写正误自动评测方法和装置。
背景技术
汉字书写正误评测的应用目标在于辅助汉语学习者在无人值守的情况下进行自主的汉字书写学习。因此,其思路是,实时采集学习者书写汉字的位置、时间等信息并进行特征提取,然后将学习者书写的汉字与标准汉字在笔画、部件、整字等层面上进行自动的比对,并进行汉字书写错误点的自动识别和反馈。汉字书写评测与汉字识别具有本质区別。汉字书写评测的根本任务是评价用户书写的规范程度,而汉字识别则主要关心未知手写体样本与现有样本库中哪ー个最相似的问题;汉字评测侧重于对汉字細微差别的评判和反馈,而汉字识别往往只关心总体上的近似性;汉字书写评测只是将ー个待测汉字与ー个已知的标准汉字进行特征匹配,而汉字识别是将ー个待识别的汉字与汉字库中所有汉字(通常是成千上万)进行特征匹配,从而找出 ー个或多个与其最相近的汉字。在当今汉语国际推广的背景下,汉语学习越来越受到人们的重视,国外的学习者也逐渐增多。汉字的学习是汉语学习的ー个重要組成部分。由于中国汉字(表意文字)与西方文字(表音文字)在书写形式上的本质差別,使得汉字的书写能力成为制约学习者提高汉语水平的ー个重要因素。传统的汉字书写教学方法,存在着各种局限性。例如教师的手工评判工作量巨大,学生不能在无人值守的情况下完成汉字书写练习和自我评判。随着信息技术的不断发展,人们提出了很多计算机辅助的汉字书写教学系统,来弥补传统教学方式的不足。早期的汉字书写教学系统[1]只是将正确汉字(这里称为模板汉字)的书写过程以动画的形式演示给用户。这种以演示为主的系统只能让用户进行被动的记忆,并不能主动的发现用户的书写错误,因此也不能检验用户的学习效果,并给出针对性的改进意见。为了加强学生的学习和记忆效果,后续的教学系统开始逐渐增加交互功能。例如, 有些系统[2]要求用户以描红的方式完成汉字书写;有些系统[3,4]要求用户以笔画选择的方式拼写汉字。这些简单的交互功能只能发现极少的书写错误,例如笔顺的书写错误,不能暴露出多笔、少笔、连笔、断笔等错误。为了能够给用户更多的书写指导,人们也设计出ー些汉字书写评价系统,然而这些系统只是对汉字的整体布局进行评价,在书写错误方面的反馈非常有限。例如文献[5, 6]所实现的系统,要求用户书写的汉字与模板字在笔画上是严格对应的,也就是说默认用户知道汉字的正确书写过程,系统最终反馈汉字整体布局的美观性;文献[7,8]设计的系统也只是考查手写汉字的静态图像特征,并不关注笔序、笔向等时间相关特征。此外,有些系统采用联机的方式进行汉字书写教学[9,10]。每当用户书写完ー个笔画,系统就立即反馈結果。这种交互形式不停的打断用户的书写过程,显得不够友好。另外,它们仅仅重视笔顺错误的识别。上述系统在交互形式、错误识别等方面都具有一定的局限性,也限制了系统的应用范围。为了达到智能化的教学效果,最近的汉字书写教学系统开始加入了汉字笔画的自动匹配算法。这些系统让用户一次性写完汉字,然后与模板汉字进行笔画匹配。Chen等人根据斜率将基本笔画分为6种类型,首先将手写汉字的笔画进行归类,然后进行笔画的匹配。胡智慧[12]分别将模板汉字和手写汉字的笔画位置关系表示为两个ARG图[13], 然后通过边的插入和删除操作建立起两个图之间的匹配关系,最后根据边操作顺序得到匹配关系。Tang等人[14]将模板汉字和手写汉字的笔画匹配问题理解为线性分配问题。上述方法全部应用于以抄写为主的汉字书写教学系统中,因此不能有效的检查用户记字、认字的能力;它们要求汉字本身的复杂程度不能太高,也就是说只能应用到简单汉字的书写教学中;另外,上述方法要求用户的书写结果不能与模板汉字相差太大。如果让用户默写汉字,那么用户可能会出现各种各样的书写错误,从而使得现有的系统不能胜任。另外,西方国家的学习者只是将汉字简单的理解为图形并随意的描画,因此在书写过程中也会出现各种意想不到的错误。针对他们书写的汉字,目前的系统也是很难处理的。参考文献[1]唐棠,陆兵,一种汉字书写模拟练习软件的设计,中文信息学报,vol. 10,No. 3, 10-17 页,1996 年。[2]V. Tam, K. W. Yeung, "Learning to write Chinese characters with correct stroke sequences on mobile devices,,,Proceedings of ICETC2010, pp. 395-399, 2010。[3]赵希武,吕生荣,小学汉字书写笔画顺序练习系统的设计,内蒙古农业大学学报(自然科学版),vol. 31,No. 1,236-240 页,2010 年。[4]余海涛,汉字笔顺书写学习系统的设计与实现,内蒙古师范大学,硕士学位论文,2010年。[5]夏伟平,金连文,一种基于模板的联机手写体汉字布局评价方法,2008年全国模式识别学术会议,354-359页,2008年。[6]祁亨年,陈丰农,庄立,陈频,一种无大小约束的汉字书写结构评测方法,郑州大学学报(理学版),Vol. 40 No. 3,59-62页,2008年。[7]王丁,汉字书法练习装置中国,专利号971047421 [P],1998-10-07。[8]王丁,闫瑶,张廷宇,梁海滨,手持练字系统的设计与实现,控制工程,Vol. 16 No. 6,2009 年。[9]庄崇彪,金连文,在线汉字书写正误及工整的智能评判算法.第十二届全国信号处理学术年会论文集,2005年。[10]G. Chen, H. Yao, Y. Jheng, "On-line Assessment for the Stroke Order of Chinese Characters Writing,"Workshop Proceedings of ICCE2008,pp. 132-138,2008。[11]G. S. Chen, Y. D. Jheng, L. F. Lin, "Computer-based Assessment for the Stroke Order of Chinese Characters Writing, "proceedings of ICICIC2007, pp.160-163,2007。[12]胡智慧,“汉字智能工具中的书写错误识别技术研究与应用,”中国科学技术大学,博士学位论文,2010年。
[13]ff. -H. Tsai, K. -S. Fu, "Error-Correcting Isomorphisms of Attributed Relational Graphs for Pattern Analysis,,,IEEE Transactions on Systems, Man, and Cybernetics, vol. 9,No. 12,pp.757—768,1979。[14]K. Tang, K. Li, H. Leung, "A Web-Based Chinese Handwriting Education System with Automatic Feedback and Analysis,,,Lecture Notes in Computer Science (LNCS)4181,pp.176-188,2006。

发明内容
本发明的目的在于,为了改进现有汉字书写教学系统的种种局限性,提供ー种汉字书写正误的自动评测方法。它能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来,并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。将这些错误类型自动反馈给学习者,便可以实现无人值守的汉字书写学习的目的。一方面,为达上述目的,本发明实施例提供了一种基于数字手写设备的汉字书写正误自动评测方法,所述方法包括建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的ニ级索引结构,所述结构信息是各个笔段之间的相对位置关系;采集手写汉字;计算所述手写汉字的书写信息和结构信息;根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配結果;根据所述匹配结果识别所述手写汉字的错误信息。另ー方面,为达上述目的,本发明实施例提供了一种基于数字手写设备的汉字书写正误自动评测装置,所述装置包括模板汉字建立単元,用于建立模板汉字,所述模板汉字包括书写信息和结构信息, 所述书写信息是包括笔画和笔段的ニ级索引结构,所述结构信息是各个笔段之间的相对位
J大尔;手写汉字采集単元,用于采集手写汉字;书写信息和结构信息计算单元,用于计算所述手写汉字的书写信息和结构信息;匹配単元,用于根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;错误信息识别单元,用于根据所述匹配结果识别所述手写汉字的错误信息。本发明实施例的优点为本发明实施例的方法能够处理各种文化背景的学习者所书写的汉字,对各种书写错误都具有较好的识别效果。与不同的数字手写设备相结合,本发明实施例的方法能够应用到不同的场合中。例如,与压感显示器或数字手写板相结合,本方法可以应用于信息化机房中的汉字书写教学,汉字书写考试;与具有手写功能的移动电脑、 手机相结合,本方法可以用于无人值守的移动式汉字书写学习。上述技术方案将汉字分为“笔画-笔段”的ニ级表达形式,并且最终计算出笔段的匹配結果,这种更加细致的匹配结果不但能够帮助更加精确的定位书写错误的具体位置, 而且能够帮助发现更多的书写错误类型,这是前人工作所不能达到的。另外,本方法还为汉字的结构特征引入了笔段位置关系的概念,大大提高了汉字匹配的准确性。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的整体流程图;图2为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的具体流程图;图3A为本发明实施例的模板汉字的手工标注过程示意图;图加为本发明实施例的模板汉字的手工标注结果示意图;图3C为本发明实施例的模板汉字手工标注结果的包围盒以及坐标系示意图;图4为本发明实施例的模板汉字的笔画-笔段ニ级索引结构示意图;图5为本发明实施例的模板汉字的笔段位置关系示意图;图6A为本发明实施例的手写汉字的采集结果示意图;图6B为本发明实施例的手写汉字重采样和计算拐点的示意图;图6C为本发明实施例的删除手写汉字中抖笔信息的示意图;图7A为本发明实施例的将手写汉字某笔画和模板汉字某笔画置于同一局部坐标系中的示意图;图7B为本发明实施例的在局部坐标系中将手写汉字某笔画旋转到最佳角度的示意图;图8A为本发明实施例的模板汉字和手写汉字经过笔画匹配后的示意图;图8B为本发明实施例的模板汉字和手写汉字经过笔画和笔段两步匹配后的示意图;图9A为本发明实施例的模板汉字和手写汉字在笔段合并之前的匹配效果示意图;图9B为本发明实施例的模板汉字和手写汉字在笔段合并之后的匹配效果示意图;图10为本发明实施例的识别各种不同书写错误的效果示意图;图11为本发明实施例的识别复杂连笔错误的效果示意图;图12为本发明实施例的一种基于数字手写设备的汉字书写正误自动评测装置的整体功能框图;图13为本发明实施例的书写信息和结构信息计算单元330的具体功能框图;图14为本发明实施例的另ー种基于数字手写设备的汉字书写正误自动评测装置的功能框图15为本发明实施例的匹配単元340的具体功能框图;图16为本发明实施例的错误信息识别单元350的具体功能框图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为了改进现有汉字书写教学系统的种种局限性,本发明实施例提出ー种汉字书写正误的自动评测方法。它能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来,并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。将这些错误类型自动反馈给学习者,便可以实现无人值守的汉字书写学习的目的。该方法基于的硬件设备是数字手写交互设备,具体可以体现为,支持手写的手机、 压感显示器、绘图板、数码笔等。这些手写交互设备能够反映用户真实的书写状态,这是鼠标设备所不能实现的。在交互方式上,用户可以使用数字手写设备随意书写汉字,并且一次性将汉字写完。本方法仅仅将用户书写的汉字理解为由一系列离散点組成的线条图形,通过优化算法快速的、最大限度的将手写汉字与模板汉字匹配起来,从而为书写错误的识别提供基础。本发明实施例的方法将汉字分为“笔画-笔段”的ニ级表达形式,并且最终计算出笔段的匹配結果,这种更加细致的匹配结果不但能够帮助更加精确的定位书写错误的具体位置,而且能够帮助发现更多的书写错误类型,这是前人工作所不能达到的。另外,本发明实施例的方法还为汉字的结构特征引入了笔段位置关系的概念,大大提高了汉字匹配的准确性。图1为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的整体流程图;该方法包括110、建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的ニ级索引结构,所述结构信息是各个笔段之间的相对位置关系;120、采集手写汉字;130、计算所述手写汉字的书写信息和结构信息;140、根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;150、根据所述匹配结果识别所述手写汉字的错误信息。以下进行更为详细的说明,图2为本发明实施例的基于数字手写设备的汉字书写正误自动评测方法的具体流程图。如图2所示,该方法具体包括“建立模板字,采集测试字,预处理,笔画匹配,笔段匹配,合法性纠正,笔段合并,错误识别”等过程。其中,上述步骤 130包含于预处理过程内,步骤140对应于“笔画匹配,笔段匹配,合法性纠正,笔段合井”的处理过程。下面结合图示对本发明实施例的具体实施方式
作进ー步详细地描述,该方法具体包括如下步骤
210、建立模板汉字具体地,该步骤可以是建立模板汉字库。模板汉字库中的每个汉字包括书写信息和结构信息。书写信息是指汉字书写的时间信息和坐标信息。本发明实施例的方法将书写信息分为笔画和笔段的ニ级索引结构。笔画是指汉字书写时不间断地一次连续写成的线条。如果这个线条包含拐点,那么将其分解为一系列笔段。因此,笔段是指不包含拐点的连续平滑的线段。ー个笔画可以包含ー个或多个笔段。结构信息是指各个笔段之间的相对位置关系。在ー个模板汉字中,任意两个笔段的相对位置关系包括水平和竖直两种情况,每种情况的取值包括“大于、小于、大小关系不影响字形正确性”三种可能。在一实施例中,可以借助微软的windows操作系统中truetype字库获取模板汉字。由于truetype字库中存储的是汉字的轮廓,因此需要提取出每个笔画中心线上的采样点。为此,本发明实施例设计了ー个手工标注工具,利用手工方式获得每个笔画中心线上的采样点,并标注出笔段之间的位置关系。图3A显示了模板字“他”的标注过程,黒色轮廓为 truetype字库提供的汉字轮廓,其他图画为手工标注信息。根据手工标注的信息,可以计算并存储模板汉字的书写信息。图加显示了模板汉字“他”的最终标注效果,黒色点表示笔画上的采样点,空心点表示拐点,浅灰色线表示书写过程,ul至u9的标号表示笔段的编号。图4显示了该汉字的“笔画-笔段” ニ级索引的存储结构。笔画和笔段的存储顺序与该汉字的书写顺序一致。如果某个笔段是直线段,那么该笔段中可以只存储首尾两个端点,例如图3B中的u2 ;如果某个笔段是曲线段,那么为了保证曲线的平滑效果,该笔段中需要存储多个采样点,例如图3B中的ul。在结构信息方面,任意两个笔段u和ν的位置关系可以表示为(Rx (U,ν),Ry (U,ν))。 其中,I X(U,V)和Ry(u,ν)分別表示二者在水平方向U轴)和竖直方向(y轴)上的位置关系。公式(1)说明了它们的取值方式,其中,(C, Cuy)m(Cux, Cル)分別表示笔段U和
V的中心坐标。
权利要求
1.一种基于数字手写设备的汉字书写正误自动评测方法,其特征在于,所述方法包括建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,所述结构信息是各个笔段之间的相对位置关系; 采集手写汉字;计算所述手写汉字的书写信息和结构信息;根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;根据所述匹配结果识别所述手写汉字的错误信息。
2.根据权利要求1所述的方法,其特征在于,所述笔画是汉字书写时不间断地一次连续写成的包含0个或至少一个拐点的线条,所述笔段是不包含拐点的连续平滑的线段。
3.根据权利要求1所述的方法,其特征在于,所述采集手写汉字包括通过数字手写交互设备采集手写汉字,通过所述数字手写交互设备采集到的信息是所采集汉字的多个笔画,所述多个笔画中的任一个笔画包括落笔和提笔之间笔迹上的多个采样点。
4.根据权利要求1所述的方法,其特征在于,所述计算所述手写汉字的书写信息和结构信息包括对所述手写汉字中每个笔画进行均勻的重采样,使得相邻采样点间的距离相同; 计算所述手写汉字中每个笔画中的拐点位置,根据拐点位置将每个笔画分解为多个笔段;根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值,计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。
5.根据权利要求1或4所述的方法,其特征在于,在计算所述手写汉字的书写信息和结构信息之后,所述方法还包括识别并删除所述手写汉字在书写过程中的冗余信息,所述冗余信息包括抖笔和/或描毛ο
6.根据权利要求5所述的方法,其特征在于,识别并删除所述手写汉字在书写过程中抖笔包括确定所述手写汉字中包含一个以上笔段的笔画;将所述包含一个以上笔段的笔画的起始笔段和末尾笔段的长度分别与预设的第一阈值进行比较,并删除长度小于所述第一阈值的笔段。
7.根据权利要求5所述的方法,其特征在于,识别并删除所述手写汉字在书写过程中描笔包括将所述手写汉字中任意两个笔画s和t均勻地重采样为H个采样点;根据关系式
8.根据权利要求1所述的方法,其特征在干,所述根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果包括计算手写汉字和模板汉字的笔画匹配集合,所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系,所述笔画映射关系是一対一的,并且使得匹配代价函数最小;对手写汉字和模板汉字中未匹配的笔段进行匹配计算,获得笔段匹配集合,所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系,所述笔段映射关系是一対一的, 并且使得匹配代价函数最小;将所述笔画匹配集合和所述笔段匹配集合合并为ー个集合,根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正,获得ー个结构信息一致的匹配集合 R1 ;其中,所述的结构信息一致是指对于も中的任意两个笔段映射元素(IWi)和( ,ろ), 手写汉字中笔段Ui和Uj的相对位置关系与模板汉字中笔段Vi和ろ的相对位置关系一致; 对模板汉字中的未匹配笔段进行合并处理;对手写汉字中的未匹配笔段进行合并处理;针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算,并将结构信息一致的匹配结果I 。插入到所述匹配集合も中,获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。
9.根据权利要求1所述的方法,其特征在干,所述根据所述匹配结果识别所述手写汉字的错误信息包括如果模板汉字中存在未匹配的笔段,则判定手写汉字中存在缺少所述未匹配的笔段; 或者,如果手写汉字中存在未匹配的笔段,则判定所述未匹配的笔段属于多余的笔段;或者, 根据所述匹配結果,如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符,则判定手写汉字中存在笔顺错误、笔向错误;或者,根据所述匹配結果,如果模板汉字与手写汉字的“笔画-笔段” ニ级索引结构不同构, 则判定手写汉字中存在连笔或断笔问题;或者,如果所述匹配结果中存在一对多的映射关系,则判定手写汉字中相应的笔段存在连笔或断笔问题。
10.根据权利要求8所述的方法,其特征在干,所述计算手写汉字和模板汉字的笔画匹配集合,所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系,所述笔画映射关系是一対一的,并且使得匹配代价函数最小包括计算手写汉字中的任意笔画< = i < = N)与模板汉字中的任意笔画も(1 <= j <=M)的匹配权重C(Si,も);找到ー个匹配集合R= {(Si,tj) |1 <= i <=N,1 <= j <=M},所述匹配集合R中的映射是ー对一的,并且使得代价函数Cost =Σ C(Si,tj)最小,其中(Si,tp e R,且i、j、 Μ、N均为正整数。
11.根据权利要求10所述的方法,其特征在干,所述计算手写汉字中的任意笔画Si(1 <=i <=N)与模板汉字中的任意笔画ち(1 <= j <=M)的匹配权重C(Si,tj)包括对Si和も进行均勻的重采样,使采样点数量均为H ;如果Si和も的首尾采样点方向向量的夹角大于90度,则翻转Si采样点序列;如果Si和、所包含的笔段数不一致,则认为Si和、完全不匹配; 分别计算&和、的质心距离"CP、长度差异辦、,&)、包围盒的差异^ζ,,乂),判断它们是否分别小于相应的阈值,如果有任何一项不满足条件,则认为笔画Si和、完全不匹配;其中,质心距离唞G,q)、长度差异辨、,、)、包围盒的差异辨&,乂)的计算过程是依据如下关系式
12.根据权利要求8所述的方法,其特征在于,所述将所述笔画匹配集合和所述笔段匹配集合合并为一个集合,根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正,获得一个结构信息一致的匹配集合&包括对于合并后集合中的任意两个笔段映射元素(UyVi)和(UpVp,如果之间的位置关系与Vi和Vj之间的位置关系不一致,则从集合中删除匹配代价较大的元素; 经过上述删除操作,得到一个结构信息一致的集合R1 ;在模板汉字和手写汉字的未匹配笔段中找出合法匹配笔段,构成笔段匹配集合Ro,并将Ro插入到R1中。
13.根据权利要求12所述的方法,其特征在于,Ro需满足如下条件 Ro中手写汉字和模板汉字的笔段映射关系是一对一的;Ro中任意两个元素的笔段位置关系是一致的; Ro中的笔段位置关系不与I^1中的笔段位置关系产生冲突; 在前面三个条件基础上,Ro中的元素是最多的;以及, Ro中元素的代价之和是最小的。
14.根据权利要求8所述的方法,其特征在于,所述对模板汉字中的未匹配笔段进行合并处理包括将模板汉字中的多个未匹配笔段进行合并处理,和/或,将模板汉字中的未匹配笔段与已匹配笔段进行合并处理;所述对手写汉字中的未匹配笔段进行合并处理包括 将手写汉字中的多个未匹配笔段进行合并处理,和/或,将手写汉字中的未匹配笔段与已匹配笔段进行合并处理;所述将模板汉字中的多个未匹配笔段进行合并处理包括假设为Vi和\是模板汉字中
15.一种基于数字手写设备的汉字书写正误自动评测装置,其特征在干,所述装置包括模板汉字建立単元,用于建立模板汉字,所述模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的ニ级索引结构,所述结构信息是各个笔段之间的相对位置关系;手写汉字采集単元,用于采集手写汉字;书写信息和结构信息计算单元,用于计算所述手写汉字的书写信息和结构信息; 匹配単元,用于根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将所述手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;错误信息识别单元,用于根据所述匹配结果识别所述手写汉字的错误信息。
16.根据权利要求15所述的装置,其特征在干,所述书写信息和结构信息计算单元包括均勻重采样模块,用于对所述手写汉字中每个笔画进行均勻的重采样,使得相邻采样点间的距离相同;笔画分解模块,用于计算所述手写汉字中每个笔画中的拐点位置,根据拐点位置将每个笔画分解为多个笔段;笔段位置关系计算模块,用于根据任意两个笔段的中心点在水平方向和竖直方向上的坐标值,计算所述任意两个笔段在水平方向和竖直方向上的相对位置关系。
17.根据权利要求15或16所述的装置,其特征在干,所述装置还包括冗余信息删除模块,用于识别并删除所述手写汉字在书写过程中的冗余信息,所述冗余信息包括抖笔和/或描笔。
18.根据权利要求17所述的装置,其特征在干,所述冗余信息删除模块包括抖笔删除子模块,用于确定所述手写汉字中包含ー个以上笔段的笔画;将所述包含ー个以上笔段的笔画的起始笔段和末尾笔段的长度分別与预设的第一阈值进行比较,并删除长度小于所述第一阈值的笔段。
19.根据权利要求17所述的装置,其特征在于,所述冗余信息删除模块包括描笔删除子模块,用于将所述手写汉字中任意两个笔画s和t均勻地重采样为H个采样点;根据关系式
20.根据权利要求15所述的装置,其特征在于,所述匹配单元包括笔画匹配模块,用于计算手写汉字和模板汉字的笔画匹配集合,所述笔画匹配集合包含手写汉字和模板汉字之间的笔画映射关系,所述笔画映射关系是一对一的,并且使得匹配代价函数最小;笔段匹配模块,用于对手写汉字和模板汉字中未匹配的笔段进行匹配计算,获得笔段匹配集合,所述笔段匹配集合包含手写汉字和模板汉字之间的笔段映射关系,所述笔段映射关系是一对一的,并且使得匹配代价函数最小;合法性纠正模块,用于将所述笔画匹配集合和所述笔段匹配集合合并为一个集合,根据手写汉字和模板汉字中的结构信息对该集合中的笔段映射关系进行纠正,获得一个结构信息一致的匹配集合I^1 ;其中,所述的结构信息一致是指对于&中的任意两个笔段映射元素(Ui,Vi)和(I^ ,手写汉字中Ui和&的相对位置关系与模板汉字中Vi和\的相对位置关系一致;笔段合并模块,用于对模板汉字中的未匹配笔段进行合并处理;对手写汉字中的未匹配笔段进行合并处理;针对手写汉字和模板汉字中合并后的未匹配笔段进行匹配计算,并将结构信息一致的匹配结果R。插入到所述匹配集合&中,获得手写汉字和模板汉字之间最大数量的、结构信息一致的匹配集合。
21.根据权利要求15所述的装置,其特征在于,所述错误信息识别单元包括第一错误信息识别模块,用于如果模板汉字中存在未匹配的笔段,则判定手写汉字中存在缺少所述未匹配的笔段;或者,第二错误信息识别模块,用于如果手写汉字中存在未匹配的笔段,则判定所述未匹配的笔段属于多余的笔段;或者,第三错误信息识别模块,用于根据所述匹配结果,如果模板汉字中的笔顺、笔向信息与手写汉字的笔顺、笔向信息不符,则判定手写汉字中存在笔顺错误、笔向错误;或者,第四错误信息识别模块,用于根据所述匹配结果,如果模板汉字与手写汉字的“笔画-笔段”二级索引结构不同构,则判定手写汉字中存在连笔或断笔问题;或者,第五错误信息识别模块,用于如果所述匹配结果中存在一对多的映射关系,则判定手写汉字中相应的笔段存在连笔或断笔问题。
全文摘要
本发明实施例提供一种基于数字手写设备的汉字书写正误自动评测方法和装置,该方法包括建立模板汉字,模板汉字包括书写信息和结构信息,所述书写信息是包括笔画和笔段的二级索引结构,结构信息是各个笔段之间的相对位置关系;采集手写汉字;计算手写汉字的书写信息和结构信息;根据手写汉字的书写信息、结构信息和模板汉字的书写信息、结构信息,将手写汉字与所述模板汉字进行匹配,以生成包含手写汉字和模板汉字的笔段映射关系集合的匹配结果;根据匹配结果识别所述手写汉字的错误信息。该方法能够精确的将学习者的手写汉字与模板汉字最大限度的匹配起来,并且精确识别出手写汉字中多笔、少笔、连笔、断笔、笔向、笔序等多种错误类型。
文档编号G09B11/00GK102542264SQ20111043596
公开日2012年7月4日 申请日期2011年12月22日 优先权日2011年12月22日
发明者安维华, 李超, 荀恩东 申请人:北京语言大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1