一种手写汉字的在线识别装置的制作方法

文档序号:97338阅读:333来源:国知局
专利名称:一种手写汉字的在线识别装置的制作方法
本发明涉及一种手写汉字的在线识别装置,特别涉及一种不致因手写笔划顺序不同而会影响识别率和识别时间的手写汉字在线识别装置。
在现有的手写汉字在线识别装置中,标准汉字字形存贮器都是以传统的笔划书写顺序编组信息的,而目前公众的书写习惯往往又不是非常严格地遵守这种传统顺序。因而一旦输入的手写笔划顺序偶有差异,就会产生识别差错。1980年12月2日公布的日本特开昭55-154669号公报和1985年4月19日公布的日本特开昭60-68484号公报曾经先后提出过在手写汉字在线识别装置中避免因手写笔划顺序发生偏差而会降低识别率的方案。但这些方案都没有完全丢弃按书写顺序存贮和处理笔划信息的方法,而只是在原有方法的基础上增加了调换输入笔划顺序进行信息处理的程序,其结果虽然提高了识别率,但却增加了识别时间,特别是笔划繁多的汉字识别时间增长得更多,这就严重地影响了手写和识别的效率。
本发明的目的在于完全改变按笔划顺序编存字形信息与匹配字形的方法,使得在任意改变输入手写笔划顺序的情况下都不致影响识别率和识别时间,从而能够克服现有技术的缺陷。
根据汉字楷书的结构特征,每个汉字都可以按照笔迹的断开次数分解成一个或数个笔划,而每一个笔迹连续的笔划又都可以按照拐折次数分解成一段或数段不同方向的笔段。本发明以笔段作为每个字形结构的基本单元。抽取字形中每个笔段的交叉数、长度和方向的信息组成笔段编码。并根据笔段在字形中的相互位置,定义一种具有传递性的大于关系,使任意两个笔段的位置能够比较大小,由此就可以按照这种大小对笔段编码进行排序,组成一个字形的笔段编码序列。本发明装置中的标准字形存贮器就是用这样的编码序列表征各种标准字形的。为了充分利用输入笔划的冗余,提取比较稳定的笔段方向,本发明需要经过逐一识别和分解输入笔划以获取它所包含的笔段信息。为此,本发明装置还设有适应楷书字体的各种标准笔划和标准惯用连写笔划的笔划模型存贮器。在这种笔划模型存贮器中用笔划的笔段数,各笔段的长度分配和笔段方向等信息表征每一笔划模型。
手写汉字时由书写板给出笔点的坐标。经过整形器进行细化(消除噪音和冗余使线条变细)和量化(使连续的点变成隔开一定距离的间断点)之后由特殊点测定器测出端点和拐点,求出它们相邻两点之间的方向和长度,并在笔划匹配器中与各种标准笔划进行笔划匹配运算,从中选取匹配近似度最高的笔划模型作为笔划识别的结果。接着,在笔段分解器中对所识别的输入笔划进行笔段分解,确定它所包含的笔段方向和长度。然后,新分解出的笔段要在笔段位置测定器中与已经分解出的各笔段进行相互之间的位置测定。当一个汉字全部书写完毕后,分析各次位置测定的结果,并按照经过定义的大于关系判定各笔段之间位置的大小,在笔段排序器中按照这种大小进行笔段排序。随之,在笔段编码器中用与标准字形存贮器中所用的相同编码方法对输入字形的笔段进行笔段编码。经过字形匹配器对输入字形的笔段编码序列与存贮器中各个标准字形的笔段编码序列进行字形匹配运算,最后以其中匹配近似度最高的标准字形作为对该汉字的识别结果。
本发明装置的主要优点在于它对手写输入汉字的识别只和书写的字形结构有关,与书写的笔划顺序完全无关。用它识别手写汉字绝不会因手写笔划顺序发生差异而会影响识别效果。本发明装置的另一优点是,它在字形识别前进行了笔划的识别与分解,除了抽取笔段的方向和长度信息外,还对它们的相交数和相互位置进行了运算和表征,这样使得对字形结构的描述更加充分,因而更有利于区分与识别那些字形结构比较接近的汉字。本发明装置的又一项优点是,只要在笔划模型存贮器中建立相应的惯用连写笔划模型,当用连写方式书写输入字形时,经过笔划匹配、笔划分解、以及位置测定等步骤之后,仍可得到与正规楷书(非连写)字形相同的笔段编码序列。这样,无需在标准字形存贮器中增设标准连写字形就可以识别惯用的连写字形,这一优点实际上也就表现为放宽了对字形的书写要求,扩大了识别范围。
图一为本发明装置一项实施例的方块结构图。
图二为本发明实施例的识别流程图。
图三为本发明实施例中笔段方向的划分图。
图四为本发明实施例中对输入笔划“
”的整形与特殊点测定结果,其中(a)为手写笔迹,(b)为整形后的图形,(c)为经过特殊点测定后各段方向的编号。
图五为本发明实施例的笔划模型存贮器中丿、_、
五种笔划模型的表征参量。
图六为本发明实施例中笔划匹配运算的算法流程图。
图七为本发明实施例中测定Ti和Tj两个笔段之间位置的算法流程图。
图八为在图七的算法流程图中为确定ti和tj的值需查找的两种判断表,表一为Ti和Tj两笔段交叉时的判断表,表二为Ti和Tj两笔段不交叉时的判断表。
图九为本发明实施例的笔段编码中各毕特的定义方法。(a)1至9个笔段字形的笔段编码,(b)10至19个笔段字形的笔段编码,(c)20个以上笔段字形的笔段编码,(d)笔段的方向码。
图十为本发明实施例中对10至19个笔段字形进行字形匹配运算中所用的部份扣分表。
图一示出本发明装置一项实施例的方块结构图,图二示出它的处理流程。
手写汉字开始后,书写板以每2毫秒左右的周期送出笔点坐标,由整形器对坐标值进行处理,压缩重复点、孤立点和毛剌,使线条细化并予以显示,如图四(b)所示。再对连续的笔点每隔一定距离进行一次抽样,选取能表示笔点运动方向的抽样点,并按照图三的小角度分区把抽样点间的线段划分为24种方向。经过特殊点测定器对抽样点进行平滑处理,选出端点和拐点(如图四(c)所示),求出它们相邻两点之间的笔段方向Rk和长度rk(k=1,2……m;m为在一个输入笔划内所选的特殊点的个数减1,以下称R1,R2……Rm为输入笔划的方向序列,称r1,r2……rm为输入笔划的长度序列)。按照图三中圆外的括号把Rk的方向划分为8种,两方向之间有间隙的区域为相容区,进入相邻方向前若不超过相容区仍视为属原有方向。
当抬笔时,输入笔划与笔划模型存贮器中的各标准笔划在笔划匹配器中进行方向序列与长度分配的匹配运算。图五以五种标准笔划为例示出它们在笔划模型存贮器中的表征参量。其中“模式”为各标准笔划的几何形状。“笔段数(n)”即各标准笔划所包含的笔段总数。“长度分配(B)”为在各标准笔划中每一笔段所占笔划总长的比例。“机动分配(J)”是为了适应书写笔划的随机性而预留的比例。每一标准笔划的各段长度分配与机动分配的总和等于一恒定值,在图五中该恒定值为8,即Σi = 1nBi +J = 8]]>。“特征方向(Fi)”为在各标准笔划中每一笔段所许可的方向。“归约值”表示在匹配成功时匹配器应输出的笔段方向,该值指导笔划的分解。
图六示出本发明实施例的笔划匹配过程。其中k表示输入笔划的方向序列R和其长度序列r的下标变量,k=1……m。i表示标准笔划的特征方向序列F和其长度序列B或b的下标变量,i=l……n。∑为近似度变量,∑越大表示输入笔划与标准笔划越近似。笔划匹配的主要算法为①在和每个标准笔划进行匹配运算前首先要进行筛选,检查输入笔划的方向序列R=(R1,R2……Rm)是否有该标准笔划的主要特征方向,有则进行匹配运算,否则调换下一个标准笔划。
②求出输入笔划长度序列的长度总和SUM =Σk = 1mrk]]>,再用SUM和机动分配比值J求出实际的机动数j,j=SUM×J/8。∑、k、i均置0。
③由SUM和长度分配比值Bi,求出第i个特征方向应具有的实际长度bi,bi=SUM×Bi/8。
④比较Fi是否包含Rk,若包含则∑的值加1。
⑤Rk的长度rk减1,若rk减1后为0,则k加1,即取下一个输入笔段方向与长度。
⑥特征方向Fi的长度bi减1,若不为0则返回步骤④,否则进行下一个步骤。
⑦比较Fi是否包含Rk,若不包含则转到步骤⑨;否则检查j是否为0,若为0也转到步骤⑨,若j不为0,则∑的值加1,j减1。
⑧判定rk-1是否为0,若不为0则返回步骤⑦,否则k加1。
⑨判定i+1是否等于n+1,若不等于则返回到步骤③,否则与该标准笔划的匹配运算结束。
每一输入笔划与各标准笔划逐一按照以上算法进行匹配运算,最后从其中选择近似度∑最大的标准笔划作为对该输入笔划的识别结果。
笔划识别结束后,按照标准笔划的归约值,把输入笔划分解成正规的笔段,记录其方向和长度。这时的笔段方向被归结为横、点捺、竖和撇四种,分别以0、1、2和3为其代码。回顾上述过程,笔段方向从抽样点时的24种变为特殊点时的8种,最后在笔段分解后仅归结为4种,而且输入时的24种变为特殊点时的8种,最后在笔段分解后仅归结为4种,而且输入时的笔段方向与分解后的笔段方向也不一定完全相同。经过这样处理,充分利用了输入笔划的冗余,适应了书写当中局部线段方向的随机性,把输入的笔段规范化,为最后准确地识别字形创造了条件。
在笔段分解中,每当分解出一个新的笔段Ti,都要和在它之前分解出的各个笔段Tj(j=1,2……i-1)进行相互间的位置测定,图七示出这种测定的算法框图。其中XiL、XiB、YiL、YiB为笔段Ti的端点坐标,它们之间保持XiL≤XiB和YiL≤YiB的关系。XjL、XjB、YjL、YjB为笔段Tj的端点坐标,它们之间保持XjL≤XjB和YjL≤YjB的关系,(Xic,Yic)和(Xjc,Yjc)为Ti和Tj的中心点坐标。LEFT与HIGH为相互水平值置(左、中、右)与垂直位置(上、中、下)的变量,ti与tj为关系计数器,I为运算变量。位置测定的主要算法为
①求出Ti与Tj在水平轴上的投影△Xi与△Xj,若△Xi≥△Xj,则LEFT←0,I←1;否则LEFT←2,I←-1,i与j对换。
②判定XiL<Xjc是否成立,若不成立转到步骤③,否则LEFT+I。再判定Xjc≥XiB是否成立,若不成立也转到步骤③,否则LEFT+I。
③恢复i、j的值,求出Ti与Tj在垂直轴上的投影△Yi与△Yj,若△Yi≥△Yj,则HIGH←O,I←1;否则HIGH←2,I←1,i与j对换。
④判定YiL<Yjc是否成立,若不成立转到步骤⑤,否则HIGH+I。再判定Yjc≥YjB是否成立,若不成立也转到步骤⑤,否则HIGH+I。
⑤恢复i、j的值,检查HIGH与LEFT的值,若HIGH=LEFT=1,则认为Ti与Tj交叉;根据Ti与Tj的方向查图八中的表一,若表中值为1,则关系计数器tj的值加1,否则ti的值加1。对HIGH和LEFT的其它值查图八中的表二,同样,若表中值为1,tj的值加1,否则ti的值加1。
当一个字形的所有笔段都经过笔段位置测定器按照上述算法计算各笔段的t值之后,由笔段排序器按照各笔段t值的大小顺序重新编排笔段的方向与长度的数列。如果ti>tj,则Ti的方向和长度值应排在Tj的前面,如果ti=tj,则需进一步判定Ti与Tj两笔段的中点与书写板左上角的距离Li与Lj之间的大小关系,若Li<Lj,则Ti编排在前,否则Tj编排在前。按照这种方式重新编排的数列表征了字形的整体结构,它与笔划书写的顺序完全无关。
完成了笔段排序之后要进行笔段编码,本发明实施例的笔段编码使用了笔段的交叉数、长度和方向三类信息,其中的长度是用相对长度,即各笔段先按长度的绝对值由小至大排序,以其在序列中的序号作为各自的相对长度。相对长度比绝对长度更能表征字形。根据汉字的笔划越多、信息冗余越多的特点,本发明实施例在编存笔段代码中按照字形的笔段多少,采用了如图九中(a)、(b)、(c)所示的三种方法。在这三种方法中D0和D1两毕特都用于表示笔段的方向码,它的定义示于图九(d)中。图九(a)为1至9个笔段字形的笔段编码,它共占用了8个毕特,除D0和D1作为方向码外,D2、D3和D43个毕特作为笔段的长度码,D5和D6两个毕特用于记录交叉数(0至3个,大于3时仍记为3),D7用于区分同码字。其中长度码就是前述的相对长度,即由小到大的长度值排列序号(0至7,序号8的笔段长度码仍为7)。图九(b)为10至19个笔段字形的笔段编码,它共占用了4个毕特,除D0和D1作为方向码外,D2用于长度码,把按长度值排序的前 1/4 部份的笔段定义为短笔段,均用代码0表示,后 3/4 部份的笔段定义为长笔段,用代码1表示。D3用于交叉码,无交叉者用代码0表示,有交叉则用1表示。图九(c)为20个以上笔段字形的笔段编码,它只有D0和D1两个毕特用作方向码。为了加快查找速度,在标准字形存贮器中的数据组织层次,首先是按字形笔段数划分大块,在各大块中再按照横笔段的个数划分成小块,每小块中又按字形使用几率的高低进行排列,使用几率高的排在前面。设输入字形分解出的笔段总数为P,其中横笔段的总数为Q,则供查找字形的匹配运算仅在P大区中的Q、Q+1、Q-1、Q+2、Q-2小区内,和P+1、P-1大区中的Q、Q+1、Q-1小区内进行。
设X=(X1,X2……Xp)为标准字形的编码序列,W=(W1,W2……Wp)为重新排序后的输入字形笔段编码序列。由于写法上的差异,排序中可能会产生与标准字形序列的偏离。在匹配运算中,Xi要与Wi……Wi+c范围内的笔段编码逐个进行比较,选择最接近的笔段编码(以10至19笔段为例,按图十的扣分表进行扣分,扣分数最小就是最接近的),譬如是Wi+b,则Wi与Wi+b交换。累计扣分,若超过门限值V,匹配失败,调换另一个标准字形重新进行匹配运算。若累计扣分不超过V,则i+1,重复以上过程,直至i=P+1,以本次累计扣分值替换V,记下该字形。接着进行与下一个标准字形的匹配运算。C值为搜素范围,实践中选择C不大于3,它根据笔段总数P的大小而变化,P值大时C值也大。由于门限值V在匹配运算中越来越小,故若在早期匹配成功(V的值小于某常数)则以后的匹配运算速度将大大加快。当和有关区域内的全部标准字形匹配运算结束后,检查V是否小于某个限定值,若小于则输出该字形的国际码,否则匹配失败,告警。
权利要求
1.一种包括书写板、整形器、笔划模型存贮器、笔划匹配器、标准字形存贮器、以及字形匹配器等部件的手写汉字在线识别装置,本发明的特征为,用笔段分解器把经过整形与笔划识别的输入笔划按拐折次数分解成不同方向的笔段,并抽取这些笔段的方向和长度信息;用笔段位置测定器按照专门定义的数值标准测定整个输入字形各个笔段之间的位置关系(即用特定的数值表示笔段之间左、中、右与上、中、下等位置关系);用笔段排序器按照经过测定的各个笔段之间位置关系定义值的大小顺序对整个输入字形的各个笔段进行排序,用笔段编码器按照笔段排序器排列的笔段顺序对整个输入字形的各个笔段进行方向、长度、交叉数等信息的编码,组成输入字形的笔段编码序列;在字形匹配器中用输入字形的笔段编码序列与标准字形存贮器中各个标准字形的笔段编码序列进行匹配运算,选择匹配近似度最高的标准字形作为识别结果输出。
2.按照权利要求
1,所述在笔段分解前进行的笔划识别,是在笔划匹配器中使输入字形的笔划与笔划模型存贮器中各个标准笔划逐一进行笔段数、方向序列和长度分配等信息的匹配运算,选择其中匹配近似度最高的标准笔划作为识别的笔划,送往笔段分解器进行笔段分解。
3.按照权利要求
1,所述在字形匹配器中用输入字形的笔段编码序列与标准字形存贮器中各个标准字形的笔段编码序列进行匹配运算,是与在笔段总数和输入字形相同或相近而且横笔段(-)数又相同或相近的一定范围内的标准字形进行匹配运算。
专利摘要
一种手写汉字的在线识别装置,能够任意改变输入的手写笔划顺序而不致影响识别率和识别时间。输入字形经过整形和笔划识别后被分解成各种方向的笔段,记取它们各自的方向和长度信息,运算和表征相互间的位置关系,以此位置关系进行笔段排序,编排出既充分表征字形结构又与输入笔划顺序无关的字形笔段编码序列。用它与各种标准字形的笔段编码序列进行匹配运算,其识别结果显然不受输入笔划顺序的任何影响。
文档编号G06K9/18GK86100683SQ86100683
公开日1987年8月19日 申请日期1986年1月28日
发明者刘迎建, 崔廷明 申请人:中国人民解放军58026部队导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1