计算机中文手写输入和识别方法

文档序号:6330735阅读:419来源:国知局
专利名称:计算机中文手写输入和识别方法
技术领域
本发明涉及一种在计算机上采用手写输入中文汉字的方法以及由计算机对其进行识别的方法。本发明的方法包括建立书写输入笔、写字板、计算机笔划识别系统等软件及在计算机内建立相应的字库。
以手写作为计算机中文汉字输入已经是一种常见的技术,较为常见和典型的是现市场出售的商务通微型计算机的手写输入。现在技术中一般包括有输入笔、写字板、计算机笔划识别系统、软件及相应的字库。现有技术的一个不足是在手写输入时要一个字一个字的书写,这样在进行计算机输入时书写输入速度会大大低于正常的书写速度。此外,由于中文汉字笔划较为复杂,而且在书写中书写人员的笔划多带有一定的书写习惯,这些都会造成计算机中用于识别笔划的图形识别系统的识别错误,并由于识别错误的原因造成错误的输入。这一点凡是使用过这类系统的人均有这种体会。此外,在现有技术中为避免或减少因识别错误而引起的错误输入,在采用书写输入中只能用正楷公整的书写,但这样更是大大降低了输入速度,同时也会失去了书写输入的一些优点。
本发明的目的是提供一种可克服现有技术不足,能大大提高手写输入速度的计算机手写输入方法,并且本发明还可以明显减少计算机对手写输入图形的识别错误。
本发明是通过在计算机内的现有的计算机手写输入系统外再建立新的词组库,并将词组按二字词组、三字词组、四字词组及多字词组进行分类,并以有部首汉字的边旁部首为“部首”,或者以无部首汉字的初写笔划加第二笔划为“部首”,并且A、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,在写字板上写出第一部首和第二部首,用计算机识别系统识别出写字板上的第一部首和第二部首,检索出词组库中全部的二字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,并在显示器上显示最后所检出的所有词组,或者B、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,以词组中的第三个字的部首为第三部首,在写字板上写出第一部首、第二部首和第三部首,用计算机识别系统识别出写字板上的第一部首、第二部首和第三部首,检索出词组库中全部的三字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,再从这些词组中检索出其第三个字的部首与第三部首相符合的词组,并在显示器上显示最后所检出的所有词组,或者C、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,以词组中的第三个字的部首为第三部首,以词组中的第四个字的部首为第四部首,在写字板上写出第一部首、第二部首、第三部首和第四部首,用计算机识别系统识别出写字板上的第一部首、第二部首、第三部首和第四部首,检索出词组库中全部的四字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,再从这些词组中检索出其第三个字的部首与第三部首相符合的词组,再从这些词组中检索出其第四个字的部首与第四部首相符合的词组,并在显示器上显示最后所检出的所有词组,或者D、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,以词组中的第三个字的部首为第三部首,以词组中的倒数第二个字的部首为第四部首,以词组的倒数第一个字的部首为第五部首,在写字板上写出第一部首、第二部首、第三部首、第四部首和第五部首,用计算机识别系统识别出写字板上的第一部首、第二部首、第三部首、第四部首和第五部首,检索出词组库中全部的多字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,再从这些词组中检索出其第三个字的部首与第三部首相符合的词组,再从这些词组中检索出其倒数第二个字的部首与第四部首相符合的词组,再从这些词组中检索出其倒数第一个字的部首与第五部首相符合的词,并在显示器上显示最后所检出的所有词组。
为进一步提高汉字词组的输入速度,还可以将本发明中字的“部首”进行简化。其具体做法是在本发明中,对于有边旁部首的汉字且其边旁部首的书写笔划少于或等于三笔的,其“部首”是该字的边旁部首;而另外那些有边旁部首的汉字且其边旁部首比较复杂,书写笔划多于三笔的,该汉字的“部首”是其边旁部首的简记符,而这些简记符的形状尽可能采用与其边旁部首相近的笔划,一般讲在本发明中的部首简记符是该边旁部首初写第一笔,或者是该边旁部首的初写第一笔加第二笔,或者是该边旁部首的初写第一笔、第二笔和第三笔。
从理论上讲采用本发明时可能会产生重码,为使本发明在使用时能减少重码率,可以在前述第一部首中加入识别笔划,这一识别笔划对于有边旁部首的汉字为该汉字除其原边旁部首或者除其边旁部首的简记符外的第一笔,也就是在书写该汉字时除去其边旁部首外的第一笔;而对于无边旁部首的汉字,识别笔划为书写该汉字的第三笔划。在本发明中为使其定义清晰,将加有识别笔划的这些笔划也统称为“部首”。另需注意的是在进行手写输入带有识别笔划的“部首”时,应首先将写各个部首的区域确定,以免在写识别笔划时将该笔划写入本应是第二部首的区域,而产生计算机误“读”的问题。
通过以上对本发明的简单介绍可知,本发明是在现有计算机手写输入系统的基础上,增加其内置有现有的所有词组的词组库,同时对词组的输入进行特殊规定,使其简化,以最简单和最少的笔划进行输入,由于手写输入的笔划为简单笔划,同时在输入时只采用词组中的数个字的部分笔划即可输入一个多字构成的词组,而且在汉字中词是更多的构成句子的单元,因此,本发明一方面可以大大提高汉字词组的输入速度,另一方面也可以避免减少计算机对复杂笔划的识别,并因此而大大减少了在手写输入中的错误输入问题。
其次,众所周知,汉字是由基本笔划构成边旁部首与由基本笔划构成的一些基本结构的不同组合构成,进行汉字的手写输入时应当使简化的笔划符合汉字的部首与基本结构的组合要求。客观讲,如果不是用于计算机这一特定领域,用传统的简化方式所产生的结果极可能是派生出一种新的“简化字”,而且是一种不会被公众和社会所接受的“文字”。但对于计算机技术领域而言,问题则有了完全不同的答案。在本发明中对于计算机的汉字手写输入,只是由输入者通过手写出特定的“符号”向计算机输入一个进行检索查询的指令,然后由计算机通过对机内字库中的检索,并找出符合输入指令要求的汉字词组。
另外,由于现代微处理机技术的发展,使其内存和硬盘的存贮量已经足够大,而且其成本也已经比较低,同时计算机的运算速度已非常快,这一切都为本发明提供了充分的硬件基础。
以下提供本发明的详细解说,在本发明中,可以将现使用的所有词记入词组库中。
其次,在本发明中规定离频部首及其简写记号为部 首石 王 山  月 禾 鱼 衤 礻 冫 氵 口 讠简记符丆  部 首日 自  虫 扌 女 宀 广 疒 辶 门 纟简记符 亠 部 首 马 阝 钅 饣 亻 火 忄 艹 木 犭 土简记符以上的部首中无简记符的,其形状均较为简单,在手写输入时即以部首原形书写即可,而有简记符的,一般形状均较为复杂,以简记符书写时既可以提高输入速度,又可以避免计算机误读引起错误输入。
除以上边旁部首外的其它部首及无部首的汉字的“部首”均为本发明所称低频部首,或称之谓“模糊部首”。这些汉字中一部分的“部首”形状比较简单,如冖,彳,巾等,这类部首组成的汉字较少,特别是这些汉字所组成的词也非常少,其记写也很方便,无需重新定义,在输入时只需写出该部首即可;另一部分或无部首,或者本身即是部首,其书写笔划多且形状一般较为复杂,对这类汉字为达到书写便利、形状简单的目的,只需以其初写的第一划和第二划为输入单元即可,如部首或字 聿 整 孝 生 来 步 取 学 怎 页重 失 鸟简 记 符   勹以上部首或字下无简记符的,在输入时以其原形输入。
本发明对词组的输入举例如下对二个字组成的词组,其书写输入的是组成词的两个汉字的各部首或部首的简记符或其“低频部首”(“模糊部首”)的初写第一笔和第二笔,而计算机在识别出“写在”“写字板”上的第一部首和第二部首后即在机内所存储的二字词库内检出并显示出与该第一和第二部首相符合的所有词。如“高级”一词,输入笔划为“亠 ”,经计算机识别后即可从二字词库中检出并显示出其第一部首和第二部首符合“亠 ”的所有词,其中必然包括“高级”一词。
又如“生长”一词,输入笔划为“ ”,经计算机识别后即可从二字词库中检出并显示出其第一部首和第二部首符合“ ”的所有词,其中必然包括“生长”一词。
上述的两字词组在进行手写输入时可能产生重码的问题,但是由于词组按本发明的输入方式构成重码率极低(这一点发明人曾经进行过计算和组词的检验),因为按本发明所产生的汉字的部首大于一百个,从中取出任意四个进行排列,其排列数量远远大于一亿,而实际上的二字词组不过数万,由此所产生的重码已经是很低的,根据发明人的计算和实际的验证,只有极少数的几个词组会有重码的问题,因此对一般人员使用而言基本上可以不考虑这一问题。而对于专业的计算机文字录入人员而言,本发明还提供了一种减低重码率的办法,即在输入第一部首时除写入初笔和第二笔外,再加上这个字部首以外的第一笔,作为“识别码”,在这种情况下已经完全消除了重码的问题。仍以“高级”为例,可以输入“ ”,这样能满足的只有“高级”一词了。
对于由三个字组成的词而言,其书写输入的是组成词的三个汉字的各部首或部首的简记符或其“模糊部首”的初写第一笔、第二笔,而计算机在识别出“写在”“写字板”上的第一部首、第二部首后即在机内所存储的三字词库内检出并显示出与该第一、第二部首相符合的所有词。如“生长素”一词,输入笔划为“ ”,经计算机识别后即可从三字词库中检出并显示出其第一部首、第二部首和第三部首符合“ ”的所有词,其中必然包括“生长素”一词。
又如“委员会”一词,在手写输入时只需写入“十口人”,经计算机识别后即可从三字词库中检出并显示出其第一部首、第二部首和第三部首符合“”的所有词组,其中必然包括“委员会”一词。
同样,为降低重码率,可在输入第一部首时除写该部首或部首的简记符后,再加上这个字的部首外的第一笔。以“写字板”为例,可以输入“ 宀 ”,经计算机识别和检索后这样能满足其词中第一汉字的第一部首的前三笔,以及其词中第二第三汉字的第二、第三部首的前两笔的只有“写字板”一词了。
对于由四个字组成的词,其书写输入的是组成词的四个汉字的各部首或部首的简记符或其“模糊部首”的初写第一笔和第二笔,而计算机在识别出“写在”“写字板”上的第一部首、第二部首、第三部首和第四部首后即在机内所存储的四字词库内检出并显示出与该第一、第二部首、第三部首和第四部首相符合的所有词。如“组织纪律”一词,输入笔划为“”,经计算机识别后即可从四字词库中检出并显示出其第一部首、第二部首、第三部首和第四部首符合“ ”的所有词,其中必然是“组织纪律”一词。又如“长期以来”一词,输入的笔划是“”,经识别和检索后显示的应是“长期以来”。
对于由四个以上的字组成的词,其书写输入的是组成词的前三个汉字的各部首或部首的简记符或其“模糊部首”的初写第一笔和第二笔,以及该词倒数第二个汉字和倒数第一个汉字的各部首或部首的简记符或其“模糊部首”的初写第一笔和第二笔(即前三后二),而计算机在识别出“写在”“写字板”上的第一部首、第二部首、第三部首和第四部首后即在机内所存储的多于四字词库内检出并显示出其第一、第二和第三汉字及该词的倒数第二汉字和倒数第一汉字与输入的第一、第二部首、第三部首、第四部首第五部首相符合的所有词。如“科学工作者”一词,输入笔划为“ ”,经计算机识别后即可从多字词组库中检出并显示出其第一部首、第二部首、第三部首、第四部首和第五部首符合“ 亻 ”的所有词,是“科学工作者”一词。
又如“全国人民代表大会”一词,输入的笔划是“ ”,经识别和检索后显示的应是“全国人民代表大会”。
在本发明中四字词组和多于四字的词组中,由于四字词组和多于四字的词组只有数千个,而部首的排列数量仍要大于一亿,其重码率已完全不存在了,因此完全不用再考虑重码的问题,当然也不需要再在输入第一部首时加入第三笔的笔划去降低重码了。
在本发明中如果输入的是一个汉字,这时只需继续使用现有的技术即可,即用“写字笔”在“写字板”上写入该汉字的所有笔划,由计算机通过现有技术系统进行识别辨认,再显示出该汉字。
从以上的介绍可知,本发明在进行汉字的输入时是以词组为基本单元进行输入,而且输入的方式基本上与汉字的书写习惯和规则是一致的,加上中文汉字中词组较多,而单个的汉字相对较少,因此利用本发明进行汉字输入时其速度是非常快的此外,由于进行汉字书写输入的“元素”是部首,或者是更为简单的部首的简记符,或者是极为简单的“模糊部首”的初写笔划和初写第二笔划,所以其输入显得更为简单和便利;同时其重码率极低,这也更加快了输入的速度;再加上经本发明输入的笔划非常简单,这也为计算机的识别辨认带来便利,并可因此大大降低误输入的问题。
权利要求
1.一种计算机中文汉字手写输入及识别的方法,包括建立书写输入笔、写字板、计算机笔划识别系统等软件及在计算机建立相应的字库,其特征在于在计算机内再建立词组库,将词组按二字词组、三字词组、四字词组及多字词组分类,并以有部首汉字的边旁部首为“部首”,或者以无部首汉字的初写笔划加第二笔划为“部首”,并且A、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,在写字板上写出第一部首和第二部首,用计算机识别系统识别出写字板上的第一部首和第二部首,检索出词组库中全部的二字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,并在显示器上显示,或者B、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,以词组中的第三个字的部首为第三部首,在写字板上写出第一部首、第二部首和第三部首,用计算机识别系统识别出写字板上的第一部首、第二部首和第三部首,检索出词组库中全部的三字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,再从这些词组中检索出其第三个字的部首与第三部首相符合的词组,并在显示器上显示,或者C、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,以词组中的第三个字的部首为第三部首,以词组中的第四个字的部首为第四部首,在写字板上写出第一部首、第二部首、第三部首和第四部首,用计算机识别系统识别出写字板上的第一部首、第二部首、第三部首和第四部首,检索出词组库中全部的四字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,再从这些词组中检索出其第三个字的部首与第三部首相符合的词组,再从这些词组中检索出其第四个字的部首与第四部首相符合的词组,并在显示器上显示,或者D、以词组中的第一个字的部首为第一部首,以词组中的第二个字的部首为第二部首,以词组中的第三个字的部首为第三部首,以词组中的倒数第二个字的部首为第四部首,以词组的倒数第一个字的部首为第五部首,在写字板上写出第一部首、第二部首、第三部首、第四部首和第五部首,用计算机识别系统识别出写字板上的第一部首、第二部首、第三部首、第四部首和第五部首,检索出词组库中全部的多字词组中各词的第一个字的部首与第一部首相符合的所有词组,再从这些词组中检索出其第二个字的部首与第二部首相符合的所有词组,再从这些词组中检索出其第三个字的部首与第三部首相符合的词组,再从这些词组中检索出其倒数第二个字的部首与第四部首相符合的词组,再从这些词组中检索出其倒数第一个字的部首与第五部首相符合的词,并在显示器上显示。
2.如权利要求1所述的方法,其特征是所述的部首是对有边旁部首的汉字且其边旁部首的书写笔划少于或等于三笔的,其“部首”是原边旁部首,对有边旁部首的汉字且其边旁部首的书写笔划大于三笔的,其“部首”是其边旁部首的简记符。
3.如权利要求2所述的方法,其特征是所述的第一部首对有边旁部首的汉字是该汉字原边旁部首或者是其边旁部首的简记符,再加上该汉字边旁部首外的第一笔;所述的第一部首对无边旁部首的汉字是该汉字的初笔划和第二笔以及第三笔。
全文摘要
本发明涉及一种在计算机上采用手写输入中文汉字的方法以及由计算机对其进行识别的方法。本发明的方法包括书写输入笔、写字板、计算机笔划识别系统、软件及相应的字库。本发明是通过在计算机内再建立词组库,并将词组按二字词组、三字词组、四字词组及多字词组进行分类,并以汉字的部首或部首的简记符或者汉字的模糊部首的初写第一和第二笔划为输入单元。
文档编号G06K9/00GK1354410SQ00133030
公开日2002年6月19日 申请日期2000年11月16日 优先权日2000年11月16日
发明者邵德子 申请人:邵德子
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1