汉字部件笔画数编码方法

文档序号:6414249阅读:1177来源:国知局
专利名称:汉字部件笔画数编码方法
技术领域
本发明涉及一种仅用数字键盘输入汉字的汉字编码方法。
在各种中文信息交换处理中,汉字录入始终是最重要的人机交流手段。近年来,随着计算机技术的发展,信息设备的应用日益广泛,但在很多特定的场合,某些信息设备(如电话,手机,电子记事簿,及许多仪器仪表的键盘上等)其汉字的输入受到了限制,仅有0--9数字键及少数几个功能键,不能采用计算机键盘通常使用的各种输入方法,因此,如何在这种特定的环境中实现汉字录入,就成为开发该类设备信息系统的关键因素。目前,对汉字进行数字编码的方法有四角号码输入法[见公开号CN1072783A]、笔顺输入法[见公开号CN1142629A]、部件拆分法[见公开号CN1149151A]。其中四角号码输入法对字形规定较多,方法复杂,辨认困难,虽已发明多年但未能普及。笔顺输入法(全名汉字九笔画编码的编排方法)是将汉字的基本笔画分为九类,以数字1、2、3、4、5、6、7、8、9代表,然后对每个汉字输入其前两笔和末两笔。这种方法当汉字的首部件和末部件相同时,其编码均相同,汉字构成的整体信息没有得到反映,其重码必然很多。部件拆分法也存在问题,无论采用何种拆分方法,汉字输入的基本组成单元--部件的数量都在100个以上,而将这众多的部件与数字联系起来,用两位或三位数字来表示某个部件,可以想象其记忆量之大而决非易事,是普通人所难以做到的,不可能达到快速录入汉字的目的。
本发明的目的是提供一种能够克服上述方法之不足、真正以数字编码客观的反映汉字结构的构成信息,编码方法明确,容易掌握,使人见字识码、好学易用的汉字部件笔画数编码方法。
本发明的目的是这样实现的一种通过计算机的数字键盘或其它信息设备的数字键盘进行汉字输入的汉字部件笔画数编码方法,首先将汉字拆分成部件,然后按照汉字各部件的笔画数作为该汉字的部件编码。
本发明具有如下特点1.好学易用,容易掌握。只要花几分钟时间,任何一个不了解该方法的人都能够学会,并可直接进行汉字输入。适合社会各方面人士的需求,便于普及推广。
2.汉字与数字的对映关系明确。由于部件的笔画数是一个非常明确的客观数字,没有人为规定的因素,因此该方法既吸收了形码的长处,反映了汉字的整体信息,又避免了形码部件与键盘的复杂对映关系。
下面结合附图对本发明作进一步详细说明。


图1为本发明的数字键盘示意图。
如图1所示,本发明首先按照国家语委颁发的《信息处理用GB13000.1字符集汉字部件规范》将汉字拆成各种部件(见附表1),然后按照汉字各部件的笔画数进行编码,笔画数相同的部件其编码也相同。输入时,按各部件的笔画数直接键入键盘的相应数字。例如,输入“照”字,首先将其分解为四个部件“日”、“刀”、“口”、“灬”,然后按各部件的笔画,其编码为4234。“键”字部件为“钅”、“聿”、“廴”,因此其编码为562。规定编码最长为6位,如某字超过6个部件时,则第七个部件及以后部件的编码均舍去。
当部件笔数超过九笔时,部件码一律定义为“9”。如部件“黑”,共十二笔,均按九笔输入。原因是1.编码12容易与两个部件,第一部件一笔,第二部件二笔(如“亏”字,拆分为两个部件“一”和“丂”,编码为12)混淆。2.九笔及九笔以上的部件数量很少,使用频率非常低,所以,虽然都按九笔处理,但不会产生重码。
按以上方法拆分、键入部件码后,汉字按高频先见的次序显示,此时即可输入汉字,但是当某些字的部件较少时会遇到较多的重码,如编码“33”就有很多重码,为了进一步区分这些汉字,提高输入效率,当汉字的组成部件数不足六个时,可补加首末笔识别码。
首末笔识别码是这样规定的,将汉字笔画分为五类丨(竖)、フ(折)、丿(撇)、一(横)、(捺),依次分别定义为5、6、7、8、9。当汉字部件数少于五个时,均补两位识别码,首笔识别码和末笔识别码。如“大”字,本身即为部件,共三笔,首笔为“一”,末笔为“”,因此编码为389。当汉字由五个部件组成时,仅加首笔识别码,使码长不超出6位。如“濒”字拆分为“氵”、“止”、“少”、“”、“贝”,首笔识别码为“9”,其编码为“343249”。汉字首末识别笔的笔画及部件的先后顺序均按国家语委制定的《现代汉语通用字笔顺规范》来选取。
如上所述,该方法为一种不定码长编码,普通字的码长为1--6位。当输入一个低于6位,比如3位的编码时,为了使系统了解该编码已经输入完毕,后边不再有任何其它编码,必须向系统输入一个特殊符号“0”(或其它键),表示编码结束。这时若无重码,该字直接录入,如有重码,则由数字键0、1、2、3、4、5、6、7、8、9进行选择,按“+”号键向后翻页,按“-”号键向前翻页,按“Enter”键清除当前的输入。
词组的输入方法实践证明采用词组是提高中文录入速度的极有效手段,词组输入减少了每个字的码长,避免了许多重码选择,事半而功倍。
双字词组的输入方法第一字部件码+“.”+第二字部件码+“0”其中每个字的编码为部件码,不加识别笔,码长为一位至四位,如部件码超过四位仅取前四位。如“工业”,词组编码为“3.50”。“现代”词组编码为“44.230”。
多字词组的输入方法当词组的字数超过两个字时,方法为第一字部件码+“.”+第二字部件码+“.”+最后一字部件码+“0”其中每个字的部件码最长取三位,不加识别笔。如“电磁波”的词组编码为“5.533.350”。
简码的输入方法当输入“的”字时,按部件组成应拆成“白”,“勹”,“丶”,部件码为“521”,加首末识别笔后其编码为“52179”。“的”字是使用频率最高的汉字,如按以上方式输入,将是非常繁琐的,为此我们安排了简码。“的”字的简码是“5”,按结束键“0”直接录入。对常用的汉字,根据其使用频率,编制了一位简码、两位简码。在熟练使用该方法后,许多常用字可以按简码直接输入,以提高速度。
由于本发明的部件拆分完全按照国家语委1997年12月发布的《信息处理用GB13000.1字符集汉字部件规范》标准,各笔画和部件之间的下笔顺序是遵照国家语委《现代汉语通用字笔顺规范》选取的,因此,符合国家标准,编码方法规范。另外,由于采用了灵活的不定长编码,编码长度为1-6位,即编码占用了1位、2位、……、6位的整个编码组合空间,因此其编码组合较多,克服了数字编码组合空间小,平均码长较长的缺点,具有较低的重码和较高的输入速度。
为了便于理解本发明的编码方法,现将国家语委1992年12月发布的《信息处理用GB13000.1字符集汉字部件规范》标准中的《笔画排序汉字基础部件检索表》列在说明书的后面,值得一提的是汉字的部件拆分方法绝非仅此一种,本发明既可借用目前的国家标准,也可以沿用过去人们比较习惯、约定俗成的一些部件拆分方法,但是不管采用哪一种都不影响本发明目的的实现,不影响本发明的保护范围--将汉字各部件的笔画数作为汉字的部件编码。
附表1笔画排序汉字基础部件检索表
权利要求
1.一种通过计算机的数字键盘或其它信息设备的数字键盘进行汉字输入的汉字部件笔画数编码方法,其特征在于将汉字拆分成部件,然后按照汉字各部件的笔画数作为该汉字的部件编码。
2.根据权利要求1所述的汉字部件笔画数编码方法,其特征在于将汉字拆分成部件是按照国家语委颁发的《信息处理用GB13000.1字符集汉字部件规范》进行拆分的。
3.根据权利要求1所述的汉字部件笔画数编码方法,其特征在于汉字的部件编码为不定长编码。
4.根据权利要求1所述的汉字部件笔画数编码方法,其特征在于汉字的最长码为六位,超过六位时仅取前六位。
5.根据权利要求1所述的汉字部件笔画数编码方法,其特征在于汉字的最长码为六位,少于六位时可以补加一位或两位首末笔识别码。
6.根据权利要求1所述的汉字部件笔画数编码方法,其特征在于汉字的部件笔画数超过九笔时,一律按九笔取码。
7.根据权利要求1、2、3、4、5或6所述的汉字部件笔画数编码方法,其特征在于按照国家语委颁发的《现代汉语通用字笔顺规范》来处理各部件的顺序和选取各字的首末笔笔画。
8.根据权利要求1所述的汉字部件笔画数编码方法,其特征在于将第一字部件码+“.”+第二字部件码作为双字词组的编码方法,其中每个字的部件码码长为一位至四位,不加识别笔,输入完后加结束标志。
9.根据权利要求1所述的汉字部件笔画数编码方法,其特征在于将第一字部件码+“.”+第二字部件码+“.”+最后一字部件码作为多字词组的编码方法,其中每个字的部件码码长为一位至三位,不加识别笔,输入完后加结束标志。
10.根据权利要求5所述的汉字部件笔画数编码方法,其特征在于将汉字笔画分为五类竖、折、撇、横、捺,并依次定义为5、6、7、8、9作为首末笔识别码。
全文摘要
本发明提供了一种通过计算机的数字键盘或其它信息设备的数字键盘进行汉字输入的汉字部件笔画数编码方法,该方法首先将汉字拆分成部件,然后按照汉字各部件的笔画数做为该汉字的部件编码,能够以数字编码客观的反映汉字结构的构成信息,编码方法明确,容易掌握,解决了现有数字编码方法难学易忘、重码较多的问题,具有好学易用、见字识码、输入速度快等优点,易于普及和推广。
文档编号G06F3/023GK1204799SQ9811414
公开日1999年1月13日 申请日期1998年7月10日 优先权日1998年7月10日
发明者陈澜 申请人:陈澜
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1