五笔八部输入法的制作方法

文档序号:6559114阅读:197来源:国知局
专利名称:五笔八部输入法的制作方法
技术领域
本发明属于电脑汉字编码输入方法,也就是中文输入法。因为主要在电脑数字键上使用,也可移植到手机上使用,并且选用五种基本笔画和八个汉字偏旁等汉字部件进行编码,所以称为五笔八部输入法。
背景技术
利用数字键编码由来已久,电报码、区位码就属于数字编码,具有四位数字等长,无重码,输入速度很快等优点。但因为其编码几乎毫无规律,能熟记其编码的人是寥寥无几的,据我所知,手机上还没安装这种输入法。四角号码也是数字编码,但它不合笔顺规律,还有些重码,效率较低,手机上也没安装这种输入法。另外一些按四角编码的输入法,虽作了很大改进,重码大为降低,可因为与人们最习惯的书写顺序不符合,并且包含的同类部件太多,所以注定不大会有人使用。将汉字的各种笔画归类为几种笔画,用几个数字编码,并逐笔输入的输入法,因为象写字一样简单,所以在手机上广泛应用。可逐笔输入码长较长,不利于提高输入速度。为此作了智能化改进,每输入一笔就出现最有可能的几个字或偏旁供挑选,这样许多字不必逐笔输完就出现在屏上,明显提高输入速度,成为手机市场上主流的输入法,可少数汉字仍要击键七、八下甚至更多,选字麻烦,输入速度不快。著名的T9输入法好象就属于这类输入法。于是有人做出改进,将合体字一分为二或一分为三,再选取笔画和部件进行编码。这类输入法典型的代表是五笔数码,诚如其宣称的那样,既简单又快速,一般人十来分钟可学会,输入速度约为西文的二倍。可这类输入法有个重大缺点,那就是部件选取不当,以五笔数码为例,它的六键输入法只在五类基本笔画的基础上增加一个“口”部件,它的九键输入法却因为取码规则不合理,令人吃惊地选用了“王”“幺”“心”等组字频率低的部件作编码,记忆不便。另外让人感到麻烦的是五笔数码犯了一个与四角号码同样的错误,那就是有的基本部件还包含了多个其他部件,此举一来不利于把部件排到数字键上,因为手机上的数字键太小,二来增加了部件数,显得烦琐,不利于记忆。于是只有几个汉字部件的输入法被研究出来,目前手机市场上在用的一种输入法是这样的将五种基本笔画和几个汉字部件分别排在数字键上,合体字的汉字,按笔顺第一部取二码,第二部取一码;独体字的汉字按笔顺取二码,对汉字作过深入研究的人都知道,有几个部首“管辖”二百多个汉字,第二部只取一码的话,会造成大量的重码,这种试图在区区几个数字键上以二、三码输入七千个汉字的做法必定付出重码高的代价。

发明内容
这样目前汉字的数字编码输入法要么不合笔顺规范;要么部件选取不当,不能几分钟学会;要么码长太短或太长;要么重码过高,影响输入速度。都没能很好解决简单的不快速,快速的不简单这一技术难题,输入汉字不甚方便。
本发明的目的是提供一种符合笔顺规范,简单易学,输入汉字方便快捷的电脑汉字输入法即五笔八部输入法。它提供了三套单字取码规则第一套取码规则最多四码,重码字一般情况下控制在十个以内,这样无需翻屏或最多翻一、二次屏就能找到所需汉字,有些字甚至无重码,输入十分方便。第二套取码规则码长最多五码,重码少,输入速度快。第三套取码规则码长最多六码,重码更少,输入速度更快。
为达到五笔八部输入法的目的,本发明将汉字分为独体字和合体字二类。本人在长期的编码研究中早就认识到一个汉字是否为左右结构是一目了然的,合体字的汉字很容易在其产生空隙处将它一分为二,拆分为第一部、第二部,它的左边部分称为第一部,右边部分称为第二部。而上下、包围结构的汉字有时不易一分为二,甚至有时难以分清一个字是独体字还是上下结构或包围结构。根据一个汉字是否为左右结构划分最简单易学,但这样一来不利于降低重码,实际上对于难以划分结构的汉字还可以用容错码的技术加以解决,即容许对同一个汉字根据不同的划分进行不同编码,同一个汉字可以有多个编码,所以还是划分为独体字和合体字为好。这样也与人们的传统思维一致。需要指出的是将合体汉字一分为二,分成二个部分别进行编码的技术由来已久,二笔输入法和五笔数码等输入法都属于这类输入法,并非我独创。
又将汉字的各种笔画按国家语委的规定归类为横、竖、撇、点、折五种基本笔画,分别用五个互不相同的数字比如1、2、3、4、5编码。为降低重码,还优选组字频率或实用频率高的几个笔画结构即国家语委规定的汉字部件排到键上,参与编码。本人在发明双优码中曾将双笔画参与编码,可后来经过实用操作,发现利用双笔画参与编码不利于头脑反应,所以只好舍弃双笔画了。汉字部件在选取时数量要少,且要有利于降低重码,另外汉字部件最好是本身就是偏旁或汉字,以便于记忆。这样汉字部件“口”、“艹”、“扌”、“氵”、“木”以及“二”、“十”、“八”就被优选出来排到键上,“八”含“人”。合体字根据整体结构在最初的分界线处将其一分为二,先写的部分为第一部,后写的部分为第二部,对左中右结构的汉字将其中间部分、右边部分划为第二部。对上中下结构的汉字将其中间部分、下面部分划为第二部。当然也可根据成字优先的原则将中间部分划分到第一部。也可无条件地规定将中间部分划分到第一部。另外对包围部分按笔顺要分开书写的汉字如“或”、“载”等字,也规定包围部分为第一部、被包围部分为第二部,当然也可将它划分到独体字中,按独体字编码。
第一套单个汉字取码规则是码长最多为4码,合体字的第一部按笔顺取前二个部件的编码作为编码,第二部按笔顺取前一个部件和最末一个部件的编码作为编码,当第一部只有一个部件,只能取一码时,第一部就取一码,这时第二部可取前二个部件和最末一个部件编码。当第二部的所有部件被取完,不足4码时编码结束;独体字按笔顺取前三个部件和最末一个部件的编码编码,当取完所有的部件,不足4码时编码结束。注意某个部件已取码后不可重复取码,这一规则也适用于第二、三套取码规则。
第二套单个汉字取码规则是合体字的汉字,第一部按笔顺取前二个部件编码,第二部按笔顺取前二个部件和最末一个部件编码,当第一部只有一个部件,只能取一码时,第一部就取一码,这时第二部可取前三个部件和最末一个部件编码,当取完第二部所有的部件,该汉字的编码不足五码时编码结束;独体字取前四个部件和最末一个部件编码。当取完该汉字的所有部件,编码不足五码时,编码结束。
第三套单个汉字取码规则是合体字的汉字,第一部按笔顺取前二个部件编码,第二部按笔顺取前三个部件和最末一个部件编码,第一部只有一个部件只能取一码时,第一部就取一码,第二部可取前二个部件和最末一个部件编码。当取完第二部的所有部件编码不足六码时按笔顺取完所有的部件进行;独体字的汉字取前五个部件和最末一个部件编码,当取完独体字的所有部件,不足6码时取完所有部件进行编码。
三套单字取码规则编码时若遇到排在键上的汉字部件都要遵循取大优先原则,即要优先按笔画数多的汉字部件编码,这样通过划分合体字和独体字,精选部件和取码规则就做到了既简单又快速。利用输入法软件,在键盘上敲击汉字相应的编码所在的键就可输入汉字。


图1为五笔八部输入法数字键盘排列图,图中一、丨、丿、丶、乙分别代表横、竖、撇、点、折。
具体实施例方式
下面结合优选的实施例和附图作详细说明。
本发明在编码时对汉字笔画的认识完全科学。笔画是构成楷书汉字字形的最小连笔单位,是书写汉字时一次连续写成的一个线条。按国家语委的规定,在只考虑汉字的运笔方向而不计其轻重长短时,即只考虑其笔形时可分为横、竖、撇、点、折五种基本笔画,其中提并入横,竖钩并入竖,捺并入点,各种折笔都作折,也就是说其他各种带转折的笔画都作折。国家语委称五种基本笔画为横、竖、撇、点、折,而本人倾向于称横、竖、撇、捺、折。因为点的笔画是很短的,不象其它笔画那样具有一定的长度,且有时运笔方向下垂,几乎与撇相同。当然国家语委规定称点可能是因为点成字,而且组字频率高于捺。由于是国家语委的规定,只好遵守,其实国家语委还可规定称捺也允许。汉字部件是由两个笔画组成的具有组配汉字功能的构字单位。
接着将汉字分为合体字和独体字二类,合体字是指具有上下、左右、里外即包围或镶嵌结构的汉字,独体字是指不具有上下、左右、里外即包围或镶嵌结构的汉字。有的汉字为左中右结构,由于左边部分往往是部首,因此将中间部分和右边部分一起划入第二部。即左中右结构的汉字,除左边部分为第一部外,其余部分为第二部。比如“撤”的第一部为扌,其余部分为第二部。“聊”的第一部为耳,其余部分为第二部。当然也可对中间部分置之不理,只取右边部分编码。在本实施例中一律将中间、右边部分划入第二部。接着编码。
第一套单字取码的编码规则是合体字的第一部按笔顺取前二个部件编码,第二部按笔顺取前一个部件和最末一个部件编码,但第一部只有一个部件的话就取一个部件,只取一码。这时第二部就可按笔顺最多取前三个部件,最多取三码,在编码实例中这么规定。当然也可规定第二部仍然只能取二码。当第二部不足规定码长时取完该部的所有部件为止;独体字按笔顺取前三个部件和最末一个部件,共四码,当不足四码时,取完该汉字所有的部件为止。这一取码规则很好记,并且能有效降低重码,是千锤百炼出来的。还可规定第一部取一个部件的情况下,第二部按笔顺最多取前二个键和最末一个部件。或规定合体字第一部取首尾二个部件,甚至还可规定第二部也取首尾二个部件。
第二套单字取码规则的编码规则是汉字的码长最多为5码,合体字的汉字,第一部按笔顺取前二个部件,第二部按笔顺取前二个部件和最末个部件,第一部或第二部不足规定码长时,取完所有的部件为止。独体字的汉字按笔顺取字首的四个部件和字尾的一个部件,不足规定码长时取完所有的部件为止。
第三套单字取码规则的编码规则是汉字码长最多为六码,合体字的第一部按笔顺取前二个部件,第二部按笔顺取前三个部件和位于字尾的最末个部件。第一部只有一个部件,就取一码,这时第二部就可规定按笔顺最多取前四个部件和最末个部件,当然也可不作规定。当第二部不足规定码长时,取完所有的部件为止;当然也可规定第一部取首尾二个部件,第二部取前三个部件和最末个部件,或取前二个部件和末二个部件。独体字按笔顺取前四个部件和字尾的一个部件,当不足五码时,取完所有的部件为止。
三套单字取码规则编码时均应掌握一个规则,就是要优先按笔画数多的汉字部件编码。汉字部件的定义与国家语委的规定相同,它由几个笔画构成的相对不变的笔画结构,组合后可构成汉字。为便于记忆,本发明规定横、竖、撇、点、折五种基本笔画分别用1、2、3、4、5编码,汉字部件“木”、“扌”、“氵”、“艹”、“口”分别排到6、7、8、9、0上。记忆方法是木头手在水草中,“口”和“0”近形。部件“八”排在数字键“8”,用8编码。汉字部件“二”、“十”、“八”分别排在数字键“6”、上,分别用6、7、8编码,也十分便于记忆。汉字部件“十”排在数字键“7”上的话,“7”可看成横竖接成,而“十”是由横竖组成,两者具有共同点,也便于记忆。注意十可含义,都为正叉,本实施例不排叉,“八”可用“人”代替,也可规定“八”含“人”,本实施例规定“八”含“人”。见附图1,该图即五笔八部输入法数字键盘排列图。所选用的汉字部件组字频率都极高,选用“扌”是为与“土”作区分,选用“氵”是为与“忄”、“宀”等作区分。将“艹”和“二”排在一起,“扌”和“十”排在一起,将“氵”和“八”排在一起,都是因为这样排重码较少。选用“口”和“木”是因为它组字频率极高,不仅出现在字首,还出现在汉字的其他各个位置,因此优选出来。“艹”、“木”、“氵”、“扌”、“口”都属于必选的汉字部件,必须分别排在其他几个不同的键上,且不能排在五种基本笔画上。还可将“口”视为方框。应当指出,按第一套或第二套或第三套取码规则编码,另外还可将折细分为弯、拐,弯的运笔方向是自左向右往下弯,即各种横折属于弯,其它折笔属于拐,弯可与“艹”合并排列。拐仍排在数字键5上。本实施例不这么排列。
第一套单字取码的编码实例编码规则为合体字的汉字第一部按笔顺取前二个部件,第二部按笔顺取前一个部件和最末个部件,独体字按笔顺取前三个部件和最末一个部件。如“记”字,它的第一部分是讠,首二笔点折的编码为45,第二部分是“己”,对首末二笔编码,为折折,编码为55。这样“记”的编码为4555。如“旧”字,它也属于合体字,第一部为一竖,编码为2,第二部按笔顺依次为二个单笔画竖、折,末笔为横,编码就为251,“旧”的编码就为2251。又如“艾”字,它的第一笔为横,但遇到笔画数更多的部件“艹”,按笔顺第一个部件为艹,编码为9,第二个部件为撇点,编码为34,笔顺取前二码时就取完该汉字的所有部件,“艾”的编码就为934。又如“米”字,它为独体字,按笔顺取前三个部件和最末一个部件。可取完点、撇、“木”的编码4、3、6后就取完所有的部件,因此只取三个部件编码,“米”编码为436。
下面举出第二套单字取码的编码实例。编码规则为合体字的汉字第一部按笔顺取前二个部件,第二部按笔顺取前二个部件和最末个部件,独体字按笔顺取前四个部件和最末一个部件。如“记”字,它的第一部分是讠,编码为45,第二部分是“己”,对首二笔和最末二笔编码,为折横折,编码为515。这样“记”的编码为45515。如“旧”字,它也属于合体字,第一部为一竖,编码为2,第二部按笔顺依次为前三个单笔画竖、折、横,最末笔为横,编码就为2511,“旧”的编码就为22511,又如“艾”字,它按笔顺第一个部件为艹,编码为6,第二个部件为撇点,编码为34,笔顺取前二码时就取完该汉字的所有部件,“艾”的编码就为634。又如“米”字,它为独体字,按笔顺取前四个部件和最末一个部件。可取完点、撇、“木”后就取完所有的部件,因此只取三个部件的编码4、3、6,“米”编码为436。
下面举出第三套单字取码的编码实例。编码规则为合体字的汉字第一部按笔顺取前二码,第二部按笔顺取前三码和最末码,独体字按笔顺取前四码和末一码。如“记”字,它的第一部分是讠,编码为45,第二部分是“己”,对首三个部件和最末一个部件,可取前三个部件就取完了所有部件,为折横折,编码为515。这样“记”的编码为45515。又如“米”字,它为独体字,按笔顺取前五个部件和最末一个部件。可取完点、撇、“木”后就取完所有的部件,因此只取三个部件的编码4、3、6,“米”编码为436。
为提高输入速度,还设置了简码和词组输入法。
一、简码、本发明每输入一个数字编码,就按高频先见的方法显示排列出汉字,使得很多常用字不必输入全部编码,就可挑选汉字上屏,这就是简码。排列侯选字时有二种方法比较理想一是分二行上下排列,每行五个汉字。二是按电脑数字键区或手机上0~9个阿拉伯数字键区那样排列,即按三行三列排列,用阿拉伯数字挑选上屏。在按第一套方案编码输入不足四码要挑选汉字时,必须长按数字键或按一个表示确定选择的键比如“/”键,再按数字键方可挑选汉字上屏,处于最先显示排列的汉字可按另外一个键比如回车键上屏,输入达到四码并且有重码时无须按表示选择的键比如“/”,就可直接按数字键挑选汉字上屏,无重码的汉字可直接上屏。类似的规则也可套用于码长最多为五码或六码的第二、三套单字取码规则,只要将四码改为五码或六码即可。目前有的手机上的输入法用*和#键移动到所要挑选的汉字,再按确定键使该汉字上屏,实在太缓慢,“+”“-”键作为翻页键用来显示。
二、词组。第一套输入方案由于规定码长为四码,最多可容纳10000个汉字,而常用的汉字有七千个,为避免单字和词组重码,因此最好规定词组输入时编码前加一个特定的键比如“*”键作为引导符。第二、三套单字取码规则,不必在词组编码前加引导符,字词兼容。
对第一套单字取码规则而言,二字词各取每个字完整编码的前二码,以词组“特殊”为例,特的前二码为31,殊的前二码为13,编码为*3113;三字词各取每个字的前一码,当然也可规定取前二个字的第一码,第三个字的前二码,或规定取第一个字的前二码,第二、三个字的前一码;四字及以上词,各取前三个字和最末一个字的前一码。当某个字只能取一码不能取二码时,就取一码。
第二套单字取码规则的词组输入规则是二字词,第一个字取前二码。第二个字取前三码;三字词,第一、二个字各取前二码,第三个字取前一码;四字以上词,第一、二个字各取前二码,最末一个字取前一码。比如“知识经济”,编码时取“知”、“识”的前二码31、45,“济”的前一码8,编码为31458。
第三套单字取码规则的词组输入规则是二字词,第一字取前二码,第二字取前四码;三字词,每字各取前二码;四字及以上词,第一、二和最末词各取前二码。比如“知识经济”,编码时取“知”、“识”、“济”前二码,编码为314584。
上述编码方法是用数字编码的,其实也可用字母或别的符号编码,比如用Q、W、E、R、T、Y、U、I、O、P分别代替1、2、3、4、5、6、7、8、9、0编码。
本人在长达十三年的编码研究中,日益感到汉字存在汉字部件多,部件在汉字中的位置没固定等缺点,特别是汉字部首往往集中于字首,是造成重码的重要根源。因此我认为汉字部件应当精简为五、六十个或七、八十个,部件一般要么只能在字首,要么只能在字中,要么只能在字尾。每个汉字的部件数一般不宜超过三个,出现在字首的汉字部件应当组字频率极高,个数应当与西文字母数接近,即为26个左右,大部分在字首的汉字部件只能在字首,但也可允许少数部件出现在其它位置。出现在字中或字尾的部件的个数也应当在三十个左右,且部件间应当尽量不相交。如此则汉字输入大为方便,甚至无重码。本发明重码少,但也不是没有,原因就在于汉字部首往往集中于字首。
权利要求
1.一种五笔八部输入法,其特征是(一)、优选汉字部件进行编码(1)选用汉字的五种单笔画部件即五种基本笔画横(一)、竖(丨)、撇(丿)、点(、)、折(乙)分别用1、2、3、4、5作为其代码;(2)选用五个组字频率高的汉字部件木、扌、氵、艹、方框口分别用6、7、8、9、0作代码,八含人;(3)再选用三个组字频率高的汉字部件二、十、八分别用6、7、8作代码;(二)、单字取码规则有三套,可任选一套取码规则第一套单字取码规则是合体字的第一部按笔顺取前二个部件编码,第二部按笔顺取前一个部件和最末一个部件编码,但第一部只有一个部件的话就取一个部件,只取一码,这时第二部就可按笔顺最多取前三个部件,最多取三码,当然也可规定第二部仍然只能取二码;当第二部不足规定码长时取完该部的所有部件为止;独体字按笔顺取前三个部件和最末一个部件,共四码,当不足四码时,取完该汉字所有的部件为止;还可规定第一部取一个部件的情况下,第二部按笔顺最多取前二个键和最末一个部件或规定合体字第一部取首尾二个部件,甚至还可规定第二部也取首尾二个部件第二套单字取码规则是汉字的码长最多为5码,合体字的汉字,第一部按笔顺取前二个部件,第二部按笔顺取前二个部件和最末个部件,第一部或第二部不足规定码长时,取完所有的部件为止;独体字的汉字按笔顺取字首的四个部件和字尾的一个部件,不足规定码长时取完所有的部件为止;第三套单字取码规则是汉字码长最多为六码,合体字的第一部按笔顺取前二个部件,第二部按笔顺取前三个部件和位于字尾的最末个部件;第一部只有一个部件,就取一码,这时第二部就可规定按笔顺最多取前四个部件和最末个部件,当然也可不作规定;当第二部不足规定码长时,取完所有的部件为止;当然也可规定第一部取首尾二个部件,第二部取前三个部件和最末个部件,或取前二个部件和末二个部件,独体字按笔顺取前四个部件和字尾的一个部件,当不足五码时,取完所有的部件为止;三套取码规则在编码时均应掌握一个规则,那就是要优先按笔画数多的汉字部件编码。
2.根据权利要求1所述的五笔八部输入法,其特征是对第一套单字取码规则而言,词组的输入规则是二字词各取每个字完整编码的前二码,三字词各取每个字的前一码,当然也可规定取前二个字的第一码,第三个字的前二码,或规定取第一个字的前二码,第二、三个字的前一码;四字及以上词,各取前三个字和最末一个字的前一码,当某个字只能取一码不能取二码时,就取一码,当词组编码时某个字取不足规定码长时,一律重复补上该字的尾码,直到补够为止;第二套单字取码规则的词组输入规则是二字词,第一个字取前二码,第二个字取前三码;三字词,第一、二个字各取前二码,第三个字取前一码;四字以上词,第一、二个字各取前二码,最末一个字取前一码;当词组编码时某个字取不足规定码长时,一律重复补上该字的尾码,直到补够为止;第三套单字取码规则时的词组输入规则是二字词,第一字取前二码,第二字取前四码;三字词,每字各取前二码;四字及以上词,第一、二和最末词各取前二码;当词组编码时某个字取不足规定码长时,一律重复补上该字的尾码,直到补够为止。
3.根据权利要求1所述的五笔八部输入法,其特征是不足规定最多码长时,必须按一个表示选择汉字的键比如“/”键,再按数字键方可挑选汉字上屏,处于最先显示排列的汉字可按另外一个键比如回车键上屏,输入达到规定最多码长,并且有重码时无须按表示选择的键比如“/”,就可直接按数字键挑选汉字上屏,无重码的汉字可直接上屏。
4.根据权利要求1所述的五笔八部输入法,其特征是其实也可用十个字母或别的符号编码,比如用Q、W、E、R、T、Y、U、I、O、P分别代替1、2、3、4、5、6、7、8、9、0十个数字编码。
全文摘要
本发明五笔八部输入法属于电脑汉字编码输入方法,也就是中文输入法。该输入法将汉字分为独体字和合体字分别取码,并优选横、竖、撇、点、折五种基本笔画和“口”、“木”“扌”、“氵”、“艹”、“二”、“十”、“八”和“人”等几个汉字部件进行编码。做到了极简单又快速。可在计算机的数字键上输入汉字,经过移植也可在手机、电话等设备中使用。
文档编号G06F3/023GK101082840SQ20061008760
公开日2007年12月5日 申请日期2006年6月1日 优先权日2006年6月1日
发明者王治阳 申请人:王治阳
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1