三五形码的制作方法

文档序号:6594671阅读:312来源:国知局
专利名称:三五形码的制作方法
技术领域
本发明属于电脑汉字编码方法。且属于纯形码。纯形码在听打、想打时不甚方便,但它有个优点,那就是不认识的汉字也能迅速输入,特别适合不认识汉字或拼音不准的人使用。因本发明将汉字分为单体字、合体字的第一部分、第二部分这三块,且按横竖撇捺折五种基本笔画编码,所以称为三五形码。
本人在三五字码的专利申请中,也将汉字分为三块,对每块以每三笔编码。当单体字以每三笔编码,不足四码还要回头对头几笔根据五种基本笔画的相交情况逐笔编码。对合体字的第一部分、第二部分也分别按书写顺序以每三笔编码,合体字的第一部分一般最多取二码,在第二部分只有一码的情况下,也允许取三码,相应地第二部分要取一至三码,总共不超过四码。若不足四码,一般要对第二部分补识别码,但第一部分为二码且第二部分为一码时要对第一部分补识别码。
对于识别码,我考虑过将笔画与字型结合用一个字符编码,有的输入法就这么做,但用户普遍反映难学,不利于头脑反应。也考虑过用拼音首字母作识别码,可这样一来要求用户掌握拼音,对于懂拼音的人来说,使用三五音码更佳,所以也不妥。于是想到了将合体字分为左右、上下、包围(包括镶嵌)三类字型,用三个优选的符号表示或者再补上笔画的识别方式。其优点是将汉字的整体结构与笔画分开编码,易学好用。接下来选哪一笔作识别码又成了难题,若选取末笔,由于末笔为捺、横的频率比竖、撇、折高的多,显然不利于识别;若选取首笔,由于汉字部首基本上在字首,不象它统辖的部分那样千姿百态,似乎也不利于识别;若选取被统辖那部分的首笔即按书写顺序的第一笔则横竖撇捺折的频率大致均匀,有利识别,难题迎刃而解。可将笔画归类又成了问题,若归类为横竖斜,由于笔画不能精确定位,会影响识别效果;若将横竖撇捺折里的折细分为左折、右折、复折,占用的键位又过多;相比之下,归类为横竖撇捺折比较合理。那要不要考虑横竖撇捺折与其它笔画的空间位置关系呢?这就要涉及到组字部件的优选问题,若选取组字部件众多,显然无须考虑二个笔画分布关系,但在组字部件较少的情况下就不能不考虑笔画间的空间关系了,特别要考虑相交情况,不然一些笔顺相同的组字部件无法区分。比如“十”与“丁”,“力”与“刀”与“乃”,“匕”与“几”与“九”与“儿”等,这样至少要10个字符编码。有的用横竖撇捺折25种二二组合编码的输入法不考虑相交与否,失败了。可如何将其整齐有序排在键上又成了难题。并且即使排上去,将横竖斜与横竖撇捺折夹杂使用也可能会影响头脑反应。这使我决心发明出一种简单、低重码、只用五种基本笔画编码的输入法来,受三五字码的启发我做到了这点。
目前市场上用横竖撇捺折25种二二组合编码的输入法存在以下几种缺陷有的组字部件过多,令人望而生畏;有的刻意采用几个组字部件,重码居高不下,于是还有的输入法将汉字切豆腐干一样再切成几块,重码会有所降低,可切分时产生歧义,实际上比上百个组字部件的输入法更难学。
这样有的用横竖撇捺折25种二二组合的输入法都未能通时克服二种缺陷或规则繁杂,难学难记难用;或输入国标6763个汉字时,静态重码率过高,输速难以提高;本发明的目的是是提供一种简单易学易用,静态重码率低的电脑汉字编码方法三五形码。一般人只要懂得最基本的书写顺序花20分钟左右的时间即可学会并且还具有键位少、码长短、重码率低、高速盲打输入的突出优点。使汉字输入真正走向了国际化。
为达到三五形码的目的,本发明将汉字分为独体字、合体字二类,合体字又按整体结构分为二部分,先写部分为第一部分,后写部分为第二部分。
在将汉字的各种笔画归类为横竖撇捺折五种基本笔画后,在任意二个依次出现的笔画中,横竖撇捺折的二二组合不外乎25种,可一一对应或大致一一对应地排在25个或不足25个互不相同的字母或别的符号键上。由于没有使用拼音,一般不宜排在标点符号键上,要一一对应排在25个字母键上,根据这二笔的横或竖或撇或捺或折的二二组合情况用对应的字母编码。考虑到指法规则和记忆方便按区位排列,分为横区、竖区、撇区、捺区、折区5区,每区又分为5位即横位、竖位、撇位、捺位、折位。横区中的每个键都以横笔开始,第二笔横位、竖位、撇位、捺位、折位可自左向右依次排列,也可自右向左依次排列,还可自键盘中间向两端依次排列,在实施例中采用自中间向两端依次排列的方式;竖区中的每个键都以竖笔开始,第二笔横竖撇捺折自键盘中间向二端依次排列,称为横位、竖位、撇位、捺位、折位。其余依此类推。根据组字频率,约定横、竖、撇、捺、折的代号分别为1、2、3、4、5。由于本输入法选用了较少的组字部件,所以单个笔画横竖撇捺折最好根据其与其它笔相交与否编码,与其它笔画不交、相交的横竖撇捺折在键盘上一种易记且有利于降低重码的方法是将横、竖、撇、捺、折按所在区排列,即区号不变,不交的位号约定为1,相交的为2,在实施例中就选用这种方式。这样不与横、竖、撇、捺、折就分别排在横横、竖横、撇横、捺横、折横上;与横、竖、撇、捺、折就分别排在横竖、竖竖、撇竖、捺竖、折竖上。当然位号也可约定为其它二个笔画的不同的代号。其实质是将相交或不交转换成基本笔画中的其中二笔,再与基本笔画连接组合编码。顺便指出以后讲对单个笔画编码均指按单个笔画横竖撇捺折与其它笔画的相交与否编码。
接着对独体字、合体字的第一部分及第二部分分别按书写顺序以主要以每二笔编码,当取至最后还剩一笔时按单个笔画编码规则编码。当取到规定的码长,还有剩下的笔画时,可舍弃余下的笔画也可将最后一码改取末二笔,在实施例中约定改取末二笔。
当独体字按上述规则编码,不足四码时,还要回头按书写顺序逐笔编码,达到四笔或取完所有的笔画为止,这是个非常有利于降低重码的方法。
合体字的第一部分、第二部分至少各取一码,总共不超过四码,一般第一部分最多取二码,但当第二部分只有一码时,第一部分也可最多取三码,当第一部分取一码时第二部分尽量取三码,当第一部分取二码时,第二部分尽量取二码,即能取完二码就取完二码。
这条规定码长的规则来自三五字码,也是三五形码能做到既简单又重码率低的关键所在。是本人对汉字长达8年研究后的结晶。
汉字的特点大部分组字频率高的部首都位于字首,也少数组字频率高的部首位于字尾,这些部首辖管着千姿百态的剩下部分,这些剩下部分或为独体字或为几个独体字拼合或本身也是合体字。我作过统计,国标6763个汉字中有近50个2笔以上的部首统辖着25个以上的剩下部分;有30余个部首统辖着55个以上的剩下部分;有20余个部首统辖着85个余下部分;有几个部首甚至统辖着250个剩下部分。如果将这20余个高频的部首取二码或将其中的任意二个合并排在键上一般都会造成大量的重码,有的输入法为求“有序”,无视这一规律,所以失败了。一个好的输入法应当保证这20来个组字部件排在不同的键上,三五形码就做到了这点。那么余下统辖55个以上的剩下部分的10来个部首取二码还是取一码,若取一码又该如何排列呢?回答是视降低重码而定。有的取二码,有的取一码。还有20来个统辖25个以上的部首若按笔画取二码则其部首编码能基本唯一,其所辖剩下部分数量又不多,再取二码区分重码已足够。若取一码要将其作为组字部件优选出来排在键上才能较好区分重码,这会不利记忆,区分重码能力也不如规定取二码,所以应当取二码。有少数部首如阝、辶、刂、心出现在字尾,组字频率又高,应当规定其统辖那部分可取三码,以降低重码。由于这些部首或处于字首或处于字尾并且与被统辖那部分具有明显的间隙,一分为二合体字后正好处于字首或字尾,所以要分别对合体字的第一部分、第二部分码长作那样的规定。如果规定第一部分一律取一码比如取首尾或首次二笔,会增加不少重码,如果规定统统取二码也会增添重码。
应当如何使前述20多个组字频率高的部首只取一码并分散在不同的键上,以扩大编码空间,降低重码呢?一个很容易想到的办法是将其抽出排在不同的键上。另一个不容易想到的方法是规定3笔或4笔的部首只取首次或首末二笔,比如规定第一部分只有三笔时取首尾二笔,这样就可减少组字部件在键盘上的数量,但增添了例外的规则,因而在实施例中不作这一例外的规定。
有的笔画在3笔及以上的部首不仅在字首频频出现,在字中或字尾也出现频繁,这样部首必须取出用一个符号编码。
汉字还有一个特点,那就是撇捺在字尾极为常见,为降低重码,应当将其取出,以最大限度地降低重码。这样八、人、乂、大、 小这些惯常出现在字尾末二笔为撇捺的组字部件一般就被取出排在键上。其它个别在字中在字尾出现频繁或笔画数较多的组字部件也被取出排在键上。
从符合认识汉字,发挥汉字的视觉效应,降低重码,同时又确保易记出发,有的基本组字部件还可包含若干同类组字部件,这些同类组字部件与基本组字部件要么互为繁简,要么互相同源,要么音或形或义相近,主要为形体直观相似。所说的形体直观相似,最好仅有个别笔画差异,或归类笔画完全相同,只是形体不同,即仅仅笔顺或具体笔画或其空间组合不同。
有的输入法玩弄概念游戏,将基本组字部件与同类组字部件合称码元,以示与部件的区别,其实大多数输入法里的组字部件都会包含一些与其形似的小兄弟,并非什么创新。
从便于拆分出发,只有二笔的组字部件若被选出来排在键上,最好优选那种不会与其它笔画相交的组字部件,以免拆分时产生歧义。这一规定对选取三笔及以上的组字部件也有借鉴意义。
在对二笔编码时,若二笔都遇到组字部件,要改按组字部件编码,若只有一笔遇到组字部件,则可将没遇到的笔画与组字部件分开编码,也可同时取二笔和组字部件的编码,笔画与组字部件二者谁在先,谁的编码就在先。在实施例中约定将没遇到的笔画与组字部件分开编码。再对后面的部分编码。
这样基本组字部件只要30个左右,其余用横竖撇捺折的25种二二组合编码就可使重码率低,由于组字部件数与某种西文字母数相当,因而又简单易学。这就克服了其他人未能同时克服的二大缺陷,做到了既简单又低重码。也就是说组字部件虽可多可少,比如可为0个至100个,比如为10个、20个、30个、40个、50个、60个70个、80个、90个、但最好为二、三十个左右,与某种西文字母数(24~33)个接近。
有的汉字所含组字部件相同,但部件间的位置关系不同即字型不同,就成了不同的汉字,如“叭”与“只”。为区分这些字的编码就引入了识别码,其方法前面已述,这里再作一下改进。独体字不必加识别码,其实回头逐笔取码其实质也是一种识别码。合体字中左右结构的汉字几乎比上下结构多一倍多,上下结构又比包围结构多一些。在编码实例中,根据排除法,左右结构的汉字就不需要补结构代码,顺便指出,这一方法同样适用于将笔画与结构结合编码的识别码。上下、包围结构应当补上结构代码,对上下、包围结构分别用二个优选的符号编码,至于笔画,三种结构都要补上,最好取合体字的第二部分的首笔,但当第一部分为二码第二部分为一码时要补上第一部分的首笔。在实施例中就选用这种识别方式,并约定结构的编码在先。
这样通过对合体字码长的规定,集约优化优选组字部件、笔画、字型就既简单易学又高输输入。
其实对独体字、合体字的第一部分、第二部分还可以按书写顺序以每三笔编码,在任意三笔中不变位置地抽出二笔,对三笔根据这二笔横竖撇捺折的25种二二组合情况编码即可。其余类推。
下面结合优选的实施例作详细说明。
本发明对汉字笔画、组字部件的认识完全科学。笔画为书写汉字时不断地一次写成的一个线条。组字部件为可以组成汉字的笔画结构。在只考虑笔画的运笔方向,而不计其轻重长短时,可归类为横竖撇捺折五种基本笔画。“木”字按书写顺序其四笔依次为横、竖、撇、捺,另外提可视为横,左竖钩视为竖,点视为捺,其余的笔画就是折,其特点是都带转折。这种笔画归类符合国家语委的规定。
汉字按其整体结构可分为独体字和合体字二类。
独体字指笔画离散对称或粘连相交的汉字,没有左右、上下、包围(镶嵌)结构。下面就如何判断独体字提供一些诀窍,笔画离散对称的为独体字,如“八”“三”等字。一笔贯中的也是独体字,如“中”“母”等字,另外单独的点撇笔不能拆出,如“太”字中的点不能拆出,“么”字中的撇不能拆出。有的笔画若离若连,如“兴”“只”,那如何判断其离连呢?方法是一个没有一端被封住的横笔其上面或下面的笔画离散的话就视为相连,否则视为相离,这样“只”为上下结构,“兴”为独体字。
合体字是左右、上下、包围结构,可在左与右、上与下、包围与被包围交界处一分为二的汉字,它可以拆分。对合体字一分为二可据理拆分即在形声字处拆、部首不要拆。也可按结构拆分,根据汉字的整体结构,在最初产生间隙处将其一分为二,包含汉字头一笔的就为第一部分。另一部分就为第二部分。
接着将横竖撇捺折的25种二二组合按前述方法排在标准英文键盘上,A~G排横区,H~M排竖区,T~Q排撇区,Y~P排捺区,N~X排折区。金含钅,排在Q上;亻排在W上;月、几排在E上,几含九、乃(都为复折与撇交连);手含扌、干、 排在R上;竹排在T上;讠、辶排在Y上,讠含言;疒、 排在U上;氵,小含排在I上;火含灬排在O;虫、乂排在P上;艹排在A上;土含士,排在S上;木、八排在D上;纟含糹、幺、 排在F上;王含,排在G上;目排在H上;日排在J上,日含申;口含囗,排在K上,足排在L上;山、贝排在M上;忄含心、,己含尸、巳,排在N上;女排在V上,禾排在C上;大,石含古,排在X上。见图1,该图即优化三五形码键盘排列图。
在本实施例中为记忆方便,还将组字部件基本上按首笔排列,少数按末笔排列,也有的为降低重码无理排列。接着编码。规则是(1)对独体字按书写顺序以每二笔编码,当取至最后不足一笔时对单个笔画根据其相交与否编码。当不足四码时,还要回到字首按书写顺序逐笔编码,达到四码为止,若取完所有的笔画仍不足四码那就不必再编码了,补上空格键结尾即可。当按每二笔编码,码长要超过四码时,最后一码改取末二笔。
(2)对合体字的第一部分、第二部分分别按书写顺序以每二笔编码,当取至最后只有一笔时对单个笔画根据其相交与否编码。当要超过第一部分或第二部分规定的最多码长时,最后一码要改取第一部分或第二部分的末二笔。其中第一部分、第二部分的码长前面已作规定,不再赘述。
(3)对独体字或合体字以每二笔编码时,若有一笔或二笔遇到排在键上的组字部件,其取码规则前文也已作规定,不再赘述。
(4)按上述规则对合体字编码不足四码时还要补上识别码,识别码由结构编码和笔画编码构成,结构编码可用优选的字母或别的符号表示,在本实施例中上下或包围结构分别用逗号“,”或句号“.”表示,笔画取合体字中需要加识别码部分的首笔,根据其相交与否编码,即一般加第二部分的首笔,但当第一部分有二码且第二部分为一码时要加第一部分的首笔。另外,左右结构的合体字按上述规则编码时还可规定还要加识别码部分的第二笔。本实施例不作这样的规定。仍不足四码,补空格键。
以独体字“夫”为例,按书写顺序以每二笔编码时第二笔遇到组字部件“大”,只好将第一笔交横与“大”分开编码。交横在先,应先编码,其编码为F,组字部件“大”的编码为Z,只有二码再回头补第一二笔,编码为FF,这样“夫”的编码就为FZFF。又如“一”的编码,只有一笔编码为G,再回头补上一笔,编码为G。“一”的全码就为GG。以合体字“恒”为例,它的第一部分按书写顺序以每二笔编码时遇到忄,编码为N,其后没有笔画了,就不要编码了,第二部分按书写顺序以每二笔编码时,第二笔遇到日,只好先取第一笔横的编码G,再对“日”编码,为J,“日”后为不交的横,编码为G,这样“恒”的编码为NGJG。
又如“列”字,第一部分为首二笔为横撇,编码为D,末二笔为折点,编码为C,第二部分为竖竖,编码为J,左右结构无须加结构编码,按规定要补上第一部分的首笔,为不交的横,编码为G,列的编码就为DCJG。又如“艽”字,它没加识别码以前编码为AE,上下结构,结构编码为“,”,再补上第二部分的首笔,为交撇,编码为R,“艽”的编码就为AE,R。“裎”字第一部分前二笔为点折,编码为P,因要超过二码改取末二笔,为撇点,编码为W,第二部分编码为KG,“裎”的编码就为PWKG。
为减少击键次数,提高输入速度,还设置了一、二、三级简码和词组输入法,一些常用的字,除了可以按其全码输入外,还可以只取其前一、二、三码,再加空格键输入,这就是一、二、三级简码。
对词组编码时,不管多长的词语,一律不超过四码,且“字词兼容”,不用进行换挡或其它附加操作。其取码方法为1.两字词每字取其全码的前两码组成,共四码。经济的经前二码为为FC,济的前二码为IY,经济的编码就为FCIY。2.三字词前两字各取一码,最后一字取两码,共四码。在本实施例中,规定如此。当然也可规定前一字取二码,末二字各取一码。还可规定每字各取一码。计算机的计前一码为Y,算的前一码T,机的前二码为DE,计算机的编码就为YTDE。3.四字及以上的词取第一、二、三及末一个汉字的第一码,共四码。如“三五形码”中的每个字的第一码依次为G、F、G、Z,其编码就为GFGZ。中华人民共和国中的第一码为K,华的第一码W,人的第一码为W,国的第一码为K,编码就为KWWK。
本发明可适用于一切巨、大、中、小、微型计算机中文信息系统中,可以在手机、机顶盒、掌上电脑、信息家电等能用中文输入法的一切光电子产品中获得广泛的应用。能应用于中文打字、中文电传、排版印刷等各个方面。
本发明可以对繁体字的编码,也可以对日文汉字、韩文汉字编码。Z键为万能查询键,当某一码难以确定时可用Z键代替查询。达到四码无重码自动上屏,不足四码补空格键结尾。有重码的用数字键选择。
不难看出,三五型码具有简单客观,一般人只要懂得最基本得书写顺序20分钟左右即可学会。码长短,键位少,重码率又低,拆分也十分方便,不易产生歧异。使汉字输入可望在全世界得到普及。


图1、为优化三五形码键盘排列中1、2、3、4、5分别指代横、竖、撇、捺、折
权利要求
1.一种三五形码,在将汉字的各种笔画归类为横竖撇捺折五种基本笔画后,在任意二个依次出现的笔画中,横竖撇捺折的二二组合不外乎25种,可一一对应或大致一一对应地排在25个或不足25个互不相同的字母或别的符号键上,一般一一对应排在25个字母键上,对这二笔根据其横或竖或撇或捺或折的二二组合情况用对应的字母编码,排列时最好按区位排列,又将合体字按结构一分为二,并按书写先后,分为第一部分、第二部分,其编码特征是在任意二笔或三笔中不变位置地抽出其中二笔,对二笔或三笔只要按抽出的二笔的横或竖或撇或捺或折的二二组合情况以对应的字母或符号编码,接着按书写顺序对独体字、合体字的第一部分及第二部分分别主要以每二笔或每三笔编码,并对独体字、合体字的第一部分、第二部分这三块各自的码长作了优化规定,还可将优选的笔画或组字部件或字型集约优化在其上。
2.根据权利要求1所述的三五形码,其特征是合体字的第一部分、第二部分至少各取一码,总共不超过四码,一般第一部分最多取二码,但当第二部分只有一码时,第一部分也可最多取三码,当第一部分取一码时第二部分尽量取三码,当第一部分取二码时,第二部分尽量取二码。
3.根据权利要求1或2所述的三五形码,其特征是按书写顺序对独体字或合体字的第一部分及第二部分分别主要按书写顺序以每二笔时,若达到各自规定的码长,却还有剩下的笔画,可舍弃余下的笔画,也可改取末二笔。
4.根据权利要求1所述的三五形码,其特征是将20多个组字频率高的部首或另外几个惯常出现在字尾末二笔为撇捺的组字部件一般被取出排在键,只取一码,少数惯常出现在字中或字尾组字频率较高或笔画数多的组字部件也可取出,排在键上只取一码。
5.根据权利要求1所述的三五形码,其特征是有的基本组字部件还可包含若干与它要么互为繁简,要么互相同源,要么音或形或义相近,主要为形体直观相似,所说的形体直观相似,最好仅有个别笔画差异,或归类笔画完全相同,只是形体不同的同类组字部件,
6.根据权利要求1所述的三五形码,其特征是在对二笔编码时,若二笔都遇到组字部件,要改按组字部件编码,若只有一笔遇到组字部件,则可将没遇到的笔画与组字部件分开编码,也可同时取二笔和组字部件的编码,笔画与组字部件二者谁在先,谁的编码就在先。
7.根据权利要求1或2或4或5或6所述的三五形码,其特征是合体字的识别码由其表示结构的编码和优选的单个笔画的编码组成,一般选合体字的第二部分的首笔,但当第一部分为二码,第二部分为一码时要补上第一部分的首笔,其中左右结构的不必加结构编码也行。
8.根据权利要求1或2或4或5或6所述的三五形码,其特征是对单个基本笔画编码时,最好根据其相交与否编码。
9.根据权利要求1或2或4或5或6所述的三五形码,其特征是合体字的识别码由表示结构的编码和优选的单个笔画的编码组成,一般选合体字的第二部分的首笔,但当第一部分为二码,第二部分为一码时要补上第一部分的首笔,其中左右结构的不必加结构编码也行。
10.根据权利要求1或2或4或5或6所述的三五形码,其特征是对独体字编码时,若不足四码。要回到字首按书写顺序逐笔取码,达到四码或取完改汉字的所有笔画为止。
全文摘要
本发明三五形码属于电脑汉字编码方法,通对对合体字的第一部分、第二部分的码长作优化规定,再按书写顺序主要以每二笔编码,并优选组字部件、字型,使得一般人20分钟左右可学会,并且还具有码长短,重码率很低,高速盲打输入突出优点。
文档编号G06F3/023GK1487395SQ02144140
公开日2004年4月7日 申请日期2002年10月5日 优先权日2002年10月5日
发明者王治阳 申请人:王治阳
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1