字素归类编码法的制作方法

文档序号:6600498阅读:312来源:国知局
专利名称:字素归类编码法的制作方法
技术领域
本发明涉及一种汉字计算机输入编码方法,尤其涉及一种字素归类编码方法。
目前,已存在多种汉字编码方法,但极大多数编码都还在“四键组合”的范围内徘徊,很多编码四键用完后还要选字,使一些字的击键次数多达五键以上。而且,现有的编码中需要记忆的部分都比较多,如首尾码要靠硬记,无规律可循;字型码虽有一定规律,但中介过渡环节较多,仍然很难记忆。汉字是方块字,人们阅读时往往是只“聚焦”于字的整体及结构,不会去注意字的笔画属于哪一种。用笔画来区分字根就要采用区,位计算方法,而所有的区位法都很难记忆。现有的编码不免存在多标准的组码方法,如有的编码就有高频字、键名字、成字字根和四种不同的组码方法同时并用,缺乏一致性。有的编码不用区别码,导致大范围的造字,需要翻页查找;有的用了交叉识别码,但它既要看末笔画属于哪一种,又要看整体字型属于哪一类,两者综合起来得出数字后才能定码,比较繁琐,不易判别。
本发明的目的在于提供一种可克服现有技术缺陷的易于记忆、既简便又无重码的字素归类编码法。
本发明所述的字素归类编码法的技术方案是本编码选用188个字素,不仅包括笔画和偏旁,也包括已经成字但还可以加笔画偏旁再组其他字的字。该188个字素分成两种,一种为“纯字素”,即不能成字的字素,一种为“亦字字素”,它既是字,又可以作为组字的字素,除“亦字字素”中的首字外,其余分别按笔画多少排列。本编码将选用的188个字素按其形体特征分别归入A-Z的26类,即分别对应于计算机输入键盘上A-Z键,各类赋予其专名,用以概括和提示本类众多的字素,其代号字母即为本类所有字素公共的形码,每类包括“纯字字素”0-5个,“亦字字素”1-7个,本编码取码方法是拼合三个字素(一码、二码、末码)组成字码,不足三字素遇重码时加音码。凡在用原形码后遇到重码时,一律加入音码,音码可以连续使用,这里所说的音码专指汉字拼音的首字母。对拼音的首字母是双声母或韵母加头母(包括写时可以省略韵母)的音码,可采用紧缩码,其与键盘的对应关系为ZH-O,CH-I,SH-U,YI-Y,WU-W,YU-V(包括YONG)。
本发明的编码取码原则是1、取大不取小即有大件可取时决不取小件,只在无大件可取时才取小件;2、就后不就前即能就后件组成字素时优先就后件,只在不能就后件的情况下才就前件;3、少分不多分即取分出字素个数少的码。
本发明所述的字素归类编码法具有以下优点一、本编码集中了拼音码、首尾码以及多种字形编码的优点,适当吸收了一些辞书中对笔画偏旁的处理方法,反复揣摩,刻意求精,使汉字编码在总体水平上有所提高,取得了极佳的组合效果。
二、本编码以形为主,音码后缀作为区别码,既简便又无重码。见形即知码,按序即可组码。首先使用形码,但以三个为限,遇重码时则缀上音码,取码方法简便易行,组码方式一成不变,普遍适用,对任何字都可以实现码到字随的目的。
三、本编码自成体系,有一整套特定的组码方法,符合汉字结构规律和人们的认识习惯。字与码的转换一目了然,能够快速作出反应,同时,188个字素按其形体特征归入26类,有统一类名,直接与26个字母对号,类推记忆极为方便,把记忆因素减少到最低限度,且易于触类旁通,可以在较短时间内掌握。
四、本编码采用欲擒故纵手法,对历来人们的重码问题不加回避,而是首先把大量字向一、二码集中,有意让其重码,然后通过加音码,逐步予以离散。这样,三键之后仅剩1068个字(其中一级字只有258个),四键全部解决问题,获得了满意的结果。
五、本编码突破“四键一字”的组合框框,编码极为简短。字码长短是决定输码速度的关键,本编码在这方面取得重大突破。84%以上的字或93%以上的一级字只须三键就可上屏,只有258个一级字(不是高频字)需要动用第四键,较之一般方法每字输码平均减少近一键。
六、本编码以《国家标准信息交换用汉字编码字符集》中的6763个汉字为依据,省去了其中不大使用的43个偏旁,增选了近百个课本用字,共收字6818个,按字素归类方法,把分布在26类中的汉字每类控制在二百个以上至四百个以下,使其比较均匀,有利于离散重码。
七、本编码把所需汉字从“磊(AAA)”到“森(ZZZ)排成了一条各得其所的完整序列,四码这内无一重码,同时没有一字多码现象,也未做容错处理。因此,本编码可以广泛适用于通讯、印刷排版以及作为多种工具书的检索序号等。
八、由于三键位的总容量为26的立方等于17576个,除已占用的5700多字外,还有万余个空位,此外还可向第四键位延伸。这个广阔范围可以用来编定常用词语以及其他字符,进一步提高其输码速度。
表一为本发明的字素归类编码表。
表二为本发明的二形码字中需加音码的一级字表。
表三为本发明的三形码字中需用四键的一级字表以下结合表1-3对本发明的输入方法进行详细说明。
在《字素归类编码表》所列的“亦字字素”中,排在首位的为一码字,即只用一个形码,然后加一空格键成为二键字,二码字有两种一为两字素组合式(形码+形码);另一种是“亦字字素”中排列在第二位及以后的字,都要后缀音码,成为形音组合式的二码字。这两种二码字都须加一空格键成为直接进入三键字(共607个),“亦字字素”中下面带点的字,须加双音码直接进入三键字(不加空格键)。在二码字中有一定数量的重码字(约660余个,其中一级字408个,列在后面的“表二”中),这些字不能加空格键,仍须加音码进入三键以摆脱重码。
为了使初学者在加输音码时不致犹疑,本编码设计了选字办法(选字是电脑的优势,应该扬长避短),在提示行中显示应加音码的字及其音码(不是数字),提示行中每次显示的字一般只有2-5个,无须翻页很快即可选中。如键入H、M两键后提示行显示耐、N宁、T亭、U守。排在首位的无音码,所以如选“耐”字,加一空格键即可;若是其他字,则须键入相应的音码而不用空格键,经过一定时间的熟习,408个需加音码的一级字会逐步掌握,可以直接键入音码。
形码每字最多只能使用三个,按一、二、末三个字素取码,第二个字素与末字素之间的字素一概省略。无论是三个形码或两个形码加一个音码,输入三键后还剩上千个重码字(其中一级字258个,列在后面表三中),如果再加上音码,就不会有一个重码字。但是,第四码用音码的方法只能在通讯和作为检索序号时使用。由于打字时设计了三键一字的固定模式,所以第四键不能再使用音码,而须把需加音码的字按顺序用“1、2、3”三个数字表示,在提示行中显示。重码字每位最多只有四个,其中排在“0”号位置上的字(一般是一极字)一律盲打,直接进行下一个字的输入。只有排在“1、2、3”号位置上的字才需要键入相应的数字码。由于选字量小,一暼即得,基本上不影响输码速度。通过一定时间的操作,258个一级字的第四键位亦可熟练地掌握。
为了调整一级字中的重码字,本编码设计了简码,即把三形码字缩简为二形码字。为了易于记忆,把数量控制在较小的范围之内,简码字共52个,为A、皖、向、释,B项,C懦、愉、怪,D次、况,E陷、F疑,G钱、或,H率,I剧,J股,K岭、峻,L照,N惠、耽、职、鞋、O幕、营,P招、搞、投、提、技、措、择、授,Q跃、践、距、踢、路,R弟,U沿、温、湖、测、浴,V秧、秒、积,W爬、祝,X吧、骂,Y特。
以上字只须输入第一、二两个字素码,略去末字素码,再加上空格键即可。由于本编码没有重字,在赋予这些字简码的同时即取消了它们的繁码。因此,这些简码字必须牢记在心(可联系其偏旁分类助记),以免临时错过而产生误输。
本发明的组码方法如下除《字素归类编码表》中已列的“亦字字素”外,所有其他汉字都必须分拆成相应的字素转换成形码,然后才能拼形组合成为字码。所以,分拆与组合是实际操作中的关键所在。
一分拆1、根据《字素归类编码表》中已列的字素是分拆的依据。小至一个点,大至多笔画的字,都具有同等的字素效力。已列的字素不能再进行分拆,未列的字素或字不论笔画多么简单,一概要进行分拆(如“了”要拆成“乛、丨”)、在按一、二、末字素组码时,第一、二字素之间不能有重复的部分,也不能漏掉较小的部分,同时先用字素码,用完之后才能加音码。
2、原则即前面提过的“取大不取小”和“就后不就前”原则。但这两条原则在个别情况下会有矛盾,如“产”字,按取大不取小应拆成“立、丿”;而按就后不就前,则又应拆成“亠、丷、厂”究竟怎样分拆好?可以由此衍生第三条原则,即“少分不多分”。第一种分拆方法只拆成两个字素,而第二种方法则多出了一个字素。所以按照第三原则,只有第一种分拆方法才是唯一正确的。但须注意如果是同等情况,就仍然适用“就后不就前”这一原则。
3、方法分拆的方法取决于字形的结构。在这里,既要尊重汉字传统的书写习惯(如“从左到右、从上到下、从外到内”等),使约定俗成的东西能够为我所用,又不能被某些并不很规范的习惯(如“笔顺”)所约束。因此,本编码设计的分拆方法只从易于识别和易于掌握这两个基本要求出发,某些地方虽与习惯相悖也在所不顾。
字素构成汉字的形式主要有三种(1)分散。这部分字的字素之间自然分离(其中也有笔画偶乐相靠的),处理比较容易。如“分”,一眼可以看出它包含两个字素,上面的“八”笔画虽不相连,但可以合成一个字素,下面的“刀”是一个字素,按“从上到下”的顺序,拆为“八、刀”即可。但如遇“办”字,就得思索一下,因为“办”的左右两个笔画正好合成一个字素,按“取大不取小”或“少分不多分”的原则,“办”只有两个字素,按“先中间、后两旁”的书写顺序,拆为“力、八”即可。推而广之,凡最末笔画是“丶、 ”的字,还有“丨、乚”的字,都要注意它们的右边(包括隔字素与之对称排列的)有没有相应的“丿”,如果有,则进一步考虑它在第一、二字素中是否已经取过,如未取,则可以与之合并起来成办“八”或“ 、儿”以作为未字素,同样的道理,在遇到“渊”字时,第一字素为“氵”,第二字素为“丿”,但在它的右边隔一字素有与之相应的“丨”,就应该把这个“丨”提前合并成“ ”作为第二字素,而末字素因为“丨”已取过,当然就由“米”来充当。由于分散的字素在约定情况下可以隔字素合并,就产生了组码不合书写习惯的跳跃现象,这种现象在本编码中是比较常见的,适应了反到可以为组码提供许多方便。
(2)连靠。即两个以上的字素互相连靠依附。处理这部分字并不难,因为稍有经验的人都可以看出这部分字中所包含的字素。但问题在每个人眼里所看出的字素未必完全相同。如“主”,可以看成“丶、王”,也可以看成“亠、土”,甚至还可以看成“亠、十、一”,等等。这里就要拿原则来对照,“不能多分”否定了第三种;“优先就后”又否定了第二种,所以,只有第一种分拆才是唯一正确的。又如“川”,虽然只有三个笔画,但分拆的方法可以有多种,拿原则一对照,就不难判断出正确的拆法只有“丿、 ”一种。
(3)交叉。字素互相交叉穿插,甚至套迭在一起,一眼不易看出其中所含的字素。处理这部分字是分拆难点之所在,必须重点对待。分拆这部分字的办法主要有两个,一为“卸出”,一为“断开”。
a、卸出即把一字素从与之相交叉的字素中卸出。如“末”卸出“一”成为“一、木”,“尹”卸出“”成为“ 、,“平”卸出“ ”成为“ㄒ、 ”,“夷”卸出“弓”成为“大、弓”等。
b、断开即把两个(或以上)字素根据需要从中部断开。如“耒”可断作“≠、木”(不作“土、木”),“史”可断作“中、ㄨ”,“事”可断作“十、中、肀”,“曹”可断作“艹、曲、日”等。
“卸出”与“断开”并用,不免会给使用者带来麻烦,遇见既可卸又可断的字,究竟应采用哪一种方法?为了使其易于掌握,本编码特别划出了一个“常断”区域,即约定在“L、N、O、P”四个形码所包含的字素范围内,一般以断为主,除易于卸出和只能卸出的极少数字上,如遇难于分拆的情况,即采取果断措施,先断开再定码,既使是“巴、由”这样简单的字,也一律断为“ ”和“丨、田”,至于“L、N、O、P”以外的范围,一般以卸为主,只有在断开极为方便的时候,才采取断的做法。
此外还有一种字形,在这里称之为“连笔”,“连笔”的特征是两个字素(或一大一小)的笔画连在一起,一定要“断开”才好处理。如“发”断作“丨、丶”,“永”断作“丶、一、水”,“乐”断作“丿、丨、木”等。
总起来说,首先应区别字形结构属于哪一种,是分散、连靠还是交叉?“卸出”与“断开”只能适用于第三种,而“断开”又有一个主要的特定范围,所以不要轻易遇字断开。如“击”很明显是一人连靠字,可以分拆成“≠、凵,而不能硬性断为“土、山”。因为这样“≠”不复存在,“土、山”均不属常断范围。明白了这些道理,掌握本编码的分拆方法就会变得非常容易。
二、组合1、识别应取的形码(1),第一码按前述的原则一般不难识别,但有几种字形需要加以约定。首先是“辶(廴)、乚形,因为它们处于左下角,按“从上到下”的顺序应在后,而按“从左到右”的顺序则应在前。由于“辶”放在后面作末码不利于字的区别(同形码的过多),而“乚”在后面也不大好处理,如“断、世”两字,与其从右到左和从内到外,不如从左到右、从外到内更为顺当。因此,约定“辶(廴)、乚,这两种字形均放在前面充当第一码。其次是“长”,一般讲究笔顺的人都是以“丿”为首笔,也有以“一”为首笔的。由于“一”已与“丨”交叉成“十”,所以特约定以“十、丿、 ”为“长”的编码顺序,这样更符合汉字书写从左到右、从上到下的习惯。最后是首字素后面如果有隔字素与之相对应的字素,只要提前合并处理。(如“胤”字)(2)第二码之后的多余字素虽然将被省略,但它仍作为字素实体存在,“就后不就前”的原则仍然适用。所以,除已与后面字素相交叉的情况外,一般不要轻易占用后面该省略的部分字素。这样约定,为的是尽可能保持同一个字在独立时和作为编旁时的一致性,使取码易于识别。如“尊”分拆为“丷、酉、寸”,在分拆“樽”字时,第二码仍要取“丷”而不能取“ ”。
(3)末码一般在右下角或右、下边,不难识别。但光凭直觉还很不够,这里需要特别提到包围结构,因为汉字对于包围(或半包围)结构的字的书写有一个“从外到内”的习惯,包围圈内的字素才是真正的末码。同时,包围(或半包围)结构常被取作第二码,,那么末码更非圈内字素莫属。为些特别约定当右、下面是全包围或相靠两面以上的半包围结构时,除“皿”(可以直觉判定“一”为末码)和“凵”(可以直觉判定“凵”即末码)两种字形一律取圈内字素作为末码。圈内有多个字素时,以邻近右、下角的一个为准。其次是如前已述的跳跃现象,在前面字素“取大不取小”时已将右、下的“尾部”取去,则无疑要取中间剩下的最后字素作为末码。最后是凡末笔书写的“”,即使其位置在上或在左,也一律取作末码。
2、对少数几种字形的特殊处理(1)左、中、右(或上、中、下)结构而又左右(或上下)同形的如“瑟”、“弱”、“拜”、“辡”、“器”。这些字形约定在组码前先略去其右边部分,这样才有可能使处于中部的不同字素充当第二码或末码,以免造成不必要的重码。
(2)结构已形成固定框架的如“衍”(不包括“行”字),“毂”、“微”、“赢”。之些字形也约定在组码前先略去其右边部分。
(3)上、中、下结构中上、下可以合并的只在“衰”形。约定把它上、下合成一个字素,同时作为第一码。(但“黄”不能把上、下合并成“共”,因为没有同类字)此外需要说明的是,“子”是纯字素,只能作为“子”的左偏旁使用,不同于单字“子”。如需用“子”字,则要分拆笔画成为字素再重组。


表二A 皇入厌乌厄矿确眉币帛矽魄泵泉壬B 百三正下亏玛斑玫于开弄瑰灭天环C 业恨状轨忙轧忧衔归旧斩忻徘辅贞徒妆衍怀D 产迫良翌冯近帝冲衷辛翟逐达头迷哀垦亲E 了刃限闯刁阴阳射闽陡闪驭驮召F 访比忌讥诅盲旭订讨诽G 铂式戌戍铱钠钥针锥H 兰震卞亦毫苍斋亢亮宜亩宁亭守市宇风耍玄凤谊关灾吝I 虏卫痕勺匀房尼尾虑虎肩疽岛疟甸布雇痒疼尿灰疾屎句启J 舶肋肛肌朋肝肘见脯肉冈肤灵炙央冉K 配鼠匪弛贾岁区弗弘酥粟L 晨旺畏胃冒盯时圃囚图黑困昧M 乒仆伏斥乓位依仿邱仇信优伐亿伫平岳仲仔佯伙仕
N 方帕蚂耶忠孜蛆靳史支取古蚌东O 甘韭裴芳芒悲芯艺节苗茸菲P 拍母扛扯抒韦扎拱护扫折排捕拇贯披隶焦抓扣Q 全赴趾企尽令仑乞越贮午年贪趴赵含余R 差军外丫久农突死冗酋饵蚀争负交姜羔名S 娠狠妨妒妇猾姐狙独姆狈如妹杀T 纺幻组级终U 泊渔汪叉泣沁鸡滑沮酒洒汕泪汀沂洱汁浊淮难汐洋波汝汉圣V 太誊烘炉秉秃租夷春卷香夺季烛奉豢泰秦炎和知W 粕瓜笔当肖祖祈籽祥娄尖否尚尘X 鸣呐叮吊叶啡哺吟只吕呆Y 址垃坊坟寿地堆埔坝圾麦去告圭牡Z 本杠术村样杯注下面带点的字为双音码(或加数字码)字。
表三A 碑碾阜碍甜垂釉B 琶鲸丽鲤C 恤恒卡怔辐轩辆衙径辗惕辊悍卤歧忱衍恍辕恃D 凛凋遏赣戮E 劲恿陪陀阂躯险骆F 顷毖谐谎毯G 钎虱钧钮铅锚H 恋宙孪寂寝朔歉剂弃霄烹豁I 庙痉庇氨氯氮臂
J 肮舷册脖胯K 卿孵臣酿醇崩醛欧L 垂毗晾曙曝冕畔瞅睛诸暑畦墅晰M 两倾袋儡伏侧侩侣N 儒蛊盅帆矗囊翅聂蜗兢O 薛蓟萨葵蕾芭葱擎苟薯菌茵苛茹莎菏P 韧揩拢抛撬擅搐拧掠掘掏掂拘搪攫捻搓拌揍擞捎搅耙Q 刽蹭蹿鸽R 饯颁殃龟曾馒谷馋釜S 娥妊廷狼猩猫T 纤魁绸裸缮绥U 泛沃湃浅涟漳滁柒湛淳淬淳滓滨滋泡浸溺沤泅潞滩浩V 灼炯炬焊颊烯W 觅筒舜祷筹X 啤咖啃咆唬嘿吼嚏啥Y 坤契嘉Z 桓栈榔棋檀棕棚柞梢
权利要求
1.一种字素归类编码法的计算机汉字输入系统,其特征在于1.1、选用188个字素,不仅包括笔画和偏旁,也包括已经成字但还可以加笔画偏旁再组其他字的字。该188个字素分成两种,一种为“纯字素”,即不能成字的字素,一种为“亦字字素”,它既是字,又可以作为组字的字素;1.2、该188个字素按其形体特征分为A-Z26类,分别对应于计算机输入键盘上A-Z键,A键对应“撇”,包括字素丿( )、厂、 、力、厂、石、白;B键对应“横”,包括字素一、二、工、王、辰( )、鱼;C键对应“竖”,包括字素丨 、车、卜、彳、止、爿( )、D键对应“点捺”,包括字素、 之(辶)、犬、衣、艮、羽;E键对应“左折”,包括字素 、门、刀、马、方、予、身;F键对应“右折”,包括字素 、己、七( )、九、亡、尤(尢)、毛、瓦;G键对应“提斜钩”、包括字素 、钅、 、心( 弋( )、戈、氏、戊;H键对应“正盖”,包括字素 、亠、 、而、雨;I键对应“偏盖”,包括字素 ;J键对应“上框、右框”,包括字素冂 、舟、角、骨;K键对应“下框,左框”,包括字素凵、匚 、臼、西、曲、酉、齿;L键对应“全框”,包括字素口、 、日、目、田、四;M键对应“J”形,包括字素亻、斤、丁、寸、片、丘;N键对应“十、中”表,包括字素中、十、子( )、巾、耳、虫、草;O键对应“艹、中”形形,包括字素艹(廾)、也、儿、北、非;P键对应“≠”形,包括字素 、母、甫、佳;Q键对应“人”形,包括字素 、走、人、今、贝、尺、足;R键对应“ 、八”形,包括字素 、夕、歹、六、穴、羊( );S形对就“X”形,包括字素 、廴、犭、女、及(艮)、皮、冬( );T键对应于“ ”形,包括字素 乡、幺( )、鬼;U键对应“水、又”形,包括字素氵、水( )、又、 ;V键对应“大”形,包括字素、 、火(灬)、大、夫、矢、禾;W键对应“小”形,包括字素礻、 不、小()、个( )、爪(爫、 )、米;X键对应“口”形,包括字素口;Y键对应于“土”形,包括字素丰()、土(耂)、牛();Z键对应“木”形,包括字素木、未、束;1.3、输入汉字时拼合三个字素(一码、二码、末码)即组成字码,即键入三个字素所对应的键即可,当不足三字素遇重码时键入音码。
2.根据权利要求所述的字素归类编码法的计算机汉字输入系统,其特征在于输入汉字时的取码原则是取大不取小原则,即有大件可取时不取小件,只在无大件可取时才取小件;就后不就前原则,即能就后件组成字素时优先就后件,只在不能就前件时才就前件;少分不多分原则,即取分出字素个数少的码。
3.根据权利要求1或2所述的字素归类编码法的计算机汉字输入系统,其特征在于音码可采用紧缩码,其与键盘的对应关系为ZH-O,CH-I,SH-U,YI-Y,WU-W,YU-V(包括YONG)。
4.根据权利要求1或2所述的字素归类编码法计算机汉字输入系统,其特征在于设有皖、向、释、项、儒、愉、怪、次、况、陷、疑、钱、或、率、剧、股、岭、峻、照、惠、耽、职、鞋、幕、营、招、搞、投、提、技、措、择、授、跃、践、距、踢、路、弟、沿、温、湖、测、浴、秧、秒、积、爬、祝、吧、骂、特等52个简码字,只须输入第一、二两个字素码,再键入空格键即可。
5.根据权利要求3所述的字素归类编码法计算机汉字输入系统,其特征在于设有皖、向、释、项、懦、愉、怪、次、况、陷、疑、钱、或、率、剧、股、岭、峻、照、惠、耽、职、鞋、幕、营、招、搞、投、提、技、措、择、授、跃、践、距、踢、路、弟、沿、温、湖、测、浴、秧、秒、积、爬、祝、吧、骂、特等52个简码字,只须输入第一、二两个字素码,再键入空格键即可。
全文摘要
一种字素归类编码法,它将188个“纯字素”和“亦字字素”按形体特征分成26类,分别对应计算机的A-Z键,其输入法为键入其一码、二码、末码对应的键,不足三个字素码遇重码时加音码。本编码法的计算机输入还有其音码的紧缩码及简码字的输入法。本编码法突破了“四键一字”的组合框框,编码极短,平均只需键入三键即可,同时具有易于记忆组码方法简明、单一。用音码作区别码既简便又无重码的优点。
文档编号G06F3/023GK1108404SQ9411858
公开日1995年9月13日 申请日期1994年12月3日 优先权日1994年12月3日
发明者李硕茂 申请人:李硕茂
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1