佳法码的制作方法

文档序号:6592893阅读:713来源:国知局
专利名称:佳法码的制作方法
《佳法码》是一种数字CKE(汉字键盘输入)编码技术,它属于计算技术领域内的中文信息处理技术范畴。随着信息技术的发展,人们迫切要求能在掌上电脑、PDA、移动电话、双向BP机、其它手持终端和电子读物设备上简易快速地输入中文信息,原来在QWERTY键盘上使用的中文输入方法已不太适用了,而必须采用更小地键盘和更先进的CKE技术才行。早在1880年,清朝开办电报业务时使用的电报码就是数字编码,王云五先生发明的用于汉字检索的“四角号码”也是数字编码,李金铠先生发明的“长城笔形输入法”、萧水清的“无理序号数字编码法”、黄金富的“唯物汉字输入法”都是数字编码,但由于他们都未形成完善的汉字编码理论,导致码长不合理或重码严重或违犯传统拆字习惯(放弃了笔顺),从而未能得到广泛推广应用。近两年出现的数字编码“笔顺码”和“九方中文输入法”,前者号称输入规则只有一条(每字编码为六码前三码按笔顺取码,后三码倒过来从该字的末笔开始按笔顺取码),但实际上起码需要六条以上,造成规则不严紧、不符合传统书写习惯、“折”笔画安置在两个数字键上和字词码长不合理现象;后者声称三分钟便能学会,而实际上一般人自学一小时还不知所云,原因是要记256个部件且要记住各部件分配在哪个键上,甚至还要记住九个方位上各属于哪个特征,每字平均击键次数多于七次以上,有些字多达几十次;从而这两个方案都不是高效的,难以推广。目前,数字编码技术应用在移动电话上的有摩托罗拉的C7D928+、三菱的30C、阿尔卡特的HD8,它们均未考虑汉字结构且每字平均击键次数多于六次以上以及未考虑二万多个汉字的编码,造成使用中的诸多不便,从而实用性有欠缺。
为了寻求一种令人满意的“易学、好用、高效”的能使用于诸如电脑、PDA、移动电话、双向BP机、电子辞典、电子翻译器、电子记事本、信息家电、其它手持终端等微型设备中需容纳二万多个汉字的数字编码技术,我们从1989年开始就研究汉字数字编码技术,历经十年研制成能使百姓乐于接受的《佳法码》。
一、编码原理
通过对数万个汉字的分析研究后,我们发现,在GB13000.1-93汉字集或ISO IEC 10646汉字集中,每个汉字平均拥有12.75个笔画,这说明纯粹用十个数字键以笔画为单位按笔顺去实现汉字编码输入是不可取的,只有另劈蹊径才能找到最佳的汉字编码输入技术。如果我们不单纯用笔画,而是改用两个笔画的组合去实现汉字编码输入的话,那么每个汉字平均需击键6次多;这也许是目前市面上的数字汉字键盘编码输入法都在6次以上的原因之一。由于我们面对的不只是两万多个汉字的编码输入,而是甚至要扩充到全部汉字的编码输入,为此必须再想办法来减少每个汉字的平均击键次数,佳法码做到了每个汉字的平均击键次数是27484个汉字时为4.56; 3755个一级汉字时为4.35。根据对GB13000.1-93汉字集中汉字起始笔画的统计,得到下面结果。以两个笔画的组合来安排数字键,并以汉字的嵌套结构理论为依据以及书写汉字的习惯来制订编码输入规则,达到“易学、好用、高效”的境界。
汉字是由字素按嵌套式结构组合而成的有序集合。汉字可分为单块字和多块字两大类。所谓单块字是指从书写汉字的起笔开始.沿字的水平方向往前,从上往下看,凡是不能够无阻碍地左右自然分开的宇,这些宇都叫单块字。单块字主要分布在以‘广、艹、
疒、厂、冖、宀、门、户、尸、冂、灬、辶、
气、髟’等为主要部首的汉字中。约占整个CJK汉字集的15%;从书写汉字的起笔开始,沿字的水平方向往前。从上往下看,凡是能够无阻碍地左右自然分开的字(或字层)叫多块字(或‘字片’).在多块字中,最左边的叫“首字块”。紧接着“首字块”的是“次字块”,最右边是“末字块”.多块字主要分布在带偏傍(如‘口、氵、扌、土、木’)的汉字中。它们约占整个CJK汉字集的85%。
在每个字块内,沿字的垂直方向往下横看(从左往右或从右往左),凡是能够无阻碍地上下自然分开的部分称为字层,最上边一层叫“首字层”(如“艹、
宀、
),紧接着“首字层”的是“次字层”。最下边一层为“末字层”(如“手、辶、廴、心、灬”)。每个字层由1至4个字片组成.每个字片由1至5个字素组成。
字素指的是经过对汉字结构进行统计分析后抽选出来的在字内使用频度很高的一些组字元素。字素有时是构成汉字的最基本的笔画,如“ —、︱、ノ、乙、
、”共八类笔画,而每类笔画又可分为好几种(如“折”就有“
、乙”等二十来种);字素有时是由这些笔画组成的常见偏傍部首,如“氵、扌、木、艹”等。而此处的“字素”是《数字汉字键盘编码输入表》中规定的笔硒和偏傍部首的总称,共有六十来个。按照“横1竖2撇3折4点捺5提6”方式把基本字素分别设景在数字键1至6上,并依据模十加法原理把其它字素分配在十个数字键上。每个数字键是其上字素之或,形成一个编码整体单元。例如两‘横’相加(二)便成‘2’;两‘竖’相加便成‘4’;两‘撇’相加
便成‘6’;两‘折’相加
便成‘8’;两‘点’相加
便成‘10’,取以十为底的模后便成了‘0’。这些字素分别设置在数字键2、4、6、8、0上。其它字素所在键位可依此推出.
二、数字汉字键盘编码输入表
“数字汉字键盘编码输入表”的特点之一是,其中有四分之三的字素是有代表性的,这种表示法大大减轻了人们记忆大量字素的负担。如‘七’既表示‘匕’又表示‘化’字中‘七’;又如‘瓦’既表示‘瓦’又表示‘乙’字和所有“折”。
“数字汉字键盘编码输入表”的特点之二是,共有廿来个含空心和虚线的字素(如忄、土、日、火、言),它们在编码中主要作用是用来区分在同一键上不同偏傍部首所含汉字的代码。以离散汉字代码之间的重码.如‘忄’和‘艹’同在数字键‘2’上。如下列“字对”“忆、艺”;“慢、蔓”;“忙、芒”;“忻、芹”等,若不用空心虚线加以区分,便会重码。
“数字汉字键盘编码输入表”的特点之三是,除了少数字素(土、艹、口)而外,其它所有字素均是基于“横1竖2撇3折4点捺5提6”,按模十加法原理设置在数字键上的。如“田”按笔顺“︱、、—、︱、—”拆分便有(2+4+1+2+1=10),其模十运算后便为“0”,故“田”安置在数字键“0”上;又如“凡”按笔顺“ノ、乙、、”拆分便有(3+4+5=12),其模十运算后便为“2”,故“凡”安置在数字键“2”上。
“数字汉字键盘编码输入表”的特点之四是,有多半字素由二个基本笔画组成,且两个笔画字素的构成很有规律性,这有利于人们的记忆。如“7”键上两个笔画构成的字素便是“撇折”和“折撇”组合的结果。
其整个“数字汉字键盘编码输入表”在下图中,也如“说明书附图
”所示。
三、单个汉字的编码规则
对单个汉字编码而言,其总的编码原则是每个汉字最多只选取五个数字码作为该宇的汉字代码。五个数字码可给出111,110个汉字编码。
“首字素”表示以《数字汉字键盘编码输入表》中与所需输入汉字的起笔相同、笔画最多、形状相似的字素为单位,从该字起笔开始按笔顺选取的头一个字素。
“尾字素”表示以《数字汉字键盘编码输入表》中与所需输入汉字的起笔相同、笔画最多、形状相似的字紊为单位,包括该字末笔在内按笔顺选取的最后一个字素。(1)凡是在编码中遇到多于二个字素组成的上部首(
门、
、癶、
)或左偏傍(子、血、身、高、食、片、钅、立、走、
黑、歹、鬼、赤、缶、鬲、酉、瓜、豆、谷、
套、角、毛、牙、齿、
耳、鼻、矛、骨、革、
牛、羊、虫、豸、鼠、魚、马、馬、鸟、鳥、風),则按笔顺选取其头两个字素作代码豸、鼠、魚、马、馬、鸟、鳥、風),则按笔顺选取其头两个字素作代码;(2)在(1)的条件下,不多于五个字素的汉字编码是按笔顺进行,当取完某字的所有笔画还不足五码时,则应以回车键作结束码;如
(3)在(1)的条件下,多于五个字素的汉字编码是
其中,①“首四尾一”表示以《数字汉字键盘编码输入表》中与所需输入汉字的起笔相同、笔画最多、形状相似的字素为单位,从该字的起笔开始按笔顺(或单块字首字层后不多于二个字素时按“取大优先”原则)选取头四个字素代码作前四个码,以尾字素代码作第五码。
②“首三尾二”表示以《数字汉字键盘编码输入表》中与所需输入汉字的起笔相同、笔画最多、形状相似的字素为单位,从该字起笔开始按笔顺原则选取头三个字素。并从首字块(或层)后字素中选取其头、尾字素作该字的最末两个代码。
③“首二中二尾一”表示以《数字汉字键盘编码输入表》中与所需输入汉字的起笔相同、笔画最多、形状相似的字素为单位,从该字的起笔开始按笔顺选取头二个字素,接着从次字块(层)起笔开始按笔顺选取其头二个字素,以尾字素代码作第五码。例子如下表所示
(4)有三个例外
①“土、炊”为首字素时,不必用空心所形成的字素形状去补码;如地3424榮8897。
②无论是字素内空心还是字素内虚线,在它为首字素(“土、炊”除外)或尾字素(连同尾字素在内不足四个数字代码条件下)时,其后要用此空心和虚线所形成的字素形状补码;在含空心和虚线的字素不为首字素或尾字素时,则要把它当作整体字素来对待。如“曙01130、罗1175”两个字首字素内的虚线形状为“—”,其第二个代码便均为“1”。“兴0318”字首字素内的虚线形状为“丿”,其第二个代码便均为“3”。又如“扩963、相792、亩603、旧201”尾字素内的虚线形状分别为“丿、丨、十、—”,其第三个代码分别为“3、2、3、1”。“想792、得35015、塘36360、愁3782、谈5488”中“目、日、广、火”便不须补加空心和虚线所形成的字素形状。
③“先、失、制、牲、各”和“耂、哉”及“天、末”等为字头的那些字应分别选取“丿、十、—”,而不是取大优先。如先3334失328制32624牲3335各390孝34441哉3530天145末17。
单个汉字的编码规则特点之一是,每字最多取五个数字码,字素代码的选取采用“笔顺”和“取大优先”相结合的原则进行的,98%字素代码的选取是采用“笔顺”进行的,只有2%按“取大优先”原则选取的。
单个汉字的编码规则特点之二是,多于二个字素组成的常用上部首或左偏傍,只选取其头两个字素作代码,以减少重码,提高工作效率。
单个汉字的编码规则特点之三是,在含空心和虚线的字素为首字素或尾字素(连同尾字素在内不足四个数字代码条件下)时,要用此空心和虚线所形成的字素形状作为补码;当它不为首字素或尾字素时,却要把它当作整体字素来对待,以减短码长,加速编码效率。
四、数字科技图形外文符号的编码
数字科技图形外文符号的编码也与汉字进行统一编码,只不过这种编码已属于人为的规定,是要硬记的。如“数字英文标点符号键盘表”。
数字英文标点符号键盘表
其中,“A、B、C、a、b、c、…、×、÷、0、.”位于同一数字键“0”上,“D、E、F、d、e、f、一、-、!、1”位于同一数字键“1”上,如此等等;“7907”表明数字7的编码为907。“S73”表明大写英文字符S的编码为73。其它符号的编码也依此类推。
值得一提的是,佳法码对使用频度最高的标点符号‘。’、‘,’和‘、’采用一键加一回车键来表示;英文大小写字母采用两键加一回车键来表示。英文小写字母为三个字母共用一个键,其编号分别为0、1、2;而英文大写字母与英文小写字母相对应,但编号却分别为3、5、6。由于26个字母只须9个键,故未用数字键“4”。且“9”键上只有Y、Z两字母。
五、词组编码规则
每条词组也是五个数字码,但要求字词总数不得超过111,110个。词组编码规则有四条1.二字词词组编码规则是二字词=字11→字12→字21→字22→字23①其中,字11表示二字词头一个字的第一个字素p11(首字素);
字12表示二字词头一个字中紧接首字素后的那个字素p12;
字21表示二字词第二个字的第一个字素p21(简称二首字素);
字22表示二字词第二个字中紧接二首字素后的字素p22(简称二次字素);
字23表示二字词第二个字中紧接二次字素后的字素p23;
ce2表示二字词,则有另一种表示法ce2=p11+p12+p21+p22+p23例如中国02613人民88545健康56636成长45315生活35630幸福38551美满81621长久31755发扬43943光大74455舒畅81012注意当一个字只由一个字素组成时,则有关该字的pij均相同。即重复该字素编码,如“人民”编码为88545。当第二个字只由二个字素组成时,则字素p23认定为字素p22。2.三字词词组编码规则是三字词=字11→字12→字21→字22→字31②其中,字11表示三字词头一个字的第一个字素p11(首字素);
字12表示三字词头一个字中紧接首字素后的那个字素p12;
字21表示三字词第二个字的第一个字素p21(简称二首字素);
字22表示三字词第二个字中紧接二首字素后的字素p22(简称二次字素);
字31表示三字词第三个字中头一个字素p31;
ce3表示三字词,则有另一种表示法ce3=p11+p12+p21+p22+p31例如北京市36606一方面11674计算机54457大多数45758自信心39552越来越36183强有力54467必要性23112意味着680283.四字词词组编码规则是四字词=字11→字12→字21→字31→字41③其中,字11表示四字词头一个字的第一个字素p11(首字素);
字12表示四字词头一个字中紧接首字素后的那个字素p12;
字21表示四字词第二个字的首字素p21;字31表示四字词第三个字中首字素p31;
字41表示四字词第四个字中首字素p41;
ce4表示四字词,则有另一种表示法ce4=p11+p12+p21+p31+p41例如丰富多彩55473 干劲冲天13451 平等互利18413 全心全意81286
信息社会55358 众所周知88674 兴旺发达03044 实事求是451104.五字词及五字词以上词组编码规则是五字词及五字词以上词组=字11→字21→字31→字41→字n1④其中,字11表示词组头一个字的首字素p11;字21表示词组第二个字的首字素p21;
字31表示词组第三个字的首字素p31;字41表示词组第四个字的首字素p42;
字n1表示词组最末一个字的首字素n11;ca5表示五字词及五字词以上词组,则有另一种表示法ca5=p11+p21+p31+p41+n11例如从实际出发84464有志者事竟成44314国防科学技术委员会64308
据不完全统计94485国务院技术经济研究中心63492
佳法码的词组编码规定每条词的码长为五个数字,与单个汉字编码完全兼容,从而能真正做到字词混合编码,只不过字词编码总数不得超过111,110个。
六、佳法码的实现及其优点
为了使佳法码能在移动电话上实用,我们先在微机上实施。它与其它数字CKE编码相比具有下列优点
1.由于字素(编码单位)安排是基于模十加法原理进行的,故真正做到了易学、易记、不怕忘,方便、好用、高效率。
2.由于每击键一次都会出现有关信息的下一击的提示,所以这种‘跟我学’功能将有助于引导用户尽快掌握中文输入技术;
3.由于在实现佳法码中采用了‘高频先见’的技术和设计编码时限制一组重码中重码个数在4以内(仍有六十多组重码个数超过4个小于10个),采用“+”键和提示的序号来选重,所以用户在打完某字所需要的击键次数或某词时不用翻页便能输入你想要输入的字或词;
4.由于设计中考虑了几乎所有的主要偏傍部首的编码互异,从而大大地降低了重码现象,稍经训练便可盲打;
5.由于设计中也考虑了标点和外文,尤其是最常用的标点符号和英文字母只用一或二个数字来编码,所以在录入一般文章时不必进行文档切换;
6.对CJK V2.0中27484个汉字来说,录入每个汉字只击2至5个数字键,做到了每个汉字的平均击键次数是27484个汉字时为4.56;3755个一级汉字时为4.35。这是目前所见到的数字CKE编码方案中击键次数最少的。而且软件上也实现了同时显示该字的读音,具有检验录入字的正确与否功能;录入每条词也只要5个数字键,是真正的字词混合编码,这为汉字的高速输入提供了有利条件,是非专职操作员的首选输入方法的原因之一。
7.每个数字键值就代表了该键上字素的数字值(除“土、艹、木、口、日”而外),这使人们很容易掌握它,偶尔使用也不会遗忘它,是非专职操作员的首选输入方法的另一原因之一;它也是汉字的一种真正数值排序方法。
以上这些优点是其它数字CKE编码所没有的,甚至是不能达到的。可以说,由于这种方法的出现,使得非专业操作员也能高效率地处理汉字,中文输入在微机、手机、汽车电脑、掌上电脑、PDA、双向BP机、电子辞典、电子翻译器、电子记事本、信息家电、商业收款机、银行密码机、手持终端和电子读物等微型设备上不再是一件繁难的事-人人皆可为之。
权利要求
①佳法码是以“横1竖2撇3折4点捺5提6”笔画作基本字素,依据模十加法原理来安排其它字素,并以笔顺和“取大优先”原则来制订编码规则,实现了汉字的数值排序,做到了每字最多击五次键(每字平均击键4.56次)便能在掌上电脑、PDA、移动电话、信息家电、电子字典、电子翻译器、电子记事本、其它手持终端、商业收款机和银行密码机等设备上输入27484个汉字,有字内提示功能,重码少且组内重码不超过4字(仍有六十多组例外);每词五码,是真正的字词混合编码;数字、标点、外文和科技符号与汉字统一编码。
②在权利要求①中的“字素”是《数字汉字键盘编码输入表》中规定的笔画和偏傍部首的总称,共有六十来个。字素中有四分之三是有代表性的(如‘七’既表示‘匕’又表示‘七’),这有效地减轻了人们记忆大量字素的负担;字素中有一多半是由二个笔画组成,且二笔画字素的构成很有规律性,这是易学性的表徵之一。
③在权利要求②中的“数字汉字键盘编码输入表”,其特点是,按照“横1竖2撇3折4点捺5提6”方式把基本字素分别设置在数字键1至6上,并依据模十加法原理把其它字素分配在十个数字键上,因此,每个数字键是其上字素之或,形成一个编码整体单元。
④在权利要求①中,单个汉字的编码,其特点之一是最多为五码,字素代码的选取是采用“笔顺”和“取大优先”相结合的原则进行的,98%字素代码的选取是采用“笔顺”进行的,只有2%字素代码按“取大优先”原则选取;其特点之二是汉字中多于二个字素组成的常用上部首或左偏傍,只选取其头两个字素作代码,以减少重码,提高工作效率;其特点之三是在廿来个含空心和虚线的字素(如忄、土、日、言)为首字素或尾字素(连同尾字素在内不足四个数字代码条件下)时,要用此空心和虚线所形成的字素形状去补码;当它不为首字素或尾字素时,则把它当作整体字素来对待,以减短码长,加速编码效率。
⑤在权利要求①中,设计编码时限制一组重码中重码个数在4以内(仍有六十多组重码个数超过4个小于10个)且采用‘高频先见’的技术,设计中考虑了几乎所有的主要偏傍部首的编码互异,从而大大地降低了重码,稍经训练便可盲打;用户在打完某字所需要的击键次数或某词时不用翻页便能输入你想要的字或词;
⑥在权利要求①中,标点、外文和科技符号与汉字统一编码,对使用频度最高的标点符号‘。’、‘,’和‘、’采用一键加一回车键来表示;英文大小写字母采用两键加一回车键来表示。录入一般文章时不必进行文档切换。
⑦在权利要求①中,字内提示功能表示每击键一次都会出现有关信息的下一次击键的提示,所以这种‘跟我学’功能将有助于引导用户尽快掌握中文输入技术;
⑧在权利要求①中,汉字的数值排序体现在每个数字键值就代表了该键上字素的数字值(除“土、艹、口、日”而外),这使人们掌握它变得很容易,偶尔使用也不会遗忘它,这是非专职操作员的首选输入方法的原因之一。
⑨在权利要求①中,每词五码,是真正的字词混合编码,这为汉字的高速输入提供了有利条件,是非专职操作员的首选输入方法的另一原因之一。
全文摘要
佳法码是一种数字汉字键盘输入技术,它属于计算机中文信息处理技术领域。它以“横1竖2撇3折4点捺5提6”笔画作基本字素,依据模十加法原理安排其它字素,并以笔顺和“取大优先”原则取码,实现了汉字的数值排序,做到每字最多击五键且每字平均击键4.56次使能在掌上电脑、PDA、移动电话、信息家电上输入27484字并有字内提示;每词五码,是高效的字词混合编码;组内重码不超过4字(仍有60多组例外);标点外文与汉字统一编码。
文档编号G06F3/023GK1295274SQ0012465
公开日2001年5月16日 申请日期2000年9月28日 优先权日2000年9月28日
发明者萧忠義, 余锦凤, 萧志春 申请人:萧忠義, 萧志春, 余锦凤
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1