一种计算机汉字和汉字部件的输入方法及其键盘的制作方法

文档序号:6467853阅读:665来源:国知局
专利名称:一种计算机汉字和汉字部件的输入方法及其键盘的制作方法
技术领域
本发明涉及一种汉字输入方法,特别是指一种计算机汉字和汉字部件输入方法及其键盘。
背景技术
目前的计算机汉字输入方法,主要分为形码、音码和结合音形信息的音形码或形音码。 音码是一种以字音信息为基础的汉字编码,目前大陆流行的音码是"拼音输入法", 拼音输入法的优点是容易学习、上手快,缺点是重码率高,对于非常用的字词和不懂发音 的汉字输入较为困难。形码是一种以字形信息为基础的汉字编码,多数以字根为编码基础, 如五笔字型、郑码等,它们的优点是重码率比拼音码大大降低,输入速度较快,但缺点是 学习掌握的难度较大,需要记忆的东西太多, 一段时间不用就很容易忘记,而且多数的部 件拆分不符合字源字理,不利于汉字文化的传承、教育和发展。另外也有一些结合音形或 者笔画信息的汉字编码,但基本上都一样无法兼顾易学、高效、科学的矛盾。
我们大家知道,汉字最早是一些象形符号,随着社会的不断发展,这些符号按照一些 规则组合成更加复杂的形体,代表更加复杂的意义。这些规则就是我们常说的六书。古代 把那些象形符号称为"文",而合成出来的符号称为"字",就是所谓的"独体为文,合体 为字"之说。六书包含了汉字的造字法和用字法象形、指事、会意、形声、假借、转注。 汉代的许慎著述的《说文解字》对汉字的字源、字构、意义,有着较科学全面的整理和记 述。汉字虽然经过了几千年的演变,但是这些基本的构造原则一直没有变化,也正是因为 汉字的这种巧妙的设计,使得它成为如今世上仅存的一种表意文字。现代汉字的独体字, 就相当于古代的"文",是负载有一定文化含义的基本元素。而现代汉字的合体字,就相 当于古代的"字"。除了少量的指事、会意字外,约80%以上的合体字属于形声字。由于 经过漫长的演变,汉字产生了较大的形体改变,部分甚至出现了讹误。从造字用字的角度 看,出现了大量用字分化、假借、弓l申、繁化、简化、变异等形态,从而出现了大量的新 汉字和异体字,使得汉字这个家族的成员日趋庞大。但统计表明,在同一个时代里的实际
使用汉字数量并不是很多,大约在5千 1万左右。特别是常用的汉字,非常集中。因为 汉字的使用不是均等的,不同汉字具有不同的使用频度,它们符合一定的分布规律。
既然汉字本来就是通过一些基本字形元素,通过一些原则组合起来的,那么就一定可 以分解还原出这些基本元素来。并对这些元素进行序列化和编码,从而得到汉字的完全信 息编码。按照信息理论,不难证明这样的方法是最佳的编码方法。因为基本元素本身是信 息的高度聚合体,它不是随机的笔画组合,而是具有稳定形体的、负荷一定内涵的笔画组
合o

发明内容
本发明的主要目的在于克服现有技术中计算机汉字输入方法难学、不科学的缺点,提 供一种易学、高效、科学的计算机汉字、汉字部件输入方法及其键盘。
在对本发明的技术方案进行详细描述之前,对一些基本术语定义如下
构件由一组笔画组成,是组成汉字或部件的字形元素(零件)。
子字是组成汉字的一组具有稳定形体和含义的笔画组合。它是负荷有一定含义 的构件,是组建复杂汉字的元素。也可称为"偏旁"、"字块"、"合成部件"等。
部件即不能继续拆分的子字,是具备一定含义的最小汉字构造单位,又称为"字 根"、"基元"、"基础部件"等。在本说明书中"部件"主要用来描述汉字的基本编码元素, "字根"主要用来表述原始的拆分构件。
义件汉字结构中和汉字意义关联的部件。合体字一般都有一个或一个以上的"义 件",不过经过长期演变,部分汉字"义件"的含义关联己经不明显或者完全丢失。
部首统领一组汉字意义归属的基础部件,它代表一族汉字的意义特征或共性归 纳,也是一般字典归部的依据。
部首层次拆分首先拆出汉字的部首,剩下相应的子字,再用同样的方法拆出该 子字的部首,如此重复直到不可再拆为止,于是产生了一个部首序列。此过程即称为部首 层次拆分。
义并是根据字根的字源、含义进行归并,凡是属于"同源"的字根,虽然形体 产生了较大的演变,但他们的含义是一致的,所以看作是"等价字根",归并为一个部件,
比如"水?氺"、"火"、、"、"心十"、"艸卄"等,它们的篆书字形其实是完全一样的,含 义也是完全一样的。
形并将一些形体接近,容易造成书写、识认错误的字根进行归并,如"日曰口"、 "人入"、"*、卄"等,它们的本身虽然含义不同,形体也可以区分,但是他们在构字过 程中经常发生混淆、讹变。比如"最曾喝慢替"里面实际存在的是"曰"部件,但我们 很难和"日"区分。再比如"内全"里面的"入"如今已经讹变成了 "人"。为了不给大 众造成太大的困扰,我们也将他们编码归并。但对于含义有别的成字部件一般都单独设立 了自己的专用小类码,以便区别。
部件认同原则有一些字根虽然形状不同但字源相同,含义也相同,我们把它视 作等价部件;还有一些字根可能字源和含义未必相同,但字形几乎一样,那么我们也将之 视作等价部件;在我们的编码系统里它们被视作相同的元素,这就是部件认同原则。
本发明是一种计算机汉字输入方法,采用具有26个英文字母键的计算机键盘,其特 征在于包括如下步骤
(1)首先将汉字按照字源及构字机理拆分为字根序列,并把这些字根(约400多个) 按照部件认同原则整理归纳为300个左右的部件,作为汉字的基本编码元素。
注这里之所以给出300个左右的部件这个约数,是考虑到由于受到汉字集大小的影 响,当我们分别考虑国标GB2312-80字集的6763个汉字和大字符集7万多个汉字时,部 件的数量可能会略有增减,但相差极少。 一般一些极罕用的部件都已经根据形并或者义并 的原则加以归并。可能的部件数目范围为280 310。
然后,再将这些部件按照字源文化内涵或者形似特征的原则进行归类,主要是采用义 并和形并的原则以及含义关联程度进行归纳,形成下面所示的28个大类。对于组字时容 易混淆或者难以区分的形似部件按照形似依附处理,比如"日、曰"组字时一般难以区分, 所以让"曰"依附于"日",并入"日"类,不必理会"曰"含义是否和"日"有关,在组 字时它们使用同样代码B。对于一些含义不明确的部件也采取形似认定或依据它在组字中 的多数字源倾向进行认定和归并,尽量做到最合理的分类,并保持编码的一致性。
每个大类均按照形状或读音的联想对应到一个英文字母上,形成部件的大类码,即是
部件的简易码
自然日月金木水火土 B D J M S W T; 生命虫草人体心口手K C R E Q 0 F; 民生民言衣食住行财N I Y U A L G;
字形八叉横竖撇点折V X H S P D Z;
其中,"月"、"点"均对应到D字母,"水"、"竖"均对应到"S"字母。
上述的28大类的编码映射,主要是根据象形和谐音来设计,以便帮助学习和记忆。 部分还二者兼备,这使得学习起来非常容易,列举如下-
象形日B月D金(刀J)木M水S火W 土t虫(动物K)人R <M r)体(耳E) 心Q口O手F言(ii)衣Y食U住A行L财G;
谐音草C民(女N)金J木M水S 土T人R体(耳E)。
(2) 部件的编码和输入每个部件由1 2个字母组成编码,少数还允许由3个字母 组成。第一个字母即该部件的大类码。第二、三个字母称为部件的小类码(或称小码、子 码)。小类码是按照部件的音形信息对应到26个字母,即部件编码=部件大类码+部件小 类码,部分部件仅有大类码,而小类码为空。
在实际运用时,部件的小类码是可以任意省略的,这时部件编码就是部件的简易码。 部件的编码就是部件的计算机表示方式,是本发明的核心内容,通过部件编码就可以把部 件输入到计算机中,也可以由它拼装出众多的汉字或词语,此外还可以结合拼音、笔画等 其他信息得到更多的运用。
(3) 单字的编码和输入将汉字拆分成部件序列,并按照书写顺序或者部首层次拆
分顺序排列,然后把部件替换为相应的部件编码,形成汉字的编码,将之输入计算机,即
可得到相应汉字。
使用不省略小类码的部件码构成的汉字码,称为汉字的全息码。 如果部分或全部部件省略了小类码,那么构成的编码称为该字的简易码。
少数复杂的汉字还可以使用"子字组合法"来编码,就是把汉字拆成2-4块,看作一 个词语,然后进行输入。比如"警"也可以看作"敬言"或者"苟夂言"这个词语,再运
用词语编码规则进行输入,此法同样适用于拼音输入法(称为子字拼音法)。
(注本发明所说的单字或汉字,为广义的汉字字符,包括UnJcode有编码的各种象 形或表意符号、偏旁部首、部件等。)
(4) 少数部件在单独输入或者属于汉字最末尾部件时,允许设立有专用的小类码。 所谓专用小码,就是该小码并不参与该部件的其他组字场合的编码,也就是说仅仅当它处 于单独状态或者字的末部件状态时才使用。
(5) 词语的编码和输入顺序输入组成词语的各个汉字的编码(全息码或简易码) 即可。其中每个汉字的编码可以不必完整输入,仅输入其前面两个或更多的字母即可;当 词语为髙频词语或者总码长达到4个字母以上时,每个汉字的编码可以省略为一个或更多 的字母。 一般对普通的双字词可以要求每个字输入2码,以减少重码的几率。
(注本发明所说的词语为广义的词语,包括词组、短语等汉字串。)
前面所述的部件,具体的编码映射安排如下,并附上简单的设计理由和助记特征
日B日、颜色。B是日的象形符号。 日B(r)曰B(v) 冒B(m)白By黑Bw黄Bx。
月D月。D是月亮的象形符号。 月D(v)夕D(x)丹D(a)且Dh。
金J金属、兵器。J是金的拼音符号,也是刀的象形符号。
刀J金Jr戈Jg斤Jn弓Jg戊Jp殳Jx矢Js弋Jy _介J干Jg 临J矛Jm ~ 归J %臧Ja。
木M木。M是木的拼音符号。 木M未Mv。
水S水。S是"水"的象形符号,也是"水"的拼音符号。 水S 7 S(b) 当S川S(c)。
火W火、天象、小字形。W是火的象形符号,也是"多笔对称体"的表征符号。 小W(x)火W(u)云Wy _亦讲不Wb雨Wv尚Wa风Wf气Wq光Wr。土T土、 土山、石头、悬崖、山谷。T是土的拼音符号。
土T [5 Te厂T(c)山Ta石Ti 士T(h)谷Tv阜Tf邑Ty。
虫K动物。K是动物的象形符号。虫是古代对动物的总称。 牛Kn犬Kq隹Kz羊Ky虫Kc马Km鱼Kv豕Ks鸟Ki巴Kb卢Kh亥Kr ^ K j 象Kx龙Kl兔Kt鹿Kl秀Kz鼠Ks乌Kw虽Ki龟Kg。
草C草、十、植物。C是草的拼音符号。
廿(T祸C—六Cv升Cg十C(s)生C丰C(f)屮C生Cp廿Ch井Cj册C(x)丌C 卅C(s)。
人R人形。R是人的拼音符号,也是人的象形符号。 人R儿R(e) ARj个Rj入R(u) " R。
体E躯体、器官。E是"目eye、耳ear"的英文符号,是"耳、而"的拼音符号, 也是"耳"的象形符号。
目E尸Ei老El耳Ee见Er页Ey自Ez欠Eq广Eb而Eh舌Eo歹Ed皮Ep羽 Ev角Ej身Es面Ea毛Em骨Eg牙Ey髟Eb齿Ec飞Ef血Ex ft Eg囟Ex鼻Eb肉 Er卵El。
心Q心理、鬼神。Q是心的象形符号,也是情的拼音符号。 心Q卜Q(b) 〃 Q示Qs —乍Q非Qv _才Q鬼Qg丄Q。
口 0口。 O是口的象形符号。 PI 0。
手F手、手部动作。F是手的象形符号。 手F寸Fd力Fl工Fg _于F _举F。
民N人类繁衍、人际。N是女的拼音符号。 大N(r)女Nv子Nz夫Nf母Nm氏Ns民Ni臣Nc毋Nw。
言I文化、i头。I是"i "的象形符号。
言I工I方If六Iv ~享Io文Ix音lb高Io亡Iz册Ic齐Ij直Iz曲Iq 熏 la龠Iv。衣Y衣饰。Y是衣的拼音符号,也是衣的象形符号。
糸Y(s)衣Yi巾Yj也Y乡Y幺Y(a)县Yc革Yg韦Yw麻Ym -故Yb乡Yx。食U食物、食器、器具。U是食器的象形符号。
匕U(b)禾U(h)竹Uz米Um甘Ug U U食Us酉Uy _化Uh皿Um两Ul臼Uj豆 Ud斗Ud辛Ux北Uv吿Uf瓦Uw耒Ul鬲Ul瓜Ug香Ub麦Um卣Ul鼎Ud韭U j鬯 Uc。
住A居住A是房子的象形符号。
A^门A 口 Ak门Am广Ag TO As户Ah穴Av面Ax爿Aq -罕Av片Ap西Ax四 As肉Ac鬥Am wAx。
行L脚部动作、出行。L是的象形符号。
i_L夂L止Lz立Li车Lc 4 L疋L(s)足Lu走Lt行Lx舟Lz之L LL—年L ^ L内La丼L —条L亍L(c)。
财G财宝。G是"厶"和玉佩的象形符号。 厶G(s)田G(a)王G(w)贝Gb由Gy玉Gd壬Gr。
八V二、八字形。V是"、/"的象形符号,也是"双笔对称体"的表征符号。 八V(b) 二V(e)。
叉X叉形、手、爪。X是"叉形"的象形符号。 又X 乂 X大X夂Xq 3 Xj爪Xz聿Xv支Xc _丈X釆Xm %臼Xx。
横H横笔、横起笔部件。H是横的拼音符号。 一H可Ho尤Hy匚Hk 丁 Hd七Hz五Hu甫Hp无H j辰Hc。
竖S竖笔。S是竖的拼音符号。
I S。
撇P撇笔、撇起笔部件。P是撇的拼音符号。
J P勺Pk几P用Pv千Pq及Px九Pj丸Pd凡Pd 乐Pz 卬Pz。
点D点捺笔。D是点的拼音符号。
、Dc
折Z折笔、折起笔部件。Z是折的拼音符号和象形符号。
"Z L Z厶Z "] Zk卩Zj艮Zg 7 zj己Zj巳Z(s)乙Zy 已Z 发Z Lj Zs丑Zt。 注
1. 以上带括号的小类码代表专用小码,仅仅限于该部件单独运用或属于汉字的末部件 时使用,不参与其他组字情况的编码。
2. 由于一些部件无法输入电脑,本文采取了变通表示法,用前缀下划线"—"、波浪号 " "、百分号等符号来分别表示截取该字的前部件、后部件、或字架结构。" "则
表示取其前一个部件,如"~归"表示去掉右边"日"后的字形,"~已"表示去掉后面的 "L"以后的形状;"_"表示取后面字的后一个部件,如"一介"表示去掉"人"后的形 状,"_六"表示去掉"、"后的形状;"%"表示字架部件,如"%臧"表示去掉臣后的框 架,"%臼"臼分开为两边的框架。
所有用这样方法表示的部件如下-
%臧%臼;
一丈—举—乍_于—亦 一介—六—化—年—才—条;
~发~临~乐 享 冒~北~卬 己 归 当~留 前~禀 敝~罕。
3. 一般一个大类里安排有一个或几个代表性部件,称为主根,通常设为单字母编码, 而其余的字根则称为副根。同一个大类的部件(字根)亦称为同族字根。
小类码的编码是根据拼音或特征小部件来编码,这些设计原则可以帮助初学者学习和 记忆
a)对于形体上可以进一步分解的部件,我们一般取末尾构件的类别作为小类码,如 "見"可以细分为"目儿"所以小类码为"R"(儿);但尽量避开同类的构件,如行走类 的"走"可细分为土 + —足,但不取"一足"而取"土",因为"_足"也属于"行走" 类。
说明这里所谓的可以细分,只是形体上的拆分,而不是"部件拆分",因为我们编 码的对象已经是"部件","部件"的定义我们给出了它是最小的不可以拆分的部件了,所
以为了避免混乱,这里细分的元素暂且称之为"构件"。某种意义上,有些部件确实也算 是可以拆分的,理应属于合成部件,但由于这些"合成部件"多数是长期稳定使用的传统 部首,它们已经形成了自己的独立意义,所以我们依然把它看作不可拆分的部件。
比如鼻=自畀(从自畀声),殳=几又(从又持几),=口又(从又持 卜),都可以进一步拆开解释,但它们整体的含义已经相对地独立了。
此外有些形体虽然可拆,但拆开的构件已经发生了讹变。
比如"香"小篆应该拆解为黍甘,但楷书讹变为禾日,而且"香"本身已经有 了特定的含义了,所以我们把它作为基础部件。
这就好比词语是可以独立运用的最小语法单位。 一些词语必须看作一个整体,不能 拆开为单字道理一样,比如"马上"不能理解为"马的上面","马上"从"词语"层次来
说是不能拆分的,但从"字"级别看自然可以分解为"马"和"上"。同理,部件"見" 从部件层次说,是最小不可分的元素。但从构件一级看,可以再分解为"目儿"。
但本发明的编码方法的最小编码元素是"部件",虽然对于小类码的编码借助了一些 更细致的"构件分解",但仅限于"小类码"编码设计这个环节的讨论。
b)对于字形较为复杂,或者独体的不易分解的基础部件,我们多数使用声母首字母 来作为小码,少数使用韵母首字母。比如动物类的"马ma"用m,"虎hu"用h。 一般 遇到"yu"或其开头的音,我们用"v"作为小码,比如"鱼Kv"、"聿Xv"、"羽Ev"、"月 Dv"等,这些都是很容易学习的。少部分用的是韵母首字母,比如"尸shi"小类码i、 "石shi"小类码i、"山shan"小类码a。
为了保持编码的一致性,类似动物类这样元素较多的类别基本上都统一用拼音来做小 码。 一般同类型的部件小码设计方法尽量保持一致,比如""見=目儿"、"光=火儿"都是 符合字源的拆法,它们的小码都是"儿r"。
当然也有少数小类码需要稍多点的记忆。比如"面"用的是用"口"的类码A做小 类码,"金"用的是"人"的类码R做小类码。"且"细分为"月一",大类码归"月D", 小类码取"一h"。
每个大类的代表部件或者频度很高的部件设计为单码部件(没有小类码)。
前述一种计算机汉字、汉字部件输入方法,在进行中英文模式切换时,采用计算机键 盘上的Caps Lock键。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有异体键,用于显 示目前候选字的异体字、形近字、关联字、讹误字等密切有关的字,具体键位可自定义。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有罕字键,用于显 示罕用字的候选,具体键位可自定义。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有简繁键,用于简 繁字的转换,具体键位可自定义。按下该功能键时,如果已经处在输入过程中,当前候选 立即产生转换。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有词语键,用于对 第一个候选的"词语"进行自动上屏,具体键位可自定义,缺省为
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有单字键,用于过 滤掉词语候选,只剩下单字候选,具体键位可以自定义,缺省为'-'除了 是拼音的音节分隔符外,在部件码中也可以作为词语中各个单字的分隔符,当它位于编码 末尾时,则具有单字过滤功能,将把前面的编码或从上一个分隔符起的编码,仅看作单字 编码,不会进行智能切割。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有精确键,按下时, 则只匹配全部部件都已经输入的字词,其余一律屏蔽,具体键位可自定义。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有切词键将自动把 候选中的词语全部拆散为单字,供选取,具体键位可以自定义。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有帮助键,激活帮 助索引,导引初学者了解常用功能,或者进入帮助文档,具体键位可以自定义,缺省为
键。
前述一种计算机汉字、汉字部件输入方法,在计算机键盘上设有通配键,允许用 来替代某个不会输入的编码,具体键位可以自定义,缺省为,模糊通配符为*。 由于经过精心设计,我们有了一份完美、科学的"部件"表。这些部件确保了我们对
汉字的拆分是容易的、直观的、和自然的,同时拆分结果也是符合汉字字源字理,能够很 好地传承汉字的文化内涵。
由于汉字结构的复杂性,在实际的部件拆分中也有少数需要注意的规范和特殊规则。 基本规则
(1) 尽量按照书写笔顺拆分,尽量让部件数量最少,常见部件优先于罕见部件。 例如拆为音十,不拆为立日十
例如"辛、殳、羽、音、香、鼻、欠"均为基本部件,不再拆开。
(2) 在满足(1)的前提下,能拆分离的就不拆相接的;能拆相接的就不拆交叉的。 例如"主"拆为、王分离,不拆为工土相接。
例如"半"拆为分离,不拆为D十交叉。 例如"朱"拆为j未相接,不拆为〃木交叉。
(3) 在满足(1)、 (2)前提下,尽量避免单笔画部件。 例如"午"拆为〃十,不拆为J干
特例规则
(4) 字架结构有些部件由于与其他部件重叠或交错的缘故,导致书写时并非一次 性写完,称为"字架"部件。其部件间的顺序以其首笔次序为准。
字架部件主要有"□、匚、戈(弋戊臧)、衣、木、禾、大、工、戈",例如 "衷"=衣+中
"束"=木+口
"哉"=十+戈+口。 "秉"=禾+3
"乘"=禾+北
(5) 共享结构两个部件由于组字时某个笔画发生"串接"(连笔)或者"重叠"(叠 笔),导致了该笔画变成"共享笔画"。对此情景应该把该共享笔画复制一份看待。以下是 一些判定原则和举例
(5.1)若不共享会让部件数增多,而共享了部件数会减少,那么就共享。
连笔举例
"我"=j净戈,横笔连在一起了,应剪断处理。
"制"=牛巾u,竖笔连在一起了,应剪断处理。 "里"=田土
"重"=千田土
"垂"=千卄士
"養戠戢"等,同理处理。
"果"=田木,竖笔连在一起了,应剪断处理。(未穿透的笔画,有用则留)
叠笔举例
"彖"=互豕
(5.2) 能简单拆开的则尽量不使用共享法则。例如 "哉"=十+戈+口,不拆为土+口+戈
"卸"="一止,因为"午"不是字根。
(5.3) 穿插笔画如非必要,则不共享。
若居后的某部件的一个笔画,贯穿了前面的部件时,而且抽离该笔对其不产生坏作用 (比如令部件数增多或使拆分复杂化),则抽离。
"棄"=一 曰—足","—足"的竖笔上伸入"一3",均为穿透,而且抽离后也不
影响那两个部件。所以抽离处理。以下同理。 "事"=一口中
"史"=口乂
"串"=口口 I
"曳"=日< J
"兼"=n曰 一亦
"隶"=曰氺
"妻"=一中女
"禹"=J 口内
(5.4)如果该笔为非穿透状态,并对前面部件的构成有作用,则剪断处理。例如 "果"=田木。木的竖笔并未穿透上个部件,所以上个部件保留该笔,视作"田"。 "制"=牛巾U。"巾"的竖笔延伸到上面部件,构成了 "牛"部件,抽离则不成 部件,故共享。
(6)以下几个汉字的下部的六"一八字形,从字源来看一般是"升"或"丌" 的变体,是"用双手捧着"或"基脚"的意思。拆分时需把它拆开如下 共=* —六
其=甘_六
具=目_六,"真"字类推。 兴=7 _六
兵=斤—六
典=冊—六
舆=n车—六,"興與舉"类推。
本发明还可以派生出一种汉字部件键盘,把部件或者大类标识直接印在英文字母键盘 的相应的键帽上,形成汉字部件键盘。
和现有技术相比,本发明的计算机汉字、汉字部件输入方法具有如下特征及优点
(1) 基于汉字的字源和构字原理进行拆分,以传统的部首为基础,符合语文规范,
很好地实现汉字文化的传承;
(2) 包含汉字形体结构的全部信息,是一种全息编码。不仅能见字识码,而且能见 码识字,这是现有的所有编码做不到的;
(3) 所有的部件几乎都有唯一的编码(1-2字母),所以几乎不丢失汉字的信息;
(4) 将部件科学地归纳为28个大类,初学者只需要记住这28大类就可以开始打字, 几乎没有学习难度;
(5) 编码撷取了全部的汉字部件信息,不做类似"前三末一"的残缺选择,不做码 长的限制,汉字的编码是由它的全部部件的编码罗列而成,而部件本身编码几乎是唯一的,
所以汉字信息几乎不丢失;
(6) 母字和子字的编码机理一致,汉字子字的编码, 一定包含在母字编码之中,而 且彼此编码原理完全一样,比如"菇"包含了子字"姑",那么"菇"的编码CNC0, 一 定包含"姑"的编码NC0;同理"姑"包含了子字"古",那么"姑"的编码NCO, —定
包含"古"的编码C0;
(7) 词语和单字编码机理一致,"词语是由一组汉字组成",和"汉字是由一组部件
组成",可以类比看待,也就是说,词语编码和汉字编码原理是统一的,所以不需要另外
学习词语规则比如"日月"这个词的编码是BD,"明"这个字的编码也是BD,因为他们 的部件序列是一致的,你可以把"树"字假想成"木又寸"这个"词语",进行编码。所 以,本编码方法是一种真正的全息编码。
和现有技术相比,本发明的计算机汉字、汉字部件输入方法还具有如下优点
1,部件拆分符合字源字理,汉字的拆分是根据汉字造字的原理进行的,300个左右 的部件几乎都是传统汉字部首;
2,按照部件的文化内涵进行分类,把部件归纳为28个大类,符合汉字造字的科学性;
3, 几乎不受新旧字形和简繁字形的干扰,换句话说, 一般同一个字,我们怎么输入, 港台人士也可以怎么输入,不需要分为两套编码,比如"鲜、鮮"是KvKy,"说、説、說" 都是IV0V;
4, 几乎不受笔顺争议的影响,这是许多基于笔画信息的编码无法做到的;
5, 可以适应已经收入到Unicode中的全部7万多个汉字的输入,并且可以无限扩展;
6, 没有码长限制,没有人为的部件取舍,有多少部件就取多少部件,确保汉字信息 不损耗。
总之,本发明的一种计算机汉字、汉字部件输入方法易学、高效、科学,对于继承中 华民族几千年的汉字文化具有重大意义,值得大力推广使用。


图1为本发明的汉字部件键盘的部分结构示意图。
具体实施例方式
本发明的计算机汉字、汉字部件输入方法,首先将组成汉字的所有字根按照义并和形 并的原则归纳为300个左右的部件(见前面的列表),
再将这些部件按照含义接近、互相关联、形体类似的原则归类,形成28个大类(见 前面的列表)。
并给每个部件定义了 l-2个字母的编码(见前面列表)。
在将部件编码完成后,将汉字或词语拆分成部件,进行编码,按照编码顺序由计算机 键盘上的26个英文字母键输入计算机。
当我们打开本输入法,并处于"部件输入模式"时,我们敲入一个汉字的的全息编码 或者简易码,就可以输入相应的汉字。全息编码和任意省略小类码的简易码,均可以无切 换地输入,它们统称为"部件码"。
在实际输入时,只需要输入编码的前面部分,软件就会把部分匹配字词显示出来,供 选择。如果需要的汉字已经处于首选位置,那么直接敲入空格就可以上屏。如果处在其他 序号位置,那么需要敲入相应的序号进行输入。如果第一页没有看到,也可以用翻页键进 行翻页,直到看到需要的汉字,再输入相应的序号。 一般地,对于初学者,只需要输入一 个汉字的前面两三个部件的简易码就可以了,常用汉字一定会出现在首选或者首页,罕用 汉字则需要进行翻页。对于词语, 一般也是输入4个字母左右就可以得到该词语。对于熟 练的盲打者,最好输入较完整的编码,也就是对于单、双部件的汉字尽量输入全息码,多 部件汉字则多数可以输入为3至4码的简易码,少数较罕用的汉字有可能需要输入5码或 更多码。
由于全息码的精心设计,实际上只要熟练掌握一些常用汉字的输入,基本上就解决了 全部汉字的输入。因为,本方案的全息特征确保了任何一个"子字"的编码和母字保持相 包容的关系。
比如
你会输入"姑NCO"就一定会输入"菇CNCO",因为只要前面增加"*C",其后面则 完全照打。你会输入"寺TFd",就会输入"等UTF"、"特KTF"、"持FTF"、"待LTF"、"诗 ITF"等等。你会输入"青CD",就会输入"情QCD"、"请ICD"、"清SCD"、"精UCD"、"静
CDR"等等。哪怕是从来不认识的字,如"锖JCD"、"戠CDW",也是一瞬间输入,因为都 包含"青CD"这个"子字的编码"。熟练后,几乎就会变成下意识的习惯动作。不像其他 的编码,需要类似"前三末一"这样的取码规则,那样将造成以上特征不一定成立。这就 是"全息"的好处。 实施例一汉字全息编码输入
按照汉字的书写顺序得到的部件序列,称为汉字的全息部件序列。把部件替换成相应 的字母编码后,得到的字母序列,我们称之为汉字的全息字母编码,简称为汉字全息部件 码(或全息码),在不会和后述的"简易码"产生混淆时也可以直接简称为部件码。部件 序列不限制长度,必须包括全部的汉字部件,同样转译成字母也是。所以称之为全息码。
全息码示例
=?又=S X
=A子=A Nz=纟户冊=Y Ah Ic=石马=Ti Km==Qs=4歹iJ=R Ed J
我们使用大写字母表示大类码,小写字母表示小类码,这样容易区分,并确保编码连 写的时候可以区隔部件边界,但是在本编码用于本发明的计算机汉字输入时,则可以不区 分大小写。
实施例二汉字简易码输入
编码方案给出了全息码的简易编码形式。简易码也就是全息部件编码省略了全部或 部分小类码的编码。
简易码设计的目的是
(1) 给初学者很低的门槛,只需要懂28个大类就可以打字。
(2) 縮短复杂汉字的码长, 一般3个部件以上的汉字,鼓励使用简易码输入。
由于经过精心的互斥设计,同一大类的部件互斥度很高,小类码负荷的信息量不高, 省略它造成的信息损失不多,仅仅在双部件汉字中重码较为明显。如果一个汉字由三个部 件或以上组成时,实际上简易码已经很少会重码。所以即便是"熟练的盲打者",只要遇 到三个部件或更多部件的汉字,大可以直接输入简易码。
但对于单部件或者双部件汉字来说,简易码重码会比较多,所以除了常用字以外,可 能需要进行重码选择。不过重码还是比拼音少得非常多,而且对于多数常用字来说由于髙 频先见的排列,基本上属于首选,直接空格就可以。
对于初学者来说,简易码大大降低了学习的难度,几乎介绍完28个大类,及各自包 含的部件后,就可以上机打字了。而且对于复杂构造的汉字,简易码避免的冗长的全息编 码输入,大大提高输入效率。
对于全部省略小类码的部件码,我们称为"纯简易码",简称简易码,或简码。对于 省略部分小类码的部件码,我们也泛称之为"简易码"或"简略码"。如果拿目前流行的 "全拼、简拼、混拼"来类比,那么这里的"全息部件码、纯简易码、简略码"就可以称 为"全形、简形、混形"了。
一般情况下,对二部件汉字,建议至少对其中一个部件增加小类码,做成3个字母的 编码,这样就几乎没有了重码。
简易码示例
=立口|5=全息Li 0 Te=简易LiOT=纯简易L 0 T=车A月ij=全息Lc Rj D J=简易LRjDJ=纯简易L R D J。 实施例三词语简易码输入
词语也有相应的"简易编码",除了擷取单字的简易编码组成的词语简易码外,我们
还允许对每个单字的编码进行省略(允许縮短到前2个字母或更多),由此构成词语的简 易编码。而且,对于常用词语,只要总码长达到4个字母或者词语属于高频词语时,那么 也允许每个汉字码縮短为第一个字母。如果一个汉字本身的全息码就比允许省略的长度还 短,那么就用全码即可。 比如
计算机=i十竹目升木几=全息I~C Uz-M-P=简易ICUECMP=简
ICUEMP=最简略IUMP=最简略ICUM
人家=人a豕=全息码R AKs=简易码RAK
我们=j孑戈4门=全息PFJg RAm=简易PFJRA=简易PFRA
中国人民=全息0S AkGd R Ni=省略小码OS AG R N=部分省略字尾OS Ak
R N
=最简略0ARN
(码长够4个字符,所以每个汉字可以简省到l个字符就够了)
实施例四部首码
对于汉字的编码, 一般按照书写顺序排列拆分出来的部件,遇到某个部件不是一次性 书写时,只要考虑第一笔即可,即第一笔写了就等同该部件写了。这是最自然和常用的编 码方式。
此外,汉字的编码还可以设计成以"部首层次拆分"顺序来排列部件,通常应用于字 典正文的编排。这样的话,总是各层次的部首优先在前面,优点是(1)相同部首的汉字 会排列在一起,有利于字典按义部编排。(2)—般部首是比较醒目的部件,也是汉字的"义 件",有利于迅速抓住汉字特征。当然,部首优先也有其弊端,因为有许多汉字部首位置 并不容易确定,在实际应用时可根据需要选择。 以下是部首全息码的例子
=1_云=LWy
=力云=FlWy
=< I』歹=RJEd。 实施例五部件的编码和输入方法-
部件是构成汉字和词语的基本元素,根据本发明设计的部件编码,很容易对各种部件进行 编码表示和计算机输入,如
"口"=0,"木,,=M,""=S、"羊"=Ky,"马"=Km,"卑"=Yi
实施例六 一种汉字部件键盘
参照图l,为本发明的一种汉字部件键盘的部分结构示意图,把大类标识直接印在英
文字母键盘的相应的键帽上,形成汉字部件键盘,键盘的其他部分结构同普通的PC键盘
相同。
上述仅为本发明的几个具体实施例,但本发明的设计构思并不局限于此,凡利用此构 思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。 附录 一些字根变体清单
一些字根由于属于同源、同形、简繁体、新旧字形等关系而被看作等价部件或变体部 件,在本说明书中它们视作同一个编码元素,一般使用其代表性的主形字根来表达,如"水" 就可以代表"?氺"等。以下是一些常见的变体
门( 周)、囱囪、户戶戸 所、门門、4爿、^两、黑黒、黄黄、
廿艸卄(++)、丰举、月冃、丹円、面靣、齿齒、歹步、飞飛、骨fl、老少、
身D 、见見、页頁、手净、工-、无先、匚匸、尤尤、言i 、册冊、齐齊斉、 高髙、聿中*—争、刀IJ勿U 州、戈~尧、金韦、龟龜亀、虎产、鸟鳥( 岛)、 黾黽、互~录、龙龍、马馬、牛年&、犬3 、兔兎、鱼魚、乌烏、羊^圭、疋正、
夂夂夕、;L定、内(—禺)、车車、足足、止(—足)、木本、毋毋、卜 占、
心十小、、示沣、々夕、水?氺_豕—眾~益、川(〈U〈—巟、7 、、、 I J 、厂厂、
两0両兩、卤鹵鹵卣、麦麥、食个食、酉菲、竹"、八v、—亦 业(业_亞 一亜—虚)、
小、"、火,、、、、尚a、风風、乂、又^、 3(~隶)、夂支、爪^、糸纟糸、县长長、
衣卑、韦韋、~已(-)、 h勺、< 〈口厶、~即艮、卩卩卩。
权利要求
1、一种计算机汉字输入方法,采用具有26个英文字母键的计算机键盘,其特征在于包括如下步骤(1)首先将全部汉字按照字源及构字机理拆分为字根序列,并把这些字根按照部件认同原则归纳为280~310个部件,即编码元素,再将这些部件按照字源文化内涵或者形似特征的关联性原则进行归类,形成如下所示的28个大类日月金木水火土;虫草人体心口手;民言衣食住行财;八叉横竖撇点折;每个大类按照形状或读音的联想对应到一个英文字母上,形成部件的大类码;(2)每个部件由1~2个字母组成编码,个别的允许为3个字母,第一个字母为该部件的大类码,第二、三个字母称为部件的小类码,即部件编码=部件大类码+部件小类码,部分高频部件仅有大类码,而小类码为空;小类码是按照部件的音形信息对应到26个英文字母;部件编码在实际应用时其小类码允许任意省略;(3)单字的编码和输入将汉字拆分成部件序列,并按照书写顺序或者部首层次拆分顺序排列,然后把部件替换为相应的部件编码,形成汉字的编码,将之输入计算机,即可得到相应汉字;在输入计算机时可采用由完整的部件编码构成的汉字编码来输入,即全息码输入;也可采用部分或全部部件省略了小类码的汉字编码输入,即简易码输入。
2、 如权利要求1所述的一种计算机汉字输入方法,其特征在于(1) 少数部件在单独编码或者属于汉字最末尾部件时,允许设立其专用的小类码;(2) 词语的编码和输入顺序输入组成词语的各个汉字的编码(全息码或简易码) 即可,其中每个汉字的编码可以省略为前面两个或更多的字母;当词语为髙频词语或者总 码长达到4个字母以上时,每个汉字的编码可以省略为一个或更多的字母。
3、 一种计算机汉字部件输入方法,采用具有26个英文字母键的计算机键盘,其特征 在于 (1) 首先将全部汉字按照字源及构字机理拆分为字根序列,并把这些字根按照部件 认同原则归纳为280 310个部件,即编码元素,再将这些部件按照字源文化内涵或者形 似特征的关联性原则进行归类,形成如下所示的28个大类日月金木水火土; 虫草人体心口手;民言衣食住行财; 八叉横竖撇点折;每个大类按照形状或读音的联想对应到一个英文字母上,形成部件的大类码;(2) 每个部件由1 2个字母组成编码,个别的允许为3个字母,第一个字母为部件 的大类码,第二、三个字母为部件的小类码,即部件编码=部件大类码+部件小类码,部 分高频部件仅有大类码,而小类码为空;小类码是按照部件的音形信息对应到26个英文 字母;(3) 部件本身的输入以及它在包含部件的各种编码应用时,均可按照上述编码方法 输入计算机,在输入过程中小类码允许任意省略。
4、 如权利要求3所述的一种计算机汉字部件输入方法,其特征在于部分典型的大 类编码设置如下金J木M水S火W土T虫K草C人R心Q 口O手F言I衣Y。
5、 如权利要求3所述的一种计算机汉字部件输入方法,其特征在于所述28个部件 大类与26个英文字母的映射关系如下日月金木水火土 B D J M S W T; 虫草人体心口手K C R E Q 0 F; 民言衣食住行财N I Y U A L G; 八叉横竖撇点折V X H S P D Z。
6、 如权利要求3所述的一种计算机汉字部件输入方法,其特征在于所述部件的小 类码的编码按照以下原则制定(1)对于形体上可以进一步分解的部件,取其末尾构件的大类码作为小类码,当末 尾构件的大类码与部件的大类码相同时,则取除末尾构件外的其他构件的大类码作为小类 码;(2) 对于独体的或者字形较为复杂不易分解的部件,使用声母首字母或韵母首字母 作为小类码;(3) 每个大类的代表部件或者频度很髙的部件设计为单码部件(没有小类码);(4) 尽量保持同类编码的一致性;少数部件为了避免小类码冲突时,可采取特殊指 定的小类码。
7、如权利要求3所述的一种计算机汉字部件输入方法,其特征在于部分典型的部 件编码设置如下日B(r);月D(V);刀J金Jr;木M未Mv;水S;小W(X)—亦W;土T山Ta石Ti;犬Kq羊Ky虫Kc马Km鱼Kv产Kh象Kx兔Kt;卄C 承C丰C(f)屮C廿Ch井Cj;人R入R(u);目E自Ez舌Eo歹Ed皮Ep羽Ev角Ej;心Q示Qs鬼Qg;no;手F;女Nv子Nz夫Nf母Nm氏Ns;言I工I六IV 享l0文IX;糸Y(s)衣Yi巾Yj县Yc韦Yw; 禾U(h)竹Uz UU食Us酉Uy击Uf;A^门A穴Av面Ax西Ax;i_L车Lc《L i_L;王G(w)贝Gb;八V(b);乂X大X;一H可Ho尤Hy;I S;〗P几P;、D;"z Lz Z_Z。
8、如权利要求3所述的一种计算机汉字部件输入方法,其特征在于所述部件的编 码安排如下日B(r)曰B(v) 冒B(m)白By黑Bw黄Bx;月D(v)夕D(x)丹D(a)且Dh;刀J金Jr戈Jg斤Jn弓Jg戊Jp殳Jx矢Js弋Jy _介J干Jg 临J矛 Jm ~归J %臧Ja;木M未Mv;水S 7 S(b) &'S川S(C);小W(x)火W(u)云Wy 一亦W不Wb雨Wv尚Wa风Wf气Wq光Wr;土T |5 Te厂T(c)山Ta石Ti 士T(h)谷Tv阜Tf邑Ty;牛Kn犬Kq隹Kz羊Ky虫Kc马Km鱼Kv豕Ks鸟Ki巴Kb产Kh亥Kr互 Kj象Kx龙Kl兔Kt鹿Kl豸Kz鼠Ks乌Kw黾Ki龟Kg;廿C tSH六Cv升Cg十C(s)主C丰C(f)屮C生Cp廿Ch井Cj冊C(x) 丌C卅C(s);人R儿R(e) ARj^Rj入R(u)々R;目E尸Ei老El耳Ee见Er页Ey自Ez欠Eq广Eb而Eh舌Eo歹Ed皮 Ep羽Ev角Ej身Es面Ea毛Em骨Eg牙Ey髟Eb齿Ec飞Ef血Ex ft Eg囟Ex鼻 Eb肉Er;心Q卜Q(b) 〃Q示Qs _乍(3非Qv 一才Q鬼Qg丄Q;no;手F寸Fd力Fl工Fg _于F _举F;大N(r)女Nv子Nz夫Nf母Nm氏Ns民Ni臣Nc毋Nw;言I工I方If六Iv 享Io文Ix音lb高Io亡Iz册Ic齐Ij直Iz曲 Iq -豕la龠Iv;糸Y(s)衣Yi巾Yj也Y乡Y幺Y(a)县Yc革Yg韦Yw麻Ym -故Yb乡Yx;匕U(b)禾U(h)竹Uz米Um甘Ug U U食Us酉Uy —化Uh皿Um两Ul臼 Uj豆Ud斗Ud辛Ux北Uv缶Uf瓦Uw耒Ul鬲Ul瓜Ug香Ub麦Um卣Ul鼎Ud韭 Uj鬯Uc;A^门A 口 Ak门Am广Ag TO As户Ah穴Av面Ax爿Aq ~罕Av片Ap西 Ax四As闺Ac鬥Am冈Ax;LL夂L止Lz立Li车Lc ^ L疋L(s)足Lu走Lt行Lx舟Lz之L J_ L _年L ^ L内La丼L _条L亍L(c);厶G(s)田G(a)王G(w)贝Gb由Gy玉Gd壬Gr;八V(b) 二V(e);又X 乂 X大X夂Xq 3 Xj爪Xz聿Xv支Xc _丈X釆Xm %臼Xx;一H可Ho尤Hy匚Hk 丁Hd七Hz五Hu甫Hp先H j辰Hc;I S;j P勺Pk几P用Pv千Pq及Px九Pj丸Pd凡Pd 乐Pz 卬Pz;、D;"Z L Z厶Z "1 Zk P Zj艮Zg 7 Zj己Zj巳z(s)乙Zy 已Z 发Z 4 Zs丑Zt;(括号中的小类码表示专用小类码)。
9、 一种汉字编码键盘,其特征在于根据权利要求1或3所述的汉字部件分类和编 码方案,把代表性部件或者大类名称直接印在英文字母键盘的相应的键位上,形成汉字编 码键盘。
全文摘要
本发明描述了一种汉字和汉字部件的计算机输入方法,将组成汉字的部件,按照字源含义和形似特征划分成28个大类,对应到计算机键盘上的26个英文字母,形成部件的大类码。此外,多数部件还根据其音形信息配置了一个实际使用时可以省略的小类码,使得每个部件被表达为1~2个字母的编码。而后将汉字按照书写顺序或者部首拆分顺序拆分成部件序列,并代之以部件编码,从而实现汉字和词语的编码表达及其计算机输入。本输入法易学难忘、合理高效,值得推广。其编码方案符合汉字的构造机理,有利于汉字文化的继承,还可适用于字典编纂、文字教学、汉字排序和检索等领域。
文档编号G06F3/023GK101393482SQ20081017472
公开日2009年3月25日 申请日期2008年10月24日 优先权日2008年7月18日
发明者谢振斌 申请人:谢振斌
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1