优化汉字码输入法的制作方法

文档序号:6615807阅读:265来源:国知局
专利名称:优化汉字码输入法的制作方法
技术领域
本发明属于电脑汉字编码输入方法,也就是中文计算机输入法。 因为它解决了长期未能解决的汉字编码键盘输入难题,所以当时称为 汉字码输入法,本发明是对汉字码输入法的优化改进,所以称为优化 汉字码输入法,还涉及了为实现这一输入法的键盘。
背景技术
键盘输入是目前输入法中技术最成熟、使用最广泛的输入法。键 盘输入的特点是必须对输入的汉字进行编码,汉字编码是指用一组代
码表示一个汉字。按汉字编码所在键,通常要按1~4键输入一个汉字。
键盘输入按编码划分,可分为音码、形码、音形码三类。
音码是以汉语拼音为基础,利用汉字的读音进行编码。音码的优 点是使用方便,只要会普通话,就可以进行输入,简单易学,所以使 用最为广泛。缺点是同音字多,导致单字重码率高,汉字输入速度慢。 还有对不认识的字无法直接输入,对发音不准的字也不能很快输入。 形码利用汉字的字形特征进行编码,克服了音码重码率高、输入 速度慢等缺点,但往往汉字部件太多,记忆麻烦,另外有时拆分也麻 烦。有的形码采用将汉字五种基本笔画二二组合的方法,汉字部件少, 记忆方便,但却付出了不够直观,将汉字部件拆散了的代价。虽然形 码虽然声称对不认识的汉字也能迅速输入,但对于一个文盲来说,他 打字的速度是要受限制的,根本原因是汉字的字与词无明显间隔,不 知道哪个是词组,无法利用词组输入,所以形码输入人员也要有文化 才能快速输入。
音形码利用汉字的语音特征和汉字的字形特征编码。它利用了汉 字的音码和形码各自的优点,兼顾了汉字的音和形,往往较为简单,容易学习和记忆,有的音形码比如三五音码等输入法重码率低,输入 速度足以与任何形码相比,利用整个拼音的音形码还有利于推广普通 话,优点十分明显。音形码的缺点是打字时在音和形之间思维不断转 换,容易疲劳,当然对打字熟练者来说,往往已熟记汉字的编码,见 字识码,根本不存在音和形之间思维转换问题。还要指出的是,只用 汉字声母参与编码的音形码,由于必须舍弃韵母,与人们的习惯思维 不符,才特别存在音形转换问题。如果完整地利用了汉字的声母和韵 母,即利用了汉字的整个拼音,并且规定音码部分在先,形部编码部 分在后的话,则思维不大需要在音和形之间不停转换,基本不会影响 思维。因为在一般的文章中,大多数都是词语,平常打字时,往往尽 量采用词组输入的方式,因此大部分内容都可用拼音输入。还有一些 常用的字也可用拼音输入,即便要用到形部编码, 一般也只要输入形 部编码的第一码,而形部编码的第一码多为汉字的偏旁,偏旁数量是 有限的,且常见偏旁数量更少, 一般都有固定编码代码,也是很容易 记住形部编码的第一码的。真正需要输入形部编码第二码的单字是很 少的,只有对这部分汉字才不大容易记住形部编码,由于输入形部编 码的第一码后,第二码会提示出来,因此实际上没有多大必要需要记 住形部编码第二码,因此这种音形码实际上是以拼音为主,以形部编 码为辅助码的,它基本不会影响思维。因此如果想发明音形码,为避 免音形转换难题,要尽量利用汉字的整个拼音输入,而不要只利用拼 音的首字母或声母。由于受方言的影响,有些人读不准某些汉字的拼 音,但这也可通过南方模糊音解决,而且多利用拼音输入汉字也有利 于推广普通话。实际上即便不知道汉字的读音,只要知道形部编码, 也能打出该字。整个汉字拼音在先的音形码还可只作为拼音输入法来 使用,正因为如此,整个汉字拼音在先的音形码相对与其它音码、形码、只用汉字拼音首字母的音形码来说,越来越显示出其优越性。
可利用全拼的话,则存在着拼音的码长过长,输入不便的问题, 利用双拼则能使码长大为减短,可目前的大多数双拼都比较难记,要 死记硬背什么口诀,所幸的是本人发明了几种新的双拼,由于发明人 是王治阳,所以统称为王治阳双拼,已申请专利,很简单易学,不要 记口诀,几分钟就可学会。所以发明音形码的关键是发明出简单易学 且能有效区分同音字的方法,这就要靠音形码的形部编码部分设计简 单合理,然而目前各种利用了拼音的音形码的形部编码往往存在汉字 部件多或不够直观规范问题。如何选用尽可能少的汉字部件,同时使 重码率尽可能低,是一个未解决的大难题。
针对于此,本人发明了汉字码输入法,它在王治阳双拼后,再利
用28个左右的多笔画部件和五种基本笔画输入形部编码,具有汉字 部件简单、直观、规范特点。稍微不足的是基本部件排列时按笔画数 排列,有点不便记忆,若用拼音或象形排列可能记忆更方便点。另外 取码规则没有考虑到少数部首在字尾时的情况,以1_、 IS 、鸟结尾的 汉字会发生大量的重码,于是本人在改进后推出了按拼音声母或象形 排列,取码规则更为合理的优化汉字码输入法。

发明内容
这样,目前的汉字输入法要么汉字部件不规范或选取汉字部件过 多;要么码长太长;要么重码过高,影响输入速度;要么只利用汉字 的声母或拼音首字母,要么不够直观,要么取码规则不太合理,都没 能很好解决简单的不快速,快速的不简单这一技术难题,输入汉字不 甚方便。
本发明的目的是提供一种汉字部件规范直观、简单易学、输入汉 字简便快捷的计算机汉字编码输入方法,那就是优化汉字码输入法。为达到优化汉字码输入法的目的,本发明规定汉字码的编码由音 码和形部编码两部分组成。音码部分采用王治阳双拼,占二码。形部 编码部分也最多占二码。当然音码也可用全拼或其它双拼或简拼或注 音字母拼音或不完整拼音。
音码部分宜采用王治阳双拼,王治阳双拼将韵母按第一个字母分
为a、 o、 e、 i、 u区,每区又按韵母个数多少以及a、 o、 e、 i、 u、 n、 g的顺序排列,极具规律性,当然也可不按韵母的个数,只考虑按a、 o、 e、 i、 u、 n、 g的顺序将韵母分区排列。唯一需要记忆的是双拼韵 母的合并规律。在记忆双拼韵母合并规律时,只要记住以a、 ong结 尾的多个字母的韵母合并排列和以ang结尾的4个字母合并排列就 是,ia、 iong、 iang这几个i开头的多个字母都被合并,另外ui排在 v上,uo排在o上,读音简记为"为余"(为我),"我窝"。见附图1、 2。
形部编码由两位代码组成,本发明优选了五种基本笔画和26个 或28个多笔画部件参与编码,这五种基本笔画和多笔画部件被称为 基本部件,简称部件,全部选自汉字的偏旁部首,简单常见又直观, 并且数量少,容易记忆。由于国家语委将五种基本笔画也归类为汉字 部件,因此在本发明中称五种基本笔画称为单笔画部件,而26个或 28个汉字部件由多个笔画组成,称为多笔画部件。在形部编码时要 优先按笔画多的部件编码,否则选取多笔画部件就无意义。
形部编码的取码规则独体字,按书写顺序取第一个和最末一个 基本部件的相应代码编码,当只有一个基本部件时,只取这个基本部 件的相应代码。合体字,按整体结构一分为二,分成两部分,先写部 分称为首部,也可称为先部;后写部分称为剩部,也可称为后部。当 首部含有部首时,按书写顺序取首部的第一个、最末一个基本部件的相应代码,当首部只有一个基本部件时,再按书写顺序取剩部的第一 个基本部件的相应代码进行编码;当首部不含部首时,按书写顺序取
首部的第一个基本部件的相应代码编码,再到剩部取部首的第一个基 本部件的相应代码编码。取码时要优先按笔画多的基本部件编码。
这一编码规则是多年潜心研究和突发灵感的结果。为降低重码 率,必须判断首部是否含有部首,不含部首的话,只能取一码,再到 剩部取部首进行编码。首部含有部首的话,最多可取两码,当部首为 某个优选的多笔画部件,只能取一码时,再对剩部的第一个基本部件
编码,这就降低了重码率;当首部含有部首,不止一个基本部件,可
取两码时,就取两码,这样有的部首就用两码表示,这就减少了部首 的编码数量,达到了精简部首数量的目的,因而简单易记。之所以规 定首部最好取首尾两个部件的编码,是因为若规定首部取前二个部件 的代码的话,"田"和"贝"与"目"的编码就会相同,造成重码。 少数部首如L、 IS 、鸟等惯常出现在字尾,若不考虑首部是否为部首 而硬性规定首部能取足两码就取足两码的话,就会发生大量的重码, 因此有必要规定首部不为部首时,只能取一码,再到剩部取一码。这
样通过优化规定取码规则,仅用26个基本部件和五种基本笔画就做 到了单字重码率极低。
在国标6763个汉字中,合体字占了绝大多数,约为95%。同音 同偏旁的合体字数量较多,约有六、七百对。? 、 *、 口、木、矛、 韦、4 、女、i 、十、月、虫、土、纟、火、广、^、足、山、石、 日、王、IS 、鱼、,包括丰、禾等偏旁产生的同音字较多,为降低重 码,这些偏旁被选了出来,分别用一个字母或别的符号编码,当然个 别偏旁也可弃而不选。考虑到4与卑属于不同的部首,总共只能减少 五对左右的重码,因此在优化汉字码输入法中也可弃而不选。而有的偏旁如"田"、"目"、"贝"等虽然常用,可只有一、二对同音字,甚 至没有同音字,因此弃而不选。本人研究还发现,将汉字一分为二后, 同音同偏旁的合体字,不是部首的部分的第一笔为同类基本笔画的情
况更是出乎意外的少,只有100多对,其中部件"十"和出现
得比较多,约有四、五对重码,它们也可被选出,分别用别的字母或 符号编码。考虑到汉字部件"十"往往不出现在汉字的首部,而"A" 在汉字首部也出现得较多,因此,在优化汉字码输入法中弃"十"而 选"^",将"A"用一个字母或别的符号编码,当然也可将部件"十"
入选。L、 (S 、鸟、心等部件往往出现在字尾,其中心可被t包含, IS己经入选,而L、鸟作为部首往往出现在字尾,也就是说出现在剩 部,通过优化规定取码规则,规定首部不为部首,只能取一码,再到 剩部取一码后也可弃而不选。这样,26个多笔画部件和五种基本笔 画被优选出来,排列到键盘上,将这26个多笔画部件分别用一个相 应的字母或标点符号编码,而五种基本笔画则可从减少重码角度出 发,可选其中的几个笔画与26个多笔画部件合并排列在同一个键上, 用同一个字母或符号编码。当然这26个多笔画部件不是固定的,可 少于26个多笔画部件,也可多于26个多笔画部件,只要26个左右 即可。例如也可将汉字部件"十"或或"鸟"或"才、"包括" 等部件入选,用一个字母或标点符号编码。
为便于记忆,在优化汉字码输入法中排列基本部件时不按笔画数 和横、竖、撇、点、折的次序排列,而按拼音或象形排列,见附图3 或附图4所示。本人建议按附图3排列,它以按基本部件的偏旁读音 的拼音字母排列为主,对少数几个同声母的基本部件改按象形的方式 排列。这样由于按偏旁读音几乎无需记忆,实际上只要记少数几个同 声母的基本部件即可,由于这几个基本部件与英文字母形似,也能很快记住,记忆量很小,当然汉字的部件毕竟与西文字母有所区别,只
能部分相似。附图4完全按象形排列,可汉字的方块笔画部件与西文 字母毕竟有所区别,难以做到十分相像,需要按象形记忆的汉字基本 部件就要多上几倍,记忆量也相应多上几倍,因此本发明也不太建议 用这种方式排列经过优选的基本部件。横、竖、撇、点等基本笔画的 在本编码中出现的频率较高,为降低重码,不宜与基本部件排在同一 键上,排到标点符号键上,用标点符号编码比较合理。折因为频率太 低,与有的多笔画部件排在同一健上的话,几乎不会导致重码,因此 就按拼音首字母排列。
这样,通过优选26个多笔画部件和五种基本笔画,优化规定取 码规则,就做到了形部编码既简易记,又能有效地区分同音字,重码 率很低。这就解决了其他任何输入法都未能解决的难题,真正做到了 简单直观、重码率很低、输入快速,是唯一一种理想完善的汉字输入 法。这就是称为汉字码输入法的根本原因。
对于文化不高的人来说,很难判断首部是否有部首,这里提供另 外一种简便的取码规则,那就是判断剩部是否为某个优选的多笔画部 件或为偏旁"i_"、"鸟",是的话,首部就只取一码,再到剩部取码; 不是的话,首部最多可取两码,当首部只有一个基本部件,只能取一 码时,再到剩部取码。这时为便于记忆,就应将"L"、"鸟"入选多 笔画部件。为减少重码,保持编码的一致性,就将它们按首笔画编码, 即与点合并排列,"鸟"与撇合并排列,分别用一个标点符号 编码。见附图5。
少数合体字首部和尾部都含有部首,还有少数合体字首部和尾部 都似乎不含有部首,这时汉字码采用了容错码技术,输入法软件提供 了容错取码规则,规定既可首部取足二码,也可首部、剩部各取一码。还有少数汉字难以分清合体字和独体字,这时也提供了容错码技 术,输入法软件提供了容错取码规则,规定既可按独体字编码,也可 按合体字编码。
利用输入法软件,在计算机键盘上敲击某个汉字或词组的相应的 汉字编码所在的键,就可完成输入。


附图1为王治阳双拼键盘排列图之一 附图2为王治阳双拼键盘排列图之二
附图3为形部编码键盘排列图之一 附图4为形部编码键盘排列图之二 附图5为形部编码键盘排列图之三 附图6为形部编码键盘排列图之四 附图7为形部编码键盘排列图之五 附图8为形部编码键盘排列图之六
具体实施例方式
汉字码由两部分组成, 一部分是音码,即拼音,或称拼音码,另 一部分是形部编码。汉字码的两部分可前可后, 一经选定,不能改变, 为便于想打,与思维一致,又能充分利用标点符号键,建议拼音在先, 形部编码在后,在编码实例中就采用这种方法。拼音可采用全拼或双 拼或简拼或不完整拼音,不想学习双拼的人可采用全拼,即采用一个 汉字的完整拼音。所说的简拼是指三拼,即将一个拼音最多用三个字 母表示。为縮短码长,提高输入速度,建议使用双拼,最好采用几分 钟可学会的王治阳双拼。当然也可混合使用全拼、双拼,现在汉字输 入技术有了很大的进步,可做到全拼、双拼兼容,而不需要调整输入 法状态。在实施例中选用王治阳发明的双拼,同时也可设计成与全拼兼容,当作全拼输入法来使用。
王治阳双拼是一种声母、韵母的键位配置合理,在键盘上排列规 律性强的双拼计算机汉字输入法。可单独作为一种输入法使用,也可 作为优化汉字码的音码部分使用。
王治阳双拼的技术方案的特征在于
(1) 单个字母的声母与各字母键一致,而翘舌音ch、 sh、 zh按 音序分别用i、 u、 v表示,以便于记忆,当然也可将ch用u表示,sh 用i表示,zh仍用v表示,单韵母ii用字母v表示。根据韵母的语音
互补关系,单个字母的韵母除了可排按声韵合并规律,被它包含的韵 母外,不能再排其它韵母。复韵母和鼻韵母也用单个字母表示,开口
呼韵母配置在标准键盘中排,并按第一个字母分为a、 o、 e区;齐齿 呼韵母配置在键盘上排,称为i区,合口呼和撮口呼韵母配置在标准
键盘下排,称为U区,包括ii区;见附图1。当然也可将合口呼和撮 口呼韵母配置在键盘上排,称为u区,齐齿呼韵母配置在键盘下排,
称为i区。每区又按韵母字母个数从左到右排列,字母个数相同的韵
母按a、 o、 e、 i、 u、 n、 g的次序从左到右排列。
(2) 各韵母与字母、标点符号映射关系设定为-
a-a b-uai c-un tin d-ai
e-e f-an g-ang h-ou
i-i j-ong iong k-ei 1-en
m-uang iang n-uan Uan o-o uo
p-ing q-ie r-in er s-ao t-iao
u-u v-U ui w-iu x-ue Ue
y-ian z-ua ia ;-eng
见附图1所示。这里翘舌音ch、 sh、 zh按音序分别用i、 U、 V表示,本人认为这种双拼键盘排列方式是比较理想的,因此在编码实 例中采用这种双拼。
当然也可不考虑韵母的个数,对每区按韵母字母根据a、 o、 e、 i、 u、 n、 g从左到右排列;
这时各韵母与字母、标点符号映射关系设定为
a-a b-uang iang c-uan Uan d-an
e-e f-ang g-ao h-ong iong
i-i j-ou k-ei 1-en
m-un iin n-ue Ue o-o uo p——~iu
q-ian r-ie er s-ai t-~in
u-u v-li ui w-iao x-uai
y-ing z-ua ia ;-eng
在键盘上的排列如附图2所示,这里为防止绕过专利,ch用u 作代码,sh用i作代码。当然也可将字母个数相同的韵母按英文音序 从左到右排列。还可不考虑字母个数,将韵母按英文音序排列。由于 中国人对a、 o、 e、 i、 u、 n、 g的顺序比英文音序更便于记忆,建议 按a、 o、 e、 i、 u、 n、 g的顺序记忆。
(3) 只有韵母没有声母的,取e或o或a作声母,还可取韵母 的第一个字母作声母代码,再补上韵母代码,在编码实例中选用e作 声母代码;选用e作声母代码有个优点,那就是er排在r上的话,就 能做到全拼与双拼的拼写形式完全相同。
(4) 汉字码输入法的音码部分的输入步骤为双拼根据上述声 母或韵母与字母键的映射关系依次输入单个汉字的声母和韵母的代 码即可。
下面再对形部编码作详细说明。汉字可分为独体字和合体字二类。本人在长期的编码研究中早就 认识到一个汉字是否为左右结构是一 目了然的,左右结构的汉字很容 易在其产生空隙处将它一分为二,而上下、包围结构的汉字有时不易 一分为二,甚至有时难以分清一个字是独体字还是上下结构或包围结 构。根据一个汉字是否为左右结构划分是最简单易学,但这样不利于 降低重码,实际上对于难以划分结构的汉字还可以用容错码的技术加 以解决,即容许对同一个汉字根据不同的划分进行不同编码,所以还 是划分为独体字和合体字为好,这样也与人们的传统思维一致。需要 指出的是将合体字一分为二,分成二个部分别进行编码的技术由来已 久,其他人在发明中也对此做出了重要贡献。
合体字根据整体结构将其一分为二,按书写顺序,含首笔画的部 分称为首部,即首部含有汉字书写顺序的第一个笔画,也可称为先部, 剩余的部分为剩部,也可称为后部。这一划分是很有用的,例如有的 包围结构的汉字如"或"、"载"等字,它的包围部分按笔顺要分开书 写,由于规定含有第一笔的部分为首部,不含第一笔的部分为剩部, "或"字的首部就为"戈",余下的部分就为剩部,"载"字的剩部就 为"车",其它部分为首部。
对左中右结构或上中下结构的汉字,可规定将其中间部分划为剩 部,当然也可规定将中间部分划到首部,其余部分划为剩部,还规定 将中间部分去掉,只取右边或下边部分为剩部。
当一个汉字为上中下结构或左中右结构时,还可规定按成字优先 的原则划分。即若两边都能成字的话,要按"两边都成字优先"的原 则划分,若一边能成字的话,要按"一边成字优先"划分。如"营" 字,是上中下结构,若把^列为首部,则两边都不能成字,若把"吕" 列为剩部的话, 一边能成字,因此要把"吕"列为剩部。又如"案"字,若把列为首部,则两边都不能成字,若把"木"列为剩部 的话,则两边都能成字,所以要将"安"列为首部,"木"列为剩部。 当然这类字可采用容错码技术予以解决。
当一个汉字为上中下结构或左中右结构时,最佳的划分方法是根 据绝大部分的合体字都为形声字的特点,按形声结构划分为形部和声 部二个部分。这样"案"字,必定"安"列为首部,"木"列为剩部。 "营"字的话,"吕"列为剩部,其余部分为首部。还有的合体字为 会意字,也可按会意结构划分。
又将汉字的各种笔画按国家语委的规定归类为横、竖、撇、点、 折五种基本笔画,笔画是书写汉字时,不间断地一次写成的一个线条, 在只考虑汉字的运笔方向,而不计其轻重长短时,可将笔画归类为横、 竖、撇、点、折五种基本笔画,其中提并入横,竖钩并入竖,捺并入 点,其余各种带转折的笔画并入折,在本发明中横、竖、撇、点、折
五种基本笔画称为单笔画部件。为降低重码,还优选26个组字频率 或实用频率高的几个笔画结构即国家语委规定的汉字部件排到字母 键上,参与编码,在本发明中称为多笔画部件。单笔画部件和多笔画 部件统称基本部件,简称部件。
形部编码的取码规则是独体字,按书写顺序取第一个和最末一 个基本部件的相应代码编码,当只有一个基本部件时,只取这个基本 部件的相应代码编码。合体字,按整体结构一分为二,分成两部分, 先写部分称为首部,也可称为先部;后写部分称为剩部,也可称为后 部。当首部含有部首时,按书写顺序取首部的第一个、最末一个基本 部件的相应代码,当首部只有一个基本部件时,再按书写顺序取剩部 的第一个基本部件的相应代码进行编码;当首部不含部首时,按书写 顺序取首部的第一个基本部件的相应代码编码,再到剩部取部首的第一个基本部件的相应代码编码。在取码规则中之所以规定首部含有部 首,而不是规定首部为部首,是因为少数汉字首部除了含有部首外, 还含有其他部件,例如"颖"字的首部的部首在"禾"部,"莺"的 首部除了卄,还有^。之所以规定取剩部的部首编码,而不取剩部的 第一个部件编码是因为少数汉字部首在剩部的中间或字尾,如"羸" 等字,当然也可规定取剩部的第一个部件编码。在编码实例中就按这 一规则取码。
这一编码规则是长年潜心研究和突发灵感的结果。在国标6763 个汉字中,合体字占了绝大多数,约为95%。同音又同偏旁的合体字 数量较多,约有五、六百对。往往出现在字首的部首中,? 、 *、 口、 木、矛、,、4等偏旁产生的同音字最多,?约有六十余对同音字, 其它的也有三、四十对同音字,为降低重码,这些偏旁必须被选出, 分别用一个字母或别的符号编码。女、i 、十、月、虫、土、纟、火、 广等偏旁就只有十来对同音字,为降低重码,这些偏旁也要被选出, 分别用一个字母或别的符号编码。^、足、山、石、日、王、fS 、鱼、 禾等偏旁只有五对左右的同音字,为降低重码,这些偏旁也可被选了 出来,分别用一个字母或别的符号编码,当然个别偏旁也可弃而不选。 而有的偏旁如"田"、"目"、"贝"等虽然常用,可只有一、二对同音 字,甚至没有同音字,因此弃而不选。本人研究发现,同音同偏旁的 汉字,除部首以外部分的第一笔为同类基本笔画的情况更是出乎意外 的少,只有100多对,其中部件十、^出现得比较多,^还经常出现 在首部,因此一被选了出来,用一个字母或别的符号编码。
形部编码的取码规则还可规定为独体字,按书写顺序取第一个 和最末一个基本部件的相应代码编码,当只有一个基本部件时,只取 这个基本部件的相应代码编码。合体字,按整体结构一分为二,分成两部分,先写部分称为首部,也可称为先部;后写部分称为剩部,也 可称为后部。当首部为某个部首且该部首的基本部件数在二个或二个 以上的汉字时,按书写顺序取首部的第一个、最末一个基本部件的相 应代码编码,其他汉字按书写顺序取首部的第一个基本部件的相应代 码编码,再到剩部取第一个基本部件的相应代码编码。采用同样的基 本部件的话,大多数汉字编码按这一编码规则编码的结构与前述编码 规则编码的结果相同。
接着将26个多笔画部件和五种基本笔画排列在键盘上。排列时, 多笔画部件一般排到字母键上,用字母作代码,而五种基本笔画可与 多笔画部件合并排列,也可分散排列到标点符号键上,用标点符号编 码。为便于记忆,排列时主要以部件读音的声母为代码,为避免重码, 若干声母读音相同的部件被取了出来,按象形方式编码。横、竖、撇 等基本笔画的出现的频率较高,为降低重码,不宜但并不排除与多笔 画部件排在同一个键上,在编码实例中,将它们分别排到三个标点符 号","、"."、"/"键上,用三个标点符号","、"."、"/"编码比较有 序合理。点、折等基本笔画的组字频率相对较低,可将它们与多笔画 部件合并排列,分别用两个字母编码。当然由于基本笔画点的组字频 率与撇相差不大,也可将基本笔画点排在其它一个标点符号键上,用 该标点符号编码,比如排在分号";"上,用";"编码,或者排在单 引号","上,用","编码。在一个编码实例中,点用分号";"编码。 还可将基本笔画折排在其它一个标点符号键上,用该标点符号编码。 将横、竖、撇、点四个基本笔画分别用四个标点符号编码还有个好处, 那就是充分利用了键盘上的键,扩大了编码空间,降低了重码率,又 不影响指法和标点符号的输入。26个多笔画部件尽量用字母编码。
26个多笔画部件和五种基本笔画在键盘上的优选排列见附图3所示。26个多笔画部件、五种基本笔画与字母、标点符号的影射关
系设定为
a——鱼 b——r c——* d——?
e——禾 f~~净 g——^ h——火
i——虫 j——, k——口 1——纟
m-木 n-女 o-日 p-P
q-月r-j s-石 t-土
u-山v-^ w-王 x-十
y-i z-足、折;-点
,——横 .——竖 /^撇 根据设定关系将部件分别用相应的字母和标点符号编码。
下面作具体解说a似鱼,鱼的字首又与A相似;b是广的声母; c是^的声母;d是?的声母;e是禾的韵母;f似矛;g是^的声母; h是火的声母;i因为ch排在其上,而ch是虫的声母;j是,的声母 k是口的声母;L似纟的首笔;m是木的声母;n是女的声母;O似日 即太阳的外形;p似P ; Q似有时残缺有时圆的月亮,就作为月代码 r是4的声母;s是石的拼音的首字母;t是土的声母u因为sh排在 U上,而sh是山的声母;V因为zh排在U上,而zh是^"的声母;W 是王的声母;x是个的声母;y是i的声母;z是足和折的声母;这 些字母就分别作为相应的部件的编码。";"作为点的代码;","作为 横的代码"."作为竖的代码;"/"作为撇的代码。将四个标点符号用 作横、竖、撇、点的代号,有两个好处 一是避免这四个基本笔画与 多笔画部件排在同一键上后,与多笔画部件代码相同,发生重码。二 是扩大了编码空间,又不会影响标点符号的输入。
当然也可将汉字部件根据与英文的相似程度排列,即根据象形排列。 一种优选的排列见附图4。这时26个多笔画部件、五种基本笔 画与字母、标点符号的影射关系设定为-
a——4 b——日 c——a d——石 e——山 f——矛 g——足 h——* i—i j—广 k^械 1—个
m-木 n-月o-口p-[S
q——虫 r——女 s——? t——土
u-鱼v-韦 w-纟 x-火
y-禾 z-王、折 ;-点
,——横 .——竖 /——撇
根据设定关系将部件分别用相应的字母和标点符号编码。 下面作具体解说大写a似^f ;大写b似日;C似^ ; d似石,框在 下部;大写e似山;f似矛,特别似反矛;g似足,框在上部;大写h 似*; i似i ; j似广;k似,似半个";1似十;m似木,似树林, 木的声母也是m ; n似月;O似口 ; p似IS ;大写q似虫,都是框 内有出笔;大写r似女;s似?,似水流形,?声母也是s; t似土, 土的声母也是t; U似鱼,似鱼泡,读音也似;V似韦字头或字尾;W
似纟;x似火;y似禾,禾的形状往往似y ; z似王,也与折"乙"的
外形相似。为便于记忆,就将横、竖、撇、点按次序分别","、"."、
"/"、";"。当然也可按别的方式分别排列,如将横排在";",将竖排 在"/";将撇排在",";将点排在"."上,用相应的标点符号编码。
将多笔画部件完全按形似排列在键上,有个好处,那就是不必象按读 音排那样,不得不将有些部件改按象形排,编码原理具有一致性,有 的人可能更喜欢这种方式。
有的基本部件在作为偏旁后,字形会有所改变,但必须视为同类
23基本部件,用同一字母编码,这类基本部件如"和竹,足和足,4和 人,i和言,,和金,十含心,火和;、、、,矛和手,?和水等。这一规 定适用于所有的附图。
对于文化不高的人来说,很难判断首部是否有部首,这里提供另 外一种简便的取码规则,那就是判断剩部是否为某个优选的多笔画部
件或为偏旁"i_"、"鸟",是的话,首部就按书写顺序只取一个基本
部件的相应代码编码,再到剩部取该多笔画部件的相应代码编码;不
是的话,首部最多可按书写顺序取第一个和最末个基本部件的相应代 码编码,当首部只有一个基本部件,只能取一码时,再到剩部按书写
顺序取第一个部件的相应代码编码。这时为便于记忆,就应将";L"、 "鸟"入选多笔画部件。为减少重码,保持编码的一致性,就将它们 按首笔编码,即与点合并排列,"鸟"与撇合并排列,分别用 一个标点符号编码。见附图5。附图5与附图3的区别是多了两个偏 旁":L"、"鸟"。
这时多笔画部件、基本笔画与字母、标点符号的影射关系设定为 a——鱼 b——广 c——卄 d——? e——禾 f~~才 g——^ h^火 i——虫 j——韦 k——口 1——纟
m-木 n-女 o-日 p-卩
q-月r-4 s-石 t-土
u-山v-械 w-王 x-十
y-i z-足、折 ;-点、i_
,——横 .——竖 /——撇、鸟
当然由于点、折等基本笔画的组字频率相对较低,也可将它们按 拼音首字母排列,分别用D、Z编码。还可优选"十"、"卑"包含"丰"这两个部件,这时多笔画部件和五种基本笔画在键盘上的排列见附图 6所示。排列方法同新华字典,是根据笔画数的多少和横竖撇捺折的 顺序排列的。多笔画部件、基本笔画与字母、标点符号的影射关系设 定为-
a——^ b——械 c——^ 、 , d——纟、点
e——[S f——王 g——木 h——日
i——山 j——月 k——火 i——石
m-鱼 n-足o-十p-、?
q-4 r-土 s-女 t-净、十
u-□v-虫 w-i x-广
y-卄 z-未、折;-,
,——横 .——竖 /~~撇
当然也可将汉字部件根据起笔分为横、竖、撇、点、折五区,每区又 根据汉字部件笔画数的多少排列,笔画数相同的,再根据横、竖、撇、 点、折的次序排列, 一种优选的排列见附图7。在附图7、 8中多笔 画部件"十"就不入选了,这时多笔画部件、基本笔画与字母、标点 符号的影射关系设定为-
a~~土 b——械 c——, d——廿、点 e——? f——王 g——木 h——石 i——P j——口 k——山 1——曰
m-足 n-鱼 o-女 p-纟
q——i r——— s——净 t——火
u-^ 、氺v-禾 w-十 x-月
y——广 z——4 、折;——虫 ,——横 .——竖 /~~撇当然还可将汉字部件根据起笔分为横、竖、撇、点、折五区,每
区又根据横、竖、撇、点、折的次序排列, 一种优选的排列见附图8。 在这里,点排到";"键上,这时多笔画部件、基本笔画与字母、标 点符号的影射关系设定为
a——王 b——月 c——" d——矛 e——? f——卄 g——木 h——石 i——卩 j——口 k——曰1——足
m-山 n-^ o-女 p-纟
q~~T r~~火 s——土 t~~a
u-^ 、 , v-{ w-十 X-禾
y-i z-,、矛斤;-虫、点
,——横 .——竖 /~~撇
在形部编码时还可规定义部即部首优先的原则,形部编码时,先 取该汉字的偏旁部首编码,若该汉字的偏旁部首为只为某一个优选的 基本部件,则取一码,再按书写顺序取汉字中除掉该偏旁后的剩余部 分的第一个部件编码,即按书写顺序取不属于偏旁部分的第一个部件 编码。若该汉字的偏旁含有二个及以上优选的基本部件,则按书写顺 序取该偏旁的首尾两个部件编码。这些都是对本发明的变形。本人不 太赞成这种方法,因为这样有时会与书写顺序不符。
可见,形部编码按附图3和附图4比较简单。由于按附图1和附 图3排列,较为简单易记,在编码实例中按附图1和附图3编码。编 码实例如"汉"的编码,声母是h,韵母为an,代码是f,音码部 分就为hf,形部编码为合体字,按整体结构一分为二,首部为、?,剩 部为"又",首部只有一个部件?,编码为d,再取剩部的第一个部 件"折"编码,代码为z,"汉"的编码为"hfdz"。又如"字"的编码,音码部分按双拼,为Zi,形部编码按合体字编码,首部只有一个 部件A,编码为g,再取剩部的第一个部件"折"编码,代码为Z,
"字"的编码为"zigz"。又如"封",全拼为feng,双拼为f;,形部 编码时,首部可取足首尾两码,首尾分别为两个部件"土"、 "土", 代码分别为t, t,"封"的编码就为"f;tt"。注意取基本部件时要遵循 取大优先的编码原则,要优先取笔画多的基本部件编码,例如"封" 字的首部编码时应取两个"土",而不能取两个横,因为"土"的笔 画数多于"横",要按"土"编码。又如"木"的编码,双拼为mu, 为独体字,只有一个基本部件"木",代码为m,木的编码就为mum。
为提高输入速度,对于高频字,设计了简码,它对常用的汉字只 是取其完整编码的前编1个、2个或3个编码,再加1个空格键就构 成简码。由于规定音码在先,形部编码在后,许多汉字的形部编码并 不需要全部输入,所以单字的编码实际上是音码为主,辅以形部编码。
由于拼音的二级简码只有四百来个汉字,而编码空间有729个, 因此,对于其余三百来个编码空间,还可设立简码词,从而进一步提 高打字速度。如汉字的拼音无kian的形式,双拼编码也就无ky的形 式,而ky却可以作为"可以"的编码,因为为"k"、"y"分别为"可"、 "以"的编码。由于设有三百多个简码词,从理论上说词组要比单字 的输入速度更快,因此这会明显提高汉字的输入速度。在计算机上敲 击完某个汉字或词组的简码所在的键后,再敲击空格键,就可输入相 应的汉字或词组。
词语输入是提高汉字输入速度的最常用方法,由于规定音码在 先,形部编码在后,词语输入就全部利用音码输入了,由于选用王治 阳双拼,词语输入的步骤是
a、 二字词语,取每个字的声母、韵母的代码依次输入;如"编码"代码为byma。
b、三字词语,取每个字的声母的代码依次输入,再补空格输入; 如"计算机"的代码为"jsj"。当然也可规定取第一字、第二字的前 一码即声母的代码,再取第三字的前二码,不足二码就取一码。还可 规定再取第一字的前二码,不足二码就取一码,再取第二字、第三字 的前一码即声母的代码。
c、四字及以上词语,取前三个字及最后一个字的声母的代码依次 输入;如"科学技术"为四字词,取每个字的声母的代码为"kxju"。 其中u为术的声母sh的代码。又如"新疆维吾尔自治区",编码取前 三个字及最后一个字"新疆维区"的声母的代码"xjwq"。
词组输入时会遇到重码问题,总的来说按拼音输入汉字的有效重 码率要低于拼形码,但也不是没有,遇到同音词,发生重码时, 一个 非常简便的方法是根据上下文采用智能处理。有时无法智能处理时, 有个技巧,可基本避免同音字选择,那就是再输入词组中第一个字或 最后一个字的形部编码的第一个代码, 一般输入第一个字的形部编码 的第一个代码。如输入"uiji"后,其中u为sh的压縮声母,会出现 "实际、事迹、试剂、世纪、史记"等词供挑选,这时每个词的前面 会有数字键供选择,后面会有一个字母或符号供选择,它为第一个字 的形部编码的第一码,采用附图3的话,^、横、个、卄、口的编码 代号分别为"g"、 ","、 "y"、 "c"、 "k"。敲击相应的编码代号所在的 键后就能直接上屏,而无需再用数字键选择重码。这一创新显然十分 简便实用,实际上能做到几乎没什么重码词。
这样,本发明对拼音输入法遇到的重码字和重码词问题都作了成
功处理,采用附图1和附图3的话,十来分钟就可学会,甚至几分钟 就可基本学会,比如双拼只要记住a、 o、 e、 i、 u区开头就可以了,还可结合双拼提示行进行输入,形部编码只有26个多笔画部件和五 个单笔画部件,且大部分基本部件都用拼音的声母作代码。采用附图 2和附图4的话也只要二三十分钟就能学会,使本发明显示出极大的 优越性,成为唯一理想的完善的汉字输入法。
利用优化汉字码输入法软件,在计算机键盘上敲击某个汉字或词 组的相应的编码所在的键,就可完成输入,无重码且达到规定码长的 汉字自动上屏,有重码的汉字根据提示行选择。本发明字词兼容,最 多码长都为4码。" "键为万能学习键,当某个汉字的编码不知道时, 可用"~"代替,帮助把正确的编码找出来,再利用提示项选择。
为了便于使用,还设置了容错码,对一些编码容易出错的汉字, 在错误输入时也能出现所要输入的汉字。
需要指出的是在本说明书、权利要求书和说明书附图中的字母均 不分大小写。
权利要求
1、一种计算机汉字编码键盘输入法即优化汉字码输入法,将汉字的各种笔画按国家语委的规定归类为横、竖、撇、点、折五种基本笔画后,其特征是(1)、汉字码由两部分组成,一部分是音码,即拼音,或称拼音码,另一部分是形部编码,汉字码的两部分可前可后,一经选定,不能改变;(2)、拼音可采用全拼或双拼或简拼或不完整拼音;(3)、形部编码的取码规则是独体字,按书写顺序取第一个和最末一个基本部件的相应代码编码,当只有一个基本部件时,只取这个基本部件的相应代码,合体字,按整体结构一分为二,分成两部分,先写部分称为首部,也可称为先部;后写部分称为剩部,也可称为后部,当首部含有部首时,按书写顺序取首部的第一个、最末一个基本部件的相应代码,当首部只有一个基本部件时,再按书写顺序取剩部的第一个基本部件的相应代码进行编码;当首部不含部首时,按书写顺序取首部的第一个基本部件的相应代码编码,再到剩部取部首的第一个基本部件的相应代码编码;(4)形部编码时,优选五种基本笔画和26个基本部件参与编码,26个基本部件、五种基本笔画与字母、标点符号的一种主要按读音的影射关系设定为a——鱼 b——疒 c——艹 d——氵e——禾 f——扌 g——宀 h——火i——虫 j——钅 k——口 l——纟m——木 n——女 o——日 p——阝q——月 r——亻 s——石 t——土u——山 v—— w——王 x——忄y——讠 z——、折 ;——点,——横 .——竖 /——撇多笔画部件、基本笔画与字母、标点符号的另一种影射关系设定为a——亻 b——日 c——宀 d——石e——山 f——扌 g——足 h——艹i——讠 j——疒 k—— l——忄m——木 n——月 o——口 p——阝q——虫 r——女 s——氵 t——土u——鱼 v——钅 w——纟 x——火y——禾 z——王、折;——点,——横.——竖 /——撇多笔画部件、基本笔画与字母、标点符号的另一种影射关系设定为a——土 b—— c——钅d——艹、点e——氵 f——王 g——木h——石i——阝 j——口 k——山l——日m——足 n——鱼 o——女p——纟q——讠 r——宀 s——扌、十t——火u——衤、礻 v——禾 w——忄x——月y——疒 z——亻、折;——虫,——横 .——竖 /——撇多笔画部件、基本笔画与字母、标点符号的另一种影射关系设定为a——宀 b—— c——衤、礻 d——纟、点e——阝 f——王 g——木 h——日i——山 j——月 k——火 l——石m——鱼 n—— o——忄 p——氵q——亻 r——土 s——女 t——扌u——口 v——虫 w——讠 x——疒y——艹 z—— 禾、折 ;——钅,——横.——竖 /——撇多笔画部件、基本笔画与字母、标点符号的另一种影射关系设定为a——王 b——月 c—— d——扌e——氵 f——艹 g——木 h——石i——阝 j——口 k——日 l——足m——山 n——鱼 o——女 p——纟q——疒 r——火 s——土 t——宀u——衤、礻v——亻 w——忄x——禾y——讠z——钅、折 ;——虫、点,——横 .——竖 /——撇利用优化汉字码输入法软件,在计算机键盘上敲击某个汉字或词组的相应的编码所在的键,就可完成输入。
2、根据权利要求1所述的优化汉字码输入法,其特征是双拼 最好选用王治阳双拼Ch、 Sh、 Zh按音序分别用i、 U、 V表示,单韵 母U用字母V表示,各韵母与字母映射关系设定为a-a b-uai c-un Un d-aie-e f-an g-ang h-oui-i j-ong iong k~-ei 1-en'm-uang iangn-uan Uan o-o uop-ing q-ie r-in er s-ao t-iaou-u v-U ui w-iu x-ue Uey-ian z-ua ia ;-eng当然也可不考虑韵母的个数,对每区按韵母字母根据a、 o、 e、 i、 u、 n、 g从左到右排列;这时各韵母与字母映射关系设定为a-a b-uang iang c-uan Uan d-ane-e f-ang g-ao h-ong iongi-i j-ou k-ei 1-enm-un iin n-ue Ue o-o uo p-iuq-ian r-ie er s-ai t-inu-u v-ii ui w-iao x-uaiy-ing z-ua ia ;-eng当然也可将字母个数相同的韵母按英文音序从左到右排列,还可 不考虑字母个数,将韵母按英文音序排列;只有韵母没有声母的,取e或o或a作声母,还可取韵母的第 一个字母作声母代码,再补上韵母代码, 一般用e作声母代码。
3、根据权利要求1所述的优化汉字码输入法,其特征是?、 *、 口、木、矛、韦、4等发生的同音字很多的偏旁必须被选出,分 别用一个字母或别的符号编码,女、i 、 t 、月、虫、土、乡、火、 广等发生同音字较多的偏旁也要被选出,分别用一个字母或别的符号 编码,w、足、山、石、日、王、P 、鱼、禾、、A等能发生几对同 音字的偏旁也可,分别用一个字母或别的符号编码,基本部件全部选 自汉字的偏旁部首。
4、 根据权利要求2所述的优化汉字码输入法,其特征是当一 个汉字为上中下结构或左中右结构时,最佳的划分方法是按形声结构 或按会意结构拆分划分二个部分,按会意结构拆分。
5、 根据权利要求1所述的优化汉字码输入法,其特征是对上 中下结构或上中下结构的汉字,将其中间部分划分到剩部,当然也可 规定将中间部分划分到首部,还可按成字优先的划分原则划分,当一 个汉字为上中下结构或左中右结构时,若两边都能成字的话,要按"两 边都成字优先"的原则划分,若一边能成字的话,要按"一边成字优 先"划分。
6、 根据权利要求1所述的优化汉字码输入法,其特征是另外 一种取码规则是判断剩部是否为某个优选的多笔画部件,是的话, 首部就按书写顺序只取一个基本部件的相应代码编码,再到剩部取该 多笔画部件的相应代码编码;不是的话,首部最多可按书写顺序取第 一个和最末个基本部件的相应代码编码,当首部只有一个基本部件, 只能取一码时,再到剩部按书写顺序取第一个部件的相应代码编码, 这时为便于记忆,就应将"L"、"鸟"入选多笔画部件,将它们按首 笔编码,即与点合并排列,"鸟"与撇合并排列,分别用一个 标点符号编码,这时多笔画部件、基本笔画与字母、标点符号的影射 关系设定为a——鱼 b——广 c——卄 d——、?e——禾 f^净 g——a h——火i——虫 j——韦 k——口 1——纟m-木 n-女 o-日 p-|Sq——月r~~4 s——石 t——土U——~山 V-w W""—王 x-十y-i z-足、折;-点、i_,——横 .——竖 /——撇、鸟
7、根据权利要求1所述的优化汉字码输入法,其特征是形部编码 的取码规则还可规定为独体字,按书写顺序取第一个和最末一个基本部件的相应代码编码,当只有一个基本部件时,只取这个基本部件的相应代码编码;合体字,按整体结构一分为二,分成两部分,先写 部分称为首部,也可称为先部;后写部分称为剩部,也可称为后部; 当首部为某个部首且该部首的基本部件数在二个或二个以上的汉字 时,按书写顺序取首部的第一个、最末一个基本部件的相应代码编码, 其他汉字按书写顺序取首部的第一个基本部件的相应代码编码,再到 剩部取第一个基本部件的相应代码编码。
8、 根据权利要求1所述的优化汉字码输入法,其特征是对于 使用频繁的字,设计了简码,它对常用的汉字只是取其完整编码的前 编1个、2个或3个编码,再加1个空格键就构成了简码。
9、 根据权利要求1所述的优化汉字码输入法,其特征是词语输入的步骤是-二字词语,取每个字的声母、韵母的代码依次输入; 三字词语,取每个字的声母的代码依次输入,再补空格输入; 四字及以上词语,取前三个字及最后一个字的声母的代码依次输入。
全文摘要
一种计算机汉字编码输入方法即优化汉字码输入法,它由音码和形部编码两部分组成,形部编码的取码规则是独体字,按书写顺序取第一个和最末一个基本部件的代码编码;合体字,首部为部首时最多取两码,首部只有一码时,可按书写顺序再取剩部的前一码。首部不为部首时,首部、剩部各取一码,只用26个基本部件和五种基本笔画就能高速输入,彻底解决汉字编码键盘输入难题。
文档编号G06F3/023GK101470535SQ20071030532
公开日2009年7月1日 申请日期2007年12月25日 优先权日2007年12月25日
发明者王治阳 申请人:王治阳
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1