一二末码汉字输入法的制作方法

文档序号:6330412阅读:416来源:国知局
专利名称:一二末码汉字输入法的制作方法
技术领域
本发明涉及一种基于英文键盘输入汉字的方法,具体地说是涉及一种以构成汉字的内含字和表意偏旁作为基本单元,并将汉字一二末笔的相关单元声化编码的输入法。
现行的汉字输入法很多,这些输入法大致可以分为以字形为主的“形码”,如五笔、五十字元、101输入法等;以读音为主的“音码”,如各种拼音码、自然码、天然码输入法等;混合型的“形音码”,如二笔输入法等。但现有的这些编码方法是将汉字的结构单元按自定的规律,生硬地规定与字母键对应或将韵母硬性简化为某字母键,如“五笔码”将200余个字根硬性分布在除Z以外的25个字母键上,虽编成记忆口诀,但需下一番苦功才能掌握;“五十字元码”将汉字分为50个字元;“101码”先将10种基本笔画布在中间字母键上,再将12个偏旁分布四周;拼音码除了采用联想的办法提高输入速度外,重码高、速度慢;“自然码”强行将所有韵母对应于一个个字母,相比拼音码来说提高了速度,但解决重码时的部首办法又回到了形码的老路上;“天然码”采用取韵母首字母并加四声等办法,一定程度上解决了韵母长、重码多的问题;“二笔码”则将基本笔画及两笔一组的笔画组按自定的规律分布在30个键位上,此键位与原字母键位毫无联系,而且还要在操作时先打汉字的声母键。总之现有的汉字输入编码法中,都存在下列缺陷音码方案的重码高、输入速度慢;形码方案的字根多、难记难学;混合码两个都有。
本发明的目的在于提供一种不仅易记易学,而且重码低、操作快捷的汉字输入方法。
为实现上述目的,本发明的技术方案包括a、按构成汉字的基本单元声化编码,所述的基本单元包括内含字、表意偏旁及基本笔画,每个基本单元取一位代码,各类基本单元取码如下(1)内含字代码,内含字是指一个汉字中包含的另外一个汉字,包括形似的字,取内含字读音的声母为其代码,该声母不区分卷舌音;
(2)表意偏旁代码,表意偏旁是指汉字中代表一定意义但又不是内含字的偏旁部首,取表意偏旁习惯名称首字读音的声母为其代码,该声母不区分卷舌音;其中表意偏旁“氵、冫”,“囗”,“匚、凵、冂”特殊规定它们的代码分别为“D”,“O”,“U”;(3)基本笔画代码,基本笔画是指构成汉字的最小结构单位,取基本笔画读音的声母为其代码,其中基本笔画“丶”,“丨”,“”特殊规定它们的代码分别为“A”,“I”,“V”。
b、对汉字分单元声化编码依次按如下规则输入(1)按汉字书写顺序取与第一笔、第二笔和最后一笔相关构成的内含字、表意偏旁或基本笔画的代码,作为该汉字的编码并依次在键盘上相应的键位进行输入,所述的第二笔是指第一笔的相关单元取码后的下一笔;(2)按上述规则与某笔相关能构成内含字或表意偏旁时,即取内含字、表意偏旁的代码,如两者都不能取时,再取基本笔画代码;(3)在取内含字代码时,以交连在一起的笔画能构成的最大内含字为准;断开、不交连的笔画则以相关能构成的最小内含字为准;但在能取到完整的内含字时,就不取在交连笔画中可取到的截取内含字;(4)当按上述三个规则进行编码时,若只能编有两码,即可再视末笔情况补编第三码,但必须不同于第二码取过的字形;如果第三码只能与第二码全同,则应放弃,使该字仅保留二码。
作为对本发明的进一步改进,词或词组的输入按如下规则a、两字词或词组第一码为前字首笔相关单元代码,第二、第三码是前后两字的声母,第四码则是后字末笔相关单元代码;b、三字词或词组前三码分别是各字读音的声母,第四码则是最后一字的末笔相关单元代码;c、四字及四字以上词或词组均由声母构成,前三码分别是前三字读音的声母,第四码是最后一字读音的声母。
作为对本发明的进一步改进,将处于前四位的待选字或词,可分别对应使用“空格键”、“,”键、“.”键、“/”键直接上屏,用“;”键作换位处理,即将位于第五位后的待选字词依次提到第一位后排列,再用前述办法直接上屏,提高输入速度。
本发明与现有技术相比,具有以下优点(1)本发明中有3个需理解的基本概念;4条需理解掌握的编码规则;9个基本笔画,其中有3个需特别记忆;26个表意偏旁,其中只有3个需特别记忆;必须记忆的不常用内含字有10个,不必记忆不常用的内含字有78个,共88个,常用内含字具有小学三年级汉语识字水平就可掌握。以上数据表明,本发明无任何记忆口决,需要强记的内容没有,需特别记忆的内容也极少,且过目不忘,易记易学。
(2)使用本发明对商务印书馆出版的1998年修订本《新华字典》的所有汉字进行了编码(不包括繁体字和异体字),得到如下数据共计编码汉字8613个,其中二码字4字同码的4种;二码字4字以上同码的0种;三码字4字同码的204种;三码字5字同码的87种;三码字6字同码的43种;三码字7字同码的24种;三码字8-10字同码的20种;三码字10字以上同码的6种。以上数据表明,采用前4位直接上屏措施后,大约只有370个不太常用的汉字需要用数字选择,这仅占所有编码汉字的4%,其余8200余个汉字均可实现直接上屏。并且,如果待选字一页10个的话,本方法只有6处需要翻页选字;即便待选字一页8个,本方法也只有不到20处需要翻页。因此,重码字对输入速度的影响微乎其微,而且还可用“;”键快速处理,可以说,本发明不用数字选字,基本上实现了字词输入的直接上屏。
(3)除拼音码外,几乎所有的编码均要绘出键盘字母键与部首、笔画或韵母对应的图表,这就意味着要打出一个汉字,除了按规定拆分、缩减外,还必须在大脑中转换一下,变成字母键后才行。本发明无需绘制键盘图进行说明,统统将其表意偏旁、内含字或基本笔画按其名称读音的声母直接编码,并直接敲键盘上对应的键位就可以了,实现相关单元代码与字母键位直接同一,不需中介转换,极大提高学习及操作速度。
(4)现行大多数编码方法每相关单元代码长达4个或4个以上;而一些标榜一码、二码即可打出汉字的编码方法,多采用联想待选取的辅助办法等。英文字母有26个,按无重码计算,一码只能编26个汉字,二码只能编676个汉字,三码可能编的汉字达17576个,四码编的汉字则达45.7万之巨。常用汉字不足3干,《新华字典》所收汉字不到1万(不含繁体字、异体字约8千)。因此二码以下不可能或带来大量重码,四码以上则是编码资源的巨大浪费且带来操作速度的下降,三码最优。本发明三码一字,克服码长码短的种种缺陷,实现了字母资源的最优利用。
下面结合具体实施例对本发明做进一步的说明。
本发明按构成汉字的基本单元声化编码,基本单元包括内含字、表意偏旁及基本笔画,每个基本单元取一位代码,其中内含字是指构成一个汉字的另外一个汉字,包括基本形似的字,取内含字读音的声母为其代码,该声母不区分卷舌音;如“基”的内含字有“其”、“土”两字。常用内含字不一一列出,不常用内含字有十个需要强记(见表一);其余内含字(见表二),因有两套编码根本不用记它,认识的都按内含字编,不认识的都按其他单元编即可;另外,“己”、“已”、“巳”均视为“己”字,编码为J;“一”不作内含字一,而作基本笔画“横”。
表一需要强记的不常用内含字代码表
表二不必记住的不常用内含字代码表
表意偏旁是指代表一定意义但又不是内含字的偏旁部首,取表意偏旁习惯名称首字读音的声母为其代码,该声母不区分卷舌音;本发明根据一般习惯,认定有26个(见表三),这些偏旁部首除三个需特别注意外,其余无需进行特别记忆,这三个稍显特殊的表意偏旁是U框(匚、凵、冂等)、点水(氵、冫)和O框(囗),分别编码为U、D、O。
表三表意偏旁代码表 基本笔画是指书写汉字时所用的一笔一画的基本形式结构,即构成汉字的最小结构单位,取基本笔画读音的声母为其代码。这些基本笔画共有9个,分别是点(丶)、横(一)、竖(丨)、撇(/)、捺(丶)、折(拐一个角)、曲(拐两个及以上角,如乙)、钩()和提 。为充分利用字母资源,降低重码率,特别规定“点”以字母A代表,而“竖”与“折”分别以形似为根据用I和V表示,9个基本笔画的代码见表四。
表四基本笔画代码表
上述说明了根据汉字的结构对汉字分单元声化编码,编码后依次按如下规则通过通用的计算机键盘输入计算机(1)笔顺相关规则,即按汉字笔画的书写顺序取与第一、第二和最后一笔相关连能构成的内含字、表意偏旁或基本笔画,它们的代码组合作为该汉字的编码并依次在键盘上相应的键位输入,该第二笔是指第一笔相关单元取代码后应取的下一笔。例如,“衣”的第一、二、末笔分别是点、横、捺,其编码为AHN。“新”按书写顺序分别是有内含字“立”、“木”、“斤”构成,其编码是LMJ。“济”的第一笔是“丶”,与其相关的第二、第三笔构成表意偏旁“点水”,因此第一笔代码就是D;接下来右半部的“丶”才是本方案所说的第二笔,它与下三笔相关构成内含字“文”,所以第二笔取码为W;最后一笔是“丨”,与前一码“丿”既构不成内含字,也构不成表意偏旁,只能按基本笔画取码为I,“济”的编码是DWI。同理,“则”的编码为URD.
(2)字旁优先规则,即能取内含字和表意偏旁(这两者地位同等)时就不取基本笔画,这两者都不能取时再取基本笔画。上述“新”、“济”即是如此。再如“绮”字,第一笔为折,但与此关连可构成“纟”旁,故第一笔取表意偏旁不取基本笔画,“绮”编码为SDK,而不是VVK。
(3)照顾交连规则,即在取内含字代码时,照顾与所取笔画相交连的笔画,而不是见到内含字就取,不交连不照顾,以交连在一起的笔画能构成的最大内含字为准;断开、不交连的笔画则以相关能构成的最小内含字为准;但在能取到完整的内含字时,就不取在交连笔画中可取到的截取内含字。“孝”的首笔为横,与第二笔竖构成内含字“十”,再与第三笔横构成内含字“土”,这时应取“土”不取“十”,将“孝”编码为TPZ(土撇子);由于“孝”的笔画均连在一起,“教”的前二码取XW(孝“攵”旁)。“春”的首笔取“夫”不取“大”,编码为FHR(夫横日)。“莺”编码应是CBW,而不是CBN,因为与末笔横相关的相连笔画先可构成内含字“乌”,期间的一点不与其他笔画相连,只是相关,故不予照顾;“旁”编码为AHW,而不是AHF(末笔取“万”不取“方”)。再如,“鬓”的第一笔取I,第二笔横与下一笔构成内含字“二”,末码则可取内含字“八”,其编码为IEB;“难”的末笔是横,但从与其相连的笔画中可截取内含字“王”,因而“难”的编码为YRW.注意,截取内含字应让位于非截取构成的相关内含字。比如,“静”的首笔为横,它可与相交的笔画竖构成截取内含字“十”,但它与整个左半边构成了独立的内含字“青”,这时第一码就应取Q而不是S;对于“青”字来说,第一码则取“十”,第二码取“二”,末码是“月”,“青”的编码是SEY.但有些部位结构似连似不连,难以区分,如“罢”的中下部,“趣”的左边。本方案的区分办法是,若上下两半都可独立构成内含字或表意偏旁,则视为不连;否则,即视为相连。这样,“罢”的中下部可构成独立的内含字“土”和“厶”,视为不连,“罢”编码为STS(首笔取“四”);“趣”的左边上下不能构成独立的两个内含字,作相连看,构成整个的内含字“走”,“趣”编码为ZEY(走耳又)。左右、内外结构的内含字一般不存在此问题,故不作此划分。
(4)补码不重规则,这条规则是说当按照上述规则进行编码时,有可能只需两个码,这时就可继续视末笔的情况补足三码,但不得与第二笔重复取码。比如,“如”字按上述规则可编码为NK两码,其末笔为横,与此相关连构成“口”字,但若取“口”与第二笔重复,这时就应截取U框,将“如”字编码为NKU;同理,“军”字取码应是BCS.若第二码已经是末笔码且是基本笔画码,则第三码即可不取,因为再取无论如何都会造成重复取码。例如,“三”字首笔取“二”,第二笔只能取横,末笔无法再取,故“三”的编码是EH;同理,“一”的编码只是H一个字母,“乙”只能编码为Q.
掌握以上三个概念、四条规则后,就可轻松对所有汉字进行编码。当遇到拿不准是不是内含字时,也不用担心,除上述必须掌握的十个字外,作不作内含字编均可。比如,将“燕”字编码为NKH(首笔取“廿”字)或CHH(首笔截取“草头”)都行。当内含字是多音字时,按《新华字典》取第一读音,如“张”编码为GCN(弓长捺)而不是GZN。
本发明还对词及固定词组编码作了规定(1)二字词组,由以下四码构成第一码为第一字的第一笔相关单元代码,第二、三码是两个字读音的声母,最后一码为后字最后一笔的相关单元代码(可简称为“首声末”)。例如,“北京”一词第一字“北”的第一笔是“丨”,取码I;该词读音声母是B和J;后字“京”的末笔则应取“小”,代码是X,所以“北京”编码为IBJX.“涉及”一词的编码是DSJN,而“射击”的编码是SSJS(注意“击”的相关单元代码是SHU,末笔码为U;但如果只关注末笔,按取码的照顾交连规则则应截取内含字“山”)。再如,“国家”的编码是OGJS(末笔取内含字“豕”)或OGJN(末笔取基本笔画捺),而“祖国”的编码就是SZGO,不是SZGW或SZGY(“国”的相关单元代码是OWA,但整体来看,其末笔仍是外框的横,应取O框)。
(2)三字词组,由以下四码构成,前三码为各字读音的声母,最后一码是最后一字的末笔相关单元代码(简称为“三声一末”)。例如,“广东省”的编码是GDSM,而“古代史”的编码则是GDSY(末字末码应是截取内含字“义”的代码)。“就是说”的编码为JSSE,而“吉首市”的编码为JSSJ。
(3)四字及四字以上词组,均由声母构成。前三码是前三个字读音的声母,第四码是最后一个字读音的声母(前三后一)。如,“天经地义”的编码是TJDY“中国共产党”的编码为ZGGD,“不入虎穴,焉得虎子”的编码就是BRHZ.
由此可见,词和词组的编码均是四码,实际操作中,如未遇重码或重码很少,第四码可不出现。
为充分利用键位并提高输入速度,可将处于前四位的待选字或词,设计为直接上屏的模式。第一位的,用空格键直接上屏;第二位的,用“,”键上屏;第三位用“.”键送到屏上;第四位则用“/”键上屏。后三键位于空格键的右上角,操作起来极为快捷方便,这样就可极大提高重码处理速度。这种模式是将一码、二码、三码和四码的所有字、词先按使用频率高低排列,再用以上标号直接上屏;用“;”键作换位处理,即将位于第五位后的待选字词依次提到第一位后排列,再用前述办法直接上屏。实际操作时,许多常用字词只用一、两个码就可完成输入了。
还可特设二码词,将使用频率非常高的某些二字词,特别设计成只有二码的词,其编码就是二字读音的声母。如,“一般”编码为YB,“数量”编码为SL.这样,声母理论上就有529个二字词可编为二相关单元代码,用“、”号键直接上屏,进一步提高输入速度。
上述所述的声母都不分卷舌音。
权利要求
1.一种一二末码汉字输入法,其特征在于a、按构成汉字的基本单元声化编码,所述的基本单元包括内含字、表意偏旁及基本笔画,每个基本单元取一位代码,各类基本单元取码如下(1)内含字代码,内含字是指一个汉字中包含的另外一个汉字,包括形似的字,取内含字读音的声母为其代码,该声母不区分卷舌音;(2)表意偏旁代码,表意偏旁是指汉字中代表一定意义但又不是内含字的偏旁部首,取表意偏旁习惯名称首字读音的声母为其代码,该声母不区分卷舌音;其中表意偏旁“氵、冫”,“囗”,“匚、凵、冂”特殊规定它们的代码分别为“D”,“O”,“U”;(3)基本笔画代码,基本笔画是指构成汉字的最小结构单位,取基本笔画读音的声母为其代码,其中基本笔画“丶”,“丨”,“”特殊规定它们的代码分别为“A”,“I”,“V”。b、对汉字分单元声化编码依次按如下规则输入(1)按汉字书写顺序取与第一笔、第二笔和最后一笔相关构成的内含字、表意偏旁或基本笔画的代码,作为该汉字的编码并依次在键盘上相应的键位输入,所述的第二笔是指第一笔的相关单元取码后的下一笔;(2)按上述规则与某笔相关能构成内含字或表意偏旁时,即取内含字、表意偏旁的代码,如两者都不能取时,再取基本笔画代码;(3)在取内含字代码时,以交连在一起的笔画能构成的最大内含字为准;断开、不交连的笔画则以相关能构成的最小内含字为准;但在能取到完整的内含字时,就不取在交连笔画中可取到的截取内含字;(4)当按上述三个规则进行编码时,若只能编有两码,即可再视末笔情况补编第三码,但必须不同于第二码取过的字形;如果第三码只能与第二码全同,则应放弃,使该字仅保留二码。
2.根据权利要求1所述的一二末码汉字输入法,其特征在于词或词组的输入按如下规则a、两字词或词组第一码为前字首笔相关单元代码,第二、第三码是前后两字的声母,第四码则是后字末笔相关单元代码;b、三字词或词组前三码分别是各字读音的声母,第四码则是最后一字的末笔相关单元代码;c、四字及四字以上词或词组均由声母构成,前三码分别是前三字读音的声母,第四码是最后一字读音的声母。
3.根据权利要求1或2所述的一二末码汉字输入法,其特征在于将处于前四位的待选字或词,可分别对应使用“空格键”、“,”键、“.”键、“/”键直接上屏;用“;”键将位于第五位后的待选字词依次提到第一位后排列。
全文摘要
本发明公开了一种一二末码汉字输入法,按照汉字的书写习惯,将与第一、二笔和末笔相关构成的内含字、表意偏旁或基本笔画各自名称读音的声母组合作为该汉字的编码,直接转换成键位代码,完成汉字输入。本发明不仅易记易学,而且重码低,操作快捷。
文档编号G06F3/023GK1319793SQ01107668
公开日2001年10月31日 申请日期2001年3月26日 优先权日2001年3月26日
发明者王仁法 申请人:王仁法
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1