计算机形码类字四码词六码键盘中文输入编码的制作方法

文档序号:6410072阅读:485来源:国知局
专利名称:计算机形码类字四码词六码键盘中文输入编码的制作方法
技术领域
本发明涉及一种计算机形码类键盘中文输入编码。
日前全国计算机键盘输入编码使用最多的是非专利技术的五笔字型四版(下称五笔四版)编码。这种编码有明显的缺点。首先,五笔四版为了减少同码字,给多达2970个汉字(占标准汉字总数的47%)后加一码末笔字型识别码。这种识别码难学难用,是五笔四版编码掌握的最大难点。然而即便是付出了如此大的代价,也没能消除常用字的同码。在使用频率高的前3500字中仍有多达60个左右的同码字。这显然是严重的失大于得。其次,五笔四版虽设计有词码,但实际使用很少。五笔四版码长为四码,词码利用字码的编余空挡,词码编码空间太小。(很多编码都有此问题)为了避免字词同码,词词同码,五笔四版的基本词库仅收词三千左右。相当一部分常用词未被收入。例如,词中出现频率最高的“我们”一词就未收入。如果词库收词增多,就会出现大量同码。收词超过一万个,同码多得无法使用。词码规则为二字词由词首字前二码和词后字前二码组成。而前二码相同的字有多个,这就造成了词码很难识别和记忆。要想记住成千上万个常用词的编码,不下一番苦功夫是做不到的。这些都使五笔四版在使用时基本上都是单字输入。由此发明人之一的王永民认为词为主中文输入是不可能的。针对这一严重缺点,本发明人1993年提出了申请号为9311489.6的《包含五笔字型的五码词为主,字为辅复合码计算机输入编码》的发明专利申请。这个发明在国内首先提出了新的词码规则,并将码长由通常的四码加长到五码。但此发明仍有缺点,码长五码,编码空间虽有成倍增长,但仍嫌太小。
本发明的目的是提供一种新的计算机形码类键盘中文输入编码。它可以降低编码的学习使用难度。可以实现字码、词码不同码长的混合输入。可以造成比一般编码大26倍以上的词码编码空间,做到字词不同码。可以收入所有常用词和大量各类词,即使收入10万个词,同码率也很低。词码好识别好记忆,记住字码也就记住了词码。输入效率比一般编码提高50%以上,真正实现了词为主,字为辅的中文输入。
本发明是这样实现的它使用标准计算机键盘,将优选汉字字根(含笔画)分组定义在不同键位的字母键上,对符号键进行中文标点符号的重新定义以适应中文输入的需要,从而构成中文键盘。它的编码规则为对汉字进行字根(含笔画)拆分,依一、二、三、末字根的次序编码。字编码的最长码长为四码,不足四码加空格键。对编码中的二码字,以重复第二码的办法变为三码字。例如“红”字,编码为“XA”,重复第二码变为“XAA”。这样做的目的是为了让出宝贵的二码位置给二级简码使用。本发明不使用末笔字型识别码或末笔识别码。对于字根字,编码有两种可以相互替代的规则。一种是首码为该字所在键位字母,此后依一、二、末字根(含笔画)编码。例如“辛”字,它在“U”键上,编码为“UUF”。还有一种是字根字中的键名字,首码为所在键位字母,后三码为重复该字母三次。例如“金”字,编码为“QQQQ”。其他字根字首码为所在键位字母,此后依一、二、末笔画(不是字根)的次序编码。例如同样是“辛”字,编码变为“UYGH”。这两种规则,利用字根编码的较为简便合理,利用键名字和笔画的差一些。在本发明的实施例中,采用五笔四版的字根分组,键位位置和汉字编码规则,为了使原使用者更易接受,仍沿用上述第二种字根字编码规则。
本发明的实施例中,中文键盘的字母键部分采用五笔四版的优选字根、分组及键位位置,符号键部分采用本发明人的发明《一种在符号键上定义汉字的通用性计算机中文键盘》(发明专利申请号95118378.8)本发明可以采用五笔四版,也可采用其他形码类编码的优选字根,分组及键位位置。可以采用95118378.8号发明专利申请,也可以不采取这个发明。因此上述两个技术内容并没有作为本发明的必要技术特征,而仅作为附属权利要求提出。
本发明的实施例采用五笔四版的相应部分,是因为它是全国使用最多,影响最大的编码。这是为了能使几百万使用五笔的人转而应用我的发明而采取的技术性措施。应该指出五笔四版的优选字根,分组及键位位置并不科学合理,有的甚至毫无道理。95118378.8号发明专利申请是将最常用的10-20个汉字直接定义在中文键盘的符号键上,以实现这些使用频率高达19%的汉字的一击输入和二击输入。这种中文键盘可以一举提高输入效率15%以上。被直接定义在符号键上的汉字被称为特码字。
在任何中文输入编码中都不允许太多的同码存在。编码同码有三种情况,应区别对待。(1)非常用字与非常用字同码。这种同码出现的频率是非常小的,人工选择即可对付。(2)非常用字与常用字同码。对这种同码采取高频先见和人工选择相结合的办法处理即可。这两种同码影响都很小。(3)常用字与常用字同码。(我采用的常用字概念为出现频率为十万分之五以上,共有1685个汉字)对于这种同码字是应该认真对待的。由五笔四版优选字根,分组及键位位置不合理,选成此种同码字较多,共205个字。本发明的解决办法是第一、规定应尽量采用特码和简码。这就是特简码区分法。例如“吧”和“吗”为两字同码,编码都是“KCC”但“吧”为二级简码,可用“KC”进行输入,因此这两字就不同码了。特码,简码可由计算机窗口提示,不用专门去记。本发明对简码按科学合理的要求进行了部分重新规定。经过特简区分法。同码字由205个减到了95个。第二、规定应尽量用词组进行中文输入。两字同码使以这两字组词时词首字编码相同。但是词后字完全相同的可能性很小。例如“香”和“利”是同码字。有“香气”一词,没有“利气”一词。有“利用”一词,没有“香用”一词。因此尽量使用词输入,可以避免字同码。同码字出现的可能性将降低70%。第三、由于常用字同码仅有42、组95个字,因此在计算机中加入智能选择是比较容易的。智能选择的计算机程序可分析同码字中的被区分字与其前字和后字能否组成常用词来判断所要区分的汉字是同码中哪个字。例如“矿”和“丈”字同码。“矿”的出现频率为0.044%,而“丈”字是0.007%。丈的常用词有四个“丈夫”、“丈量”、“丈母娘”、“丈人”。其出现频率共为0.004%。智能选择判断内容为只要该同码字后是“夫”、“量”、“母”、“人”四字就可判断为是“丈”字,否则为“矿”字。这一智能选择的正确率为94%。也就是说,加入了智能选择以后,人工选择的可能性降低了94%,仅为原来的6%。这说明只要在计算机程序中加入42条(同码字有42组)类似上面的计算机判断程序,就可以大幅度降低同码字人工选择的可能性。完全可使同码字人工选择的可能性低于同码率相当低的五笔四版。第四、对常用字中三码的同码字后补组词联想识别码以区分同码字。用不着对所有95个同码字都补此码。一组同码字,可使其一字编码不变,只对其他字编码后加一位识别码就可以区分同码了。因此,只要对55个字后加此码就行了。组词联想识别码是指该字为词首字组词频率最高的词的词后字首码。例如“香”字,其组词频率最高的词为“香味”,其识别码为“K”。“香”的编码由原来的“TJJ”变为“TJJK”。这样做可以消除所有常用字中的同码问题。记不住没有关系,可以由计算机窗口提示。
本发明词码规则与其他编码完全不同。码长规定最长六码。字码、词码不等长一样可以不用转换,混合输入。输入后的编码由计算机自动辨别。本发明规定在编码串前五位中没有词码标识码时,前四码为字码,从第五码开始为新的字码或词码。相反,如前五位中有词码标识码,则前六位为词码,从第七位开始为新的字码或词码。例如“WTFMAZ空格”,由于词码标识码“Z”在第六位,因此,前四码为字编码,是“凭”字。从第五位开始是一个新的字或词。在这里是词“工作”。又如“KKHHZFY空格”,由于“工”出现在第五位,因此前六位是词码,是词“患者”,第七位开始是一个新的字或词。在这里是字“说”。字词不同码而实现不用转换,混合输入为国内首创。
词码编码规则为词前字简全码加词码标识码加词后字全码的全部或前部分编码。这一规则与其他编码都不相同。词前字简全码是指用词前字的字码的一、二、三级简码或者没有简码的字的三码、四码全码,不能使用字的特码和超全码。词后字全码的全部或前部分编码是指要用词后字的全码,不能用简码,特码和超全码。词码标识码是指编码中某个特定的字母键或符号键。在本发明实施例中,将五笔四版的模糊键“Z”改为词码标识码。
词首字在词码中占位1-4位,词码标识码占1位,词后字占位1-4位。在两字词中词首字为一级简码,词后字为三码字时,词的总码长为5码,输入时要加空格键。
在两字词中,词后字编码为词后字的1-4码。在三字词中,有一码空间时,为词第三字的首码;有两码空间,为第二字首码,第三字首码;有三码空间,为词第二字首码、二码,第三字首码;有四码空间,为词第二字首、二、三码,第三字首码。在四字词中,有一码空间时,为词第四字首码;有两码空间,为词第二字首码,第四字首码;有三码空间,为词第二字首码,第三字首码,第四字首码;有四码空间,为词第二字首码、二码,第三字首码,第四字首码。在五字或五字以上字词中,有一码空间时,为末字首码;有两码空间为词第二字首码,末字首码;有三码空间,为词第二字首码,第三字首码,末字首码;有四码空间,为词第二字首码,第三字首码,第四字首码,末字首码。
词码举例“人民”一词,“人”为一级简码,民是三码字,此词码为“WZNAA”,输入时后加空格键。三字词“登山队”,登为四码字,词后字仅有一码空间,取词第三字首码,编码为“WGKUZB”。
词码规定有一、二、三、四级简码。词简码是词编码前两码、三码、四码、五码相同的词中使用频率最高的词被规定为词简码词。以“A”代除词码标识码外的任意编码字母,以“Z”代词码标识码。一级词简码为“AZ”;二级词简码为“AZA”、“AAZ”;三级词简码为“AZAA”、“AAZA”、“AAAZ”;四级词简码为“AZAAA”、“AAZAA”、“AAAZA”、“AAAAZ”。
词简码举例“人民”的词码为“WZNAA”,它为一级简码,编码为“WZ”。
本发明与五笔四版编码和其他形码类编码相比具有明显的优点。
一、完全去掉了末笔字型识别码。不用再对多达2970个汉字后补一位识别码,汉字编码长度由平均3.88码降到平均3.56码,降低了8.25%。末笔字型识别码的概念和方法与字编码完全不同,并且有不确定性,使用费时,易出错,去掉之后将明显降低编码的学习、使用难度,好处是相当大的。
二、五笔四版是靠大量的人工记忆,分析和明显增长编码长度来消除字码同码的。而本发明更多的发挥计算机的作用。本发明采用了简特码区分,对42组同码字进行计算机智能选择,使常用字同码的人工选择可能性小于五笔四版编码。又由于对仅55个常用同码字后补一位组词联想识别码而完全消灭了常用字同码,而五笔四版尽管后补识别码比本发明多50多倍,却仍做不到这一点。两种编码谁优谁劣一目了然。
三、由于使用了申请号95118378.8的发明专利申请,提高输入效率15%以上,改变了打字时手的负担左重右轻的不合理情况,和某些键负担畸重的情况(如五笔四版的“R”键)减少了同码字。
四、本发明的新的词码规则,首先实现了字码,词码不同码长,不用转换混合输入。词码编码容量增大26倍以上,避免了字词同码,使所有常用词都能收入词库,在词库收词数量即使达到10万词的情况下,仍能保持较低的同码率。词码码长虽高达6码,但是大部分常用词都有简码,实际使用平均词码码长仅三码左右,因此并不比其他编码长。特别是词码与字码紧密结合,好认好记,只要记住字码就能记住词码,根本用不着专门记忆,输入效率提高50%以上,真正做到词为主,字为辅的中文输入。
五、本发明可适用于各种形码类编码。
六、在实施例中采用五笔四版的字根分组及键位位置和汉字编码,从而使熟悉和使用五笔四版的几百万人几乎不用重新学习和记忆就能掌握,从而使本发明非常容易推广,非常容易使五笔四版不再有人使用。
本发明的具体技术方案由以下实施例及附图给出

图1为实施例的中文键盘示意图。中文键盘的字母键部分与五笔四版字母键部分完全相同,符号键部分与申请号95118378.8的发明专利申请的实施例二完全相同。
实施例汉字编码规则与五笔四版基本相同。不同的是(1)去掉了末笔字型识别码,对二码字以重复第二码的办法变成三码字。(2)增加了特码字和部分重定了简码字。简码字的确定更为科学合理。对于入选特码字的字,是否入选简码字和进入几级简码要看其组词频率来定。也就是说要扣除作为单字的频率。例如“的”字,扣除单字频率后,组词频率仅为0.001%,不能再进入一、二级简码。又如“一”字,扣除单字频率后,组词频率仍高达0.64%,仍为一级简码字。
对于字码同码的处理,增加了智能选择和对55个同码字后加一位组词联想识别码,以降低和消除常用字词码。具体规则与上述相同。
将“Z”键由模糊键变为词码标识键(码),词码及词简码的编码规则与五笔四版和其他编码完全不相同。具体规则与上述相同。
权利要求
1.一种计算机形码类键盘中文输入编码,它使用标准计算机键盘,将优选汉字字根分组定义在不同键位的字母键上,对符号键进行中文标点符号的重新定义以适应中文输入的需要,从而构成中文键盘;它的编码规则为对汉字进行字根折分,对一般汉字依一、二、三、末字根的次序编码;字编码的最长码长为四码,不足四码加空格键;字码设有一、二、三级简码;其字根字采用首码为该字根字所在键位字母的规则编码,其特征在于其二码字,重复第二码变为三码字;词编码的最长码长为六码,不足六码加空格键,编码由词首字简全码加词码标识码加词后字全码的全部或前部分编码组成。
2.根据权利要求1所述的编码,其特征在于其中文键盘的字母键部分可定义为五笔字型四版的优选字根分组及键位位置。
3.根据权利要求1所述的编码,其特征在于其字根字编码的第二、三、四码,可以依该字的一、二、末字根次序进行编码。
4.根据权利要求1、2所述的编码,其特征在于其字根字的第二、三、四码,可以同五笔字型四版规定键名字是该字所在键位字母重复三次,其他字根字,可以依该字的一、二、末笔画次序进行编码。
5.根据权利要求1所述的编码,其特征在于其中文键盘的符号键部分可以是中国发明专利申请号95118378.8的《一种在符号键上定义汉字的通用性计算机中文键盘》。
6.根据权利要求1所述的编码,其特征在于对其同码字可加入计算机智能选择功能,以自动区分同码字;智能选择是由计算机分析被区分字与其前后字能否组成常用词从而自动区分该字为同码字中的哪一个字。
7.根据权利要求1所述的编码,其特征在于其三码字如为一组同码字,其一字编码不变,其他字编码后加一位识别码;识别码是以该字为词首字组词出现频率最高的词的词后字首码,加了识别码的编码为超全码。
8.根据权利要求1所述的编码,其特征在于词码中的词码标识码为特定的某个字母键或符号键。
9.根据权利要求1、2、8所述的编码,其特征在于其词码标识码为字母“Z”键。
10.根据权利要求1所述的编码,其特征在于其词码的词首字简全码为字编码的一、二、三级简码和没有简码的三、四码字的全码,其词后字全码的全部或前部分编码在两字词中为词后字全码的1-4码;在三字词中,词后字编码有一码空间,为词第三字的首码,有两码空间,为词第二字首码,第三字首码,有三码空间,为词第二字首、二码,第三字首码,有四码空间,为词第二字首、二、三码,第三字首码;在四字词中,词后字编码有一码空间,为词第四字的首码,有两码空间,为词第二字首码,第四字首码,有三码空间,为词第二字首码,第三字首码,第四字首码,有四码空间,为词第二字首、二码、第三字首码、第四字首码;在五字或五字以上字词中,词后字编码有一码空间,为词末字首码,有两码空间,为词第二字首码,末字首码,有三码空间,为词第二字首码,三字首码,末字首码,有四码空间,为词第二字首码,第三字首码,第四字首码,末字首码;词码设有简码,以“A”代除词码标识码外的任意编码字母,以“Z”代词码标识码,一级词简码为AZ,二级词简码为AZA、AAZ;三级词简码为AZAA、AAZA、AAAZ,四级词简码为AZAAA、AAZAA、AAAZA、AAAAZ。
全文摘要
一种形码类计算机中文输入编码,可以用五笔四版编码的字根分组及键位位置,去掉难学难用的末笔字型识别码,采用简码区分,智能选择使用码率低于五笔四版,仅对55个同码字后加识别码就完全消除了常用字同码。词码采用新的规则和六码码长,可与四码码长的字码混合输入,不用转换。词码编码空间比五笔四版大26倍以上,收词多而全,同码率很低。词码容易识别和记忆,可以实现词为主输入。输入速度提高50%以上,必将取代五笔四版编码。
文档编号G06F3/023GK1154507SQ9610030
公开日1997年7月16日 申请日期1996年1月12日 优先权日1996年1月12日
发明者王小宁 申请人:王小宁
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1