汉字要素组合码的制作方法

文档序号:6330389阅读:514来源:国知局
专利名称:汉字要素组合码的制作方法
技术领域
本发明涉及计算机输入汉字的编码方法。
利用普通英文键盘输入汉字仍是当前人们进行计算机汉字输入的主要手段,计算机汉字输入的难点在汉字编码。目前,我国已有的各种汉字编码方案达千余种,概括地分为音码、形码、音形码。就目前的现状而言,人们易于掌握音码,但现有音码存在着重码多,输入效率低的问题。
本发明的目的就是为了克服现有音码所存在的主要缺陷,提出一种新的完全由音码组成、重码率低、输入效率高的计算机输入汉字的编码方法。
汉字的读音、笔划、部首是每一个汉字都具有的三个基本要素。本发明对汉字部首的读音、笔划的读音做出了规定。
各种读音通常具有全拼拼音和声韵双拼两种形式的代码。
1、全拼拼音代码当采用全拼拼音代码时,汉语拼音的韵母ü的英文代码字母为v,其余汉语拼音的声母、韵母字母与相应的英文代码字母完全相同。
2、声韵双拼代码(1)声母代码当采用声韵双拼代码时,汉语拼音的单字符声母与它的英文代码字母完全相同,汉语拼音声母zh的英文代码字母为v,声母ch的英文代码字母为u,声母sh的英文代码字母为i。
汉语拼音中的a音节、o音节、e音节,仅有韵母,没有声母,可以认为它们的声母为“零声母”,“零声母”的英文代码字母为“o”。
按照《汉语拼音方案》的有关规定,i行韵母和ü行韵母,当其前面没有声母的时候,其第一个字母都写成y;u行韵母,当其前面没有声母的时候,其第一个字都写成w,因此,y和w可以分别看作是它们声母。y和w与它们的英文代码字母相同。
(2)韵母代码在声韵双拼方案中,各个韵母也分别用一个英文字母代码表示。
按照上述规则,制定出“汉语拼音声母韵母代码表”。见附表1。
汉字的部首有成字部首和非成字部首之分,成字部首具有法定的读音,非成字部首没有法定的读音,本发明规定了所有部首的读音,为了减少重码,本发明对个别成字部首的读音作了适当的调整。本发明按照对部首读音的规定和读音代码的规定,制定了“部首代码表”,见附表2。由于部首读音的汉语拼音字符和部首代码表中的部首的全拼代码字符完全相同,因此,部首代码表中各个部首全拼代码的汉语拼音读音,就是该部首的读音。
对于汉字的部首,其除具有一般的含义外,本发明还对汉字的部首作了另外一些规定。汉字有单笔划汉字和非单笔划汉字之分,任何非单笔划汉字都应看作是由两个或两个以上的部分组成的,每一部分都称为汉字的部件。我们把汉字中与部首相同的部件称为部首部件,与部首不相同的部件称为非部首部件。由于汉字的基本笔划能够作为部首用,因此,汉字的任何非部首部件都可继续拆分为部首部件,或者说,任何汉字都可最终看作是由部首部件组合而成的。
我们还把按照书写笔顺,汉字的首笔划与相邻笔划所组成的笔划最多的部首部件称为汉字的第一部首;把除去第一部首后,按照上述方法,第二次对汉字所取的部首称为汉字的第二部首;依次还可以对汉字取第三、第四部首等;并且把汉字末笔划与相邻笔划所组成的笔划最多的部首部件,称为末笔划所在的部首部件。例如“输”的第一、第二、第三、第四部首分别为“车”、“人”、“一”、“月”,末笔划所在的部首为“刂”。
本发明还规定了汉字基本笔画的读音,具体规定如下一heng,丨shu,丿pie,、dian,nai,乙(包括勾亅)zhe, ti。
本发明的具体内容是,将汉字的读音代码、汉字具有的各个部首的读音代码、及汉字基本笔划的读音代码,通过不同形式的适当组合,能够产生出多种形式实用的汉字编码。
一、汉字的读音代码与笔划读音代码的组合其常用的编码形式是;汉字声韵+首笔划声+末笔划声它可以有全拼和声韵双拼两种形式的代码,主要分别用于对GB字库的汉字进行编码。当采用此种形式对GB字库的汉字进行编码时,全部汉字的重码个数都不大于10。以全拼输入形式为例,它虽需要比现有的全拼输入法多输入两个字符,但是,由于重码汉字个数有显著地减少,其总体输入效率仍然有明显的提高。
在全拼形式的代码中,当首、末笔划为折、竖时,首、末笔划读音代码可以只取其声母读音的第1个字符,折笔划读音的声母代码取Z,竖笔划读音的代码取S。
编码举例汉 字 汉 字 输 入全拼代码 handn zidh shuhz rupn声韵双拼代码 hfdn zidh iuhv rupn二、汉字具有的各个部首读音代码的组合及其对笔划读音代码的组合其编码形式主要有以下几种,可以分别对不同字库的汉字进行编码。
1、第一部首声+第二部首声+第三部首声+第四部首声;2、第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后末笔划所在的部首声;3、第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后的首笔划声;4、第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后的末笔划声;5、第一部首声+第二部首声+第三部首声+第四部首声+除去第一、第二、第三、第四部首后末笔划所在的部首声。
以上编码仅具有声韵双拼形成的代码。由于在其编码结构中并不含有汉字的读音代码,因此,它能够输入并不认识的汉字,尤适合于对GBK字库的汉字进行编码。
在具体应用中,每一个汉字输入编码的实际输入字符个数,取决于该汉字实际所具有的部首个数。对于单笔划汉字,可以只输入第一部首声;对于只具有第一部首、第二部首的汉字,可以只输入第一部首声+第二部首声;对于只具有第一、第二、第三部首的汉字,可以只输入第一部首声+第二部首声+第三部首声。依此类推。
编码举例汉 字 输 入 一 箱第1种代码 urhy pn h vmm第2种代码 urhd pn h vmm第3种代码 urbp pn h vmm第4种代码 urbv pn h vmm第5种代码 urbydpn h vmm以上形式也可对非成字部首编码。如“亠”的代码为dh。
三、汉字读音代码及汉字部首读音代码的组合其编码形式主要有以下几种,可以分别对不同字库的汉字进行编码。
1、汉字声韵+部首声;2、汉字声韵+部首声韵;3、汉字声韵+第一部首声+第二部首声;以上编码仅具有声韵双拼形式的代码。当我们采用“汉字声韵+部首声”对GB字库的汉字进行编码时,通过适当地设置一、二级简码,可使所有汉字的重码数都不大于10。第一、第二种编码形式中的“部首”,既可统一采用通常新华字典所确定的汉字的部首(但是,部首字本身不能做自己的部首,需采用第一部首作为自身的部首。例如“言”的部首为“亠”),也可统一采用汉字的第一部首。对同一字库进行编码时,二者只能任择其一。
四、汉字读音代码、部首读音代码及笔画读音代码的组合1、汉字声韵+部首声+除去部首后的首笔划声;2、汉字声韵+部首声+除去部首后的末笔划声;以上编码仅具有声韵双拼形式的代码,可以分别对不同字库的汉字进行编码。编码中的部首,既可统一采用通常新华字典所确定的汉字的部首(但是,部首字本身不能作为自己的部首,而应采用其第一部首作为自身的部首),也可统一采用汉字的第一部首。对于同一字库进行编码时,二者只能任择其一。
五、汉字要素组合码与词组编码的混合编排,可以形成一种完善的汉字输入方法1、用“汉字声韵+第一部首声”对GB字库的汉字进行编码,可以快速输入人们已经认识的汉字。
2、用“汉字声韵+汉字声韵”对双字词组进行编码,可以快速输入双字词组。
3、对于三个字以上的词组,用“区别码(例如E)+第1汉字声+第2汉字声+第3汉字声+第4汉字声+第5汉字声+第6汉字声+6字以上(不包括6个字)词组最末一个汉字的声”进行编码,可以快速输入3字以上的词组。(词组中不包括的汉字不编码)。
4、用“区别码(例如A)+第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后末笔划所在部首声”对GBK字库的汉字进行编码,可以快速输入人们并不认识的汉字。
以上各种形式的编码,均只采用声韵双拼形式的代码。
由于在“汉语拼音声韵双拼代码表”中,“E”和“A ”都不能作为声母代码使用,在“汉字要素组合码”的各种形式的编码中,其第一个字符都为声母代码,因此,当“E”和“A”处于编码的第一字符位置时,可以作为“区别码”使用。
在以上四种形式的编码中,或者是由于输入字符的个数存在着区别,或者是由于第一字符有区别码的存在,因而,可以对四种形式的编码实行混合编排而不至于发生混淆。在实际应用过程中,可以根据需要,直接输入相应的形式的单个汉字编码或词组编码,而无须通过功能键进行转换。
应用举例语 句 代码 编码形式张 vgg 汉字声韵+第一部首声懿 atmdxA+第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后末笔划所在部首声保持bdui 汉字声韵+汉字声韵积极性 ejjx E+第一汉字声+第二汉字声+第三汉字声汉字要素组合码是一种全部由音码组成的汉字编码,它具有简单易学,重码率低,输入效率高的特点。它可以同词组输入、容错码、频度处理技术相结合,使之更加适用,它必将能进一步有力地促进计算机应用的普及工作。
权利要求
1.一种全部由音码组成的计算机汉字编码方法,其特征在于将汉字的读音代码、汉字具有的各个部首的读音代码、及汉字基本笔划的读音代码,通过不同形式的适当组合,能够产生出多种形式实用的汉字编码;其单个汉字的编码形式主要有以下几种(1)汉字声韵+首笔划声+末笔划声;(2)第一部首声+第二部首声+第三部首声+第四部首声;(3)第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后末笔划所在的部首声;(4)第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后的末笔划声;(5)第一部首声+第二部首声+第三部首声+第四部首声+除去第一、第二、第三、第四部首后末笔划所在的部首声;(6)第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后的首笔划声;(7)汉字声韵+部首声;(8)汉字声韵+部首声韵;(9)汉字声韵+第一部首声+第二部首声;(10)汉字声韵+部首声+除去部首后的首笔划声;(11)汉字声韵+部首声+除去部首后的末笔划声;可以分别对不同字库的汉字进行编码。
2.根据权利要求1所述的汉字要素组合码的编码方法,其特征在于汉字除具有通常意义的部首外,还可以具有第一部首、第二部首、第三部首、第三部首、第四部首、以及末笔划所在的部首。
全文摘要
汉字的读音、笔划、部首是汉字组成的基本要素。本发明规定了汉字部首的读音和汉字基本笔划的读音。本发明还定义了汉字的第一部首、第二部首、第三部首、以及汉字末笔划所在的部首。本发明认为,将汉字的读音代码、汉字具有的各个部首的读音代码、汉字基本笔划的读音代码,通过不同形式的适当组合,能够产生出多种形式适用的汉字编码。它的两种最常用的编码形式是:1.汉字声韵+第一部首声;2.第一部首声+第二部首声+第三部首声+除去第一、第二、第三部首后末笔划所在的部首声。这两种形式的汉字编码能够同词组编码实现混合编排,可以交替输入已认识的汉字,或者是并不认识的汉字、或者是词组,并且无须通过功能键进行转换。
文档编号G06F3/023GK1267849SQ00102109
公开日2000年9月27日 申请日期2000年2月3日 优先权日2000年2月3日
发明者蒋世贵, 蒋林涛 申请人:蒋世贵, 蒋林涛
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1