汉字主次字元码的制作方法

文档序号:6600487阅读:325来源:国知局

专利名称::汉字主次字元码的制作方法
技术领域
:本发明涉及一种汉字音形结合式编码方案。本发明可用于计算机的汉字输入和辞书查检汉字之用。目前流行的各种汉字编码方案,基于汉字发音的,或者对汉语拼音知识的要求高,如自然码;或者重码多不便于使用,如拼音码。基于汉字笔型或考虑到汉字笔型的,其字元的选取个数多、不易记忆、且对字元的处理过于简单,表现为人为割断了字元和不同汉字间的有机联系,对同一字元出现在不同汉字中的情况不加区分一视同仁;且对字元本身信息的提取也不充足,或者仅考虑其音的信息、或者仅考虑其形的信息,且重码仍有一定数量。如五笔字型须记忆130多个字元,结果重码汉字对国标‘GB2312-80信息交换用汉字编码字符集(基本集)’规定的6763个汉字仍有500多个。表形码采用了三十一个键位,重码字却为1000多个。本发明的目的在于尽量提取能反映汉字间相互区别的音形信息,以解决计算机汉字输入过程中既要求规则简洁明了便于掌握,又要重码少以达到快速输入的效果。本发明需要记忆的字元不多,重码汉字仅400多个。本发明的目的可以通过以下编码原则和措施来达到一、从构成汉字的结构单元(即字元)中选取28个高频字元作为主要字元,其余结构单元均作为次要字元。次要字元的数目没有限制。规定凡由相连或相交笔画构成的汉字部件连同其附属笔画,如不是由两个或两个以上单个汉字相连而成均作为一个字元。这样在汉字中的字元一般可以由其相互间形成的自然间隙加以区分。下面是一些字元的具体例子由相连或相交笔画构成的汉字部件,如匚、口、万、臣、足、自、曲、柬、弗、也、禺、幸;由相连或相交笔画构成、而且具有附属笔画的汉字部件,如雨、小、火、鸟、负、辶;笔画虽相连但由两个汉字相连而成,故不作为一个字元,如辛、古、糸。28个主要字元的内容及键位按排如下表所示表一二、对于次要字元提取其一个音码和两个形码作为对汉字进行编码的元素。字元音码的提取可分以下两种情况(1)字元本身即为单个汉字,则其音码为其汉语拼音的第一个字母。例如‘自’取z,‘雨’取y。字‘一’例外取h。(2)字元本身不为单个汉字,其音码应将其置于具体汉字中加以选取。原则是通过前拼、后拼以构成笔画最少之单个汉字,然后取对应单个汉字的汉语拼音的第一个字母。可见对同一字元其音码可以不同,例如同为‘勹’,位于汉字‘勾’、‘匍’、‘句’,‘包’中时分别取g、p、j、b。为减少拼读,为下述几个常用部首‘刂、冫、囗、彡、卩、饣、礻、廾、廴、灬、夂、攵’规定了音码,具体如下表表二字元形码通过进一步拆分字元获得,选取原则为对由不相交笔画构成的字元以书写顺序选取其首尾两个形码。对由相交笔画构成的字元则一般采用先去交叉笔画将字元笔画离散,然后再选取的方法。字元的形码用下表所示的十种类型加以表征表三</tables>不同类型字元首尾形码的提取可区分为以下四种情况(1)仅由相连笔画所构成的字元依其书写顺序取其首尾两个形码。例如‘自’取pm,‘兆’取ev,‘立’取nh。(2)具有相交笔画,但相交部分可用表所示的十种类型加以表征保留相交笔画取其首尾两个形码。例如‘主’取nw,‘米’取vm。(3)字元某笔为交叉笔画且去掉后余下部分构成单个汉字将此笔去掉即可。例如‘丸’、‘必’去掉交叉笔画后分别为‘九’、‘心’其首形码为j、x,尾形码空缺。(4)其余情况从交叉点最多的笔画开始逐一去除,直止余下部分无交叉笔画或可用表所示的十种类型之一加以表征。一般情况去掉的为横向或竖向的最长笔画。例如‘本’、‘册’、‘重’,可分别去掉笔画‘丨’、‘一’、‘丨’。无论那种情况均应遵循尽量使产生的首尾两码所具有的笔画数最多的原则,以便字元的首尾两形码最大限度地反映该字元的具体结构。三、对每个汉字最多只取四个字元用以编码,如组成汉字的字元序列其字元数超过四个,则取前三个与最末一个字元。汉字字元序列的提取根据汉字的具体结构分以下二种情况采用不同的选取方法;(1)不以主要字元作部首的左右结构以及含左右结构的任何混合结构对其左右结构中的任一部分最多只取首尾两个字元。例如‘敬’取‘艹口攵’‘糖’取‘米广口’。(2)以主要字元作部首的左右结构以及除(1)以外的其余情况按书写顺序依次提取。汉字字元选取次序仍遵循先上后下、先左后右、先中间后两旁的原则,对于包围型结构的汉字则根据包围字元和被包围字元的起笔画的前后次序而定。如包围字元的起笔画在被包围字元的起笔画之前,则次序为先外后里,如庙、赶、句、同、区、困;相反情况其次序为先里后外,如凶、连、延。四、结合字元的音码和次要字元的形码最终形成汉字的编码,具体步骤可分以下几种情况进行(1)提取的字元数恰为四个汉字编码即为此四个字元的对应音码。例如‘源’字编码为dcbx,‘撂’字编码为ftwk。(2)提取的字元数为三个汉字编碍的前三碍为此三个字元的音码,第四码则取三个字元中第一个次要字元的首形码,如三个字元均为主要字元,则第四码空缺。例如‘忪’字,前三码为‘忄八厶’的音码xbs,最后一码取‘八’的首形码p,合起来为xbsp;‘保’字三个字元均为主要字元,故仅取三码为rkm。(4)提取的字元效为两个汉字编码的前两码为此两个字元的音码,后两码的决定分以下三种情况①两个字元均为主要字元后两码空缺。如‘如’字为nk、‘休’字为rm。②两个字元中有一个为主要字元则避开主要字元,选取次要字元的首尾两形码作为后两码。如‘护’字前两码为fh,后两码为‘户’字的首尾形码ns。③两个字元均为次要字元依次取相应字元的首形码作为后两码。如‘欢’字后两码为cd。(4)提取的字元效仅为一个取其相应的音码和首尾形码,不足四码以字母‘q’填补。不同表一及表二所例之部首依其书写顺序取其笔画形码。总之其基本原则为若提取的字元不足四个则进一步拆分仅对次要字元进行,尽量避开主要字元。其理由是主要字元是高频字元,故汉字间的相互区别主要受其次要字元的制约。避开主要字元的步骤并不复杂,因为主要字元仅为28个,容易记忆,而字元数此时仅为2、3个也易从中挑选。下表给出一些例字表四>由上述四点组成的编码方案,运用于国标‘GB2312-80信息交换用汉字编码字符集(基本集)’规定的6763个汉字,重码为400多个。几点说明一、主要字元的个数可以增加,甚至可以入选某些合体汉字,如辟、青、林、隹。其结果是减少了重码,简化了编码,但增加了记忆量。二、形码的键位按排如考虑汉字的具体结构而加以区分的话,可以进一步减少重码。例如若字元出现在左右结构汉字中,其形码的横、竖、撇、折类对应计算机键盘的‘H’、‘L’、‘P’、‘Z’键位;其余情况,则相应对应表示元音字母的‘E’、‘I’、‘A’、‘U’键位。这样做可以考虑到更多的汉字结构信息,缺点是增加了记忆量。本发明提出的汉字编码方案记忆量少、重码少、使用方便。和现有编码方案相比具有如下优点一、编码原则严谨统一、字元拆分方法简洁明了、易于掌握。二、能更多反映汉字的结构信息,例如(1)不割断汉字字元和汉字本身的结构联系,将非单个汉字的字元的音码结合具体汉字加以考虑;(2)考虑到汉字的结构差异,对不同结构采用不同的取字元序列的方法;(3)以一音两形表征字元,更多地反映了作为组成汉字基本单元的字元的特征;(4)通过尽量提取低频字元、即次要字元具有的信息,从而抓住了汉字间相互区分的主要信息。三、编码容量大,由于次要字元的数目不受限制,从而可不受汉字字符集大小的限制。四、编码原则灵活、便于扩充。例如主要字元的个数可以增减;字元可以包括合体字;亦可根据汉字的不同结构使某些形码对应不同键位。权利要求1.一种可对任意大小汉字字符集进行编码的汉字音形结合式编码方法,该方法从构成汉字的结构单元(即字元)中选取若于高频字元作为主要字元,其余结构单元均作为次要字元,次要字元的数目没有限制。用主要字元和次要字元对汉字进行编码,对每个汉字最多只取四个字元用以编码,编码采用和字元有关的声母及进一步拆分得出的首尾形码,其特征在于a.对不以主要字元作部首的左右结构汉字以及含左右结构的任何混合结构汉字取字元时,对其左右结构中的任一部分最多只取首尾两个字元;b.若提取的字元不足四个则进一步拆分仅对次要字元进行。全文摘要本发明涉及一种汉字音形结合式编码方案。本发明通过以下编码原则对汉字进行编码从构成汉字的结构单元(即字元)中选取不超过30个的高频字元作为主要字元,其余结构单元均作为次要字元。次要字元的数目没有限制。对每个字元提取其一个音码和首尾两个形码作为对汉字进行编码的元素。对每个汉字最多只取四个字元用以编码,字元的提取根据汉字的具体结构而定,不足四字元时,进一步拆分仅对次要字元进行。结合字元的音码和次要字元的形码最终形成汉字的编码。本发明提出的汉字编码方案记忆量少、重码少、使用方便、可对任意大小汉字字符集进行编码。文档编号G06F3/023GK1121204SQ9411736公开日1996年4月24日申请日期1994年10月15日优先权日1994年10月15日发明者李保源申请人:李保源
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1