一种汉字的编码方法

文档序号:6602678阅读:263来源:国知局
专利名称:一种汉字的编码方法
技术领域
本发明涉及一种汉字的编码方法。
至今,汉字的编码方法已达数百种,其中有一种沈氏编码,它以四码元编码,第一码为汉字音码,以汉字读音的首码为代码,第二、三、四码为汉字部件音码,以汉字部件读音的首码为代码,由此可见,知道汉字的读音是实施沈氏编码的首要条件,但是在6753个国标汉字中,大约有1/3的汉字一般人还难以知晓,因此,这就成了推广沈氏编码法的一大障碍。
本发明的目的是提供一种更容易掌握,更容易实施的汉字编码方法。
本发明的解决方案是首先采用三码元编码,所述的码元包括汉字部件码和整字读音码,其中汉字部件码由字素码、笔划码、偏旁码、部首码和字根码组成,对于由两个汉字部件组合而成的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表第二个汉字部件再次分拆后的末位汉字部件的汉字部件码为代码,对于由三个或三个以上汉字部件组合而成的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表第三个汉字部件的汉字部件码为代码,对于由两个汉字部件组合而成但第二个汉字部件不能分拆的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表整个汉字的整字读音码为代码。
本发明进一步的解决方案是对于由两个汉字部件组合而成且第一个汉字部件可以再次分拆的汉字,其第四码以代表第一个汉字部件再次分拆时的首位汉字部件的汉字部件码为代码,对于由两个汉字部件组合而成但第一个汉字部件不可分拆而第二个汉字部件可以分拆的汉字,其第四码以代表第二个汉字部件再次分拆时的首位汉字部件的汉字部件码为代码,对于由三个汉字部件组合而成且第三个汉字部件可以再次分拆的汉字,其第四码以代表第三个汉字部件再次分拆后的末位汉字部件的汉字部件码为代码,对于由四个或四个以上汉字部件组合而成的汉字,其第四码以代表末位汉字部件的汉字部件码为代码。
下面结合实施例来阐明本发明的详细内容。
在描述实施例之前,有必要对汉字部件码和整字读音码予以定义,如上所述,汉字部件码由字素码、笔划码、偏旁码、部首码和字根码组成。
字素码,所谓字素就是可以作为其它汉字组成部分的一些基本汉字,字素码以字素读音的首码为代码。
笔划码,所谓笔划就是组成汉字的最基本的符号,本发明将笔划规定为横、竖、撇、捺、点、折六种,其中横、撇、捺、点的笔划码以其读音的首码为代码,竖和折的笔划码按其形分别以I和V为代码。详见表1。
偏旁码,偏旁有左偏旁和右偏旁之分,本发明将偏旁规定为25种,均系不能单独使用的非字偏旁,其中两点旁等20个偏旁码以习惯称谓读音的首码为代码,其余5个偏旁,即疒壳旁、三点水旁、双人旁、绞丝旁、踢手旁和走之旁分别以B、A、F、P、U和O为代码。详见表2。
部首码,部首有上部首和下部首之分,本发明将部首规定为15个,均系不能单独使用的非字部首,其中八字头等12个部首码以习惯称谓读音的首码为代码,“宀”以安字头称谓,并以安字读音的首码A为部首码的代码,“灬”的部首码按其形以W为代码,“亠”的部首码以O为代码,详见表3。
字根码,所谓字根是指不能单独使用的由笔划组成的汉字部件,本发明将字根规定为24个,其中“廾”等22个字根码以其习惯读音的首码为代码,“”的字根码按其形以“开口笑”命名,并以口字读音的首码K为代码,“乂”的字根码取同形的X为代码。详见表4。
整字读音码,以该汉字整字读音的首码为代码,因整字读音码仅用在由两个汉字部件组合而成但第二个汉字部件不能分拆的汉字的编码中,这些汉字的数量不多(大约50个左右),而且都是常用字,因此整字读音码用量不多,即使用到整字读音码,也不会增加编码的难度。
由此可见,本发明采用26个英文字母作为码元符号,而且一母(字母)多元(码元),字母的发音除V代表汉字拼音字母中的韵母ü外,其它类同汉字拼音字母的发音,为了便于记忆,特将表1、表2、表3和表4归纳成表5。
对于由两个汉字部件组合而成的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表第二个汉字部件再次分拆后的末位汉字部件的汉字部件码为代码。如“瓯”字,第一码是字素“区”的字素码Q,第二码是字素“瓦”的字素码W,第三码是字素“瓦”再次分拆后的末位笔划“丶”的笔划码D,即“瓯”的编码为QWD;如“拼”字,第一码是偏旁“扌”的偏旁码U,第二码是字素“并”的字素码B,第三码是字素“并”再次分拆后的末位字素“开”的字素码K,即“拼”的编码为UBK;如“血”字,第一码是笔划“丿”的笔划码P,第二码是字素“皿”的字素码M,第三码是字素“皿”再次分拆后的末位字根“”的字根码L,即“血”的编码为PML。
对于由三个或三个以上汉字部件组合而成的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表第三个汉字部件的汉字部件码为代码。如“掰”字,第一码是字素“手”的字素码S,第二码是字素“分”的字素码F,第三码是字素“手”的字素码S,即“掰”的编码为SFS;如“俞”字,第一码是字素“人”的字素码R,第二码是笔划“一”的笔划码H,第三码是字素“月”的字素码V,即“俞”的编码为RHV。
对于由两个汉字部件组合而成但第二个汉字部件不能分拆的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表整个汉字的整字读音码为代码。如“礼”字,第一码是偏旁“礻”的偏旁码S,第二码是笔划“ L”的笔划码V,第三码是“礼”字的整字读音码L,即“礼”的编码为SVL;如“太”字,第一码是字素“大”的字素码D,第二码是笔划“丶”的笔划码D,第三码是“太”字的整字读音码T,即“太”的编码为DDT。
通过以上描述,可以得知本发明首先采用三码元编码,具有编码输入速度快的特点,但是也带来重码较多的问题,为了解决这个问题,本发明进一步提出了四码元编码的方案。
对于由两个汉字部件组合而成且第一个汉字部件可以再次分拆的汉字,其第四码以代表第一个汉字部件再次分拆时的首位汉字部件的汉字部件码为代码。如“闭”字,前三码元为MCP,第四码是字素“门”再次分拆时的首位笔划“丶”的笔划码D,即“闭”的编码为MCPD。
对于由两个汉字部件组合而成但第一个汉字部件不可分拆而第二个汉字部件可以分拆的汉字,其第四码以代表第二个汉字部件再次分拆时的首位汉字部件的汉字部件码为代码。如“编”字,前三码元为PBN,第四码是字素“扁”再次分拆时的首位字素“户”的字素码H,即“编”的编码为PBNH。
对于由三个汉字部件组合而成且第三个汉字部件可以再次分拆的汉字,其第四码以代表第三个汉字部件再次分拆后的末位汉字部件的汉字部件码为代码。如“敷”字,前三码元为FFU,第四码是偏旁“攵”再次分拆后的末位字根“乂”的字根码X,即“敷”的编码为FFUX。
对于由四个或四个以上汉字部件组合而成的汉字,其第四码以代表末位汉字部件的汉字部件码为代码。如“禹”字,前三码元为PKM,第四码是末位字根“厶”的字根码S,即“禹”的编码为PKMS。
当然,本发明也可以采用公知的“高频先见”和“置换键”的方法来解决重码问题。
为了进一步提高编码的输入速度,本发明也可以采用一级简码、二级简码和词汇编码的方案,其方法同公知的方法类同,这儿不再赘述。
综上所述,本发明的特点是一、编码同汉字的整字读音基本上无关(除约50个左右的极少数汉字外),而同大多数人都能掌握的汉字分拆后的字素的读音有关,从而解决了音码编码一大难题;二、首先采用三码元编码,输入速度快,同时用四码元编码来解决少量的重码问题,因此,本发明所述的汉字编码方法更容易掌握,更容易实施。表1.笔划码
表2.偏旁码
表3.部首码
表4.字根码
表5.码元汇总表
权利要求
1.一种汉字的编码方法,其特征是首先采用三码元编码,所述的码元包括汉字部件码和整字读音码,其中汉字部件码由字素码、笔划码、偏旁码、部首码和字根码组成,对于由两个汉字部件组合而成的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表第二个汉字部件再次分拆后的末位汉字部件的汉字部件码为代码,对于由三个或三个以上汉字部件组合而成的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表第三个汉字部件的汉字部件码为代码,对于由两个汉字部件组合而成但第二个汉字部件不能分拆的汉字,其第一码以代表第一个汉字部件的汉字部件码为代码,第二码以代表第二个汉字部件的汉字部件码为代码,第三码以代表整个汉字的整字读音码为代码。
2.根据权利要求1所述汉字的编码方法,其特征是对于由两个汉字部件组合而成且第一个汉字部件可以再次分拆的汉字,其第四码以代表第一个汉字部件再次分拆时的首位汉字部件的汉字部件码为代码,对于由两个汉字部件组合而成但第一个汉字部件不可分拆而第二个汉字部件可以分拆的汉字,其第四码以代表第二个汉字部件再次分拆时的首位汉字部件的汉字部件码为代码,对于由三个汉字部件组合而成且第三个汉字部件可以再次分拆的汉字,其第四码以代表第三个汉字部件再次分拆后的末位汉字部件的汉字部件码为代码,对于由四个或四个以上汉字部件组合而成的汉字,其第四码以代表末位汉字部件的汉字部件码为代码。
全文摘要
本发明所述的汉字编码方法的主要特点是首先采用三码元编码,码元包括汉字部件码和整字读音码,且汉字部件码由字素码、笔划码、偏旁码、部首码和字根码组成,为了解决三码元编码重码较多的问题,又进一步提出了四码元编码的方案,因为整字读音码仅用在极少数汉字的编码中,可以说本方法同汉字整字读音基本无关,而同大多数人都知晓的汉字分拆后的字素的读音有关,因而解决了音码编码的一大难题,因此,本编码方法更容易掌握和实施。
文档编号G06F3/023GK1166644SQ9611175
公开日1997年12月3日 申请日期1996年8月15日 优先权日1996年8月15日
发明者梅雪俦 申请人:梅雪俦
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1