汉字通输入法的制作方法

文档序号:6361699阅读:295来源:国知局
专利名称:汉字通输入法的制作方法
技术领域
本发明是涉及汉字通输入法(新概念输入法),具体的说是涉及汉字的输入方法、汉字的编码方法和汉字字符定义方法以及汉字库的构成。
目前信息社会中,计算机日益普及到人类社会的各个方面,在中文信息化中,汉字的输入仍是一个制约性的问题,现有众多的汉字输入法(实际上是汉字编码法),未能也不可能解决全部可用汉字的输入,汉字的输入还远没有解决,还仃留在初、中级输入使用阶段,只能凑合着用。汉字进入计算机也已有20余年,人们还在讨论汉字的编码方法。仍没有一个被大家接受的方便使用的无同码的编码输入法。就连在国内流行较广的‘五笔字型’,不但至今不为国家教委和国家语委所认可,并受到教育界有识之士的强力抵制。最近在2001年11月28日光明日报上发表了张在云的文章“我看‘五笔字型’存在的问题”,和12月26日钱玉趾的“‘五笔字型’现象的困惑”等文又对五笔字型提出否定意见。另一个问题是,同其它文字比较,汉字在计算机中处于不平等的地位,不能象英文、俄文等文字那样自由输入任何要使用的单字,即使是新产生字的科技用字也可以输入。而汉字则只能输入使用较少的一部分汉字,许多汉字不能输入和使用,把汉字的输入使用限制在汉字库的范围内,几次扩大汉字库也未能解决对汉字的缺字需求,比如,新的科技用字噁等及其它偶用字。这不是因为汉字的输入有难以解决的高新技术问题,而是现行的汉字输入理论和方法存在严重问题,汉字字符的定义和汉字字符集构成存在不合理性,在汉字进入计算机之初,把汉字定义为图形字符,使汉字能进入计算机是汉字输入突破性的一步。但是把要输入的每一个汉字都定义为图形字符,使汉字等同于英、俄文的字母,把全部汉字的输入归结为以字符方式输入,就偏离了一般文字(如英、俄文)输入的原理和方法。没有按照汉字构字法输入汉字,这样的定义和等同导致了汉字输入的严重问题。把每一个汉字都定义为汉字字符并列入字符集(汉字库),就把每一个汉字作为输入单位,取消了汉字的构字过程,定义一个汉字,输入一个汉字,不定义就不能输入,把汉字的输入限制在被定义的字符范围内,大大限制了汉字的输入使用量,把每一个汉字都定义为汉字字符并列入字符集(汉字库),是不应该的、不合理的、不必要的和不可能的,因为它包括不了全部汉字或绝大部分汉字,同时也增加了汉字编码的难度和重码率。由于这样定义汉字字符,就把汉字的输入方法误导为单纯的编码方法,把‘XX码’说成‘XX输入法’,进入了编码的死胡同,徘徊不前,人们再也没有研究和解决汉字的输入方式,使汉字的输入至今没有较彻底解决。
为了克服汉字输入法中存在的问题,使汉字输入法走出汉字编码的死胡同,本发明根据汉字构字法的理论和方法,对汉字的输入法进行了较大的改革,赋予汉字输入法以新的概念和新的方法,提出创立一种全新的汉字编码输入法——汉字通输入法。即按照汉字构字法的原理进行输入,本发明的核心是将合成汉字一分为二成两个基本汉字,进行字符定义、汉字编码、汉字输入。是真正从解决汉字输入方式的意义上研究和解决汉字的输入法,不是用汉字的编码方法替代汉字输入法,是类似于字母文字输入法的汉字输入法,它克服了现有汉字输入法中存在的问题。本输入法以解决全部可用汉字的输入为出发点,而不是只解决部分汉字的输入,改革后的汉字字符集(汉字库)只需要5%的汉字字符,就可输入全部可用的繁、简体汉字和新生汉字。
本发明引入了汉字构字法,根据汉字构字法原理,将汉字分为两大类基本字和合成字。根据汉字的发展历史,汉字最初由六书的象形、指事、形声和会意造字法造汉字,甲骨文字可读的有1226个,其中形声和会意组成的合成字占三分之二以上,后由六书的形声、会意构字法逐渐构字,发展到现在的5万余字。汉字构字法不是由字母拼组,是由‘字组字’拼组汉字,最具有代表性的是占汉字95%以上的形声字,就是由一半表声一半表形(意)的两个基本汉字拼组合成的,会意字也全是两字组成的合成字,这样一来,合成字将占汉字的99%以上。现代科技的新生字也是这样拼组合成的。由此可见,汉字的发展也是由其构字法构字的,因此,汉字可分为两类,汉字用以构字的原创字可称为基本字,由基本字(原创字)合成的字可称为合成字,汉字的基本字和合成字的界限虽不很明显,为了简便起见,可将现代汉字一次性一分为二切分后的汉字定为基本字,这样一分为二成的基本字约为2000-2500字,其中包括300多个独体汉字,只占汉字的5%左右,合成字占95%以上,可由5%的基本字拼组成95%的合成汉字,输入100%的可用汉字。
将汉字的输入方式分为两种字符方式和非字符的拼组方式,基本字以字符方式输入,合成字一分为二成两个基本字,由基本字‘字组字’合二而一拼组输入。汉字的输入将不受汉字库的限制,可拼组输入任何想要输入的汉字,比如,汉字库中没有的新科技用字噁等均可拼组输入。它们是人工生产的放射性元素,是金属元素,故用‘钅’(釒)字傍,加上相应的表音字,就合成了这些新字。
将汉字分为字符和非字符两种形式基本字定义为汉字字符(图形字符),合成字不定义为汉字字符,由基本字‘字组字’合二而一拼组输入。改革后的汉字字符集(汉字库)的汉字字符量可压缩至2500字左右的小型汉字库,除作少量补充外,都是现行汉字库中的字符,且不再需要扩大,也就是说只需要5%的汉字字符,就可输入全部可用的繁、简体汉字和新生汉字,从理论上计算,按本输入法可输入数百万以上的汉字,是现有汉字的100倍,既大大压缩了汉字字符量,又极大地扩大了汉字输入量,且稳定了汉字库。是对汉字库的重大改革。
汉字编码方法分为两种基本码和合成码,对作为汉字字符的基本字直接编码,以字符方式输入,合成字的编码由基本字的编码组成,以拼组方式输入,汉字的编码可减至2500个左右。但是,基本字的数量仍然很多,且字型复杂,难以用键盘键位直接定义汉字字符,还必须通过编码才能输入。经对汉字结构的分析研究表明,汉字都是由一些简单的‘笔画的组合’—简单的偏旁部首—构成,本发明就是提取组字最多的‘笔画的组合’作为汉字‘字型字母’和‘类字母’,为方便用拼音字母表示,取26个作为字母,其余的同字母相似的作为类字母,它们的数不多,容易记忆和使用。利用这些字母和类字母对汉字进行编码,汉字部件也可用这些字母和类字母进行编码,使汉字的编码接近字母化。利用数字表示的汉字的笔形及其变形对汉字编码更简化了汉字的编码。本输入法的编码方法采用了字母化和笔形化的方法,分别用a-z表示的26个‘字型字母’及类字母和用1-9表示的9个汉字笔形及其变形,对汉字库中的数千汉字进行编码即可输入全部可用的繁、简体汉字,简化了汉字编码,经小学2-3年级学生试用,很快就可学会,且不易忘记。
5.本输入法不但简化了汉字的编码和输入,也提高了汉字的编码和输入速度,因为其普及码和简码主要是对常用字设计的,而常用的3800-5000字可覆盖99.99%的动态使用率,可简便快速地输入常用字。采用不同的码长和编码方法输入不同的汉字,可方便不同用户的使用,常用字的编码要尽量短,以减少编码的时间和精力,提高效率,分清单字和词组,减少重码和相互干扰。非常用字和偶用字一般为合成字,编码和输入方法较复杂些,但能够输入全部汉字,做到不缺字。
6.本编码方法也可以对大的汉字库进行逐字编码,已利用本发明的两种编码方法在Win98上生成汉字输入法,可无同码地输入21003个汉字和27000条词组,其指标如下数字编码名称 国标 汉字通1)逐字输入平均码长(码/字) <6<62)逐字输入重码率 (%) <803)字词混合码长码/字<42.26用字母编码逐字输入的重码率为0,国标为<8%。
本输入法突破了汉字库的限制,利用较少的有限的汉字字符输入无限的汉字,可实现半无字库半无编码的自由输入汉字。是汉字输入法的重大突破和革命,是汉字输入法的创新。可从根本上较彻底解决汉字的输入。
为了证明本编码的易学、易用性,从小学生就可学会使用,编辑了一种用1-9数字编码和用a-z字母编码查字的‘汉语电子字典’,含繁简体汉字13500余字,可用两种编码方法无同码地查繁简体字,还可以按拼音查字,经小学2-3年级学生在电脑上进行了试用,他们很快就能学会,也很喜欢用。学会了查字法就学会了汉字输入法。
关于字形符的说明,由于汉字字形复杂,常有两个汉字只是汉字各部件的平面位置排列不同,而构成完全不同的两个汉字,例如吧和邑;岂和屺;员和呗;只和叭;旭和旮等等,造成两个汉字的编码完全相同,对这些两两编码相同而字形不同的汉字,编码时在次常用字后面用字形符加以区别,由于这种字的数量不多,且往往只有两个字相同,操作者无需考虑,照常编码输入,如有这种同码,由计算机给出提示,以便选择。并利用这一规则消除由各种因素造成的少量同码,达到无同码地输入。
以下,结合实例对本发明的编码方法加以叙述1.数字码2)基本字及常用字的编码一-1;口-6;个-82;马-551;可-162;本-781;权-7854;词-45516;资-4828;整-77181;2)合成字的编码喆-716716(吉-716);鳃-3796795(魚-379,思-6795);椙-786161(木-78,昌-6161);拫-75119(扌-7,艮-5119);啝-63786(口-6,和-3786);钅杜-397871(钅-39,杜-7871)。
3)词组的编码劳动-143113;劳动生产率-143134;国家-694414;国家经济建设-694594;革命根据地-117877。
2.字母码1)基本字和常用字的编码一-y;口-o;个-rp;马-zgy;可-go;本-my;权-mz;词-nlgo;资-erur;整-mvya;2)合成字的编码喆-toto(吉-to);鳃-dvhovl;(魚-dvh,思-ovl);椙-mqq(木-m,昌-qq);拫-fzex(扌-f,艮-zex);啝-opmo(口o,和-pmo);钅杜-jmt(钅-j,杜-mt)。
3)词组的编码中国-opon;中国人-opor;中国人民-oorg;上海-ryss;上海市-ryse;革命根据地-crmt;劳动生产率-cepe;国家经济建设-okln。
字母及类字母表字母及类字母A [山] 止 屮 N [丶] ㄟB [八] 丷 0 [口] 囗 C [艹] 廿 卝 廾 P [丿] 丨 亅D [刀] 卩 勹 巜 刂  ク リ Q [日] 曰 E [二] 亠 丄 冫R [人] 入 亻  卜  F [扌] 干 戈S [三] 氵 彡 G [了] 丁 丅 コ ㄋ T [土] 士 七H [火] 灬  U [月] 冂 I [厂] 广 V [十] 乂 ナ J [钅] W [王] 丰 戋 非 K [宀] 冖 X [小] 川 忄  巛 L [幺]  匕 Y [一] M [木] Z [乙] 又 辶 字形符- =/ [ ]独体型 上下型左右型包容型复合型数字代码表1 一 艹 丆2 | 亅 冂 山3 丿 勹 ク  金4 丶  亠 言 宀5 乙 乛 幺  ㄋ ㄥ 6 口 囗 7 十 七 乂 ナ 扌8 人 入 八 丷 亻  卜9 三 小 氵 彡 灬 字形符- =/ [ ]独体型 上下型左右型包容型复合型
权利要求
1.一种汉字通输入法(新概念输入法),其特征在于所说的汉字通输入法是新概念的汉字输入方法、汉字编码方法和汉字字符定义方法以及汉字字符集的构成,将汉字分为基本汉字和合成汉字两种字,分别进行编码和输入。把基本汉字定义为汉字字符,以字符方式输入,基本汉字又包括独体基本汉字和合体基本汉字,合成汉字由两个基本汉字拼组合成输入。
2.根据权利要求1所述的汉字通输入法,其特征在于所说的汉字通是将基本汉字按整字编码进行输入,而合成汉字是按上下、左右、内外一分为二成两个字分别编码,进行拼组输入。
3.根据权利要求1和2所述的汉字通输入法,其特征在于所说的汉字通输入法是将汉字分解为用1-9表示的九种笔形码或用a-z表示的26种字形字母码进行编码输入。
4.根据权利要求1、2和3所述的汉字通输入法,其特征在于所说的汉字通输入法是将基本汉字定义为汉字字符,并列入汉字字符集(汉字库),合成字则不定义为汉字字符(1)基本字作为单独汉字使用时,利用现行标准以字符方式进行输入。(2)基本字作为合成汉字的半字使用时,定义为半字字符列入字符集,在输入合成字时,由两个基本字拼组成合成字输入。或者在输入时由智能软件将标准基本汉字转化为上下型、左右型或内外型进行拼组输入。
5.根据权利要求1、2和3所述的汉字通输入法,其特征在于所说的汉字通输入法是将难分为两个基本汉字的独体字,按习惯的写字笔顺编码输入,数字码最多取1、2、3、4和末码共5码,不足5码的,有几码取几码。字母码最多取1、2、3和末码共4码。不足4码的,有几码取几码。
6.根据权利要求1、2和3所述的汉字通输入法,其特征在于所说的汉字通输入法是用a--z字母对汉字编码,将汉字的编码方法分为通用码(标准码)和普及码(常用码)两种1)通用码(标准码)对基本字和合成字分别进行编码,适用于全部合成汉字的输入。(1)基本字的编码取每个字的1、2、末3码组成基本字的编码,进行输入,不足3码的,有几码取几码。(2)合成字的编码将合成字按上下、左右、内外一分为二成两个基本字,分别按基本字编码,由两个基本字拼组输入。2)普及码(常用码)适用于一般常用汉字,汉字通输入法是将合体基本汉字一分为二成两个汉字分别用字母码取码,第一字取1、末2个字母码,第二个字取1、末2码,共取4码,组成合体字的编码,取码方法如下。(1)第一字为1码时,取1码,第二个字取1、2、末3码,共取4码,不足4码的,有几码取几码。(2)第一字为2码以上时,取1、末2码,第二个字取1、末2码,共取4码。不足4码的,有几码取几码。(3)第一字为3码以上时,第二个为1码时,第一字取1、2、末3码,第二字取1码,共取4码。
7.根据权利要求1、2和3所述的汉字通输入法,其特征在于所说的汉字通输入法是用1--9数字对汉字编码,将汉字的编码方法分为通用码(标准码)和普及码(常用码)两种1)通用码(标准码)对基本字和合成字分别进行编码,适用于全部合成字的输入。(1)基本字的编码合体基本字按上下、左右、内外一分为二成两个字,取每个字的1、末2码组成基本字的编码,进行输入,不足4码的,有几码取几码。(2)合成字的编码将合成字按上下、左右、内外一分为二成两个基本字,分别按基本字编码,由两个基本字拼组输入。2)普及码(常用码)适用于一般常用汉字,汉字通输入法是将合体基本汉字一分为二成两个汉字分别用数字码取码,第一字取1、末2个数字码,第二个字取1、2、末3码,共取5码,组成合体字的编码,取码方法如下。(1)第一字为1码时,取1码,第二个字取1、2、3、末4码,共取5码,不足5码的,有几码取几码。(2)第一字为2码以上时,取1、末2码,第二个字取1、2、末3码,共取5码,不足5码的,有几码取几码。(3)第一字为4码以上时,第二个为1码时,第一字取1、2、3、末4码,第二字取1码,共取5码。
8.根据权利要求1、2、3、4、5、和6所述的汉字通输入法,其特征在于所说的汉字通输入法的词组是取各个字的编码或编码的一部分组成词组的编码,用a-z字母编码输入时,取码方法如下1)二字词的编码是取第一字和第二字的1、末码,组成该词组的编码;2)三字词的编码是取第一字的1、末码和第二、三字的第一码,组成该词组的编码;3)四字以上词组的编码是取第一、二、三、末字的第一码,组成该词组的编码。
9.根据权利要求1、2、3、4、5、和7所述的汉字通输入法,其特征在于所说的汉字通输入法的词组是取各个字的编码或编码的一部分组成词组的编码,用1-9数字编码输入时,取码方法如下组成该词组的编码。1)二字词的编码是取第一字和第二字的1、2、末码,组成该词组的编码;2)三字词的编码是取第一字的1、2末码和第二字的1末码和第三字的第1码,组成该词组的编码;3)四字以上词组的编码是取第一字取1、2、末3码,取第二、三、末字的第一码,组成该词组的编码。
10.根据权利要求1、2、3、4、5、6和7所述的汉字通输入法,其特征在于所说的汉字通输入法的简码是取各个字编码的一部分组成该字的简码,用于输入常用的汉字,简码的取法如下1)用1-9数字编码输入时的简码取码方法是(1)最常用汉字,取该字的第1码或取第一半字的第一码和第二半字的第1码或取第一半字的第一码和第二半字的第1、末码作为其简码。(2)常用汉字,取该合体字的第一半字的1、末码和第二半字的1、末码共4码作为其简码。2)用a-z字母编码输入时的简码取码方法是(1)最常用汉字,取该字的第一码或取该合体字的第一半字的第1码和第二半字的第1码作为其简码。(2)常用汉字,取该合体字的第一半字的1码和第二半字的1、末码作为其简码。
全文摘要
本专利是以全新的概念创立了新概念输入法——汉字通输入法。它包括新的汉字输入方法、编码方法和汉字库的构成。本输入法的编码方法采用了字母化和笔形化的方法,大大简化了汉字的编码。还用本编码方法编辑了一种用1-9数字编码和用a-z字母编码查字的‘汉语电子字典’,含繁简体汉字13500余字,可用两种编码方法无同码地查繁简体字,还可以按拼音查字,经小学2-3年级学生在电脑上进行了试用,他们很快就能学会。本输入法可不受汉字库的限制输入全部可用的繁、简体汉字,可实现半无字库和半无编码的自由输入汉字,是汉字输入法的重大突破和革命,是汉字输入法的创新,可从根本上较彻底解决汉字的输入。
文档编号G06F3/023GK1414459SQ0213660
公开日2003年4月30日 申请日期2002年8月22日 优先权日2002年8月22日
发明者武守义 申请人:武守义
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1