一种汉字编码输入方法

文档序号:6410162阅读:413来源:国知局
专利名称:一种汉字编码输入方法
技术领域
本发明涉及一种汉字编码输入方法,特别涉及一种简体,繁体和异体字共容于一体的汉字编码输入方法。
十多年来,国内外已提出汉字键盘编码输入方案达数百种之多,但不外乎采用音码输入法、形码输入法以及音形码输入法。现有技术的形码输入方法中,“郑码”选用400多个字根,按汉字起笔结构顺序分为五大类,再把国际标准小键盘上的字母键按ABCD-Z的顺序也分成五段,然后,使所选定的字根依次按汉字笔顺规律安排在键盘的相应字母键上,例如,起笔为横的“王”字,映射于C键、起笔为竖的“虫”字,映射于1键、“木”映射于F键、“马”映射于X键等等。由于字根多达400多个规则也多,记忆困难,重码率也高,操作使用很不方便。
本发明的目的是提供一种易学、易记、易用、平均码长短、输入速度快、重码少的汉字编码输入方法。
根据本发明计算机汉字编码输入方法它包括形码及其映射的形码代码,其特征在于所说的形码由笔画、偏旁、部首、成字根、非成字根及笔画集成块中选取作为码元;所说的码元与标准键盘的字母键,按声托映射关系定位,作为码元的代码,其中,A-乙、、 B-八、匕、不、巴、勹、疒、 丷、卜、丬、少、 C-车(車)、寸、廾、艹(廿、)、巛、 ( )、 D-大、刀(  刂 ) (夕、攵)、 典、 E- 而、儿、耳、二、卩( )阝左、阝右、 衤、F-方、非、丰( )、甫、扌、 攵G-戈(弋)革、工、弓、瓜、广、鬼、艮( )、 口、 、H-一、禾、黑( )、户、 回(囬)、火、灬 、 、 I-是、丨、手( )、水(氵、 )、尸、身、食(饣)、矢、彡、 J-几、见、巾、斤、金(钅)臼( )、廴、冖、 K-口、 凵、 L-立、力、 冫 ) 、礻、 、M-马(馬)毛、目、门(門)、皿、母( )、木( )、 眉、 ( )N-鸟(鳥 )、牛(牜、 )、女、 鸟(鳥)O-长(長 )、臣、辰、虫、厂( )、
Q-七、气、且( )、曲、匚、犭、、 缶、R-人(亻、人、)、日(日、 、)、 S-山、上、十(ナ )、士、巳、豕( )、厶 ( )、石、 纟(糹)T-田、土、冂( ) 、 U-由、酉、又、鱼(魚)、予、月( )尢、 V-止、舟、 丬( )、竹( )、 W-瓦、王、韦、我、乌(烏)、亠、 X-夕、习、小(、 )、心(忄、 )、彐( )、 乂(爻)、 Y-言、羊、也、页(頁)、业、衣()用、雨、 ( )、 Z-早、子、自、 辶、( ) 、其单字或词组的输入步骤是单字按笔顺,前四末一原则,不等长编码,码最长为五码;词组按双字词为首末、首末,三字词为首、首、首末,四字以上词为首、首、首、尾末编码,再按所说的码元与字母键的映射关系,依次输入汉字编码。
由于本发明的方法中,所选用的码元具有较强的规范性,码元集中有190个码元,是从汉字统一部首表中选取的。此外,还有少数笔画结构块,形象直观。因而码元通用性好,组字能力强,适用面广。用本发明的方法,对GB2312-80和GB13000大字符集的汉字都进行了编码,使之可应用于古籍整理中的计算机处理。还有,码元与键盘上键位的映射关系,实现了“声托”化,便于记忆和使用。另外,有些码元采用了双码,既减少了重码,又保持了码元的完整性,还使简繁汉字的编码区分明显,混合输入非常方便。本发明方法还采用了不等长编码,在不增加重码的情况下,获得了大量的二级和三级简码,因而有效地缩短了平均码长。对大字符集GB13000汉字系统常用单字平均码长2.8键/字,字词混合输入为1.4键/字,静态平均码长3.8键/字。重码率二码字为1100组,三码字为210组,四码字为38组,五码字为14组。
下面通过实施例和附图,详细说明本发明的汉字编码输入方法。


图1是本发明方法的码元与字母键的映射关系图。
根据本发明的汉字编码输入方法,首先按照书写汉字的笔顺规律,把汉字分解成为基本笔画、偏旁、部首、成字根、非成字根以及笔画集成块等字形结构部件。根据结构部件的组字能力,共选出290个部件,作为本发明方法的构字部件,并称之为码元。
表一是本方法的码元名称和约定代码表。该表一中,例如“ ”,称为“敖字旁”,约定代码为A、如“勹”,称为“包字头”,约定代码为B等等。再根据码元名称读音的声母,使之与为国际标准小键盘上的字母键一一相对应予以定位,实现码元声托化,从而达到易于记忆,便于使用。
图1就是本发明方法的码元与字母键的映射关系图。从图中可以看出,各个码元和高频字与字母键的映射位置。汉语中三个声母ZH、CH、SH分别用字母键V、O、I表示。五种规范笔画“一、丨、丿、丶、乙”,分别用其读音第一字母,即声母H、I、P、D、A表示。要说明的是,多种折画都作为规范笔画“乙”安排在A键上。此外,26个高频字其、我、而、人…,按其读音的声母安排在相应的字母键Q、W、E、R…上,以便提高输入速度。
下面,说明单汉字的编码输入步骤。
通常把汉字分解为多个码元,从起笔(笔画、偏旁、部首、字根)开始,依次连续取四个码元,然后在字尾取一码元(笔画或字根),这五个码元组成的代码串就是该汉字的输入编码。一个汉字的编码由码元的多少个数而定,它是一个不等长编码。按规定的“前四末一”原则,最多只取五码。
本发明方法取码元的顺序是1、按书写汉字的笔画顺序(以语委文本为依据)取码元。
例未=一、木=HM手=丿、二、丨=PEG但有时需笔顺服从根顺。例“器”=口、口、大、丶、口、口。
但只取KKDDK,又如“或”=戈、口、1,则取GKT。
2、键盘上标明的码元无论何结构,在作为拼字成分时,均不再分解。例萌=艹、日、月,则在键盘上输入C(艹)、R(日),U(月)。
3、先取上边码元,后取下边码元。例音=立、日=LR,崽=山、田、心=STX虱= 、丿、虫=APO4、先取左边码元,后取右边码元。例取=耳、又、=EU投=扌、几、又=FJU做=亻、十、口、、乂=RSKRX5、先取外边码元,后取内部码元。例困=口、木=GM国=口、王、丶=GWD6、多个码元在一起时,依笔顺先取多笔大码元。例益宜取、八、皿。而不是先取丷,再取一和八、皿。
7、重码显示在屏幕下边,供用户挑选。例输入“申”字,此是键入“RI”,则在屏幕下边出现1、甲 2、申,若再键入1,则汉字“甲”被选中。若键入2,则汉字“申”被选中。接着,说明词组的编码输入步骤。
一、双字词首末、首末1、取每个字的首码元和末码元(取“一”=yy)。例标题=木小、日页=mxry一旦=一、日一=yyrh单项=丷十、工页=bsgy办厂=力、八、一、丿=lbhp不安=一、丶、宀、女=hdbn人民=pnmg腐败=grtx2、双码码元独立出现时,取原双码。例马车=mjcj良田=丶、艮、田=dgtn日本=rnmh鸟类=njbd改革= 、乂、革=kxge火灾=hobh目的=mupd3、带J,F的双码码元位于组合字中时,取第二码(J或F),其它双码字码元取第一码。
例鲜明=鱼、羊、日、月=jyru号码=口、勹、石、马=kasj二、三字词首、首、首末前两字取首码元代码(键面码元取键位名,j,f双码码元取j或f),第三字取首、末码元代码(含双码)。
例按规定=ffbz 不甘心=bcdd
纺织业=jjih 大问题=djry自行车=zpcj 发言人=aypn邓小平=uxhs 二等奖=evjd三、四字以上词首、首、首、尾末前三字取首码元代码(键盘码元取键位名,j,f双码码元取第二码,非j,f双码取第一码),末尾字取末码元代码(键位码元键位名,j,f码元取j或f)。例工人日报=grru出租汽车=chij爱国主义教育=vgdu控制人口=fnrk军工企业=jgry全心全意为人民服务=rxrl技术合作=fmre中国共产党=kgce全国人民代表大会=rgrs财政部门=thlj天安门广场=hbjp中国共产党中央委员会=kgcs为了易于区别某些繁体和简体字的输入,本发明方法还采用了在少数繁体码元代码后加“f”,简体部首码元代码后加“j”的技巧,例如乌wj( wf)、鸟nj( nf)、钅jj(金jf)、鱼uj(魚uf)、长oj(長of)、马mj(馬mf)、车cj(車cf)、丬vj( vf)、门mj(門mf)、
饣ij(食if)、纟sj(糹sf)。
此外,为了进一步减少重码起见,对优选的下述码元,当其作为第1码元或者两码元组合字的第二码元进行编码时,要在码元的代码之后分别加上N、A、E、I、O、U、Z。上述所涉及的码元为豸zn、犭qn、 yn、毛mn、非fn、耳en、弓gn、日rn、曰rn、田tn、禾hn、疒bn、舟vn、酉un、牛nn、身in、 yu、户hu、目mu、革ge、阝ez、巴bv、甫fu、鬼gs、火ho、尸ii、石sn、来ia。
本发明的方法,现已完成对GB13000、ISO/IEC10646两种大(汉字)字符集,以及GB2312-80、GB12345-90国标汉字的编码。还可以对6763~58000个楷书汉字中简体、繁体、异体字进行编码。目前已在ms-DOS系统扩建了GB13000汉字数据库,并能十分方便地输入汉字文件。本方法用之于GB13000大字符集汉字系统的情况是二(级简)码字1150个、三(级简)码字4820个、四码字为6899个,以及五码字为8007个。平均码长,常用单字为2.8键/字,字词混合为1.4键/字。静态平均码长为3.8键/字。重码率二码字为1100组、三码字为210组、四码为38组,五码字字4组。
表1
表1续
权利要求
1.一种计算机汉字编码输入方法,它包括形码及其映射的形码代码,其特征在于所说的形码由笔画、偏旁、部首、成字根、非成字根的及笔画集成块中选取作为码元;所说的码元与标准键盘的字母键,按声托映射关系定位,作为码元的代码,其中,A B C D  匕不 巴 疒 寸 车(本) 巛 丶 大 ㄋ 勹 宀 ( ) 刀(  刂)丌丬  艹 (廾廿夊( ) 乙 八 (丷) 、) ※ E FG H二而儿耳 方非夫甫革工弓广灬一禾火 ( ) 丰( ) 瓜戈( ) ( )阝、 扌 攵、 艮( ) 口 回(囬)户 鬼  虫 、、 IJ K L丨彡手 尸几见斤巾 口(  ) 、力 立 耒 水(氵 ) 臼( ) 冫( )身 钅(金) 冖 廴 饣(食)矢 、礻 MN OP木( )毛皿 女 臣辰虫 丿 彳 皮马(馬 ) 鸟( ) ( ) 长( )片( ) 、门(門)母( )牛(牜 ) 厂( )目 ( ) ( ) Q R ST七气曲匚犭人(亻) 山上士巳 土田且( ) 日(曰 ) 石十(ナ) ( ) 缶、 厶( ) 豕 ( ) 纟( )、U V(ZH) W X又子尢由 止舟隹 瓦王韦我 习夕( ) 覀酉鱼(魚) 丬( ) 乌( ) 心(忄)月( )小 ( ( ) 亠 彐( ) 乂 (爻) Y Z言也业 子自早豸 羊( ) ( )孑页頁) 用 辶、衣( )、 其单字或词组的输入步骤是单字按笔顺,前四末一原则,不等长编码,码最长为五码;词组按双字词为首末、首末,三字词为首、首、首末,四字以上词为首、首、首、尾末编码;再按所说的码元与字母键的映射关系,依次输入汉字编码。
2.根据权利要求1的汉字编码输入方法,其特征在于,所说繁体字部首码元代码后加F,而且所说简体字部首码元代码后加J。
3.根据权利要求2的汉字编码输入方法,其特征在于,所说繁体或简体字部首码元分别加F或J的所说码元是乌wj(烏wf)、鸟nj(鳥nf)、钅jj(金jf)、鱼uj(魚uf)、长oj(長of)、马mj(馬mf)、车cj(車cf)、丬vj( uf)、门mj(門mf)、饣ij(食if)、页y( yf)、纟sj(糹sf)。
4.根据权利要求1的汉字编码输入方法,其特征在于,当所说码元作为第1码元或两个码元组合字的第二码元参加编码时,所说码元后分别加上N、A、E、I、O、U、Z。
5.根据权利要求4的汉字编码输入方法,其特征在于,所说的加上N、E、I、O、U、Z、的码元为豸zn、犭qn、羊yn、毛mn、非fn、耳en、弓gn、日rn、曰rn、田rn、禾hn、疒bn、舟va、身in、酉un、牛nn、石sn、甫fu、户hu、目mu、雨yu、革ge、巴ba、火ho、阝ez、鬼gs、尸ii。
全文摘要
本发明属于一种计算机汉字编码输入方法。它包括由笔画、偏旁、部首和字根中选取的码元码元与标准键盘上的字母键,按声托映射定位;单字编码按笔顺前四末一。不等长取码;词组编码按双字词为首末、首末,三字词为首、首、首末,四字词为首、首、首、尾末取码;再按上述映射关系输入。本方法易学、易记、易用平均码长短、输入速度快、重码少,适合于繁体、简体、异体字混合输入汉字,无需转换。
文档编号G06F3/023GK1136180SQ96103258
公开日1996年11月20日 申请日期1996年3月12日 优先权日1996年3月12日
发明者石云程, 石波 申请人:石云程
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1