计算机汉语字词输入法的制作方法

文档序号:6407327阅读:172来源:国知局
专利名称:计算机汉语字词输入法的制作方法
技术领域
本发明涉及一种将所要处理的数据变成计算机能够处理的形式的输入方法,确切地说是涉及一种计算机汉语字词输入方法。
汉语字词的计算机输入包括键盘及编码方案,编码的目的是要将众多的汉语字词用较少的符号表示出来,使其通过计算机键盘或其他装置高速准确地输入,因此,编码方案应有助于快速准确地输入汉语字词和便于操作者记忆使用。
现有的计算机汉字输入法主要有字形码和字音码两大类。由于汉字属表意体系的文字,数量多,结构复杂,所以字形码大都规则繁琐,字形障碍多,难于掌握,字音码则重码率高,不利于盲打,且读音障碍多,凡此种种影响计算机的汉字输入的速度和准确度。
本发明的目的是提供一种音形结合的,输入效率高,编码规则简明,操作方便,重码率低,字音、字形障碍少的计算机汉语字词的输入法。
本发明设计的字或词的输入代码全式由四个或三个拉丁字母组成,简式由两个或一个拉丁字母组成,代码集的理论库容为475254(264+268+262+26)。
本发明输入汉语的字词的次序是依次输入上述的代表一个字或一个词的四个或三个拉丁字母。
本发明在计算机上实现的方法有多种,优先采用每个字或词(多音词、词组)的四个或三个拉丁字母都编入代码表,使之一一对应的方法。
本发明所涉及的字音、字形、词形分别采用《新华字典》(商务印书馆1990年2月第7版)、《现代汉语通用字表》(语文出版社1988年4月第1版)、《现代汉语词典》(商务印书馆1978年12月第1版)的规范。
本发明利用汉字编码的计算机汉语字词输入方法,其特征是采取以下输入步骤
1、一种利用汉字编码的计算机汉语字词输入方法,其特征在于采取以下输入步骤1)、取A至Z二十六字母作为字(单音词)、双音词、多音词、词组的代码,2)、字、双音词、四音以上词、词组取4个字母的代码,3)、三音词取3个字母的代码,4)、字(单音词)的代码的取法为a)首码取字的汉语拼音的首字母,b)二码按优先选用的原则取含有字首笔的整个字的偏旁或该的偏旁的偏旁或字的首笔的汉语拼音的首字母,c)三码按优先选用的原则取二码剩余部分或含有其首笔的该剩余部分的偏旁或该剩余部分首笔的汉语拼音的首字母,d)末码按优先选用的原则取含有字末笔的前两码剩余部分或该剩余部分的偏旁,或二码剩余部分或三码偏旁的偏旁或字的末笔的汉语拼音的首字母,e)上述取码偏旁不能被其它笔画穿过或隔开,f)取码的笔画、偏旁必须在《信息交换用汉字编码字符集、基本集》的一级字表和本法

图1、图2《汉字笔画、难读偏旁输入码表》中标有确定的读音,g)偏旁“艹、扌( 手)、月(月 )、 、木(木)、 ”分别取(跟各自读音的韵母相应的)字母A、O、E、I、U、V,偏旁“ ”分别取(跟各自首笔的读音相应的)字母P、D作为其代码。笔画“ ”分别取(含各自笔形的)字母A、I、V、U作为其代码,h)字的末码偏旁不能包括二码、三码偏旁的首笔,i)字的末码取偏旁“匚、刂、阝、土、口、辶、心、鸟”的末笔的,按照优先选用的原则取含有其余部分末笔的偏旁或其余部分的末笔;
j)同一笔画、偏旁均不重复取码,空码取字母O;
5)、双音词的代码的取法为前两码依次取两字的首码,后两码依次取两字的二码,当末字为“子”时,末码取首字的二码剩余部分或含有首字末笔的二码剩余部分的偏旁或首字末笔;
6)、多音词的代码的取法为三、四字词依次取各字的首码,多于四字的,末码取末字的首码;
7)词组的代码的取法为二至四字词组按双音词或多音词取码,多于四字的、两词词组依字序取两词首、末字的首码、多词词组依次取前三词首字和词组末字的首码,同一个字不能重复取码,空码取字母O。
8)用标准键盘中的A至Z二十六个字母健依次输入上述字(单音词)或双音词或多音词或词组的代码,该代码的字母与A至Z二十六个字母键的字母为一一对应关系,A至Z二十六个字母键的字母与汉字笔画、难读偏旁(非《信息交换用汉字编码字符集·基本集》的3755个一级字充当的偏旁)的对应关系为 K(只输入由《信息交换用汉字编码字符集·基本集》的一级字充当的偏旁。)L
本发明具有以下特点1、按“词”输入效率高现代汉语的词条平均词长为2.0928字,词次平均词长为1.73751字(据《现代汉语频率词典》附录2),由此可知,与现有的按“字”输入法相比,此法将计算机及汉字输入效率提高38%-109%。
2、规则简明与现有的字形输入法相比,此法规则极为简明,具有小学语文水平的人都可以不经专门培训直接掌握。
3、操作方便与现有输入法相比,此法具有与汉语字词的教学、识记及书写习惯一致的特点,且所需键位少(仅为26个拉丁字母键),所以操作极为简单、方便。
4、重码率低由于此法对少数高频字母、键位及偏旁、笔画设计了简明的分流规则,充分利用了A、E、I、O、U、V等低频字母键位,基本平衡了各字母键位的负担,使得采用此法的《信息交换用汉字编码字符集,基本集》的6763个汉字的重码率仅为6.5%,其中3755个一级字的重码率仅为2.5%,《现代汉语频率词典》中8000个频率最高的词的重码率仅为3.6%,频率较高的27000个字词的重码率仅为8.0%。
5、字音障碍少1)、多音字只按最常用的一个读音取码,常用字的音读以《信息交换用汉字编码字符集,基本集》的一级字表为准。
2)、“生字”的首码改取首笔笔形。
3)、偏旁仅限于《信息交换用汉字编码字符集,基本集》的一级字和图1、图2(汉字笔画、难读偏旁输入码表)的范围之内。
4)仅取汉字、偏旁的汉语拼音的首字母,绕过了汉字声母的平翘舌、韵母、声调等读音方面的障碍。
6、字形障碍少多音词、词组不取字形码,双音词、词组只取两个通常是两字部首的字形码,与现有字形输入法相比,字形障碍少。
7、重码字词排序合理此法同码字词的排序分别以《现代汉语字频统计表》和《现代汉语频率词典》的频度序号为依据,按频度序号排列。
图1、图2是《汉字笔画、难读偏旁输入码表》。
下面结合图1、图2所示的《汉字笔画、难读偏旁输入码表》及其例字、例词进一步说明本发明的输入方法。
本发明的汉字笔画、偏旁共有3888种,即《信息交换用汉字编码字符集,基本集》的一级字3755种和图1、图2所列的笔画8种,偏旁125种、笔画、偏旁均采用公认的(或习惯的)读音,除“ ”和“ ”以外,均取其汉语拼音的首字母作为其代码。
偏旁“ ”分别取(跟各自读音的韵母相应的)字母A、O、E、I、U、V,偏旁“ ”分别取(跟各自首笔的读音相应的)字母P、D作为其代码。笔画“ ”分别取(含各自笔形的)字母A、I、V、U作为其代码。
字(包括单音词)的代码的取法为a)、首码,取字的汉语拼音的首字母例如“分”取FEN的首字母F,“刷”取SHUA的首字母S。多音字(包括多音字充当的偏旁)只按最常用的一个读音取码,常用字的音读以《信息交换用汉字编码字符集,基本集》为准。例如“重”取Z(ZHàNG)不取C(CHó NG),“长”取C(CHó NG)不取Z(ZHò NG),“行”取X(XíNG)不取H(HáNG)。对于“生字”(仅限于《信息交换用汉字编码字符集,基本集》的二级字)的首码取法也可以采用按该字首笔笔形的“ ”分别取(含各自笔形的)字母A、I、O、V、U。例如“亘”的首码也可取A(横),“ ”的首码也可取1(竖),“卮”的首码也可取为(撇),“冱”的首码也可取V(点),“乜”的首码也可取U(折)。
b)二码按优先选用的原则取含有字首笔的整个字的偏旁或该偏旁的偏旁或字的首笔的汉语拼音的首字母。例如“分”取含有字首笔的整个字的偏旁“八”(BA)的首字母B,“刷”取含有字首笔的整个字的偏旁“刷”的偏旁“尸”(SHI)的首字母S,“自”取字的首笔“ノ”(PIE)的首字母P。
c)三码按优先选用的原则取二码剩余部分或含有其首笔的该剩余部分的偏旁或该剩余部分首笔的汉语拼音的首字母。例如“分”取前码剩余部分“刀”(DAO)的首字母D,“刷”取含有前码剩余部分“刷”首笔的该剩余部分的偏旁“巾”(JIN)的首字母J,“大”取前码剩余部分的首笔“ノ”(PIE)的首字母P。
d)末码按优先选用的原则取含有字末笔的前两码剩余部分或该剩余部分的偏旁,或二部剩余部分或三码偏旁的偏旁或字的末笔的汉语拼音的首字母。例如“赣”取含有字末笔的前两码“章”、“ ”的剩余部分“贡”(GONG)的首字母G,“徙”取含有字末笔的前两码“彳”、“止”剩余部分“足”的偏旁“人”(REN)的首字母R,“词”取含有字末笔的二码“ ”剩余部分“司”的偏旁“口”(KOU)的首字母K,“大”取字的末笔“ ”(NA)的首字母N。
e)上述取码偏旁不能被其它笔画穿过或隔开,例如“叟”的二码取P(撇,字的首笔)不取J(臼,中间有一竖穿过),“小”的三码取P(撇,字的首笔)不取B(八,中间被一钩穿过),f)取码的笔画、偏旁必须在《信息交换用汉字编码字符集,基本集》的一级字表和本法图1、图2《汉字笔画、难读偏旁输入码表》中标有确定的读音。例如“狗”的二码取Q(犬字旁),三码取J(句),末码取K(口),“妖”的三码取P(撇,夭的首笔)不取Y(夭,二级字,《汉字笔画、难读偏旁输入码表》没标读音),“尧”的二码取A(横,字的首笔)不取戈,(《汉字笔画、难读偏旁输入码表》中没标读音),“代”的三码取Y(弋,《汉字笔画、难读偏旁输入码表》中标有读音yì)不取A(横,弋的首笔)。
g)偏旁“ ”分别取(跟各自读音的韵母相应的字母A、O、E、I、U、V,偏旁“ ”分别取(跟各自读音的韵母相应的)字母P、D作为其代码。笔画“ ”分别取字母A、I、V、U作为其代码。例如“花”的二码取A不取C(草字头),“打、击、拜”的二码取O不取S(手字旁),“胆、炙”的二码取E不取Y(月字旁),“红、丝、幻”的二码取I不取S(丝字旁),“禾、条”的三码取U不取M(木字旁),“江”的二码、“永”、“录”的三码、“聚”、“鳏”的末码取V不取S(水字旁),“笑”的二码、“监”的三码取P不取Z(竹字头),“让”的二码、“誉”的三码取D不取Y(言字旁)。例如“大”的二码取A不取H(横),“卜”的二码取I不取S(竖),“小”的末码取V不取D(点),“孔”的三码取U形不取Z(折)。
h)字的末码偏旁不能包括二码、三码偏旁的首笔。例如“成”的末码取V(点字的末笔)不取G(戈,包括二码偏旁戊的首笔横),“栽”的末码取G(戈,不含有二码偏旁载的首笔横)不取V(点)i)字的末码取偏旁“匚、刂、阝、土、囗、辶、心、鸟”的末笔的,按照优先选用的原则取含有其余部分末笔的偏旁的偏旁或其余部分的末笔。例如“枢、区”的末码分别取C(叉,含其余部分末笔的偏旁)、V(点,其余部分的末笔)而不取U(折,匚的末笔;“郅、邾”的末码分别取T(土,含其余部分末笔的偏旁)、M(末字旁,含其余部分末笔的偏旁)而不取丨(竖,阝的末笔);“固、国”的末码分别取K(口,含其余部分末笔的偏旁)、V(点,其余部分的末笔),而不取A(横,口的末笔);“鸿、鹅”的末码分别取G(工)、V(点)而不取A(横,鸟的末笔)。
j)同一笔画、偏旁均不重复取码,空码取字母为O,例如“一”的三码,末码取O(空码)不取A(横),“戊”的末码取V(点)不取G(戈,戊的二码已取过)。
双音词(由两个字组成的词)的代码取法为双音词的代码的取法为前两码依次取两字的首码。例如“人们”分别取两字的首码R(REN)和M(MEN)。
后两码依次取两字的二码,当末字为“子”时,末码取首字的二码剩余部分或含有首字末笔的二码剩余部分的偏旁或首字末笔。例如“人们”分别取两字的二码P(丿)和R(亻)。例如“孩子”的末码取H(亥,孩的二码的剩余部分)不取U(折,子的二码),“傻子”的末码取F(夂,反文,傻的前码“亻”的剩余部分的偏旁)不取U(折,子的二码),“口子”的末码取A(横,口的末笔)不取U(折,子的二码)。
多音词(由两个以上字组成的词)的代码取法为三、四字词依次取各字的首码,多于四字的,末码取末字的首码。例如“维吾尔”取各字的首码WWE,“巴基斯坦”取各字的首码BJST,“英特纳雄耐尔”取前三字和末字的首码YTNE。
词组(由两个或两个以上词组成的语音单位)词组的代码的取法为二至四字词组按双音词或多音词取码,多于四字的,两词词组依字序取两词首、末字的首码,同一个字不能重复码,空码取字母O,多词词组依次取前三词首字和词组末字的首码。例如“雷锋”取两字的首码LF和二码YJ,“毛泽东”取各字的首码MZD,“社会主义”取各字的首码SHZY,“马克思主义”(由“马克思”、“主义”两个词组成)取“马克思”的首、末字和“主义”两字的首码MSZY,“呼和浩特市”的末码取O(空码)不取S(市,三码已取过),“中华人民共和国”由“中华”、“人民”、“共和国”三个词组成)取三个词的首字和词组末字的首码ZRGG,“不管黑猫白猫,抓住老鼠就是好猫”(“不管”、“黑”、“猫”各是一个词)取前三个词的首字和词组末字的首码BHMM。
根据上述的取码规则,“分”的代码为FBDP,“人们”的代码为RMPR、“维吾尔”的代码为WWE,“马克思主义”的代码为MSZY,“中华人民共和国”的代码为ZRGG,依次敲打计算机键盘对应的字母键,即可实现上述字词的计算机的汉语的输入。
权利要求
1.一种利用汉字编码的计算机汉语字词输入方法,其特征在于采取以下输入步骤1)、取A至Z二十六字母作为字、双音词、多音词、词组的代码,2)、字、双音词、四音以上词、词组取4个字母的代码,3)、三音词取3个字母的代码,4)、字的代码的取法为a)首码取字的汉语拼音的首字母,b)二码按优先选用的原则取含有字首笔的整个字的偏旁或该的偏旁的偏旁或字的首笔的汉语拼音的首字母,c)三码按优先选用的原则取二码剩余部分或含有其首笔的该剩余部分的偏旁或该剩余部分首笔的汉语拼音的首字母,d)末码按优先选用的原则取含有字末笔的前两码剩余部分或该剩余部分的偏旁,或二码剩余部分或三码偏旁的偏旁或字的末笔的汉语拼音的首字母,e)上述取码偏旁不能被其它笔画穿过或隔开,f)取码的笔画、偏旁必须在《信息交换用汉字编码字符集·基本集》的一级字表和本法图1、图2《汉字笔画、难读偏旁输入码表》中标有确定的读音,g)偏旁“艹、扌( 扌 手)、月(月 )、纟( 幺 糸)、木(ホ)、氵(水 )”分别取(跟各自读音的韵母相应的)字母A、O、E、I、U、V,偏旁“ ( )、讠(言)”分别取(跟各自首笔的读音相应的)字母P、D作为其代码。笔画“一、| ( )”分别取(含各自笔形的)字母A、I、V、U作为其代码,h)字的末码偏旁不能包括二码、三码偏旁的首笔,i)字的末码取偏旁“匚、刂、阝、土、口、辶、心、鸟”的末笔的,按照优先选用的原则取含有其余部分末笔的偏旁或其余部分的末笔;j)同一笔画、偏旁均不重复取码,空码取字母O;5)、双音词的代码的取法为前两码依次取两字的首码,后两码依次取两字的二码,当末字为“子”时,末码取首字的二码剩余部分或含有首字末笔的二码剩余部分的偏旁或首字末笔;6)、多音词的代码的取法为三、四字词依次取各字的首码,多于四字的,末码取末字的首码;7)词组的代码的取法为二至四字词组按双音词或多音词取码,多于四字的,两词词组依字序取两词首、末字的首码,多词词组依次取前三词首字和词组末字的首码,同一字不能重复取码,空码取字母O;8)用标准键盘中的A至Z二十六个字母健依次输入上述字(单音词)或双音词或多音词或词组的代码,该代码的字母与A至Z二十六个字母键的字母为一一对应关系,A至Z二十六个字母键的字母与汉字笔画、难读偏旁(非《信息交换用汉字编码字符集·基本集》的3755个一级字充当的偏旁)的对应关系为A一、艹。B ( )、八( )、勹、七、宀疒 。C一、ㄨ( )、 、彳、屮( )、巛、、朿、镸、 、車、齒。D丁、 、讠(言)、癶。E阝(卩)、 、月( )。F:ㄑ( )、 、巿、攵(夂、攴)、缶、風。G ( )、丐、丏、 、共( )、艮( )、 ( )、 ( )。H:灬、虍。I|、纟( 幺 系)J: (丩)、已(巳)、东、钅(金)、且关、、見、冏(冋)、 。K(只输入由《信息交换用汉字编码字符集·基本集》的一级字充当前的偏旁,)L (リ)、刂、 (彐、彑)、耂、禸、耒、鹵、龍。Mマ、 、毋(毌)、未、 、門、馬、鬥、 。N 、廿、牜( 、ヰ、)、 、鳥。O扌( 、手)。P 、、( )、丬(爿)、疋()。Q匚、(П、コ、ㄩ)、丂、厶、廾(艹 )、犭(豸)、 。R亻( )、日( )S饣(食)、礻( )、豕、 。T 、冂( )、冖、乇。U乚( フ)、ホ。V丶、氵( 水氺 )。W口、 、旡、罒、。X ()、彡、ㄆ、忄()、穴、 (襾)、兴( )。Y亠、尢、弋、肀( 聿)、衤、 、()、 、頁、魚、 。Z辶(廴 辵)、爫、、隹。
2.根据权利要求1所述的计算机汉语字词输入方法,其特征在于“生字”(仅限于《信息交换用汉字编码字符集·基本集》中的3008个二级字)首码的取法可按照字的首笔形的 ,分别取(含有相应笔形的)字母A、I、O、V、U,以消除对“生字”的读音障碍。
全文摘要
本发明涉及一种计算机汉语字词的输入方法,为提高输入速度和易于记忆、使用而设计。采用标准键盘,利用A至Z二十六个字母键完成汉字输入,输入的次序是依次输入字或词或词组的代码。代码分为4(个)字母代码和3(个)字母代码两种,代码的字母取字的汉语拼音首字母和笔画、偏旁的习惯发音的汉语拼音的首字母及一些简单的规定,具有输入效率高、重码率低、易学易用的特点,有益于计算机汉语打字的推广、普及。
文档编号G06F3/023GK1099880SQ93116670
公开日1995年3月8日 申请日期1993年9月4日 优先权日1993年9月4日
发明者姜光辉, 杨安静, 姜明一, 姜明水 申请人:姜光辉
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1