计算机汉字字音码编码方法及输入键盘的制作方法

文档序号：6607039阅读：1085来源：国知局

专利名称：计算机汉字字音码编码方法及输入键盘的制作方法
技术领域：
本发明涉及一种汉字编码方法，尤其是一种计算机汉字编码输入方法以及输入键盘。
现有的汉字编码技术方案，设计效果上都面临一个矛盾，即操作速度快、重码率低的编码方案(多为形码)其编码规则比较复杂，并要求用户硬记大量的汉字拆分符号，掌握起来难度较大，而且对于操作者写不出来的字或者写不正确的字则无法输入；编码规则简单，记忆量小的编码方案(多为音码)其输入速度又比较低，且重码率较高，对于不认识的字也无法输入。因此，现有的汉字编码方案，无论是音码还是形码都存在着自己的编码盲区。音码和形码的这些缺点，是由于它们在利用现有汉语基础知识时的偏颇造成的。音码完全排斥有关汉字字形结构的语文基础知识，而形码则反过来完全排斥有关汉语语音的基础知识。在现实的编码领域内，音码和形码各自的优缺点引出一种割据局面一方面，大多数非专业汉字输入的用户使用着规则简单，容易掌握，但录入效率很低的音码；另一方面，少数专业汉字输入的用户，不得已使用着一种记忆量大，规则复杂，较难掌握，但高效率、低重码的形码。很多高效率，低重码编码方案的设计着眼点，主要是放在提高输入速度和降低重码上，在拆分上很少，也很难兼顾汉字本身的结构规律，这就给操作者带来难于掌握、难于记忆、难于拆分，重码率高，输入速度慢等诸多不便，另外还难以同汉语教学密切有机地结合。如何最大限度地克服上述矛盾，设计出高效率，低重码，使用规则简单，要求记忆量少，拆分上能顺应汉字结构规律，并能同汉语教学密切有机结合的优质编码方案，是人们共同关心的焦点问题。
本发明的目的在于克服现有技术之不足，提供一种易于拆分，无需记忆，不存在编码盲区，重码率低，输入快捷，且符合汉语规范的计算机汉字编码方法。
本发明的另一个目的在于提供一种适用于上述编码方法的输入键盘。
本发明的编码方案在汉字编码中属形音结合码类。编码码长四位，前三码为形码，第四码为音码。形码有一至三码不等，而末码必须是一位音码。
本发明的具体编码方案是将汉字拆分为笔画、成字元、常字元和异字元四种不同性质的结构成分，并将它们读音的首位字母归入所对应的英文字母键盘上。
所述汉字笔画分为横、竖、撇、捺、折五种，以其读音的首位字母为编码，具体是汉字笔画一丨丨丿乀丶乙 …名称横竖撇捺折编码h s p n z所述成字元就是以独体结构形态存在于汉字结构中的常用汉字。以其读音的首位字母为编码(个别带“*”号者除外)，具体是a 凹b 八巴白百半办本必丙卜不步匕c 才册叉厂长车臣成尺赤斥虫丑出川串匆寸丞d 大歹丹旦刀电刁丁东e 而儿耳二f 乏凡方非飞丰夫弗甫木*g 干甘戈个更工弓瓜广果丐h 禾乎互户火j 击及几己夹甲柬巾今井久九臼k 开亏l 来乐里吏立隶力良两了龙m 马毛矛么门米面灭民皿末母目n 乃内鸟牛农女o 口*p 皮片平q 七乞气千且丘求曲犬r 人刃入冉日(曰曰)s 三山上勺少申身甚生升失尸十石史矢士世氏术手首束水己肃豕巳t 太天田屯w 瓦丸万王亡韦为未卫我乌无五午戊勿x 西夕习下乡小心血y 丫牙亚严央羊也业夷亦义尹永用尤由酉又于予雨与禹玉月夭禺幺z 再乍丈兆正之止中重州朱主爪专子自所述常字元就是汉字结构中经常出现的不成字符号，以该符号名称中关键字读音的首位字母为编码(带“*”者除外)，具体是常字元符号常字元名称关键字编码字例医函己贝同三匡儿匡k医己且贝山尸凶弓月同央上卜字变体卜b卡占上卢刂丌师临立刀旁刀d别师临齐氘览养一每字头每m复乍年气每乞亻单人旁人r位什佛厂斜厂儿厂c反斤质后派盾立倒八头八b曾丫半兑关兰并关单友义斜叉儿叉c友右丈希杀驳义勹句字头句j勺勾句勿包匈旬葡亠京字头京j京亡市衣亦文亭哀冫两点水水s冷凉冲斗两点儿点d冬头斗寒讠*言字旁 u说计谈讲阝卩厄耳朵旁耳e耶却防卫报服仓厄危欠刀字头刀d色角欠尔负危争予矛字头矛m矛勇予厶私字儿私s至雄叁牟弘宏套弃育廴辶走之底之z边这建迢迈丰奉字底奉f奉择举敖艹廿共草字头草c草花共黄展廾弄字底弄n弄开升井鼻痹弃扌*提手旁 a提抛捉打口四边围围w国囱囟卤因彳双人旁人r行徐徒彷彡三撇儿撇p参彰形犭豹反犬旁犬q狗狄获豹霾犯饣食字旁食s蚀饮饼饥饲丬爿将字旁将j浆将北状妆忄小竖心旁心x悍愉怖添恬怀氵* 三点水 v汉江池溪彐彐横山儿山s归隶尹宀冖宝盖儿盖g宝字富冗堂营冤农光小字变体小x党肖当党光纟纟* 绞丝旁 p红编丝巛三拐儿拐g巢巡生青字头青q青表责老老字头老l老者足足字底足z是走蛋足特告牛字旁牛n特牧告靠先攵冬反文旁文w攻收备冬各衣衣字底衣y表衣农哀裹采爪字变体爪z采爱舀孚灬四点底点d杰然点煮春春字头春c春泰秦卷卷字头卷j卷眷拳券礻示字旁示s社礼视曼假四字四s署罗蜀钅金字旁金j铜铁钢铝拜手字变体手s看拜掰
afo，puv；手木口，丝言水。
字音码的最后一码为音码，取该汉字整字读音的首位字母。
字音码的编码原则是笔序原则和后并原则。笔序原则是指形码按书写笔序取一二末码。在拆分汉字取得形码时，处于汉字结构中间部分的字元(或笔画)并入前面的部分或并入后面的部分会使得拆分取码不确定。遇此情况应将处于中间的部分的字元(或笔画)并入后面的部分，这就是后并原则。
例如正误干→一十干→二丨开→一廾开→二丌王→一土王→干一朱→丿未朱→每木字音码的编码过程是在编码原则下，将汉字区分为独体字和合体字，然后拆取形码，形码不足三码时，如有可能，应进行末复拆分补码，将形码补足为三码，最后加上该汉字的整字读音的首位字母(音码)。
所述编码过程中，独体字拆取形码的方法是依序按[字元+笔画]、[字元+字元]、[字元+i]、[笔画++]四种类型拆分编码，具体是[字元+笔画]型拆分是把独体字拆分成一个可识字元和一个笔画，如独体字拆分编码独体字拆分编码干一十hsg 刃丶刀 ndr日口一ohr 歹一夕 hxd卫卩一ehw 乞乞乙 mzq生丿生pqs 么丿厶 psm子了一lhz 成戊乙戈 wzgc由一个可识字元和两个互不粘连的独立笔画组成，或由一个笔画和两个可识字元组成的独体字也适合这种拆分类型，如独体字拆分编码独体字拆分编码册月月一kkhc瓜厂厶乀 csng气乞一乙mhzq爪厂丨乀 csnz今人丶乙rnzj为丶力丶 nlnb[字元+字元]型拆分是把一个独体字拆分成两个完整(不留笔画)的可识字元，如独体字拆分编码独体字拆分编码央贝大人 kdry且贝三二kseq月月二 key 夷大弓口dgky弗弓丌口 gdkf农冖衣 gyn[字元+i]型拆分是，对于一半是可识字元，另一半是异字元的独体字，拆取这个可识字元和异字元，如独体字拆分编码独体字拆分编码石石口 ios 虫中虫口zioc斤斤斤 cij 年每年 min可识字元和异字元间笔画交叉的独体字不适用[字元+i]型拆分，如曳、甫、专、乐、东……。型拆分就是，凡不能按以上拆分类型进行拆分的独体字，视为是纯粹由笔构成的独体字，一律拆取一二末三个笔画，这就是[笔画++]型拆分，如独体字拆分编码独体字拆分编码凹丨乙一 szha 重丿一一 phhc不一丿丶 hpnb 求一丨丶hsnq厂一丿 hpc 长丿一人 phnc所述编码过程中，合体字拆取形码的方法是根据编码原则，从合体字中拆取一二末三个字元和单一笔画。在拆分合体字时须强调注意以下三点1.常字元任何时后都只能按整体来对待，当其是合体结构时也不能被拆分，如合体字正确拆分错误拆分错误原因路路夂口口止口拆分了常字元病病丙内广习丙拆分了常字元2.从合体字中拆取的笔画只能是单个笔画。同一结构区域内，连续两个及两个以上的散笔画应作为字元，构不成可识字元者，当异字元看待，如合体字拆分编码汉字拆分编码合人一口rhoh 以以人iry修亻丨彡rspx 归归归dsg言一二口jeoy 分八刀bdf脸月人佥yril 学兴冖子 igzx3.成字元是独体结构，既不能错取成合体结构，也不能错把成字元拆开，如合体字正确拆分错误拆分错误原因则贝人刂贝刂把合体结构当成成字元苏艹办艹力八拆分了成字元“办”所述编码过程中，末复拆分补码是指不论是合体字还是独体字，拆取形码只能得到两码时，编码长度不够，容易引起重码。此时应从已拆得的成字元(如果有)中，复拆取最末一个可识字元作为补码，如汉字拆分编码说明最日耳又 reyz 码长已够三码不需末复拆分补码开一开 hnk无成字元可进行末复拆分补码可丁口 dok已拆得的成字元不能复拆分出可识字元江氵工 vgj(同上)引弓丨口 gsky 从“弓”中复拆取可识字元“口”作补码咱口自目ozmz 从“自”中复拆取可识字元“目”作补码亲立木立lfbq “立”中复拆取可识字元最末者是“立”使用字音码编码，必须区分合体字和独体字。从汉字中的正确拆分出成字元和异字元也必须确定它是独体结构还是合体结构。这就存在一个合、独体判别的问题。汉字有上下、左右、内外、独体四种结构类型，前三种是合体结构。其中，内外结构又分为全包围和半包围两个亚类型。
例上下结构昌、元、其、形、示、六、曼、最、合、亭、警左右结构补、收、谁、结、种、谢、礼、副、修、旧、幻全包围结构国、囱、四半包围结构床、过、氛、匡、同、南、函、坐、噩、咸、武独体结构王、永、主、中、井、勿、气、兆、非、八、川、小、乙、一笔画以彼此交错和粘连的方式组成的结构是独体结构，例如，车、田、毛、十、工、日。完全由散列笔画组成的结构也是独体结构，例如，川、三、州、小、儿、八。另外“非”和“兆”这两个左右笔画块都构不成独立可识结构体的汉字也是独体结构。
独体结构和左右结构之间的界限是清楚的。而独体结构和上下结构之间，独体结构和内外结构之间，个别时候，特别是有异字元存在时，结构界限就不太明显，如矛、斤、皮、发、予、虫、石、立、至、卑、亦、兴、兔、羊、鬼、单、亦、赤、鬼、单、卑、免、弟、卡、古、占、反、甬、圭、巨、旦、习、乞、少、勺在编码过程中，遇结构界限不明显情况时，视其为过渡结构，并按下列规定处理1.不论整体上可识与否，凡能完全(不留笔画)拆分成两个以上可识字元者，应拆分取码，如
正误合体字拆分编码合体字拆分编码战上口戈bogz 战占戈口 bgoz朝十日月sryc 朝朝月二 iyec饭饣厂又scyf 饭饣反又 sfyf所厂口斤ckjs 所所斤厂 ijcs南十冂干skgn 南南丰iin2.由一个可识字元和一个笔画组成的结构是独体结构。其整体上可识是成字元，应整体拆取，如正误合体字拆分编码合体字拆分编码床广木厂gfcc 床丶厂木 ncfc但亻旦日rdrd 但亻日一 rrhd吃口乞乞oqmc 吃口乞乙 omzc羽习习冫xxsy 羽习冫冫 zssx整体上不可识，应拆分成可识字元和笔画，如合体字拆分编码合体字拆分编码断米口斤 mzjd 断断斤斤 ijcd局尸习口 szoj 局局口ioj向丿冂口pkox 向向口iox竹乞丨丨mssz 竹竹竹iiz郎丶既阝ngel 郎郎阝iel底广氏丶gsnd 底广底厂 gicd是日一疋rhzs 是日疋口 rios番丿米田pmtf 番米田日 itrf蛋一足虫zzcd 蛋疋虫中 iczd
至一厶土hstz 至云土十 itsz首立一自bhzs 首前自目 izms3.整体能独立成字，内含异字元笔画数不超过四笔者，应整取为成字元，不满足此条件，则分别拆取可识字元和异字元。
例(整体能独立成字，内含异字元笔画数不超过四笔)正误合体字拆分编码合体字拆分编码碰石立亚sbyp 碰石口亚 ioyp站立上口lboz 站立立口 jboz举兴丰八xfbj 举兴八丰 ibfj道首辶自szzd 道兴一辶 bhzd到至刂土zdtd 到一厶刂 hsdd挣扌争色azdz 挣扌争争 adiz样木羊丰fyfy 样木兴丰 fbfy拨扌发又afyb 拨扌发又 aiyb例(整体能独立成字，但内含异字元笔画数超过了四笔)正误合体字拆分编码合体字拆分编码愧忄鬼厶xisk愧忄鬼厶 xgsk递兴弟辶bizd递弟辶兴 dzbd弹弓兴单gbid弹弓单兴 gdbd啤口卑十oisp啤口卑十 obsp晚日争免rdiw晚日免免 rmdw真十真八sibz真十具八 sjbz例(整体不能独立成字)
正误合体字拆分编码合体字拆分编码朔立
月 biys朔朔月二 iyes套大且厶dist套大套人 dirt展尸艹畏sciz展尸展口 sikz派氵厂派vcip派氵派 vip缺每缶抉miiq缺缶决 iiq本发明与现有技术相比具有下列优点1，本发明提供的编码方法综合了音码的记忆少，编码简单、容易掌握等易学性以及形码的录入快、重码率低等易用性的优点，使之成为高录入、低重码、易学少记、简单规范的汉字编码方案。
2，本发明编码方案顺应汉字本身的结构规律，对汉字进行编码拆分，全面、准确、系统地定义了编码结构成分的基本内容——汉字笔画和汉字字元。字音码的汉字笔画分类，采用现代汉字查字法中通用的笔画分类，其优点是完全利用既有汉语知识而使编码获得最佳简易性效果。字音码的汉字字元定义在汉字结构中独体结构这个自然层次上，同时采用过渡结构处理技术避免了编码时必须在汉字结构中硬性区分合独体的机械作法，使编码更趋自然，同汉字既有知识体系也更加融合。
3，本发明编码方案对字元进行了属性分类，针对不同属性的字元的特殊性质，采用不同的编码处理方法。这是字音码区别于别的编码的一个显著的变革性技术进步。字音码的汉字字元分性质处理后，符号数量最多的成字元改用定义来规定，剩余少数常字元基本是使用者已经十分熟习的汉字常用不成字符号。所以，字音码率先成为了一种基本无记忆量编码。
4，本发明编码方案不硬性强行拆分汉字结构中的不可识独体结构(异字元)和独体字。这是字音码有别于别的现有编码的另一技术性进步特征。字音码遵照汉字结构的自然区划，承认汉字结构中独体非常用不成字符号(异字元)的存在，并用归类方法进行编码处理。由此一来，使编码方法更简捷，更趋合理。字音码在对待独体字的拆分上持特别谨慎的态度。独体字的每一种拆分方法都十分简单直观，并建立在使用者时常使用的一些方法基础上。例如，“大”字下加一点是“太”字；“木”字带“口”为“束”字等等。总之，字音码的独体字拆分方法有着广泛的、现实的群众基础，基本做到了不强行、随意乱拆独体字。这有利于使用者对编码的掌握，有利于增强编码方法的语言规范性。
5，本发明编码方案以字元和笔画的读音(或名称)的音序作编码，实现了汉字编码的音形有机结合。给用户带来基本勿需记忆就掌握一种高录入效率编码的便利。
6，本编码设计时静态重码率控制在5％以左右，并特别注意了控制高频字的重码。估计字音码的动态重码率在千分之二左右。由于绝大多数常用汉字在本方案中都有一、二、三级简码，利用简码进行输入不但可以提高录入速度，而且还可以进一步离散重码，所以实际在使用本编码时就基本上碰不到什么重码了。低重码率为本编码实现计算机汉字输入高速盲打奠定了基础。
7，本发明编码方案在形音结合，字元分性质编码，过渡结构处理技术，不强行拆分异字元和独体字以及末复拆分补码一系列新发明的技术措施的支持下，降低了对使用者汉语语音知识的要求，使用户在较短时间内，就能快速、容易地掌握它。因此，是一种高效率编码。
8，本发明的编码方案把汉语拼音输入法融入字音码中，并使二者相互兼容。这样一来，当用户遇不认识的字时，可只输入该字的前三个形码，并用“？”替代这个字的音码；当用户遇写不出的字时，直接输入该字的汉语拼音即可(拼音字串长度超过四码时取一二三末)。因此，不存在其它编码普遍存在的输入盲区。
权利要求
1，一种计算机汉字编码方法及输入键盘，其特征在于将汉字拆分为笔画、成字元、常字元和异字元四种不同性质的结构成分，并将它们读音的首位字母归入所对应的英文字母键盘上。
2，根据权利要求1所述的汉字编码方法，其特征在于所述汉字笔画分为横、竖、撇、捺、折五种，以其读音的首位字母为编码，具体是汉字笔画一丨丨丿乀丶乙 …名称横竖撇捺折编码h s p n z。
3，根据权利要求1所述的汉字编码方法，其特征在于所述成字元就是以独体结构形态存在于汉字结构中的常用汉字。以其读音的首位字母为编码(个别带“*”号者除外)，具体是a 凹b 八巴白百半办本必丙卜不步匕c 才册叉厂长车臣成尺赤斥虫丑出川串匆寸丞d 大歹丹旦刀电刁丁东e 而儿耳二f 乏凡方非飞丰夫弗甫木*g 干甘戈个更工弓瓜广果丐h 禾乎互户火j 击及几己夹甲柬巾今井久九臼k 开亏l 来乐里吏立隶力良两了龙m 马毛矛么门米面灭民皿末母目n 乃内鸟牛农女o 口*p 皮片平q 七乞气千且丘求曲犬r 人刃入冉日(曰曰)s 三山上勺少申身甚生升失尸十石史矢士世氏术手首束水己肃豕巳t 太天田屯w 瓦丸万王亡韦为未卫我乌无五午戊勿x 西夕习下乡小心血y 丫牙亚严央羊也业夷亦义尹永用尤由酉又于予雨与禹玉月夭禺幺z 再乍丈兆正之止中重州朱主爪专子自。
3，根据权利要求1所述的汉字编码方法，其特征在于所述常字元就是汉字结构中经常出现的不成字符号，以该符号名称中关键字读音的首位字母为编码(带“*”者除外)，具体是常字元符号常字元名称关键字编码字例医函己贝同三匡儿匡k 医己且贝山尸凶弓月同央上卜字变体卜b 卡占上卢刂丌师临立刀旁刀d 别师临齐氘览养一每字头每m 复乍年气每乞亻单人旁人r 位什佛厂斜厂儿厂c 反斤质后派盾立倒八头八b 曾丫半兑关兰并关单友义斜叉儿叉c 友右丈希杀驳义勹句字头句j 勺勾句勿包匈旬葡亠京字头京j 京亡市衣亦文亭哀冫两点水水s 冷凉冲斗两点儿点d 冬头斗寒讠* 言字旁u 说计谈讲阝卩厄耳朵旁耳e 耶却防卫报服仓厄危欠刀字头刀d 色角欠尔负危争予矛字头矛m 矛勇予厶私字儿私s 至雄叁牟弘宏套弃育廴辶走之底之z 边这建迢迈丰奉字底奉f 奉择举敖艹廿共草字头草c 草花共黄展廾弄字底弄n 弄开升井鼻痹弃扌* 提手旁a 提抛捉打口四边围围w国囱囟卤因彳双人旁人r行徐徒彷彡三撇儿撇p参彰形犭豹反犬旁犬q狗狄获豹霾犯饣食字旁食s蚀饮饼饥饲丬爿将字旁将j浆将北状妆忄小竖心旁心x悍愉怖添恬怀氵* 三点水 v汉江池溪彐彐横山儿山s归隶尹宀冖宝盖儿盖g宝字富冗堂营冤农光小字变体小x党肖当党光纟纟* 绞丝旁 p红编丝巛三拐儿拐g巢巡生青字头青q青表责老老字头老l老者足足字底足z是走蛋足特告牛字旁牛n特牧告靠先攵冬反文旁文w攻收备冬各衣衣字底衣y表衣农哀裹采爪字变体爪z采爱舀孚灬四点底点d杰然点煮春春字头春c春泰秦卷卷字头卷j卷眷拳券礻示字旁示s社礼视曼假四字四s署罗蜀钅金字旁金j铜铁钢铝拜手字变体手s看拜掰疒病字旁病b病痛疼疗衤衣字旁衣y补衫裤袜录水字变体水s泰录隶犀登登字头登d登癸要西字头西x要票栗虎虎字头虎h虑虏虚虎竺竹字头竹z筷笑篮笔艮即根字边根g根垦即良祭祭字头祭j祭蔡察趵足字旁足z路跃跳跟雪雨字头雨y雾雷霏
4，根据权利要求1所述的汉字编码方法，其特征在于所述异字元是指汉字结构中的非常用且不成字的独体符号，或者说汉字结构中既不是成字元，又不是常字元，也不是单一笔画的独体结构符号就是异字元，一律以字母“i”为编码，具体是丁
其
耒
戋缶旡
尞
朿
疌
囊豖巿
追
然夜姊卵制学脊岛兴佥沈那以弟朔迎劲收亥杨暇争录眉互聿鹿庚庸唐卵发决鼎蚩
5，根据权利要求1所述的汉字编码方法，其特征在于汉字的拆分方法是将汉字区分为独体字和合体字，然后拆取形码，形码不足三码时，如有可能，应进行末复拆分补码，将形码补足为三码，最后加上该汉字的整字读音的首位字母(音码)。
6，根据权利要求5所述的汉字编码方法，其特征在于所述独体字拆取形码的方法是依序按[字元+笔画]、[字元+字元]、[字元+i]、[笔面++]四种类型拆分编码。
7，根据权利要求5所述的汉字编码方法，其特征在于所述合体字拆取形码的方法是根据编码原则，从合体字中拆取一二末三个字元和单一笔画。
8，根据权利要求5所述的汉字编码方法，其特征在于所述末复拆分补码是指不论是合体字还是独体字，拆取形码只能得到两码时，编码长度不够，容易引起重码。此时应从已拆得的成字元(如果有)中，复拆取最末一个可识字元作为补码。
全文摘要
本发明提供一种计算机汉字编码方法及输入键盘,其特征在于将汉字拆分为笔画、成字元、常字元和异字元四种不同性质的结构成分,并将它们读音的首位字母归入所对应的英文字母键盘上。它综合了音码的记忆少、编码简单、容易掌握等易学性以及形码的录入快、重码率低等易用性的优点,使之成为高录入、低重码、易学少记、简单规范的汉字编码方案。
文档编号G06F3/023GK1262475SQ9911748
公开日2000年8月9日申请日期1999年12月24日优先权日1999年12月24日
发明者向永模申请人:向永模

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：向永模
技术所有人：向永模
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。