计算机汉字字音码编码方法及输入键盘的制作方法

文档序号:6607039阅读:1085来源:国知局
专利名称:计算机汉字字音码编码方法及输入键盘的制作方法
技术领域
本发明涉及一种汉字编码方法,尤其是一种计算机汉字编码输入方法以及输入键盘。
现有的汉字编码技术方案,设计效果上都面临一个矛盾,即操作速度快、重码率低的编码方案(多为形码)其编码规则比较复杂,并要求用户硬记大量的汉字拆分符号,掌握起来难度较大,而且对于操作者写不出来的字或者写不正确的字则无法输入;编码规则简单,记忆量小的编码方案(多为音码)其输入速度又比较低,且重码率较高,对于不认识的字也无法输入。因此,现有的汉字编码方案,无论是音码还是形码都存在着自己的编码盲区。音码和形码的这些缺点,是由于它们在利用现有汉语基础知识时的偏颇造成的。音码完全排斥有关汉字字形结构的语文基础知识,而形码则反过来完全排斥有关汉语语音的基础知识。在现实的编码领域内,音码和形码各自的优缺点引出一种割据局面一方面,大多数非专业汉字输入的用户使用着规则简单,容易掌握,但录入效率很低的音码;另一方面,少数专业汉字输入的用户,不得已使用着一种记忆量大,规则复杂,较难掌握,但高效率、低重码的形码。很多高效率,低重码编码方案的设计着眼点,主要是放在提高输入速度和降低重码上,在拆分上很少,也很难兼顾汉字本身的结构规律,这就给操作者带来难于掌握、难于记忆、难于拆分,重码率高,输入速度慢等诸多不便,另外还难以同汉语教学密切有机地结合。如何最大限度地克服上述矛盾,设计出高效率,低重码,使用规则简单,要求记忆量少,拆分上能顺应汉字结构规律,并能同汉语教学密切有机结合的优质编码方案,是人们共同关心的焦点问题。
本发明的目的在于克服现有技术之不足,提供一种易于拆分,无需记忆,不存在编码盲区,重码率低,输入快捷,且符合汉语规范的计算机汉字编码方法。
本发明的另一个目的在于提供一种适用于上述编码方法的输入键盘。
本发明的编码方案在汉字编码中属形音结合码类。编码码长四位,前三码为形码,第四码为音码。形码有一至三码不等,而末码必须是一位音码。
本发明的具体编码方案是将汉字拆分为笔画、成字元、常字元和异字元四种不同性质的结构成分,并将它们读音的首位字母归入所对应的英文字母键盘上。
所述汉字笔画分为横、竖、撇、捺、折五种,以其读音的首位字母为编码,具体是汉字笔画一丨丨丿乀丶乙 …名称横 竖 撇捺 折编码h s p n z所述成字元就是以独体结构形态存在于汉字结构中的常用汉字。以其读音的首位字母为编码(个别带“*”号者除外),具体是a 凹b 八巴白百半办本必丙卜不步匕c 才册叉厂长车臣成尺赤斥虫丑出川串匆寸丞d 大歹丹旦刀电刁丁东e 而儿耳二f 乏凡方非飞丰夫弗甫木*g 干甘戈个更工弓瓜广果丐h 禾乎互户火j 击及几己夹甲柬巾今井久九臼k 开亏l 来乐里吏立隶力良两了龙m 马毛矛么门米面灭民皿末母目n 乃内鸟牛农女o 口*p 皮片平q 七乞气千且丘求曲犬r 人刃入冉日(曰曰)s 三山上勺少申身甚生升失尸十石史矢士世氏术手首束水己肃豕巳t 太天田屯w 瓦丸万王亡韦为未卫我乌无五午戊勿x 西夕习下乡小心血y 丫牙亚严央羊也业夷亦义尹永用尤由酉又于予雨与禹玉月夭禺幺z 再乍丈兆正之止中重州朱主爪专子自所述常字元就是汉字结构中经常出现的不成字符号,以该符号名称中关键字读音的首位字母为编码(带“*”者除外),具体是常字元符号 常字元名称 关键字编码字例医函己贝同三匡儿 匡k医己且贝山尸凶弓月同央上卜字变体 卜b卡占上卢刂丌师临 立刀旁 刀d别师临齐氘览养一每字头 每m复乍年气每乞亻 单人旁 人r位什佛厂 斜厂儿 厂c反斤质后派盾立 倒八头 八b曾丫半兑关兰并关单友义 斜叉儿 叉c友右丈希杀驳义勹 句字头 句j勺勾句勿包匈旬葡亠 京字头 京j京亡市衣亦文亭哀冫 两点水 水s冷凉冲斗 两点儿 点d冬头斗寒讠*言字旁 u说计谈讲阝卩厄 耳朵旁 耳e耶却防卫报服仓厄危欠 刀字头 刀d色角欠尔负危争予 矛字头 矛m矛勇予厶 私字儿 私s至雄叁牟弘宏套弃育廴辶 走之底 之z边这建迢迈丰 奉字底 奉f奉择举敖艹廿共 草字头 草c草花共黄展廾 弄字底 弄n弄开升井鼻痹弃扌*提手旁 a提抛捉打口 四边围 围w国囱囟卤因彳双人旁人r行徐徒彷彡三撇儿撇p参彰形犭豹 反犬旁犬q狗狄获豹霾犯饣食字旁食s蚀饮饼饥饲丬爿 将字旁将j浆将北状妆忄小 竖心旁心x悍愉怖添恬怀氵* 三点水 v汉江池溪彐彐 横山儿山s归隶尹宀冖 宝盖儿盖g宝字富冗堂营冤农光小字变体 小x党肖当党光纟纟* 绞丝旁 p红编丝巛三拐儿拐g巢巡生青字头青q青表责老老字头老l老者足足字底足z是走蛋足特告 牛字旁牛n特牧告靠先攵冬 反文旁文w攻收备冬各衣衣字底衣y表衣农哀裹采爪字变体 爪z采爱舀孚灬四点底点d杰然点煮春春字头春c春泰秦卷卷字头卷j卷眷拳券礻示字旁示s社礼视曼假四字四s署罗蜀钅金字旁金j铜铁钢铝拜手字变体 手s看拜掰
afo,puv;手木口,丝言水。
字音码的最后一码为音码,取该汉字整字读音的首位字母。
字音码的编码原则是笔序原则和后并原则。笔序原则是指形码按书写笔序取一二末码。在拆分汉字取得形码时,处于汉字结构中间部分的字元(或笔画)并入前面的部分或并入后面的部分会使得拆分取码不确定。遇此情况应将处于中间的部分的字元(或笔画)并入后面的部分,这就是后并原则。
例如正误干→一十 干→二丨开→一廾 开→二丌王→一土 王→干一朱→丿未 朱→每木字音码的编码过程是在编码原则下,将汉字区分为独体字和合体字,然后拆取形码,形码不足三码时,如有可能,应进行末复拆分补码,将形码补足为三码,最后加上该汉字的整字读音的首位字母(音码)。
所述编码过程中,独体字拆取形码的方法是依序按[字元+笔画]、[字元+字元]、[字元+i]、[笔画++]四种类型拆分编码,具体是[字元+笔画]型拆分是把独体字拆分成一个可识字元和一个笔画,如独体字 拆分 编码独体字 拆分编码干 一十hsg 刃 丶刀 ndr日 口一ohr 歹 一夕 hxd卫 卩一ehw 乞 乞乙 mzq生 丿生pqs 么 丿厶 psm子 了一lhz 成 戊乙戈 wzgc由一个可识字元和两个互不粘连的独立笔画组成,或由一个笔画和两个可识字元组成的独体字也适合这种拆分类型,如独体字 拆分 编码 独体字拆分 编码册月月一kkhc瓜 厂厶乀 csng气乞一乙mhzq爪 厂丨乀 csnz今人丶乙rnzj为 丶力丶 nlnb[字元+字元]型拆分是把一个独体字拆分成两个完整(不留笔画)的可识字元,如独体字 拆分 编码 独体字拆分 编码央 贝大人 kdry且 贝三二kseq月 月二 key 夷 大弓口dgky弗 弓丌口 gdkf农 冖衣 gyn[字元+i]型拆分是,对于一半是可识字元,另一半是异字元的独体字,拆取这个可识字元和异字元,如独体字 拆分 编码 独体字拆分 编码石石口 ios 虫 中虫口zioc斤斤斤 cij 年 每年 min可识字元和异字元间笔画交叉的独体字不适用[字元+i]型拆分,如曳、甫、专、乐、东……。型拆分就是,凡不能按以上拆分类型进行拆分的独体字,视为是纯粹由笔构成的独体字,一律拆取一二末三个笔画,这就是[笔画++]型拆分,如独体字 拆分 编码 独体字拆分 编码凹丨乙一 szha 重 丿一一 phhc不一丿丶 hpnb 求 一丨丶hsnq厂一丿 hpc 长 丿一人 phnc所述编码过程中,合体字拆取形码的方法是根据编码原则,从合体字中拆取一二末三个字元和单一笔画。在拆分合体字时须强调注意以下三点1.常字元任何时后都只能按整体来对待,当其是合体结构时也不能被拆分,如合体字 正确拆分错误拆分错误原因路路夂口 口止口 拆分了常字元病病丙内 广习丙 拆分了常字元2.从合体字中拆取的笔画只能是单个笔画。同一结构区域内,连续两个及两个以上的散笔画应作为字元,构不成可识字元者,当异字元看待,如合体字拆分 编码汉字拆分编码合 人一口rhoh 以 以人iry修 亻丨彡rspx 归 归归dsg言 一二口jeoy 分 八刀bdf脸 月人佥yril 学 兴冖子 igzx3.成字元是独体结构,既不能错取成合体结构,也不能错把成字元拆开,如合体字正确拆分错误拆分 错误原因则 贝人刂 贝刂把合体结构当成成字元苏 艹办艹力八 拆分了成字元“办”所述编码过程中,末复拆分补码是指不论是合体字还是独体字,拆取形码只能得到两码时,编码长度不够,容易引起重码。此时应从已拆得的成字元(如果有)中,复拆取最末一个可识字元作为补码,如汉字 拆分编码 说明最 日耳又 reyz 码长已够三码不需末复拆分补码开 一开 hnk无成字元可进行末复拆分补码可 丁口 dok已拆得的成字元不能复拆分出可识字元江 氵工 vgj(同上)引 弓丨口 gsky 从“弓”中复拆取可识字元“口”作补码咱口自目ozmz 从“自”中复拆取可识字元“目”作补码亲立木立lfbq “立”中复拆取可识字元最末者是“立”使用字音码编码,必须区分合体字和独体字。从汉字中的正确拆分出成字元和异字元也必须确定它是独体结构还是合体结构。这就存在一个合、独体判别的问题。汉字有上下、左右、内外、独体四种结构类型,前三种是合体结构。其中,内外结构又分为全包围和半包围两个亚类型。
例上下结构昌、元、其、形、示、六、曼、最、合、亭、警左右结构补、收、谁、结、种、谢、礼、副、修、旧、幻全包围结构 国、囱、四半包围结构 床、过、氛、匡、同、南、函、坐、噩、咸、武独体结构王、永、主、中、井、勿、气、兆、非、八、川、小、乙、一笔画以彼此交错和粘连的方式组成的结构是独体结构,例如,车、田、毛、十、工、日。完全由散列笔画组成的结构也是独体结构,例如,川、三、州、小、儿、八。另外“非”和“兆”这两个左右笔画块都构不成独立可识结构体的汉字也是独体结构。
独体结构和左右结构之间的界限是清楚的。而独体结构和上下结构之间,独体结构和内外结构之间,个别时候,特别是有异字元存在时,结构界限就不太明显,如矛、斤、皮、发、予、虫、石、立、至、卑、亦、兴、兔、羊、鬼、单、亦、赤、鬼、单、卑、免、弟、卡、古、占、反、甬、圭、巨、旦、习、乞、少、勺在编码过程中,遇结构界限不明显情况时,视其为过渡结构,并按下列规定处理1.不论整体上可识与否,凡能完全(不留笔画)拆分成两个以上可识字元者,应拆分取码,如
正 误合体字 拆分 编码合体字拆分编码战上口戈bogz 战 占戈口 bgoz朝十日月sryc 朝 朝月二 iyec饭饣厂又scyf 饭 饣反又 sfyf所厂口斤ckjs 所 所斤厂 ijcs南十冂干skgn 南 南丰iin2.由一个可识字元和一个笔画组成的结构是独体结构。其整体上可识是成字元,应整体拆取,如正误合体字 拆分 编码合体字 拆分 编码床广木厂gfcc 床 丶厂木 ncfc但亻旦日rdrd 但 亻日一 rrhd吃口乞乞oqmc 吃 口乞乙 omzc羽习习冫xxsy 羽 习冫冫 zssx整体上不可识,应拆分成可识字元和笔画,如合体字拆分编码 合体字拆分编码断 米口斤 mzjd 断 断斤斤 ijcd局 尸习口 szoj 局 局口ioj向丿冂口pkox 向 向口iox竹乞丨丨mssz 竹 竹竹iiz郎丶既阝ngel 郎 郎阝iel底广氏丶gsnd 底 广底厂 gicd是日一疋rhzs 是 日疋口 rios番丿米田pmtf 番 米田日 itrf蛋一足虫zzcd 蛋 疋虫中 iczd
至 一厶土hstz 至 云土十 itsz首 立一自bhzs 首 前自目 izms3.整体能独立成字,内含异字元笔画数不超过四笔者,应整取为成字元,不满足此条件,则分别拆取可识字元和异字元。
例(整体能独立成字,内含异字元笔画数不超过四笔)正 误合体字拆分 编码 合体字拆分 编码碰 石立亚sbyp 碰 石口亚 ioyp站 立上口lboz 站 立立口 jboz举 兴丰八xfbj 举 兴八丰 ibfj道 首辶自szzd 道 兴一辶 bhzd到 至刂土zdtd 到 一厶刂 hsdd挣 扌争色azdz 挣 扌争争 adiz样 木羊丰fyfy 样 木兴丰 fbfy拨 扌发又afyb 拨 扌发又 aiyb例(整体能独立成字,但内含异字元笔画数超过了四笔)正误合体字 拆分 编码 合体字 拆分 编码愧 忄鬼厶xisk愧 忄鬼厶 xgsk递 兴弟辶bizd递 弟辶兴 dzbd弹 弓兴单gbid弹 弓单兴 gdbd啤 口卑十oisp啤 口卑十 obsp晚 日争免rdiw晚 日免免 rmdw真 十真八sibz真 十具八 sjbz例(整体不能独立成字)
正误合体字 拆分 编码合体字拆分编码朔立
月 biys朔 朔月二 iyes套大且厶dist套 大套人 dirt展尸艹畏sciz展 尸展口 sikz派氵厂派vcip派 氵派 vip缺每缶抉miiq缺 缶决 iiq本发明与现有技术相比具有下列优点1,本发明提供的编码方法综合了音码的记忆少,编码简单、容易掌握等易学性以及形码的录入快、重码率低等易用性的优点,使之成为高录入、低重码、易学少记、简单规范的汉字编码方案。
2,本发明编码方案顺应汉字本身的结构规律,对汉字进行编码拆分,全面、准确、系统地定义了编码结构成分的基本内容——汉字笔画和汉字字元。字音码的汉字笔画分类,采用现代汉字查字法中通用的笔画分类,其优点是完全利用既有汉语知识而使编码获得最佳简易性效果。字音码的汉字字元定义在汉字结构中独体结构这个自然层次上,同时采用过渡结构处理技术避免了编码时必须在汉字结构中硬性区分合独体的机械作法,使编码更趋自然,同汉字既有知识体系也更加融合。
3,本发明编码方案对字元进行了属性分类,针对不同属性的字元的特殊性质,采用不同的编码处理方法。这是字音码区别于别的编码的一个显著的变革性技术进步。字音码的汉字字元分性质处理后,符号数量最多的成字元改用定义来规定,剩余少数常字元基本是使用者已经十分熟习的汉字常用不成字符号。所以,字音码率先成为了一种基本无记忆量编码。
4,本发明编码方案不硬性强行拆分汉字结构中的不可识独体结构(异字元)和独体字。这是字音码有别于别的现有编码的另一技术性进步特征。字音码遵照汉字结构的自然区划,承认汉字结构中独体非常用不成字符号(异字元)的存在,并用归类方法进行编码处理。由此一来,使编码方法更简捷,更趋合理。字音码在对待独体字的拆分上持特别谨慎的态度。独体字的每一种拆分方法都十分简单直观,并建立在使用者时常使用的一些方法基础上。例如,“大”字下加一点是“太”字;“木”字带“口”为“束”字等等。总之,字音码的独体字拆分方法有着广泛的、现实的群众基础,基本做到了不强行、随意乱拆独体字。这有利于使用者对编码的掌握,有利于增强编码方法的语言规范性。
5,本发明编码方案以字元和笔画的读音(或名称)的音序作编码,实现了汉字编码的音形有机结合。给用户带来基本勿需记忆就掌握一种高录入效率编码的便利。
6,本编码设计时静态重码率控制在5%以左右,并特别注意了控制高频字的重码。估计字音码的动态重码率在千分之二左右。由于绝大多数常用汉字在本方案中都有一、二、三级简码,利用简码进行输入不但可以提高录入速度,而且还可以进一步离散重码,所以实际在使用本编码时就基本上碰不到什么重码了。低重码率为本编码实现计算机汉字输入高速盲打奠定了基础。
7,本发明编码方案在形音结合,字元分性质编码,过渡结构处理技术,不强行拆分异字元和独体字以及末复拆分补码一系列新发明的技术措施的支持下,降低了对使用者汉语语音知识的要求,使用户在较短时间内,就能快速、容易地掌握它。因此,是一种高效率编码。
8,本发明的编码方案把汉语拼音输入法融入字音码中,并使二者相互兼容。这样一来,当用户遇不认识的字时,可只输入该字的前三个形码,并用“?”替代这个字的音码;当用户遇写不出的字时,直接输入该字的汉语拼音即可(拼音字串长度超过四码时取一二三末)。因此,不存在其它编码普遍存在的输入盲区。
权利要求
1,一种计算机汉字编码方法及输入键盘,其特征在于将汉字拆分为笔画、成字元、常字元和异字元四种不同性质的结构成分,并将它们读音的首位字母归入所对应的英文字母键盘上。
2,根据权利要求1所述的汉字编码方法,其特征在于所述汉字笔画分为横、竖、撇、捺、折五种,以其读音的首位字母为编码,具体是汉字笔画一丨丨 丿乀丶乙 …名称横 竖撇捺 折编码h s p n z。
3,根据权利要求1所述的汉字编码方法,其特征在于所述成字元就是以独体结构形态存在于汉字结构中的常用汉字。以其读音的首位字母为编码(个别带“*”号者除外),具体是a 凹b 八巴白百半办本必丙卜不步匕c 才册叉厂长车臣成尺赤斥虫丑出川串匆寸丞d 大歹丹旦刀电刁丁东e 而儿耳二f 乏凡方非飞丰夫弗甫木*g 干甘戈个更工弓瓜广果丐h 禾乎互户火j 击及几己夹甲柬巾今井久九臼k 开亏l 来乐里吏立隶力良两了龙m 马毛矛么门米面灭民皿末母目n 乃内鸟牛农女o 口*p 皮片平q 七乞气千且丘求曲犬r 人刃入冉日(曰曰)s 三山上勺少申身甚生升失尸十石史矢士世氏术手首束水己肃豕巳t 太天田屯w 瓦丸万王亡韦为未卫我乌无五午戊勿x 西夕习下乡小心血y 丫牙亚严央羊也业夷亦义尹永用尤由酉又于予雨与禹玉月夭禺幺z 再乍丈兆正之止中重州朱主爪专子自。
3,根据权利要求1所述的汉字编码方法,其特征在于所述常字元就是汉字结构中经常出现的不成字符号,以该符号名称中关键字读音的首位字母为编码(带“*”者除外),具体是常字元符号常字元名称关键字编码字例医函己贝同三匡儿 匡k 医己且贝山尸凶弓月同央上卜字变体卜b 卡占上卢刂丌师临 立刀旁 刀d 别师临齐氘览养一每字头 每m 复乍年气每乞亻单人旁 人r 位什佛厂斜厂儿 厂c 反斤质后派盾立倒八头 八b 曾丫半兑关兰并关单友义 斜叉儿 叉c 友右丈希杀驳义勹句字头 句j 勺勾句勿包匈旬葡亠京字头 京j 京亡市衣亦文亭哀冫两点水 水s 冷凉冲斗两点儿 点d 冬头斗寒讠* 言字旁u 说计谈讲阝卩厄耳朵旁 耳e 耶却防卫报服仓厄危欠刀字头 刀d 色角欠尔负危争予矛字头 矛m 矛勇予厶私字儿 私s 至雄叁牟弘宏套弃育廴辶 走之底 之z 边这建迢迈丰奉字底 奉f 奉择举敖艹廿共草字头 草c 草花共黄展廾弄字底 弄n 弄开升井鼻痹弃扌* 提手旁a 提抛捉打口四边围围w国囱囟卤因彳双人旁人r行徐徒彷彡三撇儿撇p参彰形犭豹 反犬旁犬q狗狄获豹霾犯饣食字旁食s蚀饮饼饥饲丬爿 将字旁将j浆将北状妆忄小 竖心旁心x悍愉怖添恬怀氵* 三点水 v汉江池溪彐彐 横山儿山s归隶尹宀冖 宝盖儿盖g宝字富冗堂营冤农光小字变体 小x党肖当党光纟纟* 绞丝旁 p红编丝巛三拐儿拐g巢巡生青字头青q青表责老老字头老l老者足足字底足z是走蛋足特告 牛字旁牛n特牧告靠先攵冬 反文旁文w攻收备冬各衣衣字底衣y表衣农哀裹采爪字变体 爪z采爱舀孚灬四点底点d杰然点煮春春字头春c春泰秦卷卷字头卷j卷眷拳券礻示字旁示s社礼视曼假四字四s署罗蜀钅金字旁金j铜铁钢铝拜手字变体手s看拜掰疒病字旁 病b病痛疼疗衤衣字旁 衣y补衫裤袜录水字变体水s泰录隶犀登登字头 登d登癸要西字头 西x要票栗虎虎字头 虎h虑虏虚虎竺竹字头 竹z筷笑篮笔艮即 根字边 根g根垦即良祭祭字头 祭j祭蔡察趵足字旁 足z路跃跳跟雪雨字头 雨y雾雷霏
4,根据权利要求1所述的汉字编码方法,其特征在于所述异字元是指汉字结构中的非常用且不成字的独体符号,或者说汉字结构中既不是成字元,又不是常字元,也不是单一笔画的独体结构符号就是异字元,一律以字母“i”为编码,具体是丁


戋缶旡



囊豖巿

然夜姊卵制学脊岛兴佥沈那以弟朔迎劲收亥杨暇争录眉互聿鹿庚庸唐卵发决鼎蚩
5,根据权利要求1所述的汉字编码方法,其特征在于汉字的拆分方法是将汉字区分为独体字和合体字,然后拆取形码,形码不足三码时,如有可能,应进行末复拆分补码,将形码补足为三码,最后加上该汉字的整字读音的首位字母(音码)。
6,根据权利要求5所述的汉字编码方法,其特征在于所述独体字拆取形码的方法是依序按[字元+笔画]、[字元+字元]、[字元+i]、[笔面++]四种类型拆分编码。
7,根据权利要求5所述的汉字编码方法,其特征在于所述合体字拆取形码的方法是根据编码原则,从合体字中拆取一二末三个字元和单一笔画。
8,根据权利要求5所述的汉字编码方法,其特征在于所述末复拆分补码是指不论是合体字还是独体字,拆取形码只能得到两码时,编码长度不够,容易引起重码。此时应从已拆得的成字元(如果有)中,复拆取最末一个可识字元作为补码。
全文摘要
本发明提供一种计算机汉字编码方法及输入键盘,其特征在于将汉字拆分为笔画、成字元、常字元和异字元四种不同性质的结构成分,并将它们读音的首位字母归入所对应的英文字母键盘上。它综合了音码的记忆少、编码简单、容易掌握等易学性以及形码的录入快、重码率低等易用性的优点,使之成为高录入、低重码、易学少记、简单规范的汉字编码方案。
文档编号G06F3/023GK1262475SQ9911748
公开日2000年8月9日 申请日期1999年12月24日 优先权日1999年12月24日
发明者向永模 申请人:向永模
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1