一种计算机输入系统—汉字表音码的制作方法

文档序号:6599387阅读:599来源:国知局
专利名称:一种计算机输入系统—汉字表音码的制作方法
我们急切需要一种既科学合理,又方便实用的二十一世纪信息时代的语言工具,它既要让计算机专职人员使用起来快速准确,又要使科技人员、文字工作者及广大师生操作电脑时感到易学易记、方便可行。
最近报载,计算机将成为中小学基础课,和语文、数学、外语一样,是青少年必须掌握的基本工具。国家教委已正式立项,把全国中小学教学用汉字编码规范及计算机输入系统列为重点攻关项目。
纵观目前国内外数百种汉字输入方案,可以归纳成两大类,一类是拼音输入法,一类是字形输入法。拼音输入法虽然方便易学,但由于汉字中同音字太多造成大量重码,严重影响了输入速度。况且我国方言繁杂,不少人会写会用却读不准音,让他们来使用拼音输入法,必然会一筹莫展。字形输入法的设计者大多将汉字肢解成许多个字根,然后分别给其贴上标签。这样做难免要添加一些规则,生造一些字根,违背了汉字的演化规律和结构规律,而且这么多的标签需要强记硬背,让人望而生畏。特别是广大科技工作者、专家学者、编辑记者、教师和学生,他们仅把汉字输入作为一种工具来使用,不可能要求他们强记这么多条条框框。正如众多学者所要求的,必须找到一种真正易学好用的汉字输入法,计算机在我国的应用才可能得到真正的普及。
在不久前召开的全国计算机汉字输入系统研讨会上,我国汉字编码专家认为,“编码中许多不规范的作法,对文字的使用产生了一种污染,形成了文字处理中的病毒!”“迄今为止,还没有一种汉字输入系统可以同我国中小学计算机教育紧密结合,并在广大中小学中推广普及。”为此,笔者认真学习了现有的各种编码方案,从中吸取科学的、合理的精髓,将音码和形码有机地结合起来,充分利用人们所熟习的汉字基本读音及汉字结构的背景和知识,尽可能地减少输入规则,减少记忆负担,特别注重实用性、普及性和规范化,以期使表音码在筛选能力、剖析能力、概括能力上能超越现有的各种编码方案。
表音码属于音托形码,或称隐性形音码。其主要特征是,以汉字的部首和笔画作为基本构件,将汉字读音、部首读音、笔画读音有规律地组合成代码。
在表音码中,单字和词汇输入均四码取字,码符由26个拉丁字母组成。采用国际标准键盘。第一码为汉字音码,以汉字读音的首码为代码。第二、三、四码为汉字的部件首码,以汉字的部首读音或笔画读音的首码为代码。
一、代码的设置(一)、部首代码表音码以《新华字典》为模本,共设189个部首,每个部首设定一个代码,设定原则如下1、凡部首本身是独体字的,以该字的声母为代码。如力 li L 土 tu T 寸 cun C 大 da D口 kou K 广 guang G 门 men M 女 nü N王 wang W 月 yue Y 方 fang F 石 shi S2、凡部首系从某字演变过来的,以该字的声母为代码。如:
刂 (立刀旁) D 亻(单立人) R 讠 (言字旁) Y 饣 (食字旁) S忄(竖心旁) X 礻(示字旁) S 钅 (金字旁) J 衤(衣字旁) Y
3、凡部首系从某字的偏旁冠盖演变过来的,以该字的声母为代码。如:
匚 (区字框) K 冂 (同字框) K 凵 (凶字框) K 冖 (秃宝盖) B宀 (宝盖头) B 廴 (建字底) J 辶 (走之儿) Z 虍 (虎字头) H4、一些较大的部首,专门设定代码,需强记。
(二)笔画代码汉字的笔画是汉字成形的要素,是最小的构字音位。学校识字教育中习惯将其分成“横、竖、撇、点、挑、捺、折”八种笔形,即书法上所讲的“永字八法”,分别以读音首码作代码横-H 撇-P 点-D 捺-N 钩-G 折-Z 挑-T 竖-S汉字结构复杂,根据字形可分独体字和合体字,合体字又分二分体、三分体等,取码方法分述如下二、三分体结构汉字的拆分
三、二分体结构汉字的拆分(一)、二分体如各自成偏旁,则取两偏旁代码作第二、三码,以0作第四码 (二)、二分体中,一部分为偏旁,另一部分为独体结构,则偏旁部分取一码,独体部分按笔顺取两码 (三)、二分体中,两部分都不是完整的部首,则上半部取两码,下半部取一码 (四)、二分体中,如某部分又可细分为三分体,取两码时应取两头不取中间 四、独体结构汉字的拆分独体结构的字总共只有五十来个,拆分起来非常容易,按笔顺取前三个笔画代码或部首代码,如不够用0补足(一)、按笔顺取前三个笔画或部首代码
(二)、该独体字如不足三码,用0补足 五、应注意的几个问题(一)、某一部分中又可细分为三分体,如取一码应取中间不取两头 “率”字的中间取“幺”,代码为SWYS “舆”字的上部取“车”,代码为YCHB“燕”字的中间取“口”,代码为YOKI “攀”字的中间取“撇”,代码为PPDU“赢”字的中间取“贝”,代码为YWKB(二)、某一部分中又可细分为三分体,如取二码应取两头不取中间“樊”字的上部取“木木”代码为FVVD “鼠”字的下部取“挑钩”代码为SJTG“兜”辽的上部取“撇折”代码为DPZE “盥”字的上部取“撇折”代码为GPZM(三)、凡是平行三分体以上的字,取第一、第二及最末码,例如 (四)、遵照《辞海》凡例,在同一部位有多笔和少笔几种部首互相迭合时,取多笔部首不取少笔部首。
“意”字应拆为“音心”而不拆分为“立日心”,代码为YYXO“竟”字应拆为“音儿”而不拆分为“立日儿”,代码为JYEO“章”字应拆为“音十”而不拆分为“立日十”,代码为XYSO“磨”字应拆为“麻石”而不拆分为“广木石”,代码为MMSO“魔”字应拆为“麻鬼”而不拆分为“广木鬼”,代码为MMGO(五)按笔顺规则,有些部首不是一气呵成的,这些部件的排列顺序依起始笔画为准如“武”字的笔顺是“横横止钩点”,但它是由“横弋止”三个部件组成的,所以它的代码应是WHYZ而不是WHHZ。同理,“幽”字的笔顺是“竖幺幺凵”,但它由“山幺幺”三个部件组成的,代码应是YSYY。
类似的例子还有 六、词汇取码词是语义的载体,只有处理好中文词,才能谈得上真正的中文信息处理。人们在研究汉字键盘输入时为了追求速度,均依靠词汇码的手段来缩短码长,同时,大多数同音字也依靠词汇环境来区别。
现在,凡是一种较好的输入方案都具有词汇输入功能,有无词处理能力及词处理水平高低是衡量编码输入方案好坏的重要标志。
表音码输入方案的词汇编码与单字编码可以兼容,不需任何切换。而且词汇编码容量大,共设有一万多条词汇,其中大部分为双字词组,既不占太大的内存,又比较实用。用户在输入过程中,尽量输入词汇以求其快,如逢个别专业或生僻词汇则输入单字以求其准。词汇输入如能应用自如,汉语的实际应用输入速度甚至超过英语的输入速度。
表音码还具有一个功能强大的自定义词组生成系统,用户在操作时可以根据自己的需要再建立一万条自定义词组,从而使中文输入技术向“以字为基础,以词为主导”的方向发展,大大加快了输入速度,提高了工作效率。
词汇取码的具体方案如下(一)双字词先取第一字的一、二码作词汇代码的一、二码,再取第二字的一、二码作词汇代码的三、四码。如机器-ji+木+qi+口 JVQK 钢铁-gang+钅+tie+钅 GJTJ经济-jing+纟+ji+氵 JAJI 保守-bao+亻+shou+宀 BRSB旅行-lu+方+xing+彳 LFXC 残酷-can+歹+ku+酉 CDKY国家-guo+囗+jia+宀 GWJB 温州-wen+氵+zhou+点 WIZD(二)三字词先取第一字的一、二两码作词汇代码的一、二码,再各取第二、第三字的首码作词汇代码的三、四码。如计算机 JYSJ 解放军 JJFJ(三)四字词各取每字声母首码,依次排列。如汉字编码 HZBM 人民日报 RMRB(四)多字词取第一、第二、第三及最末一字的声母首码依次排列。如电子计算机 DZJJ 中华人民共和国 ZHRG七、简码设置汉字数量虽多,但常用的只不过一千多个,如果能简化这些常用字的输入,就可以大大提高输入速度。表音码遴选了一批常用字,以它的编码的开头一个、两个或三个代码作为这些汉字的简码,对于这些常用字,既可用以简码输入,又可以用全码输入。
简码分三级一级简码、二级简码和三级简码。
(一)、一级简码它只用一个键位代码组成,共分两组。一组是字符键加空格键,安排了最常用的高频字,一般用该字的读音首母作为代码,现列表如下上排 Q去 W为 E而 R人 T同 Y有 U又 I以 O所 P工中排 A要 S是 D的 F发 G个 H和 J就 K可 L了下排 Z在 X下 C出 V我 B不 N那 M们另一组由字母键加(D)键组成,一般为常用数字,列表如下上排 Q一 W二 E三 R四 T五 Y六 U七 I八 O九 P十中排 A1 S2 D3 F4 G5 H6 J7 K8 L9下排 Z(1) X(2) C(3) V(4) B(5) N(6) M(7)(二)、二级简码二级简码由两个键位代码组成,也由常用字组成本来,用26个键位代码可以组合出676个二级简码,但由于有部分两码组合没有汉字,或不是常用字,表音码实际安排的二级简码只有500来个,中文输入时只要先按其对应的两个字母键,再按一下空格键就行了。例如“明”字,其全码是MAYO,但按MA,再按空格键即能出字。
(三)、三级简码三级简码由三个键位代码组成,全部选自国标一级汉字,因为国标二级汉字本身并不常用,也就没有做成简码的必要了。如果一个汉字的前三个代码在整个编码系统中是唯一的,一般都选该字为三级简码,否则,从前三个代码相同的汉字中选出一个常用字。三级简码共有2500个左右,中文输入时,只要依次按其前三个代码对应的字母键和空格键即可。虽然输入三级简码最后要按空格键,并不减少按键次数,但按空格键完全可以不假思索,实际上会减少输入难度。从而也就提高了输入速度。
国标一级汉字3755个,三类简码共有3000多个,剩下只有700来个汉字必须打足四键才能出字,简码率占80%。由于这些简码字的使用频率很高,在实际使用中出现的频率要接近90%,再辅以词组输入,表音码的平均击键数仅为2.18,八、重码处理如果两个不同的汉字编码完全相同,就会出现重码,重码多了,会影响输入速度。一般人认为,重码率高低是衡量一种输入方案优劣的重要标志,其实这并不正确。因为只要发挥了软件的优势,系统是可以容忍一定程度重码率的,我们可以通过“显示选择”、“高频先见”、“词汇组合”等方法来解决重码。
表音码的规则不多,非常易学,而重码字也不很多,这是其优点之一。一般来说,只有国标一级汉字之间的重码才算是真正的重码,而一级和二级之间或二级和二级之间的重码由于使用频率很低,实际上不会给输入带来什么不便。
据统计,在国标一级汉字中,表音码的重码字有132对,我们采取了一些必要的措施。
(一)、单字重码的处理1.高频先见表音码输入启动键[Alt]+[Z]是一个开关键,反复按[Alt]+[Z]键,提示行会轮番出现“表音码重码预先方式”和“表音码重码自选方式”。
在“表音码预先方式”下,高频字优先上屏。例如输入编码RPNU时,机器在发出“嘟”一声的同时,屏幕上先跳出“人”字,提示行上出现“1人2入”二个重码字,如果你正需要“人”字,就可以继续往下输。如果你需要“入”字,按[Alt]+[Z]键,可以把屏幕上的“人”字换下来。
在“表音码自选方式”下,重码字只出现在提示行上并不上屏,这时只需按一下重码字的序号数字如[1]或[2]键,不必再加按[Alt]键。
在“表音码预先方式”下,对重码选择有记忆功能,如你在“1人2入”重码中选“入”字上屏后,再输入RPNO时,优先上屏的还是“入”字,直至关机后记忆功能才消失。
2.简码处理凡是两个一级重码字,我们绝大部分给予简码处理,例如“人、入”两字是重码字,“人”字很常用,我们设它为一级简码,“入”字不大常用,我们设它为二级简码,这样就可以避免出现重码。
3.词组输入例如“人”字,除单独使用外,大都是作为词组出现,表音码软件中有很多词组可供选择,如爱人、本人、别人、病人、成人、仇人、敌人、恩人、犯人、夫人、个人、各人、工人、古人、好人、华人、惊人、巨人、客人、老人、骂人、每人、名人、某人、男人、女人、仆人、前人、亲人、穷人、人材、人才、人道、人格、人工、人家、人间、人口、人力、人们、人民、人身、人生、人士、人世、人事、人体、人为、人物、人心、人性、人员、人种等。同样,“入”字根少单独使用,大部分作为词组出现,而表音码软件中就有以下这些词组可供选择,如深入、收入、输入、投入、陷入、装入、卷入、插入、出入、归入、加入、键入、介入、进入、侵入、入场、入党、入耳、入会、入伙、入门、入迷、入内、入侵、入伍等等。这样同样可以避免出现重码。
(二)、单字和词组、词组和词组的重码根据软件的设计,如逢单字和词组重码,都是单字优先上屏,但有时碰上单字是二级汉字,难得用上一两次,而词组却很常用,例如(钆)、(觚)字和“改革”、(夷)字和“一个”、(鱿)字和“意义”、(伛)字和“依靠”、(绎)字和“由于”、(炀)字和“严重”、(倨)字和“金属”等。如果让二级字先上屏,必将会给输入带来困扰,为此,我们采用自定义词组进行技术处理,让常用词组优先上屏。
词组和词组重码,是按造词的先后顺序排列的,但碰上一些频度倒置的重码词组,我们也都作了必要的处理。如“简体”和“集体”一组重码词让“集体”先上屏,“暑期”和“时期”一组重码词让“时期”先上屏,“引用”和“应用”一组重码词让“应用”先上屏。“邪说”和“形式”一组重码词让“形式”先上屏。
九、容错措施所谓容错码,含有两层意思,一是容易出错;一是容忍出错,即允许出错。
在表音码中,个别汉字往往有两个编码,这种现象就叫做容错现象。出现容错的原因很多,是一种完全正常的现象,有专家把容错能力的强弱与否作为衡量一个编码方案优劣与否的标准之一,这是不无道理的。
现将表音码中的容错码分述如下(一)、读音容错汉语中有不少数量的多音字,也就是一个字有两个或三个不同的读音,表音码是音托形码,其第一个代码为汉字的整字读音的首码,所以凡是多音字就有两个以上的代码,它们的特点是仅仅第一码不同,例如曾 ceng CBWA, zeng ZBWA 长 chang CPHT, zhang ZPHT朝 chao CSSY, zhao ZSSY 车 che CHZH, ju JHZH重 chong CPHA, zhong ZPHA 传 chuan CREZ, zhuan ZREN(二)、拆分容错有些汉字在拆分取码时常会出现一些歧义,为了不影响用户的输入,我们特意添置了容错码,其用意不是糊稀泥,而是不希望在拆分中为细微末节纠缠不清。
1.某部分如为粘连或交叉结构,取一码应按笔顺取起笔“师”字第三码应取“横”不取“巾”,代码为SSPH 设容错码为SSPJ“惩”字第二码应取“横”不取“止”,代码为CCHX 设容错码为CCZX“型”字第一码应取“横”不取“廾”,代码为XHDT 设容错码为XGDT“凭”字第二码应取“撇”不取“士”,代码为PRPJ 设容错码为PRSJ
“整”字第四码应取“横”不取“止”,代码为ZHFH 设容错码为ZHFZ“诞”字第三码应取“撇”不取“止”,代码为DYPJ 设容错码为DYZJ“庭”字第三码应取“撇”不取“士”,代码为TGPJ 设容错码为TGSJ“宿”字到四码应取“横”不取“白”,代码为SBRH 设容错码为SBRB“奏”字第四码应取“横”不取“大”,代码为ZFNH 设容错码为ZFND2.某部分如为离散结构,取一码时应按先部首后笔画的原则取部首“廊”字第三码应取“艮”不取“点”,代码为LGGP 设容错码为LGDP“榔”字第三码应取“艮”不取“点”,代码为LVGP 设容错码为LVDP“叛”字第四码应取“又”不取“撇”,代码为PBEY 设容错码为PBEP3.拆分字体应从整体结构着眼,否则容易出错,如“琴”字由“王、王、今”组成,而“今”字又为二分体,“琴”字从整体来看,应视作上下三分体结构而不是上二下一的二分体结构。
又如琴-王人折 QWRZ(容错码QWWR)剪-八横刀 JBHD(容错码JBYD) 煎-八横灬 JBHI(容错码JBYI)兼-八横彐 JBHL(容错码JBLS) 廉-广八横 LGBH(容错码LGBL)举-点横二 JDHE(容错码JDBE) 誉-点横言 YDHY(容错码YDBY)蠢-丰日虫 CFAC(容错码CFCC) 前-八横月 QBHY(容错码QBYD)临-竖竖撇 LSSP(容错码LSPW)4.少部分的字各人拆分不同,很难说谁对谁非,故兼而收之。如并-八横廾 BBHG 并-八二撇竖 BBEP(容错码)龙-横撇钩 LHPG 龙-尤撇点 LYPD(容错码)木-十撇捺 MSPN 木-横竖八 MHSB(容错码)里-曰竖二 LASE 里-曰土 LATO(容错码)系-撇糸 XPAO 系-撇幺小 XPYX(容错码)隶-彐水 LLIO 隶-肀折撇捺 LYZP(容错码)永-点水 YDIO 永-点折折撇捺 YDZZ(容错码)5.个别结构应归属独体或归属分体,众说不一,例如插-扌撇十臼 右边如理解为分体,应取CUPJ:如为独体,应取CUPS陆-阝二竖凵 右边如理解为分体,应取LPEK:如为独体,应取LPES皮-折撇竖又 又如看作分体部分,应取PZPY:如为独体,应取PZPS气-撇横横折 如看作三分体结构,应取QPHZ:如为独体,应取QPHH(三)、笔顺容错汉字的书写顺序是约定俗成的,但个别的字会因人而异,如火-点点人 HDDR 火-点撇撇捺 HDPP(容错码)肃-肀撇竖八 SYPS 肃-肀八撇竖 SYBP(容错码)亦-亠撇竖八 YWPS 亦-亠八撇竖 YWBP(容错码)(四)、字根容错个别汉字人们对它的部首归属意见不一,导致了拆分的不一致,这也是常见的现象。例如“秉、乘”两字习惯上都属“禾”部,但也有人认为不属部而归起笔“撇”秉-禾彐 BHLO 秉-撇横彐 BPHL(容错码)乘-禾竖匕 CHSB 乘-撇十匕 CPSB(容错码)(五)、笔形容错根据《印刷通用汉字字形表》,有些笔画的笔形作了适当的调整,例如
“敛”字的左下部是“挑”不是“横”,代码为 LRTF,设容错码 LRHF“颤”字的左下部是“挑”不是“横”,代码为 CWTY,设容错码 CWHY“剑”字的左下部是“挑”不是“横”,代码为 JRTD,设容错码 JRHD(六)、书写错误有些字经常写错,但已成习惯,我们也只好予以“容许”了雀-小隹 QXZO 雀-小撇隹 QXPZ(容错码)冒-冂二目 MKEM 冒-曰目 MAMO(容错码)冕-冂二兔 MKED 冕-曰刀冂 MADK(容错码)十、检索键“?”当对某汉字的取码感到困难时,可以用“?”键来检索。如“楼”(lou)字声母为l,左右两分体结构,其部件码应取木、米、女。“楼”的代码为LVMN。如你键入?VMN或L?MN或LV?MN或LVM?,此时显示屏的提示行里均会出现“楼”字及它的代码LVMN。这样,既可检索到要输入的汉字,又可领会取码要领,学到编码知识。
表音码具有如下一些特点(一)全面利用汉字的拼音、部首、笔画、笔顺四大要素,其取码是全方位、全信息的,因而其准确性、概括性都较高。
(二)表音码取码以整字读音、部首读音、笔画读音为依托,据科学测算,汉字的字音占整个汉字信息量的四分之三,字音一旦成为人们头脑中的内存信息,无论是阅读还是输入,都比字形快得多。
(三)南方人对舌尖前后音z、c、s和zh、ch、sh无法分辨,对前后鼻音en和eng,in和ing,an和ang等分不清楚,表音码取码时采用模糊分类法,避免了人们因发音不准而出错的现象,从而使不同年龄层、不同知识层的人员都能得心应手地上机工作。
(四)表音码的部件码以偏旁部首为主,对部首的归并和取舍尽可能做到规范,以减少记忆负担。
汉字的偏旁共有近500个,但适用于现代规范汉字的部首以二百部为宜。我们还要注意到,作为教育用书,《新华字典》和《现代汉语词典》几乎是人手一册,影响最大,所以,表音码原则上以《新华字典》为基础,略加删并,再从《统一部首表》中选取“匕生无氏而非干至”等八个部首,总共为189部。虽然为数不少,但人们从小学开始就已熟习了这些部首的形体和称呼,故记忆量很少,凡稍具汉语拼音知识和部首检字常识者都能一看就会,立即上机,尤适宜于广大师生及专家学者使用,适宜于非专职输入员上机操作。
(五)表音码的部件码以汉字的笔画和笔顺为辅,学校识字教育中习惯将笔画分成“横、竖、撇、点、挑、捺、折”八种,这八种笔画可依照单(如一)、散(如二)、交(如十)、连(如人)四种方式连接起来组合成字根。
笔顺遵照先横后竖,先撇后捺,先左后右,先上后下,先外后内、先中间后两边,先里头后封口等已习惯成自然的规则,无须记忆。
(六)合乎规范本方案的任何一条规则都符合汉字规律,均有据可依,有本可查,不加任何伙的定义,绝不会产生“污染”特别适合于标准化教学,适宜在中小学推广使用,并能引导学生正确书写汉字,增加汉字知识。
(七)词是语义的载体,凡是较好的输入方案都具有词汇输入功能,有无词处理能力及词处理水平的高低是衡量编码输入方案好坏的重要标志。中文的词到底有多少?现代电脑中应该采用多大的词库才有实用价值?据统计,8000个词可覆盖95.12%。而平均词长浮动在1.83-2.09之间,即现代中文词以一字和二字为主。其中单音词实际用度为64.3%,双音词为34.3%。
表音码输入方案的词汇编码与单字编码可以兼容,而且词汇编码容量大,共设有一万多条词汇,其中大部分为双字词组,而且还具有一个功能强大的自定义词组生成系统,用户在操作时可以根据自己的需要再建立一万条自定义词组,从而使中文输入技术向“以字为基础,以词为主导”的方向发展,大大加快了输入速度,提高了工作效率。
(八)联合国国际标准化组织最近通过了国际汉字内码共同标准,从而开拓了各地中文电脑资料兼容互通的坦途。凡全球使用的各种汉字,如中国大陆的简体字、港台地区的繁体字、日本语汉字等,均可用汉字表音码进行编码,这对促进国际文化交流具有积极意义。
(九)学习和使用“汉字表音码”,均以用户原有的知识和技能为背景,它只要求用户具备中学阶段所学的背景知识1,认识3500左右的常用汉字;
2,基本掌握汉语拼音知识(只要求会读出声母)3,基本熟悉汉字部首检字法;
4,能按正确笔顺书写汉字。
附录一 汉字表音码部首代码目录一,以常用字作部首(共131部)二 er E 十 shi S 厂 chan C 卜(卜)bu B八(丷)ba B 人 ren R 几 ji J 儿 er E刀()dao D 力 li L 又 you Y 匕 bi B工 gong G 土 tu T 士 shi S 寸 cun C大 da D 小()xiao X 口 kou K 巾 jin J山 shan S 夕 xi X 广 guang G 门 men M尸 shi S 己(已)ji J 弓 gong G 子 zi Z女 nu N 马 ma M 干 gan G 王 wang W韦 wei W 木 mu V 犬 quan Q 歹 dai D车 che C 戈 ge G 比 bi B 瓦 wa W止 zhi Z 日(曰)ri A 水( ) shui I 贝 bei B见 jian J 牛(牜)niu N 手 shou U 毛 mao M气 qi Q 片 pian P 斤 jin J 爪(爫)zhao Z父 fu F 月 yue Y 欠 qian Q 风 feng F文 wen W 方 fang F 火 huo H 斗 dou D户 hu H 心 xin X 无 wu W 氏 shi S丰( )feng F 示 shi S 石 shi S 龙 long L业 ye Y 目 mu M 田 tian T 皿 min M矢 shi S 禾 he H 白 bai B 瓜 gua G用 yong Y 鸟 niao N 立 li L 穴 xue X皮 pi P 矛 mao M 母(毋)mu M 生 sheng S耳 er E 臣 chen C 西 xi X 页 ye Y虫 chong C 舌 she S 竹 zhu Z 臼 jiu J自 zi Z 血 xue X 舟 zhou Z 衣 yi Y羊()yang Y 米 mi M 羽 yu Y 而 er E至 zhi Z 麦 mai M 走 zou Z 赤 chi C豆 dou D 酉 you Y 辰 chen C 卤 lu L里 li L 足 zu Z 身 shen S 谷 gu G角 jiao J 辛 xin X 青 qing Q 其 qi Q雨 yu Y 齿 chi C 金 jin J 食 shi S鱼 yu Y 非 fei F 革 ge G 骨 gu G鬼 gui G 音 yin Y 麻 ma M 鹿 lu L黑 hei H 鼠 shu S 鼻 bi B二.以常用字的变体形式作部(共13部):
刂(立刀旁) D 亻(单立人) R 讠(言字旁) Y 卩(单耳旁) P阝(左耳旁) P 阝(右耳旁) P 扌(提手旁) U 犭(反犬旁) Q饣(食字旁) S 忄(竖心旁) X 礻(示字旁) S 钅(金字旁) J
三,以偏旁冠盖作部首(共29部):
匚(区字框) K 冂(同字框) K 凵(凶字框) K 勹(包字头) B亠(文字头) W 冖(秃宝盖) B 宀(宝盖头) B 厶(台字头) T冫(两点水) I 氵(三点水) I 灬(四点水) I 彡(三撇儿) S廴(建字底)J 辶(走之儿) Z 艹(廿)(草字头) O 尤(尤字旁) Y夂(条字头) T 彐(录字头) L 屮(出字头) C 纟(绞丝旁) A巛(川字头)C 丬(将字旁) J 攵(攴)(反文旁) F 肀(聿字心) Y罒(横目儿) M 疒(疒字头) B 老(老字头) L 虍(虎字头) H髟(髦字头) M四,以生僻字作部首(共15部):
彳 chi C 弋 yi Y 囗 wei W 幺 yao Y殳 shu S 廾 gong G 耒 lei L 缶 fou F疋 pi P 采 bian B 艮 gen G 豕 shi S豸 zhi Z 黾 min M 隹 zhui Z注:下列部首的代码需强记:
日(曰)-A 纟-A 冫 氵 灬-I 艹-O扌(手)-U 木-V 卩 阝 阝 -P
附录二 汉字表音码部首及笔画代码索引
附录三 汉字的笔画和笔顺一、汉字的笔顺汉字数目多达五万,常用汉字也有三千多。各个字的笔画简繁不等,组合形式各不相同。因此在书写实践中,人们不断总结经验,自然形成了一套笔顺基本规则。每个汉字都有确定的笔顺,这对于汉字的书写、查检、信息处理都有重要的作用。我们使用汉字时,必须熟悉和掌握这套规则。
汉字的笔顺受字形和字形结构的制约。
(一)笔顺的一般规则有以下九条1,先上后下:如“立、案、富”2,先左后右:如“从、桃、做”3,先外后内:如“周、同、风”4,先中间后两边:如“办、小、水”5,先里头后封口:如“国、田、目”6,先横后竖:如“干、井、丰”7,先撇后捺:如“人、大、入”8,先横后撇:如“广、灰、在”9,先主体后穿心:如“中、事、册”(二)笔顺的特殊规则有以下二条1,点的书写笔顺① 点在左上先写点如“斗、为、头”② 点在右上后写点如“戈、武、代”③ 点在里面后写点如“母、舟、瓦”2,包围结构的书写笔顺① 上右或上左二包围,先外后里如“司、厅”② 左下二包围,先里后外如“建、过”③ 缺口朝上三包围,先里后外如“凶”④缺口朝下三包围,先外后里如“同”⑤缺口朝右三包围,先上后里再右下如“区”(三)笔顺规则的综合运用1,多数汉字的书写是几种规则的综合运用;
2,笔顺规则不是绝对的,有些笔画复杂或特殊的汉字,不必强求一致,只要写得顺手就行了。
二、汉字的笔画笔画是组成汉字的零件,是汉字成形的要素,是最小的构字单位。
现代汉字的笔画系统以楷书为标准。绝大多数的汉字是由多笔画构成的,笔画的基本形式是点和线,多数是直线。把笔画的基本形式和变形加在一起,就有许多不同的形体笔形。笔形种类复杂,原则上是每种笔形都有一个相应的名称,这样既便于称呼、分辨,又利于指导书写和定形排序,是汉字规范中的一个重要组成部分。
“点、横、竖、撇、捺、挑、钩、折”是构成汉字的八种主要笔形,即书法上所讲的“永字八法”。在这八种笔画中,“点、横、竖、撇、捺、挑”的走向和起止比较固定。“钩”必须依附在其他笔画上,如竖钩-可、刷、水,斜钩-戈、民、式,卧钩-心、必、也、竖弯钩-包、儿、己。“折”的走向和起止比较复杂,但书写时也有一定的原则,即无论转折几次,走向只能向下向右,不能向上向左如竖折-区、母、西,撇折-宏、红、女,横折-日、片、丑、说、句、丹、又、水,横折折-杨、乃、及、风、乙、瓦、凡、了。
汉字笔画名称及其代码 注1.短撇和点对称并列的也作点,如少为丨、丶、丿、羊、米的前两笔为丶丶2.挑和点相连的作点,如冫为丶丶
权利要求
1.一种中文电脑输入系统汉字表音码,其特征在于单字和词汇输入均以四码取字,码符由26个拉丁字母组成,采用国际标准键盘。
2.根据权利要求一所述的汉字表音码,其特征在于代码采用音托形码,以汉字的部首和笔画作为基本构件,将汉字读音、部首读音、笔画读音有规律地组合成代码。
3.根据权利要求一所述的汉字表音码,其特征在于第一码为汉字音码,以汉字读音的首码为代码,第二、三、四码为汉字的部件音码,以汉字的部首读音或笔画读音的首码为代码。
4.根据权利要求一所述的汉字表音码,其特征在于部首以《新华字典》为基础,共设189部,笔画以“永字八法”为依据,共分“横竖撇点捺挑钩折”八种。
5.根据权利要求一所述的汉字表音码,其特征在于对三分体结构的汉字取码,如各自成偏旁则按笔顺取三码,如某部分不成偏旁则该部分取起笔,如某部分除含偏旁外尚含其他笔画可舍去不取。
6.根据权利要求一所述的汉字表音码,其特征在于对二分体结构的汉字取码,如各自成偏旁则取两偏旁代码作第二、三码,以0作第四码,如一部分为偏旁、另部分为多种分配则偏旁部分取一码、多种分配部分按笔顺取两码,如两部分都不是偏旁则上半部分取两码、下半部分取一码。
7.根据权利要求一所述的汉字表音码,其特征在于对独体结构的汉字取码,按笔顺取前三个笔画或部首代码,如不足三码用0补足。
8.根据权利要求一所述的汉字表音码,其特征在于词汇取码,双字词第一字的一、二码和第二字的一、二码,三字词取第一字的一、二码和第二、三字的首码,四字词各取每字声母首码,多字词取第一、第二、第三及最末一字的声母首码依次排列。
9.根据权利要求一所述的汉字表音码,其特征在于一级简码设两组,二级简码设500个,三级简码全部选自国标一级汉字,共3000个。
10.根据权利要求一所述的汉字表音码,其特征在于设置检索键“?”
全文摘要
本发明系一种计算机输入系统汉字表音码,属于音托形码。它吸取纯音码和纯形码之所长,将两者有机地结合起来。表音码以汉字的部首、笔划作为基本构件,将汉字读音、部首读音、笔划读音有规律地组成代码,拆分规范,没有记忆负担,只要稍具汉语拼音知识和部首检字常识,就能一看就会,一会就能上机,尤适合于中小学计算机教育,适合于科技人员、专家学者等非专职输入员使用。
文档编号G06F3/023GK1100537SQ93109390
公开日1995年3月22日 申请日期1993年7月27日 优先权日1993年7月27日
发明者沈迦, 沈克成 申请人:沈迦, 沈克成
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1