知音码汉字编码技术的制作方法

文档序号:6409273阅读:238来源:国知局
专利名称:知音码汉字编码技术的制作方法
技术领域
本发明涉及码长为四码、以字元读音首字母作为编码码元的计算机汉字输入编码技术,它提供一种取码线索单一,编码操作规定性少,重码率低,能够盲打的编码方案。
在已有的汉字编码技术中,音码易学,易记,但因为重码高,不能盲打。
形码,包括形声码或声形码,重码低,便于盲打,但是这些编码方案设计的基础是先对汉字从形态上进行分析,拆分出数百种组成汉字地构件或部件,再对这些部件进行分析,找出其中的内在规律,归纳出百种以上的部件作为该方案的基本编码单位,然后将这些部件用字母键和/或数字键的音、形或序来表示。为了解决编码的重大技术关键,如基本部件的分类、克服部件的二义性、降低重码率等,这些方案制定出过多的规则和约定,因而带来了记忆量大、不易学习的副作用。
音、形、义综合型编码方案中,多元化的取码线索,使编码过程本身过于复杂。
本发明的目的在于根据汉字总量的有限性和编码资源丰富性,天然基本部件的多样性和不确定性,以及这些部件的规范或约定俗成的读音本身所具有的区分和分类的特性,并以公众在汉字认知过程中逐步习得的字音和字形知识为基础,减少编码操作的规定性,承认并接受使用者对汉字切分和拆分的多样性,通过合理利用26个字母所形成的编码资源,提供一和取码线索单一,重码率低,易学、易记、易用的编码方案。
本发明通过下列综合措施实现上述目的
1、实行“一字多码”以适应人们对汉字认识的合理多样性。对编码基本部件,提出一般性的原则,从而给使用者以最大的编码自由度,让使用者根据汉字的特点或对汉字约定俗成的认识去切分或拆分出编码所需要的基本部件。“一字多码”的出现是有规律的,因而也是可以预见和控制的。它通常由下列因素引起
①首字母不同的多音字,如“长”、“重”、“给”等。
②书写上有一种以上规范的或可能流行的顺序的字,如“火”、“长”等。
③因为对字形结构的认识不同而产生多种切分或拆分的字,如“生”(“
丿、主”或“牛、一”);“田”(“口、十”或“日、丨”);“
重”(“千、田、上”,“千、日、土”,“千、日、二”等)。
④书写容易造成字元混淆的字,如“吉”(“士、口”或“土、口”)。
⑤异体字。
2、对独体字或由两个部件组成的合体字进行“动态取码”,即对其中一个部件连续取不同的两个或两个以上的码元。如,“自”的编码部件是“自、丿、目、日”(“目”中含有“日”);“酒”的编码部件是“酒、氵、酉、西”(“酉”中含有“西”)。这种“动态切分”既能使取码直观,便于使用,又能比以“末笔划”和“结构形态”作为补足码的做法更能充分地利用编码资源。
3、编码的基本单位是字元,包括①整字字元,②成字字元(可读字或变形的可读字),③部首字元(规范的偏旁和部首)和④九种笔划字元(而不是通常采用的五种)点、横、竖、撇、捺、提、钩、折、弯(其中前八种属传统的“‘永’字八法”)。允许切分和拆分的多样性。
4、除极少的约定以外,用规范的或约定俗成的的字元读音的首字母作为码元。用字母“O”表示大量的既不属于偏旁部首,又没有约定俗成读音的笔划组合。
5、从充分利用编码资源目的出发,根据汉字的读音特点,用字母“V”表示读音以撮口呼元音ü开始的字元。
6、字母Z,C,和S分别表示Z H,C H,和S H。
7、知音码方案的输入键盘设计有标准键盘、自定义动态键盘和知音码定义动态键盘,以满足不同使用者的需要。(知音码定义动态键盘见附图
)
本发明完整地体现于以下方案
方案分为三部分
一、知音码的字元和码元
二、知音码的编码总则
三、便捷取码一、知音码的字元和码元
知音码的编码基本单位是字元,指的是整字和构成整字的离散构件。离散的构件有三种
1、成字字元(可读字或变形的可读字)
2、部首字元(规范的偏旁和部首);
3、笔划字元约定为九种。
所谓“离散”,一般指的是构件之间没有明显的相交。
承认并接受字元切分和拆分的多样性。
知音码中,由三个或三个以上的字元构成的字称为“多元字”;由一个或两个字元构成的字分别称为“单元字”和“双元字”。
知音码用26个字母作为码元。
“?”作为模糊输入键。(一)整字字元的码元
用读音的首字母作为码元。
用“V”表示读音的首字母是撮口呼元音ü(yu)的字,如月(üe),原(üan),鱼(ü),运(üen)。
“Z、C、S”同时表示“ZH、CH、SH”。
上述约定同样适用于成字、部首和笔划字元。(二)成字字元的码元
成字字元,用规范读音的首字母作为码元。对于变形但仍可辨认的成字字元,读音从正体字,如“看、着、先”的第一个字元是变形字元,读音分别从“手、羊、牛”;“春、卷”的第一字元的读音分别从“丰、半”;“肖、采”的第一字元读音从“小、爪”。
离散的或切分出的、既不属于偏旁部首,又没有约定俗成读音的笔划组合,视为可读字,统一用“○”作为码元。
可用作部首“山石水手、丝木言虫”的码元,见(三)。(三)部首字元的码元
作为部首字元的偏旁部首的读音,主要根据现行语文教学中所采用的名称(参见附5)或约定俗成的读法(参见附4 ),用核心字读音的首字母作码元。如“亻”取码R,从“站人旁”的“人”;“钅”取码J,从“金字旁”的“金”;“艹”取码C,从“草字头”的“草”。
为了充分利用编码资源,减少重码,对8个常用的偏旁部首,“山石水(氵)手(扌)、丝(纟)木言(讠)虫”,通过联想助记的方式,重新分配码元。具体约定见附1。(四)笔划字元的码元
笔划字元,“点、横、竖、撇、捺、提、钩、折、弯”,分别用码元D(ian),H(eng),I,P(ie),N(a),T(i),O(ou),Z(he),W(an)表示。“竖”的码元是“I”,根据的是字母形态与笔划形态的相似性。具体约定见附2。二、知音码的编码总则(一)多元字
多元字按书写顺序取码,先左后右,自上而下,从外向内或从内向外,一次取足四码。三字元以上的字,取码顺序为“前二末一”,即取第一、二和末位三码。明显离散而又不可读的笔划组合,在知音码中视为可读字,用“0”表示。例如
华 HRBS (华、亻、匕、十)
堕 DEYT (堕、阝、有、土)
逢 FWFZ (逢、夂、丰、辶)
福 FSHT (福、礻、一,田。注“一”作为笔划“横”,取码H)
霞 XVOY (霞、雨、
、又。注“雨”拼音“yu”,为撮口呼“ü”,
取码V;“
”离散而不可读,视为可读字,取码0。)(二)双元字
双元字可直接先取三码,第四码取码方法视情况,有三种
(1)第二个字元是可读字时,首先考虑“动态取码”,从中“剥”出一个
可读字,再根据这个字元的发音取码,例如,
类 LMDR (类、米、大、人。注第二字元“大”中“剥”出“人”,作
为作第四码。)
秤 CHPG (称、禾、平、干)
曹 CORK (曹、
、日、口。注
离散而没有读音的笔划组合,视
为可读字,用“○”表示)
(2)第二个字元无法“动态取码”时,取末笔划的习惯读音为码。例如,
罗 LSXD (罗、四、夕、丶)
饵 ESET (饵、饣、耳、。注第二字元“耳”无法动态取码,因此末
笔划“提”取码2。)
(3)第二字元是单笔划,第四码取空格键为码。例如,
旦 DRH_ (旦、日、一、“空格”)
礼 LSW_ (礼、字、、“空格”。注第划“竖弯勾”,取码W,从
“弯”。)(三)单元字
单元字的第二码在知音码中是“拆字取码”,即拆出笔划顺序在前、直观的成字字元或笔划字元为码,剩下的如果是可读字,其余两码的取码操作同双元字。例如,
大 DHRN (大、一、人、\)
拆字取码后,剩下的如果不是可读字,而仅仅是笔划的聚合,那么则依次取第二、第三或末笔为三、四码。例如,
凹 AIZH (第二码拆出“竖”,取码I;剩下的不是可读字,第二笔划为
“横折横”,从“折”取Z;末笔划为“一”,从“横”取H。)三、便捷取码(一)抽“芯”法
抽“芯”指的是从单元字中“抽”出维系全字的笔划或字。经抽芯后,剩下字元,可采用双元或多元字的取码方法操作。例如,
秉 (秉、禾、ヨ、一)BHXH
乘 (乘、禾、北、匕)CHBB 或(乘、禾、丬、匕)CHPB
束 (束、木、口、一)SFKH(二)宏拆搬
“宏拆搬”是根据汉字结构特点和“一字多码”原则设计出的单元字的辅助取码方法,指的是拆分出笔划在先的最大字元,剩下的是不可再拆分的单笔划。例如,
匆 (匆、勿、丶、“空格”)CWD_
末 (末、木、一、“空格”)MFH_
开 (开、干、丿、“空格”)KOP_
矛 (矛、予、丿、“空格”)MVP_
丸 (丸、九、丶、“空格”)WJD_
目 (目、日、一、“空格”)MRH
公 (公、么、\、“空格”)OMN_
中 (中、口、丨、“空格”)ZRS_
曲 (曲、由、丨、“空格”)QYS_
酉 (酉、西、一、“空格”)YXH_
鸟 (鸟、乌、丶、“空格”)NWD_
刃 (刃、刀、丶、“空格”)RDD_附1知音码方案中8个常用部首的联想约定
山→D,从“刀山”或“大山”,核心字“刀”或“大”(词联想)。
石→P,从“磐石”或“坚如磐石”,核心字“磐”(词联想)。
氵→U,从“污水”的“污”的发音(词音联想)或从英语字母“U”联想
“油水”。(包括“”)
扌→A,从“挨打的手”,核心字“挨”(词联想)
纟→L,从“绿丝绦”,核心字“绿”,(名句碧玉妆成一树高,万条垂下
绿丝绦,不知细叶谁裁出,二月春风似剪刀。)
木→F,从“枫木”,核心字“枫”(词联想)。
讠→I,“讠”(言字旁)形近似1的小写“1”(字形联想)。
虫→Q,从“蛆虫”,核心字“蛆”(词联想)附2知音码方案中笔划字元的约定
“竖”用“I”表示,取码元的形态相似性
“点”D,包括“撇点”;
“撇”P,包括“横撇”;
“提”T,包括“竖提”;
“钩”G,包括“横钩”、“竖钩”、“斜勾”等;
“折”Z,包括所有带“折”的笔划,(有“弯”的除外),如“横折”、
“竖折”、“撇折”、“横折钩“等。
“弯”W,包括所有带“弯”的笔划,如“竖弯”、“竖弯钩”、“横折
弯钩”等;附3知音码方案中的其它约定(1)“盖”,码元“G”所有带“宀”的组合,如
等。(2)衣字底,码元“Y”(3)“儿”,码元“E”含
、和短长两笔的组合,如
等。(4)码元“X”表示两笔交叉的笔划组合,如“十、
、”等。附4知音码方案中根据约定俗成读法来确定码元的笔划组合 “主”青字头 码元“Q” “”皮字头 码元“P” “耂”老字头 码元“L”附5《新编小学生字典》(人民教育出版社出版)部首读法(其它与常用字相
同的部首见原书)
部首 读法核心字 码元
一 横 横 H
丨 竖 竖 I (见附)
丿 撇 撇 T
丶 点 点 D
匚 三框框 K
卜卜 卜 B(含
)
刂 立刀旁 刀 D
冂 同字框 框 E(包括
)
亻 单人旁 人 R
八 八 八 B(含
)
勹 包字头 包 B
几 几 几 J(含
)
亠 文字头 文 W
冫 两点水 水 U(见附1)
冖 秃宝盖 盖 G
讠 言字旁 言 I(见附
卩 单耳旁 耳 F(含“已”,
阝 左耳旁 耳 E
阝 右耳旁 耳 F
廴建字旁建J
凵凶字框框K
刀刀刀D(含“ク”*)
厶厶厶S
艹草字头草C
开字底开K
小小小X(含
*和
**)
扌提手旁手A(见附1)
口方框儿框K
彳双人旁人R
彡三撇 撇P
犭反犬旁犬Q
夂折文 文W
饣食字旁食S
忄竖心旁心X(含“”*)
字旁
P(含“丬”***)
氵三点水水U(见附1)
宀宝盖 盖6
辶走之 走Z
ヨ寻字头寻X(含
*)
己己己J(含“巳”、“巳”*)
出字头出C(含
*)
幺幼字旁幼Y
纟绞丝旁绿L(见附1)
巛三拐 拐G
攴敲字旁敲Q
水水水U(含
*)(见附1)
牛牛字头/旁 牛N(含
*)
攵反文旁文W
爪爪字头爪Z(含
*)
灬四点底点D
礻示字旁示S
肀聿聿V(含
*)
钅金字旁金J
疒病字旁病B
衤衣字旁衣Y
疋疋疋P(含
*)
虎字头虎H
羊羊羊Y(含
*)
糸系系X
髟髦字头髦M
*各类字典的约定。
**知音码方案的约定
***《新华字典》和《现代汉语词典》的约定
权利要求
1、一种用字元读音的首字母作为编码的码元、标准码长为四码、并利用计算机键盘的26个字母键作为编码基本单位输入键的汉字编码技术,其特征是根据①汉字总量的有限性和编码资源丰富性特点,②汉字天然基本部件的多样性和不确定性的特点,以及③这些基本部件的规范或约定俗成的读音本身所具有的区分和分类的特性,并以公众在汉字认知过程中逐步习得的字音和字形结构知识为基础,合理利用26个字母形成的编码资源,接受对部件切分和拆分的的多样性,减少编码操作的规定性。
2、根据权利要求1所述的编码技术,其特征是一字多码和动态取码。
3、根据权利要求1所述的编码技术,其特征是字元是编码的基本单位,它包括整字字元,成字字元(可读字或变形的可读字),部首字元(符合规范的偏旁和部首)和笔划字元(点、横、竖、撇、捺、提、钩、折、弯)。
4、根据权利要求1所述的编码技术,其特征是用指定的字母作为离散的或切分出的、既不属于偏旁部首、又没有约定俗成读音的笔划组合的码元。
5、根据权利要求1所述的编码技术,其特征是用指定的字母作为读音首字母是撮口呼元音ü的字元的码元。
6、根据权利要求1所述的编码技术,其特征是字母Z,C,S分别表示ZH,CH,SH。
7、根据权利要1,2,3,4,5和6所述的编码技术,其特征是实行动态键盘。
全文摘要
本发明涉及码长为四码、字元读音首字母作为码元的汉字编码技术,其特征在于:根据汉字总量的有限性和编码资源丰富性,天然部件的多样性和不确定性以及这些部件规范的或约定俗成的读音自身所具有的区分和分类特性,合理利用26个字母所形成的编码资源,承认并接受对部件切分和拆分的多样性,减少编码操作的规定性,并通过以“一字多码,动态取码”为核心的综合措施,使计算机汉字编码真正达到重码少,“易学、易记、易用”的目的。
文档编号G06F3/023GK1182232SQ9511602
公开日1998年5月20日 申请日期1995年10月7日 优先权日1995年10月7日
发明者孙鸿仁 申请人:孙鸿仁
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1