汉字节码及其键盘的制作方法

文档序号:6411933阅读:313来源:国知局
专利名称:汉字节码及其键盘的制作方法
技术领域
本发明汉字节码及其键盘涉及汉字信息处理技术领域,适用于数字信息传输、微机电脑、资料检索等各种需要汉字编码的领域。
汉字素以结构复杂、形象独特著称,由于字种数量大、同音字多等原因,汉字编码输入技术一直制约着我国计算机应用水平的提高。目前在汉字信息处理技术领域中存在着数百种汉字编码方案,这些编码方案可以分为形码、音码、音形码(或形音码)三大类型。
形码以王永民先生发表地五笔字形方案最为典型,因其重码率低、足四码自动见字、可以高速盲打而在专职录入人员中通行,但五笔字型需以一百二十多个基本字根的键位记忆和较复杂的汉字拆分规则为基础,普通汉字录入人员难于掌握、不能牢记;同时因汉字笔形的限制,造成简码不能最大限度覆盖高频常用字,大量常用词汇不能进入空白码位等,成为该方案的不足。
音码中最有影响的是中国科学院计算所开发的联想汉字系统,其显著的优点在于简单、大众化、与推广普及普通话的要求一致,但同音重码字太多,看屏拣字降低了文稿输入的效率,这也是音码类方案共有的不足之处,虽然也出现过在音码中加进声调号、顺序号、引导号等改进方案,却并未能从根本上解决问题,反而增加了输入的复杂性。
音形码(或形音码)以周志农先生制作的自然码输入系统最为普及,该输入法以与电子工业部第六研究所开发的CC-DOS中的拼音输入法相近的双拼音码为基础,综合多种优秀编码方案的设计思想创制而成,具有较高的普及性。但该编码方案的音码部分未能处理声调信息,形码部分规则不够明晰,对一百六十八组形义部件的代码处理沿袭了字根键位记忆方式,码根也不够简洁,学习仍有难度。同时因僻字检码困难使专业性较差,故仍不能取代五笔字形。
最后就现有技术的总体而言,一般性地还存在着过多注重缩短编码长度的趋向。虽然在汉字编码输入技术发展的初期,码长短作为汉字键盘输入的一项突出优点曾为个人计算机在我国普及起了极大的推动作用,但过短的码长造成汉语汉字内在信息的简化利用,汉字编码领域至今流派纷呈难于统一的重要原因就是各家编码均在几乎相同的层次上利用汉字信息,因而不能更完整地反映汉语汉字丰富的信息内涵,结果使得汉字编码与人们表达思想的习惯难于一致,最终反而降低了编码的实用性、缩小了编码的适用范围。事实上,编码的实用性不应被单纯诠释为对特殊录入形态的满足,而是应服从于编码输入技术发展的自身规律,即满足特殊录入要求的编码形式只不过是更完整的编码中不同的约束条件下可以实现的特别功能而已。
总之,汉字编码输入技术的发展已使人们认识到,设计出能从更高层次上概括和表达汉语汉字内在信息规律的汉字编码方案,在我国已成为提高计算机应用水平的技术关键。本发明汉字节码及其键盘的目的即在于从汉字信息处理技术韵更高层次上设计编码方案来满足不同类型汉字录入人员对汉字健盘输入的需要;使编码可适用于如作字典查字法等其它需要汉字编码的领域;实现编码的全拼音化形式,包括可以按一定的规则为编码注音。
本发明汉字节码及其键盘的特点在于汉字、词语的输入可由原型码和特型码两套编码来实现,原型码考虑到在语言文字学、信息技术及计算机科学等领域存在着一定程度的需求,以全拼音化形式作为表达手段,是一套汉语汉字信息处理完全字母化的、具有可读性的编码方案;在原型码的基础上,通过特征信息的组合使用提供多种特型码来满足不同类型汉字录入人员对编码的需要。原型码和特型码使用同一种汉字字型分类方法和汉字拆分方法,规则明晰简单,没有字根键位记忆负担。
同时应当指出的是,目前个人计算机(PC机)所使用的通用标准键盘的打字机键区是直接从英文机械打字机上移用过来的,其字母键位布置以英语拼音规律为基础,但是汉语拼音规律与英语拼音规律之间有着显著差异。例如,对国家标准《GB2312-80信息交换用汉字编码字符集(基本集)》中所收录的6763个汉字的统计表明,汉语拼音的复韵母使用频度很高(达65%),且汉语拼音具有明显的声韵密集区,如组合声母Zh、Ch、Sh的使用频度达到14%,韵母I的使用频度则高达40%,而单韵母I和以韵母I起头与声母拼合的使用方式又在其中占到79%的份额等。因此,为与本发明的编码技术相适应,设计了节码特型键盘和节码专用键盘。
本发明汉字节码及其键盘的构思是将中华人民共和国国家标准《GB2312-80信息交换用汉字编码字符集(基本集)》中所收录的6763个汉字作为本集,将《信息交换用汉字编码字符集第二辅助集》和《信息交换用汉字编码字符集第四辅助集》两个续集中大量的汉字作为外集,通过字节的扩展过程及代码排列组合形式的变化在本集和外集中形成多层次汉字集合,进而逐次获得集合中各个汉字的编码作为原型码;通过构件分类与笔划数组合、单笔划组合、单笔划与字型组合、韵调组合,提供多种特型码来满足不同类型汉字录入人员尤其是专职录入人员对编码的需要。用这种方法获得的汉字编码称为“节码”。编码方案如下。
一、原型码方案汉字节码的原型码形式为“音符、声调符、形符”。
1、节码拼音方案这是一种半压缩式的汉语拼音方案修正方案。所用的注音符号为( )中是汉语拼音,[ ]中是国际音标。
(1).节码字母表在汉语拼音字母表中增加一个发音字母“Λ”(小写形式为“Λ”),用二十七个记音字符组成节码字母表。字母Λ的发音为[eη]。字母表如下
Aa,Bb,Cc,Dd,Ee,Ff,Gg,Hh,Ii,Jj,Kk,Ll,Mm,Nn,
Oo,Pp,Qq,Rr,Ss,Tt,Uu,Vv,Ww,Xx,Yy,Zz,ΛΛ
(2).声母字母与汉语拼音方案的声母字母相同,使用方法也与汉语拼音方案中声母的使用方法相同。字母Y、字母W用作声母时,自编码的标音字部起与其它声母等效使用。
(3).韵母表将汉语拼音的韵母“”用字母“v”代替,“ng”形式用字母“Λ”代替,“iou”、“uei”和“uen”形式使用“iu”、“ui”和“un”形式,并将字母“N”、“Λ”和“L”作为配韵母纳入韵母表中,它们的字母音分别为[en]、[eη]和[]。节码拼音韵母表如表1所示。
2、字节分配形式全码的码位格式如

图1所示。
其中前五个字节构成节码的音符,它由节码拼音的声母与韵母组成;
字节[6]为声调符代码,用来表示汉语拼音的五种声调,称为“声调码”;
字节[7]为首件分类码或单笔划代码,它取自合体字拆分后的第一位次构件或独体字的首笔单笔划,称为“首部码”;
字节[8]为字型码,用来表示该汉字的字型特征;
字节[9]为次件分类码或单笔划代码,它取自合体字拆分后的第二位次构件或独体字的右上方单笔划,称为“次部码”;
字节[10]为末件分类码或单笔划代码,它取自合体字拆分后的第三位次构件或独体字的右下方单笔划,称为“末件码”;
格式中由“音符、声调符”构成的前半段称为“字音段”,由“首部码、字型码、次部码、末件码”构成的后半段称为“字形段”。
3、声调码及声调号将汉语拼音的阴平、阳平、上声、去声、轻声等五种声调依次编号并各以一个字母作为代码,声调编号称为声调号、声调代码称为声调码,声调码及声调号如表2所示。
4、汉字单笔划和构件分类
将汉字的各种单笔划按笔形特征分为五类并编号,每类用一个字母作代码,称为单笔码。单笔划编号称为单笔号。单笔码及单笔号如表3所示。
把汉字拆成若干构件并分类和编号,每一类用一个字母作代码,称为分类码。构件编号称为分类号。构件共分为五种类型,分类码及分类号如表4所示。
5、字型码及字型号根据汉字部件间的相互关系将汉字分为上下型、左右型、独体型、包围型共四种类型并编号,每一类用一个字母作代码,称为字型码、字型号。字型码及字型号如表5所示。
6、编码基本规则
(1).汉字部类将31个规定音节的字母或字母串赋予31个汉字(其中包括一个多音字“阿”)作为它们的代码,组成形式为“韵母”的定韵字部,这些定韵字就是节码拼音韵母表中的注音汉字。定韵字之外的“韵母、声调符”型汉字组成韵声字部。将节码的声母与韵母以拼音方式结合成“声母、韵母”形式的字母串赋予一批阴平声调的汉字组成标音字部。在音符之后加上声调码赋予一批汉字组成“音符、声调符”形式的音声字部。剩余汉字的编码形式为“字音段、字形段”,它们构成了音形字部。
(2).赋码过程编码自定韵字部开始,以后按码位格式逐字节扩展,经韵声字部、标音字部、音声字部、音形字部四部后逐个、逐音地获得本集中6763个汉字的编码,总的原则是在充分发挥编码效力的基础上相对常用字优先赋码。例如以字母串“Jirme”起头的汉字集合有“计、记、悸、剂、济、洎”诸字,则它们的原型码分别为Jirmet,Jirmes,Jirme,Jirmek,Jirmem,Jirmep。在赋码过程中,那些不再具有编码需要的字母组合形式则终止使用。
(3).汉字字型分类方法只有一个构件的汉字,属独体字类型,如“册、米、尺、用、自、小、田、乐”等。合体字由两个以上部件组成,部件由一个或多个构件组成。部件间的相对位置为上下关系时属上下型汉字,为左右关系时属左右型汉字,为嵌套关系时属包围型汉字。“品字型”归入上下字型中。汉字部件间的关系呈分散贯通汉字的形式,如“湖”字由“氵、古、月”三个部件组成,左右型;“超”字由“走、召”两个部件组成,包围型;“警”字由“敬、、
口”三个部件组成,上下型。对上下型和左右型汉字以横向或纵向分散贯通汉字为准,纵向或横向难以确定时由书写顺序决定,如“照”“琵”属上下型汉字、“靛”“能”属左右型汉字。
嵌套关系是指单笔划、构件在两侧以上有另一单笔划或另一构件的笔划存在,如“刁、火、式、爽、乘、属”等,但点划和短折不视为一侧、中间起笔的撇划对处在其下方的构件不形成包围,如“实、卖、春、友、态”等属上下型汉字,而“在、存、局、区、进、建、式、爽、乘、属”等属包围型汉字。
(4).汉字拆分方法(汉字字形以《印刷通用汉字字形表》为准)
单笔划拆分规则
a.单笔划取自汉字或部件左上、左下、右上、右下四个方位。
b.当某方位上单笔划难以确定时,左上左下应取相对首笔划,右上右下应取相对末笔划,如“由”字左上左下右上取“丨”、右下取“一”;
c.构件右上右下方位为嵌套关系时,单笔划应取自内部构件,如“冈”字左上左下取“丨”、右上取“丿”、右下取“
”;
d.当某方位上单笔划空缺或单笔划已经取过时,应虚拟一“竖”划取码,如“弓”字的左下单笔划、“王”字的右上和右下单笔划均取“丨”。
汉字构件拆分规则
a.交叉笔划作为一件、分散的单笔划和嵌套在其它构件中的单笔划应与相邻较紧的、较先的构件一并拆出,如“事、夷、乐、亘、必、火、严”等不拆分,“式”拆为“弋、工”,“斗”拆为“
、十”,“同”拆为“
、口”,“表”拆为“、
”,“老”拆为“十、ナ、匕”等;
b.书写时具有联带关系的分散单笔划以及连续书写成的连接笔划作为一个构件拆出,如“昌”拆为“日、曰”,“付”拆为“亻、寸”,“非”拆为“

”“巷”拆为“艹、
、巳”,而“州、韭、足、巨”等不拆分;
c.三面以上包围着的连接关系应作为一个构件一并拆出,如“某”拆为“甘、木”,“畴”拆为“田、
、寸”,而“角、身”等不拆分;
d.点划除与它笔交叉外均应视作分散关系,如“单”拆为“丷、
”,“辛”拆为“
、干”,“章”拆为“立、日、十”,“豆”拆为“
、”等;
e.对左右型、上下型汉字进行拆分时,构件位次为第一件按书写顺序取第一部件的第一笔顺构件、然后取按字型分类后各部件的第一笔顺构件,以后按书写顺序取最末部件的第二笔顺构件,最后回旋着取汉字角位上尚未取过的构件,并以拆至回旋线路上最后一个角位的构件为限,如“湘”拆为“氵、木、目”,“盆”拆为“八、刀、皿”,“靛”拆为“、宀、疋、月”,“琵”拆为“王、
、匕、王”,“凿”拆为“业、丷、干、凵”,“嘉”拆为“士、口、、力、口”,“喜”拆为“士、口、、口”,“氪”拆为“、十、兄、
”,“鬓”拆为“镸、宀、丘、八、彡”,“骥”拆为“马、
、田、八”,“翰”拆为“十、人、习、十”,“镉”拆为“、
、冂、
”等;
包围型汉字拆分时应转换成相似的左右型或上下型汉字进行,如“馗”拆为“九、、自”,类似左右型;“遨”拆为“
、辶、攵”,类似上下型;
汉字拆分时,上下型汉字中的并列相同构件只取一件,如“器”拆为“口、犬、口”。汉字拆分后分类码不足三个又需消除原型码的重码时,加末部件或首部件右下方单笔划代码来消除重码。
7、外集汉字编码大量的外集汉字在本集的外层扩展编码,扩展方法为
(1).对非重码字,按编码基本规则赋码;
(2).对重码字则加“集位符”区别,集位符代码称为“集位码”。集位码为字母e、a、o,码位在首部码与字型码之间。字母e用于上下型和左右型汉字,字母组合ea、ee发音为[i],字母a、o分别用于包围型和独体型汉字,字母组合au、oo发音为
。[ ]中是国际音标。
8、词语编码词语编码的原则是使编码的发音最接近于普通话语音,方法包括
(1).音符合成法由汉字节码的音符组合而成,如“中国”ZhoΛgguob,“时事”Shibshir,“青年”QiΛgnianb;
(2).形符标识法在音符合成的基础上加上词中某字的首部码,主要用于区分同音词,如“实事”Shibmshir;
(3).近音法,即对于阴平声调的汉字在多数场合直接使用对应的标音字节码组词,如“科学”Kexveb,“新的”Xinde,“波浪”BolaΛr,“很多”Hencdo;
(4).缩短法主要用于常用词和造词,如“文化教育”Wenbjiaor,“特别快车”Terkuair;
(5).拟声法和取声法直接以声母与声调码组合拟音或使用声母,主要用于缩短编码长度,如“计算机”Jrsuanrj,“特级”Trjb,“叽叽嘎嘎”Jjgaga;
9、三十记音表原型码的结构使它具有可读性。它的字音段可按汉语拼音方式发音,字形段可用国际音标注音。字形段中“次部码、末件码”部分按英语的读音习惯发音,由“首部码、字型码”和由“首部码、集位码、字型码”构成的四十个音节的三十种发音按表6所示。
二、节码特型键盘特型键盘是针对目前PC机的通用标准键盘设计成的区位键键盘,用于满足当前使用通用标准键盘的用户输入节码。
图2是节码特型键盘区位键键位。在通用标准键盘上将二十六个字母键中的二十四个和一个标点键“;”按五个构件分类码所在行分为五个区,每区五键,每键各以一个二位数作为区位号,位号由键盘中央向两侧递增,具体区划如下( )中是区位号,十位数为区号、个位数为位号,
点起笔区五键,由字母C(11)、V(12)、B(13)、N(14)、M(15)组成;
横起笔区五键,由字母T(21)、R(22)、E(23)、W(24)、Q(25)组成;
竖起笔区五键,由字母H(31)、J(32)、K(33)、L(34)、;(35)键组成;
撇起笔区五键,由字母Y(41)、U(42)、I(43)、O(44)、P(45)组成;
弯起笔区五键,由字母G(51)、F(52)、D(53)、S(54)、A(55)组成;
使用节码特型键盘既可以输入原型码,又可以输入特型码。当以“;”键代替字母“Λ”时可输入原型码,输入特型码时以区位号所对应的字母键输入。另外两个字母键X键和Z键在输入原型码时作声母键用,在输入特型码时作重码离散键和检索键用。
三、节码专用键盘在键盘的打字机键区以节码拼音字母的键位布置为核心设计成节码专用键盘,各键的排列既可采用通用标准键盘的纵向右斜形式,也可采用纵横向垂直对齐形式。在节码专用键盘上,二十七个节码拼音字母的位置按使用频度(高频字母分别布置于左侧和右侧中部)和汉语拼音规律布阵,反映着汉语的声韵密集区特征,有利于汉字键盘输入时双手手指功能充分发挥。同时在左右两个Alt键的外侧各设置一个功能键左方Piny键用于以字母形式输入原型码,右方Qieh键用于滚动切换特型码输入方式。
节码专用键盘键位如图3所示。在专用键盘上将二十七个字母键中的二十五个按五个构件分类码所在行分为五个区,每区五键,每键各以一个二位数作为区位号,位号由键盘中央向两侧递增,具体区划如下( )中是区位号,十位数为区号、个位数为位号,
点起笔1区五键,由字母M(11)、O(12)、E(13)、U(14)、F(15)组成;
横起笔2区五键,由字母L(21)、N(22)、A(23)、Λ(24)、T(25)组成;
竖起笔3区五键,由字母K(31)、X(32)、Z(33)、V(34)、D(35)组成;
撇起笔4区五键,由字母J(41)、B(42)、I(43)、Q(44)、P(45)组成;
弯起笔5区五键,由字母G(51)、R(52)、C(53)、H(54)、S(55)组成。
使用节码专用键盘既可以输入原型码,又可以输入特型码,输入原型码时直接以键面字母输入,输入特型码时以区位号所对应的字母键输入。另外两个字母键Y键和W键在输入原型码时作声母键用,在输入特型码时作重码离散键和检索键用。
四、特型码方案节码综合体现了汉字语音、字形、笔形的内在规律,能在计算机上实现多种多样的输入输出方式,而且除它的原型码因具有足够短的平均码长适合普通用户外,还能根据不同用户群体的需要以不同的约束条件转换成多种特型码,亦即通过特征信息的组合使用就能将现有技术中形码、音码、音形码(或形音码)等编码型式作为特例从原型码中演化出来。本发明的特型码有构件码、笔形码、全压缩码,以及不同的声形或形声输入方式、音形或形音输入方式、数字式输入方式,利用软件技术用户还可以自定义编码。
特征信息组合使用的方法是将两种(个)信息的编号组合起来作为区位号使用,此区位号与节码专用键盘或节码特型键盘的区位号相对应即可获得相应的字母作为组合信息的代码。特征信息组合的方式包括
构件分类号与构件笔划数组合以构件分类号为区号、构件笔划数减一为位号(单笔划“一”和“乙”的位号为1)组合成区位号后将汉字构件分配到对应的字母键上,在节码特型键盘上布置汉字构件的例子如图4所示。例如点起笔区C键区位号11(在专用键盘上对应于M键,以下括号中均指专用键盘上的对应字母键)布置“冫、亠、冖”等两笔划构件、V键区位号12(O键)布置“氵、广、宀”等三笔划构件、B键区位号13(E键)布置“户、文、为”等四笔划构件、N键区位号14(U键)布置“疒、立、主”等五笔划构件、M键区位号15(F键)布置“良、
、米”等六划及六划以上构件;又如撇起笔区Y键区位号41(J键)布置“人、亻、八”等两笔划构件、U键区位号42(B键)布置“彡、千、川”等三笔划构件、I键区位号43(I键)布置“牛、斤、月”等四笔划构件、O键区位号44(Q键)布置“鸟、白、禾”等五笔划构件、P键区位号45(P键)布置“身、自、
”等六划及六划以上构件等。
汉字单笔划代号与字型号组合由汉字某方位的单笔划代号与字型号组合成区位号(以单笔号为区号、字型号为位号)可获得“笔型码”。以“汉字左上方单笔划、字型号”组合成的笔型码称为“首型码”,如“码”字左上方单笔划“一”的单笔号为2、属左右型汉字字型号为2,组合成区位号22即在特型键盘上获得首型码字母“R”,在专用键盘上则对应于“N”键。
两个单笔划代号组合由汉字或者汉字部件的两个单笔号组合成区位号可获得笔形组合码(前一个单笔号为区号、后一个单笔号为位号)。“左笔码”由汉字或部件“左上方单笔划代号、左下方单笔划代号”组成,“右笔码”由汉字或部件“右上方单笔划代号、右下方单笔划代号”组成,由“第二位次构件首笔、第三位次构件首笔”则组成“首笔码”。
韵母分组号与声调号组合将节码韵母表中的韵母分为五组并编号,以分组号为区号、声调号为位号获得“韵调码”。韵母分组及编号如表7所示。
韵母分组是以韵母使用频度为依据兼顾易分易记进行的,4组中是除字母I以外的单韵母,2组中是含有字母E的双字韵母及单韵母I,1组中是含有字母A的双字韵母,5组中是剩余的双字韵母,3组中是三字韵母。
1、构件码码长最多为四码。
取构件的键位字母组成编码,按汉字拆分后的构件位次将各构件代码依次称为首件码、次件码、三件码、四件码。
四件以上的字编码形式为首件码、次件码、三件码、四件码;
三构件汉字的编码形式为首件码、次件码、三件码、汉字右笔码;
两构件汉字的编码形式为首件码、次件码、汉字右笔码;
独体汉字的编码形式为首件码、汉字右笔码;
双字词的编码形式为第一字的前两码、第二字的前两码;
三字词的编码形式为第一字、第二字的首件码、第三字的前两码;
四字词的编码形式为取各字的首件码组成编码;
多字词语的编码形式为取前三字和最末一字的首件码组成编码。
汉字、词语均以编码加空格键输入,足四码时若无重码即自动上屏。各码位的重码字,以空格键输入常用的一个、以重码离散键“X”或“Y”键加空格键输入次常用的一个,剩余重码字以数字或游标方式选中。
系统也支持以声形或形声方式、音形或形音方式输入构件码,用声母与构件码合成编码时实现声形或形声方式、用声母和韵调码与构件码合成编码时实现音形或形音方式
字的声形方式为声母加汉字构件码的前三码(独体汉字为前两码);
双字词的声形方式为第一字声母、首件码加第二字声母、首件码;
三字词的声形方式为第一、第二字声母加第三字声母、首件码;
四字词的声形方式为取各字的声母组成编码;
多字词语的声形方式为取前三字和最末一字的声母组成编码。
声形方式所用的声母指原型码的第一个字母。
将声形方式中的声母置于编码的末尾时则可实现形声方式。
在声形方式中的声母之后加上韵调码后与构件码的前二码组合,又可以音形方式或形音方式实现输入。
2、笔形码码长最多为四码。
四部件以上的字编码形式为首部左笔码、次部左笔码、三部左笔码、四部左笔码;
三部件汉字的编码形式为首部左笔码、次部左笔码、三部左笔码、汉字右笔码;
两部件汉字的编码形式为首部左笔码、次部左笔码、汉字右笔码;
独体汉字的编码形式为汉字左笔码、汉字右笔码;
双字词的编码形式为第一字的前两码、第二字的前两码;
三字词的编码形式为第一字、第二字的头码、第三字的前两码;
四字词的编码形式为取各字的头码组成编码;
多字词语的编码形式为取前三字和最末一字的头码组成编码。
汉字、词语均以编码加空格键输入,足四码时若无重码即自动上屏。各码位的重码字,以空格键输入常用的一个、以重码离散键“X”或“Y”键加空格键输入次常用的一个,剩余重码字以数字或游标方式选中。
系统也支持以声形或形声方式、音形或形音方式输入笔形码,用声母与笔形码合成编码时实现声形或形声方式、用声母和韵调码与笔形码合成编码时实现音形或形音方式
字的声形方式为声母加汉字笔形码的前三码(独体汉字为前两码);
双字词声形方式为第一字声母、首部左笔码加第二字声母、首部左笔码;
三字词的声形方式为第一、第二字声母加第三字声母、首部左笔码;
四字词的声形方式为取各字的声母组成编码;
多字词语的声形方式为取前三字和最末一字的声母组成编码。
声形方式所用的声母指原型码的第一个字母。
将声形方式中的声母置于编码的末尾时则可实现形声方式。
在声形方式中的声母之后加上韵调码与笔形码的前二码组合,又可以音形方式或形音方式实现输入。
3、全压缩码全压缩码是原型码特征信息的全组合形式。
合体字的全压缩码形式为原型码首字母、韵调码、首型码、首笔码;
独体字的全压缩码形式为原型码首字母、韵调码、首型码、汉字右笔码;
双字词的编码形式为第一字的前两码、第二字的前两码;
三字词的编码形式为第一字、第二字的头码、第三字的前两码;
四字词的编码形式为取各字的头码组成编码;
多字词语的编码形式为取前三字和最末一字的头码组成编码。
汉字、词语均以编码加空格键输入,足四码时若无重码即自动上屏。各码位的重码字,以空格键输入常用的一个、以重码离散键“X”或“Y”键加空格键输入次常用的一个,剩余重码字以数字或游标方式选中。
4、数字式输入方式各种特型码都可以相应区位号表示为数字形式(声母直接换成相应区位号,专用键盘上的Y键、W键和特型键盘上的X键、Z键区位号分别为66、77)来实现键盘输入。
5、检索键空余字母键Z(或W键)在每种特型码中均可用作检索。汉字输入时若录入人员遇到字音、笔形、构件信息模糊的情形,此时对不清楚的码位以Z键(或W键)代替,系统便提出全部其余码位相同的字词供检索。
本发明的优点原型码与文稿输入时的思维一致,可作为一种汉语拼音文字使用,适用于各种需要汉字编码的领域,无重码,不需字根记忆,记音功能更有助于记忆;特型码编码力强,具有高度的实用性,适用于多种类型的汉字录入人员。本发明规则明晰简单,易学易用,有助于对汉字信息规律认识的提高,有利于汉字编码技术和计算机应用技术的深度开发。
图1是原型码全码位格式。
图2是节码特型键盘区位键键位。
图3是节码专用键盘键位。
图4是特型键盘汉字构件示意图。
原型码编码实施例以编码加空格键输入。如在音形字部中,以字母串“Xigpe”开头的汉字集合有“稀、饻、锡、僖、鼷、牺、歙、郗、欷”诸字,它们的原型码分别为Xigpe、Xigpem、Xigpek、Xigpetk、Xigpeps、Xigpet、Xigpep、Xigpes、Xigpepp。键入Xigpetk后加空格键即输入“僖”字。
特型码编码实施例(以特型键盘举例)
例1.独体字“重”原型码ZhoΛrpo;构件码PU,声形(形声)式ZPU(PUZ),音形(形音)式ZSPU(PUZS);笔形码UK,声形(形声)式ZUK(UKZ),音形(形音)式ZSUK(UKZS);全压缩码ZSIJ,全压缩码数字方式77544332。
例2.独体字“垂”原型码Chuibpo;构件码PUX,声形(形声)式CPU(PUC),音形(形音)式CFPU(PUCF);笔形码UKX,声形(形声)式CUK(UKC),音形(形音)式CFUK(UKCF);全压缩码CFIJ,全压缩码数字方式11524332。
例3.两部件汉字“明”拆为“日、月”,原型码MiΛbke;构件码ⅪQ,声形(形声)式MKIQ(KIQM),音形(形音)式MFKI(KIMF);笔形码KIQ,声形(形声)式MKIQ(KIQM),音形(形音)式MFKI(KIMF);全压缩码MFJP,全压缩码数字方式15523245。
例4.三部件汉字“琳”拆为“王、木、木”,原型码Linbtet构件码EEEH,声形(形声)式LEEE(EEEL),音形(形音)式LFEE(EELF);笔形码RWWH,声形(形声)式LRWW(RWWL),音形(形音)式LFRW(RWLF);全压缩码LFRR,全压缩码数字方式34522222。
例5.两部件汉字“鞯”拆为“廿、艹、
、子、
”,原型码Jiangtet;构件码ERRF,声形(形声)式JERR(ERRJ),音形(形音)式JHER(ERJH);笔形码REJ,声形(形声)式JREJ(REJJ),音形(形音)式JHRE(REJH);全压缩码JHRR,全压缩码数字方式32312222。
例6.双字词“科学”拆为“禾、
、冖”,原型码Kexveb;构件码OCVC,声形式KOXV,音形式KYXR;笔形码OVBB,声形式KOXB,音形式KYXR;全压缩码KYXR,全压缩码数字方式33416622。
例7.三字词“计算机”拆为“讠、
、木、几”,原型码Jrsuanrj;构件码CUEY,声形式JSJE,音形式JSJT;笔形码MUWI,声形式JSJW,音形式JSJT;全压缩码JSJT,全压缩码数字方式32543221。
例8.四字词“中国人民”拆为“中、口、人、
”,原型码ZhoΛgguobRenbminb;构件码KJYF,声形式ZGRM,音形式ZGRM;笔形码JKIA,声形式ZGRM,音形式ZGRM;全压缩码ZGRM,全压缩码数字方式77512215。
表1
表2
表3
表4
表5
表6
权利要求
1.一种汉字节码的输入方法,其特征在于汉字、词语的输入可由原型码和特型码两套编码实现,两套编码使用同一种汉字字型分类方法和汉字拆分方法。
2.根据权利要求1所述的汉字节码的输入方法,其特征在于原型码由字音段和字形段组成;字音段由节码拼音的声母、韵母组成音符后与声调符共同构成,字形段由首部码、字型码、次部码、末件码构成;外集汉字的字形段由首部码、集位码、字型码、次部码、末件码构成。
节码拼音是汉语拼音的一种修正方案,它以一个字母代替汉语拼音韵母的“ng”形式,这个字母的大写形式为“Λ”、小写形式为“Λ”;以字母组合形式“el”代替汉语拼音韵母的“er”形式;配韵母“N”、“Λ”和“L”的字母音分别为[en]、[eη]和[]。
原型码编码自定韵字部开始,以后按码位格式逐字节扩展,经韵声字部、标音字部、音声字部、音形字部四部后获得本集中所有汉字的编码,以及外集中部分汉字的编码;大量外集汉字的编码则通过使用集位符获得;词语编码根据音符合成法、形符标识法、近音法、缩短法、拟声法和取声法获得。
3.根据权利要求1所述的汉字节码的输入方法,其特征在于原型码的声调码分别以字母G、B、C、R、H表示汉语拼音的阴平、阳平、上声、去声、轻声五种声调。
首部码、次部码、末件码是汉字构件分类码和汉字单笔划代码,分别以字母M表示单笔划点及以点起笔的汉字构件;以字母T表示单笔划横及以横起笔的汉字构件;以字母K表示单笔划竖及以竖起笔的汉字构件;以字母P表示单笔划撇及以撇起笔的汉字构件;以字母S表示单笔划弯及以弯起笔的汉字构件。
字型码分别以字母A、E、O、U表示上下型、左右型、独体型、包围型四种汉字类型;
集位码分别以字母E、A、O表示。
原型码的字音段按汉语拼音方式发音,字形段中“次部码、末件码”部分按英语的发音习惯发音,由“首部码、字型码”和由“首部码、集位码、字型码”构成的音节按三十记音表发音。
4.根据权利要求1所述的汉字节码的输入方法,其特征在于特型码有构件码、笔形码、全压缩码,以及不同的声形和形声输入方式、音形和形音输入方式、数字式输入方式;特型码以信息组合代码来实现汉字、词语的输入,信息组合使用的方法是将两种(个)信息的编号组合起来作为区位号使用,此区位号与节码专用键盘和节码特型键盘的区位号相对应可获得相应的字母作为组合信息的代码,信息组合的方式包括构件分类号与构件笔划数组合、汉字单笔划代号与字型号组合、两个单笔划代号组合、韵母分组号与声调号组合。
构件码码长最多为四码,四件以上的字以首件码、次件码、三件码、四件码输入,三构件汉字以首件码、次件码、三件码、汉字右笔码输入,两构件汉字以首件码、次件码、汉字右笔码输入,独体汉字以首件码、汉字右笔码输入,双字词以第一字的前两码、第二字的前两码输入,三字词以第一字、第二字的首件码、第三字的前两码输入,四字词以各字的首件码输入,多字词语以前三字和最末一字的首件码输入;用声母与构件码合成编码时实现声形和形声方式、用声母和韵调码与构件码合成编码时实现音形和形音方式。
笔形码码长最多为四码,四部件以上的字以首部左笔码、次部左笔码、三部左笔码、四部左笔码输入,三部件汉字以首部左笔码、次部左笔码、三部左笔码、汉字右笔码输入,两部件汉字以首部左笔码、次部左笔码、汉字右笔码输入,独体汉字以汉字左笔码、汉字右笔码输入,双字词以第一字的前两码、第二字的前两码输入,三字词以第一字、第二字的头码、第三字的前两码输入,四字词以各字的头码输入,多字词语以前三字和最末一字的头码输入;用声母与笔形码合成编码时实现声形和形声方式、用声母和韵调码与笔形码合成编码时实现音形和形音方式。
全压缩码以原型码首字母、韵调码、首型码、首笔码输入合体字,以原型码首字母、韵调码、首型码、汉字右笔码输入独体字,以第一字的前两码、第二字的前两码输入双字词,以第一字、第二字的头码、第三字的前两码输入三字词,以各字的头码输入四字词,以前三字和最末一字的头码输入多字词语。
特型码都可以相应区位号表示为数字方式实现汉字、词语的输入。
5.根据权利要求1所述的的汉字节码的输入方法,其特征在于只有一个构件的汉字,属独体字类型。
合体字由两个以上部件组成,部件由一个或多个构件组成;部件间的相对位置为上下关系时属上下型汉字,为左右关系时属左右型汉字,为嵌套关系时属包围型汉字,“品字型”归入上下字型中;汉字部件间的关系呈分散贯通汉字的形式,对上下型和左右型汉字以横向或纵向分散贯通汉字为准,纵向或横向难以确定时由书写顺序决定;嵌套关系指单笔划、构件在两侧以上有另一单笔划或另一构件的笔划存在。
汉字拆分时单笔划取自汉字和部件左上、左下、右上、右下四个方位,当某方位上单笔划难以确定时,左上左下取相对首笔划,右上右下取相对末笔划;构件右上右下方位为嵌套关系时,单笔划取自内部构件;当某方位上单笔划空缺或单笔划已经取过时,虚拟一“竖”划取码。
汉字构件拆分的方法是交叉笔划作为一件、分散的单笔划和嵌套在其它构件中的单笔划与相邻较紧的、较先的构件一并拆出,书写时具有联带关系的分散单笔划和连续书写成的连接笔划作为一个构件拆出,三面以上包围着的连接关系作为一个构件一并拆出,点划除与它笔交叉外均应视作分散关系;左右型、上下型汉字构件位次为第一件按书写顺序取第一部件的第一笔顺构件、然后取按字型分类后各部件的第一笔顺构件,以后按书写顺序取最末部件的第二笔顺构件,最后回旋着取汉字角位上尚未取过的构件,并以拆至回旋线路上最后一个角位的构件为限,包围型汉字拆分时转换成相似的左右型或上下型汉字进行。
6.一种汉字节码输入方法的节码特型键盘,其特征是在通用标准键盘上将二十六个字母键中的二十四个和一个标点键按五个构件分类码所在行分为五个区,每区五键,每键各以一个二位数作为区位号,位号由键盘中央向两侧递增,具体区划是C(11)、V(12)、B(13)、N(14)、M(15),T(21)、R(22)、E(23)、W(24)、Q(25),H(31)、J(32)、K(33)、L(34)、;(35),Y(41)、U(42)、I(43)、O(44)、P(45),G(51)、F(52)、D(53)、S(54)、A(55);使用节码特型键盘既可以输入原型码,又可以输入特型码。
7.一种汉字节码输入方法的节码专用键盘,其特征是键盘的打字机键区二十七个节码拼音字母的位置按使用频度和汉语拼音规律布阵,各键的排列既可采用纵向右斜形式,也可采用纵横向垂直对齐形式;在左右两个Alt键的外侧各增设一个功能键Piny键和Qieh键;键盘上二十七个字母键中的二十五个按五个构件分类码所在行分为五个区,每区五键,每键各以一个二位数作为区位号,位号由键盘中央向两侧递增,具体区划是M(11)、O(12)、E(13)、U(14)、F(15),L(21)、N(22)、A(23)、Λ(24)、T(25),K(31)、X(32)、Z(33)、V(34)、D(35),J(41)、B(42)、I(43)、Q(44)、P(45),G(51)、R(52)、C(53)、H(54)、S(55);使用节码专用键盘既可以输入原型码,又可以输入特型码。
全文摘要
本发明公开了一种汉字节码及其键盘,涉及汉字信息处理技术领域。主要技术特征是汉字、词语的输入可由原型码和特型码两套编码来实现,两套编码使用同一种汉字字型分类方法和汉字拆分方法,规则明晰简单,易学易用,没有字根键位记忆负担。适用于数字信息传输、微机电脑、资料检索等各种需要汉字编码的领域,能够满足多种类型汉字录入人员的需要。有助于对汉字信息规律认识的提高,有利于汉字编码技术和计算机应用技术的深度开发。
文档编号G06F3/023GK1173662SQ9710736
公开日1998年2月18日 申请日期1997年2月21日 优先权日1996年3月4日
发明者郭杰 申请人:郭杰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1