字母化的汉字输入法及其键盘的制作方法

文档序号:6497310阅读:286来源:国知局
专利名称:字母化的汉字输入法及其键盘的制作方法
技术领域
本发明涉及一项汉字信息处理技术。
现有的汉字编码技术可以分为两大类,第一类是面向广大非专业录入人员的普及型方案,如拼音、自然码、智能ABC等,这类方法易学、易记,但是输入效率不高。另一类是面向广大专业人员的快速型方案,有五笔字型、郑码等,这类方法重码率低,适合快速输入但其编码规则比较复杂,不容易学。目前我国汉字输入依然存在着这样一个“易学的输入不快,输入快的不易学”的局面。
本发明的目的是为了解决上述问题,提供一种字母化的汉字输入方法。这种输入方法的每组基本部件的形状相似或有意义上的联系,并通过形义音与电脑输入键盘的英文字母和标点符号键相对应;同时编码过程中采取了省单笔、相似相配、笔画共享等方法,编码更为直观,因而有利于学习和记忆。本输入法的静态平均码长可低于3.4键每字,部件在键盘上的分布符合其动态频率的分布,一级汉字的重码率低于2%,从而满足了高速输入的要求。
本发明的基本部件共29组;基本部件分三类代表每组笔形特点的大小写字母,大部分是大小写字母相似部件的形似根,大部分由大小写字母、形似根组合而成的派生根。
29组部件通过形义音与26个英文字母键以及三个标点符号键相对应。
以下结合实施例对其进行说明。一、实例11)基本部件中的大小写字母在计算机键盘上分布如

图1所示,其中“/”键作为多功能特殊键;基本部件及相对应的键通过表1加以说明表1
上表中的基本部件含有由一定的形和义结合形成的形义码, 表示交叉性的竖或撇,如必中的丿、申的“丨”。
上表中的字型标识码有U、I、O,U表示上下型 ,如分、天;“边、历、习”等结构的字也归为上下型;I表示交叉型 ,如束;“犬、戈”等结构的字也归为交叉型;O表示包围型 ,如回、匡。2)拆分原则拆分要求直观、相似笔画尽量在一起、少交叉、允许笔画共享、允许截断式拆分。
a)相似笔画尽量在一起未拆成土与 ,元拆成二与儿,亏拆成二与 ,耒拆成与 乍拆成、丨、二,而不是、、一;b)少交叉生拆成 与,而不是与土;朱拆成 与 而不是与木;c)对于交叉性的汉字,从直观出发,允许笔画共享申拆成田与 ,甲拆成田与丨,电拆成田与乚,火拆成与人,米拆成与木;d)从直观对称出发,允许截断式拆分果拆成田与木,夫拆成土与人,出拆成两个山,圭拆成两个土;以上所述的未、朱、耒都采取了中间截断式拆分。3)编码原则取部件对应的键名作为其编码,按顺序编码,最大码长为4。
编码过程中本发明采取了三个重要原则相似相配原则、省单笔原则、三码原则。
相似相配原则是指当部件不属于基本部件时,可以用形状最相似的基本部件作为其编码部件。如耳拆成 与丨后,部件 不是基本部件,用形状最相似的基本部件“目”作为其编码部件;练拆成纟、 用形状最相似的基本部件“小”作为 的编码部件;也拆成 用形状最相似的基本部件“力”作为 的编码部件。取码不强求部件的细节,只要求部件整体的笔画和形态。
省单笔原则按笔画多少将基本部件分成多笔部件和单笔部件,单笔部件指一、 丿、丨,带短钩的亅、 也可作为单笔部件;其它都为多笔部件,乚、乙、 等折画都作为多笔部件处理。编码时多笔部件优先于单笔部件;编码过程中根据字型、多笔部件和单笔部件的数目决定单笔部件的取舍,根据字型、多笔部件和单笔部件的数目、多笔部件所属类别决定多笔部件的拆分。
三码原则在编码规则范围内汉字尽量取三码。具体步骤如下a)当汉字含四个或四个以上的多笔部件时,省去单笔部件,取第一、第二、第三及最后一个多笔部件编码;演由氵、宀、一、田、八,省去单笔部件一,编码为“SUOA”液由氵、亠、亻、丿、又、丶,省去单笔部件丿、丶,编码为“S;AX”蓝由艹、 、、丶、皿,省去单笔部件丶,编码为“HHCO”b)当汉字含三个多笔部件时,省去单笔部件,取三个多笔部件编码姥由女、土、
、丿、乚,省去单笔部件
、丿,编码为“XTJ”捡由扌、人、一、
一,省去单笔部件一、一,编码为“FAW”柳由木、
、丿、卩,省去单笔部件丿,编码为“LCP”突由宀、八、大、丶,省去单笔部件丶,编码为“UAY”c)当汉字含两个多笔部件和多个单笔部件时,取两个多笔部件和其中一个单笔部件编码;从多个单笔部件中按第一、最后、第二、第三、第四、第五的顺序取其中一个和另两个多笔部件编码。臭由丿、目、大、丶,取丿、目、大,丶,编码为“,RY”存由
、丨、了、一,取
、了、一,省去单笔部件丨,编码为“FBH”d)当汉字含两个多笔部件和一个单笔部件时,取这三个部件编码;乔编码为“,YH”e)当汉字只含两个基本部件且其中至少有一个为多笔部件时,根据字型和基本部件所属类别编码;大小写字母和形似根不拆分。对于左右型,左边部件不拆分,右边部件是派生根的需拆分,右边部件是小写字母和形似根的补加两个F键编成四码,右边部件是大写字母的补加两个J键编成四码。举例如下伙编码为“AWA”训编码为“IMFF”打编码为“FJJJ”对于其它字型,若两个基本部件都是大小写字母或形似根,根据字型补加一个字型标识码;若其中一个是派生根,对派生根拆分,若两个都是派生根,按书写顺序对先书写的派生根拆分,另一个派生根不拆分。分编码为“ADU”犬编码为“Y.I”回编码为“OKO”舌编码为“,SK”委编码为“,LX”f)当汉字只含两个单笔部件时,根据字型补加一个字型标识码;自编码为“,RU”g)当汉字只由一个基本部件构成,若是大写字母,用四个该大写字母对应的英文键编码表示;目编码为“RRRR”若是其它基本部件,将其拆成二码或三码,然后再补加两个或一个U键编成四码。
禾编码为“,LUU”马编码为“QQHU”省单笔是本发明的最重要的特征之一,它减少了需要记忆的基本部件数,也减少了汉字细节对拆分的影响,从而降低了拆分难度,同时还减少了平均码长,在加上字型标识码后还能反映汉字大体的笔画和形状。省单笔和相似相配是本发明对汉字模糊处理的两个重要手段。4)特例处理为了直观以及减少重码,对少数汉字作特殊处理。
a)左右型汉字的左边不是基本部件时,而是由一个多笔部件与一个或多个单笔部件组成时,左边用两码表示。如殆编码为“HDCK”b)只有两个多笔部件的左右型汉字的右边部分含两个对称相同的单笔部件时,两个单笔部件都不能省。如垣编码为“THGH”c)少数汉字由于省单笔后变成另外的字,因而不能省单笔,如匆、兔、删、栅;d)以门开头的汉字,门必须用两个码表示,如阁编码为“.NXK”5)一些常用字可以通过省去单笔部件编成二级简码,如在简码为“FT”按实施例1对GB2312汉字字集6763字编码,重码率为5.4%,其中3755个一级汉字的重码率低于2.0%。由于3755个一级汉字累计使用频率达到99.9%,实施例1的动态重码率将低于2%。二、实施例2相对实例1增加了一些基本部件,如表2所示,其它规则和实例1相同。
按实施例2对GB2312汉字字集6763字编码,重码率低于5.0%,其中3755个一级汉字的重码率低于2.2%,静态平均码长比实施例1短。三、实施例3基本部件和实施例2相同,但编码时不省单笔,其它规则和实施例1相同。
按实施例2对GB23 12汉字字集6763字编码,重码率低于5.0%,其中3755个一级汉字的重码率为3%,静态平均码长比实施例1长。四、实施例41)基本部件中的大小写字母、形似根、派生根相对于实施例1作了一些变化和调整,如表3所示。
表3中增加了以下几个形义码。键名 形义码 含义V 表示对前一个字根进行分离操作,如北为 对土的分离操作后形成V 表示两个相同字根,如潜编码为“SVG”O 表示具有包围结构的但不同于已有基本部件的部件,如傻中的 R 表示一个包围结构的部件与几结合构成的部件,如兄、 I 表示对应于字母I的基本部件的亠部分,如仿编码为“AID”3)编码规则与实施例1有以下不同a)当汉字只含两个基本部件且其中至少有一个为多笔部件时,①对于左右型,左边部件不拆分,右边部件是小写字母、形似根、派生根的需拆分,对于不能拆分的折画补加一个I键;右边部件是大写字母的补加两个J键编成四码。举例如下佃“AOS”表2
表3
训“I,H”扎“FJI”打“FJJJ”②对于其它字型,若两个基本部件都是派生根,按书写顺序对后书写的派生根拆分,另一个派生根不拆分。如委的编码为“LXH”b)当汉字是一个小写字母或形似根或派生根时,将其拆二码或三码,然后再补加两个或一个该基本部件所对应的键编成四码。
禾“,L,,”马“QQHQ”其它规则与实施例1相同。五、实施例5基本部件相对于实施例1作了一些变化和调整,如表4所示。
编码规则与实施例1有以下不同1)当汉字为左右型,左边部分由两个码组成,右边部分由一个多笔部件和一个单笔部件组成时,右边部分的单笔部件不能省,应编成四码,如舶编码为“N;,G”2)当汉字只由一个大写字母构成时,编码为大写字母对应键加上两个U键。其它规则与实施例1相同。图2为实施例5部分汉字的编码。六、实施例6在实施例5基础上,对第三码不是字型标识码的非左右型的三码字再补加一个字型标识码。补加的字型标识码有以下几个U量E垫F前,花D俐S刮O医,图对左右型结构的三码字不补加字型识别码。表4
编码结果比较比较实施例4至6以及王码的重码率、静态平均码长
码的重码率摘自专利《规范王码输入法及其输入键盘》说明书第13页,专利申请号为98160684.1。
从上表可以看出,实施例5的GB2312字集中6763个汉字的重码率比王码高,但一级汉字重码率要低于王码,由于3755个一级汉字累计使用频率占99.9%,因而在实际应用中重码率要比王码低;配上字型标识码的实施例6重码率比王码要低得多,适合于要求重码率比较低的专业输入。
本输入法也适合繁体字的输入。可以增加以下繁体字部件車
金 糸 言 馬 鳥 魚部件频率分布情况根据《汉语信息字典》(科学出版社,1988年12月)的部件组字次数动态统计表,粗略计算组字频率排在前150位的部件在实施例5中各键的累积频率分布情况,如下表所示表6
从上表可以看出,部件累积动态频率基本上和键的使用效率一致,因而本编码的部件在键盘上的分布是比较合理的。字母化的编码法本发明的编码特点是能够反映大部分汉字的信息。
分别以英文的大小写字母代表本编码大小写母,小写英文字母代表字型标识码,结合实施例6举例说明如下由编码aDhd可反推出其基本笔画和结构
→例由编码FZwe可反推出其基本笔画和结构
→热由编码cYKs可反推出其基本笔画和结构
→知由编码cAk可反推出其基本笔画和结构
→给从上可以看出本输入法的编码反映了汉字大部分笔画和结构信息,类似于英文字母组成的单词反映了单词大部分语音信息,所以本输入法称为字母化的汉字输入法。
权利要求
1.一种汉字输入法及其键盘,其特征在于本发明的基本部件共29组;基本部件分三类代表每组笔形特点的大小写字母,大部分是大小写字母相似部件的形似根,大部分由大小写字母、形似根组合而成的派生根;每组部件的大小写字母、形似根、派生根之间可以互换,允许组数变化在10%左右;29组部件通过形义音与26个英文字母键以及三个标点符号键相对应。
2.如权利要求1所述的输入法及其键盘,其特征在于还可以附加形似根和派生根。
3.如权利要求1所述的输入法及其键盘,其特征在于还可以附加繁体部件。
4.如权利要求1所述的输入法及其键盘,其特征在于还可以附加字型标识码。
5.如权利要求1所述的输入法及其键盘,其特征在于还可以附加由一定的形和义结合形成的形义码,附加的形义码可以是对应的英文键 形义码 含义V表示对前一个字根进行分离操作V 表示两个相同字根O表示具有包围结构的但不同于已有基本部件的部件R表示一个包围结构的部件与 结合构成的部件I表示对应于字母I的基本部件的亠部分
6.如权利要求2所述的输入法及其键盘,其特征在于附加的形似根和派生根可以是金入五毛虫廾甘文方言广疒礻衤示皿 酉户羽鼻齿皮巳巴鸟页 耳身巾穴雨米攵 羊豸鼠鹿弓己走立辛六斤七 廴丰手白廿用冂 髟夂 爿亡 所述形似根和派生根可以变更调整,其在键盘上的设置可以是
7.如权利要求3所述的输入法及其键盘,其特征在于附加的繁体部件可以是
8.如权利要求4所述的输入法及其键盘其特征在于附加的字型标识码可以是
所述字型标识码可以变更调整。
9.如权利要求1至8任何一项所述的输入法及其键盘,其特征在于按笔画多少将基本部件分成多笔部件和单笔部件,编码时多笔部件优先于单笔部件;根据字型、多笔部件和单笔部件的数目决定单笔部件的取舍;根据字型、多笔部件和单笔部件的数目、多笔部件所属类别决定多笔部件的拆分。
10.如权利要求9所述的输入法及其键盘,其特征在于编码长度为4,a)当汉字含四个或四个以上的多笔部件时,省去单笔部件,取第一、第二、第三及最后一个多笔部件编码;b)当汉字只含三个多笔部件时,省去单笔部件,取三个多笔部件编码;c)当汉字只含两个多笔部件和多个单笔部件时,取两个多笔部件和其中一个单笔部件编码;d)当汉字只含两个多笔部件和一个单笔部件时,取这三个部件编码;e)当汉字只含两个基本部件且其中至少有一个多笔部件时,根据字型和基本部件所属类别编码;f)当汉字只含两个单笔部件时,根据字型补加一个字型标识码;g)当汉字是大写字母,用四个该大写字母对应的英文键编成四码或由一个该大写字母对应的英文键补加两个U键编成三码;h)当汉字是小写字母或形似根或派生根,将其拆成二码或三码,然后再补加两个或一个U键编成四码。
11.如权利要求10所述的输入法及其键盘,其特征在于当汉字含两个多笔部件和多个单笔部件时,从多个单笔部件中按第一、最后、第二、第三、第四、第五的顺序取一个单笔部件和另外两个多笔部件编码。
12.如权利要求10所述的输入法及其键盘,其特征在于当汉字由两个基本部件构成时,大小写字母和形似根不拆分;对于左右型的汉字,左边部件不拆分,右边部件是派生根的需拆分,右边部件是小写字母和形似根的补加两个F键编成四码,右边部件是大写字母的补加两个J键编成四码;对于其它字型,若两个基本部件都是大小写字母或形似根,根据字型补加一个字型标识码;若两个基本部件中有一个是派生根,对派生根拆分;若两个基本部件都是派生根,按书写顺序对先书写的派生根拆分,另一个派生根不拆分。
13.如权利要求10至12任何一项所述的输入法及其键盘,其特征在于对第三个码不是字型标识码的三码字还可以补加一个字型标识码编成四码。
14.如权利要求1至8任何一项所述的输入法及其键盘,其特征在于拆分要求直观、少交叉、相似笔画尽量在一起、允许笔画共享、允许截断式拆分。
15.如权利要求1至8任何一项所述的输入法及其键盘,其特征在于当部件不属于基本部件时,按相似相配原则用笔形最相似的基本部件作为其编码部件。
16.如权利要求9所述的输入法及其键盘,其特征在于一些常用字可以通过省去单笔部件编成二级简码。
全文摘要
一种字母化的3C汉字输入法及其键盘,含29组基本部件,分成大小写字母、形似根、派生根三类,通过形义音与26个英文字母键及3个标点符号键相对应;编码中采取了省单笔、相似相配等模糊处理手段,编码直观简单,一级汉字的静态平均码长为3.3码每字,重码率低于2%。
文档编号G06F3/023GK1272644SQ0010614
公开日2000年11月8日 申请日期2000年4月27日 优先权日2000年4月27日
发明者杨东宁 申请人:杨东宁
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1