一种汉字输入方法

文档序号:6331799阅读:205来源:国知局
专利名称:一种汉字输入方法
技术领域
本发明属于一种汉字输入方法。
背景技术
在我国古代,东汉班固《汉书·艺文志》有汉字造字“象形、象事、象意、象声”说,南宋郑樵《通志·六书略》还特别提出了“象数”说;在国外,莱布尼茨等人曾探讨、猜测汉字的数学性质。但是,他们都没有具体认识、阐述汉字的数学性质,没有系统提出汉字的象数结构。
我国计算机汉字输入取得了较大的成绩,但至今仍存在不少问题。即以数字编码而言,从目前的一些数字编码来看,大多数都是着眼于笔画,而且强调笔顺,表面上编码规则较少,实际上随时要用同码显示按选择键来补偿;目前手机将汉字笔画顺序排列在几个数字键上,要不断地按笔画数字键,不断地选择,只是不完全的笔画数字码,还不是汉字数字码,这种状况有待改进。同时,我们也可以看出,有些数字码规定性的成分也比较多,因而与汉字特征信息的有机联系比较少。申请号02112247.4的中国专利申请公开了一种“数字化汉字输入法”,采用序数数字(一、二、三、四、五、六、七、八、九、十)和阿拉伯数字(1、2、3、4、5、6、7、8、9、0)等同定位,并将形似于序数数字的部首或笔画定为字根。其不足之处是该方法只利用了中文数字形象关联,没有注意、没有利用汉字中除形象关联以外其笔画组合、部件结构的数量关系、数字信息、数值信息。

发明内容
本发明所要解决的问题是提供一种计算机汉字输入方法,该方法简单、直观、重码率低。
本发明提供的技术方案是一种汉字输入方法,汉字码元由汉字象数符号组成;象数符号全面利用汉字笔画、部件与中文数字及其它相关记数形式、与阿拉伯数字及其特殊形式的形象关联,同时突出反映汉字笔画组合、部件结构的数量关系、数字信息、数值信息;象数符号、象数码和数字键之间的对应关系为
其中表中的B代表汉字重叠组合中的一个笔画或一个部件;BB、BBB、BBBB代表同笔画、同部件的2次、3次、4次重叠;象数符号“十”在作单字时,组字不与其他笔画、部件粘接或交叉时,与口构成单字、部件“古”时,取象数码10;其他情况下作直交符号取象数码5;象数符号“丂”取象数码15;象数符号“丶”取象数码1;当“丶”与折笔端接时,端接处与该折笔视为对称笔形,“丶”与折笔端接构成的部件,取折笔重叠码;含平行横画三画或四画的交叉结构,取压缩简码取横画数和交叉码4或5;汉字的输入过程为按照汉字构造顺序取与汉字象数符号对应的象数码;对于汉字中具有重叠(如灬、森、品)、并列(如、比)、对称(如興、學、器)、平行(如彡、巛)的笔画或部件组合,首先取该笔画或部件的象数符号对应的象数码,再按其组合数量取对应的数字;然后依次键入,即完成该汉字的输入。
在上述方法中,按照汉字构造顺序,独体字或由两部件组成的汉字,取该独体字或部件的首、二、末码;三个或三个以上部件组成的汉字,取首、二、末部件的首、末码。部件码少于拟取码位,不必补足。近年语言文字学界和中文信息处理界趋于采用统一的汉字部件概念。汉字部件指由笔画组成的具有汉字组配功能的构字单元。汉字部件结构是有层次的,可以用层次分析法分级切分。本发明分析的汉字象数符号少数为笔画多数为部件,取码只一两级切分,独体字直接取与汉字象数符号对应的数字;合体字先一级切分确定码位,再按一级切分的部件取与汉字象数符号对应的首、二、末码或首、末码。
按上述方法,重码字中使用频率低的字加末位区别码;按重码字构形类型,左右型的区别码为0,独体字或上下型的区别码为1。
事实上,汉字的笔画、部件及其组合具有突出的数码特征,除了《汉书·艺文志》概括的象形、象事、象意、象声之外,汉字实际上存在象数结构。本发明所提出的汉字象数结构,是就汉字字形结构系统的总体而言,它比郑樵初步提出的汉字结构象数说更系统、更全面,它包括汉字象数符号及笔画、部件的数码组合等。本发明就是用0~9十个阿拉伯数字,形象、快捷地反映汉字结构(笔画、部件的形体及其组合)的数学特征、数量关系、数字信息,数值信息,按照一定的规则组成特征信息编码—象数码,这种创新编码是用数字编码反映、表现汉字的笔画、部件及其组合本身所具有的突出的数码特征(包括数字的、数值的),实现汉字数字编码和汉字结构特征、汉字数码信息的内在统一,而其外部显现又形象直观,取码快捷。
与著名形码苍颉码、五笔字型比较,本发明分析汉字数码结构,对应中文数字阿拉伯数字列出象数符号,形象直观,取码快捷,其象数符号一目了然,部件编码也不必繁琐拆分,不必过多记忆字根健位,而且对输入键盘要求不高(一般只需具有0-9键和少数功能键即可),方便简易,用途广泛;与一般数字码相比较,有些数字码规定性的成分比较多,因而与汉字特征信息的有机联系比较少。与02112247.4号专利申请“数字化汉字输入法”相比较,本发明全面利用汉字笔画、部件与中文数字及其它相关记数形式、与阿拉伯数字及其电子屏显示形式的形象关联,同时突出反映汉字笔画组合、部件结构的数量关系、数字信息、数值信息,象数编码输入特别突出编码与汉字本身特征信息的有机联系,这方面是目前汉字输入法急待解决而一直没有实现的。
具体实施例方式
下面详细描述本发明。
一、本发明的汉字象数结构的要点在于1、包括汉字象数符号有些汉字笔画、部件的形体与阿拉伯数字0~9及其电子屏显示形式、与中文数字一~十及其它相关记数形式相同或相似,这些笔画、部件可称为汉字象数符号;有的汉字笔画在特定的笔画序列中具有约定俗成的数位,该笔画也构成与该数位相对应的象数符号,如垂(竖、撇)丨丿2,捺乀3;有的笔画组合也可以从俗认定为相应的象数符号,如斜叉×4;十是中文数字,在作单字时,组字不与其他笔画、部件粘接、交叉时,与口构成单字、部件“古”时,可按其数值取象数码10,在其他情况下十为直交符号,取数值之半5为象数编码,比如;十 什计 叶博 古 诂 故王 干 千 田10 2210 1210 010 105551 100 12100 10084 35 15 25 05特别值得指出的是,具有突出特征的点画丶在汉字构造中是最活跃的元素,在许多组合中丶体现的数值是1,在有的笔画序列(丶一丨丿)中丶的数位也是1,因此,在大多数情况下其象数符号对应可以是丶1(与一1不矛盾),因此则有相应的有规律的一串象数符号丶 冫 氵 灬 ∷1 2 3 4另外,按照汉字笔画部件构造的对称特征及其演变规律,丶与折笔端接,端接处与该折笔可视为对称笔形(大多原本对称,后因书写演变,起笔、落笔变成丶),因此丶与折笔端接构成的部件,可取折笔重叠码冖 厶マ专77 6677 222我们利用汉字构造的对称特征可以类聚、归并象数符号,比如可以从以下汉字及部件中析出与7、七相应的象数符号化 犭興學227 72 729018 724231犭第一码为7,是因为其笔画组合可视为七的反转对称形;興、學两字一、三部件为对称形,三部件中折笔象7形,部件码为72,一部件与三部件对称,其丿丨相接与折笔对称,也可视为7的反转对称形,部件编码同样为72。包括笔画、部件的数码组合笔画、部件的数码组合是汉字结构重要的数字化信息,其揭示和利用是全汉字象数输入法突出的创新特征。这具体是指汉字的笔画、部件组合有重叠、呼应、并列、对称、平行等特征性的数量关系,其特征数字化信息可以用象数编码表示,比如冫 氵比品彡川哭器圭2 3 7203 6(23) 24 0268 0468 512
数字键象数码象数符号对照表


二、编码类型象数编码按照对象的特征性与取码方式的不同可以分为几个类型形码 数码合码集约码附码 简码1、形码按照笔画、部件的形体与中文数字、阿拉伯数字及其相关形式的形象联系取码,比如匕厂乛 ㄋ彐 罒口八丷人7 34 0 8或者按照笔画、部件的形体在某序列中的数位取码,都属于形码,比如丨丿2,乀3;有的笔画组合从俗认定为相应的象数符号,以其作为象数码,也属于形码,比如乂 十小忄 木4 59 592、数码汉字笔画、部件的数码组合(数量关系),是汉字结构重要的特征性数字化信息,用象数码表示,属于数码类型,比如冫氵灬 ∷2 343、合码特征性的笔画组合不再拆分,不取两个、三个、多个笔画码,而是作为一个整体,取一个反映其数码信息的组合码,简称合码。比如彡匚 凵 冂6 7 8 94、集约码汉字的笔画、部件组合有重叠、并列、对称、平行等特征性数量(空间)关系,其特征数字化信息用象数码表示,称为集约码,如
比 晶 哭 品 器 72 013 0268 03 0468 81(2)(其中2、3、4都是集约码)以为例,这个部件由两个相同的笔画组合构成;换言之,部件是该笔画组合的集合。该笔画组合的象数码81,该笔画组合的集合即部件的象数码则为812,其中2为集合码,简称集码。实际上,部件只是在单独出现时,其象数码为812,它在作构字部件时,集码可以省约,其象数码为81;也就是说,81作为两个相同笔画组合的象数码,经过集合、省约,便作为部件在构字中的象数码。2是集(合)码,必要是可以省约,故称集约码。
以上形码、数码、合码、集约码都是象数码的不同表现形式,其类型分别是就整个汉字象数结构系统而言,涉及到具体的汉字,不一定某一个汉字象数码只是某一种类型。这一点可以从以下编码字例中看出木 林 森 杰 沐淋置僵59 592 593 594 359 3592 4494 2230525、附码少数字出现重码,确定重码字中使用频率较低的字加末位区别码,称为附码。按重码字构形类型,联系数字0、1、2形体特征,选择0、1、2中的一个标示其附码。
有些构造特殊而颇具特征的汉字,比如“亞”字,与“王”字相对照,其中间部分可视为直交“十”的立体中空剖面形,可加附码0表其特征;另外“凹”“凸”两字,可视为凵丄两构件的立体中空剖面形,也可加附码0表其特征,这都是突出形象,化繁为简。
试比较以下三组象数编码王亞凵 凹丄 凸35 3508 806 606、简码简码有两种高频简码、压缩简码。
高频简码高频字限定码位,只取首、末二位码或首、二、末三位码,是为高频简码,比如的是21018压缩简码民间用字,常说“二马冯”、“三画王”,注意突出汉字特征性的数码信息。王字有三横画,且相互平行,是其重要特征之一,另一重要特征则是含有直交笔画组合十,因此王字不必繁琐拆分,可以突出其特征数码信息,用压缩法取两位简码35。以此类推,含平行横画三画或四画的交叉结构,须根据其突出特征取压缩简码取横画数和交叉码4或5,比如以下字例拜隹丰邦 玉珏羔羊差24454 224 53 4332 351 3521 8354 835 83416三、编码规则全汉字象数码以阿拉伯数字0~9为码元,以汉字象数符号及笔画、部件的数码组合为特征信息元,取码形象直观,编码简易快捷,基本规则是重组合、重结构、少拆分从整个汉字象数结构系统而言,从具体的象数符号、数码组合而言,在所有特征信息元中,单独笔画的成分较少,而笔画组合、部件结构的比重较大。所以取码要重组合、重结构、少拆分。汉字结构复杂,在具体的汉字中获取象数符号遇到边缘重合等情况,也以重组合、重结构的原则为断。
通常汉字分析有离散结构一类,实际上其中隐含不少特征性的数码组合,汉字象数结构系统则析出呼应、平行两个小类别(比如笔画组合氵彡),比较独立、松散的列为分离小类(比如戈中点画丶)。整个汉字象数结构系统将汉字笔画、部件的组合结构类型按其紧密亲合的程度由小到大顺序排列分离<呼应<并列对称<平行<粘接<交叉<穿插(介入框形)取码时部件拆分离合,遇到边缘重合等情况,应按此顺序取比较紧密的结构类型来编码,而不取比较松散的结构类型。以下编码字例体现上述规则文广言6417130笔画组合亠按中文计数系统对应六,且为六之头,取码6,其结构为呼应型,“文”字取码64;而广字取码舍呼应不取62而取粘接为17;言字取码舍呼应不取620而取平行为130。
四、取码方法上述编码规则从总体上已规范了取码方法,比较具体的方法归纳如下(一)笔画组合及部件拆分总原则重组合,少拆分。取码时部件拆分离合,遇到边缘重合等情况,按部件组合结构的紧密亲合程度决定取舍,已如上述。
1、关于笔画组合,竖画丨与其他笔画顶接、立接,可按“上虚下实”或“天高云淡、落地生根”的原则决定分合,即顶接拆分取码、立接组合取合码,比如亻丄工226 162、撇画丿与横画一顶接、立接、端接都不拆分,取一个合码丆 厂7673、笔画组合ク无粘接时拆分取码27タ久271273ク有粘结时(顶天立地)作为一个整体取合码9鱼龟 危饣901 906 9776 964、重组合的原则体现在取码时要重视点画组合的数字化特征,一是点画丶处于离散状态(主、玉、戈),二是点画丶自身重叠(冬)、并列对称(灬∷)和呼应(两个或两个以上的笔画不相交、不相接、不平行,但彼此呼应,构成一个笔画组合,取一个象数码,如冫、氵,亠及州、心、必中的点画组合),三是点画丶与提、与撇点聚合(冫氵爫),这些情况下,点画丶是与1对应的象数符号,单点丶及其多点组合取相应的数码1、2、3、4(“头”字横画一不与人取交叉码,应与其上两点聚合取数码3,与氵取3类同头38);另外,点画丶与折笔端接取折笔重叠码(冖77、厶66、マ 77),点画丶在折笔折弯附近其构形与“比”的两构件类同,可取合码7(兔9027,对照免9026),丶与一丨丿相应组合取形码6、9、8亠6,小忄9,丷8;丶与一相应组合为亠取6,还应注意到一在构件之中但仍可拆分取1的情况,若丶在其附近,两者应相组合视同亠取码6(犬68、压756)(二)取码顺序取码顺序遵循笔顺规范,少数变通处理。如1、方框结构上下有冒出部分,其冒出部分与方框分开分别取码,取码顺序由上而下由甲 申中 苢追205 052 2052 20(省2) 4490 290122、竖画丨(包括竖勾亅)与其他笔画组合直交为直交结构,先取特征象数码5,再取其他码,比如聿隶巾 币雨雲 韦535 53459 259 1594 1542665573、象数输入法重部件、少拆分,取码顺序不完全等同于笔画书写顺序,一般部件不拆分,部件取码以其中笔顺在先的笔画为序,比如“或”字,不采用拆分为一口一…的书写笔顺,而是以部件“戈”中横画一笔顺在先、则先取“戈”象数码72(戈作部件右上丶省略不取码),再取其他部分象数码01,所以“或”字顺序取码为7201。
单字戈取码712(点画丶在交叉处,其取码顺序紧接交叉码之后),戈作部件右上丶省略不取码。戈象中文数字七,取码7,其折笔上丿画不取交叉码,而取形码2,若是丿画组合,则取合码,比如彧7601。
若戈字中横画一与其他笔画相接,其重心下移到丿画处,其象七之特征不变,仍取象数码7,比如以下汉字系列取码成戍戌 咸威777 771 7711(加附码1)7710 7717(三)码位及省略1、象数码不等长,最少一位,最多六位。较多数量的部件(首)字、特征性结构板块按3+1原则省略、限定码位,即在字中作部件最多取三位码,单独成字可以+1取四位码。码位的省略和限定再次体现重组合、重结构、少拆分的编码规则。比如以下编码字例惠 専 磗50636 506551705651惠、専两字上半为最具稳定性的板块结构,不繁琐拆分,直接取首、二、末码506(码位限定为二位时如在“磗”字中取首、末码56)。
2、一般而言,独体字、部件按首、二、末笔取码,多部件合体字按首、二、末件取码。尽量按首、末笔(件)取码(首末码)。取码部件只一码,不必补足码位。高频字、多笔画多部件部首字取码省略,用简码。如憂 中 是 龙龍 齊鼎773624 20 018 416 617 612 0273、瓣、辧、辨、辩、辯系列字左右两部件为对称形,取码可以左代右(集约省略),即右边第三部件省略不取码。
与此略同,微、徽、幑、徾、徾系列、衝、衢、衛、衞系列也可以末件省略,以充分反映中间部件变化较多的信息。
4、竖画丨插入、穿过方框结构,其框内短竖省略不取码,如束柬黑
509 549 414横画一穿过三框(如 )、方框结构不取交叉码,直接取横画一与其他笔画的组合码、构件码,比如丹舟母毋 贯956 29909040505985、笔画组合人、了不与其他笔画及组合取交叉码大 夫 天 夭奏 子18 28 118 218 38118316、上下封闭的平行直交结构和方框结构有内外码的分别,这两种结构取码要省略时,取外码省略内码;这两种结构作末件时取外码作末码,省略内码,如王35田05目02,前码为外码,后码为内码,必要时内码常省略。
(四)词组输入以上所述为单字输入。在此基础上,可按简单规则实现词组输入。
两字词组输入两字都取首末码,码长定为四,若有一字只有一码,该码取两次(两字都只一码,作单字输入,不作词组输入);三字词组输入三字都取首末码,码长定为六,若单码须重叠一次;四字及四字以上词组输入首字末字取首末码,第二字、第三字取首码,码长定为六,首字末字若单码须重叠一次。
本发明的汉字输入方法,仅用0~9十个阿拉伯数字,按对应键输入,形象、快捷地反映汉字结构(笔画、部件的形体及其组合)的数学特征、数量关系、数字信息,按照一定的规则组成特征信息编码—象数码,这种创新编码是用数字编码反映、表现汉字的笔画、部件及其组合本身所具有的突出的数码特征(包括数字的、数值的),实现汉字数字编码和汉字结构特征、汉字数码信息的内在统一,实现汉字自然的而不是强制的、有理的而不是无理的顺序排列,也可以说是直接简易地使汉字实现十进位制“数字化”,由此而用作计算机、手机、电报等键盘的汉字输入。而且本发明不单纯着眼于笔画,也不认读字音,不管是中国汉字、还是日本汉字、韩国汉字;不管是繁体字、简体字,还是异体字、冷僻字、方言用字,或者是甲文、金文、简帛等古文字,都可以统一编码,并方便快捷地实现键盘汉字输入。本发明可适用于不同方言的人,不同国家的人(中、日、韩以及学习、使用中文的其他外国人),可以实现汉字键盘输入的标准化和国际化。
本发明还可用于给西夏文,日文假名、朝韩谚文等汉字系文字的编码,实现其数字化输入。
本发明分析汉字数码结构,对应中文数字阿拉伯数字列出象数符号,形象直观,取码快捷,其象数符号一目了然,部件编码也不必过多记忆;对输入键盘要求不高(一般只须具有0-9键和少数功能键即可)。而且,本发明重码较少,据初步统计,与著名形码对照如下五笔字型 在6763个国标汉字中重码247对在3755个常用汉字中重码68对苍颉码在3000多个常用汉字中重码105组本发明象数码 在6763个国标汉字中重码34对(其中个别三字重码)。
权利要求
1.一种汉字输入方法,其特征是汉字码元由汉字象数符号组成;象数符号、象数码和数字键之间的对应关系为 其中表中的B代表汉字重叠组合中的一个笔画或一个部件;BB、BBB、BBBB代表同笔画、同部件的2次、3次、4次重叠;象数符号“十”在作单字时,组字不与其他笔画、部件粘接或交叉时,与口构成单字、部件“古”时,取象数码10;其他情况下作直交符号取象数码5;象数符号“丂”取象数码15;象数符号“丶”取象数码1;当“丶”与折笔端接时,端接处与该折笔视为对称笔形,“丶”与折笔端接构成的部件,取折笔重叠码;含平行横画三画或四画的交叉结构,取压缩简码取横画数和交叉码4或5;汉字的输入过程为按照汉字构造顺序取与汉字象数符号对应的象数码;对于汉字中具有重叠、并列、对称、平行的笔画或部件组合,首先取该笔画或部件的象数符号对应的象数码,再按其组合数量取对应的数字;然后依次键入,即完成该汉字的输入。
2.根据权利要求1所述的方法,其特征是按照汉字构造顺序,独体字或由两部件组成的汉字,取该独体字或部件的首、二、末码;三个或三个以上部件组成的汉字,取首、二、末部件的首、末码。
3.根据权利要求1或2所述的方法,其特征是 重码字中使用频率低的字加末位区别码;按重码字构形类型,左右型的区别码为0,独体字或上下型的区别码为1。
全文摘要
本发明涉及一种汉字输入方法,汉字码元由汉字象数符号组成;象数符号全面利用汉字笔画、部件与中文数字及其它相关记数形式、与阿拉伯数字及其特殊形式的形象关联,同时突出反映汉字笔画组合、部件结构的数量关系、数字信息、数值信息;汉字的输入过程为按照汉字构造顺序取与汉字象数符号对应的象数码;对于汉字中具有重叠、对称的笔画或部件组合,首先取该笔画或部件的象数符号对应的象数码,再按其组合数量取对应的数字;然后依次键入,即完成该汉字的输入。本发明形象直观,取码快捷,其象数符号一目了然,部件编码也不必过多记忆;对输入键盘要求不高(一般只须具有0-9键和少数功能键即可)。而且,本发明重码较少。
文档编号G06F3/023GK1624638SQ20041006125
公开日2005年6月8日 申请日期2004年12月2日 优先权日2004年12月2日
发明者陈蔚松 申请人:华中师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1