一种计算机汉字数字笔画的输入方法及键盘技术的制作方法

文档序号:6355521阅读:440来源:国知局
专利名称:一种计算机汉字数字笔画的输入方法及键盘技术的制作方法
技术领域
本发明涉及一种汉字输入方法,特别是指一种计算机汉字数字笔画输入方法及其键盘。
背景技术
广泛使用的汉字输入方法主要有拼音、拆字、笔画三类,拼音法因为采用现成的汉语拼音作为编码元素且因其与电脑建盘上的英文字母正好契合,以所谓的零记忆,不用专门学习的优势而拥有大量的使用者,但因其与字型不涉,故不在此细论;拆字(字根)法与笔画(首尾)法的共同之处在于提高了编码的聚合度,缩减了码串的长度,使打字的速度得以加快,但其识别度并没有相应提高,也因此无法解决重码问题,只能依靠区别码、识别码、 小码、尾码、加码之类的方式来提高识别度,使节约的击键次数和时间又还了回去,无形中还增加了记忆负担,而且打字的过程中还要不断地思考怎么拆?什么字根?在什么位置? 出字后待屏又是什么编号?用不用翻页?等等,用这种方法打字,总让人觉得不从识字阶段的小学时期开始,实难全面掌握,是它的先天缺陷;另外从规范角度讲在用的字根表类几乎都存在不合规的问题,国标规范部件五百多个,如果没有自定规则实际上是没有什么使用价值的;再则拆字(字根)法的前提是把汉字分成两大块,能拆则拆,不能拆的则用其它的方法处理,事实上它是用两套方法在打字,必然是两种思维方式,再加上拆与不拆的分辨,使打字变成了复杂的脑力活动,且思维繁杂,长期坚持使用尚可,若有间断,则多半会遗忘,大都无法兼顾易学、高效、科学的矛盾。汉字由最早的象形符号,在漫长的历史长河中,经过自然的淘磨和人为的改造,逐步演变成方方正正繁复庞杂的笔画结构体系,尤其是经过简化后的汉字,无疑是以笔画为基础,以笔画结构为主体的符号系统,仅以构字机理讲,传统的“六书”之理,难以全面覆盖和解释我们正在使用的文字,如果僵硬套用更是一种理解和记忆的负担。为了对付这些符号,准确地说是为了让它们在信息化时代发挥更大的作用,人们又发明了一大堆新的符号和名词,象什么部件、构件、义件、基础部件、字根、字素、字构、字符、字块、字架、子字等等, 各取所需,自成一体,自定规则。汉字太伟大了,伟大到伴随人类数千年,从简单的点、线到完美的体系,不敢想象没有它我们会是一种什么状态;汉字太复杂了,复杂到我们无法用现代信息理论最简单的 0、1对它进行表达;汉字太零乱无序了,无序的难以找到任何的规律可循;几十年的苦苦追寻,无数人的舍已钻研,然而众人期盼的局面并没有出现,我们仍然在字根表里求索;在掐头去尾(首三尾一)中寻觅,代表国家在汉字信息化时代的特征与形象的所谓“国码”至今仍不见踪影,王码称得上是“国码”,事实上也具有“国码”的地位,细究却难达“国码”的水平与高度,但有了上述的基础,使得我们已经站在巨人的肩膀上面,却拿不出与此相匹配的成果,这是一种无奈,也是一种说不清颜色的幽默,在脑识别年代,我们把祖先留下的汉字奉为神灵,认识它是一种荣耀,会使用它更是一种人身价值的提升,随着机器识别时代的来临,对这个神灵我们有了些许陌生并产生了些怨恨,怨恨中又潜藏着某些希冀,总好象是创造出这些众多方形块的先贤们在和我们开着一个玩笑,千古不变早就存在的玩笑,似乎他们早就知道有信息化这么一档子事,由他们创造出的这些个方块块,一定是要进入到一个也是小方块的叫作计算机的机器中,他们已经为这一步留有契机,但这是一个智慧的楔子, 它似有似无,若隐若现,让无数后来人为之着迷,废寝忘食,甚至舍命求之。一套好的编码应该具备的特征只有一个,这就是简单,当然这只针对汉字的计算机输入而言,其实码的本意就是诡异玄秘、不明就里、云里雾里,它就是只让两个人(或者两方面)可以知其义,并且是无法接触的两个人(或两方面),他们很可能是脚心对脚心在地球的两头站着,也可能是相面而立,任何第三人(或第三方)既是手握其中也无从知其函义的一种东西,所以才有破译一说,而我们所说的汉字编码,则恰恰杆反,它是要让所有人都知其义,不让第三人知道的码和让所有人都知道的码,有一个共同的特点就是一个字 “难”,虽然不一样的目的,但相同的难度。有一个好的设计思想,找到一个好的实现路径,采用一种简明的表达方式,是编出好码的前提,这就是所谓的码元最小;码串最短;记量最少;规则最简。一码多义是任何编码的极忌,在汉字编码中表现的就是一码多字(重码),解决不了重码的方案不能说是好方案,但好方案实在是太难以得到,这也是无数码人(编码者) 在进行了无数次探索后,仍得不到满意的结果而感叹“无重码是一个天大的误区”,这是正论、是自嘲、还是无奈,谁又说的清?最直接的原因,就是我们对如何“把汉字弄进机器”的方法研究的太透了,而对汉字本身我们却太缺乏研究了,汉字的深奥、神秘、玄异,决定了从本质上剖折它的难度,不下一番深功夫是不会有收荻的。在计算机键盘( 个字母键)输入的重码问题还没有得到有效解决的情况下,然而技术进步的速度却丝毫没有减慢,发达国家没有给我们任何机会,铺天盖地的手持设备, 各式各样的嵌入式设备,已经掌握在云云众生之手,这些设备的输入键大多只是九个数字, 这无疑是汉字的无重码输入变的更加艰难和渺茫,虽经多年探研,也出了不少好的方案和技术,但均有一个共同的不足之处,就是要么规则繁复,要么记忆量太大,总之不易掌握,难以普及,再则旧的方案移植在小键盘也有诸多障碍,致使几亿人不得不用外国人帮我们创造的输入法,当然这是需要大量的银两来买的。把大键盘上的方案简单改版到数字键上,实践证明可行度不高,在用的“首三尾一”方案有先天缺陷而难以提高。而对于以笔划为编码元素的方案来说,从理论上讲在9位小数字键盘上是有用武之地的。公认的现实趋向是重编程轻编码,编程和智能的确可以使“汉字进入计算机”这一过程有了很多便捷之法,但说到底这只是一种辅助之法,不能解决本质问题,好的输入方案应该在编码设计阶段就赐除掉与文字输入本身无关的任何附赘,一种能够在不同键位的键盘上,采用同一编码方案的输入方法亟待出现,也就是人们渴望已久的汉字“通码”,它所担负的责任和意义不仅是“把汉字弄进机器中”这样简单的操作技术层面,而是关乎汉字字符集(字库)的编建,中文信息化,网络传输等的提升,在期盼已久的中文操作系统无法短期出壳的情况下,也只能寄望于编码的提高来弥补之。

发明内容
本发明的设计思想是一笔一画写字,两画一码打字,键盘作笔,屏幕如纸。本发明的实现路径是让每个汉字都有一个编码;给每个汉字唯一一个编码。
本发明的最终日的是中文输入简单、规范、科学、高效、纯符号化。1、本发明的理论支撑,如权利要求1、2所述,一种计算机汉字数字笔划输入方法, 其特征在于本发明是建立在严谨的数字统计、严密的数据计算、严格的结构分析基础之上,选择当前正在使用的一万个汉字作为样本和数据来源,对笔划、笔划结构、笔划相邻、笔划相交、笔划重复、笔划连接、笔划位置、笔划变异、笔划演变等项进行深入探讨和精确的资料统计,对笔划进行分析可以发现一些带有普遍和规律性的现象即由笔划组成汉字的过程,就是笔划的相邻、相交、重复、相连的不断组合。在对采集的数据进行综合分析的基础上,从以下几个方面入手进行研讨笔划的数量这本来是不成问题的,国标规范有明确的数字公布,但由于常用的输入法中有说5个的,有说6个的,有说8个的,总之是各取所需,不知究竞,其实是采用模糊技术,除了把折笔为一类,还把横和提不分、点和捺不分、折和钩不分,对折笔的归类方法也是各种各样,容易引起混乱,这种做法的直接结果是编码的识别度更差,使编码质量降低, 其实20个折笔划和4个钩笔划,如果使用得当,对提高编码的离散度是有益的,所以本发明采用规范的31个笔划作为基本的编码元素。相邻度笔划与其它笔划在汉字中前后相随出现的程度,即一笔划可以与多少其余笔划在组字时相邻(相邻度高的笔划其编码离散度也高,反之相邻度低的笔划编码离散度也低)。相邻率笔划与另一笔划相邻后在汉字中出现的次数(相邻率高的笔划其编码区别度低,反之则高)相交度笔划与其它笔划在汉字中相交的程度,即一笔划可以与多少其余笔划在组字时相交(相交度高的笔划其编码聚合度高,反之则低)。相交率笔划与另一笔划相交后在汉字中出现的次数(相交度高的笔划其编码区别度低,反之则高)。首笔率笔划在汉字的第一笔出现的次数(首笔率高的笔划编码的码位集中度高,反之分散度高)。次笔率笔划在汉字的第二笔出现的次数(次笔率高的笔划编码的码位集中度高,反之分散度高)。重复率笔画在组字时连续出现在同一位置的几率,双重、三重、四重的都有,重复结构对编码十分不利,如果两个字中出现相同的笔画重复结构,会使码串变的很长,如不采取措施,重码不可避免,重复结构在文字中出现的频率还是很高的,好在重复的范围不大, 仅有6个笔画丨.j .、.人. < .(横、竖、撇、点、撇折横、撇折点)有重复现象;还有一种重复现象也很普遍,就是笔画结构(部件)的重复,它也是编码的一个难题,也应引起重视。相连不同的笔画首尾相接形成闭环,这种结构很特殊,也很稳定,汉字中大量出现,其实就是一个完整的口字或者方框,利用好这个结构可以给编码带来很大便利;相同的笔画(撇与撇)首尾相连则以重复论之。由于电算能力不足,不得已先进行手算,粗略的数字统计分析结果显示撇笔画的相邻度高,横笔画的相邻率高;横笔画的相交度和相交率都很高,撇笔画次之;这对于如何解决码离散问题有重要的参考作用。在第一笔(首笔)出现的笔画14个,不足全部笔画的一半,离散度不算高;第二笔 (次笔)出现的笔画26个,几乎是全部笔画都可以在第二笔中出现,只有少数的三连折笔画无法在第二笔出现,有足够高的离散度,我们知道,一字编码的第一码是决定该字在键盘的哪个键位上,也是决定某键位的容字数量多少的关键,所以把出现笔画较多的笔次作为编码的首码,就可以最大限度的离散码位,使文字更均勻地分布在各个键位上,同时也可起到分散码元素,从而增加识别度,提高编码质量。有了上述理论的支持,运用在编码中必定会有良效。2、本发明是一种计算机汉字数字笔画输入方法及其键盘技术,可以在各种不同键位的键盘上用同一编码输入汉字,如权利要求3所述其特征是,把汉字的笔画分为四大类。汉字是由笔画组成的,这是汉字在几千年的发展演变中唯一不变的事实,本发明以汉字的笔画为基础,以笔画在组合成汉字时的状态为依据,把笔画分为单、复、交、连四类,以这四类不同状态的笔画作为编码元素。单单独存在于字中的笔画,如工、三、上、人等,这类笔画具有数量大、码区别度高、识别性强的特点,所有笔画都可以独立存在于字中。复组字时连续在同一位置出现的笔画,如须字中的撇、目字中的横、学字中的点等,这类笔画表现为区别度低,是重码的一个重要根源,如果相同结构在不同的字中出现, 会使码串增长,识别度减弱,但可重复的笔画数却较少,仅有6个。除了笔画的重复,还有另外一些为数不少的笔画结构(部件)的重复,如从、林、丝、吕等,这种结构更使编码的重码率提高。交笔画在组字时相互穿过对方,形成交叉点,这类笔画可分为两种情况,笔画与笔画相交为单交如上、又、土、干等;笔画与多笔画相交为连交如丰、拜、聿、甘、世等。交叉后的笔画,往往形成一个较稳定的结构体,它在字构框架中,有强烈的支撑作用,且具有容易辨识,不具歧义等优势,把它作为一个整体进行编码,可以增强笔画码的聚合度,再者数量庞大,百分之八十的字中都有交叉存在,23个笔画都可与别的笔画发生交叉,这一点不可忽视。连笔画在组字时首尾相连形成的闭环,表现为大小不等的口字,口字结构是汉字作为方块字的最佳体现形式,也是字形显示出端庄、稳正,把它作为一个整体进行编码,是缩短码串长度的灵巧之法,且易识易辨,唯一性强。3、本发明是一种计算机汉字数字笔画输入方法,如权利要求4所述,其特征是对四类不同状态的笔画进行编码,给每个笔画分别编制两种码,正码和交码。规则是正码独立存在笔画的编码;交码即交重码,笔画交叉、重复时的编码;单交依其笔顺取一码;连交的笔画取交叉点(笔画穿过其它笔画)多的笔画一码,交叉点相同依笔顺,笔画重复作为整体取一码;重复的笔画结构(部件)作为整体取码9 ;闭环结构的口作为整体取码9。因为键9位上的几个笔画都是无交叉笔画,增添两个结构码以使各键位上的容字
量趋平。
8
4、一种计算机汉字数字笔画输入方法,如权利要求5、6所述,其特征是把笔画按照特定规律分配给不同的键,在9位数字键盘上每键三个笔画,其中均包含一个组字量大的、一个组字量小的、一个组字量居中的笔画,使得各键的字数基本平衡;在立字母键上每键一个笔画,遵循人体工程学原理,把组字量大的笔画放在键盘居中位置,把组字量小的笔画放在键盘边缘位置,以提高双手的击键速度和输入效率,笔画与数字键的对应映射关系[正码]笔画(交码)[1]- x J (5) [2] [ < |、(6) [3] J > ” (7)[4]J (8) [5] ),(1) [6] L ^L (2)[7] ζ L (3) [8]、乙勹[9] 3飞 3 ( 口)笔画与字母键的对应映像关系[正码]笔画(交码)[q] x (t) [w] < (y) [e] > (U) [r] 7 ⑴[t] > (q) [y] n (w) [u] L (e) [i]乙(r) [ο]飞(口)[ρ] ” (ν)[a]-(g) [s] [ (h) [d] J (j) [f]、(k)[g] . (a) [h] L (s) [j] ζ (d) [k]、⑴[1] 3 ^ (叠)[ζ] j (b) [χ]、、(η) [c] ι (m) [ν] J (ρ)[b],(ζ) [η] L (χ) [m] (c)在48位中文键盘上只要依照键盖上的笔画标注直接击键即可完成输入,与英文打字无异,真正实现了中文输入英文化。汉字非常的无规,甚至让人感觉到“凌乱”,一画可为一字,四十画也是一字,其结构上下左右多少无常,笔画密者数上,疏者一二,要在这其中寻觅可循之规律,不下功夫是难有收益的;汉字的笔画也然,有的笔画百分之八十的字都需要,而有的笔画仅与三五字有涉,更有甚者,有一个笔画仅在一个字中出现,实在让人觉得无存在必要,所以把笔画作为编码依据同样有难以平衡数量的问题,本发明把一些组字度低的笔画适当归并,笔画id MU. KM, -m U^:取码相同,与同形的笔画同编一码,由于涉及的字数极少,对码串质量无任何影响。汉字的同构现象非常普遍,相同的结构在不同的字中出现, 必然给编码带来不便,使重码现象难以避免,我们只能深入挖握相同中的不同,发现弊中隐利,从而弊中取利。汉字的笔画是异常智慧的产物,由它所构成的汉字,更是一庞杂无序的符号系统, 人们习惯把它们归为一种的折笔画,不但有着二十多个的庞大数量,也是一个变化无常的笔画群体,它们长期被视为汉字编码的累赘,实际上折笔在组码时发挥的离散作用不可小觑。汉字的变化我们从两方面可以说明汉字的变化,一是汉字本身的变化,在长期的演变过程中,由于各种原因,政治进步、经济发展、军事斗争、文化教化等,使汉字无论字形、 字义、字音都发生了巨大的变化,我们只能以国家规范的简化字为准;二是组成汉字的笔画的变化,汉字中的笔画,在不同的字中往往表现为不同的形态,有的是为了让度位置,有的是为了平衡结构,有的是为了空间上的美观协调,一些笔画必须做一些让度与变化,这就产生了笔画的变异,常见的有捺点互变、撇点互变、横点互变、横提互变、横撇互变、撇捺互变等,还有不同字体间笔画的变化象宋体与楷体的心字,其钩笔就不同,这无形中给笔画类的编码带来麻烦,使编码产生二义性,本发明在慎审统计分析后,采用实际存在的笔画为依据编码,即变为啥就依啥为据编码,这样使编码免生歧义,如小字的编码为348而非848。5、一种计算机汉字数字笔画输入方法及其键盘,如权利要求7所述,其特征是第一码是决定该码串存放在哪个键位上的关键,依据详细的数据统计结果,31个笔画在一万字中第一笔出现的笔画(首笔率)有14个,不足百分之五十,而在第二笔出现的笔画(次笔率)则多达沈个,几乎是笔画的全部,仅有少数几个三连折的笔画无法在第二笔出现,这就说明,把第二笔的笔画作为编码的第一位,可以更好地提高码离散性,降低优质码位的空闲率,从而减少重码。本发明采用了以国标规范的笔顺为序,进行提取码串,具体方法是偶数码+奇数码+余码偶数码整字编码的第2、4、6、8码;奇数码整字编码的第1、3、5、7码;余码重复的首笔码与交叉结构剩余笔画的码。统计数据表明,上述方式得到的码串,不但提高了编码的聚合度(减短码长,减少击键次数),同时也加强了编码的区别度(增加了码的离散性,拒绝了重码现象),其最终效果是,对笔画多的字,尤其是20画以上的字,仅用其偶数码就可以准确地给予识别;对于笔画少的字,8画以下的字,加上奇数码即可辨识大部分,少数字再续打余码即可全部析出,真正做到了无重码输入,使中文输入与英文输入有相同的感受。从而使复杂难记的字,其编码很简单;易记易认的字,由于平时对其笔画结构就了熟于心,打满全部笔画也不觉困难,这就是偶奇式取码方式的双向趋益收获,在码串质量提高的同时,码位利用率也相应提高,在 9键位键盘上三码码位只有几个空闲,四码字4000多,最长的六码字只有800多个,码位闲置率相当低,在大键盘上各项指标更优,且消灭了重码,让人烦恼的拆、找、翻页等累赘全部消遁,加之汉字的笔画组合多数具有阴阳相间、左右对称、上下呼应的关系,操作时只要掌握了这些规律,偶数码的提取就会很顺手,有时比一笔一画取码还显容易,且不易出错,同时偶奇码的学习功能也不可忽视,如能配合识字教学,做到识字辨码同步,相辅相成,加深记忆,必有奇效,一夕掌握,终生受益。


图1是编码表共有四项内容1、键名一键即出的字,在9位数字键盘上是一 1亿2乃3人4八5儿6己7乙8 口 9。在沈位字母键盘上是Hq 他w 火e 多r 和t 见y 山u 乙1 口 ο 与ρ一 a 你s 不d J^f 我g 中h 己j 家k 的1是ζ亿χ乃c顶ν Ab儿η月m—键字中包含有三种类型,一笔画字、一键即出的字、部分高频字。2、正码笔画独立存在于字中的编码。3、笔画组成汉字的最小单位,表中把它们分为三个区,用①②③表示,一区为组字量大的相关笔画,三区为组字量小的笔画;二区为组字量居中的笔画。这种笔画编排序列,是经过无数次试验、数千次计算分析的结果,每个笔画都逐一在所有位置上安排过,最后综合考虑最长码长、码位空置、高频字优先、重码拒绝、等诸项平衡并反复比较优化后的结果,因为在整体设计时有很多无法回避的多重矛盾,比如重码与码串长度、高频字前置与码串长度都存在着难以调合的冲突,它兼顾了笔画组字规律和有利记忆等多方面的需求, 比如四个钩笔画不打散,集中放在键盘左下角,由于它们组字量不大,既便于记忆,又不影响输入速度,常用(组字量大)笔画则集中放在居中位置,击键方便,大量的折笔画也作了精心排布,尽量做到易记易操作,显然它不是最佳的,但是可以说是最合适的。4、交码交重码,笔画交叉、重复后的编码,和正码一样,其数值与数字键盘上的标注相同。5、叠重叠的笔画结构(部件)的编码。编码表有一个显着的特点就是具有柔性设计安排,可以在不同位数的键盘上使用,而不改变其值,在数字键盘上,每键位三个笔画;在字母键盘上,每键位一个笔画;在中文键盘上直接标注笔画。实施方式本发明力求让中文输入简单,如权利要求8、9所述,只要会写的字,记住了笔顺, 仅此就可打字,与字形、字义、字音皆无任何关联,使打字变的简单、清爽,只与笔画有关, 出错机率降低到只有笔顺一处,且极易纠正。另外还有关于笔顺的歧义,其实大多与个人书写习惯有关,真正有不同或者更高的见解,只能进行理论上的探讨或存疑,执行层面应该无异议,一切按国标规范办是本发明的依据。由于单字输入的效率极高,且全过程实现了纯符号化,不与音、形、义发生任何联系,故本发明尤其适合工商、税务、公安、统计、科研、医疗卫生、识字教学、对外汉语教学等行业使用,并可嵌入各种手持设备、游戏设备、自动控制设备以及各类操作系统中。笔画的编码就是笔画的计算机表示方式,是本发明的核心,通过各类笔画的编码, 就可以把笔画输入到计算机中,并由它拼合成我们需要的汉字或词语后显示在屏幕上。1、单字的编码和输入将汉字的笔画(含交、重后的笔画结构体),按照偶先奇后的原则,依书写顺序排列,把笔画替换为相应的编码(在手机键盘上为数字,在电脑键盘上为字母,在中文键盘上为与笔画相同的符号),形成汉字的编码,依笔顺顺序把它逐个输入到计算机,至需要的字出现为止,按确认键即可得到相应的汉字,例输入“载”字,在9位数字键它的全码是观56,实际输入观5即可出载字;在沈位字母键盘上它的全码是skgh,实际输入skg即可出字;在48位中文键盘上直接击相应的符号键即可。部分汉字的在数字键上的编码铁5343 中 62 承 8344 髋 682585 己 7 齄 99126跟2353 再 3165 姓 3166 斩 72213 九 47 符;3592惕8978 注 7114 接 8818 愚 6686 缘 747 O 1111285 我 53 斜 45853 饭 4733 毁洸123 柬 8642、词语与短句的输入输入第一字的编码出字后不确认,继续输入第二字、第三字的编码,依次类推直至全词或全句出完后按确认即可,在这个过程中越往后需要输入的码数越少,节省击键次数, 提高输入效率。
11
3、功能键在9键位键盘上,(0)键为确认[回车]键;(*)键为删除键;⑷键为空格键;在沈位和48位键盘上则不改变其功能键设置。4、记码技巧在实际操作过程中,只要注意总结,很容易发现一些带有规律性的东西。(1)取右整字取右边的笔画,如觉字的码3366全部来自右半边的笔画取码;部件取右边的笔画,如俊字的码观883中三个8全部来自部件的右半边;取左取左多数是部件取左,如峻字的码7633中的633都来自部件的左半边;还有许多取左下、取右上的大量字例使用者自己可以总结挖握。(2)常用部首的编码部首在汉字中既大量出现、又相对稳定,记住了它们的编码将会给你带来极大便利,如木3耳25王5 口 9车2革16鹿(在上)1213鹿(在左)1211 鼻9912鱼45马8女6月7日1舟58骨6825身25等。一些字在作为部首时与单独为字时的笔画发生了变化如求8385和救823、豕 73114和逐72511、禾54和秒583、木35和材35583等这种现象普遍存在,应当引起注意。(3)特殊结构的编码一些特殊的笔画结构,同时也是本发明的重点之处,熟悉了它们的编码,对整个编码体系就能运用自如,戈字结构,这个结构的特点在于第一笔很早就出现,往往在字的前三画,而后两笔却出现的很晚,往往在字的最后,本身它也比较稳定,在多种组合方式的字中都有出现,对于具备这种特性的一类结构来说,只要牢记其编码只与笔画有关,只与笔画的单、复、交的形态有关,不要在拆字的思维里考虑打转就行,它的编码就是交叉点多的笔画斜钩的编码 6,排序也是斜钩的笔顺顺序,戋和戈结构相似,而弋字结构则不同,是单交叉其编码是依笔顺先后为序即5,一定要注意区别。束字结构,相似的字型还有串字、枣字的上部、制字的左部、刺字的左部、来字等, 长竖的笔顺在后而不是第一笔,口字交叉后已经不完整,不能再用口来编码,它们的编码分别是束 642、串 226、枣 6423、制 2236、刺 68423、来 3386。未字结构,相似的字型还有本字、末字、耕字等,中间长竖笔顺在前,编码为未 3645、本 364、末 36455、耕 356。里字结构,相似字型禺字等,中间长竖穿过三横成一个多交结构,编码为里612、禺 6682。黑字结构,相似字型熏字、柬字等,字中心的点和撇笔顺在长竖之前,编码为黑 6312、熏 231386、柬 864。冉字结构,相似字型再字、禹字等,连交的交叉点相同时,就以交叉点相同笔画的笔顺先后取码,编码为冉3656、再3165、禹沈832。母字结构,相似字型毋字、份字、贯字等,这种结构笔顺比较难辨,连交以交叉点数为序取码,编码为母8383、毋3537、Π} 5326、贯23568。丹字结构,相似字型舟字,交叉使三个笔画变为一码,编码为丹8573、舟5838。聿字结构,相似字型隶字、肃字、康字、庸字、尹字、事字等,特征是一画穿过多笔画,最多达6画,编码为聿6255、隶83874、肃33628、康1874、庸1沘336、尹5725、事822。曲字结构,相似字型典字、鹿字、西字、酉字等,取交叉点多的笔画的码,编码为曲221、鹿 12138、西 2112、酉 25121。兼字结构,相关字型谦字等,注意辨别交叉点,编码为兼3248、谦53M。黹字结构,相关字型敝字等,复杂字型的笔顺记忆,编码为黹8133、敝33818。互字结构,相关字型彖字、篆字、缘字、发字等,注意辨别基本笔画,编码为互611、 彖 4736、篆 6114、缘 747、发 828。链字结构,相似字型随字、御字、髓字等,左中右结构的字笔顺不能颠倒,编码为链 5253、随 2255、御 21177、髓 682511。另外一些笔顺易混的字如万字的笔顺是横、折、撇,而不是横、撇、折,快字中竖心的笔顺是点、点、竖,而不是点、竖、点等。(4)重复的编码重复是一个复杂的笔画结合过程,尽管它涉及的笔画数量很少, 但是它的组字数量却不少,组合形式也是变化无常,各式各样,比如须字的撇笔,我们认定它为重复是顺理成章的,也很清楚明了,易辨易识;而原字的撇笔,如果说它是重复就有些别扭,也不易识别,这就给我们界定重复增加了些许难度,也就是说我们所说的重复,不是无条件的重复,而是有条件限制的重复,这个限制条件就是在同一位置连续出现的笔画。 也就是说连续但不同位的不能认定为重复,比如直字的四横、顺字的两竖、亥字的两撇、图字的两点等,都应该是我们所要求的重复;而瘦字的两撇、家字的头两点、快字竖心的两点、 止字、非字的两竖、底字、府字的两撇等则不宜认定为重复;只有这样,才能做到简捷、便认、 高效,重复还从来没有被用来作为笔画分类的依据,本发明独创并第一次在汉字编码时使用,试用效果是显着的,希望得到认可。(5)笔画的三重经常可以看到三重甚至四重的笔画如辰、乍、肆字中的三横四横;豕、勿字的三撇;心、雨字中的三点四点等,它们的一个共同特征就是整齐、同位、易辨, 都是所在字的主要组成部分,如果把它们再分开反而显得有些麻烦,然而它们的笔顺却不连贯,对于这种三重、四重的笔画组合,只要位置相同,我们就认定它为一个重复,这样更有利于编码的易辨性,也对整体压缩码长有益。技术扩展经过分析不难看出,上述所谓的数字笔画,只不过是表面的、简单的,甚至可以说是“伪数字化”的,它只能解决表层显示问题,并不是真正的汉字数字化,不能解决本质问题,但它可以说是一个开端,要想实现从机内码存储开始,到模型计算,到机外显示,需要做大量的理论突破,首先要做的就是笔画数字化,不是用一个阿拉伯数字代表笔画,如权利要求10所述,其特征是要用计算机的二进制数字1和0来表术笔画,建立相应的数学表达式, 为数字化汉字打下一个好的基础。用五位二进制数字的0和1来表述笔画00000- 00001 丨 00010 j 00100、01000 χ 10000 L 11000 ^01100、00110 ^ 00011 ^00101 <01001 10001 ” 10010 > 10100 π 11100 L01110 乙 00111 Λ 01011 j10011 、 10101 1 11001 J 11010 y 10110 L11110 11101 11011 ι 10111 L 01111 勹11111、11010 '、|
用四位二进制数字的0和1来表述笔画在字中的具体位置0000 左 0001 中 0010 右 0100 上 1000 下 1010 左上 0101 左中1100左下0011右上1001右中0110右下1110上中0111下中用三位二进制数字的0和1来表述笔画在字中的状态000单 001交 010 二交 100三交 111四交 110重101三重 011四重用一位二进制数字的0和1来表述笔画的形状0 短1 长这样我们就可以用二进制字符准确表术汉字中的每一个笔画,从而得出汉字的数字化表达式,比如0000000010001这个字符串所表达的内容是在正中间单独的一长横;0001010100010这个字符串所表达的内容是在左上角的一个单交叉的短撇;这样我们用一个十三位的二进制0和1的字符串,就可以完整地表达笔画在字中的全部信息,通过对汉字每一个笔画的详细描术,并嵌入到芯片中,再经过简单机内计算, 就可得出我们所需要的字来,理想的中文数字化才能实现,汉字输入(把汉字弄到计算机内)才能彻底摆脱那一大堆繁复庞杂的累赘,象输入英文一样打汉字,最终实现汉字的无编码输入,人(字)机无障碍直接交流。
权利要求
1.一种计算机汉字数字笔画输入方法,其特征在于用一套编码在不同键位的键盘上输入汉字。
2.如权利要求1所述的一种计算机汉字数字笔画输入方法,其特征在于以汉字的笔画作为基本输入单元和编码元素。对笔画进行分析可以发现一些带有普遍和规律性的现象即由笔画组成汉字的过程,就是笔画的相邻、相交、重复、相连的不断变化与组合。相邻度笔画与其它笔画在汉字中前后相随出现的程度,即一笔画可以与多少其余笔画在组字时相邻(相邻度高的笔画其编码离散度也高,反之相邻度低的笔画编码离散度也低)。相邻率笔画与另一笔画相邻后在汉字中出现的次数(相邻率高的笔画其编码区别度低,反之则高)相交度笔画与其它笔画在汉字中相交的程度,即一笔画可以与多少其余笔画在组字时相交(相交度高的笔画其编码聚合度高,反之则低)。相交率笔画与另一笔画相交后在汉字中出现的次数(相交度高的笔画其编码区别度低,反之则高)。首笔率笔画在汉字的第一笔出现的次数(首笔率高的笔画编码的码位集中度高,反之分散度)。次笔率笔画在汉字的第二笔出现的次数(次笔率高的笔画编码的码位集中度高,反之分散度高)。重复率笔画在组字时连续出现在同一位置的几率,双重、三重、四重的都有, 如果两个字中出现相同的笔画重复结构,会使码串变的很长,如不采取措施,重码不可避免,重复结构在文字中现的频率还是很高的,好在重复的范围不大,仅有6个笔画丨.).、.< .(横、竖、撇、点、撇折横、撇折点)有重复现象;还有一种重复现象也很普遍,就是笔画结构(部件)的重复,它也是编码的一个难题。
3.如权利要求1所述的一种计算机汉字数字笔画输入方法,其特征在于根据笔画在组字时不同状态,把笔画分为单、复、交、连四种类形,单…独立存在于汉字中的笔画;复…连续在同一位置出现的笔画和笔画结构(部件);交…笔画与笔画相互交叉,依交叉点(笔画穿过其它笔画)数量的不同把交叉分为两种,笔画相交为单交、笔画与多笔画相交为连交;连…笔画首尾相连接形成闭环,表现为汉字的口(含各式各样大小不同的完整的口和框)。
4.如权利要求3所述的一种计算机汉字数字笔画输入方法,其特征在于依据笔画在组字时的不同状态给笔画分别编出[正码]和[交码],形成一套在各种键位的键盘上都能使用的通用编码,逐步实现中文信息传输的通码,这是一种不改变汉字的组字结构和完整性,以笔画在整字中的自然状态为依据的编码方式,可以在不增加任何思维和记忆负担的前提下,实现对汉字无歧义的精确编码,并且在最短的码位上达到最强的识别度,真正做到使汉字无重码输入。规则是正码…笔画单独存在时的编码;交码…交重码,笔画交叉、重复后的编码,单交时取笔顺在前的笔画一码;连交时取交叉点(笔画穿过其它笔画数)多的笔画一码(交叉点相同时依笔顺);重复的笔画作为整体取一码;口…作为整体取码9 ;重叠的笔画结构(部件)…作为整体取码9。
5.一种汉字输入方法,把汉字的笔画按特定规律分配在不不同的键位上。
6.如权利要求5所述的一种计算机汉字输入方法,其特征在于在不同的键盘上把笔画有规律的进行分配,其映射安排以[正码]笔画(交码)的形式列举(1)笔画在9位键盘(手机)上的分布 [11--L J (5) [2] [ (6) [3] J 广(7) [4]"、7 J (8) [5] χ ^ (1) [6] Z^ L (2) [7] ζ L (3) [8]、乙勹(4) [9] 3飞3 ( 口)(2)笔画在沈位键盘(电脑)上的分布[q] χ (t) [w] < (y) [e] > (u) [r] 7 ⑴ 7[t] > (q) [ν] ι (w) [u] L (e) [i]乙(r) [ο]飞(口)[ρ]勹(ν)[a]-(g)[s] [ (h) [d] J (j) [f] .、(k)[g] τ (a) [h] L (s) [j] ζ (d) [k]、(f) [1] V)(叠) [ζ] j (b) [χ] 1、(η) [c] ι (m) [ν] J (ρ)[b]y (ζ) [η] L (x) [m] (c)(3)笔画在48位键盘(中文键盘)的键盖上有显示,只要按照标识直接击键即可,与英文输入相同,完全实现了中文输入的简单、轻松、自然。
7.如权利要求4、6所述的一种计算机汉字数字笔画输入方法,其特征在于 依据编码规则和笔画键位分布,其取码方法是按照偶数码+奇数码+余码的顺序提取汉字的编码(单字编码最长6码,一码字即[键名字]9个,在沈位字母键盘上为沈个,分别取自一笔画字、一码即出的字和少量高频字)。 偶数码…汉字整字的第2、4、6、8…码; 奇数码…汉字整字的第1、3、5、7…码;余码…重叠的笔画结构(部件)的首码和交、重结构剩余笔画的码。 这种“偶”先“奇”后的取码方式,可以最大限度的提高码串质量,在提高了编码的聚合度(减短码长,减少击键次数)的同时,也强化了编码的区别度(增加码的离散性,消灭了重码)其最终效果是对笔画多的字(20画以上)仅用其偶数码就可以准确地加以识别;对笔画少的字(8画以下)再续打奇数码即可辩识绝大部分;少数不能析出的字,加打余码后即可全部识别,直接感觉是复杂难记的字其编码变的很简单,易记易认的字因平时对其笔画结构就了熟于心,打满全部笔画也不觉困难,这就是偶奇码的双向趋益功能。
8.打字以汉字书写笔顺为序,按“偶”先“奇”后原则依次输入汉字的编码,所需的字出现时按确认键即可,输入词组或短句时在第一字出现时,不按确认键,继续输入第二、 三……字的码,后面的字不需输完全码即可见字,且越靠后所需的码越少,减少击键次数, 节约时间。例输入“载”字,在9键位的键盘上它的全码是观56,实际输入观5即出字,在沈位键盘上它的全码是skgn,实际输入skg即出字, 在48位中文键盘上直接击该笔画的键即可出字。不同结构汉字的编码如铁 5343 中 62 承 8344 髋 682585 己 7 齄 99126 跟 2353 再 3165 姓 3166 斩 72213 九 47 符;3592 惕 8978 注 7114 接 8818 愚 6686 缘 747 O 1111 ii 285 我 53 斜 45853 饭 4733 毁洸123 柬 864
9.功能键在9键位键盘上,(0)键为确认[回车]键;(*)键为删除键;(#)键为空格键;在沈位和48位键盘上则不改变其功能键设置。
10.技术扩展经过分析不难看出,上述所谓的数字笔画,只不过是表面的、简单的,甚至可以说是“伪数字化”的,它只能解决表层显示问题,并不是真正的汉字数字化,不能解决本质问题,但它可以说是一个开端,要想实现从机内码存储开始,到模型计算,到机外显示, 需要做大量的理论突破,首先要做的就是笔画数字化,不是用一个阿拉伯数字代表笔画,而是要用计算机的二进制数字1和0来表术笔画,建立相应的数学表达式,为数字化汉字打下一个好的基础。用五位二进制数字的0和1来表术汉字的笔画 00000- 00001 丨 00010 j 00100 V OlOOOx 10000 L 11000 ,01100、 00110 ^ 00011 x00101 < 01001〉10001 7 IOOlOO IOlOOn IIIOOl 01110 乙 00111 飞 01011 ] 10011、10101 1 11001 j 11010 10110 L 11110 11101 彳 110111 10111 L 01111 勹 11111、11010 H 用四位二进制数字的0和1来表术笔画在汉字中的位置 0000 左 0001 中 0010 右 0100 上 1000 下 1100左下0011右上 1001右中 0110右下1110上中用三位二进制数字的0和1来表述笔画在字中的状态 000单 001交 010 二交 100三交 111四交 110重用一位二进制数字的0和1来表述笔画的形状 0短 1长这样我们就可以用二进制字符准确表术汉字中的每一个笔画,从而得出汉字的数字化表达式,比如0000000010001这个字符串所表达的内容是在正中间单独的一长横; 0001010100010这个字符串所表达的内容是在左上角的一个单交叉的短撇; 通过对汉字每一个笔画的详细描术,并嵌入到芯片中,再经过简单机内计算,就可得出我们所需要的字来,理想的中文数字化才能实现,汉字输入(把汉字弄到计算机内)才能彻底摆脱那一大堆繁复庞杂的累赘,象输入英文一样打汉字,最终实现汉字无编码输入,人 (字)机无障碍直接交流。
全文摘要
本发明公布一种计算机数字笔画的输入方法及键盘技术,属于汉字信息技术领域,以组成汉字的笔画为编码元素,依笔画在汉字中的不同状态,把笔画分为单、复、交、连四类,给每个笔画分别编正码交码,并循特定规律把笔画分配于键位上,按国标规范的笔顺顺序,以偶先奇后的方式完成输入,是用一套编码在不同键位的键盘上输入汉字的通码,实现了中文无重码输入,软件可以嵌入各种手持设备、游戏设备、自动控制设备和各类操作系统中,为汉字数字化奠定基础。
文档编号G06F3/023GK102253726SQ20111005285
公开日2011年11月23日 申请日期2011年3月7日 优先权日2011年3月7日
发明者狄铁超 申请人:狄铁超
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1