一码二形快速中文数字编码输入方法

文档序号:6330659阅读:329来源:国知局
专利名称:一码二形快速中文数字编码输入方法
技术领域
本发明涉及一种基于数字键盘输入汉字的方法,具体地说是涉及一种可用于在手机、计算机、PDA及特制鼠标为主的可用数字键盘上进行中文输入和字词典编排的一码二形快速中文数字编码输入方法。
为实现上述目的,本发明的技术方案包括a、在每个数字键盘上各自设定对应的汉字笔形,其中数字键“1”对应的汉字笔形为“—”和“艹”,数字键“2”对应的汉字笔形为“ニ”和“丨”,数字键“3”对应的汉字笔形为“氵”和拐两个以上弯的单笔画,数字键“4”对应的汉字笔形为“钅”和其中至少一笔为斜状的两单笔相交的笔形,数字键“5”对应的汉字笔形为“木”和一边开口的框,数字键“6”对应的汉字笔形为撇“丿”和向左下方斜的点 数字键“7”对应的汉字笔形为捺“” 和向右下方斜的点“丶”,数字键“8”对应的汉字笔形为“ハ”(含“丷、人”)和“亻”,数字键“9”对应的汉字笔形为“扌”和只拐一个弯的折钩,数字键“0”对应的汉字笔形为“口”和“广”;b、依据上述设定的各种笔形对汉字进行拆分,并按照如下的规则对每个汉字取码(1)按汉字的书写顺序拆分出上述设定的笔形,依次取该字中拆分出的第一、第二、第三和最后的笔形所对应的数字键为代码,作为该汉字的编码,拆分不足四个笔形的字,其编码与实际拆分所得的笔形相对应;(2)合体字第一部位限取两个笔形,第三个笔形必须转入下一个部位获取,第四笔形还是与该字的最后一笔相关的笔形;(3)当同时可取多种笔形时,在默认多笔画笔形优先的前提下再按笔顺优先的原则,选取先写出的笔形;(4)一边开口的框和“口”这些笔形不受笔顺影响,应当整取,但“口”笔形中所含的笔形不与其他笔形连取。
作为对本发明的进一步改进,词或词组的取码按如下规则(1)二字和三字词语依次取前两个字中各自的第一、第二笔形和最后一个字的与最后一笔相关的笔形编码;(2)四字及四字以上的词语取前四个字中的第一笔形和最后一个字中的与最后一笔相关的笔形进行编码;(3)按照上述词或词组的取码规则,当某部位已被前边部位取过而无法取码时,则该部位的代码重复前一代码,使词码的长度始终保持五位数。
本发明与现有技术相比具有以下的优点第一,重码率极低。虽然字码长度仅4码(与一般字母编码长度相同)、词码长度仅5码,重码率却低得出奇。本发明由于充分考虑了汉字笔形分布的规律及方便记忆、操作等因素,使得每一数字在字码的四位数中的各个数位上出现的可能性比较均衡,从而克服了四角号码及其他数字编码的根本缺陷(如四角号码“七角八八九是小”的规定,使7在第四位、8和9在第三位出现的可能性极小;而五笔数码“4点捺”的规定,又使得4在首尾两部位出现的可能性太大),充分利用了编码资源,大大降低了重码率。从理论上讲,四位数可编1万个汉字;再考虑每屏6字的因素,则理论上可编6万个字。而国家语委规定的通用汉字仅为7千个,所以只要方法得当,数字编码重码率过高的现象是可以克服的。本发明对7千通用字编码后,大多数为一字一码;按每屏6字计,需要翻页(即超过6字重码)的70多处,仅占编码字的7%左右;最高重码字是13、14个,各一处;对于国家语委颁布的3500个常用汉字来说,全部可以在首屏出现。这么低的重码率,可以说是以往任何数字编码都无法比拟的,甚至超过了许多字母编码技术。字母编码的码长如果是四位的话,理论上可编汉字是45.7万之巨,它与数字编码是45.7∶1的关系,而且字母编码一般是每屏待选字10个。
第二,学习掌握极易。虽然重码极低,使用的汉字部件却极少,仅20余个(五笔是200余个),使得学习和操作容易得出奇。由于一个数字仅表示两种笔形,完全可以做到将两种笔形标识在数字键盘之上,初学者在读懂非常简单的编码规则后,即可看着键盘进行编码输入,不需记忆;如果把4句28个字的口诀记住了,则可不看键盘进行编码输入(是最容易进行“盲打”操作的输入法),极大提高操作速度。
第三,容量极大。虽然仅用10个数字进行编码,但容量却非常大,而且字词不会重码。字码长1-4码,词码长5码,字词不重,既极大地降低了重码率,又极大地增大了编码的容量(字约7千,词超3万),而且提高了编码操作速度。
第四,误编码极少。虽然编码规则简单,但误编码的可能性极小。本发明为汉字笔形进行了非常科学的归类,比如,将撇和向左下斜的点作为一类,将捺和向右下斜的点作为一类,将所有拐一个弯的笔画都作为钩处理等。另外,出于更完善的考虑,还作出了一些特殊规定,对极个别极易搞错笔顺的字用两套编码对应同一个字(词遇此情况也是同一个词对应两套编码)。
第五,完善程度极高。本发明对标点、英文字母、常用符号的数字编码并实行兼容操作,使本输入法达到十分完善的地步。本发明用同一规则对中文标点、英文字母和常用符号进行数字编码,让用户不用转换功能键、启用特设键即可实现标点、字母、符号的输入。
本发明在每个数字键盘上各自设定对应的汉字笔形,用一个阿拉伯数字基本上代表两种汉字笔形,具体情况如下数字键“1”对应设定的笔形为“—”和“艹”,即横和草头,如“廿”字可拆分出笔形“艹”和“—”,其编码是11;另外笔形提 可看作和笔形横“—”相同;数字键“2”对应设定的笔形为“ニ”和“丨”,即两横和竖,如“王”字可拆分出笔形“ニ”和“丨”,其编码是221;另外笔形一横一提“ ”可看作和笔形两横“ニ”相同,“北”字可拆分出笔形 和“丨”,其编码是2263;数字键“3”对应设定的笔形为“氵”和拐两个以上弯的单笔画,拐两个以上弯的单笔画包括“乙、乚、 ㄋ、 ”等,如“泔”字可拆分出笔形“氵”,其编码是312、“也”字可拆分出笔形“ 乚”,其编码是323;数字键“4”对应设定的笔形为“钅”和其中至少一笔为斜状的两单笔相交的笔形(其中至少一笔为斜状的两单笔相交笔形包括“ㄨ、ナ、カ、ヌ”等),如“针”字可拆分出笔形“钅”,其编码是412,“戏”字可拆分出笔形“ヌ”等,其编码是4467;数字键“5”对应设定的笔形为“木”和一边开口的框,一边开口的框包括“匚、凵、冂、コ”等,如“枢”字可拆分出笔形“木、匚”,其编码是554,“岷”字可拆分出笔形“凵、コ”其编码是2554;数字键“6”对应设定的笔形为撇“丿”和向左下方斜的点 如“升”字可拆分出笔形“丿”,其编码是642、“冗”字可拆分出笔形 和“丿”,其编码是6963;数字键“7”上对应设定的笔形为捺“ ”和向右下方斜的点“丶”,如“杖”字可拆分出笔形“”,其编码是547,“飞”字可拆分出笔形“丶”,其编码是367;数字键“8”对应设定的笔形为“ハ”和“亻”,笔形“丷、人”可看作与如笔形“ハ”相同,如“伞”字可拆分出笔形“人、丷”,其编码是8812,“俩”字可拆分出笔形“亻”和“人”,其编码是8158;
数字键“9”对应设定的笔形为“扌”和只拐一个弯的折钩(只拐一个弯的折钩包括“、∠、く、亅、乛”等),如“掐”字可拆分出笔形“扌”和“乛”,其编码是9695,“可”字可拆分出笔形“亅”,其编码是109;数字键“0”对应设定的笔形为“口”和“广”,如“咽”字可拆分出笔形“口、囗”,其编码是0047,“病”字可拆分出笔形“广”,其编码是0718。
为方便记忆,将以上的笔形设定可形象地编为如下字码口诀“一草二竖三水淌,四金斜交五木框,六撇七捺八人旁,九手一钩零口广。”通过上述每个数字键盘上的汉字笔形设定,依据设定的各种笔形对汉字进行拆分,并按照如下的规则对每个汉字取码(1)按汉字的书写顺序拆分出上述设定的笔形,依次取该字中拆分出的第一、第二、第三和最后的笔形所对应的数字键为代码,作为该汉字的编码;拆分不足四个笔形的字,不足四个笔形的不须补足四码,其编码与实际拆分所得的笔形相对应。如“乘”字可依次拆分出笔形“丿、—、丨……ハ”,编码为6128,“庇”字可依次拆分出笔形“广、—、……乚”,编码为0193,“为”字可依次拆分出笔形“丶、カ、丶”,编码是747。
(2)合体字第一部位限取两个笔形,第三个笔形必须转入下一个部位获取,第四笔形还是与该字的最后一笔相关的笔形;合体字一般为上下、上中下、左右、左中右、外内、半包围等结构的字体,当第一部位可拆分出超过两个笔形时,取第三笔形时必须转入下一部位。如“转”字的第一部位可拆分出“、丨、—”,此时第三笔形不取“—”,而是转入下一部位取“ニ”,其编码是4227而不是4217,“动”字的第一部位可拆分出“ニ、 ㄥ、丶”,此时第三笔形不取“丶”,而是转入下一部位取“カ”,其编码是294而不是2974。
(3)当同时可取两种以上笔形时,首先以“多笔画笔形优先”原则,如在取“二”、“木”笔形时不取“—”的代码1,而取“二”的代码2或“木”的代码5。在此前提下遇多笔形交织在一起时,再以“笔顺优先”为原则选取笔形如“奉”字第一部位的笔画顺序是横横横撇捺,则第一笔形取“二”而不能取“ナ”,第二笔形才取“ナ”,加上第二部位取“二”和“丨”,编码为2422而不是4222;“未”的编码是228,而不是51或15等;“女”的编码是41不是46。“成”的第一笔“横”与“斜钩”相交且不存在同时取两种以上笔形的问题,故第一笔形取4,编码为4637而不是1637;“身”的编码是6242而不是6234。
(4)“匚、凵、冂、コ”等一边开口的框和“口”这些笔形不受笔顺影响,应当整取,但其中所含笔形不与其他笔形连取。如“枢”的编码是554而不是5149,“但”的编码是8011而不是8521或802,“果”的编码是015而不是525或0228,“因”的编码是047。
将以上内容概括为如下编码口诀“前三后一字码取,首部两笔要转移;优先多笔和笔序,框口整取莫分离。”另外,按照上述笔形代码和编码规则即可对所有汉字进行编码,并且不会产生误编码。但问题在于一些人对部分汉字的规范书写顺序不是十分清楚,容易习惯性误写,影响编码的正确性。为最大程度地减轻实际可能存在的误编码,对“火”字和竖心旁“忄”的代码,特别规定为88和82;对“乃”、“及”等最难分清笔序的字,本发明用两套编码对应同一个字,使用户误编也一样打出字词。如“奶”的正确编码是4136,但编为4163也可;“笈”的正确编码是6164,但编为6138也可。
本发明对词语的取码作了相应的规定,将词语编码的长度一律定为5位数,理论上可容纳10万个词语;如允许每个码重复3次,则可编30万个词语。实际上常用词语3万左右,本发明按照以下规则对这些词语进行编码,重码率更低。这里所说的词语,既包括词和词组,也包括常用的习惯性用语。词语编码分为四字以下(不含四字)和四字以上(含四字)两类。
(a)四字以下词语,即二字词和三字词,依次取前两个字中各自的第一、第二笔形和后一个字的与最后一笔相关的笔形编码。如,“地图”的编码是12067,“就是说”的编码是71013。
(b)四字及四字以上的词语取前四个字中的第一笔形和最后一个字中的与最后一笔相关的笔形进行编码。如,“空前绝后”的编码是78960,“中国人民银行”的编码是00859。
(c)按照上述词或词组的取码规则,当某部位已被前边部位取过而无法取码时,则该部位的代码重复前一代码,使词码的长度始终保持五位数。如,“广大”的编码是00477,“一路上”的编码是11022,“表里如一”的编码是20411。
另外当词语末笔笔形不与上一笔笔形关联时,不必考虑字的编码。比如,“妹”字的编码是4128,但“妹妹”的编码却是41415,而不是41418;“国”字的编码是0227,但“中华人民共和国”的编码为08850,而不是08857。这样将更有利于提高编码速度。
以上主要内容编为如下词码口诀“前二字前二笔,后一字后一笔;四字首笔加末笔,五码有缺重复齐。”利用本发明数字键盘上设定的笔形和取码规则,还可对常用标点符号按形似进行数字编码,一看便知,极易记住。这样,就不用专设标点符号键,使编辑输入速度更加快捷。
1.单笔标点的代码单笔(一笔可写出)且只占一个汉字位置的标点,用一个数字作代码。具体说明如下句号、中位圆点的代码是0,波浪号的代码是3,前括号、前单引号和左斜杠的代码是6,顿号的代码是7,逗号、后括号和后单引号的代码是9(见下表)。
2.其他标点的代码除省略号外(省略号的代码特定为0000),其他标点均用两个数字作代码。具体说明如下分号的代码是09,破折号的代码是11,感叹号的代码是20,问号的代码是30,前双引号和前书名号的代码是66,后双引号和后书名号的代码是99,冒号的代码是00(见下表)。

利用本发明数字键盘上设定的笔形和取码规则,还可对常用符号按其起始形状作为归类根据进行数字编码,满足更多的需要,并且简捷方便。常用符号编码基本上以符号的起始形状作为归类根据,将60种常用符号分别用0-9作为代码0代表圆圈、圆点起始的6种符号,1代表横起始的6种符号,2代表竖和二起始的6种符号,3代表弯曲形状的6种符号,4代表斜交形状的6种符号,5代表框状及方框、菱形状的6种符号,6代表含左斜状的6种符号,7代表含右斜状的3种符号及3个罗马数字,8代表“人”字状起始的6种符号,9代表一折状的6种符号。具体符号代码见下表

另外,利用本发明数字键盘上设定的笔形和取码规则,对英文字母也可进行数字编码,实现英文字母的快速输入。
1.大写字母的代码大写字母最多三笔可写出,因而不用考虑编码规则,只按习惯书写顺序编码即可(圆形、半圆形分别用0、5作代码,见下表);

2.小写字母的代码和输入小写字母的代码是相应大写字母的编码加0,并且在编码的同时完成输入。选定大写字母后,这时如果需要小写字母则按0键将大写字母转换成小写字母并直接送屏。
权利要求
1.一种一码二形快速中文数字编码输入方法,其特征在于a、在每个数字键盘上各自设定对应的汉字笔形,其中数字键“1”对应的汉字笔形为“—”和“艹”,数字键“2”对应的汉字笔形为“ニ”和“丨”,数字键“3”对应的汉字笔形为“氵”和拐两个以上弯的单笔画,数字键“4”对应的汉字笔形为“钅”和其中至少一笔为斜状的两单笔相交的笔形,数字键“5”对应的汉字笔形为“木”和一边开口的框,数字键“6”对应的汉字笔形为撇“丿”和向左下方斜的点 数字键“7”对应的汉字笔形为捺“”和向右下方斜的点“丶”,数字键“8”对应的汉字笔形为“ハ”(含“丷、人”)和“亻”,数字键“9”对应的汉字笔形为“扌”和只拐一个弯的折钩,数字键“0”对应的汉字笔形为“口”和“广”;b、依据上述设定的各种笔形对汉字进行拆分,并按照如下的规则对每个汉字取码(1)按汉字的书写顺序拆分出上述设定的笔形,依次取该字中拆分出的第一、第二、第三和最后的笔形所对应的数字键为代码,作为该汉字的编码,拆分不足四个笔形的字,其编码与实际拆分所得的笔形相对应;(2)合体字第一部位限取两个笔形,第三个笔形必须转入下一个部位获取,第四笔形还是与该字的最后一笔相关的笔形;(3)当同时可取多种笔形时,在默认多笔画笔形优先的前提下再按笔顺优先的原则,选取先写出的笔形;(4)一边开口的框和“口”这些笔形不受笔顺影响,应当整取,但“口”笔形中所含的笔形不与其他笔形连取。
2.根据权利要求1所述的一码二形快速中文数字编码输入方法,其特征在于,词或词组的取码按如下规则(1)二字和三字词语依次取前两个字中各自的第一、第二笔形和最后一个字的与最后一笔相关的笔形编码;(2)四字及四字以上的词语取前四个字中的第一笔形和最后一个字中的与最后一笔相关的笔形进行编码;(3)按照上述词或词组的取码规则,当某部位已被前边部位取过而无法取码时,则该部位的代码重复前一代码,使词码的长度始终保持五位数。
3.根据权利要求1所述的一码二形快速中文数字编码输入方法,其特征在于,对常用标点符号按上述数字键对应笔形并兼顾形似取码为(1)一笔可写出且只占一个汉字位置的单笔标点,用一个数字作代码,其中句号、中位圆点的代码是0,波浪号的代码是3,前括号、前单引号和左斜杠的代码是6,顿号的代码是7,逗号、后括号和后单引号的代码是9;(2)其他标点均用两个数字作代码,其中分号的代码是09,破折号的代码是11,感叹号的代码是20,问号的代码是30,前双引号和前书名号的代码是66,后双引号和后书名号的代码是99,冒号的代码是00;特别规定省略号的代码是0000。
4.根据权利要求1所述的一码二形快速中文数字编码输入方法,其特征在于,对常用符号按其起始笔形作为归类根据,将六十种常用符号进行取码其中圆圈、圆点起始的“·÷。○●◎”六种符号取码为0;横起始的“-+-→”六种符号取码为1;竖或二起始的“丨=≠#↓№”六种符号取码为2;弯曲形状的“@ &§≈∽∫”六种符号取码为3;斜交形状的“× $ ※ * ★ ∮”六种符号取码为4;框状及方框、菱形状的“[ ]■□◆◇”六种符号取码为5;含左斜状的“%/∥‰ ”六种符号取码为6;含右斜状的“\” 三种符号及三个罗马数字“I II III”取码为7;“人”字状起始的“∧¥↑▲△☆”六种符号取码为8;横折状的“∨< >←≤ ≥”六种符号取码为9。
全文摘要
本发明公开了一种一码二形快速中文数字编码输入方法,基于数字键盘对每个数字代表规定的两种汉字笔形,按前三后一的书写顺序对每个汉字的笔形进行编码,每字最多编为四位数码,词语按简单规则编成五位数码;将这些笔形标于计算机、手机、特制鼠标等一切需要进行中文输入的数字键盘上,即可进行中文输入操作。本发明完全以数字为代码,实现对中文字、词语、常用标点、常用符号和英文字母的编码输入,重码极低,易学会,操作速度快,使其成为更具应用的广泛性和操作的便捷性的“快乐数码”。
文档编号G06F3/023GK1460913SQ0312675
公开日2003年12月10日 申请日期2003年6月4日 优先权日2003年6月4日
发明者王仁法 申请人:王仁法
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1