一种汉字数码键盘输入方法

文档序号:7848880阅读:248来源:国知局
专利名称:一种汉字数码键盘输入方法
技术领域
本发明属于汉字信息处理技术,是一种汉字的数字键盘输入方法,特别适用于手机、电子记事本、收款机等小型电子设备的数字小键盘的汉字输入方法,当然也适用计算机上数字键盘的汉字输入。
背景技术
随着手机、收款机等小型电子设备的迅速发展,必须配以数字小键盘为操作工具的汉字数码输入方法。现有的此类数字键盘输入方法有两种,一是汉语拼音法,二是汉字笔画法,这两种数码输入法都存在按键次数太多,重码率太高,速度慢的缺点。本发明的目的在于提供一种按键次数更少,重码更低,速度更快些的汉字数码键盘输入方法。

发明内容
本发明构思源自汉字字典的传统检字方法的偏旁部首和四角号码法,将各有利弊的部首法和四角号码法加以改造,取其所长融合而成的,即选择少于100个部首和笔画作为组成汉字的构件,并对这些构件依照他们的特征予以归纳分类,以1、2、3……9、0等10个数码代表这些构件。然后在配以若干条取码规则,组成完整的汉字编码方法。有了该编码方法,就可依此使用电子设备的数码键盘将汉字存入或取出。下面对本发明一种汉字数码键盘输入方法的具体内容做详细说明。本发明方法包括如下步骤第一步、选定汉字组字构件。
首先深入分析汉字部首检字法,研究如何将汉字二次查找变成一次查找。汉字部首检索法就是先查部首再查这个部首中的汉字,我们叫二次查找法,而不能象查英文字典那样一次查找,如果我们要实现汉字的一次查找就要研究二个问题。一是汉字部首的数量问题,现在新华字典的部首为189个,权威的康熙字典为214个,古老的《说文解字》有540个部首。这说明随着文明的发展,汉字的部首是在减少的,但减少的速度是非常缓慢的,正如有些专家说的,要使部首减少到100个以内就是很大的成功。二是汉字部首的位置问题。人们在经常查字典中发现,绝大部分的部首都在字的左边、上方、左上方或外框上,这类字要占九成以上,同时有少数字其部首所在位置不定,上下、左右、内外都有,因此有些字是很难查到的。能否对这些字的部首也限制在字的左方、上方、左上方或外框上,这就是我们所说的部首统一原则。以上两个问题统一起来,就是如何选择部首了。研究表明,部首个数多少,与重码率密切相关,部首个数少,重码率会上升。依照上述几个原则,一个最佳方案是选用88个部首,使重码字最多不超过8个字。
为了与传统汉字部首相区别,我们把筛选确定的88个笔形不叫部首而是统一称为构件。这些构件既要符合传统部首的要求,能够将所有的汉字包括繁体字都能够表达出来,又要符合汉字简化后的要求,如简化后引进的多折笔形都是一笔画;这些构件既是标准汉字的科学拆分,如要求对所有汉字的部首唯一,没有二义性;更要贯彻汉字交重笔画不能拆分的原则。为此在88个构件中,引进“叉”和“串”两类笔形,可以表达所有含有交重笔画的交重字。这88个构件可以分为三类笔形,一是基本笔画,包括横(一)、提 撇(丿)、竖(丨)、钩(亅)、点(丶)和捺()共7个,可以看出,与原有的传统基本笔画相比,只是去掉折(乙、 乚)而加进了钩(亅)。二是简码字26个,原为部首字有一、水、巾、田、十、口、目、皿、日、曰、厂、又、八、人(入)、卜、小、心、几、月、金共20个,另有七、丰、丈、卅、匕、的共6个,这是新华字典上部首字中所没有的。我们之所以把“的”字定为简码,是因为在汉字应用中出现“的”字频率最大。三是余下的55个为复合笔画,有的是作为简码字的变形,有的是作为数字码的象形而引进的。这88个汉字构件的笔形与代码如下表所示。
这些汉字构件及其代码的主要内容可以用四句口诀来表述一横二垂三点水,四叉五串六方框,七角八八九头小,零几双角月皿金。而这四句口诀中的核心内容又是“一横、二垂、三点、四叉、五串、六方、七角、八八、九小、零双角”。从这88个构件在汉字中出现的频率来看,这一核心内容(即“一横、二垂、三点、四叉、五串、六方、七角、八八、九小、零双角”)已占绝大部分。显然这一核心内容是十分便于学习和记忆的。
第二步、按照下述的一定取码规则,对国家标准GB/T18031-2000《信息技术数字键盘汉字输入通用要求》的《信息交换用汉字编码字符的基本集》的6763个汉字(其中部首46个)逐一进行编码,每个汉字有一组唯一由1-4位数组成的数码。结果显示这6763个汉字的数码完全不同的占39%,重码最多不超过8个字,从而做到在手机显示屏上不必翻页。
第三步、依照上述每个汉字的编定的数码,对电脑汉字库内的汉字进行编码,即对每个汉字的编码数字在电脑键盘上的1、2、3……9、0等10个数字键的对应键上击键一次,将每个汉字的数字编码存入电脑内,建立汉字数码信息库,如需检索汉字时,只需在电脑汉字操作系统下,将该汉字的数码键入,就可取出所查的汉字。这就是本发明方法的全过程。
前面所说的取码规则包括1、取码总则。它可用四句口诀表述左上取码顺时转,最多只取四个码,笔画交重不拆分,连离可分要取大。即每个字都从左上角开始取第一码,然后按顺时针方向旋转依次取第二、第三、第四码,而且最多只取四个码。至于第二、三、四码具体在何处取,要依不同字体结构而定。取码遇到交重笔画时,不能把他们拆分开来,要看成整体来进行取码。例如“弋”取43,“戈”取53,是对号入座。对于那些表面分离的而内在有联系的笔画,要尽可能把它看成整体进行取码,例如“尸”取62而不能取别的码,“尺”应取为68而不能取632。
2、取码“序位”规则。汉字是方块字,依其不同结构可以分为左右结构;左中右结构;上下和上中下结构;包围结构;混合结构。不同结构类型的字,虽然其第一码都必须从左上角取码,而且按顺时针方向转位,但其具体“序位”却是不同的,其规则是(1)左右结构的取码序位是左上角→右上角→右下角→左下角。例如“旋”取9887;“转”取4535;“但”取861;“明”取60。
必须强调,当左右结构汉字中含有“冂、门、 戊”时,对“冂、门、 戊”内的部件都要优先取码。例如;“祸”应取3608不能取3602;“焖”取9309不能取9308;“飒”取9041;“城”取4537。
(2)左中右结构的取码序位是左上→中上→右上→右下,例如“鸿”取3123;“衍”取2312;“班”取1211;“收”取7284;“师”取214。
左右(包括左中右)结构约占汉字总数的80%,可见以上两种序位规则占大多数情况。
(3)上下或上中下结构的取码序位是上方→下方→再自下而上(必要辅以自左至右)取足四码。例如“节”取59;“支”取47;“善”取8619;“兔”取2043;“五”取1147;“美”取8841;“罗”取6723。
必须特别指出,当上下结构或上中下结构汉字中含有“八、大、人、乂、又”时,如“叁”取0118;“参”取0228;“冬”取2373;“祭”取2791;“莶”取5198;“爸”取8062;“蚕”取1315;“赛”取3808;“蓦”取5317;“誉”取9611等字,从下方自下而上取码时,在“八、大、人、乂、又”下最多只涵盖一个基本笔画,其他笔画都要依次先取。
(4)冂、门、 戊、囗等包围结构字形的取码序位是先取上方和外框码→再进入框内,在框内右下部取码→再按顺时针方向自右至左或者自下至上,取足四码。例如“闩”取301;“阔”取3063;“闽”取3031;“阃”取3069;“圃”取6053;“园”取6021;“四”取672;“冈”取04;“网”044;“凰”取0141;“夙”0723;“咸”取5362;“成”取5372。
3、在字的上方或下方取码时,若有数个独立笔画可取,则要比高低而定上部高者优先,下部低者优先。字上部的点“丶”画也属优先取码之列。例如字上部的“ 夊、 夕、勹、山”都应当取“2”。又如“义”取34;“为”取3473;“书”取5377。再如字中有如“石、 勿、者”构成的字“柘”取4169;砀取1326;“竣”取9071;“履”取6782;“忽”取2927;“堵”取4461。
4、对字上下部难以区分高低的独立部件都要取。如朱、监、彖、芈、长、叟、兜、盥等字的上部的独立部件都是要取的。字下部如“乖”取2043;“弟”取8352;“姊”取4532;“韩”取4574;“岈”2142;“财”取0428。
5、交重笔画取码规则。对于交重笔画的取码,除了在总则中所讲的“不拆分”以外,还应当遵从如下细则(1)由横、提、撇、竖、钩、点、捺等基本笔画组成交重笔画时,可以多次“取码”,即可看成某一长笔画由若干段连接而成的。例如“夫、未、末、来、夹”等字其上部都要取串5,其下部就只能分别以“八、个、个、个、八”来取码了。中间还可对 取码,这里把“丿”、“丨”看成上、下二段,或上中下三段,上段构成“串”的组成笔画,下段构成“八、个”的组成笔画,中段组成 的笔画。简而言之,就是上、下取了二次或上中下三次。
(2)如果被交重的笔画不是基本笔画,则只能取一次而不得取二次。例如“沛、芾、肺、制”等字中,直“丨”的被串笔画中含有“冂”,这是非基本笔画,因而对这些字取码时“丨”不能分为上、下二段,即不能取上、下二次,所以当上部取了“串5”以后下部留下的是“冂”,而不是“巾”。又如“央、英”只能取580、5850。再如“冉”字拆为“、艹、冂”取550。
(3)若字中插串的笔画不是基本笔画,那么它所形成的“角”是应当被取码的。例如“戋、东”字中,插串的笔画是 它不是基本笔画,依前条规则,它不能折成二段,只能取一次码。但本条又规定,它自身形成的“角”将被取码。可见在这些字中的笔画 在取码过程中,实际上被用了二次。故“戋”取537;“东”取4947。
本发明方法具有下述优点构件数量少,特征明确,不易混淆,分布均匀;遵从汉字传统习惯,符合国家标准,尤其引入叉和串两类构件,实行“交重不拆”原则,确保首码唯一;每个汉字的码数有多有少,最多4码,这就是充分利用汉字信息,而且减少了重码,一码一字占39%,重码字最多的也不超过8个,因而在手机显示屏上不必翻页;全部内容集中反映在8句口诀中,易学易记,易于推广应用。
本发明方法对更多数量的汉字集如中日韩国际标准字集共有20902个汉字(GB13000),同样可以使用,只是重码字会略有增多。
权利要求
1.一种汉字数码键盘输入方法,其特征是有如下步骤(1)筛选确定如下表所列的88个笔形作为组成汉字的构件,并按照这些构件的特征,归纳分为10类,分别以1、2、3、4……9、0等10个数字予以代表,汉字构件及其代码的主要内容可以用四句口诀来表述一横二垂三点水、四叉五串六方框、七角八八九头小、零几双角月皿金;汉字数码的笔形与代码表 (2)依照下述取码规则,遵循国家标准GB/T18031-2000《信息技术数字键盘汉字输入通用要求》,对《信息交换用汉字编码字符的基本集》(GB2312-80)的6763个汉字(其中部首46个)逐一进行编码,每个汉字有一组唯一的由1-4位数组成的数码;(3)依照上述每个汉字的编定的数码,对电脑汉字库内的汉字进行编码,即对每个汉字的编码数字在电脑键盘上的1、2、3……9、0等10个数字键的对应键上击键一次,将每个汉字的数字编码存入电脑内,建立汉字数码信息库,如需检索汉字时,只需在电脑汉字操作系统下,将该汉字的数码键入,就可取出所查的汉字;所说的取码规则,有以下几条(1)取码总则也可以用四句口诀表述——左上取码顺时转、最多只取四个码、笔画交重不拆分、连离可分要取大;(2)取码“序位”规则,依汉字结构而定,即左右结构字为左上角→右上角→右下角→左下角;左中右结构汉字为左上→中上→右上→右下;上下或上中下结构汉字为上方→下方→再自下至上(必要时再辅以自左至右)取足四码;门、冂、 戊、口等包围或半包围结构汉字为先取上方和外框→再从右下角进入框内依顺时针方向自右至左或自下至上取足四码;(3)对交重笔画的取码,除总则“不拆分”以外,还应遵从以下细则由横、提、撇、竖、钩、点、捺等基本笔画组成的交重笔画,可以多次取码;如果被交重的笔画不属于基本笔画,则不得多次取码;如果字中交重的笔画不是基本笔画,那么它形成的“角”应当按顺序取码;(4)在字上方或下方取码时,若有数个独立笔画可取时,要比高低而定,上方时取最高者,下方时取最低者;字上下方难以区分高低的独立笔画都要取码;字上方、左、右角的点画“、”应当优先取码。
全文摘要
本发明提供一种以10个数字键盘为操作工具的汉字输入方法,特别适用于手机、收款机等小型电子设备的汉字信息处理,当然也适用于一般电脑。该方法的核心内容,可以用8句口诀来表达“一横二垂三点水,四叉五串六方框,七角八八九头小,零几双角月皿金”;“左上取码顺时转,最多只取四个码,笔画交重不拆分,连离可分要取大。”本方法具有构件数量少、击键次数少、重码率低;构件特征明显、不易混淆、首码唯一、分布均匀;遵从汉字传统习惯,符合国家标准,取码规则简单,易学易记,便于推广等优点。
文档编号H04M1/23GK1525296SQ20041001658
公开日2004年9月1日 申请日期2004年2月24日 优先权日2003年3月1日
发明者谭国政 申请人:谭国政, 谭文武
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1