一种数字码输入法的制作方法

文档序号:6444698阅读:240来源:国知局
专利名称:一种数字码输入法的制作方法
技术领域
本发明涉及一种汉字输入的方法,特别是一种将一个汉字分拆成多个基本的、可以共用的末级部件(中文字母)并通过数字键进行输入的方法。
背景技术
随着信息技术的不断发展,中文处理,即如何在计算机中输入、保存、显示和打印汉字,变得越来越重要。要进行中文处理,首先必须将汉字数字化存储在计算机中。然而,汉字的产生不像英文、法文、德文和拉丁文等西方文字,是用有限而固定,数量也不多的字母组合而成的。中文最大的特色是每一个汉字都是通过六书,即象形、指示、会意、形声、转注和假借等六种方法演变而来的,其中绝大多数汉字包含多个部件,有的部件表示汉字的读音,有的部件表示汉字的意思,有些部件是从左至右组合的,有的部件是从上至下组合的,有的部件是由外而内组合的。目前世界上尚无一种编码的方法能够直接表达汉字的所有特性。现在常用的汉字编码方法,即我们常说的内码,都是采用一字一码的方法来表示的。例如,国家标准的GB2312和GB18030,台湾、香港和澳门常用的BIG5,国际标准的UNICODE等各种编码方式都是取一定数量的汉字,或者根据汉字的读音,或者根据汉字的笔画多少,或者根据汉字的偏旁部首进行排序,再按照所排的顺序对每个汉字赋一个数字(码位)作为编码。在一些编码方案中还会留出一部份区域作为造字区,用户可以造出自己需要的字放在造字区。但是除非两个用户使用同一个字库,否则一个用户所造的字在另一个用户的计算机里是无法正确处理的。
由于内码和汉字之间是采用一字一码方式建立的一一对应关系,汉字的音、形、意与内码之间没有任何关系,为了方便汉字输入,人们发明了很多种不同的汉字输入法。这些汉字输入法基本上可以分为三类整字输入法,部件输入法和笔画输入法。
整字输入法以拼音输入法为代表,包括国内常用的全拼、双拼、智能拼音和台湾常用的注音等许多种输入法。它的主要特点就是不对汉字进行拆分,而是直接输入整个汉字。以拼音输入法为例,由于汉字的发音主要是由声母、韵母和音调三部分组成,拼音输入法通过在键盘按键与汉字声母和韵母之间建立对应关系来输入声母和韵母,再通过声母、韵母与内码的对应关系来查找相应的汉字。有些拼音输入法还可以输入音调来减少重码率。整字输入法的一个重要问题是重码率的问题。由于没有利用汉字的形和意,而汉字有很多字的读音是相同的,整字输入之后常常需要从很多汉字选出需要的一个,这对于输入的速度和准确率会产生很大的影响。同时,由于我国幅员辽阔,方言众多,各地对很多汉字的发音都有所不同,有口音的人士很难用拼音输入法进行准确的输入。
部件输入法主要是将汉字拆解成部件进行输入,有代表性的部件输入法包括国内常用的五笔、郑码和台湾的仓颉等多种输入法。部件输入法首先建立一个部件到键盘上的按键的对应关系,在内部则根据部件的顺序对汉字内码建立一个索引。用户每按一次键,即输入了与按键相对应一个或多个部件,系统则根据用户所输入的部件在索引中进行搜索,直到找到用户所输入的字。部件输入法的一个问题是很难找到一个部件与按键的自然对应关系。由于部件数量相当多,而键盘上的按键只有大约40个(字母+数字+符号),一个按键必须对应多个部件,这造成对应关系难以记忆,目前的部件输入法通常很难学习。同时汉字的拆分也是一大难点。根据汉字左右、上下和外内的自然分隔的拆分原则和“部首不可拆分、交重结构不可拆分、独体不可拆分”的文字学原则,汉字的部件数大约在500到1000之间,如国家语委公布的《信息处理用GB13000.1字符集汉字部件规范》中收录了560个部件。完全依照此规范进行拆解将使部件过多,键盘上每个按键平均要对应14个部件,从而造成部件和键盘之间的映射过于复杂,增加记忆的困难。目前多数部件输入法将部首、交重结构和独体进行了不同程度的拆解来将部件的数量减少到200个左右,以简化部件和键盘的映射方案。然而,这造成了拆分规则的不标准,学习拆分规则的难度增加。
随着手机的日益普及,由于上述两类输入法的输入元素很多,很难在手机的小键盘实现中文输入,笔画输入法开始受到越来越多人的重视。笔画输入法主要是根据汉字“点、横、竖、撇、捺、折、钩”等基本笔画,归纳出几种(多数输入法采用五种或六种)笔画,并将笔画与数字相对应,按数字键输入相应的笔画。系统则在内部根据汉字笔画的顺序建立索引,用户每输入一个笔画,系统排除掉一部份的字,直到用户找到想要输入的字为止。笔画输入法的主要问题是输入的笔画顺序问题。由于部分汉字没有确定的笔画顺序,同时部分人写字的笔画顺序也不标准,笔画输入必须建立一定的模糊辨认技术,这大大增加了笔画输入法的复杂度。另外,笔画输入法的另一个问题是输入比较慢,由于很多汉字的笔画很多,用笔画输入法输入全部笔画会造成输入码过长,目前一些输入法采用输入部分笔画的方法,如选择汉字四个角的笔画进行输入,又会造成重码过多,而且选择输入笔画的规则也难以记忆。
另外,现有的输入法都是建立在一字一码的内码基础上的,这些输入法都是对汉字库里的汉字建立一个输入法的索引,再根据用户所输入的编码(外码)通过索引找到对应的内码,再通过内码在汉字库里找出相应的字。这样做一方面导致输入的内部处理过于复杂,汉字输入系统占用的系统资源太大,另一方面要输入字库里没有的字(包括用户自己造的字和字库中没有收录的字)必须对整个输入码表进行修改。由于从古至今所用的汉字数量非常大,可以达到数以十万计,而随着时代的变化和科技的发展,新的汉字也不断涌现,用一字一码和现有的输入方法限制了汉字的造字能力,大大限制了中文在计算机、手机和PDA等信息设备中的表达能力。

发明内容
针对上述问题,本发明提供一种将汉字拆解成多个末级部件,并利用数字笔画输入末级部件,再由多个末级部件组成汉字的方法,以克服上述几类汉字输入方法的不足。
本发明提供一种包含选择步骤和输入步骤的数字码输入的方法。选择步骤为首先按照组成汉字的部件优选出560个末级部件作为基本的编码码元。具体部件可详见基于国家语委1997年12月颁布的《信息处理用GB13000.1字符集汉字部件规范》归纳出来的“汉字规范部件表(见附件1取自www.clyrics.com/stonec/hanzi/gb13000.htm)。每个部件的输入码是以其前四个笔画的笔画码来表示的,不足四个笔画的以0补齐。
本发明所述的数字码输入法的输入步骤为首先判断要输入的汉字是否包含四个或更多的部件,如果组成该汉字的部件数大于等于四,则直接用数字按键输入四个部件的输入码即可;如果组成该汉字的部件数小于等于三,则首先用数字按键输入该汉字全部部件的输入码,如果部件数小于三还要用0作为输入码将部件个数补齐到三个部件,然后用数字按键输入表示汉字前三个部件的位置关系的第四个输入码来减少重码(见附图1)。
本发明所述的数字码输入法中表示汉字的四个部件可以取组成汉字的前面四个部件,也可以取前三个部件和最后一个部件。
本发明的优点在于,只要会写的汉字,都可以用所述的数字码输入法进行输入,不需要学习部件拆分法即可掌握;在所述数字码输入法中的重码很少,而且所输入的笔画最多只有16个,汉字的输入速度高于现有笔画输入法;所述数字码输入法只需要用0到6共7个数字键,适合在手机、PDA和遥控器上实现汉字输入;通过所输入的四个部件,直接与字形对应,省去了在一字一码的内码系统中需要进行编码对照的工作,提高了汉字处理的性能;另外,字库中没有的和用户新造的字也可以直接通过数字码输入法进行输入,大大提高了用户造字的能力,扩展了中文在计算机中表达信息的能力。


图1是本发明所述的数字码输入法的流程图;图2是本发明所述的数字码输入法所对应的计算机小键盘的笔画键位图。
图3是本发明所述的数字码输入法所对应的手机键盘的笔画键位图。
具体实施例方式
通过下面结合附图对本发明的数字码汉字输入方法的实施例进行详细描述,可以更好地理解本发明的其他目的、特性和优点。
参见图1描述数字码输入的方法。在数字码输入法中,组成汉字的部件是用其构成笔画的输入码方式来输入的,如可以用1代表一(横),2代表/(撇),3代表|(竖),4代表、(点)和\(捺),5代表 (左弯钩),6代表乚(右弯钩),每个部件输入其前四个笔画的笔画码,不足四个笔画的用0补齐。每个汉字则是用输入四个部件的输入码方式来输入的。步骤S1首先判断汉字所包含的末级部件的数量是否大于等于四。如果汉字包含四个或更多的部件,则在步骤S2中直接输入相应部件的输入码即可。如果汉字包含的部件数小于等于三,则在步骤S3中首先输入汉字所包含的所有部件的输入码,如果汉字包含的部件数小于三还要用0补齐输入码,使部件个数到三个部件。然后在步骤S4中输入表示前面输入的部件的位置关系的第四个输入码。
第四个输入码的构成方式为第一位为0,表示后续笔画码指示了前面部件的位置关系,第二位表示第一个部件和第二个部件的关系,第三位表示第一个部件和第三个部件的关系,第四位表示第二个部件和第三个部件的关系。
第四个输入码中的部件位置关系与数字的对应关系可设定为左右关系用1表示,上下关系用2表示,外内关系用3表示,如果汉字中不包含两个部件中的一个,则这两个部件的关系为0。
参见图2描述在计算机小键盘上的笔画键位图。本发明所述的数字码输入法可设定为只用0-6共7个数字按键输入实现,1代表—(横),2代表/(撇),3代表|(竖),4代表、(点)和\(捺),5代表 (左弯钩),6代表 (右弯钩),0则表示该汉字不包含相应的笔画或部件,在计算机小键盘上占用最下面三排数字键。
参见图3描述在手机键盘上的笔画键位图。与在计算机小键盘上相同,本发明所述的数字码输入法只用到0-6共7个数字按键,1代表一(横),2代表/(撇),3代表|(竖),4代表、(点)和\(捺),5代表 (左弯钩),6代表乚(右弯钩),0则表示该汉字不包含相应的笔画或部件,在手机键盘上占用上面两排数字键1-6和最下一排中间的0键。
下面以利用计算机进行数字码输入的具体实例来详细说明本发明。
王只包含一个部件“王”王的书写顺序为“横横竖横”,根据笔画的对应关系,王的笔画码是1131,其中前四个笔画为1131,因此部件“王”的输入码为1131。
由于王字只包含一个部件,所有的部件关系都是0,所以(数字键盘顺序)输入1131 0 0 0000,屏幕上就会出现一个王字。
杜包含两个部件“木”和“土”木的书写顺序为“横竖撇捺”,根据笔画的对应关系,木的笔画码是1324,其中前四个笔画为1324,因此部件“木”的输入码是1324。
土的书写顺序为“横竖横”,根据笔画的对应关系,土的笔画码是131,其中前四个笔画为1310,因此部件“土”的输入码为1310。
杜字部件的排列顺序为左右排列,两个部件之间的关系为1,因此输入1324 1310 0 0100,屏幕上就会出现一个杜字。
类包含两个部件“米”和“大”米的书写顺序为“点点横竖撇捺”,根据笔画的对应关系,米的笔画码是441324,其中前四个笔画为4413,因此部件“米”的输入码是4413。
大的书写顺序为“横撇捺”,根据笔画的对应关系,大的笔画码是124,其中前四个笔画为1240,因此部件“大”的输入码为1240。
类字部件的排列顺序为上下排列,两个部件之间的关系为2,因此输入4413 1240 0 0200,屏幕上就会出现一个类字。
回包含两个部件“口”和“口”口的书写顺序为“竖左弯横”,根据笔画的对应关系,口的笔画码是351,其中前四个笔画为3510,因此部件“口”的输入码是3510。
回字部件的排列顺序为外内排列,两个部件之间的关系为3,因此输入3510 3510 0 0300,屏幕上就会出现一个回字。
树包含三个部件“木”、“又”和“寸”木的书写顺序为“横竖撇捺”,根据笔画的对应关系,木的笔画码是1324,其中前四个笔画为1324,因此部件“木”的输入码是1324。
又的书写顺序为“左弯捺”,根据笔画的对应关系,又的笔画码是54,其中前四个笔画为5400,因此部件“又”的输入码是5400。
寸的书写顺序为“横左弯点”,根据笔画的对应关系,寸的笔画码是154,其中前四个笔画为1540,因此部件“寸”的输入码是1540。
树字部件的排列顺序为左中右排列,“木”和“又”之间的关系为1(左右),“木”和“寸”之间的关系为1(左右),“又”和“寸”之间的关系也为1(左右),因此输入1324 5400 1540 0111,屏幕上就会出现一个树字。
盟包含三个部件“日”、“月”和“皿”日的书写顺序为“竖左弯横横”,根据笔画的对应关系,日的笔画码是3511,其中前四个笔画为3511,因此部件“日”的输入码是3511。
月的书写顺序为“撇左弯横横”,根据笔画的对应关系,月的笔画码是2511,其中前四个笔画为2511,因此部件“月”的输入码是2511。
皿的书写顺序为“竖左弯竖竖横”,根据笔画的对应关系,皿的笔画码是35331,其中前四个笔画为3533,因此部件“皿”的输入码是3533。
由于盟字是左右下排列的,根据本发明所述的输入方法,“日”和“月”之间的关系是1(左右),“日”和“皿”、“月”和“皿”的关系都是2(上下),因此输入3511 2511 3533 0122,屏幕上就会出现一个盟字。
圆包含三个部件“口”、“口”和“贝”口的书写顺序为“竖左弯横”,根据笔画的对应关系,口的笔画码是351,其中前四个笔画为3510,因此部件“口”的输入码是3510。
贝的书写顺序为“竖左弯撇点”,根据笔画的对应关系,贝的笔画码是3524,其中前四个笔画为3524,因此部件“贝”的输入码是3524。
由于圆字是外上下排列的,根据本发明所述的输入方法,第一个“口”和第二个“口”、第一个“口”和“贝”之间的关系都是3(外内),第二个“口”和“贝”之间的关系是2(上下),因此输入35103510 3524 0332,屏幕上就会出现一个圆字。
叄包含五个部件“厶”、“厶”、“厶”,“人”和“三”厶的书写顺序为“右弯点”,根据笔画的对应关系,厶的笔画码是64,其中前四个笔画为6400,因此部件“厶”的输入码是6400。
三的书写顺序为“横横横”,根据笔画的对应关系,三的笔画码是111,其中前四个笔画为1110,因此部件“三”的输入码是1110。
叄的部件超过四个,取前三后一部件厶厶厶三,因此,输入64006400 6400 1110,屏幕上就会出现一个叄字。
明和冐所包含的部件都是“日”和“月”两个,用笔画输入法输入时的输入码都是35112511(假定用本发明中同样的笔画与数字的映射法),用现有的部件输入法和笔画输入法均无法进行区分,采用本发明所述的数字码输入法,明的部件是左右排列(1)而冐是上下排列(2),因此明的输入码为3511 2511 0 0100而冐的输入码为35112511 0 0200,利用汉字字形信息顺利消除了重码。
(吉吉)在多数汉字系统中都没有这个字,用户造字以后除非采用内码输入,否则没有办法用现有输入法直接进行输入。采用本发明所述的数字码输入法,(吉吉)包含四个部件,两个“士”和两个“口”,“士”的输入码为1310,“口”的输入码为2510,因此输入1310 25101310 2510,(吉吉)即可直接显示在屏幕上。
以上所述仅为本发明的部分应用实例,而不应该被视为对本发明的局限。根据本发明所公开的概念,本领域的技术人员可以很容易地设计出其他类似的实施方案。本发明的权利要求书应被视为包含那些不背离本发明宗旨的类似设计。
权利要求
1.一种数字码输入法,其特征在于该方法包括如下步骤选择步骤从构成汉字的部件中优选560个末级部件作为本输入法的基本编码码元,而每个部件的输入码是采用其前四个笔画的笔画码来构成的,不足四个笔画的以0补齐四个笔画的笔画码;输入步骤1)判断要输入的汉字包含的部件数是否大于等于四;2)如果部件数大于等于四,直接按照顺序输入四个部件的输入码;3)如果部件数小于等于三,i)首先按照顺序输入所有部件的输入码;ii)用0补齐部件输入码使部件个数达到三个;iii)输入描述前面输入的部件的位置关系的第四个输入码。
2.根据权利要求1所述的数字码输入法,其特征在于所述数字码输入法中的四个部件可以选择汉字的前四个部件,也可以选择前三个部件和最后一个部件。
3.根据权利要求1所述的数字码输入法,其特征在于所述数字码输入法中的笔画与数字的对应关系为1代表一(横),2代表/(撇),3代表丨(竖),4代表、(点)和\(捺),5代表 (左弯钩),6代表乚(右弯钩)。
4.根据权利要求1所述的数字码输入法,其特征在于所述数字码输入法中的表示部件位置关系的第四个输入码的构成方式为第一位为0;第二位描述第一个部件和第二个部件的关系;第三位描述第一个部件和第三个部件的关系;第四位描述第二个部件和第三个部件的关系。
5.根据权利要求4所述的数字码输入法,其特征在于所述表示部件位置关系的第四个输入码中的部件位置关系与数字的对应关系为左右关系用1表示,上下关系用2表示,外内关系用3表示,如果汉字中不包含两个部件中的一个,则这两个部件的关系为0。
全文摘要
本发明系一种依照字型的末级部件组合方式,按书写笔划顺序,先上下、后左右、由外而内之优先级,以笔画码转换为部件,再由部件直接产生字形,不需经过内码转换的中文输入法。
文档编号G06F3/023GK1536470SQ0310927
公开日2004年10月13日 申请日期2003年4月8日 优先权日2003年4月8日
发明者陈昌江, 陈阿民, 叶健欣, 刘锐, 孙勇 申请人:孙勇, 孙 勇
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1