以汉字基本元素和规范部件为基础的汉字数字编码输入法的制作方法

文档序号:6417427阅读:310来源:国知局
专利名称:以汉字基本元素和规范部件为基础的汉字数字编码输入法的制作方法
技术领域
本发明涉及一种改进的汉字数字编码输入方法,确切地说,涉及一种以构成汉字的基本元素(简称基元)为基础,以汉字规范部件为主导的数字化的汉字编码输入方法。该汉字数字编码输入方法特别适用于电话通信领域利用十个数字键输入汉字,直接进行汉字短语通信;同时也可以在普通计算机的数字键盘上输入汉字,以及用其进行汉字检索、辞书编纂和查字。属于汉字编码技术领域。
当今社会已经进入信息时代,通信业务在全球都获得了高速发展,其中移动通信更为突出。先进的移动电话不仅具有通话功能,而且还具有数据通信的功能;而数据通信在中国离不开汉字信息处理。例如,GSM数字式移动电话可以显示汉字,具有短消息服务功能的移动电话机可以接收和显示汉字短语信息。如果可以直接利用移动电话机完成汉字输入,就可以方便地向对方发送汉字短消息,拓宽移动电话机的用途,使其成为一种携带方便、使用灵活的多媒体终端。然而,目前,移动电话的短消息大都是以西文发送的,这对于习惯使用汉字的中国人无疑极不方便。因此,如何实现移动电话机的短消息通信中文化已经成为当今通信热点之一,而中文化的关键是解决如何使用电话机的数字键完成汉字的输入。申请人在对汉字作了大量研究的基础上,提出一种《汉字数字编码法》(专利申请号96106763.2公开号CN1144356A)。这几年,各种汉字数字编码法已是百花齐放,各领风骚。最近,国家有关部门对汉字的基本笔画和部件作了规范,并制定了《现代汉语通用字笔顺规范》、GF 3001-1997《信息处理用GB 13000.1字符集汉字部件规范》,使汉字编码的规范有了统一的依据。
本发明的目的是提供一种以汉字基本元素和规范部件为基础的汉字数字编码输入方法,该方法是依据国家规范的汉字部件,使汉字部件数字化,达到规范、方便、简单、易学地输入汉字的一种数字的汉字编码输入方法,进而开发出具有中国特色的电话终端和信息家电设备。
本发明的另一目的是提供一种以汉字基本元素和规范部件为基础的汉字数字编码输入方法,该方法也可用于数字检索查找汉字,利用数字查字比用部首查字更加方便快捷,可以说是传统部首查字的革命。
本发明的再一目的是提供一种以汉字基本元素和规范部件为基础的汉字数字编码输入方法,使用该方法,可以在移动电话机或其他电话机的数字键盘、计算机的数字键盘、交互式电视点拨、或掌上型电脑上输入汉字,从而使设备实现小型化、便携化、袋装化、乃至微型化。
本发明的目的是这样实现的其包括有下列步骤(一)、首先将组成汉字的部件分成两部分基本部件和一般部件,并将每个部件用数字编号表示;其中基本部件有十种,分别用一位数字0-9编码,称为一码部件;其余的为一般部件,都用两位数字编码,称为两码部件;(二)、基本部件的编码输入方法(1)选取汉字的五个基本笔画横(一)、竖(丨)、撇(丿)、点(、)、折(乙),分别用数字1、2、3、4、5作为其代码;(2)选取五个组字能力强的规范部件口(口)、提手(扌)、八(八)、十(十)、文字头(亠)分别用数字6、7、8、9、0作为其代码,以上述十个数码化的部件作为构成汉字的基本元素(简称基元);(3)将一些与上述十个汉字的基元在形状上有相同或相似的笔画或规范部件,或含义相近又有亲缘关系的规范部件也归入上述基本部件;具体分类情况列表如下
(三)、除去上述规范部件以外的其他规范部件都为一般部件,即为两码部件,其编码输入方法如下
(1)、按照书写顺序,取该规范部件的第一笔画(或第一部件),并根据上述基元中的规定,将该基元的数字符号作为该规范部件的第一位编码(2)、按照书写顺序,取该规范部件的第二笔画(或第二部件),并根据上述基元中的规定,将该基元的数字符号作为该规范部件的第二位编码(3)、以上述第一位编码的数字作为行号,第二位编码的数字作为列号,列出相应的各个一般部件的汉字编码矩阵表,上述各个部件的行列号就是该一般部件的两位数字编码;(四)、利用电话机或计算机或其他数字处理器的数字键盘上的0-9十个数字键位分别代表上述取码规则中的各个数字;(五)、进行汉字击键输入,其规则是按照汉字的书写顺序,依次取码,逐个击键输入,其中(1)合体汉字按书写顺序取第一、第二和最末部件,上述各部件组合的代码即为该汉字的编码;(2)独体汉字按书写顺序取第一、第二和最末基本笔画(一、丨、丿、丶、乙),上述各笔画组合的代码即为该汉字的编码。
该方法编码击键次数是不相等的每个汉字最少击键一次,最多则取三个基本笔画(或规范部件)编码击键,即分别取第一个、第二个和最末个基本笔画(或规范部件)编码击键,其中大部分汉字击键2-5次,最多需要击键六次。
当字符集容量大时(如按GB13000.1字符集建立字库时),可以对汉字取四个基本笔画(或规范部件)编码击键,即分别取第一个、第二个、第三个和最末个基本笔画(或规范部件)编码击键,最多需要击键八次。
该编码输入方法对冗余码采用截短码长的方式,以减少击键次数。
本发明的汉字数字编码输入方法的特点是1汉字数码化中国汉字是世界上最古老的文字,具有悠久的历史,也是地球上使用人数最多的字种之一。而阿拉伯数字是全世界通用人群最广的符号,本发明利用具有阿拉伯数字键的电话机或计算机等设备对汉字进行编码击键输入数字,其编码规则简单、记忆容易,处理方便;而且汉字数码化符合信息时代的发展潮流。2部件规范化本发明所采用的部件完全遵照国家语言文字工作委员会近年颁布的GF 3001-1997《信息处理用GB 13000.1汉字部件规范》;其中笔顺遵照《现代汉语通用字笔顺规范》。本发明的汉字数字编码输入方法是依据构成汉字的基本元素和规范部件为基础而制定的,使汉字部件数字化、标准化、规范化,从而可以规范、方便、简单、易学地输入汉字。3设备小型化由于电子元器件集成度的提高,为产品小型化、微型化提供了基础。现在掌上型电脑开始进入市场,移动电话机已经袋装化或成为“掌中之握”,这样,键盘的大小就成为小型化、微型化的关键,本发明采用十个数字键的汉字编码输入方法为电脑或通信设备的小型化、微型化提供了可能和方便。
本发明是申请人在96年申请的发明专利《汉字数字编码输入法》(申请号96106763.2)的基础上的改进,也是上述专利的升级版本;两者属于同一技术体系。但是本发明选取的是规范部件,而不是传统的偏旁部首,取码顺序也有所不同。
下面结合附图和汉字编码实例详细说明本发明的汉字编码输入方法

图1是本发明的汉字规范部件编码行列矩阵表。
本发明对汉字进行数字编码是以基元和规范部件为基础进行拆分的。其中五个是基本笔画(一、丨、丿、丶、乙),另五个是组字能力强的规范部件(口、扌、八、十、亠)。如何对基元、一般部件分别编码以及如何逐个顺序键录方法都已在前详细阐述。表2则是根据本发明的编码方法将有关部门颁布的规范部件处理后,再经合理归并而绘制的一个行列矩阵图。它清晰表明了每个规范部件的编码数字。现举例介绍如下首先将部件分成两部分基元和一般部件,其中基元有十种,分别用0-9数字表示之,为一码部件1、2、3、4、5分别表示汉字基本笔画[“横”(一)、“竖”(丨)、“撇”(丿)、“点”(丶)、“折”(乙)];6、7、8、9、0分别表示组字能力强的规范部件[口(口)、提手(扌)、八(八)、十(十)、文字头(亠)]。本发明是以上述十个数码化的部件作为汉字数字编码的基本元素(简称基元)。其助记口诀是横一竖二撇为三,点四折五方框六,七手八八九十叉,点下一横零中查。
本发明对各个规范部件在表2的行列矩阵表中的排列位置是有规律可循的,即凡是起笔为“一”(横)的部件都排在第1行的右侧,例如,“示”、“工”、“石”、“车”、“王”;凡是“丨”(竖)起笔的部件都排在第2行的右侧,例如,“止”、“业”、“卜”、“贝”、“小”。同理,凡是起笔为“丿”(撇)的部件都排在第3行;起笔为“丶”(点)的部件排在第4行;起笔为“乙”(折)的部件排在第5行;起笔为“口”字形的排在第6行;起笔为“扌”(提手)的排在第7行;起笔为“八”(八)字形的排在第8行;起笔为两笔交叉十字形的排在第9行;起笔为“亠”文字头的部件则都排在第0行的右侧,例如,“言”、“广”、“方”、“立”、“文”;每个规范部件的第二笔笔画(或部件)是所在位置的列号,例如,部件“止”第二笔是横,代码为1,那么,“止”的第二位代码为1列;部件“业”第二笔是竖,代码为2,那么,“业”的第二位代码为2列;部件“中”第二笔是折,代码为5,那么,“中”的第二位代码为5列。上述“示”、“工”、“石”、“车”、“王”等部件的第二位代码就分别是1、2、3、5、9。加上其第一位代码“1”,上述各部件的编码则分别为11、12、13、15和19。依此类推,不一一列举。总之,每个规范部件的行列号就是该部件的代码。
将一些与上述十个汉字的基元在形状上有相同或相似的笔画或规范部件,或含义相近又有亲缘关系的笔画或规范部件也归入上述基元里。如,“丨”(竖)行里,除去竖的基本笔画(或规范部件)外,还将部件竖钩“亅”(如“小”、“水”、等)也归并其中,并用同一数字“2”编码。在“丶”(点)行里,除去点的基本笔画外,又将捺的部件“”(如“不”、“水”、等)都归类其中,并用同一数字“4”编码。在“乙”(折)行里,包括有横折、竖折和连续折部件(如“女”、“乙”、“扬”等)都归类其中,并用同一数字“5”编码。在“口(口)”行里,则将按书写顺序封闭的方形都归类其中,如“国”、“另”、“日”、“田”等皆归并其中,并用同一数字“6”编码。在“扌”(提手)行里,包括有提手和竖向有两个以上交点的部件(如“夫”、“未”等)都归类其中,也用同一数字“7”编码。又如在“八(八)”行里,将形状相似的“人”、“入”、“丷”、等八字形结构部件都划归此类,均用数字“8”表示。在“十(十)”行里,则将有十字形及一个交点的部件(如“古”、“寸”、“式”等),都用同一数字“9”编码。在“亠”(文字头)行里,则将形状相似的点和横相结合的结构部件都划归此类,均用数字“0”表示(如“衣”、“广”、“言”等)。
除上述基元以外的其他规范部件都称为一般部件,使用两位数字编码,又称两码部件。本发明将两码部件和基元合并在一起,并按照其起笔笔画(或部件)相同的,排在同一行里。例如部件长、片、斤、兆、儿、白、牛、采、千等起笔均为“撇”,则把这些部件都和“撇”放在同一行里,用数字“3”作为其第一位编码。再将除去第一部件(或笔画)之外的第二部件(或笔画)也按照上述基元的编码规律放入行列矩阵表里的同一列里。则上述部件长、片、斤、兆、儿、白、牛、采、千的编码分别是31、32、33、34、35、36、37、38、39。又例如彡、舟、斤、爪、瓜、等部件的第一笔画和第二笔画都是“撇”,则上述这些部件的编码应该都是“33”。再如金、羊、和
四个部件,其起首笔画(部件)都是“人”和“八”,属于基元范围,代码为“8”;去掉基元“人”和“八”,,剩下的第一笔画又都是“横”,其代码为“1”,所以,上述四个部件两位编码为“81”,在表2中的位置也是“81”。依此类推,可将全部约560多个的规范部件分别归纳到表2所示的10×9行列矩阵表中。而且,每个部件在表2行列矩阵表中的位置,也就是该部件的编码。由于按照上述原则编码时,有的行列位置并无对应的部件列入其中,该编码坐标位置即为空白。
需要指出的是表2所示的部件编码行列矩阵表,规律性强,易学好记,没有多少需要死记硬背的地方,符合人们认知识字的习惯。
本发明进行击键输入汉字的顺序过程就是按该汉字的书写顺序,将每个汉字先分为若干个基本笔画(基元)或规范部件,并根据上述编码规则分别对各个笔画或部件依次取码,顺序逐个击键输入。通常,每个汉字最多取三个部件,即第一、第二和最末的三个部件。当然,如果字符集容量大时,(例如,按BG13000.1字符集建立字库时),也可以对每个汉字取四个部件,(或基本笔画)即以第一、第二、第三和最末的三个规范部件(或基本笔画)进行编码。
本发明已经按上述编码规则编制了包含有7000余个汉字的字库,并在计算机上进行试验实施,经过申请人长达半年的实施应用,录入便捷,重码率低,完全实现了预期的发明目的,效果良好。
权利要求
1.一种以汉字基本元素和规范部件为基础的汉字数字编码输入法,其特征在于包括有下列步骤(一)、首先将组成汉字的部件分成两部分基本部件和一般部件,并将每个部件用数字编号表示;其中基本部件有十种,分别用一位数字0-9编码,为一码部件;其余的为一般部件,都用两位数字编码,为两码部件;(二)、基本部件的编码输入方法(1)选取汉字的五个基本笔画横(一)、竖(丨)、撇(丿)、点(丶)、折(乙)分别用数字1、2、3、4、5作为其代码;(2)选取五个组字能力强的规范部件口(口)、提手(扌)、八(八)、十(十)、文字头(亠)分别用数字6、7、8、9、0作为其代码,以上述十个数码化的部件作为构成汉字的基本元素(简称基元);(3)将一些与上述十个汉字的基本元素在形状上有相同或相似的笔画或规范部件,或含义相近又有亲缘关系的规范部件也归入上述基本部件;具体分类情况列表如下
(三)、除去上述基元以外的其他规范部件都为一般部件,即为两码部件,其编码输入方法如下(1)、按照书写顺序,取该规范部件的第一笔画(或第一部件),并根据上述基元中的规定,将该基元的数字符号作为该规范部件的第一位编码(2)、按照书写顺序,取该规范部件的第二笔画(或第二部件),并根据上述基元中的规定,将该基元的数字符号作为该规范部件的第二位编码(3)、以上述第一位编码的数字作为行号,第二位编码的数字作为列号,列出相应的各个一般部件的汉字部件编码矩阵表,上述各个部件的行列号就是该一般部件的两位数字编码;(四)、利用数字电话机或计算机或其他数字处理器的数字键盘上的0-9十个数字键位分别代表上述取码规则中的各个数字;(五)、进行汉字击键输入,其规则是按照汉字的书写顺序,依次取码,逐个击键输入,其中(1)合体汉字按书写顺序取第一、第二和最末部件,上述各部件组合的代码即为该汉字的编码;(2)独体汉字按书写顺序取第一、第二和最末基本笔画(一、丨、丿、丶、乙),上述各基本笔画组合的代码即为该汉字的编码。
2.如权利要求1所述的汉字数字编码输入法,其特征在于该方法编码击键次数是不相等的每个汉字最少击键一次,最多则取三个基本笔画或规范部件编码击键,即分别取第一个、第二个和最末个基本笔画或规范部件编码击键,其中大部分汉字击键2-5次,最多需要击键六次,。
3.如权利要求1所述的汉字数字编码输入法,其特征在于当字符集容量大时(如按GB13000.1字符集建立字库时),可以对汉字取四个基本笔画(或规范部件)编码击键,即分别取第一个、第二个、第三个和最末个基本笔画(或规范部件)编码击键,最多需要击键八次。
4.如权利要求1所述的汉字数字编码输入法,其特征在于该编码输入方法对冗余码采用截短码长的方式,以减少击键次数。
全文摘要
一种以汉字基本元素和规范部件为基础的汉字数字编码输入法,是依据构成汉字的基本元素为基础,以汉字规范部件为主导的数字化的汉字编码输入方法,也是申请人的发明专利96106763.2汉字数字编码输入法的改进和升级版本,该汉字数字编码输入法使汉字规范部件数字化,能够方便、简单、易学地输入汉字,特别适用于电话通信领域利用十个数字键输入汉字,直接进行汉字短语通信;同时也可以在普通计算机的数字键上输入汉字,以及用其进行汉字检索、辞书编纂和查字。
文档编号G06F3/023GK1251438SQ99125109
公开日2000年4月26日 申请日期1999年11月24日 优先权日1999年11月24日
发明者肖金卯, 武云翠, 肖敏飞, 肖敏鹏 申请人:肖金卯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1