汉字笔画对码编码的制作方法

文档序号:6340755阅读:631来源:国知局
专利名称:汉字笔画对码编码的制作方法
技术领域
本发明属于IT自然语言理解领域,提供一种利用计算机上0-9这10个数字对汉 字编码的方法。随着字符集的不断扩展,如今国际标准字符集汉字总数已达七万多个,目前 绝大多数汉字输入法,输入这七万多字都比较困难。
背景技术
中文输入法是指为了将汉字输入计算机或手机等设备而采用的编码方法,是中文 信息处理的重要技术。基于键盘的汉字编码主要包括音码和形码,音码需要使用者正确掌 握汉字的读音,而且因重码较多,输入速度较慢;形码需要使用者通过一段时间的训练才能掌握。目前,大多数中文输入法都使用沈个英文字母编码。随着手机等手持设备的大量 使用,使用数字键输入中文汉字已越来越普遍。

发明内容
1.概述本发明是一种根据汉字字形将七万字符集的汉字用0-9共10个数字编码的方法。 本发明首先根据字形结构将汉字拆分成两部分,分别按笔画顺序成对取码,每对笔划对应 0-9中的一个数字;通过一种补码的方法,将所有汉字编码码长规定成统一的6码,实现了 重码多少可以控制;采用高频先见和分段排序的方法,将汉字实际输入的编码大大缩短。按使用统计,平均一个汉字为2码,重码最多为5个,具有小学毕业文化程度者十 分钟可以掌握编码方法。使用本发明输入汉字,不仅能提高汉字的输入速度,还能帮助使用 者熟记汉字的正确书写方式,从而解决了提笔忘字的常见问题。本发明特别适用于手机等手持设备中的汉字输入,也适用于计算机中的汉字输 入。对码编码的主要特点 编码规范完全符合国家语言文字规范; 编码简单汉字拆分规则明确,序号式笔画成对输入; 重码少按使用频率计算,99. 99%的字重码小于等于5个; 码长短汉字平均码长为2 ; 大字符集本方法编码和统计均对七万字符集完成。2.对码2.1序号式笔画《现代汉语通用字笔顺规范》将各种笔形规定为五种,即“横、竖、撇、点、折”。将提 归为横,捺归为点,各种折归为折。笔形顺序是“横竖撇点折”,分别用1、2、3、4、5五个笔形 代码来表示,称为序号式笔画。2. 2笔画对
序号式笔画中第1笔画、第3笔画、第5笔画等在奇数位置的笔画称为奇笔画,第 2笔画、第4笔画、第6笔画等在偶数位置的笔画称为偶笔画。笔画对是顺序奇偶两笔画,序号式笔画最后一笔为奇笔画时,笔画对为其笔画本 身,如“重”的序号式笔画312511211,笔画对序列为“31”、“25”、“11”、“21”、“1”。笔画对是对独体字或汉字拆分后的各部分而言,汉字拆分后的两部分之间没有笔 画对的关系。汉字拆分后的各部分所有序号式笔画奇偶成对组成笔画对序列。2. 3笔画对编码(1)用数字0-9给笔画对编码;(2)每个笔画对对应0-9中的一个数字,对应关系如下
笔画对“11 笔画对“21 笔画对“31 笔画对“41 笔画对“51一〉编码“1” 一〉编码“7” 一〉编码“8” 一〉编码“9” 一〉编码“0”12—>6 ;13—>1 ;14—>1 ;15—>1 ;1一>6 22—>7 ;23—>2 ; 24—>2 ;25—>2 ;2—>7 32—>8 ;33—>3 ; 34—>3 ;35 — >3 ;3 — >8 42—>9 ;43—>4 ; 44—>4 ;45—>4 ;4一 >9 52—>0 ;53—>5 ; 54—>5 ;55 — >5 ;5 — >03.汉字拆分方法(1)根据汉字结构拆分,汉字结构包括独体字、上下、上中下、左右、左中右、半包 围、全包围; 独体字不拆分; 上下结构的汉字拆分为“上”和“下”两个部分,如需而; 上中下结构的汉字拆分为“上”和“中下”两个部分,如等一〉寺; 左右结构的汉字拆分为“左”和“右”两个部分,如颇一〉皮页; 左中右结构的汉字拆分为“左”和“中右”两个部分,如谢一〉i射; 半包围结构的汉字拆分为“包围”和“被包围”两个部分,如阔一〉门活; 全包围结构的汉字拆分为“包围”和“被包围”两个部分,如国一〉口玉。(2)笔画交叉不能拆,粘连可以拆,如“串”、“孓”不能拆、县一〉且厶。(3)可以拆分成相离的,不拆成粘连的,如壷一〉士亚。(4)拆分优先顺序如下
拆分成两个整字,多种拆分时,选择笔画数差最小的,如量一〉旦里; 拆成一个部首和一个整字,如汉一〉?又; 拆成一个部首和一个非整字,如堃一〉M土 ; 拆成一个整字和一个非整字、非部首,如萝一> ; 拆分成两个非整字、非部首,多种拆分时,选择笔画数差最小的,如 堂一> 7。(5)独体字指CF0013-2009《现代常用独体字规范》中的独体字和本发明汉字拆分方法不允许拆分的汉字;部首指GF0011-2009《汉字部首表》中的部首和附形部首。4.汉字对码编码4. 1独体字对码编码(1)根据汉字笔画顺序,取前6个对码或结束;(2)若不足6码,则 补 “8”; 连续补“汉字总笔画数mod 3”和汉字最后一笔画直至6码4.2可拆分成两部分的汉字对码编码(1)将汉字拆分成两部分,分别共取6个对码或结束;(2)先取第一部分两个对码,再顺序取第二部分对码;(3)再从第一部分第三个对码开始顺序取对码; ⑷若不足6码,则 补 “8”; 连续补“汉字总笔画数mod5.部分汉字拆分与对码编码字 拆分 对码编码 的一〉白勺一〉803968— >8 是一〉日疋一〉216198—>2 了一> 了一> 082222—>0 我一〉我一〉875983—>8 不一〉不一〉128343—>1 人一〉人一〉382424—>3 在一〉/ ^一 >176683— >13”和汉字最后一笔画直至6码〔 输入编码他一>^f 也一〉800835—>8有一>有一>121831—>1这一>文〉934983—>9时一>日寸一〉216983—>2大一>大一>198343—>19地一>土也一〉660083—>6为一>为一>458343—>4子一>子一>068313—>0中一>中一>268323—>2你一>尔一〉832983—>8说一>i兑一〉442108—>4生一>生一〉866831—>86要一>商女一〉605678—>6 ;60好一>女也一〉560083—>5 ;56出一〉出一〉027832—>0 ;02北一> 丨匕一>763835—>7 ;76 ;76

图1笔画对码功能图,
权利要求
1.一种汉字编码方法,其特征在于包括对码、汉字拆分方法、汉字对码编码。
2.根据权利要求1对码,其特征在于包括笔画对和笔画对编码。
3.根据权利要求2笔画对,其特征在于包括序号式笔画中第1、3、5笔等在奇数位置的笔画称为奇笔画,第2、4、6笔等在偶数位置 的笔画称为偶笔画。汉字笔画对是顺序奇偶两笔画,序号式笔画最后一笔为奇笔画时,笔画对为其笔画本身。笔画对只是对独体字或汉字拆分后的各部分而言,汉字拆分后的各部分之间没有笔画 对的关系。汉字拆分后的各部分所有序号式笔画奇偶成对组成笔画对序列。
4.根据权利要求2笔画对编码,其特征在于包括(1)笔画成对编码;(2)每个笔画对对应0-9中的一个数字,对应关系如下笔画对‘‘11,一〉编码‘T12—>6 ; 13—>1 ; 14—>1 ; 15—>1 ; 1—>6笔画对‘‘21,一〉编码‘ rj ”22—>7 ; 23—>2 ;24—>2 ;25—>2 ; 2—>7笔画对‘‘31,一〉编码‘‘8”32—>8 ; 33—>3 ;34—>3 ; 35—>3 ; 3—>8笔画对‘‘41,一〉编码‘‘9”42—>9 ; 43—>4 ;44—>4 ; 45—>4 ; 4—>9笔画对‘‘51,一〉编码‘‘0”52—>0 ; 53—>5 ;54—>5 ; 55—>5 ; 5—>0
5.根据权利要求1汉字拆分方法,其特征在于包括(1)根据汉字结构拆分,汉字结构包括独体字、上下、上中下、左右、左中右、半包围、 全包围; 独体字不拆分; 上下结构的汉字拆分为“上”和“下”两个部分; 上中下结构的汉字拆分为“上”和“中下”两个部分; 左右结构的汉字拆分为“左”和“右”两个部分; 左中右结构的汉字拆分为“左”和“中右”两个部分; 半包围结构的汉字拆分为“包围”和“被包围”两个部分; 全包围结构的汉字拆分为“包围”和“被包围”两个部分。(2)笔画交叉个能拆,粘连可以拆。(3)可以拆分成相离的,不拆成粘连的。(4)拆分优先顺序如下 拆分成两个整字,多种拆分时,选择笔画数差最小的; 拆成一个部首和一个整字; 拆成一个部首和一个非整字; 拆成一个整字和一个非整字、非部首; 拆分成两个非整字、非部首,多种拆分时,选择笔画数差最小的。(5)独体字指CF0013-2009《现代常用独体字规范》中的独体字和本发明汉字拆分方法 不允许拆分的汉字;部首指GF0011-2009《汉字部首表》中的部首和附形部首。
6.根据权利要求1汉字对码编码,其特征在于包括独体字对码编码和可拆分成两部分 的汉字对码编码。
7.根据权利要求6独体字对码编码,其特征在于包括(1)根据汉字笔画顺序,取前6个对码或结束;(2)若不足6码,则 补 “8”; 连续补“汉字总笔画数mod 3”和汉字最后一笔画直至6码。
8.根据权利要求6可拆分成两部分的汉字对码编码,其特征在于包括(1)将汉字拆分成两部分,分别共取6个对码或结束; 先取第一部分两个对码; 再顺序取第二部分对码; 最后从第一部分第三个对码开始顺序取对码;(2)若不足6码,则 补 “8”; 连续补“汉字总笔画数mod 3”和汉字最后一笔画直至6码。
全文摘要
本发明是一种根据汉字字形将七万字符集的汉字用0-9共10个数字编码的方法。本发明首先根据字形结构将汉字拆分成两部分,分别按笔画顺序成对取码,每对笔划对应0-9中的一个数字;通过一种补码的方法,将所有汉字编码码长规定成统一的6码,实现了重码多少可以控制;采用高频先见和分段排序的方法,将汉字实际输入的编码大大缩短。按使用统计,平均一个汉字为2码,重码最多为5个,具有小学四年级文化程度者十分钟可以掌握编码方法。使用本发明输入汉字,不仅能提高汉字的输入速度,还能帮助使用者熟记汉字的正确书写方式,从而解决了提笔忘字的常见问题。本发明特别适用于手机等手持设备中的汉字输入,也适用于计算机中的汉字输入。
文档编号G06F17/22GK102063418SQ20101061567
公开日2011年5月18日 申请日期2010年12月31日 优先权日2010年12月31日
发明者蒋贤春 申请人:蒋贤春
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1