计算机汉字输入规则码的制作方法

文档序号:6605982阅读:398来源:国知局
专利名称:计算机汉字输入规则码的制作方法
技术领域
本发明涉及一种计算机汉字输入规则码
在科学技术飞速发展,信息量不断膨胀的今天,计算机汉字输入依旧面临难题,非键盘输入虽然异军突起,但在高速、准确及经济性上还是不能满足广大用户的需求,更不用说在大字符集和繁体字上使用。实际上效率较差的拼音输入法仍是绝大多数人的首选输入法,许多人苦于没有好的输入法才不得不使用它。一个易学、高效且部件规范的输入法仍然是社会发展的迫切需求。为此,笔者在95年发明的归演码的基础上发明了规则码,旨在集拼音输入地易学和形码的高效之大成,突破规范性和易学性的关卡,打破形码必然难学的神话。现在,规则码终于在保持高效易学的前提下使部件的选取完全符合1998年5月1日实施的“信息处理用GB13000.1字符集汉字部件规范”。规则码不但高效、易学且实用性强,其从规则的制定到部件的选取均从实际出发,为使用方便而设。很显然,由于规则码满足的是GB13000.1大字符集的规范,所以它能够做到简繁共体,一套规则即适用于简化字又适用于繁体字。一、规则码的概念体系1.笔划
规则码采用“点”、“横”、“竖”、“撇”、“捺”、“挑”、“勾”、“折”8种笔画。其中“勾”包括“竖挑”、“横勾”、“弯勾”、“弯折勾”一切勾,“折”包括“横折”、“竖折”、“左折”、“右折”、“弯折”所有折。2.“字形”与“部件”
“字形”,即所有的汉字结构形状,而“部件”指规则码中不可拆分的字形。规则码的部件以560个规范部件为基准,兼顾通用字典的偏旁部首(189分部)。3.“有声”、“无声”及“声码”、“声元”和“补码”
规则码将部件分为“有声”、“无声”两部分,对有声部件取其“声码”(汉语拼音的首字母或首声母),对无声部件取其首笔,解决了“学习难”的问题,免除了学习者对大量汉字部件的死记硬背。
有声部件即有声可发的部件,显然成字部件皆是有声,如“十、二、三、土、骨、月”。不成字部件有通用名称者也是有声的,如“艹、扌、冫、灬、氵”,注意这些都是常见常用的偏旁部首。笔画自然也是有声部件。
“声元”指的是两笔画以上的有声部件,此概念主要用以区分笔画。
“无声部件”即读不出声的部件,如“マ、丂、ㄐ、ヰ、”
“补码”即对不足四个部件的汉字编码时追加的补充码,有声部件的补码为该部件的首笔画,而无声部件的补码为其末笔画。
值得一提的是“ch、sh、zh”三个声母在规则码中与无法成为汉语拼音首字母的“i、u、v”按英文字母的顺序一一对应,即“i”表示“ch”,“u”表示“sh”,“v”表示“zh”。二、“拆”与“不拆”
这是规范化的关键,规则码有6条拆分规则1.相交不拆(上下穿过同交)
上下穿过是“相交”概念的延伸,如“乘、半”等字,虽然部件之间没有实际接触,但也视为相交。2“三笔以内”不拆
该规则有两个含意一是三笔以内的字皆是部件,不再拆分,如“飞、三、乇”二是连续书写的而又分离的三笔画、两笔画不拆。3常用的成字偏旁部首不拆(以通用字典的189部为据)4“封连”不拆
“封连”指的是部件之间相连且形成闭合回路,如“开、亚、卣”就是因为“封连”不拆而成为部5.多部件“组合”无声不拆
此规则一是指成字字形只能拆成有声部件,二是指不成字字形必须含有声元才可拆。而“组合”是指相连和左右对称两种情况。6.离散、包围可拆
要注意包围结构在规则码中是可拆的,并且有包不算连,即在似包似连的时候一律视为包围可拆,这样可避免许多麻烦,例如“者、进、考”。三、取码规则1.单部件字,取该字的声码及首、末笔,共三码
特例,单笔画字取声码及笔画,共两码。如乙“yg”、一“yh”,注意,“乙”和“一”只有独自成字时才取其声码,其他时候当做笔画分别取“g”和“h”2.两部件字,两个部件码加两个补码,共四码
因为规则码将部件分为有声和无声,所以部件码有可能取声码也有可能取部件的首笔,对于有声部件,在取完部件码后再取其首笔,对于无声部件取完首笔取末笔。3.三部件字,三个部件码加首部件或末部件的补码,共四码
规则码最多取四码,对于单左结构(即左边是单独一部分)取首部件的首笔或末笔,否则取末部件的首笔或末笔。例如“汰、瞧、鹏、博、结”是单左结构,而“述、病、霖、断、焚”不是单左结构。4.多部件字,前三末一5少取先小
“少取”即少取部件,也就是说可拆可不拆的不拆,但判断的依据是有声部件。如“卡”字视为“上卜”时可拆,而视为“
下”不可拆,但由于
是无声部件,不能成为判据,仍视为可拆;“天”字视为“一大相连”时可拆,而视为“二人相交”不可拆,同时成立但依据少取的规则不拆,视为单部件字。“先小”即在部件数相同时按先小后大的原则选取,如“兰”字可视为“
二”,亦可视为“丷三”,按先小后大的原则取“丷三”。四、“a”与“o”的特殊作用
在拼音输入法中键位的使用很不合理,只取部分部件的声码,情况有所改善,但“a”“o”两个键还是用的少,为此规则码对“a”“o”进行了特殊处理。“a”键另加两大功能一是归纳扩展,可用符号表达式
表示,“*”表示任意字形,即所有与“冖”有接触的字形均用“a”表示,如“爱”字头,学字头,“孛”字头,“旁”字头,“璺”字头,“囊”字头,当然“冖”也是;“a”键的另一功能是表示单部件字的“无声”声码,如“卣”字,作为单部件字绝大多数人也不认识,好在可以借助于“a”键。
“o”键也另有两大功能一是表示左右对称重迭,如
;二是表示多音单部件字,如“重、单、长、乐”。五、专用版
规则码为了提高编码效率,降低重码率,在没有增加额外的学习负担的前提下推出了专用版,专用码就是在上述规则码的基础上提出特征码的概念,用特征码取代前述有关部件的首笔画。
所谓特征码实际是对有声部件的再次开发利用,由于在常用字中两部件、三部件字居多(约80%),对这么大比重的单部件、双部件及三部件字过分依赖8个笔画去区分必然产生重码较多的现象,因此为使规则码能适应一部分追求速度的用户需求,特为一些要求高速输入的用户设计了特征码,就是在不可拆分部件中取其中一个较大的有声部分(无法取者仍取首笔画)
就专用版而言,在GB2312字符集中重码率为7%,在3755一级字中重码率为4%,在GB13000.1大字符集中重码率约为15%,使得规则码在易学、规范及高效诸方面均达到一个新的水平。
规则码及其专用版已在WINDOWS和UCDOS上实现。
权利要求
1.用声码及首笔画表示部件的计算机汉字输入规则码,其中字形、部件、笔画、有声部件、无声部件、声码、声元、补码、及特征码组成基本概念体系。
2.按照权利要求1所述的规则码将汉字结构划分为离散、包围、相交、封连、组合及单左结构。
3.按照权利要求1所述的规则码拆分规则三笔不拆、封连不拆、成字偏旁部首不拆、多部件组合无声不拆、似包似连可拆。
4.按照权利要求1所述的规则码取码规则单部件字取声码与首末笔、两部件字两声码加两补码、三部件字取三声码一补码、少取先小。
5.按照权利要求1所述的规则码对“a”与“o”两键的特殊处理。
全文摘要
本发明是一个集拼音输入的易学与形码的高效率于一身的规范化汉字输入编码,基本部件不须记忆,且完全符合1998.5.1实施的GB13000.1的部件规范。规则码用简单的声码或首笔画表示部件,以26个英文字母编码,简便易学,经济实用。规则码又分通用、专用两种,二者采用相同的部件体系,但专用码注重消除重码,适合于高速录入。规则码不但易学、实用、规范、高效,而且简繁共体,尤其适合大字符集,其在大字符集中重码率约为15%。
文档编号G06F3/023GK1233008SQ9910614
公开日1999年10月27日 申请日期1999年4月28日 优先权日1999年4月28日
发明者徐跃进 申请人:徐跃进
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1