汉字“笔画分子”型编码输入方法—简称分子码输入法的制作方法

文档序号:6407824阅读:333来源:国知局
专利名称:汉字“笔画分子”型编码输入方法—简称分子码输入法的制作方法
汉字“笔画分子”型编码输入方法-简称分子码输入法”,属计算机汉字输入技术领域的一种全形码输入法,有关汉字输入技术的背景文件,著作[1]汉字终端技术入门(周关兴) 人民邮电出版社1992.2[2]计算机常用汉字输入方法(王盼卿) 电子工业出版社1992.10[3]启宏全息码(萧启宏) 电子工业出版社1993.3[4]计算机文字处理与信息管理(吴良占) 杭州大学出版社1990.0[5]通用汉字输入方法及排版系统(邵平凡)浙大科海公司1994.2(一)发明的目的发明一种易学易用,好记难忘,中外老少,普及适用的汉字输入方法。
1.市场概况-面临21世纪前后计算机将普遍进入家庭,如使用汉字信息处理者的年令域扩展至[10-70~80岁],则市场前景,社会需求量总在数亿人以上。
2.瓶颈-前5~10年发明的各种汉字输入方法虽功不可灭,但中老年人仍望而生畏,年青人除专业者外,多数宁慢试打拼音,也不想强背,难记易忘的各种键盘表。试想人们为解决拼音输入重音字多,方言多,难普及的缺点,已奋斗了三十余年,提出了三百多种详硕方案迄今仍是多数宁慢试打拼音,则足以说明现行汉输入方法弊端之严重不理想,关键是要解决输入编码的易学,好记,和难忘的这个课题。本发明的目即为克服现有技术之不足,解决计算机普及的这个汉字输入瓶颈,以迎接21世纪信息时代的到来。
(二)现有技术的简评1.输入编码的难度指标,客观评价某种汉字输入方法的优劣应包含以下指标且应视不同对象各有侧重。
(1)输入速率(字/分钟)(2)重码率(静态,动态)(3)平均难度系数D。
现行汉字输入法多侧重於解决前两项指标,目标在于专业操作人员。而对第三项指标均按软指标对待,不在严格评估之列,致使普及发展滞缓。而非专业操作人员对第(3)条难度系数D最为重视,也是电脑进入家庭的障碍,提出此项指标目的即在於此。作者明确提出平均难度系数D这个专家怕碰,却又难回避的旋涡。定义D为直观(硬)难度系数Dh及与操作细则,图表记忆方法,取码方法等有关的(软)难度系数Ds的乘积。
即D=Dh x Ds(1)
式中Dh=AN1 x N2 x N3 x N4(2)N1=码符总数(即输入码需动用的总键数)N2=平均每键的含义数N3=平均每字击键数N4=编码体制加权系数(暂定音码,形码均为1,音形码为1.4)A=码符加权系数(暂定码符可读为1;有序为1,反之为2)直观难度系数Dh能反映键盘记忆难度,而Ds反映取码难度,操作规则记忆难度等。Dh虽不全面反映难度,却能以数字相互比较主要难度部分,有比较鉴别才能促使朝需要和改进的方向发展,因而颇有参考价值,而软Ds值一般难于测算,只能评估。
Dh值计算举例1五笔字型(王码)N1=25N2=(200+3x5+4+25)/25=9.76王码有成字根103个,键名根25个,特殊根72个共200个,王码教材只言基本根130个,引自文件[5]P.4.交叉识别码3x5=15个,降重码L,容错码U,F,D,共4个,高频字码25个,共计244个码符含义。
N3=4(单字)A=1.4x1.2=1.68约40%字根难读加权(1.4),字根有序(1.2)得Dh=25x9.76x4x1.68=1640计算举例2分子码(赏码)N1=10N2=(10+7+14)/10=3.1赏码有笔画码7个,部件码3个,降重千位数调控码7个,百位调控码14个,N3=4A=1笔画分子码名称均可读,矢量等间隔,代码数字有序。
得Dh=10x3.1x4=124几种著名汉字输入编码方法的Dh值的计算结果列於表1注Dh仅为概算值,加权系数又是暂定的,故可按500,1000,1500,2000,2500,粗分档次,相对比较各种汉字输入码的直观难度系数。
(三)比较和简评1.音码-受地域方言,年令等因素限止,颇难普及,加上重音字多达95%以上,二次选择繁重,失去轻松感。现有改进方案对输入速率有长进(300/分钟),以增加Ds为代价,在Dh方面反映不明显,仍以全拼双音流行,就总体上讲音码的Dh值低于形码和音形码,正说明用音码上手操作容易,所增Ds值的代价等于学会拼音文字。
2.音形码-可看作是对音码或形码在降重码方面的一种改进码,输入速率可高于形码,Dh值约为音码的5~10倍,因是两种体制的混合产物,故Dh,Ds值相形属最高,然而近几年所推出的音形码发明甚多,除表中所列五种之外还有萧码,华码,表形码-等,估计在汉字输入无“难度量化”指标的状况下,参照竞争对象又是Dh值本来就很高了的五笔字型码(王码),则还将有更多的音形码面世。如果是以“通用,普及,高速”为目标,适应计算机进入2~3亿家庭的需要,则发明参照对象应是英文,即Dh值应低于200,使之与英文的Dh值143接近,故就此而论音形码相差尚远。
3.(全)形码-表1.所列十种形码方案,多数有十年以上历史。所知近年形码发明不多,形码的Dh值大小相差30倍,指标性能亦大有差别,由此反映出形码体制的灵活多样性,改进余地潜力很大,发掘中华文化遗产汉字宝库,试与英文比高低,形码希望极大。本发明“分子码”即是一个在Dh值较低(124)情况下获得中等重码率的成果的例证,成果的取得是基于对现有技术,码特点的剖析认识和某些概念的更新,这些特点是(1)推广最多的在大陆是五笔字型,台湾是仓颉字母,均为形码,决非偶然,说明推广音码或音形码的困难大于形码。
(2)过高的重码率(80-90%)不好应用,四角号码除重字多外(有多达30字以上),取码规则,附则亦繁,属淘汰之列。
(3)五键五笔画也是重字多,拆字繁,故每字击键不宜过四,否则Dh值虽低亦难应用。
(4)非等长码虽可降低平均击键次数,但多键字易出错,纠错亦难,操作不易规范化,不易被接受,应慎用非等长码。最长为七位的汉字笔形编码法(李码Dh=144)及基本笔画笔顺法(芦码Dh=673),属於这类。
(5)现行形码降低重码,简化取码所采用的办法明显趋向两个绝端多数过份依赖拘泥于汉字的200个偏旁部首,致使Dh值起点很高(王码Dh=1640)。少数则完全抛开部首不用,备受重码困扰,Dh值虽低亦无用。
(6)宜用标准化101键盘,非标准键盘不能普及,此外有用36键方案,45键方案等也不理想(四)发明的说明-分子码原理1.分子码的定义一种运用笔画分子的新概念对汉字进行剖析,编码的方法,简称分子码,属全形码类,基本笔画法,分子码可使汉字各种笔画有序化,便於记忆,简化编码,降低重码。
2.笔画分子的定义笔画分子概念任何汉字的各种笔画均可以看成是由一个以上的具有矢量特征的相同的等腰梯形的笔画分子所组成,要点有二(1)任何汉字的笔画均由一个以上相同的等腰梯形的笔画分子所构成(2)等腰梯形的长轴或顶边法线均可赋予矢量标记,故笔画分子在平面空间的角度信息可直接由分子的矢量或其代码表示。
3.“米”字定律(1)“米”字形态具有上下辐射左右对称,45度六等分园局的特点(2)全部汉字的笔画分子矢量可以概括为在平面上互差45度的七个不同矢量,可以用米字的七个端点的笔画分子矢量或矢量代码表示,称为汉字的“米字定律”,它使汉字的剖晰,编码,取码科学化,使笔画代码间的关系准确有序化,好记,为简化矢量,节省代码,故令“点”的代码只占用一个码符,而无妨於字形识别。
4.笔画分子矢量代码(简称笔画分子码)-采用十个数字码符,数字码符的优点(1)比英文字母好记,易打。
(2)码符直观有序,见字出码反应快。
(3)数字码符自身带有“数”的含义,可参与编码而无记忆量负担。
(4)数字是高效率码符,用它编码的中文信息内存空间可节省一半。
作者设计出分子码的十码符为a.笔画分子码7个即横右,竖上,横左,撇,竖下,捺,点。
代码分别为2,3,4,5,6,7,8。
b.部件码3个即口,勾,交。
代码为0,1,9。
列於表2.表中“笔画”一栏的“韭右”意为韭字的右侧四横笔的代码为2,“上竖”意为上字的竖笔画其代码为3.其余类同。
5.分子码助记图-以“米”字,“口”字为例的分子码平面矢量图示於

图1.及图2.图1按逆时针顺序标出了米字七个端点上的笔画分子代码,因分子矢量不同对应的代码也不同,代码是反映矢量的。图1所标的七个部首为代码更改标记,见下文。图2标出了口字的笔画代码,是图1的应用实例,只要记住此两字笔画代码和相对方位关系,即能按照取码规则上机打出汉字,“米”“口”两字即为分子码的助记图,因分子码可使汉字各种笔画有序化,加上米字的形象记忆,使分子码的笔画代码只要记住一个就全部记住。
6.分子码码长-采用四位等长码,补足码为“3”。
国标GB-2312共字6763个,采用四位码长共码10000个,理论上达到68%的编码效率才不会有重码,既要简单而又要编码效率高,这是汉字四位码固有的困难,但有了笔画分子的新概念之后,再加适当降重码措施,重码已成倍下降。
7.降低重码的措施-调控重码发生概率。
(1)千位数降重调控四位分子码提供十个千位数码,它代表首笔笔画,十个千位数相当於将汉字200个部首归并为十个,若全按汉字部首取码,必使代码分布严重不均,带来的千位重码困扰,故应采取部首调控措施,现令亻,氵,火,钅,竹,木,艹,七个部首变更代码,列於表3.此项措施虽然增加了7个代码的记忆量,却大大降低了重码,使分子码设想进入实用成为可能,所变更的代码与金木水火有关,按数字顺序标於图1的米字各端点上,比较好记。
注部首下含字量均为大约数,例亻部(约260个字),氵部(约400字),火部(约120字),金部(约210字),竹部(约150字),木部(约150个字),艹部(约330字)。
由表3.看出经部首调控后,各千位数下拥有汉字量接近平均值(+10%~-15%),对分子码降低重码发生概率,作用巨大。
(2)百位数降重调控汉字200个部首分配於十个千位码之内,则平均每个千位码下的十个百位码将要容纳20个部首,平均每个百位码要接纳两个部首的汉字,而实际情况汉字超过百字大部首很多,例口部,氵部各有字400个,需拥有四个以上的百位码,才不致有太多的重码,因此百位拥挤乃重码根源,分子码百位调控规则(对汉字部首取一个码,还是取两个码所作的规定)(a)一般对部首取首尾两码,当部首后续笔画超过6笔时只取首码。
(b)为防重码过多特列出百位指定码。见表4。
(3)十位,个位调控采用数字参与编码及“中心线”取码规则,避免末两位数码单调重复,从而降低了重码发生的概率。
(五)分子码取码规则基本规则-“中心线,首尾转”取码。即对任一汉字均可设定画一道垂直中心线,与线相交的分体部件的首尾笔画即为取码对象,不足四码时再顺时针取码(遇右侧向勾则逆时针取码),中心线可有1~4条,以适应各种字型。
1.一中心线取码示例A.一般与中心线相交不足四笔的单体字采用“首,尾,转”规则。
B.单体型及部分上下型汉字采用“首,中,尾”或“首,尾,首,尾”规则。
例A.“首,尾,转”规则-对每个汉字均可设定画一条中心线,然后对与中心线相交的分体部件取首尾码。例“尾”字中心线是先与口相交则取码为0,再与毛字相交取首尾码为51,到底按勾指向旋转取码为5,故得尾字的分子码为0515,这数字占总数<5%,而且笔画较少,属最容易部分,现列出带“转”取码的汉字100例 例B.“首,中,尾”或“首,尾,首,尾”-适用于单体型汉字(占2%)及二根上下型汉字,此两类汉字,占总字数<10%,通过实例100练习不难掌握
2.二中心线取码示例适用于左右型汉字,占总字数约60%,一般按“首,尾,首,尾”编码,同时应顾及“多笔多码”规则,这类字取容码易,为主要常用字,示100例如下 3.三中心线取码示例上下,左右型汉字(约占总数20%)取码分配“中间多,两边少”,“左上右下”笔多码多”,以中线取二码;左右线各取一码,此谓中间多两边少(个别例外服从“多笔多码”规则),左线取首码,右线取尾码此谓左上右下,这类字取码最容易,示100例如下 4.四中心线示例一般每线必取一码,适用于四根合体字型,占字极少。

(六)数字参与汉字编码数字参与编码是对任一汉字结构中相同的笔画部件或笔画分子的代码用数字表示其数目,从而实现数字参与编码。实践证明这一方法可以简化编码,加快编码速度,不易出错,并有减少重码的优点汉字许多部首下(口,氵,木,艹,)有字300~400个,借助数字归拼表述,可充份反映该汉字特点,更为重要的是在四位码中码符均等出现的概率增加了,重码才得以降低,数字参与编码是汉字输入方案现有技术中未有先例的,其实质是对汉字结构的一个新认识新发现,是不拘於传统200个部首的框架的束缚,找出一条简化汉字编码的新路子,以下为数字参与汉字编码的实例 例A.项末尾“矗,儡”两字,各有24画及22画之多,分子码用012表述其成共有“口”12个,再加部首得出编码9012 2012.一目了然,且无重码。
(七)分子码重码指标统计及特点静态重码率计算公式Pg=(W1-W2)/W0,W0为总字数,W1为重字数,W2为重字组数,分子码94年版FZM1.0的重码指标统计结果列于表5,由表看出其重要特点(1)静态重码对一级,二级国标码分别为28%,40%,虽仍偏高但已比拼音码和五键五笔画码已减少一半还多,已能实用。本说明书就是由发明人用分子码拟,改,打成。
(2)重码当中重二字加重三字码占重码总数的92%(一级),79%(二级),且最多重字数不超过6个,根据上述特点,预示软件辅助改进潜力极大,本发明提出半自动选字方案即为软件简化分子码重码的“二次选择”的有效手段。

(八)半自动选字-针对分子码的重码平均重字低於3个的特点,在诸多种降重方案当中,利用软件辅助简化分子码重码的“二次选择”,是切实有效手段,和首选手段,因其他手段往往要增加记忆负担,使Dh,Ds上升。
半动选字其办法是在屏幕提示重字栏内设置“自动步进方框选择背景”,再按任意键录取,WPS汉字系统广泛采用了选择背景如菜单选择,文件选择,窗口选择等,均为手动步进,自动步进又称“滚动”,选字滚动速率应为1HZ左右,太快要漏选,慢则影响打字速率,在重码的字数较多的拼音码等体制当中,这种滚动选字方法用不上,否则有的字要等选10~20秒,但在分子码的重码字少<3的场合下,半自动选字能起简化,方便作用,和等效下降重码一半左右的作用,即Pg=15~20%,此值与五笔字型(王码)的Pg=7.4%相距已不太远,已初步符合简单,普及,快速,进入家庭的要求。
根据现有汉字输入方案,多数情况动态重码率约为静态的1/(5~10),指标在0.2~0.3%左右,估计分子码FZM1.0动态重码率约为1~3%。
权利要求
1.一种汉字“笔画分子”型编码方法--简称“分子码”,属计算机汉字输入技术领域的一种全形码,它包括笔画分子概念,汉字的米字定律,十个数字码符,中心线取码法,降重码千位数部首调控,数字参与汉字编码,半自动选码法,本发明的特征是所述的笔画分子概念任何汉字的各种笔画均可以看成是由一个以上的具有矢量特征的,相同的等腰梯形的笔画分子所组成。
2.根据权利要求1所述的汉字的米字定律,其特征是全部汉字的笔画分子矢量可以概括为在平面上互差45度的七个不同矢量,可以用米字的七个端点的笔画分子矢量表示。
3.根据权利要求1所述的十个数字码符,其特征是笔画分子码七个即横右,竖上,横左,撇,竖下,捺,点,代码分别为2,3,4,5,6,7,8,部件码3个即口,勾,交,代码为0,1,9。
4.根据权利要求1所述的中心线取码法,其特征是基本规则按“中心线,首尾转”取码,即对任一汉字均可设定画一道垂直中心线,与线相交的分体部件的首尾笔画即为取码对象,不足四码时再顺时针取码(遇右侧向勾则逆时针取码),中心线可有1~4条,以适应各种字型。
5.根据权利要求1所述的降重码千位数部首调控,其特征是令七个部首变更代码为亻2,氵3,火4,钅4,竹4,木7,艹7。
6.根据权利要求1所述的数字参与汉字编码,其特征是对任一汉字结构中相同的笔画部件或笔画分子的代码用数字表示其数目。
7.根据权利要求1所述的半自动选字,其特征是在屏幕提示重字栏内“自动步进的方框选择背景”,再按任意键选字。
全文摘要
分子码输入法属计算机汉字输入编码技术的一种全形码输入法,(1)提出笔画分子的新概念任何汉字的各种笔画均可以看成是由一个以上的具有矢量特征的笔画分子所组成,全部汉字的笔画分子矢量共七个,可用米字的七个端点分子矢量表示,称“米字定律”,(2)十个数字码符笔画码七个[2横尾,3竖首,4横首,5撇,6竖尾,7捺,8点]部件码三个
(3)四位等长码体制,小键盘单手输入,有降重措施,重码2~3字占80%,最多6字占1.6%,采用半自动选字,等效静态重码率<20%。(4)记忆量约为通用码的1/10~20,有“米”“口”字图助记。
文档编号G06F3/023GK1110808SQ94104738
公开日1995年10月25日 申请日期1994年4月28日 优先权日1994年4月28日
发明者赏宝珩 申请人:赏宝珩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1