汉字表形符号和字素(即部件)分类编码法的制作方法

文档序号:93069阅读:1071来源:国知局
专利名称:汉字表形符号和字素(即部件)分类编码法的制作方法
技术领域
汉字信息处理二、现有技术资料《汉字信息处理》、中国社会科学出版社出版。
李金凯《计算机中文信息笔形编码法》,载《计算机学报》第四卷第四期。
《中文信息处理国际研讨会论文集》,中国中文信息研究会出版。
朱子龙《天龙电脑中文字母输入法述评》、载《计算机世界》1982年12月20日。
三、发明的目的作为字典的查字法;供计算机输入汉字(包括日本汉字和朝鲜汉字);可作为电报的代用码。
四、发明的内容1.把汉字拆成若干部件(即字素),把部件进行分类,每一类部件用一个符号代表。有的汉字拆分部件以后,还有剩余的笔画不能纳入部件,因而还要把笔画进行分类,这种笔画也可称为“单笔部件”。每一类笔画也用一个符号代表。部件和笔画合称字素,全部字素的代号叫做“汉字表形符号”。这种编码方法叫做“字素(即部件)分类编码法”。
2.部件分为五十类,笔画分为六类,共用四十七个代号。这四十七个代号作为字典的编码,叫做“字典码”。这四十七个符号,有拉丁字母、数目字和几个特殊符号。拉丁字母中有大写、小写和手写体,如“L”和“l”,“H”和“h”,“X”和“x”;数目字中有中国数字和阿拉伯数字,如“五”和“5”。这些符号之间都有固有的照应关系,如“H”和“h”为一组,“五”和“5”为一组。据此,这四十七个字典码在输入电脑时可以合并为三十一组,(二十六个拉丁字母和五个数目字),就是三十一个键,这就是电脑码。
3.汉字表形符号诸表如下表一部件分类表第7页至第10页。
表二笔画分类表第6页。
表三汉字表形符号表第11页。
表四汉字部件系统表第12页。
4.编码基本规则(字典码和电脑码的共同规则)(1)、码位的次序根据笔顺,如“涟”3(氵)、V(车)、Z(辶)。但是有的部件不是全部笔画一气写完的,而是中间插入其它部件的,这种情况下,当一个部件的第一笔出现时,就当作整个部件出现的位次。如“巫”,拆为“工、人、人”三个部件,“工”字先写两笔,然后写“人、人”,最后写“工”字的一横,“工”的位次就算第一个部件。
(2)、“戈”类部件的一横,如果向左伸长,上面下面有其它笔画,这一横要断开,当作两个横笔分别属于两个部件,如“
”,应拆为“口、耳、戈”,“武”应拆为“二、止、弋”。
(3)、封闭式、交叉式、三面包围、二面包围式,是一个稳固的结构,不可以拆开。如“白”只能拆成“丿、日”,不可拆成“
、彐”;“牛”只能拆成“丿、
”,不可拆成“、十”;“
”只能拆成“丿、冂”,不可拆成“亻、”;“万”只能拆成“一、
”,不可拆成“
、”;“令”只可拆成“人、丶、”,不可拆成“人、
、丶”。因为“日”是封闭式,“
”是交叉式,“冂、
、”是三面包围式。
(4).除上述规定外,在连续的黏连关系和分离关系的笔画中,都优先服从上面部件的需要,如“交”拆成“六、×”、不拆成“亠、父”;“辛”拆作“立、十”、不拆成“卞、干”。
5.电脑码的规则(1)、单码位字。一个字只有一个部件或笔画,叫做单码字。它的编码,除部件、笔画代号外,再加上这个字的声母第一字母和韵母第一个字母。表示读音的字母叫读音码位,如“木、未、末”都是单码字,部件代号都是M,单独一个M是字典码。电脑码要加上读音码位,“木”是MMu,“未”是MWEO,“末”是MMO。
(2)、二码位字,除部件代号外,再加一个读音码位,並且重复一次。如“玫”,拆为“王、攵”,字典码是“五A”,读音码位是“M”、电脑码是“五AMM”。在电脑上输入时,如果操作者不知道这个字的读音,读音码位用“??”代替,这时电脑上把所有“五A”的二码位字显示出来,以供选择。
(3)、三码位,在家用电脑上就用三个码位。在要求减少重码字的专业电脑上,可以再加一个读音码位。如“茄”,拆为“艹、力、口”,字典码和家用电脑码都是“HXO”。“茄”的读音码位是“Q”,专业电脑码是“HXOQ”。如果操作者不知道这个字的读音,也用?代替,有重码字时进行屏幕选择。
(4)、四码位字不加读音码位,电脑码和字典码同。
(5)、五码位以上的字,取第一、二、三码位和末码,如“襄”拆为“亠、口、口、
、丿、K”,字典码为“200
PK”,电脑码为“200K”。
(6)、如果一个字的前部是“鱼、走、骨、雨”等部首,要把这些部首的代号进行压缩,办法是取第一个部件代号,重复一次,把其余的部件代号省掉。“鱼”用“nn”代表,“走”用“YY”代表,“骨”用“nn”代表,“雨”用“EE”代表,然后再取剩余部分的第一个部件和最后一个部件。举例如下
(7)、繁体字和简体字共容的问题,用如下方法处理几个字数较多的偏旁,“言(讠)、金(钅)、食(饣)、
(车)、糹(纟)、
(马)”,分别存于繁、简两个字库,不共容。用户要用简体字就用简体字库,要用繁体字就用繁体字库,部件代号和简体相同。“言、讠”都是i,“金、钅”都是Z,“食、饣”都是S,“糹、纟”都是W,“馬、马”都是5,“車、车”都是“V”。在储存量大的字库中,也可以共容,用功能键分开,使用简体字时按简体键;用繁体字时,按繁体键。当这些字不作为左偏旁时,照原来的编码规则打字。
其它的繁体字和简体字共存于一个字库,分别按照自己的字形进行拆字,编码。如
在特殊用途的字库中(如图书馆用字),要求繁简体用同一编码时,将最长码位增加到五码(超过五码的字,取第一至四码及末码)。繁体偏旁用复码表示,如下表
6.这套编码作为字典码时,中国汉字、日本汉字、朝鲜汉字都可通用。作为电脑码时,把读音码位换成日语读音的第一个字母(日语罗马字),就成为日本汉字的电脑码;把读音码位换成朝鲜语读音的第一个字母(朝语罗马字),就成为南朝鲜汉字的电脑码。
7.电报代用码的规则现有的电报编码,从字查码很不方便,有时急切查不到字。如果有一套跟字典、电脑统一使用的电报代用码,就要方便得多。
电报代用码采用电脑码的编码。电脑码中有几十个重码字,列成一张重码字表备查。每组重码字中,每个字再加上一个数目字互相区别,如“晾”、“景”,编码同为“D203”,可规定“晾”的电报码为“D203①”,“景”的电报码为“D203②”。
五、本发明的优点1.本编码是在汉字部件的分类系统的基础上建立起来的,反映了汉字字形的客观规律,可以跟识字教育结合起来,因而学习、使用都很方便。
2.这种编码可以同时适用于简体字和繁体字。
3.这一套符号可以兼作字典码和电脑码,必要时还可以临时作为电报代用码,用途广泛,有利于在人们头脑中建立起一套汉字结构拆分的观念。这种观念的形成,是走向“中文电脑化”的第一步。
4.这套编码还可以适用于日本汉字和朝鲜汉字。

汉字表形符号部件分类代号及笔画分类代号,合称“汉字表形符号”。
汉字表形符号共47个。在电脑输入时,可以合并为31个键。
汉字表形符号的名称和次序,以及47个代号合并为31个键的关系,列表于下
权利要求
权利要求
前序本发明所属技术领域
为汉字信息处理,现有技术中和本发明同性质的汉字编码主要有王永明的五笔字型编码法;支秉彝的“见字识码”;台湾宏基电脑公司的“仓颉字母”。这几种编码的归类方法不够严格,部件和代号之间的联系缺乏规律性,因而记忆负担重。本发明的特征是1、本发明为汉字部件建立了分类系统,内容包括除双块对称类外,所有部件按“系、型、式、类”四级构成一个系统。2、本发明把汉字的部件分类之后,在拉丁字母和数目字中选择形状相似的字母或数目字为代号。拉丁字母的形式有的是大写,有的是小写,有的是手写体。数目字的形式有的是阿拉伯字,有的是中国数字。字母、数目字的形状跟汉字部件相似的就采用,不象的就不用,当拉丁字母和数目字中没有符号可用时,就找其它特殊符号(如
),从而建立起一套汉字表形符号。3、在设计字典码代号的同时考虑到电脑键盘的要求,把字典上的47个码元在电脑上合并为31个码元,利用拉丁字母中的大写、小写的联系,印刷体和手写体的联系,利用不同文字表示同一个数的联系(如“5”和“五”),还利用某些特殊符号和拉丁字母的联系(如
是S加两直,可并入S),用这样的办法把字典上较多的码元合并为电脑上较少的键。
专利摘要
本发明属于汉字信息处理。有以下几种用途一、作字典查字法。二、供计算机输入汉字。三、可做为电报代用码。其主要特点是
文档编号G06F3/023GK85105556SQ85105556
公开日1987年6月3日 申请日期1986年4月30日
发明者陈爱文, 周静梓, 叶芬弟 申请人:陈爱文, 周静梓导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1