科学码编码方案的制作方法

文档序号:6597204阅读:345来源:国知局
专利名称:科学码编码方案的制作方法
专利说明 用于计算机汉字键盘输入所使用的输入码编码方案。
现有各种编码方案,从汉字的形和音的直观反映出发,进行编码方案地设计。因此有些方案重码率较高;有些平均动态码长较长;有些字集范围较窄,有些规则较复杂难记难学。这些方案在《汉字编码方案汇编》(科学技术文献出版社1980年版)中有反映,在《中文信息处理国际研讨会论文集》第三集中也有反映。
本方案克服了上述缺点,引进了拓扑学和模糊数学并得出了一种比较科学的编码方案。
本发明的目的是提高我国的汉语信息自动处理能力,解决汉字输入这个“瓶茎”问题。
一、汉字的方向性 对每一汉字来说,我们定义它具有四个向外的方向性,即向上、向下、向左、向右。
二、汉字“字件”和“基本结构字件”的方向性。
汉字的基本笔划有“点”“横”“竖”“撇”“捺”“钩”六种。单独的“顿”算作一“点”,与“撇”相交的“顿”算作“捺”,如“匆、凶、赵”等字中的“顿”。与“竖”相交的“顿”算作一“横”。如“斥、拆”等字中的“顿”。“提”笔划算作一“横”,如′打、地、端′等字中的“提”。“折”笔划算作一“撇”如“通、令”中的“折”笔划。
我们对基本笔划分析其拓扑性质。
各种基本笔划的不同组合构成了汉字的“部件”(单一的基本笔划,即一笔划,不能作为部件),由这些部件组成方块字。
字件一汉字中单独出现(与其它部件不相连)的部件。
举例说明“备”可以看作是上、下两个字件组成;“向”可以看作是内外两个字件组成;“容”可以看作由4个字件组成。
基本结构字件-由一个或多个字件组成,构成汉字的基本结构单元。
汉字的基本结构字件组成汉字时有四种方式。
①上、下方式以

形表示,如“基、共、堑等字。象“翼”“蕊”“带”等字属于

形,也可视为上下方式即把上部第一二字件看做上部基本结构字件,其它视为下部基本结构字件。
②左右方式,以

表示,如“横”、“瞧”、“钦”等字,象“浙”“锹”“卿”等字属于

形的也可视为左右方式,即把最左边的字件视为左部基本结构字件,其它部分视为右部基本结构字件。
③包围式,以

表示,可分为全包围,三面包围和二面包围,如“国”“同”、“勺”、“闯”、“区”、“延”、“翘”等字。
④不可分结构,以

形表示,如“木”、“左”、“右”、“为”、“目”、“允”、“早”等。
1、对于

形汉字,(或

)其最上部字件只有向上、向左向右三个方向,最下部字件只有向下、向左向右三个方向,中部字件只有向左、向右二个方向。
2、对于

形汉字,其最左部字件只有左、上、下三个方向,中部字件只有上、下二个方向。最右部字件有右、上、下三方向。
3、对于包围结构

形汉字,被包围字件只有未被包围方向的方向,而起包围作用的字件具有上下左右四个方向,如“这”字内部字件只有向上、向右二方向。
4、对

形汉字具有上下左右四个方向。
综上所述,字件或基本结构字件其方向都不具有相邻其它字件位置方向的方向性。
三、汉字基本笔划(除“点”外)的规定方向和确定方向 1、汉字的每一基本笔划(除“点”外)都有一个或两个规定方向走向。
对“一”笔划,有向左、向右的规定方向。对“|”,有向上、向下的规定方向。
对“/、\、

、乛、亅、乙、乚、

、”等,我们称它们为“特殊笔划”。
“特殊笔划”规定方向法则特殊笔划规定方向按左、右方向优先考虑的原则。
例如对“/”,则有向左、向右的规定方向。“\”有向左、向右的规定方向。对“亅”,有向上向左的规定方向。对“

”则有向左方向的规定方向。对“乙”,只有向左、向右的规定方向。对“

”,只有向左、向右的规定方向,等等。
2、关于汉字基本笔划上的非分点-FD 如果在每一基本笔划的两端标以字母记号,比如

……则a、b点是属于拓扑学中的非分点,我们专称为“非分点”,以“FD”表示;另外规定FD具有方向性,其方向服从基本笔划(除了“点”)的确定方向(不是规定方向)。确定方向的定义见3。
特殊FD对特殊笔划中的“

”a点算作特殊的FD”,方向向下。而象“卩a、阝a”中a点不算作FD。
实际上,我们的编码方案中的数字码就是由汉字四个方向上的FD数目选取的。
3、汉字基本笔划(除“点”笔划外)的确定方向 (1)对“一”“丨”笔划,其最后确定方向即规定方向。
(2)对特殊笔划中的“丶”和“/”,其最后确定方向按上、下优先考虑的原则,如这样确定的方向延伸后与其它笔划的规定方向或最后确定方向指向相交,则方向转为考虑向左或向右。如果仍相交或符合“减消原理”中的条件,则该笔划无最后确定方向,该笔划上的FD不再计入FD数目。
减消原理-如果基本笔划的确定方向与该笔划所在的字件所具有的方向不一致,则该基本笔划的这个方向上的FD不再计入FD数目。
(3)对特殊笔划中的“

”等,a最后确定方向就是它的规定方向。
4、汉字四个方向上的FD数目的确定(本方案只涉及到下、右、上三个方向上的FD数目) 汉字的基本笔划如果有最后确定方向,则该方向上的FD计入FD数目。
几个特殊情况 (1)在“保、行、自、息、怎、复、在、右、怠、台、豺”等字中出现有“

”部件,其中的a点作为FD只具有向上方向,b点只具有向左方向。另外象“喜”等字有“

a”部件,a点作为FD也只具有向上方向。上述规定下,如与其它笔划的规定方向或最后确定方向指向延伸后相交,则其端点不再作为FD计入FD数目(“立”例外) (2)象“派、毛、纸、千、系、延、后、采、爱”等字中有“


a”等部件的,a点作为FD方向向右,如与其它笔划的规定方向或确定方向指向延伸后相交或符合减消原理的条件,则a点作为FD变为向上,如果仍方向不确定,则确定方向减消,a点不计入FD数目。
象“衣”等字中部件“a

”(方向向左)也有以上规定。
(3)象“秩、耕、补、袜、林、棘”等字中左部字件“a禾、a耒、a木、a礻、a衤、a朿”中a点作为FD只具有向左方向。如与其它笔划的规定方向或最后确定方向指向延伸后相交,则其端点a不再计入FD数目。
(4)象“建、赵、辽、捉、提、处”等字中有“走a、辶a、

a、夂a、廴a、”等笔划或部件的,其中a点作为FD只具有向右方向。如与其它笔划的规定方向或最后确定方向指向延伸后相交,则其端点a不再计入FD数目。
(5)对“脊、登、炸、灯”等字中有“

a、火a”部件的,a点作为FD方向均向右。如与其它笔划的规定方向或最后确定方向指向延伸后相交,则其端点a不再计入FD数目。
(6)象“小”等字中笔形“亅”对左边的“撇”无减消方向作用。象“狡、豺”等字中“

”笔形对其左边的“撇”有方向减消作用。
(7)象“闯、用、而”等字“

、冂、门”部件对内部的“竖”笔划的FD和“特殊FD”不起减消方向作用。
四、“点”笔划的确定方向 准则 ①“点”笔划的确定方向延伸后不能与其它笔划的规定方向或最后确定方向相交。
②“点”的最后确定方向不能与点所在字件的方向不一致。
③如果“两点”相邻,则其中一“点”不具有相邻“点”在其相对位置方向的方向性。
这样直接作为FD的“点”其方向确定按如下原则汉字中“点”的方向确定,依据其位置,优先考虑向上或向下。如与准则不符,或具有方向不单一,转为向左、向右。如仍与准则矛盾,或仍方向不单一,则该点不再计入FD数目。
几个特殊情况 ①对“禾、木、衤、礻、朿、耒、赤”等部件其右下的点不再计入FD数目。
②象“门、勇、心、令、虫、则、贝、以、父”等字中“竖、横、撇、钩、提”等笔划端点处如连着“点”笔划,则该端点不再计入FD数目。而“点”的方向与这些笔划的最后确定方向一致。这样规定下,如与准则埽颉暗恪辈辉偌迫隖D数目。
如“令”字向下FD数目为1,而“勇”字上面的“点”不再计入FD数目。
③如果“点”笔划在“横”笔划的中上部,则点作为FD方向向上。如果“点”笔划在“竖”笔划的中左部,则方向向左,在中右部,则方向向右。上述规定下,如与准则矛盾,则“点”不再计入FD数目。
数字码设计 每个汉字向下、向右、向上的FD数目均可作为数字码。
字母码设计 1、以汉字拼音的第一字母作为字母代码。
2、取尾笔划读音的第一个字母作为字母代码,计六种D(点)H(横)S(竖)P(撇)N(捺)G(钩)。
3、(1)、对

形汉字及两面包围结构的汉字,我们选取起笔划所在的基本结构字件;对三面或全包围结构的汉字,我们选取内部基本结构字件,如被选取的基本结构字件能够组成汉字并能发音,我们取发音拼音的第一字母作为字母代码;如不能发音,则如果该基本结构字件有被定义的字母,取该字母作为字母代码。(被定义有字母的部件见附录) 如仍取不到字母码,则取该基本结构字件中起笔划所在的第一个可发音字件拼音的第一字母或该字件被定义的字母作为字母代码。
如仍取不到字母码,则取该基本结构字件中起笔划所在的部件发音拼音的第一字母或被定义的字母作为字母代码。如仍取不到字母码,则取该基本结构字件中起笔划的读音的第一字母作为字母代码,这样有四种 D(点)H(横)S(竖)P(撇) 注1°可发音的汉字不包括汉字的十个数字(一、二、三、四……八、九、十) 2°判定一个字件是两面包围还是三面包围或是全包围是依笔划的规定方向而定的。如“勹”是三面包围;“几”是非包围结构,“门”是全包围结构。
(2)对

形不可分结构的汉字,起笔划所在的部件如果可发音,则取其发音拼音的第一字母,如不能但被定义有字母则取该字母作为代码。
上述规定下,如仍取不到字母码,则取起笔划的读音的第一字母作为字母代码(D、H、S、P)。
例如走-T早-R局-K足-K吊-K赤-T鹿-G (附录)可被定义有字母的归类部件及定义字母 A-

 宀 冖

亠(A类归类部件) B-疒 C-镸
E-阝纟廿 F-衤礻 G-


I-讠 J-钅 O-忄 Q-犭其 R-亻 彳
S-饣 T-扌 U-


(U类归类部件) V-氵冫(V类归类部件) W-艹 X-

(X类归类部件) Y-耒 Z- 另外且-Q 木-M 耒-L 孑-Z 止-Z 车-C 习-X 忄-X 黑-H -Y 土-T 牛-N 匕-B 巫-W 西-X 工-G 禾-H 矢-S 朿-J 米-M 缶-F(Fou) 巳(Shi-S) 堇(jiny)-J 豸(zhi)-Z 酉(you)-Y 豕(Shi)-S 艮(yen)-G 聿(Yu)-Y 雨-Y 山-S 女-N 几-J 又-Y 大-D

-F 克-K

-B 编码规则 一、对单个汉字的编码规则设计(数字0写成φ) 1、对频度最高的几十个汉字,我们采用二码长的规则设计 字母码设计3中所得字母与向下的FD数目字组成二码一字的代码。如的-B1我-P3 2、对最常用的400多个汉字,我们采用三码长的规则设计 字母码设计1、3中所得字母与向下的FD数目,字组成三码一字的代码。如妈-MN3最-ZR3国-GYφ 总码数约2500左右 3、对全部汉字,我们采用五码长的规则设计(两种) ①字母码设计1,3所得字母与向下、右、上的FD数目字组成代码总码数约十二万多个。
例徇-XR2φ2或-HG232耕-GL323 芯-BW132 ②字母码设计3,2所得字母与按字母码设计2转换成的数字(D-1,H-2,S-3,P-4,N-5,G-6)与向下、右、上的FD数目字组成代码总码数约32000左右。
例部-L31φ1数-L5414 二、对词汇的编码规则设计 1、①词中每一字按字母码设计1所得的字母与倒数第二字按字母码设计3所得字母和最末字向下的FD数目字组成代码。
如民族-MZH4 字母码-ZMMP1(ZMMS1) 中国共产党-ZGGCDA1 ②词中每一字按字母码设计3所得字母与倒数第一、二字向下的FD数目字组成代码。
例面积-HHφ3科学家-HAA12大连工学院-HCHAE12中国共产党-SYHAA11 2、快速码四字以上的词如果常用则采用快速码 取首字按字母设计3所得字母与倒数第一、二、三字所得向下的FD数目字,组成代码。
如标准代码-M221战争与和平-Z111 中华人民共和国-S21φ 三、对汉字偏旁部首的编码设计 每一偏旁部首的起笔和尾笔的读音作为字母码以9作为第一个数字码,向下向右的FD数目作为两个数字码。例 乙-HG9φ1凵-SS9φφ 扌-HH912纟-PH9φ权利要求
1、一种用于计算机汉字键盘输入所使用的输入码编码方案。
该编码是由数字码和字母码两者组成,字母码是由汉字各部件被定义的字母或汉字拼音的代表字母组成;数字码是汉字某些方向上的非分点数目组成,非分点以“FD”表示;其特征在于(A)所给出的19个汉字归类部件和相应被定义成的英文字母;(B)其FD的选取依据在笔划、字件和汉字三者的“确定方向”或规定方向一致方向上。
2、根据权利要求1所述编码,其特征在于(A)汉字字件和基本结构具有的规定方向;(B)汉字基本笔划和特殊笔划具有的“确定方向;”(C)汉字基本笔划和特殊笔划具有的“规定方向”。
3、根据权利要求1所述编码,其特征在于非分点所包括的“特殊FD”是部件
中的a点。
全文摘要
一种用于计算机汉字键盘输入所使用的输入码编码方案。
本编码数字码是采用拓扑非分点(FD)的数目。字母码是采用本编码给出的各部件的代表英文字母,或拼音的代表字母,或尾笔划读音的代表字母。由字母码和数字码结合而成一个汉字或汉语词汇的编码。
本编码中信息能完全兼容、字集范围庞大,重码率低于0.4%,平均动态码长短于目前的其它方案,规则简单,适合方言地区,海外人士和不同教育程度者的要求。
文档编号G06F3/023GK1033326SQ8710796
公开日1989年6月7日 申请日期1987年11月22日 优先权日1987年11月22日
发明者赵瑛 申请人:赵瑛
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1