汉字表形符号和字素(即部件)分类编码法的制作方法

文档序号:6409077阅读:418来源:国知局
专利名称:汉字表形符号和字素(即部件)分类编码法的制作方法
技术领域
本发明涉及的是一种汉字表形符号和字素的分类编码法,具体的讲,它是一利汉字输入法;本发明也是CN85105556的后续专利。
本发明所述的在先专利CN85105556,题为‘汉字表形符号和字素[即部件]分类编码法’,于1990年5月2日获专利权。并于1993年10月8日依法办理了专利权的转让登记手续,本发明的申请人成为合法的专利权持有人。
1994年,国家科委把本发明所述的汉字表形符号和字素分类编码法列入国家级火炬计划,本发明的申请人是项目的承担单位。作为本课题开发计划的第一阶段,为了满足广大老用户的使用习惯,为了适应国内汉字激光照排系统多数采用方正748繁体字库的实际情况,为了检验表形码在ISO-10646标准的条件下的适应情况。所以本案的申请人在ISO10646标准和方正748繁体字字符集的基础上,开发了本发明所述的版本。对对在先专利所述的变码规则、部件分类作进一步的修订;并针对字符集收字量增加209.6的实际情况作适当修改、补充。
本发明的在先专利中,拆分规则是薄弱环节,在适应内码标准上,在先专利也只能在GB2312-80环境下运行,对应简化汉字6763个。
本发明的目的是提供一种能对应(1)GB-2312-80 简 6763(2)ISO-10646 GB-13000 简繁 中日韩20902(3)BIG-5(台湾) 繁 13000(4)BD-748(方正) 繁 字形有差异 14000的编码法。
本发明提供了二个附图
,其中图一是表形码新老版本部件数量对照示意图;图二是表形码新版本和4.0版部件数量对照示意图;图三是本发明所述的表形码的逼近、过渡示意图;本发明对所述的汉字表形符号和字素[即部件]分类编码法的制定如下规则本发明所述的编码法强调编码是个过程,要有一个完整的规则体系,核心是部件拆分规则。
本发明所述的汉字编码实际上包含了若干个环节。这些环节环环相扣彼此衔接,构成一个完整的体系。这些环节,主要有部件的选取、部件的分类、部件的拆分、键符的匹配、汉字的编码等。
一种汉字编码[形码]方案的设计,实际上是在分析指定的汉字集的元素的基础上,对上述各个环节制定相应的规则,形成一个完整的规则体系,这个体系核心是部件拆分规则。
本发明所述的汉字表形符号和字素分类编码法强调在对部件进行拆分和分类时,要综合考虑两个参照体系,两种结构关系。两个书写顺序,不可偏废。
本发明所述的汉字表形符号和字素分类编码法采用的参照体系实际上是两个1、汉字造方法的逆过程。也就是大批的"会决字"、"形声字"形成过程的逆过程,从字中拆出天然部件。
2、部件和拉丁字母开关上的近似--近字性。在老的表形码方案中,在拆出天然部件的过程中,实际上起主导作用的是1,因此拆出的部件,比较规范。但对这一点,老方案强调不够。而2,实际上是在确定编码部件和把部件同键符匹配时,才起到主导作用的。老方案对2,渲染过分。新方案对"汉字中隐藏着字母"的说法,予以淡化。
3、汉字中,存在着两种结构关系(1)笔画和笔画相互之间的结构关系。(2)笔画结构块和笔画结构块相互之间的结构关系[上下、左右、嵌套];在先专利只提(1),不提(2),事实上,在拆出天然部件的过程中,实际上起主导作用的是(2),不提(1)是偏面的,也造成分类时概念上的混淆。
本发明所述的汉字表形符号和字素分类编码法强调取码程序,不仅看笔顺,更要看根顺,而且以根顺为主。
本发明所述的汉字表形符号和字素分类编码法在笔画结构关系上从原来的三种关系(离、连、交)变成四种关系(离、连、切、交),约定了在拆分时要考虑结合的紧密程度。
拆分时,从笔画结构关系的角度考试,难点在"粘连"的拆分。新方案把它一分为二,分成相连、相切两种状态。相连基本不拆,从而突出了基本要拆的相切状态。
"撇笔要拆掉",实际上是切于其它笔画结构的撇笔要拆开,引入"切"这一概念,可以可加准确的予以描述。
在先专利中对部件的定义中,有一种"隐形分隔沟"的提法。原来是确定为拆分的依据但对"隐形分隔沟",无法准确定义,且认为"天然间隙是拆分汉字的基本界线""不同型式"的结构挨着时如无间隙,当作有间隙"。后一种间隙也就是"隐形分隔沟""当作"就不是客观标准,有主观认定的成分,这样定义是需要商榷的,"不同型式的结构挨着(实际上还有相同型式的结构挨着)"有关笔画间的关系,只会是相切的状态。因此碰到"相切"是拆还是不拆?是部件拆分中的焦点。
在先专利原来期望单纯分析形的特征,来确定是否拆分。事实是需要综合考虑字形字义、字源等方面的因素,才能确定。
本发明所述的编码法对拆分规则进行修定,改变了原来主要用部件类别去描述部件拆分规则的方法,用笔画结构关系去描述,对每一类部件也都重新定义,定义现加精确、严谨。
在先专利的拆分规则,是措词上是用"自己去定义自己",原来主要用部件类别去描述部件拆分规则,这显然是不确切的。象上面提到的"天然间隙是拆分汉字的基本界线""不同型式的结构挨着时如无间隙,当作有间隙",也属于用"自己去定义自己"之列,本发明对其作了修定。
本发明所述的汉字表形符号和字素分类编码法强调拆分规则要有一定的"宽松性",着重说明了规则不能复盖的"特例"补充了"撇捺连写不拆"的原则,强调了规则和部件总阴结合应用。
如前所述,由于汉字结构太复杂,只靠有限的几条规则要毫无例外地复盖整个字符集的,实属罕见。所有编码方案的拆分规则,都是有一定的"宽松性"的。
作为一项应用技术,规则、定义要力求严谨、精确,但也不能苛求,要有一定的"宽松性"。要用部件总表作为规则的必要补充。
表一是本发明与电脑打字七日通的拆分规则的比较。
部件数量是可以作定量分析的重要参数,本发明同在先专利以相比,变化较大,变动情况统计如下
①=③+④②=④+⑤ ⑥=③+④+⑤百分比=③/⑥;④/⑥;⑤/⑥部件变动率=34.9%下面给出的表二是本发明与在先专利部件分类体系的比较;而表三则是本发明与电脑打字七日通部件分类体系的比较。
本发明在编码理论和方法上,在以下方面有变动,着重解决原方案中的偏面性。
(1)表形码采用的参照体系实际上是两个
①当字造字方法的逆过程-拆出天然部件-部件的规范化程度较好。
②部件和拉丁字母形状上的近似--编码部件--部件同键符匹配(2)在对部进行拆分和分类时,强调不单纯看微观的笔画结构关系,还要看宏观的轮廓特征。按照这一思路对部件类的归属关系进行了调整。
(3)在笔画的结构关系上从原来的三种关系[离、连、交]变成四种关系[离、连、切、交],约定了在拆公时要考虑结合的紧密程度。
(4)强调取码程序,不仅看笔顺,更要看根顺。而以根顺为主。
(5)摒弃了原来部件定义中,“隐形分隔沟”的不甚确切的提法。
对每一类部件重新定义,定义更加精确、严谨。
(6)对拆分规则进行修定,改变了原来用部件类别去描述部件拆分规则的方法。用笔画结构关系去描述。
强调是一个规则体系,拆分规则是其核心。
强调拆分规则要有一定的“宽松性”,着重说明了规则不能复盖的“特例”。补充了“撇捺连写不拆”的原则。
强调了规则和部件总表结合应用。
上述变动,集中体现在对拆分规则的修定上面以及对部件体系的调整上。详见附件(二)、附件(三)。
本发明所述的汉字表形符号和字素分类编码法在重码字的处理上,方法有改进,变音形结合为“纯形”处理。
在老的表形码的编码方案中,是加声码。这样做要在形、音两种依托方法中,反复考虑,用起来不方便。更主要的是除了最常用字以外,其馀的字的读音,对于一般使用者来说,不一定全部知道,特别是ISO10646标准之中,凡GB2312标准未收字,其读音恐怕很多人都不熟悉。因此加声码形同虚设。因此摒弃了补声码这一措施。采取如下措施单部件字加笔画码作为识别码。
二、三部件字中的重码字,这是处理重码字的重点。
(1)软件措施凡是级间有重码字的,常用字和偶用字分屏显示。①分两级 国标一级字为常用字,其余都为偶用字。②凡是级间有重码字的,常用字和偶用字分屏显示。若无重码字,则偶用字自动首显。若有重码字,则常用字首显,提示行尾要有明显标志,引导用户按一下功能键翻页。
(2)软件措施输入安字时,二部件字,击二键后随击随显。三部件字,击三键后随击随显。因为没有必要给没有重码的二、三部件字加识别码。但有没有重码?用户是不知道的。采取这一措施,用户不必按空格键,便知分晓。
(3)编码措施给有重码的二、三部件字加识别码。
经分析,本发明采用下列方案
这是因为表形码是形码。部件的分类,和组成该部件的笔画类型、笔画结构类型紧密相关。直接取笔画类型作识别码,其识别效果有限。经分析产生重码的原因,主要是同一部首,其“部余”部分也是同码,从而形成同码。所以确定这种取第二部件的首次两个笔画码的办法。这种“甩头取尾”的方法是解决二部件重码的可行对策。
四部件字,因为码位已满,无法加识别码,对重码最多的部件采取了措施。
本发明所述的汉字表形符号和字素分类编码法对两个特殊问题的处理提出了解决办法(1)对繁简字体转换中可能出现的问题和对策作出了论述和探索。找出了112个“多对应字”找出了减少繁简字体转换中出现差错的原因和对策。
(2)用“容错码”的办法,解决了不同标准字形的问题。
根据上述重大变动来看,本发明的技术先进性、独创性也是明显的。同在先专利相比,本本发明在以下方面有较大变动(一)编码理论和方法上(1)强调编码是一个层层逼近的过程一种汉字编码(形码)方案的实际上包含了若干个环节。这些环节环环相扣,彼此衔接,构成一个完整的体系。这些环节,主要有部件的选取部件的分类汉字的拆分键符的匹配汉字的编码一种汉字编码(形码)方案的设计,实际上是在分析指定的汉字集的元素的整体的基础上,对上述各个环节制定相应的规则,形成一个完整的规则体系。
方块汉字和西方拼音文字是两种完全不同的文字体系,要建立起汉字字符集和键盘键符集两个字符集之间的直接映射关系,无论从结构特征分析或数量相差悬殊不同角度分析,都是相当困难的。“一桥飞架南北,天堑变通途”固然是我们的愿望,但确有困难,在激流中,设置若干“立足点”,“逐步过渡”,只要最终能胜利地到达彼岸,也是一种方法。我们讲的规则体系,也可以理解为过渡的“跳板”。绝大多数“形码”方案都是采取了这种“层层逼近,逐步过渡”的做法。表形码也不例外,表形码“层层逼近,逐步过渡”方案如图案所示表形码采用的参照体系实际上是两个(1)汉字造字方法的逆过程——拆出天然部件——部件的规范化程度较好;(2)部件和拉丁字母形状上的近似——编码部件一部件同键符匹配;近字性1、找到了近字性的根源-----一切原始文字都是对自然事物的描摹;2、两种不同的文字体系-------汉字中隐藏着字母的说法要淡化;3、两个参照体系,互相制约;(2)在对部件进行拆分和分类时,强调不单纯看微观笔画结构关系,还要看宏观的轮廓特征。按照这一思路对部件类的归属关系进行了调整。
本发明在笔画结构关系上从原来的三种关系(离、连、叉)变成四种关系(离、连、切、交),约定了在拆分时要考虑结合的紧密程度。
(3)强调取码程序,不仅看笔顺,更要看根顺。而以根顺为主。
(4)摒弃了原来部件定义中“隐形分隔沟”的不甚确切的提法。
对每一类部件重新定义,定义更加精确,严谨。
(5)对拆分规则进行修定,改变了原来用部件类别去描述部件拆分规则的方法。用笔画结构关系去描述。
本发明所述的汉字表形符号和字素分类编码法强调是一个规则体系,拆分规则是其核心。
并强调拆分规则要有一定的“宽松性”,着重说明了规则不能复盖的“特例”。补充了“撇捺连写不拆”的原则。
强调了规则和部件总表结合应用。
本发明所述的汉字表形符号和字素分类编码法在重码字的处理上,方法有改进。
在老的表形码的编码方案中,是加声码。这样做要在形、音两种依托方法中,反复考虑,用起来不方便。更主要的是除了最常用字以外,其馀的字读音,对于一般使用者来说,不一定全部知道,特别是ISO-10646标准之中,由GB-2312标准未收字,其读音恐怕很多人都不熟悉。因此加声码形同虚设。因此摒弃了补声码这一措施。采取如下措施本发明所述的汉字表形符号和字素分类编码法对单部件字加笔画码作为识别码。
二、三部件字中的重码字,这是处理重码字的重点。
(1)软件措施凡是级间有重码字的,常用字和偶用字分屏显示,(1)分两级国标一级字为常用字,其余都为偶用字。(2)凡是级间有重码字的,常用字和偶用字分屏显示。若无重码字,则偶用字自动首显。若有重码字,则常用字首显,提示行尾要有明显标志,引导用户按一下功能键翻页。
(2)软件措施输入汉字时,二部件字,击二键后随击随显。三部件字,击三键后随击随显。因为没有必要给没有重码的二、三部件字加识别码。但是没有重码?用户是不知道的。采用这一措施,用户有不必按空格键,便知分晓。
(3)编码措施给有重码的二、三部件字加识别码。
经研究人员的分析,本发明所述的编码法采用下列方案二部件字取第二部件的首次两个笔画码三部件字取第三部件的次笔的笔画码这是因为表形码是形码。部件的分类,和组成该部件的笔画类型、笔画结构类型紧密相关。直接取笔画类型作识别码,其识别效果有限。经分析产生重码的原因,主要是同一部首,其“部余”部分也是同码,从而形成同码。所以确定这种取第二部件的首次两个笔画码的办法。这种“甩头取尾”的方法是解决二部件字重码的可行对策。
四部件字,因为码位已满,无法加识别码,对重码最多的部件采取了措施。
下面给出的表四是本发明所述的汉字编码部件分类总表。
本发明所述的汉字表形符号和字素分类编码法对繁简字体转换中可能出现的问题和对策作了论述和探索。
本发明所述的汉字表形符号和字素分类编码法找出了112个“多对应字”,找出了减少繁简字体转换中出现差错的原因和对策。
本发明所述的汉字表形符号和字素分类编码法用“容错码”的办法,解决了不同标准有些字同形异的顺利输入问题。
最后,申请人给出的表五是本发明和在先专利按序号排列的部件代码收录情况的比较。
本发明所述的汉字表形符号和字素[即部件]分类编码法的保护范围见权利要求,利用本发明所提出的概念并在本案的基础上作的任何变动,都在本发明的保护范围中。
表一本发明与电脑打字七日通的拆分规则的比较
表二本发明与在先专利部件分类体系的比较
表三本发明与电脑打字七日通部件分类体系的比较
表四汉字编码部件分类总表(一)
表四汉字编码部件分类总表(二)
表四汉字编码部件分类总表(三)组合部件 单笔画部件 表五本发明和在先专利按序号排列的部件代码收录情况的的比较序 代 部 ISO PAT 序 代 部 IS0 PAT 序 代 部ISO PAT号 码 件 --- --- 号 码 件 --- --- 号 码 件--- ---001 1 一 ++ 041 5 ++081 C +002 ++ 042 ++082 虫++003彳 ++a 043 ++a 083 禺++004 2 二 ++ 044 ++084++005冫 ++ 045 + 085++006 ++ 046 ++086 D 日++007 +047 + 087 曰++008 +048 + 088 甘++009 +049 + 089++010 +050 马 ++090 夕+011八 ++ 051 ++091+012 +052 工 ++092 +013 ++ 053 王 ++093 、++014 ++ 054 五 ++094 E 山++015 ++ 055 正 ++095+016 ++ 056 + 096 ++017 刂 ++ 057 + 097 ++018 ++ 058 里 ++098++019 ++a 059 ++099++020 3 三 ++ 060 + 100彐++021川 ++ 061 + 101 ++022氵 ++ 062 A 又 ++102++023彡 ++ 063 及 ++103+024巛 ++ 064 叉 ++104习 ++a025小 ++ 065 女 ++105 +026 ++ 066 夂 ++106 +027 ++ 067 攵 ++107足 +028 ++ 068 + 108 F ++029 ++ 069 ++109 +030 4 火 ++ 070瓦 ++110 扌 ++031灬 ++ 071 B 目 ++111 中 ++032 ++ 072耳 ++112 ++033 ++ 073且 ++113 +034六 ++ 074++114 ++035 ++ 075++115 +036 ++ 076 ++116 ++037 ++ 077 ++117 ++038 ++ 078 C 匚 ++118丰 ++039 ++ 079 ++119 ++040 5 立 ++ 080 ++12O ++40 3540 30 4028序 代 部ISO PAT 序 代 部 ISO PAT 序 代 部 ISO PAT号 码 件--- --- 号 码 件 --- ---号 码 件 --- ---121 F + + 161 H +201 K+122 申+ + 162 世 + + 202 L+ +123 + 163+ + 203 + +124 + + 164 册 + + 204也+ +125 韦+ + 165+ + 205 +126 + +166 刀 + +a 206屯+ +127 串+ + 167 乃 + +a 207电+ +128 + 168 勹 + +a 208 +129 + 169 +209 +130 + 170+ +a 210 + +131 + 171 + +a 211车+ +132 + + 172 + +a 212 + +133 + 173 I主 +213走+134 + + 174 亠 + +a 214匕+ +135 + + 175 + +a 215+ +136 事+ + 176 + +a 216 + +137 + + 177 讠 + +a 217 +138 + 178 丨 + + 218忄 + +139 S + + 179 + 219+ +140 F + 180 J厂+ + 220 + +141 G 月+ + 181 + + 221 + +142 + 182 + + 222 + +143 冉+ + 183+ + 223 + +144 + + 184 广+ + 224+ +145 丹+ + 185 疒+ + 225 +146+ 186 + + 226 M 木 + +147 + + 187 +227 +148 巨+ + 188 丿+ + 228 +149 臣+ + 189 + 229 未 + +150 + + 190 K 丬 + +a230 末 + +151 + 191 爿+ 231 本 + +152 + 192 + 232+ +153 + 193 + +a233 + +154 + 194 + + 234 + +155 H 艹+ + 195  + + 235 + +156 + + 196+ 236 +157 + 197 + +a237 ++158 廿 + +a 198 + + 238果++159 卅 + + 199 片 +239 +160 + 200 +240 N 冂 + +4024 4030 4029序 代 部 IS0PAT 序 代 部 IS0PAT 序 代 部 IS0PAT号 码 件 ------ 号 码 件 ------ 号 码 件 ------241 N+ +281 Q 口 + +321 S +242 + +282 + 322 酉 + +a243 冖 + +283 犭 + +323 + +244 宀 + +284 豸 + +324 +245 门 + +285 豕 + +325 +246 + +a 286 + +326 弋 + +247 O 口 + +287 + 327 + +248 凹 + +288 + 328 戈 + +249 凸 + +289 R 大 + +a 329 + +250 + +290夫 + +a 330 + +251 + +291+331 + +252 + 292央 + +a 332饣 + +253 + +293 +333食 +254 + 294 +334 T 丁 + +255 + 295 + +a 335 + +256 O + 296 + +a 336 + +257 P 阝 + +297 + +a 337 + +258卩 + +298 +338 + +259 + +299 +339干 + +260 + +300 + +a 340于 + +261 + +301 丈 + +a 341 + +262 + 302 史 + +a 342 +263 尸 + +303 +343 +264 + +304 吏 + +a 344 +265 + +305 贝 +345 + +266+ +306 +346 +267 + +307 S 井 + +347甲 + +268 Q 田 + +308 开 + +348 + +269 皿 + 309 + +349 + +270 四 + +310 + +350 + +271  + +311 +351 + +272 + +312 曲 + +352 + +273 + 313 弗 + +353 +274 + +314 + +354不+ +275 母 + +a 315 +355衤+ +a276 毋 + +a 316 +356礻+ +a277 + +a 317 + + 357 U 心+ +a278 + +318 + 358 凵 + +279 +319 西 + +a359+ +280 + +a320 + +a360+ +40 3240 254029序 代 部 ISO PAT 序 代 部 ISOPAT序 代 部 lSOPAT号 码 件 ------ 号 码 件 ------号 码 件 ------361 U + +401 X + 441 Y 丫 +362 + +402 + 442 +363 臼+ +403 + +443 Z 子 + +364 禾+ +404 + +444 孑 + +365 鱼+405 門 + +445孓 + +366+406 門 + +446 + +367 V 人+ +407 + 447 + +a368 入+ +408 + 448 + +369 亻+ +409 + 449 + +370 + +410 + 450 + +371 W 几 + +a 411 + +451 辶 + +372儿 + +a 412 + +452 廴 + +373+ +a 413 + +453 + +374+ +a 414 + +454 + +375+ +a 415+ +455 +376+ +a 416+ 456 + +377 + +a 417+ +457 + +378 + +a 418+ +458 乙 ++379 + +419 + +459 ++380弓+ +420 + 460 +381了+ +a 421+ +461 +382幺+ +422 Y 土+ +462 钅 ++383+ +423 士+ +463 金 +384纟+ +424+ +464 23 17385纟+425 上+ +465386 X + +426 止+ +466387 + +427+ +467388十+ +428 + +468389ナ+ +429 + +469390 + +430+ +470 A 391 + +431 由+ + 471 K +392九+ +432+ 472 L+393力+ +433 + +473 L 394 +434+ 474 W 395 +435+ +475 X  +396 +436+ +476 Y 397 +437+ 477 T 398北+ +438+ 478 O 3399非+ +439+ 479400兆+ +440+ +48040 32 40 27序 代 部 ISO PAT 序 代 部 IS0 PAT 序 代 部 ISO 4.0 PAT号 码 件 ------ 号 码 件 --- --- 号 码 件 --- --- ---481 H +521 L +561482 F +522+562 说明483 S +523+563484 Y +524 巴+564 代码未列的,和前485 T +525 甩+565 面一个部件的代码相486 T+526+566同。487 于 +527 L +567+ 表示该方案有488 千 +528 C +568这一部件489 5 壬 +529 5 与+569 +a 表示该方案有490 重 +530+570这一部件,但491 垂 +531 I 卜+571编码或分类和492 +532 S 石+572新方案不同。493 +533 S + 573 ISO 本次编码方案494 G 用 +534574495 U +535575 PAT老专利方案496 E +536576497 E+537577498 J +538578499 +539579500 4 爪 +540580501 3+541581502 5 业 +542582503 5 必 +543583504 K  +544584505 Y +545585506 天 +546586507 夭 +547587508 +548588509 更 +549589510 U 乐 +550590511 秉 +551591512 采 +552592513 U 米 +553593514 H + 554 594515 无 +555595516 + 556596517 H+ 557 597518 L 乇+ 558 598519 毛+ 559 599520 己+ 560 _00
权利要求
1.一种汉字表形符号和字素[即部件]分类编码法,本发明所述的汉字编码实际上包含了部件的选取、部件的分类、部件的拆分、键符的匹配、汉字的编码,其特征在于所述的拆分规则如下逢“沟”要拆,离聚例外交叉不拆,“内”“离”“必”例外相连的笔画不拆相交、连、切的笔画,形成全封闭的不拆。正中竖笔上下有横笔挡住的不拆切子其它笔画的撇笔要拆开,人形部件例外取多不取少,取字不取件取牢不取松戈形要“借”一横“口”内部件,有笔画和外框相切的不拆部件的选取、部件的分类如下 键符的匹配和、汉字的编码如下 组合部件 单笔画部件
全文摘要
本发明涉及的是一种汉字表形符号和字素的分类编码法,具体的讲,它是一种汉字输入法;本发明也是中国专利CN85105556的后续专利。
文档编号G06F3/023GK1136676SQ95105810
公开日1996年11月27日 申请日期1995年5月5日 优先权日1995年5月5日
发明者王朴 申请人:张家港爱文电脑有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1