关联树汉字编码方法

文档序号:6557090阅读:266来源:国知局
专利名称:关联树汉字编码方法
技术领域
本发明是一种汉字编码方法。
汉字编码方法很多,有音码、形码、音形码和序号码四大类,好几百种,各有其优缺点。有的编码易学易记,但输入速度慢,多为非专职录入人员所采用;有的编码输入速度快,但不易掌握,多为专职录入人员所采用。目前还没有一种既容易掌握、输入速度又快、为广大专职录入人员和非专职录入人员所普遍通用的汉字编码方法。
本发明的目的是提供一种易学易记,输入速度快,为广大非专职录入人员和专职录入人员所通用的汉字编码方法。
一、基本概念汉字编码涉及的名词和概念较多,目前还缺乏统一的定义,不同的编码方法采用不同的名词术语,比较混乱。本发明对以下几个关键概念进行了界定。
(一)笔画构成汉字的不可分割的最小单元称为笔画。笔画分为平笔画和折笔画两类,平笔画简称平笔,折笔画简称折笔。本发明将笔画之间的相互关系划分为离散、中连、端连、交叉四种,如“八”字的两笔画为离散关系,“丁”字的两笔画为中连关系,“厂”字的两笔画为端连关系,“十”字的两笔画为交叉关系。
(二)笔串笔串是本发明首次提出的一个新概念,是指汉字中可能存在的连续的笔画组合块。笔串概念内容很广,包括了所有的笔画、部件和汉字。根据组字频率和结构特征,将笔串分为独立笔串和非独立笔串两类。本发明将多频笔串、整体笔串、分离笔串定义为独立笔串。组字频度在两次以上的笔串称为多频笔串,如氵、刂、亻、十、也;笔画之间通过端连或交叉构成一个整体,这样的笔串称为整体笔串,如厂、口、几、丰、中;某一笔串在构成汉字时与周围其它笔串永远保持一定距离,这样的笔串称为分离笔串,如 阝、 ス。一个笔串可能既是多频笔串,又是整体笔串或分离笔串。独立笔串之外的所有笔串统称为非独立笔串,全部笔串的集合称为笔串集。
(三)部件部件是汉字编码中用到的一个基本概念,目前还没有统一定义。本发明将独立笔串定义为部件,全部部件的集合称为部件集。按这一定义推论,部件集是独立的,与编码方法无关。部件集是笔串集中的一部分,笔串集包含部件集。
以下六种部件十分重要,是关联树码选定码件的主要依据,下面分别进行界定说明。
1.单构部件笔画通过单一方式构成的部件称为单构部件。本发明将单构部件进一下四种。
①散笔部件部件中的所有笔画之间相互离散,这样的部件称为散笔部件,如三,立,心,儿,巜,巛。
②中连部件部件中的所有笔画通过中连方式直接或间接地连在一起,这样的部件称为中连部件,如上,止,片,爿, ③端连部件部件中的所有笔画通过端连方式直接或间接地连在一起,这样的部件称为端连部件,如厂,,口。
④交笔部件部件中的所有笔画通过交叉方式直接或间接地交接在一起,这样的部件称为交笔部件,如十,力,韦,女。
2.整体部件部件中的所有笔画通过端连或交叉方式构成一个整体,这样的部件称为整体部件,如口,十,中,申。
3.整连部件整体笔串与若干平笔直接相连所构成的部件称为整连部件,如才,土,王,牛,生,用。
4.高频部件指组字频度相对较高的部件,如人,口,十,大,土。
5.复杂部件指结构比较复杂的部件,如臼,事,垂,重, ,牙。
6.相似部件部件A与部件B的形状相似,则两部件互为相似部件。如“平”与“干”互为相似部件;“来”与“未”互为相似部件。
(四)码件满足汉字编码需要的部件称为码件,全部码件的集合称为码件集。码件集与编码方法有关,每一种编码方法都有其特定的码件集,码件数量从几十到几百不等。码件集是部件集中的一部分,部件集包含码件集。
二、码件选定依据作为形码和音形码编码方法,选择码件、建立码件集十分重要,也是必不可少的。目前,有关部门还没有制定出统一的码件标准和规范,不同的编码方法自定码件标准。这些自定的标准和码件集大都缺乏充分的科学依据,有很大的随意性。关联树汉字编码方法以提高学习效率和输入效率为目标,以码件系列的连续性和完整性为依据,从减小码长和降低重码率入手,在对大量部件进行系统研究的基础上,首次提出以下六项原则作为选定码件的基本依据,并根据这六项原则建立了树码码件集合(表2-1)。
1.单构部件原则上作码件,如三,上,厂,十。
2.整体部件原则上作码件,如厂,口,中,申。
3.整连部件原则上作码件,如土,王,生,禾。
4.高频部件原则上作码件,如口,人,十,氵。
5.复杂部件原则上作码件,如臼,事,垂,重。
6.与上述五种码件相似的部件原则上作码件,如平,夹,来,柬。
表2-1树码码件集合表
续表2-1树码码件集合表
三、码件归类码件归类就是建立码件与码元之间的对应关系。码件归类是所有形码和音形码编码方法的核心。本发明从码件之间的相容性和关联性、码件系列的连续性和完整性、码件分布的一致性和规律性等方面对所选码件进行了综合研究,在此基础上提出了码件归类原则,确定了码件归类方案。
(一)码件关联方式关联是记忆的基础,充分应用关联规律会大幅度提高学习效率。关联是码件归类的主要依据之一。码件与码件之间、码件与码元之间存在着多种关联方式,本发明将其归纳为音关联、形关联、意关联三大类。
1.音关联根据发声特点将码件与码元联系在一起,这种关联方式称为音关联,如“干”与G、“禾”与H、“木”与M、“人”与R之间均为音关联。
2.形关联通过形状特征和结构特征将码件与码件或码件与码元联系在一起,这种关联方式称为形关联。树码将形关联进一步划分为如下七种。
①同构关联码件与码件之间或码件与码元之间具有相同的几何结构,本发明将这种关联方式定义为同构关联,如码件“彐”与码件“山”所处的平面角度虽然不同,但两者的几何结构完全相同,因此,码件“彐”与码件“山”之间存在同构关联。
②成倍关联码件B由若干个码件A或码件A的同构部件组合而成,本发明将这种关联方式定义为成倍关联,如码件“十”与码件“丰”之间,码件“巜”与“巛”之间,都存在成倍关联。
③钩笔关联两码件从结构上来说相差一个钩笔段,本发明将这种关联方式定义为钩笔关联,如码件 与码件“乚”之间,码件“”与码件 之间存在钩笔关联④平交关联码件B与码件A相比,多了一个或多个相交的平笔,本发明将这种关联方式定义为平交关联,如码件“井”与码件“廾”之间,码件“巾”与码件“市”之间都存在着平交关联。
⑤同形关联码件与码件之间或码件与码元之间具有相同的外围几何形状,本发明将这种关联方式定义为同形关联。如码件“凸”与码件“”的结构虽然不同,但两者的外围几何形状完全相同,因此,码件“凸”与码件“”之间存在同形关联。
⑥相似关联码件与码件之间或码件与码元之间在形状上十分相似,本发明将这种关联方式定义为相似关联,如“平”与“干”之间、“来”与“未”之间都存在相似关联。
3.意关联不同码件的含义相同或相近,这种关联方式称为意关联。如码件“火”与码件“灬”之间,码件“心”与码件“”之间都存在意关联。
码件关联方式具有多向性,一个码件可以通过一种或多种方式与一个或多个其它码件发生关联。码件关联方式具有普遍性,码件与码件之间、码件与码元之间都有可能存在上述三种类型的关联。
(二)码件归类原则码件归类就是建立码件与码元(树码以26个英文字母为码元)之间的对应关系。本发明根据以下原则确定码件归属。
1.均衡原则码件归类时,要尽可能使不同码件分布在不同码元上;各码元所含码件的累计组字频率和组词频率要尽可能均等,不能太多,也不能太少。
2.关联原则归于某一码元的所有码件与该码元之间要相互关联。
3.优先原则当一个码件可与多个其它码件发生关联时,原则上按下列次序确定其归属。
1)同构关联优先于成倍关联2)成倍关联优先于钩笔关联3)钩笔关联优先于平交关联4)平交关联优先于同形关联表3-2码件归类原则说明举例 (三)归类结果根据码件自身的结构特征和码件之间的关联特征,将码件分为根源码件和非根源码件两大类。根源码件是指能够代表某一类码件共同特征的典型码件,根源码件之外的所有码件统称为非根源码件。根源码件归类结果见表3-3,非根源码件归类结果见说明书附图。
表3-3根源码件表 四、汉字分解(一)汉字部件关系部件关系指两个部件在空间位置上的相互关系,本发明将部件关系划分为离散、连接、交叉三种,并把离散关系和连接关系合称为拼并关系。
1.离散关系两部件在汉字中保持一定距离,本发明将这种类型的部件关系定义为离散关系,如“好”字中的两个部件“女”与“子”之间的关系属于离散关系。
2.连接关系两部件之间至少有一个笔画相互连接,本发明将这种类型的部件关系定义为连接关系,如“古”字中的两个部件“十”与“口”之间的关系属于连接关系。
3.交叉关系汉字中两部件的所有笔画或若干笔画之间互相交叉,本发明将这种类型的部件关系定义为交叉关系,如“乐”字的两个部件 与“小”之间的关系属于交叉关系。
4.拼并关系本发明将连接关系和离散关系合称为拼并关系。拼并关系进一步分为正并和偏并两种。正并关系指两部件上下并列或左右并列的关系,如“好”字中的两个部件“女”与“子”的关系为正并关系;正并以外的拼并关系统称为偏并关系,如“可”字的两部件“丁”与“口”之间的关系为偏并关系。
(二)汉字分解原则汉字结构比较复杂,如何分解汉字目前还没有统一的标准和规范。这一问题在汉字编码领域中尤为突出,同一种编码方法对同一个汉字往往有多种不同的分解结果,这对汉字编码造成了不必要的困难。本发明按如下四条原则逐级筛选汉字分解方案,彻底解决了一字多解(多种分解方案)的难题。
1.码件数量原则在各种可能的分解方案中优先选择码件数量最少的方案。
2.码件关系原则在根据上述原则选出的多种方案中,优先选择码件之间具有拼并关系的方案,拼并方案中优先选择正并方案。
3.码件归属原则在根据上述原则选出的多种方案中,如果存在某一码件与其它多个码件合并的可能,那么应选择与相邻前位码件合并的方案。
4.码件排序原则码件的先后次序根据码件第一笔画的先后次序确定。
上述四条原则有两个前提条件,一是端连笔画不分解,当整体对待,例如“厂”字中的两笔画端连,就不能当作“一”和“丿”进行分解;二是汉字中能被一个部件包围的孤点不参与编码,如“戈”字中的“丶”是孤点,且被部件 所包围,因此不参与编码。
所有汉字按上述四条原则筛选之后,都可得到唯一的分解方案。
五、汉字编码(一)汉字编码最大码长为4,尾码取声码,前几位取形码。由一个码件组成的字为两位码,首码为该码件的归类代码(归类代码简称代码,即码元),尾码为声码,即码件字拼音的第一个字母,如“工”字的编码为HG。由两个码件组成的字取两位形码,分别为第一码件和第二码件的代码。由两个以上码件组成的字,第一、第二码分别取前两个码件的代码,第三码取末尾码件的代码。
(二)词编码1.双字词四位码,按顺序每个字取其编码的第一位码和第二位码。
2.三字词六位码,按顺序每个字取其编码的第一位码和第二位码。
3.四字词八位码,按顺序每个字取其编码的第一位码和第二位码。
4.五字词及五字以上词码长等于字数,每个字取其编码的第一位码。
六、关联树汉字编码方法的特点关联树汉字编码方法有如下八个特点。
1.概念界定明确。对笔画、笔串、部件、码件等基本概念做了严格和明确的界定。
2.选择码件有充分的科学依据。本发明以提高学习效率和输入效率为目标,以码件系列的连续性和完整性为依据,从减小码长和降低重码率入手,在对大量部件进行系统研究的基础上,首次提出了选定码件的六项基本原则,并根据这六项原则建立了树码码件集合。
3.码件归类科学。从码件之间的相容性和关联性、码件系列的连续性和完整性、码件分布的一致性和规律性等方面对所选码件进行了综合研究;以计算机为手段,对几百个码件归类方案进行了分析对比,在此基础上提出了码件归类的三条原则,据此确定了码件归类方案。
4.码件与码件之间、码件与码元之间密切关联。本发明对码件关联方式进行了系统、科学的归纳与界定,采用树的结构型式,通过音、形、意等关联方式将码件与码件、码件与码元连成一个有机的整体,易学、易记。
5.汉字分解简单明确,结果唯一。本发明采用逐级筛选的方法确定汉字分解方案,彻底解决了汉字分解时通常遇到的一字多解(多种分解方案)这一难题。
6.重码率底,输入效率高。国家标准GB-2312中的6763个汉字编码的静态重码率低于5%,这在所有音形码中是最低的。
7.码元少,便于盲打。以26个英文字母为码元,在标准电脑键盘上分上、中、下三排集中分布,左右手协同输入,十分方便。
8.词组采用不等长编码方式,适合建立大容量低重码词组编码库。
9.本编码方法具有普遍性,适用范围广,可用于中、日、韩所有简体和繁体汉字的编码。
七、说明书


图1是码元A及其归类码件的关联树2是码元B及其归类码件的关联树3是码元C及其归类码件的关联树4是码元D及其归类码件的关联树图
图5是码元E及其归类码件的关联树6是码元F及其归类码件的关联树7是码元G及其归类码件的关联树8是码元H及其归类码件的关联树9是码元I及其归类码件的关联树10是码元J及其归类码件的关联树11是码元K及其归类码件的关联树12是码元L及其归类码件的关联树13是码元M及其归类码件的关联树14是码元N及其归类码件的关联树15是码元O及其归类码件的关联树16是码元P及其归类码件的关联树17是码元Q及其归类码件的关联树18是码元R及其归类码件的关联树19是码元S及其归类码件的关联树20是码元T及其归类码件的关联树21是码元U及其归类码件的关联树22是码元V及其归类码件的关联树23是码元W及其归类码件的关联树24是码元X及其归类码件的关联树25是码元Y及其归类码件的关联树26是码元Z及其归类码件的关联树图
权利要求
1.一种汉字编码方法,其特征在于以26个英文字母为码元,引入笔串、码件等新概念;根据部件的结构特征和组字频度,提出了选择码件的六项原则,根据这六项原则建立了码件集合;以码件之间的相容性和关联性、码件系列的连续性和完整性、码件分布的一致性和规律性为依据,提出了码件归类的三项原则,根据这三项原则确定了码件归类方案;以汉字分解为基础,对汉字进行最大码长为4的形声编码;以汉字编码为基础,对汉语词组进行不等长编码。
2.根据权利要求1所述的汉字编码方法,其特征在于对笔串、部件、码件等概念进行了科学界定。笔串是指汉字中可能存在的连续的笔画组合块。将组字频度在两次以上的笔串定义为多频笔串。笔画之间通过端连或交叉构成一个整体,将这种类型的笔串定义为整体笔串。某一笔串在构成汉字时与周围其它笔串永远保持一定距离,将这种类型的笔串定义为分离笔串。将多频笔串、整体笔串、分离笔串定义为部件。将满足汉字编码需要的部件定义为码件。
3.根据权利要求1所述的汉字编码方法,其特征在于根据以下六项原则选择码件,建立码件集合。(1)单构部件原则上作码件(2)整体部件原则上作码件(3)整连部件原则上作码件(4)高频部件原则上作码件(5)复杂部件原则上作码件(6)与上述五种部件相似的部件原则上作码件
4.根据权利要求3所述的汉字编码方法,其特征在于(1)单构部件是指笔画通过单一方式构成的部件。单构部件进一步分为以下四种。①散笔部件部件中的所有笔画之间相互离散,本发明将这样的部件称为散笔部件。②中连部件部件中的所有笔画通过中连方式直接或间接地连在一起,本发明将这样的部件称为中连部件。③端连部件部件中的所有笔画通过端连方式直接或间接地连在一起,本发明将这样的部件称为端连部件。④交笔部件部件中的所有笔画通过交叉方式直接或间接地交接在一起,本发明将这样的部件称为交笔部件。(2)整体部件是指笔画通过端连或交叉方式直接或间接地交连在一起的部件。(3)整连部件是指整体笔串与若干平笔直接相连所构成的部件。(4)高频部件是指组字频度相对较高的部件。(5)复杂部件是指结构比较复杂的部件。(6)相似部件是指与以上5种部件在结构上很相似的部件。
5.根据权利要求1所述的汉字编码方法,其特征在于根据以下三项基本原则确定码件归属。(1)均衡原则码件归类时,要尽可能使码件均衡地分布在不同码元上。(2)关联原则归于同一码元的所有码件与该码元之间原则上要相互关联。(3)优先原则当一个码件可与多个其它码件发生关联时,原则上按下列次序确定其归属。①同构关联优先于成倍关联②成倍关联优先于钩笔关联③钩笔关联优先于平交关联④平交关联优先于同形关联
6.根据权利要求5所述的汉字编码方法,其特征在于码件与码件之间、码件与码元之间主要通过以下三种方式发生关联。(1)音关联根据发声特点将码件与码元联系在一起,这种关联方式称为音关联。(2)形关联通过形状特征和结构特征将码件与码件或码件与码元联系在一起,这种关联方式称为形关联。本发明将形关联进一步划分为如下七种。①同构关联码件与码件之间或码件与码元之间具有相同的几何结构,本发明将这种关联方式定义为同构关联。②成倍关联码件B由若干个码件A或码件A的同构部件组合而成,本发明将这种关联方式定义为成倍关联。③钩笔关联两码件从结构上来说相差一个钩笔段,本发明将这种关联方式定义为钩笔关联。④平交关联码件B与码件A相比,多了一个或多个相交的平笔,本发明将这种关联方式定义为平交关联。⑤同形关联码件与码件之间或码件与码元之间具有相同的外围几何形状,本发明将这种关联方式定义为同形关联。⑥相似关联码件与码件之间或码件与码元之间在形状上十分相似,本发明将这种关联方式定义为相似关联。(3)意关联不同码件的含义相同或相近,这种关联方式称为意关联。
7.根据权利要求6所述的汉字编码方法,其特征在于采用树的结构型式,通过根源码件将码件与码元连成一个有序且层次分明的整体。
8.根据权利要求7所述的汉字编码方法,其特征在于根源码件共有50个一,二,三,灬,立,山, 兴, ,干,工,王,禾,讠,衣,丁,于,上,止,正, ,乚,儿,木,米,中,女,口, ,卩,日, ,人,, ,几,氵,, 凵, 又,十,亻,
9.根据权利要求5所述的汉字编码方法,其特征在于码件与码元的对应关系如下。
10.根据权利要求1所述的汉字编码方法,其特征在于按如下四条原则逐级筛选汉字分解方案。(1)码件数量原则在各种可能的分解方案中优先选择码件数量最少的方案。(2)码件关系原则在根据上述原则选出的多种方案中,优先选择码件之间具有拼并关系的方案,拼并方案中优先选择正并方案。(3)码件归属原则在根据上述原则选出的多种方案中,如果存在某一码件与其它多个码件合并的可能,那么应选择与相邻前位码件合并的方案。(4)码件排序原则码件的先后次序根据码件第一笔画的先后次序确定。
11.根据权利要求10所述的汉字编码方法,其特征在于端连笔画不分解;能被一个部件所包围的孤点不参与编码;所有汉字的最终分解结果是唯一的。
12.根据权利要求1所述的汉字编码方法,其特征在于单字编码最大码长为4,前几位取形码,尾码取声码。由一个码件组成的字为两位码,首码取该码件的归类代码,尾码取该字拼音的第一个字母;由两个码件组成的字取两位形码,分别为第一码件和第二码件的代码,尾码取该字拼音的第一个字母;由两个以上码件组成的字,第一、第二码分别取前两个码件的代码,第三码取末尾码件的代码,尾码取该字拼音的第一个字母。词编码为不等长编码。双字词为四位码,按顺序每个字取其编码的第一位码和第二位码;三字词为六位码,按顺序每个字取其编码的第一位码和第二位码;四字词为八位码,按顺序每个字取其编码的第一位码和第二位码;五字词及五字以上词码长等于字数,每个字取其编码的第一位码。
全文摘要
一种汉字编码方法,其特征在于:以26个英文字母为码元,引入笔串、码件等新概念;提出了选择码件的六项原则,并根据这六项原则建立了码件集合;提出了码件归类的三项原则,并根据这三项原则确定了码件与码元的对应关系;从码件数量、码件关系、码件归属及码件排序四个方面逐级筛选汉字分解方案;以汉字分解为基础,对汉字进行最大码长为4的形声编码;以汉字编码为基础,对汉语词组进行不等长编码。
文档编号G06F3/023GK1385776SQ01119148
公开日2002年12月18日 申请日期2001年5月14日 优先权日2001年5月14日
发明者雷应海, 孙勇 申请人:孙勇, 雷应海
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1