字块码暨频度字库的制作方法

文档序号:6407296阅读:189来源:国知局
专利名称:字块码暨频度字库的制作方法
技术领域
(读作“梁氏”)字块码以方便于电子计算机的汉字应用为主,另外可用于文字处理机、字典排序、电报通讯等。张梁字库可取代现行通用Ⅰ、Ⅱ级汉字库。排布方式的新颖且提供了知识字典、识字手册编排的参照。
二、对编码与字库的解释性说明
1°受编码评估、计算机应用发展趋势、知识素质层次、知识面等综合因素的制约影响,迄今为止包括已较广泛应用于电子计算机的有关编码,一般都不尽如人意。有的科学性不够,不能与汉字文化协调进步;有的应用方式不理想,操作记忆烦琐;有的应用模式僵死单一,价值性不高。编码犹如戏剧的一剧之本。基本欠佳,实施构想层次不高,自然难以形成对计算机汉字应用的飞跃。
2°Ⅰ、Ⅱ级字库模式陈旧;对贮存单元浪费惊人;音序方式与部首方式互不协调;不少字常用、非常用归类欠理想;错字(例如“齄”)、别字(例如“硷”、“谘”)为数不少;已不使用的死字很多;一些使用频度不低的字没有收入(例如“杧”、“
”、“獴”)。余不赘述。尤为严重的是,相当缺乏现代气息,物理序号毫无意义。

码起始研究于1985年,方案模式、相关理论早已成熟。现配备的是贝贵琴·张学涛《汉字频度统计》(88·4版)为底本,且重新整理的“张梁字库”。对Ⅰ、Ⅱ级汉字库结合《新华字典》筛选后,总计6144个汉字。已全部进行了编码。目前汉字计算机应用的输出、打印已相当先进,突出问题在输入显示手段,
码结合张梁字库的软件实施最理想有效地解决了这一问题。
三、感知
码的预备知识
S码以英语字母为码元,取码为有关音节第一字母,一般四码等长。但由软件实施,总体码长可远小于4。
1、笔划分类横(H),竖(S),撇(P),点(D),捺(N),提(T),钩(G),折(Z)。
其中前六种运笔方向基本不变,运笔方向改变且带钩的即为“钩”(比如“
”、“
”),否则便为“折”(比如“
”、“
”)。
2、字形分类(1)近字字形。例如“
”、“
”,与相关字对应(相当于“羊”、“牛”)。
(2)、“特征词”字形。例如“犭”(反犬旁),“灬”(四点底),即与“特征字”对应(相当于“犬”、“点”)。
(3)不可读字形。例如“
”、“
”,码元对应于字母O。
3、基本字形表[笔画变形明显可辨的不收入,比如“
(牛)”,等等]
①比较熟悉的基本字形表
上述字形很容易建立与对应字的确定性关联
②不太熟悉的基本字形表(一般为发明人定义)
上述字形只要稍看几遍也就熟悉了,不难建立共识。有的字形不等于绝对不可分。比如“
→白、儿”、“系→幺、小”,等等。
4、发明人定义的理论系列
-单位字指习惯意义上的可读性字根。
-字块地位特殊的笔画,结构明显的字形,单位字或笔画、字形、单位字的一定组合结构。比如“继”、“
”、“米”、“
”都是字块;“徽”,“彳”、“山”、“
”、“幺”、“小”、“攵”也都可看作字块;“徽”习惯上也看作三个单位字块;“德”则有五个单位字块。
在熟悉字块理论系列后,字的单位字块的划分就有了显然性。
-字型字块指最小的不可分拆的可读性单位字块。简称“定型”字。定型字不一定是笔画较少或字形独体的字。不便分拆往往为主要特征。比如“谷”、“豆”、“舞”、“囊”等等。定型字中可含有单位字。但是定型字只有一个单位字块。
不可分字形不妨叫作“字形字”(正象单细胞生物有的介于动植物一样,字“冘”、字形“
”等介于可读不可读之间,发明人统之为“字形字”)。因此,“孑”单个时是字,作偏旁时是字形字。
含有一个、二个、三个单位字块的汉字分别叫作“一维”、“二维”、“三维”字;多于三个单位字块的汉字便是“多维”字(如是比拟于1~多维空间)。发明人规定字的辨析以三维分拆为基础(这是介于二维-习惯的思维模式-以及四维或多维(比如支秉彝的“见字识码”)的最理想适用的分拆模式)。
-字元字块专指单个字时可分、成为字的一部分时不分的可读字。简称“字元字”。比如“内→冂、人”但“钠→钅、内”;“或→戈、口、
”但“域→土、或”;等等。由是,原来“字元”的概念涵义不复存在。
-岛状字块指与周围有明显隔断分界的字块。“疆”因此含七个单位字块。岛状特征是辨析汉字分拆的最显著标志之一。
-界状字块指与周围有明显分界但不隔断的字块。比如单位字与单位字的界离(“古→十、口”);偏旁部首与非规则字块的界离(免→
,兼→
);单位字与特殊字形的界离(县→且、厶,至→
、土);等等。界状分隔也是汉字分拆的最显著标志之一。界状与岛状的相差犹如骨隙的大小,是汉字分拆(庖丁解牛)的关键所在。这样,“锦”是三维字清晰醒目。
-对状字块需具下述特点(ⅰ)两字块大致左右对称(ⅱ)不含明显的字(字形)(ⅲ)或组合成字,或成为字的一部分时地位不很显著。比如“
”、“
”大致左右对称。“卵”、“兆”不含明显的字(字形),且为单个字(与“印”,“北”)不同,前者有字形“卩”;后者含字“匕”。“兜”中的“[]”地位不很显著,但“丽”中的“
”为单位字块。
由此可见,对状字块范畴的本质是与码元的对应关系。而不是出现在汉字中的结构形式。让对状字块与一个码元相对应显然比较适宜合理。因此,“非”是一维字,“印”是二维字,“兜”、“丽”都是三维字。由是,成字(包括可读字形)与否往往是考察分拆的前提。同时,什么样的字为定型字至为重要。它们一般为下述四种类型范畴
(1)叠粘类这是最好识辨的。比如“垂”、“柬”、“再”、“丈”等等。往往俗称独体字。其中“横”不具特殊意义(因此“再”不宜“一、冉”,但“灭→一、火”为好)。
(2)离散类比如“川”、“豆”、“二”、“父”、“谷”、“今”、“气”、“司”、“心”、“俞”,等等。多偏重形的结构稳定性与取码方便。
(3)聚合类比如“州”、“予”、“鱼”,等等。聚合类适于较多的为取码明确简便,减少辨析麻烦的字。“赤”、“而”、“发”、“亥”、“欠”、“舞”、“襄”、“以”、“亦”等皆是。仍需注意的是,界状结构的字不应看作聚合类定型字。比如“兼→
”,“单→
”,“至→
、土”,等等。其中“
(草字头)”、“
(八字头)”。不可读字形对应于O。
(4)固化类带有明显的规定性。比如“风”、“可”、“鹿”、“四”、“田”、“元”、“云”、“卡”、“出”,等等。
四、
编码方案及辅助理论
1、三维模式的道理与依据
(ⅰ)三维的汉字相当可观,可以说不亚于二分字。二分的某一结构往往还是二分(ⅱ)三维方式有传统影响性。比如“刘”姓繁体为“卯、金、刀→劉”;“土、口→袁”“刀、口→邵”等也是着眼于三维(ⅲ)人们的信息感知,对三个来源的反应恰到好处(ⅳ)三维方式更理想充分地利用编码元素,致使重码率剧低(ⅴ)发明人的理论系列与对策措施使三维编码有简便而完满成立的基础与条件。
2、编码方案
字的读音的第一字母为第一码。其他三码按笔画或单位字块的书写顺序依次给出。不可读字块取码为O。
①对于三维字,三个单位字块的读音的第一个字母分别为第二、三、四码。比如“抛→PSJL”;“徽→HROW”;“丽→LYOO”。
②对于二维字,第二、三码按字块给出不变,第四码以第二字块收笔笔画特征字读音第一字母取代。比如“匝→ZKJS”。
③对于一维字,第二码按字块(亦即该字本身)给出不变,第三码对应起笔,第四码对应收笔。比如“事→SSHG”。原字只有一笔,第四码取O。比如“一→YYHO”、“乙→YYGO”。原字不具笔画,第三码也取O。比如“○→LLOO”。
有些特高频字为提高使用速率,软件实施时可特殊处理。比如“的”,可打它的物理序号1(即0001);“了”,可打入L。即知道物理序号的,可直接敲数字键给出;字母编码的最常用字亦少于四码。
④对于多维字,按第一、二、末个单位字块对应第二、三、四码。这样,对多维字的感知速率等同于三维字。由是,能按多维分拆的字多维处理,有助于平滑码元的相对集中,减少重码率。比如“樊”→FMOD”,“垢→GTCK”,“橱→CMCC”,“疆→JGTY”。
注意由于某些可读字过于冷僻,已作字形看待。这类字对应码元亦为O。如上述“爻”;再比如“冘”、“亍”、“乇”,等等。
对于配备词库的软件系统,找词编码相当于字码的“延伸”。即对于四个字以上的词组,按第一、二、三、四(末)个汉字取码。比如“中华人民共和国(ZHRG)”;“南京大学(NJDX)”。三个字的词组,第四码以第三个字的收笔取代。比如“黑龙江(HLJH)”。两个字的词组,则前一个字起笔取代第三码,后字收笔取代第四码。比如“中国(ZGSH)”。
3、有关辅助理论
有了字块系列概念与三维模式基础,把握了定型字的四种类型范畴,一般地,对汉字进行编码已相当简便。我们可对任意的短文、句式、字词进行编码实践,能马上感受方案的方便易学,确定性强。
为使汉字分拆能更为准确、迅速。再加强辅助理论如下
在可否分方面,发明人规范
(1)“负负得正”原则一个字由两个不全为近字字形字的字块构成,才视之为定型字。比如“甸→勹、田”,“包→勹、已”;但“勺”,“勿”,“匆”等为定型字。这样,你是否感到“臣”与“叵”、“区”等确有区别?
(2)辨、速优先原则笔画有“轻重”之分。比如“刃→刀、丶”,“办→力、丶、丶”;“压→厂、土、丶”与“凡”、“为”、“厌”不同,后者为定型字。这样,“少”与“午”,“百”与“亚”,区分有可辨的感觉吗?
这类情形多出现于字元字,它们成为字的一部分,一般也就不需分拆。
这样,感觉因素与科学严谨相结合,加强了分拆与否的明确性。比如“办”的两点由简化而来;“灭”的横有“指事”意味;“百”是形声结构;等等。
在速率方面,注意恰当的模糊意识。比如“戊、戉、戌、戍、成、咸、威、戚”等都不再分拆。由是,“乖→千、
、匕”,“乘”为定型定。“爽→大、爻、爻”,“噩”为定型字。
在怎样分方面,发明人规范
(3)形、频优先原则“男”与“果”由于有否分界而成为二维字与一维字。“走”虽是习惯意义上的偏旁部首,但在发明人的“界状”概念中淡化了。“徒”、“徙”不都是三维字吗?“容”宜“宀、谷”不能作“穴宝盖”处理。因为“谷”是定型字且确实“宝盖头”形式好。
成为定型字或字形字的单位字块结构叫作“绝定稳定结构”。某些字块的可分析结构叫作“相对稳定结构”。“走”是相对稳定的,“谷”是绝对稳定的。
下述字(形)例都成了相对稳定的结构了
弟、第;古、舌、
;充、弃;卒、率;竞、竟;夋、
;等等。这样,把它们看作是可分拆的,不仅在理论上是应当的与必须的,而且在实践上是可感知的与清晰的,更有多方面的优化编码质量的好处。
“形”的方面。另外还要注意框架结构的包容程度。比如“筒→
”,但“源→氵、厂、白、小”。注意“
”结构上方字形的可辨程度。比如“膏→
、口、
、口、月”。但“骨→
、月”。
对于“频”的认识遇到一个字时,首先考虑三分;再确定属于独体、二分、多维的哪一种情况。在三维划分时,“填”应当“土、直、八”比“土、十、具、”好。这表明岛状结构具有独立优势。“渣”应当“氵、木、旦”比“氵、杳、一”好。仅管后者各呈岛状结构,还是逊于习惯性理解的作用。
(4)“分散协调”原则在三维模式下,
“地位协调”例如“敢→
、耳、攵”,“蒙→
、一、豕”。醒目的笔画、字形、可读字地位平等。
“形态协调”例如“候→亻、丨、
”,“赢→亡、口、
”。
“字义协调”例如“触→
、用、虫”,“解→角、刀、牛”;“践→口、止、戋”,“路→、攵、口”。界状字块的分聚真是既灵活又自然。
由是,“器”绝不作“哭、口、口”而作“
、犬、
”;“蠢”绝不作“
、日、
”而作“春、虫、虫”,等等。这就是协调的作用。
“维变协调”一个字以三维为基础,却是看上去怎样恰当就怎样分。下面的一些字现在看起来,三维结构蛮不错
贵(中、一、贝);蚓(虫、弓、丨);虱(乙、丿、虫);压(厂、土、丶);养(
);或(戈、口、
);局(尸、
、口);继(
)
下面的一些字,也真是多维结构好
疑;能;德;镣;瀑;棱;峻;…
五、结合张梁字库关于
码的软件实施构想(关键框图部分见附图
)
1、有关数据库的建立(视机型设备从简或从略)
①张梁字库点阵数据区
亦即Ⅰ、Ⅱ级字库全部按张梁字库编排。这样,6144个汉字共192K字节,比原字库节省近34K(其中单元浪费近14K,不用汉字近20K)。适于芯片处理。字库四级二挡第一级为经常用字,前512个汉字为最常用字,后512个汉字为常用字。第二级为次常用字,前512个汉字为较常用字,后512个汉字为尚常用字。第三级为基本用字,前1024个汉字为频高字,后1024个汉字为频低字。第四级为冷僻用字,前1024个汉字为稀用字,后1024个汉字为罕用字。张梁大字库则可扩充至8192个汉字共258K;第五级为备用字,前1024个汉字为准保留字,后1024个汉字为可淘汰字。
②联绵字数据区
这里的联绵字特指给出第一个字,后续字唯一的二字词组。这样,输出第一个字,第二个字随之输出而不需敲键。比如“氆(5084)氆(5085)”、“倜(5101)傥(5102)”,等等。DATA按…,5084,5101。…排列。
③一码、二码、三码键对应字数据区
为使部分最常用汉字的输入显示更为迅速,有些字可只对应一、二、三个码元,比如“是(S)”,“了(L)”,“不(B)”,等等。

编码区
四个字母四个数字连排,四个字母即
码,四个数字即字库序号。同码字按贝贵琴、张学涛《汉字频度统计》前后为序。为方便使用,可含歧音字。
⑤含*编码数据区
用户对具体字编码某一码元含混不清时(比如“罡”不知其读音),可键入*取代(即按*SZH),则ASZH,BSZH,…存在的对应字按字典编排,以供检索。*为第二、三、四码时如法泡制。
⑥词组区
编排方式相当于
编码区。比如“中华人民共和国ZHRG0080007900840085012700450081”;“南京大学NJDX0475047700900150”;“黑龙江HLJH063013660712”;等等。
⑦码本检字(符)区
由于字库序号的应用意义增强,查找序号可按512个汉字满屏显示按键切换给出,其中包括所有汉字结束以后的全部字符区(也可直接切换转入)。字符计为各类偏旁,各有关常用字母(比如希腊字母π、α、β等),各种符号(比如±,≥,→, ( )/() ,§,△,
等)。个别字检字可按笔画数(两个数字),首尾最小单位字块(两个字母)方式查找,比如“罡(10SZ)”,“(17CT)”。
2、结合框图的软件创新功能
①当前字±i功能
按加号键+时,再按+则输出+;不按+再按数字键i(1≤i≤9),则输出当前字序号+i的对应汉字。按减号键-时,再按-则输出-;不按-再按i则输出当前字序号-i的对应汉字。
②局部重复功能
按进格键→时,再按→,右行一格且恢复原对应格字符;不按→再按1~4的数字键,则当前字按1~4个字重复给出(不含标点)。比如“反反复复,反反复复”,操作方式为
键入“反”,键入“→1”,键入“复”,键入“→1”,键入“,”,键入“→4”。③联绵字功能(已述,略)。
④四个字母含*键检索汉字功能(已述,略)。
⑤序号式、编码式输入汉字不切换功能。直接打数字时,物理序号对应汉字随之显示,除认可外,二位数对应汉字覆盖一位数对应汉字,三位数、四位数相同。字母编码不足4码亦安排认可键。
比如键入“1”(0001),输出“的”,再键入“3”(即0013),输出“定”覆盖“的”;再键入“2”(0132),“合”取代“定”;再键入“4”(即1324),“螺”取代“合”。又比如键入“L”且认可,则输出“了”。
六、有关数据分析看
码的特色
1、GB-1Z部323个汉字,单码字256个,占79.3%,余下的是26个码对应两个汉字;一个码对应3个汉字,两个码对应5个汉字。虽多次校正变动。但统计数据基本不变,汉字相对于用码之比为1.13(注意这是发明人给出的检测指标,比值为1没有重码),重码率惊人的理想。其他声部会更好!这是用码元素多(26个字母约20个),使用充分,平滑程度好,信息容量大(20×20×20×20),编码法则理想等本质因素确定的。
2、《汉字常用字表》3500个汉字的分维情形是,一维字261个,二维字1295个,三维字1765个,多维字179个。分别占7.5%,37%,50.4%,4%,5.1%,可见三维字占一半强;加上二维字占总量近90%。这往往也是对全部汉字形成的基本数据。确定了正确用码的总体优势。
3、张梁字库共6144个汉字,其中单码字4841个,占78.8%。六千多个字相对于GB-1Z部三百多个字,单字比值仍差不多。一码最多对应汉字为7个。大体1对7(2个),1对6(2个),1对5(4个),1对4(29)个,…字/码上界仅为1.17。与三百多字检测的1.13仍相差无几。
码的优越,字数越多,体现得越充分。结合码长小于4的技术处理,重码率会更低。结合软件方式的词组处理,联想功能,特别是加进重码自动消除技术,重码现象忽略不计。
4、
码除上述重码率极低,理论性、科学性强,新颖独创,学用简便外,结合软件实施,明显的优越性还表现在
(1)输入方式灵活先进,可适应面广,效率特高。且表现真正含义上的低击键率。
(2)键盘操作与原计算机西文操作协谐。不需任何辅助设施与规定性键盘记忆。
(3)机型可高可低,软件系统可强可弱,对操作人员专业要求不高,由于字库序号的积累性自然记忆,专业文字处理可臻每分钟更多的出字数。
(4)
码相对于文字改革、识字教学、文化普及及其他方面的应用(比如字典排序、资料索引等)反过来促进计算机汉字的普及推广。
七、张梁字库的应用意义
1、张梁字库实施于计算机软件时,第一次使字库的序号有了应用价值。按字频字义的许多字词连排,极为有助于操作人员的自然记忆,增强击键效率(比如“总统”、“老板律师”、“和平”等,用户第一次使用就能形成永久性关联。±i功能大有用武之地)。
2、经常用字、次常用字、基本用字、冷僻用字的分级分档使操作员对任何出现的汉字容易形成一个位置归宿。由于常用字数量少,使用机会多,又排在前面,更为有助于熟悉编码甚至序号。从汉字文化的角度出发,又便于了解字的属性,减少冷僻字的使用。从长远的观点看,更有助于汉字的动态精减。或者可以这样说,若干年后的字库规模会再小些。
3、字义编排使大到姓与名、地名,化学元素,生物群体;小至色彩,形容词组等等相对集中,给经常操作人员造成便利。从汉字文化的角度出发,又便于学习时对同类事物的信息感知,丰富知识,增多阅历,减少对频度很低的字的错误理解或想当然的认识(这些字往往一字单义)。
4、张梁字库给新颖的字典编排提供了模式。其结构的关联性、层次性,又使人们对复杂事物的客观存在方式与人为组织方式在思想方法上提供丰富而深刻的启示。
总之,熟悉的操作员与偶尔的上机者都能在使用过程中受益。
八、应用考虑及有关参考件

码及其相关知识(包括笔画分类、字形字处理、字块理论、汉字分拆原则等)宜尽早纳入教材教学内容,作为统一使用的汉字编码,让全民族受益于中文信息处理。
2°编码发明人拟写有《汉字与汉字编码》讲座13讲,由汉字的起源、构成特点到对汉字各有关要素的分析、
码方案及其应用意义、张梁字库的特点与使用价值,对了解、认识汉字文字科学,参与汉字文字变革与汉字信息应用,其动态、趋向等等有相当的助益。有关杂志已连载发表,建议尽早出版单行本,宣传推广。
3°为结合汉字应有的读音、字形等变革整理,发明人拟编写《实验字典》,建议有关方面能积极扶助尽早实施。
4°建议资料类索引按
排序,极大地增加翻检的有效率。
5°建议电报通讯与计算机设备关联,通过
码的媒介直接传输不需转译(即发报方输入的是编码,接受方得到的是汉字)。
附参考件
1°在江苏代办处的查新证明。
2°关于提前公开与实质审查吁请书。
权利要求
1、依据《汉字频度统计》编汇的张梁字库及其特点(特别是结构、相关数值等)。
2、
码的有关预备知识(笔画分类-8种;字形分类-近字字形、特征词(字)字形、不可读字形3种;字块理论系列-字块、单位字块、定型字(块)、字形字(块)、维、字元字(块)、岛状字块、界状字块、对状字块,还包括定型字的叠粘类、离散类、聚合类、固化类四种类型范畴)。
3、
码的方案法则及辅助理论(汉字可否分拆与怎样分拆的“负负得正”、“辨、速优先”、“形、频优先”、“分聚协调”四种法则,绝对稳定结构与相对稳定结构)。
4、结合张梁字库的
码软件实施构想(包括框图)。
5、
码暨张梁字库的应用考虑细则(应用面,实现应用的具体措施)。
6、码本设计与检字方法。
7、
码的方案特征是以三维划分为基础,以单位字块的书写为序,以英语字母为码元,一般为四码。不可读字块对应于O,整个字读音第一字母为第一码。
(1)三维划分时,三个字块读音第一字母分别对应第二、三、四码。比如“抛→PSJL”;“赢→YWKO”。
(2)只能二分时,两个字块对应第二、三码不变;第四码可按第二字块收笔笔画特征字读音第一字母取代。比如“匝→ZKJS”。
(3)独体(包括定义为“定型字”的不可分字)时,原字对应于第二码不变;第三、四码按字的起笔与收笔取代。比如“事→SSHG”。一笔字第四码取O。比如“一→YYHO”。不具笔画则第三码也为O。比如“O→LLOO”。
(4)多维字按一、二、末个单位字块取码。比如“疆→JGTY”。
(5)用于组词时,可看作字码法则的“延伸”。即按第一、二、三、四(末)个字定码。比如“中华人民共和国→ZHRG”,“南京大学→NJDX”。三个字时第四码用第三个字收笔取代。两个字则前一个字起笔取代第三码;后字收笔取代第四码。
全文摘要
(读作“梁氏”)码是以发明人独创的“字块”理论系列及字体三维划分为基础的音形综合码。最显明优点是方便易学,重码率低。张梁字库据《汉字频度统计》结合GB字库筛选、按字频字义编排,最显著特点是序号有应用意义。两者实施于软件,最主要特色体现为输入的快速灵活简便。框图设计提供了数字输入编码输入不切换,能给出联绵字等重要新颖手段。不附加设施,明显增强操作击键效率。码、张梁字库在字典编排、资料索引、电报通讯等都有理想应用,与文化教育相辅相成。
文档编号G06F3/023GK1105132SQ9311423
公开日1995年7月12日 申请日期1993年11月10日 优先权日1992年11月17日
发明者梁开华, 张学涛 申请人:梁开华, 张学涛
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1