汉字全息码计算机输入系统的制作方法

文档序号:6406338阅读:1128来源:国知局
专利名称:汉字全息码计算机输入系统的制作方法
技术领域
本发明涉及一种汉字信息的计算机输入系统,更确切地说是涉及一种汉字的全息码编码方案输入系统。
汉字信息的计算机处理技术,已在我国从无到有地建立起来,并得到不断发展,但目前还处于实现办公室自动化和解决印刷业自动排版技术问题的阶段,而汉字信息计算机处理技术的发展目标是实现印刷业,情报业的自动化,现有的汉字信息计算机输入系统所流行的汉字输入编码方案,包括笔画码、形码、读音码、音形码等,所处理的汉字数量都限于8000常用字级,而印刷业的真正革命约需1.6万字(辞海范围的字)的大字符集,大型印刷厂约需2.5万字,大型图书馆如果没有大型的汉字库,也不可能实现对古籍书目的现代化检索和管理,因此汉字信息计算机处理技术真正进入印刷业和情报业的计算机自动化处理中,迫切需要有大字符集的字模库,有解决包括繁体字、简体字、异体字的全汉字系统的汉字编码的计算机输入方案。
现有技术的笔画码方案和以部首、部件集群的形码方案,给出的信息量太少,难以达到高效描写几万数量汉字的目的;音码和最为流行的音形码,虽在常用字范围内有较大的通用性,但随着字集扩大到一万以上的字时,仅读音一项就会造成不少障碍,由于这些编码方案都是以抓住汉字全息要素中的某一点或几点为编码的线索,以求贯串始终,超出8千字范围,延伸到全汉字系统的管理与适用,实际上成为不可能。
本发明的目的是应用汉字的全部信息源,用汉字全息码描述全部汉字(包括简、繁、异体),实现汉字字模库从几千字扩展到几万字的数量的变化。
本发明根据对汉字全息理论的研究,认为5.7万字形的巨型汉字字符集(汉语大字典)有一个汉字信息源头的全息基础,这个全息要素可归结为(1)字元,由象形文字流传下来表示字意和读音的字根,是在同一音节里造形和意义都完全不同的独立的字,且在汉字集群里有很强的组字能力。(2)部件,由字根简化和变形而来的表示意义和分类的部首或构字部件,部件是部首和构件的总称。(3)笔画,隶变楷化后稳定下来的基本笔画。(4)结构,字元、部件、笔画是汉字的基本材料,它们灵活多变的结构形式,使汉字字形得以充分发展。(5)体式,同一字音字意,不同形的写法。
本发明将字元、部件、笔画、结构、体式五种信息源,经筛选提炼为不再拆分的稳定模块,分为字元表、键盘图、笔画类三部分,分别用由汉语拼音转为声韵双拼的读音码、音形码、形码、笔画码四种编码方法转换成汉字全息源代码组,根据汉字全息源组成汉字字形的原则,以全息源的固定代码组,按汉字书写顺序组码,转换出单个汉字的代码,与不同字形一一对应,所述的字元表见附图2~4,键盘图见附

图1。
下面对照附图1~4详细说明本发明的输入方案。
本发明按单字使用频度高和组字能力强的原则选择了575个字元模块,它们在任何情况下都是固定不变的整体,按其发音的声母字母顺序排成一张字元表,各字元注有对应的双拼代码,可根据声母从字元表中找到字元及其代码,也可根据字元从字元表查找它的代码。
字元表中包括335个一级字元模块,直接用其双拼音作为固定代码组,一级字元模块在字元表中以大号粗体字示出。
如巴(BA)白(BB)包(BC)半(BD)……表(BZ)派(PB)番(PD)旁(PF)朋(PG)……票(PZ)马(MA)卖(MB)毛(MC)曼(MD)……苗(MZ)牙(EA)翁(EG)永(EL)而(ER)……要(EZ)字元表中还包括240个二级字元模块,排在字元表中一级字元模块固定代码组下面,以不同于一级字元模块的字号示出,其代码是用其对应的一级字元模块代码加其第一笔画的代码组码,构成固定代码组。如友(BA1)暴(BC2)副(BI1)畢(BI2)鼻(BI3)必(BI4)辟(BI5)兵(BP3)北(BQ2)卑(BP3)扁(BR3)……尧(BZ1)舀(BZ3)本发明按大部件结构组字的原则选择了70个部件,放在字元表中一级字元模块和其固定代码之间,以其所跟随的一级字元模块的固定代码组为其代码,如
(BD),帀比(BI),北(BQ),髟(BZ),
(PF),
(PI),酉(PQ),卯(MC),
(FH),非(FQ),歹(DB),
(DI),
(NF),
(NV),
(LM),……,旡(OU),
(EX)由于在575个一、二级字元模块中,包括了相当数量的繁体字元,因此多数繁体字与简体字的区分在组合中自然得到解决,其中90个字元的繁简体字不能通过组合区分,本发明在该简体字旁加注▲,编码时,以其在字元表中的固定代码加字母K组码,换成繁体字,如宾(BM),賓(BMK),变(BR),變(BRK),丽(LI1),
(LI1K),岁(SV6),歲(SV6K)。
要说明的是,字元表中如
(BD)比(BI)北(BQ)卯(MC)非(FQ)行(HF)
(JV)
(XP)这样的部件,中间插入另一字元模块或部件构字时,该字的代码为其对应字元表中第一级字元模块的两个代码中间再加入所插入字元模块或部件的代码组码。
如斑(BKBD),街(HAAF),卿(MGNC)。
本发明的键盘图,26个字母键上,标记有汉语拼音和它的双拼音用法,与目前流行的音码及其键位分布基本一致,但W、K键不用于表示韵母,包括Q-Q ei üe,W-ch,E-E e,R-R ian er,T-T uen ün,Y-sh uai ü,U-U,I-i,O-O uo O,P-P ing,A-a ia,S-S uan üan,D-D an,F-F ang,G-G eng ueng,H-H ou,J-J ie,K-K,L-L ong iong,Z-Z ua iao,X-X uang iang,C-C ao,V-zh uei iou,B-B ai,N-N en,M-M in本发明另外选择了105个高频字,字元模块,分别离散在键盘26个字母键位的正中、左上角、右上角、左下角四个不同的方位上,以四种不同的使用方法随机产生出四种不同的变化,而形成固定代码组,键位正中的高频字,单独成字时,用键名为其代码,与其他字元或部件组字时,用其键名加字母W组码;键位左上角的高频字,在键名前加字母A组码;键位右上角的高频字,在键名前加字母I组码;键位左下角的高频字,在键名后加K字母组码。
如1大(A)不(B)于(C)……是(S)…在(Z)夺(AWCT)甭(BWNW)竽(VCW)匙(SW83)……茬(CZW)如2圭(AA)家(AB)饣(AC)乙(AD)予(AE)王(AF)示衤(AG)禾(AH)意(AI)机(AT)彳(AK)……声(AY)支(AZ)如3丸(IA)穴(IB)食(IC)动(ID)雨(IE)至(IF)戈(IG)巾(IH)久(IJ)克(IK)……式(IY)之(IZ)如4攵文(KB)燕(KC)制(KD)鱼(KE)力(KF)光(KG)火(KH)金(KJ)衣衤(KK)……数(KY)资(KZ)本发明选择了89个部件,按其在汉字字形中通常所处的位置,分别离散在26个键位正中高频汉字的上、下、左、右和键位的右下角五个位置上,分布在键位正中高频汉字上、下、左、右的部件,直接用其键名字母组码,分布在键位右下角的部件,重复键名字母组码。

、虫、鱼、阝、扌、山、土、石、口、讠、日、纟、氵、王、火、钅、亻、月、、忄、女、木,通常处于汉字字形的左边,因此分别置于22个(其中G、C、V、B键没用)键位正中方位高频汉字的左边,当所要编码汉字的左部首或左构件正好与上述部件一致时,直接用键名字母为其代码,如狗(QJY3)泯(DMM)岭(YLP)陸(RLU1)。
如欠、阝、殳、刂、彡、力、乌、攵、页,通常处于汉字字形的右边,因此分别置于Q、R、Y、U、D、F、V、B、N键位正中方位高频汉字的右边,当所要编码汉字的右部首或构件正好与上述部件吻合时,直接用键名字母为其代码,如欢(54XQ),没(DY0),则(BQU)。
如疒、艹、
、、宀,通常处于汉字字形的上边,因此分别置于G、C、V、B键位正中方位高频汉字的上边,当所要编码汉字的上部首、构件正好与上述部件吻合时,直接用键名字母为其代码,如病(GIZL),宓(BBI4)。
如手、皿、言、糸、彡、力、示、……、金、辶、心、廾、夂、木,通常处于汉字字形的下边,因此分别置于T、O、P、S、D、F、G、H、J、Z、C、B键位正中方位高频汉字的下边,当所要编码汉字的下部首,构件正好与上述部件吻合时,直接用键名字母为其代码。
如警(CJY3P)热(TIAH)监(LMO) 角,其代码为双键名,寒(NN44),劈(XX73J),壳(SS38J)。
本发明给那些笔画很少或未进入字元表和键盘键位的字,按笔画编码。所确定的八种笔画为横提(一、 ),竖(丨)、撇(丿)、点捺( )左折(乛 ),右折(ㄥㄑ 乚),左勾(亅 ㄋ),右勾( 乚 ),其中左折是指笔画的第一折向左,右折是指笔画的第一折向右,左勾是指笔画的最后一勾向左,右勾是指笔画的最后一勾向右,笔画代码分别以键盘数字键1~8八个数字为其代码,在使用笔画码时,规定第一笔画与第二笔画的三种关系,即离散、接触、交叉,分别以字母键L、J、X为其代码。
字元表,键盘图中没有相应字元模块和部件的整体纯笔画字,依次写至四笔,并标明第一笔与第二笔的关系组码,如夷(1517L);可分解的纯笔画字,各用其前两笔画代码再加第一、二笔画的关系代码组码,如釜(3411L);笔画少的纯笔画字,则随字表现编码,如八(34L),入(34J),乂(34X),刀(73J),几(38J),九(38X)。
本发明为缩短码长,还设置了字母I作为同一字元重复出现的简码,如龙字,字元表给出代码是LL,繁体龙字代码是LLK,四个繁体龙字组合的汉字代码是LLKIII,如琴的代码,王是键盘F键位左上角字元模块,代码为AF,王重复出现一次,代码为AFI,今在字元表中是一级字元模块,代码为JM,其代码组合为AFIJM。
当重复部分必须用笔画编码时,则重复该笔画代码,如献的繁体字 ,字元表给出代码是SA,则 (SA6), (SA66), (SAWS)(字元表给出部件巛的代码是WS)。
本发明对少数字元的倒字元,加数字9为其组码,如“或”的倒字“ ”,其代码为HO9。
本发明将哪些完全由字元表,键盘图上所给出的部件组成的字,称作O字元字,组码时,除用其部件代码外,再加数字0为其组码,如陸(RLU10),设(PY0),吹(OQ0),蓟(CEU0)。
综上所述,本发明选择575个常用汉字以及相应的575组以音码、音形码编码的固定代码组,构成一级字元加二级字元的字元表,这575个常用汉字是要记读音的,而且只能是一种固定的读法。
另外选择105个高频汉字,亦作为字元模块直接标在26个字母键位上,以形码作为它的固定代码组,因此上述两项使汉字全息码的字元模块定量为(575+105)共680个。
本发明还选择了159个部件作为全息码部件模块,分别分布在26个字母键的键位上和由575个字元模块组成的字元表中,分布在字母键上的部件以形码编码,分布在字元表内的部件以其所跟随的一级字元模块的音码编码(二级字元不带部件)。
本发明选择了八种笔画代码及三种笔划关系代码作为全息码的笔画代码。
本汉字全息码用两种方法来表现汉字结构的变化,一种是根据位置不同,部件与字元的交替使用,如“山”与“夆”,当它们构成左右结构的“峰”字时,“山”取自键盘部件,“峯”取自字元表字元,其代码为YFG3。“山”与“夆”,构成上下结构的“峯”字时,“山”与“夆”均取自字元表字元,其代码为YDFG3,同理,晖(AJT)晕(RIJT)。煮与煑是异体字,“者”是字元表中的字元模块,灬与火都是键盘H键位上的部件(字元),但其所在的方位不同,煮的代码是VEH,而煑的代码是VEHK,第二种就是一个字元部件被另一个字元部件穿插分开成前后两部分,全息码中共有9个这样的字元部件,形成供穿插的9个字元部件,将这9个部件字元列入键盘图和字元表中,则其代码也被所穿插字元或部件的代码穿插而组码,如裸字,衤(衣)取自键盘图K键,代码为KK,果字是字元表一级字元,代码为GO,裸的代码是KKGO,当衣字元被果字元穿插形成裹字时,其代码也被穿插,为KGOK。
以上两种表现汉字结构变化的方法,使代码也随汉字形体的改变而改变。
本发明处理汉字繁简体体式变化的方法,主要通过选择许多繁体字元部件作为本发明的字元部件,因而组码自然不同,但对90个简体字元加▲,增加代码K以示区别,当繁简体混用时,这种处理方法是十分方便的。
本发明用读音码、音形码、形码、笔画码分别描述了汉字的字元、部件、笔画、结构、体式的组合规律,而形成了一个完整的汉字全息码方案,即应用汉字的全部信息源,用代码描述全部汉字的方案。
本全息码方案共855个记忆量,335个常用汉字用读音作为它的固定代码;240个常用汉字用读音码加第一笔汉字笔画码(音形码)为它的固定代码;105个高频汉字是放在键盘键位的四个不同方位上的形码;159个部件放在键盘键位和字元表中,放在字元表中的部件以一级字元音码为其代码,放在键盘键位上的部件以键名(形码)为其代码,可直观对查。10个代表笔画、倒字元,0字元处理的数字码;3个代表笔画关系的字母码;3个分别处理重复字元,简体变繁体,和高频汉字的字母码,共计(335+240+105+159+10+3+3)855个。除此而外,再无任何非常规编码和使用中附加的记忆量,不需单列简码字表,甚至不配备词库,也可获得高速适用的效果。
本汉字全息码编码方案的优点是1)既采纳了读音码、音形码在常用字中便于掌握的长处,又用575个字的限量回避了读音码、音形码由于字集扩大而难以克服的困难;
2)既采纳了形码具有直观性的优点,将105个字元放在键盘键位上,又把575个字元做成一张供直观检索六万汉字字码的字元表,由于汉字全息码采用了字元与大部件的结构方式,避免了一般形码将汉字支解太碎、代码过长的缺点,比如赢这个大部件,其代码为PP,分别与女、鸟、虫、羊、果、马组合时,它们的代码是嬴(PPNY),蠃(PPWK),羸(PPEX),
(PPNZ),
(PPGO),
(PPMA),代码不长,并省去许多麻烦;
3)既采纳了笔画码简单易记的优点,又把笔画码的应用限制在极小的范围,即只用于240个二级字元和书写那些不由字元、部件构成的笔画部分;
4)汉字全息码是不等长的码组,但在其构造中,充分考虑了使用频度对输入速度的影响,所设置的680个常用、高频字元,在日常文件使用中,覆盖面占50~70%,其中440个双字母代码,实际使用覆盖面达30%以上,而440个字元与常用部件组合的汉字码长均为三字母代码,占通用汉字(新华字典1.1万字)的35%,因此越常用的字,其代码越短,覆盖面越大,这种码长自然分布状态使汉字全息码具备了高效快速的功能,再按照字码缩写规律建立常用词库,更可以成倍提高汉字全息码的使用效率;
5)汉字全息码使繁、简、异体字兼容,可促进海内外的文化交流,并为大型印刷厂现代化生产、大型图书馆的图书计算机管理、中文情报检索和古籍研究,全汉字系统的自动化提供了条件。
但是,本汉字全息码系统需要一段时间的熟悉和掌握,要求不学就会,对任何编码系统都是不易做到的。
本汉字全息码用于全汉字系统,编码的重码率为千分之二。统计证明,计算机输入一篇“为人民服务”的文章,全息码平均每字击2.8(加隔键)键。
权利要求
1.一种计算机汉字全息码编码输入系统,其特征在于输入全部汉字的编码方案是将字元、部件、笔画、结构、体式五种汉字信息源,经筛选提炼为不再拆分的稳定模块,分为字元素、键盘图、笔画类三个部分,分别用由汉语拼音转为声韵双拼的读音码、音形码、形码、笔画码四种编码方法转换成汉字全息源代码组,根据汉字全息源组成汉字字形的原则,以全息源的固定代码组,按汉字书写顺序组码转换出单个汉字的代码。
2.根据权利要求1所述的一种计算机汉字全息码编码输入系统,其特征在于所述的字元表,是以575个常用汉字作为字元模块,用其读音的汉语拼音转为声韵双拼为代码,按声母字母顺序排成的字元-代码对照表1)335个一级字元模块的代码,以其读音的汉语拼音转为声韵双拼为固定代码组,包括巴、白、包、半、邦、比、别、宾、本、并、贝、变、步、表、派、番、旁、朋、皮、品、平、配、片、普、票、马、卖、毛、曼、么、蒙、民、某、门、米、灭、莫、命、每、面、目、苗、发、反、方、风、分、缶、非、夫、荅、代、导、旦、得、当、等、斗、弟、枼、东、多、定、电、耑、盾、度、对、他、台、匋、覃、特、唐、头、体、同、它、亭、田、团、屯、图、那、乃、
、南、囊、能、尼、聂、农、宁、内、年、奴、牛、女、鸟、落、来、老、兰、乐、郎、
、娄、立、列、龙、林、罗、令、雷、连、卵、仑、路、留、量、吕、夹、改、高、干、革、冈、更、勾、公、艮、果、关、衮、古、乘、广、鬼、瓜、卡、开、考、看、可、亢、口、空、肯、宽、困、库、亏、匡、夫、夸、亥、好、函、合、行、亨、后、或、黑、奂、昏、户、会、黄、褱、化、加、及、介、冋、今、京、决、见、卷、军、就、将、居、交、其、且、睘、亲、青、确、前、全、群、求、强、去、乔、下、西、些、凶、新、兴、学、先、宣、旬、秀、相、需、小、乍、宅、着、占、者、章、正、周、直、种、真、卓、专、属、隹、庄、爪、查、差、朝、单、车、长、成、丑、齿、重、辰、川、春、处、垂、少、山、社、尚、生、受、事、申、说、鼠、水、双、率、刷、然、热、柔、日、荣、壬、若、闰、如、
、匝、再、早、赞、责、臧、曾、走、子、总、作、尊、族、最、才、曹、参、册、仓、层、此、从、寸、卒、崔、獻、三、色、丧、叟、四、所、算、孙、素、随、阿、爱、敖、安、厄、卯、区、已、业、因、呙、应、严、完、问、无、委、望、外、瓦、牙、翁、永、约、而、员、云、由、羊、与、要;2)240二级字元模块的代码,以其读音的汉语拼音转为声韵双拼加第一笔画代码为固定代码组,包括
(
)己(巳)无(旡)羊(
)。
3.根据权利要求1所述的一种计算机汉字全息码编码输入系统,其特征在于所述的键盘图。1)键盘26个字母键代表汉语拼音声母和韵母的代码,包括Q-Q ei üe,W-ch,E-E e,R-R ian er,T-T uen ün,Y-sh uai ü,U-U,I-i,O-O uo O,P-P ing,A-a ia,S-S uan üan,D-D an,F-F ang,G-G eng ueng,H-H ou,J-J ie,K-K,L-L ong iong,Z-Z ua iao,X-X uang iang,C-C ao,V-zh uei iou,B-B ai,N-N en,M-M in;2)105个高频汉字字元模块分布在键盘26个字母键的正中、左上角、左下角、右上角四个方位上;a.键位正中方位高频汉字字元模块,单独成字的代码是键名,组字时的代码是键名加W字母组码为其固定代码,按键位字母顺序排列包括大不于的以上个和一为到了们用我地国人是工主这有中时在;b.键位左上角方位高频汉字字元模块的代码是以字母A加键名组码为其固定代码,按键位字母顺序排列包括圭家饣乙予王示(衤)禾意机彳吏名你只也妻耳书甬五未出希声支;c.键位右上角方位高频汉字字元模块的代码是以字母I加键名组码为其固定代码,按键位字母顺序排列包括丸穴食动雨至戈巾义久克里进自器部气元士天土页产习式辶;d.键位左下角方位高频汉字字元模块的代码是以键名加字母K组码为其固定代码,从键位B按字母顺序排列,包括攵(文)燕制鱼力光火(I缺)金衣(衤)月木
起言豸原糹手物頁虫心数资;3)还包括89个分布在键盘26个字母键右下角方位上和正中方位高频汉字字元模块的上、下、左、右方的部件模块a.键位右下角方位的部件模块的代码是以双键名组码为其固定代码,按键位字母顺序排列包括
b.键位正中方位高频汉字字元模块上方、下方、左方、右方的部件,以键名为其固定代码,包括字元模块上方的部件B-宀,C-艹、
,G-疒,V-,字元模块下方的部件B-攵,C-廾,D-彡,F-力,G-示,H-灬,J-金,M-木,O-皿,P-言,S-糸,T-手,X-心,Z-辶,字元模块左方的部件A-日,D-氵,E-魚,F-王,H-火,I-石,J-钅,K-亻,L-月,M-木,N-女,O-口,P-讠,Q-
,R-阝,S-丝,T-扌,V-土,W-虫,X-忄,Y-山,Z-,字元模块右方的部件B-攵,D-彡,F-力,N-乌,Q-欠,R-阝,U-刂,V-页,Y-殳。
4.根据权利要求1所述的一种计算机汉字全息码编码输入系统,其特征在于所述的笔画类是1)横提、竖、撇、点捺、左折、右折、左勾、右勾八种笔画;2)以键盘1~8数字为八种笔画的固定代码;3)用字母L、J、X分别代表第一笔画与第二笔画的离散关系、接触关系、交叉关系,加在笔画代码后为笔画类汉字组码。
5.根据权利要求1或2或3所述的一种计算机汉字全息码编码输入系统,其特征在于所述的字元、部件模块,班、比、北、卯、非、行、
、衣,被另一个字元模块或部件模块穿插,分开成两部分时,则其代码也被所穿插字元模块或部件模块的代码穿插组码。
6.根据权利要求1或3所述的一种计算机汉字全息码编码输入系统,其特征在于所述的键盘图,键位正中方位高频汉字字元模块上、下、左、右方的部件与所输入汉字的该部件在方位上一致。
7.根据权利要求1所述的一种计算机汉字全息码编码输入系统,其特征在于输入倒字的编码方案是以其正字元模块代码加数字9组码为其固定代码。
8.根据权利要求1或2所述的一种计算机汉字全息码编码输入系统,其特征在于所述的字元表,90个简体字元模块的繁体字元模块,以简体字元模块代码加字母K组码为其固定代码,包括宾并贝变马卖
蒙黾门灭发风丰飞带导斗东对台体图难宁来赖兰乐丽龙卤留两夹赣冈关贯滚龟函后奂会画华断尽劲见坚军将齐佥乔寻县直真专属单馋车长齿处刍寿热兹仓层从匆肃岁区业呙严厌弯无吴韦与尧。
全文摘要
一种用于输入全部汉字的汉字全息码计算机输入系统的编码方案,是将字元、部件、笔画、结构、体式五种汉字信息源经筛选提练为不再拆分的稳定模块,分为字元表、键盘图、笔画类三个部分,分别用由汉语拼音转为声韵双拼的读音码、音形码、形码、笔画码四种编码方法转换成汉字全息源代码组,根据汉字全息源组成汉字字形的原则,以全息源的固定代码组,按汉字书写顺序组码,转换出单个汉字的代码,用于建立几万字的大字符集。
文档编号G06F3/023GK1060544SQ9110916
公开日1992年4月22日 申请日期1991年9月28日 优先权日1991年9月28日
发明者肖启宏 申请人:肖启宏
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1