汉字动态结构易编码技术的制作方法

文档序号:6586019阅读:840来源:国知局
专利名称:汉字动态结构易编码技术的制作方法
技术领域
本发明涉及一种汉字编码技术,属于汉字信息处理领域。具体地说,本发明建立和构造了一种规范、易学、好用、高效的汉字动态结构易编码体系。
汉字固有的象形、会意、简洁、全息的优越性能,是任何西文所不可比拟的。然而,在现代信息处理系统中,汉字信息地处理与西文相比,却存在着独有的难度。于是,就出现了汉字编码的问题。多年来,不少专家学者发明人对这一问题进行了广泛的研究,其中一些相对优秀的编码方案,已在计算机汉字输入领域发挥了很好的作用。
汉字编码现有的技术方案,大致可以分为两大类即拼音码和字形码。
拼音码以汉字整字读音的拼写信息为编码依据,以汉语拼音字母为编码符。其优点是编码规则简单,较好掌握。其缺点是重码率高,输入效率低;由于拼音码对使用者普通话发音水平有较高的要求,非北方地区的使用者更显困难。其实,拼音码并不是严格意义上的汉字编码,而是用汉字读音转换汉字字形。
字形码以优选一定数量的形态字根构成“基本字根集”,以此为编码依据,分类归并后,以英文字母或数字作为编码符。其优点是重码率低,输入效率高。其缺点是编码规则复杂,编码符与字形的相关度低,因而学习难度大,尤其难为非专业录入人员所掌握。
字形码以“五笔字型”为代表,现有的所有字形码方案,几乎都是“五笔字型”的思路,不同的只是“基本字根集”的选取和“基本字根集”在键盘上的分布,或调整、或优化,甚至有的还劣化了,把事情弄得更为复杂。前者如音表字形码,在一定程度上降低了掌握字形码输入方法的难度;后者如英文字母模拟字形码,会给汉字的正确认知和使用带来更多的混乱。
现有的字形编码之所以“难学难用难掌握”,其根本原因在于这些字形编码方案存在的“先天缺陷”。这个“先天缺陷”是对汉字认知规律及与编码技术之间的相互关系,尚缺乏深刻的剖析研究和相应的技术处理。
最重要的,往往是最简单的;最简单的,往往是最自然的。本发明从根本上解决了现有字形编码技术的“先天缺陷”。
任何一个汉字都有一定的结构形态,都是由一个或一个以上的结构单元(以下简称结构元)所构成的。汉字的结构元是一动态集合,现有编码技术中的“字根”是一个静态集合,只是反映了汉字结构元动态集合的部分特性,没有全面揭示其本质。汉字的“动态结构”和“动态结构元集”是本发明的重要概念。
以构造一个“基本字根集”为编码依据,是现有字形编码技术的“先天缺陷”之一。
汉字“国”是由结构元“冂、玉、一”所构成的,“国”字的“识”与“写”都遵循这一结构关系,而在“五笔字型”等字形编码中,“国”字却变成是字根“口、王、丶”的组合。因为,在“基本字根”中没有“玉”,却又有“口”。于是,汉字“国”的结构关系被扭曲了,对“国”字的“识”、“写”与“打(计算机汉字输入)”,变成两件互不相干且又相互矛盾的事情了。可见,现有字形编码“难学难用难掌握”的确是事出有因的。这样的实例可以举出很多。
所以,任何一个在静态字根集的基础上,构造出来的字形码及各种变通的编码方案,都不得不以牺牲汉字认知规范为代价,作出一些非规范且复杂的编码规则,以换取较低的重码率。这种状况,对人们认识汉字、学习汉字和理解汉字,必然会产生明显的干扰和混淆的作用,因而也造成了学习和掌握字形编码的较难克服的困难。
以与汉字本身特性无关的人为方式确定编码符,是现有字形编码技术的“先天缺陷”之二。
现有的汉字编码技术所用的编码符,有英文字符、数字、特别符号(如“<”、“>”、“/”等)。所用编码符与汉字“字根”之间,要么没有任何内在联系,要么就是牵强附会的象征。如,“五笔字型”中的编码符“G”和“F”与“王旁青头戋五一”和“土士二干十寸雨”相应,其间有何道理,没有,你只能死记硬背下来;再如,有的字形码将汉字偏旁“阝”等同为英文字符“P”,把“口”等同为“O”,令人云里雾里。
本发明所建立的汉字“动态结构元集”中的每一个结构元,均具有规范的形态信息和规范的音态信息。
汉字动态结构元规范的形态信息,由三个层次来表征笔画、偏旁和成字。
汉字动态结构元规范的音态信息,由对应称谓的汉语拼音首字符表征。
于是,本发明所涉及的编码符与汉字结构元之间建立了内在的联系,对使用者而言,这种联系是其“识”、“写”汉字知识的自然延伸。现有字形码中死记硬背编码符与“字根”之间对应关系的难题,不复存在了。
汉字的动态结构不仅精美精巧,而且结构规律统一简明。本发明在此基础上,建立了以下的具体的科学概念和易编码技术方案。
一、汉字三层次结构元
任一汉字,总是由相应的结构元所构成的。如“李”字的结构元是“木”和“子” “陈”字的结构元是“阝”和“东”,“利”字的结构元是“禾”和“刂”,“习”字的结构元是
和“冫”,“羽”字的结构元是“习”和“习”,“力”字的结构元是
和“丿”,“功”字的结构元是“工”和“力”,等等。
汉字的结构元分为三个层次1.笔画;2.偏旁;3.成字。
、“丿”属于笔画结构元;
“阝”、“刂”属于偏旁结构元;
“木”、“工”属于成字结构元。
二、汉字的动态结构关系(动态结构元的生成顺序)
1.汉字是由其结构元按规范顺序而生成的。
如“木、子、李”,“阝、东、陈”,就是人们对结构元顺序生成汉字的正确的和恰当的认知。不论是识字、写字,还是打字,符合结构元规范顺序,就顺畅,就方便,就舒服;违背结构元规范顺序,就别扭,就复杂,就难受。如前面提到的“国”字,其结构元及规范生成顺序为“冂、玉、一、国”,这样识也明了,写也好看,打也简单,因为三者是完全是统一的。
2.汉字是由其动态结构元按规范顺序而生成的。
如前所述,静态“字根”无法完全正确地反映汉字自身的结构关系和人们对汉字的认知。因为,任何一个汉字,都是由其动态结构元集之中的相应动态结构元按规范顺序生成的。或者说,汉字的结构元,并非是静止的、固定的,而是相对的、浮动的。
如,结构元“厂、
丿、丶”顺序生成汉字“成”;但“诚”却不是由结构元“讠”与“厂、
丿、丶”的构成,而是由结构元“讠、成”顺序生成,即所谓“讠、成、诚”的顺序生成关系。
再如,结构元“一、丨”构成汉字“十”;结构元“十、丿、”构成汉字“木”;结构元“木、子”构成汉字“李”。
由此可以看到,结构元对于不同的汉字而言,是变化的,是动态的。换言之,汉字的外部形态是一动态结构关系,而非静态“字根”的概念可以涵盖的。
动态结构元包含有比静态结构更为丰富的信息。
例如,汉字“奴”的结构元显然是“女”和“又”。汉字“努”的结构元是什么呢,按静态“字根”的观点,应当是“女”、“又”和“力”;而按动态结构的概念,则应当是“奴”和“力”。请注意,动态结构元“奴”含有“努”的音态信息,即“奴”是“努”的声旁的信息显示出来了。而在静态“字根”观点的观察中,却把这一音态信息丢失了。
三、汉字结构元称谓与编码符
汉字的普通话读音就是汉字的称谓。如“李”读着“lǐ”,“lǐ”就是“李”字的称谓,“陈”读着“chén”,“chén”就是“陈”字的称谓。
笔画结构元和偏旁结构元与汉字一样,都有规范的称谓。如,笔画“丿”的称谓是“piě”即“撇”,笔画“フ”的称谓是“héngpiě”即“横撇”,偏旁“刂”的称谓是“lìdāo”即“立刀”。
结构元称谓是可以由汉语拼音来表达的。
结构元称谓的汉语拼音首字符或关键字(针对复合笔画和偏旁结构元)的首字符,在这里,自然而然就成了本发明的易编码符。这里的易编码符既与声调无关,也与前鼻音和后鼻音、卷舌音和平舌音无关;同时,又与汉字结构元和汉字本身密切相联。因此,本发明将人们的识字、写字、打字和查字,在方法和技术上统一起来了,把人们对汉字的识、写、打、查变成了一回事,会“此”即知“彼”,懂“彼”亦能“此”。更为准确地说,易编码技术把人们已有的对汉字的“识”和“写”的知识和能力,自然延伸到了“打”和“查”的领域。
汉语拼音首字符只有23个,对应的易编码符也只需23个,即
a,b,c,d,e,f,g,h,j,k,l,m,
n,o,p,q,r,s,t,w,x,y,z。
如果将本发明应用于计算机汉字输入,则其编码符所对应的计算机键盘的键位如下
四.笔画结构元易编码
笔画结构元是最基础和最小的汉字结构元。
众多汉字,究竟有多少种笔画,各家归纳,虽略有差异,但大体一致。从技术应用角度,本发明将汉字笔画分为单纯笔画和复合笔画两类。
凡是只需要一个汉字来描述其特征的笔画,称之为汉字的单纯笔画。
单纯笔画有六种
1.“丶(点)”;2.“一(横)”;3.“丨(竖)”;4.“丿(撇)”;5.“(捺)”;6.“
(提)”。
可以看到,这六种单纯笔画从起始到终止,均不发生任何方向的转折情况。
凡是必须用两个或两个以上汉字才能准确描述其特征的笔画,称之为汉字的复合笔画。
复合笔画有三类。注意,不是三种,而是三类。
1.提类,如,
(竖提)、
(横折提);
2.钩类,如,乛(横钩)、亅(竖钩)、
(横折钩);
3.折类,如,(横折)、(竖折)、∠(撇折);等等。
复合笔画,实际上就是单纯笔画的互接复合或延伸。
由于“
(提)”既是单纯笔画,又可以构成复合笔画,所以,六种单纯笔画和三类复合笔画构成了人们认知汉字、书写汉字的八种基本笔画。中国的传统书法和现代书法上用“永”字来大致概括汉字的这些基本笔画,因此有“永字八法”之说。
在现代的汉字检索领域,人们往往把八种基本笔画归并为五种,即“丶(归并其中)”、“一(
归并其中)”、“丨”、“丿”、“(所有带转折的笔画均归并其中)”。
我们必须注意到,汉字检索领域的五种基本笔画,是不可以直接用于识字、写字和打字领域的。因为,检索领域的五种基本笔画的规定,仅仅是为了检索的方便,与汉字本来的结构形态已经有了较大差异。如果,我们非得移植,就必须以设立若干规则作为代价,从而建立检索规则与汉字本来结构形态之间的联系。当然,这就必然会背离简单,添加麻烦。想想,内收为“点”、外展为“捺”的“丶”和“”,在认知上和书写运笔时有多么的不同。
反映汉字形态结构本来面目的八种基本笔画,究竟可以演化成多少种具体的、即便于掌握又便于运用的笔画形态呢,下表是梳理的结果和对应的编码符一览表,圆括号中是对应的称谓,方括号中的是相应的例字。
在八种基本笔画演化生成的三十多种笔画形态中,每一种笔画形态的称谓的最后一个字(单纯笔画称谓的最后一个字就是第一个字),反映了此笔画形态最主要的特征(所属笔画类别),它往往也正是书写运笔时的收笔特征。抓住这一特征,本发明中的笔画结构元易编码,就一目了然了。
如,复合笔画“
”,其称谓“横折钩”,收笔为钩,属钩类笔画,易编码符当然为“g”;再如,复合笔画“フ”,其称谓“横撇”,收笔为撇,属撇类笔画,易编码符自然为“p”。
五、偏旁结构元易编码
偏旁结构元指的是不能作为独立成字使用的笔画组合结构,如“忄(竖心旁)”、“亻(单人旁)”等,下表是本发明所涉及的全部偏旁结构元及相应易编码符。
六、成字结构元易编码
成字,是能够独立存在的汉字。成字结构元,就是本身能够独立存在的汉字在另一个汉字中充当结构元。例如,“木”、和“子”均为成字,而在汉字“李”中,“木”和“子”就是成字结构元;“工”和“力”均为成字,在汉字“功”中,“工”和“力”充当的也是成字结构元。
显然,成字结构元就用其读音的汉语拼音首字符作为易编码符就可以了,完全对应,十分自然。
下表列出了全部汉字的读音与相应易编码符。
从理论上讲,所有的汉字都可以作为成字结构元用于汉字易编码。但在实际应用上,却又不可以完全这样做。为什么呢?因为,有些汉字十分生僻,识者甚少,而且构字能力又很低。如果,把这类汉字作为成字结构元使用,就必然会给使用者造成困难。那么,哪些汉字可以作为成字结构元使用,哪些又不可以,其标准应当如何确定呢?
“常用字”,是成字结构元易编码的基本标准。那么,什么是常用字的标准呢?国标一级汉字就是常用字集。一般说来,凡是超过国标一级汉字集的汉字,都属于非常用字。经过反复的研究和测试,对于常用字以外的可用于成字结构元的汉字,仅限于下表。
表中标有*号的非常用成字,仍然可以降解编码使用。如,非常用成字“乂”,即可作为成字结构元使用,也可降解视为是笔画结构元“丿”和“”。以汉字“文”为例,即可视为是结构元“亠”和“乂”构成,也可看作是结构元“亠”、“丿”和“”的组合。
七、汉字动态结构易编码基本规则
归纳以上各技术要点,本发明形成以下易编码基本规则
“规范为准,符合认知,连续取元,四码为限(三码以上亦可。为了叙述方便,以下均以四码方案为例)”。
依据这一基本规则,十分显然,“木、子、李”的易编码是“mzl”;“阝、东、陈”对应“edc”;“禾、刂、利”对应“hdl”;“
丿、力”对应“gpl”;“方、方、土、堃”对应“fftk”;“亡、口、月、贝、凡、赢”对应“wkyb”,等等。
八、汉字的易编码结构
1.一结构元汉字编码结构
标准结构[结构元称谓首字符+整字音首字符]。
以下,“结构元称谓首字符”简称“结构元”;“整字音首字符”简称“整字”或“字”。
如,“一”=“hy”。其中,
“h”是结构元“一”即横画的称谓“hénghuà”的首字符;
“y”是汉字“一”汉语拼音“yī”的首字符。
2.二结构元汉字编码结构
标准结构[首结构元+末结构元+整字]。
如,“扌、支、技”=“szj”;“口、阿、啊”=“kaa”。
绝大多数二结构元汉字的易编码属于标准结构。
简化结构[首结构元+末结构元]。如,
“耿”=“eh”,“陈”=“ed”,等等。
有的汉字的编码简化结构与标准结构同时存在,
如,“阝、东、陈”=“ed”=“edc”。
扩展结构[首结构元+末结构元+整字+末位识别码]。
其中,“末位识别码”又称“重码识别码”,其含义是“整字末结构元中含未笔画在内的最大结构元”。
如,汉字“层”,对应的易编码结构是“尸、云、层、厶”=“sycs”;其中“厶”就是“末位识别码”,它是“层”字末结构元“云”中“含末笔画在内的最大结构元”。
再如,汉字“料”,对应的编码结构为“米、斗、料、十”=“mdls”;其中“十”是“末位识别码”,它是“料”字末结构元“斗”中“含末笔画在内的最大结构元”。
3.三结构元汉字编码结构
标准结构[首结构元+次结构元+末结构元+整字]。
如,汉字“反”,对应的编码结构为“丿、丿、又、反”=“ppyf”;汉字“碧”,对应的编码结构是“王、白、石、碧”=“wbsb”。
标准结构在很多情况下,也可简化为或[首结构元+次结构元]。
“王、白、石”=“wbs”=“碧”;“阝、勹、”=“eb”=“陶”。
有的汉字的编码简化结构与标准结构同时存在,
如,“阝、勹、缶、陶”=“ed”=“edf”=“ebft”。
如果,非常用字“缶”降解编码,“陶”将变为四结构元汉字。
4.四结构元及四结构元以上汉字编码结构
标准结构[首结构元+次结构元+第三结构元+第四结构元]。
如,汉字“陶”,对应的易编码为“阝、勹、午、凵、陶”=“ebwk”;汉字“前”,对应的易编码为“丷、一、月、刂”=“bhyd”;汉字“惠”,对应的易编码是“一、申、一、丶、心、惠”=“hshd”。
一些四结构元及四结构元以上的汉字,也会有相应的简化编码结构。如,或[首结构元+次结构元]。
“阝、土、八”=“etb”=“陵”;“丷、一”=“bh”=“前”。
九、词的易编码结构
这里所说的词,包括多字词和词组。词的易编码一律采用标准结构。
1.二字词易编码结构
标准结构[首字首结构元+首字+末字+末字末结构元]。如,
“衷心”=“亠”“衷”“心”“丶”=“dzxd”;
“感谢”=“咸”“感”“谢”“射”=“xgxs”;
“中国”=“口”“中”“国”“一”=“kzgh”;
“前进”=“丷”“前”“进”“辶”=“bqjz”;
“无法”=“二”“无”“法”“去”=“ewfq”;
“面前”=“而”“面”“前”“刂”=“emqd”;等等。
2.三字词易编码结构
标准结构[首字+次字+末字+末字末结构元]。如,
“实际上”=“实”“际”“上”“一”=“sjsh”;
“转眼间”=“转”“眼”“间”“日”=“zyjr”;
“注意力”=“注”“意”“力”“丿”=“zylp”;
“座右铭”=“座”“右”“铭”“名”=“zymm”;
“国务院”=“国”“务”“院”“完”=“gwyw”;等等。
3.四字词易编码结构
标准结构[首字+次字+第三字+末字]。如,
“一帆风顺”=“一”“帆”“风”“顺”=“yffs”;
“龇牙咧嘴”=“龇”“牙”“咧”“嘴”=“zylz”;
“重要关头”=“重”“要”“关”“头”=“zygt”;
“中小学生”=“中”“小”“学”“生”=“zxxs”;
“直言不讳”=“直”“言”“不”“讳”=“zybh”;
“人民日报”=“人”“民”“日”“报”=“zmrb”;
“中共中央”=“中”“共”“中”“央”=“zgzy”;等等。
4.四字以上词易编码结构
标准结构[首字+次字+第三字+第四字]。如,
“中华人民共和国”=“zhrm”;
“韩信点兵多多益善”=“hxdb”;
“政治经济学”=“zzjj”;
“中央电视台”=“zyds”;等等。
缩略结构缩略后仍采用标准结构[首字+次字+第三字+第四字]。如,
“中国人民银行”=“中国人行”=“zgrh”;
“中央人民广播电台”=“中央电台”=“zydt”;
“中国工商银行”=“中国工行”=“zggh”;等等。
四字以上词的缩略易编码结构,一般都用于用户专用词的自定义编码。
本发明的应用实例之一计算机汉字词输入方案——易输入法。
输入设备计算机标准键盘。
最长码长4位。
字词同编字采用易编码的标准结构、简化结构和扩展结构,词采用易编码的标准结构;字词量涵盖《现代汉语大词典》和《新华词典》。总重码率2%。
通配查询符?。通配符“?”可在任意编码位使用,从而可以进行模糊输入和编码查询。
列举部分易编码实例1.全部一码字2.二码字示例赘ab 比bb 创cd 澳da 阳er 邦fe 鞍ga 科hd旭jr 兄ke 终ld 档md 妨nf 欧oq 劈pd 猜qq仿rf 打sd 地ty 备wt 懂xd 访yf 妥zn 据sj3.三码字示例李mzl 张gcz 陈edc 联egl 关btg 凼skd 啊kaa阪efb 反ppy 版pfb 如nkr 果rmg 巾ksj 币pjb学dgz 羽xxy 赟bby 刀gpd 九pgj 吊kjd 保rdb4.四码字示例碧wbsb 班wdpw 辩xyxb 石hpks 沛dhjp哉tkgp 裁tygp 骏msbw 盐tbmy 益bhbm前bhyd 获cqqh 夔bhzz 燮yhhy 馨sjyx5.二字词示例前进bqjz 贵阳zgyr 发展zfzn 中国kzgh前景bqji 将军jjjc 社会sshy 民族kmzs6.三字词示例奥运会ayhy 大团结dtjj 贵州省gzsm 广州市gzsj不得了bdlg 能不能nbnb 越来越ylyy 公安局gajk7.四字词示例中共中央zgzy 人民日报rmrb 三个代表sgdb 中国特色zgts社会主义shzy 马列主义mlzy 深不可测sbkc 临渴掘井lkjj
8.四字以上词
马克思列宁主义mksl
邓小平理论dxpl
百尺杆头更进一步bcgt
中华人民共和国zhrm
开放式基金kfsj
本发明的应用实例之二字典和词典快速查询方案——易检索法。
易检索法既可以运用于文本字典和文本词典的编纂,更可以用于电子字典和电子词典的编纂。
易检索法可以采用多种方案编纂字词典,如
1.易编码等长结构(不足长度者补编码符o)排序(适宜中型和大型字词典);
2.易编码标准结构排序(适宜小型字词典);等。
易检索法既可以采用字词分离易编码排序编纂,也可以字词混合易编码统一排序编纂。
下面,以“采用易编码等长(四码)结构字序编纂”方案示例
权利要求
1.一种汉字动态结构易编码技术,其特征在于以符合认知规范的汉字动态结构关系和动态结构元集为编码对象集,以动态结构元称谓或其称谓关键字的汉语拼音首字符为编码符,按照易编码规则和易编码结构对汉字词实施编码。
2.根据权利要求1所述的汉字动态结构易编码技术,其特征在于汉字动态结构元集之中的笔画结构元和偏旁结构元,其数量和称谓确定,并与编码符之间具有明确的对应关系。
3.根据权利要求1所述的汉字动态结构易编码技术,其特征在于汉字动态结构元集之中的成字结构元所属的常用成字结构元,与编码符之间具有明确的对应关系。
4.根据权利要求1所述的汉字动态结构易编码技术,其特征在于汉字动态结构元集之中的成字结构元所属的非常用成字结构元,其数量限定,并与编码符之间具有明确的对应关系。
5.根据权利要求1所述的汉字动态结构易编码技术,其特征在于汉字词的易编码遵循易编码规则并符合汉字的易编码结构和词的易编码结构。
6.根据权利要求1所述的汉字动态结构易编码技术,其特征在于汉字的易编码结构中的末位识别码,是“整字末结构元中含未笔画在内的最大结构元”所对应的编码符。
7.根据权利要求1所述的汉字动态结构易编码技术,其特征在于易编码技术应用于计算机等信息处理设备汉字词输入,形成易输入法。
8.根据权利要求1所述的汉字动态结构易编码技术,其特征在于易编码技术应用于辞书编纂,形成易检索法。
9.根据权利要求1所述的汉字动态结构易编码技术,其特征在于易编码技术可以生成3位码符及3位以上码符的多种汉字词编码方案。
全文摘要
本发明“汉字动态结构易编码技术”,涉及一种汉字字形编码技术,属于汉字信息处理领域。其建立了符合认知规范的汉字动态结构和动态结构元集(笔画、偏旁和成字三个层次)的概念,采用汉字和汉字动态结构元称谓的汉语拼音首字符作为编码符,形成了编码符与编码对象之间的内在联系,确立了汉字“识”、“写”、“打”、“查”四者技能的统一性,并由此构造出易编码技术方案,包括应用于计算机等信息处理设备汉字输入的“易输入法”,和应用于辞书编纂的“易检索法”。易编码技术可以生成3位编码以上的多种形式的编码方案。
文档编号G06F3/023GK1400522SQ0112400
公开日2003年3月5日 申请日期2001年8月6日 优先权日2001年8月6日
发明者李晓明 申请人:李晓明
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1