汉字动态结构信息编码技术的制作方法

文档序号:6601539阅读:272来源:国知局
专利名称:汉字动态结构信息编码技术的制作方法
技术领域
本发明涉及一种汉字编码技术,属于汉字信息处理技术领域。具体的说,本发明构造出了一种规范、易学、好用、高效的多用途汉字动态结构信息编码系统。
汉字固有的象形、会意、简洁、全息的优越性能,是西文所不可比拟的。然而,在现代信息处理系统中,汉字信息的处理与西文信息处理相比,却存在着独有的难度。于是,就出现了汉字编码的问题。多年来,不少学者专家对这一问题进行了广泛的研究,如今已形成了万“码”奔腾的局面。其中一些优秀的编码方案,已在计算机汉字信息处理系统中发挥了很好的作用。
汉字编码的现有技术方案,大致可以分为两大类即音码和形码。前者以包括全拚、双拚在内的拚音码为代表,后者以“五笔字型”为代表。
音码以汉字整字读音信息为编码依据,以汉语拚音字符为编码符。其优点是易学,易掌握;其缺点是重码率高,效率低。
形码以优选一定数量的字根为编码依据,分类归并后,以英文字符作为编码符。其优点是重码率低,效率高;其缺点是编码规则复杂,学习难度大,尤其难为非专业人员所掌握。
其他的各种编码方案,基本上都是以音码设计思路和形码设计思路为蓝本,改进、变换、发展而成。
上述现有编码技术无论是音码还是形码都未能充分发挥汉字的自身优越性,因而都存在着一些先天的不足之处。
音码完全舍弃了汉字的形态信息,从而导致了高重码率的缺陷;形码则完全没有考虑汉字的音态信息,始终认为只要优选出一个基本字根集,任一汉字就都可由其中相应的字根组合而成。然而,各种形码及其相关的编码方案的实践,已经充分证明了这样一个事实任何一个基本字根集都不可能在规范的前提下,完全涵盖整个汉字集,即使对于国标一级、二级汉字集也无法完全作到。于是,形码方案只好以牺牲规范、增大使用者学习难度为代价,不得不作出一些非规范且复杂的编码规则,以保证编码方案对汉字集的涵盖率。这些非规范的编码规则,例如将“不”字强行拆分为“一、小”的扭曲组合,将“或”字分解为“戈、口、一”的倒笔画组合,对人们认识汉字、学习汉字和理解汉字都有明显的误导作用。这也就是现有汉字编码技术中,没有一个能够真正成为从适宜小学生学习到满足非专业成人使用需求的统一编码方案的根本原因。
本发明的目的在于克服现有汉字编码技术的不足,充分发挥汉字自身的优越特性,创造出一种设计规范、操作轻松、用途广泛的汉字编码新技术。
本发明包括理论方法和方案设计两大部分。
理论方法的研究成果是对汉字内在动态结构规律的发现和人类对汉字的认知结构与汉字内在结构一致性与协调性的发现。
本发明将现有编码技术中的基本字根集称为不变字根集或静态结构元集。然而,静态结构元集不足表现出整个汉字集之中汉字生成的结构变化规律。例如,“奴”的结构元显然是“女”和“又”;而“努”的结构元却并非是“女”、“又”和“力”,而是“奴”和“力”。否则,“努”的音态信息就丢失了。
由此可见,任何一个静态结构元集都不可能真实地、全息地反映出整个汉字集的结构关系和规律。因而,汉字集的任何一个静态结构元集只能是其内在结构元集的一个子集,即静态结构元集∈内在结构元集而内在结构元随着汉字的不同将表现出不同的结构形式,亦即内在结构元是动态的,其集合自然是一个动态结构元集,即有静态结构元集∈动态结构元集∈汉字集动态结构元集→(生成)汉字集上式表明了汉字构成的最直接最本质的规律就是动态结构规律。
人类对汉字的认知结构,也正是建立在汉字构成的最直接最本质的规律之上的。例如,当人们认识“天”字时,自然将它看是“二”“人”→“天”,或者是“一”“大”→“天”,而不会把它视为“横”“横”“撇”“捺”→“天”的笔画组合;同样的道理,当人们认识“吴”字时,只会看作是“口”“天”→“吴”,而绝不会视为“口”“二”“人”→“吴”,或者“口”“一”“大”→“吴”,或者其它的任何形式的笔画组合或字元组合。这就表明了,汉字的认知结构与汉字的内在结构在动态性的基础上,具有高度的一致性和充分的协调性。
本发明以上述两种理论发现为基础,创立了“汉字动态结构信息编码技术”。
汉字动态结构信息编码技术有别于现有汉字编码技术的独到之处在于以下几点A.除“一、乙”两字外,任一汉字在结构上均可依据汉字内在结构规律的规范化原则,分解成为几个结构元;且每一个结构元均具有符合汉字认知结构的通用名称。
B.结构元具有动态特性,元的规模大小视汉字的不同而自然相对调节。例如前述的“二”和“人”是“天”字的结构元,而“天”在“吴”字中又是其结构元。
C.上述结构元的集合是一个动态结构元集,包括三个子集(1)最小结构元子集即汉字基本笔画,包括点、横、竖、撇、捺、折、提、钩,共八种;
(2)非成字结构元子集 即规范化的汉字偏旁部首。
(3)成字结构元子集 即具有形、音、义的汉字。
D.结构元的编码符号集是各个结构元的音态信息即其名称的汉语拚音声母首位符号的集合;对于少量名称无声母的结构元,可采用其韵母首位符号建立编码符号集的子集;也可以采用部分自定义方式或完全自定义方式建立编码符号集的子集或编码符号集。
结构元的形式符号集为标准英文符号集,即26个英文字符。
E.根据本发明的理论成果,汉字语词的结构与汉字的结构具有同一性,其动态结构元集等于汉字集,即有语词动态结构元集=汉字集→(生成)语词集因此,汉字语词的编码结构与汉字的编码结构具有一致性,可在同一编码规则下共存同一编码体系。
f.本发明的编码技术可以方便地生成多种形式的汉字编码方案,例如结构元音态编码、结构元音态与字音态组合编码,最大码长既可以为3,也可以为4,也可以更长。
g.本发明的编码技术所生成的各种编码方案,可以作为汉字编码输入方法,运用于计算机及相关领域。
H.本发明的编码技术所生成的各种编码方案,可以作为汉字编码检索方法,运用于字典和辞书编纂领域。
下面是本发明的一个应用实例1.码型 动态结构元音态与字音态组合编码。
2.码长 4位。
3.码符 26位英文字符。
4.码义 动态结构元名称的汉语拚音声母首位符;
字音的汉字拚音声母首位。
5.码序 结构元码取完后,不足4码时,取字码;
字码取后不足4码时,取小于字码前的结构元码的末结构元码。
结构元码大于或等于4位时,只取前4位结构元码。
6.简码 允许一级、二级和三级简码,并涵盖绝大部分常用字。
7.定义 考虑到汉语拚音书写时的隔音规则,定义wu=u yi=i考虑到英文符号集的利用率,定义丶、冫、亠=a 氵、灬、水=v 口=o 纟=w8.语词 允许语词与单字混编,语词一律4码,顺序取码。
此应用设计已生成实际的计算机汉字输入编码方案,商品名为“易码”,并已正式投入使用。
以下是“易码”的例字编码一级简码q且 w我 e而 r人 t他 y有 u于 i以 o口 p变
a爱 s是 d的 f发 g工 h和 j就 k可 l了z在 x下 c出 v水 b不 n你 m面二级简码sm码 gh灾 dl例 rr从 fj规 ec耐 hj炬 ir大三级简码mzl李 edc陈 gcz张 lzz章 fmm猫 zmb笔 szo局四级全码yuur腴 woyb赢 woyy赢 wjjo珈 swwg巍 hghb烘zggc中国共产党 zhrm中华人民共和国ggkf改革开放 scjj市场经济 yxcl营销策略
权利要求
1.一种汉字结构编码技术,其特征在于包括汉字内在动态结构规律的发现、人类对汉字的认知结构与汉字内在结构一致性和协调性的发现,并以此两种发现作为理论基础,发明的汉字动态结构信息编码技术。
2.根据权利要求1所述的汉字动态结构信息编码技术,其特征在于除“一、乙”两字外,任一汉字在结构上均可依据汉字内在结构规律的规范化原则,分解成为几个结构元;且每一个结构元均具有符合汉字认知结构的通用名称。
3.根据权利要求1所述的汉字动态结构信息编码技术,其特征在于结构元具有动态特性,元的规模大小视汉字的不同而自然相对调节。例如结构元a1、a2组成汉字A,而A在另一汉字中则又可能是其结构元。
4.根据权利要求1所述的汉字动态结构信息编码技术,其特征在于,汉字动态结构元集∈汉字集,其自身分为三大子集(1)最小结构元子集即汉字基本笔画,包括点、横、竖、撇、捺、折、提、钩,共八种;(2)非成字结构元子集即汉字偏旁部首,其选取的原则遵循规范化且兼顾普遍习惯性;(3)成字结构元子集即具有形、音、义的汉字。
5.根据权利要求1所述的汉字动态结构信息编码技术,其特征在于动态结构元的编码符号集是各个结构元的音态信息,即其名称的汉语拚音声母首位符号的集合;对于少量名称无声母的结构元,可采用其韵母首位符号建立编码符号集的子集;也可以采用部分自定义方式或完全自定义方式建立编码符号集的子集或编码符号集。结构元的形式符号集为标准英文符号集,即26个英文字符。
6.根据权利要求1所述的汉字动态结构信息编码技术,其特征在于汉字语词结构与汉字结构具有同一性,其动态结构元集等于汉字集;因此,汉字语词的编码结构与汉字的编码结构具有一致性,可在同一编码规则下共存同一编码体系。
7.根据权利要求1所述的汉字动态结构信息编码技术,其特征在于可以方便地生成多种形式的汉字编码方案,例如结构元音态编码、结构元音态与字音态组合编码等,最大码长既可以为3,也可以为4,也可以更长。
8.根据权利要求1或权利要求7所述的汉字动态结构信息编码技术,其特征在于所生成的各种编码方案,可以作为汉字编码输入方法,运用于计算机及相关领域。
9.根据权利要求1或权利要求7所述的汉字动态结构信息编码技术,其特征在于所生成的各种编码方案,可以作为汉字编码检索方法,运用于字典和辞书编纂领域。
全文摘要
本发明涉及一种汉字编码技术,属于汉字信息处理技术领域。其包括理论方法和方案设计两大部分。理论方法的研究成果是对汉字内在动态结构规律的发现和人类对汉字的认知结构与汉字内在结构一致性与协调性的发现。建立了动态结构元集的概念,并在此基础上构造出了“汉字动态结构信息编码技术”。汉字动态结构信息编码技术具有规范、易学、好用、高效的特点,能够生成多种编码方案,作为计算机汉字编码输入方法及字典和辞书的检索方法。
文档编号G06F3/023GK1113579SQ95105608
公开日1995年12月20日 申请日期1995年5月18日 优先权日1995年5月18日
发明者李晓明 申请人:李晓明
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1