全信息汉字表达式和实现方法

文档序号:6416810阅读:360来源:国知局
专利名称:全信息汉字表达式和实现方法
全信息汉字表达式的实现,是从对计算机中西文信息表达方法的分析入手的。在对世界上两大文字体系在计算机信息表达和操作上的异同作认真比较的基础上,找出现有的计算机中文信息处理技术中在表达与实现上的局限性以及造成此种状况的主客观原因,给出解决这种局限性的方法,提出克服这些局限性所采取的全信息汉字表达式,阐述这一全新概念实现的技术核心以及对今后中文计算机中文处理技术的发展所产生的影响。
一、问题的提出计算机自1946年发明至今,已有50多年的历史。计算机的应用超越了科学计算的范畴,已经不是单纯的计算机器,而是与人脑相对的“电脑”,是人类大脑思维活动的模拟、延伸与再创造。以计算机为标志的信息时代早已开始。西方的设计者,当时首选了西文为信息处理对象,是由于拉丁文体系文字本身具有的形式上的简捷性,使得西文的文字处理至今没有遇到太大的障碍。70年代中期计算机进入中国时,汉字的计算机处理技术还是一片空白。由于计算机处理信息的速度快,容量大,传递迅速以及准确性能好等优势,已广泛被人类所接受,不管您适应还是不适应,你都要接受这个现实,去迎接它的挑战。
由于中文与西文在形式上的天壤之别,加上初期的计算机又是专门为西文设计的,当它发展到一定程度时,西方的开发商才发现东方这个潜在的市场。然而,聪明的中国人很快发现了在计算机上使用汉字信息处理技术。人们在早已“西化”了的计算机上进行二次开发。其基本概念是仿照西文系统,用高位置“1”的方法,以两个字节的内码来识别每个汉字与符号(我们称之为双字节内码),即把几千(或上万)个汉字定义成一个大字符集(如国标字符集、大五码字符集、日文字符集、韩文字符集和联合码字符集等),于是,不同字数、不同字体的东方大小字符集相继产生,这些大的字符集包含了成千上万个汉字字型信息。为了使汉字能准确高效地输入计算机,在双字节、大字符集概念下,又如雨后春笋般地相继发明了几百种汉字输入法,这些输入法的编码大都采用与两个字节的内码相对应,以英文字母、拼音符或数字符等,对成千上万个汉字进行编码(输入法中对每个汉字的编码称为外码),形成了数百种英文字母串(序号串)和双字节汉字地址为映照关系的对照表(人们称为码表)。把具有完整的汉字内码集、输入法,能识别西文单字节字母,同时又能识别双字节汉字,并且相继出现了支持汉字显示和输出的操作系统(或称外挂平台),或称为中文操作系统(或中文平台)。由于日本和韩国也使用部分汉字或变形汉字字形,因而它们的操作系统也具有中文操作系统(平台)的共同特征。因此,我们统称它们为″双字节汉字系统″。由于东西方文字的差异,存在不同的内码集的中西文操作系统,在中文操作系统中又存在不同内码字符集的中文操作系统和中文平台,如用GB码作为内码集的PWINDOWS和PDOS以及用BIG5为内码集的CWINDOWS和CDOS等。GB码的文本不能直接在BIG5码的系统(平台)上正确读出,反之亦然。故在计算机上使用汉字的人有一个共同的体会当用户要输入一个当前码集中没有收录的汉字(如“镕”字),它往往无从道来,即使他使用系统的造字软件造出“镕”的字型,并赋予它输入代码,但包含这一汉字的文本无法在其它计算机上显示和打印出″镕″字来。设想,如果要打印一份“朱镕基总理”的文稿,单处理这个“镕”字,就够你忙一阵子的了,最后,只好以″笔″代之。目前,在很多领域里仍有永远造不完的缺字、僻字。我们不妨仔细地思考这样一个问题那些被选进标准字符集中的成千上万个汉字,有相当一部分平时的使用频率几乎为“零”,可见人们为汉字处理所付出的代价是巨大的。目前,这些大字符集里的大部分汉字的利用率是极低的,汉字字库占据着宝贵的计算机内存空间。很显然,计算机处理中文的效率明显低於处理西文的效率。
难道就没有更好的方法使得计算机的汉字处理如同处理英文一样的方便而高效吗?本发明提出的全信息汉字表达式和实现方法就是解决这一问题的关键技术。
二、拉丁体系文字与象形文字的比较下面列出两大体系文字在基本元素、语义单位、意群、独立概念、完整阐述等作如下比较,然后逐一剖述。
拉丁文体系文字与象形文字的结构对照表
从上表可以看出两种文字体系的对应关系西文的字母对应中文字母字(即汉字的笔画、部件、偏旁、部首);西文的单词(如Home、You、Study)对应中文的“字和词”(如“家”、“你”、“学习”等);其余的文字结构基本上是一样的。西文的字母所对应的是汉字的笔画、部件、偏旁、部首等。我们经过精心筛选后,把这些汉字的基本组字单元定义为“中文字母字”。中文字母字具有独立的汉字的语义,同时具有拉丁字母的组字特性和功能。它们可以互相组合成所有的象形方块文字。而英文字母只是一种符号,没有任何的意思和含义,它们之间的区别就在于此。英文的单词是由拉丁文的基本元素——字母构成的,而中文则由字母字在复杂的平面关系上叠拼而成(也可以用某种一维的字符串来表示),从而产生了中文的“字”与西文的“单词”有着表达上的相似性和共同点。
这就是产生目前“双字节中文系统”的主观原因。我们可以设想一下,如果初期的西文环境巳经占用了单字节的高位,中文平台的设计者们也必然要想出其它方法来解决计算机的汉字信息处理问题,也许也会与我们现在那样,用非等长序列单字节字符串来表达汉字。下面提出了用52个中文字母字来组成、产生成千上万个汉字的方案和用52个中文字母字来组成汉字的全信息表达式。
52个中文字母字中的26个对应26个英文小写字母,另外26个对应26个英文大写字母,它们分别是a/冂;b/∠;c/扌;d/;e/;f/丶;g/一;h/丨;I/亠;j/丿;k/宀;l/ ;m/;n/;o/;p/二;q/日;r/犭;s/衤;t/阝;u/;v/艹;w/亻;x/ ;y/ナ;z/ A/月;B/门;C/车;D/木;E/鱼;F/白;G/酉;H/山;I/广;J/禾;K/石;L/口;M/尸;N/马;O/食;P/王;Q/目;R/土;S/火;T/十;U/言;V/革;W/人;X/金;Y/虫;Z/女。三、全信息汉字表达式何谓全信息汉字表达式?我们认为全信息汉字表达式的含义是每个汉字在计算机中的全部信息表示,即输入代码、输出字型的存放方式、提取方式以及汉字在计算机内部的交换方式和这些格式之间的相互关系。
要了解汉字全信息表达方式,首先必须了解汉字结构的树表示法。不同的汉字有不同的结构树,如果对树的计算机表示搞清楚了,对汉字全信息表达方式也就不难理解了。我们把每一个汉字理解为一棵树,汉字的集合(段落和篇章)就构成森林。每棵树都有自己的不同的结构(分枝),不同的叶子(笔划和部件)和不同的深度(分枝数)。见附图
所示,汉字“覆”、“樟”、“椅”的树表示法,就是我们采用的提取组成汉字的最小字素的有效方法。为中文字母字的提取和汉字全信息表达式的实现提供可靠数据。
定义树是一个或多个结点的有限集合。
1、有一个特殊标记的结点,称为根。
2、剩下的结点构成几个不相同的集合,F1、F2、F3、……,Fn N≥0而每一个Fi,i=1、2、3、……N是根的分枝3、层次指树的深度和分枝层次。有许多名词是与树有关的,列举如下;“结点”,通常被用耒表示某个信息以及由其出发而指向其它信息的所有分枝。如结点“覆”是指汉字“覆”加上它的三个分枝。树可以有不同的与日常生活植物“树”相反画法,在这里,我们将树的根画在最上面,一个结点的分枝数目,被称为该结点的“度”或者“级”,而“覆”是一个四度结点。而结点“西”、“丿”、“亻”、“”、“日”、“女”和“攵”是0度结点,0度结点称为叶子或者终端结点,“西、丿、亻、、日、攵”是根为“覆”所有叶子的集合。相应地其它结点称为非终端结点,“覆、復、彳、复”是根为“覆”的所有非终端结点的集合。
结点的层次可以递归地定义,即先定义根的层次为1,然后再定义分枝为第二层结点、第三层结点,直到第N层结点。一棵树的深度或高度定义为该树上所有结点具有的层次数的最大值。因此,以《覆》为根的树是三层树,或称其深度为3的树。
N根不相交的树(N≥0)的集合称为森林。如果我们把汉字转换成一棵树,所有不能分割的汉字部件和笔画称为叶子。显然对一棵树而言,叶子的集合越小,生成的树的深度愈大,反之,叶子的集合越大,则生成的树深度越小。在实际应用中,为了用52个中文字母字来表示无限个汉字,“覆”字中的“西”和“夂”还可以进一步往下分为“西”=一冂丿“夂”=ク而“樟”字的组字部件“木、亠、 、一、日、十”和“椅”字的组字部件“木、大、一、口、”我们认为是不必再分的组字元素了。在计算机科学中,有许多表达树的方法,本文采用表结构表示法。表结构的记号为Fi{T1(A、B、C、D)、T2(A、B、C、D)……Tn(A、B、C、D)}其中Fi表示表的名称,而T1、T2……Tn表示该表的元素。A、B、C、D分别表示每个元素的结构信息、定位信息、尺寸信息和其它信息。i=1~∽N≥1按照树的结构表达式,我们可以得到全信息汉字的计算机表达方法F=∑fi{T1(a、b、c)、T2(a、b、c)……Tn(a、b、c)}i=1-∽n≤256F定义为汉字的集合,集合的数量由i定义,可以是无限的。
Tn表示中文字母字元素。n≤256表示组成汉字的中文字母字元素小于256。在实际应用中,n=52a表示中文字母字所处结点的结构信息b表示中文字母字的定位信息c表示中文字母字尺寸信息我们分折汉字的树表示法,目的是寻找一种能够表达每个具体汉字全部信息的结构单元,也就是说找出语言文字的计算机处理要素和全信息汉字表达式。四、全信息汉字表达式的实现方法根据上面的以“覆”、“樟”、“椅”三个汉字为代表的全信息汉字表达公式,可以得出52个中文字母字组成汉字的实际表达式。在得到实际表达式之前,我们首先定义如下参数缺省值表示中文字母字;1表示汉字的左右结构;2表示汉字的上下结构;3表示汉字的左中右结构;4表示汉字的上中下结构;5表示汉字的独体(杂合)结构;6定义为汉字的递归定义符,它表示该汉字的全信息汉字表达式采用调用方法;a(x,y)表示中文字母字的尺寸参数;b(x,y);表示中文字母字的位移参数。
下面是以汉字代表“覆”字在实际应用中的表达式覆=2[5一冂丿-1(2ノ亻3(日5(ク)]在以上“覆”字的全信息表达式中共有11个中文字母字,即“一冂丿一ノ亻日ク”和几个不等的代表中文字母字的尺寸参数、位移参数的符号,总数是55个字节字符串,再加上结构符,字符串所占字节总数为65个字节。很显然,每个汉字所表达的字符串所占的字节数平均大约在60个左右。而英文每个单词的字符串所占字节数在7个左右,再加上一维尺寸参数和一维位移参数,每个英文单词所占字节数平均大约在20个左右,每个汉字所占字节数是英文单词的三倍。但是,从汉字“覆”的结构中,我们看到“覆”字是一个由汉字“西”和“復”组成的上下结构汉字,而“復”字是由字母字“彳”和汉字“复”组成的左右型汉字,而“复”字还可以进一步分为由“”、“日”和“夂”组成的上中下结构汉字,而汉字“夂”又可分为由中文字母字“ク”和“”组成的独体字。
汉字的组成是“字中有字,字组字”,而字又由形旁和声旁(偏旁部首或笔划)组成的。我们在对汉字进行了详细的拆分和组合中发现以形声字为主体的中国汉字,其结构和组字规律相当明显。据统计,在汉字中使用频度最高的是“口”字,使用次数在1000次左右,其余的算是“氵”、“艹”、“木”、“日”、“扌”、“亻”、“月”、“钅”等,它们的使用频度都在200-500次之间,还有为数不少的独体字、形旁、声旁、部首、部件和汉字笔画,都有不同数目的使用频度。这就给我们一个新的算法,95%以上的汉字可以采用数学中的“递归定义算法”,仅有5%使用频度高的独体汉字(笔画字)、偏旁部首才需要全信息汉字表达式定义,而且只需要定义一次,不用考虑它们出现的频度。用“递归定义算法”同样达到用全信息汉字表达式定义每一个汉字的目的。
按照“递归定义算法”,汉字“覆”的全信息表达式变为如下表达式覆=2[6西6復]西=5一几丿一復=1[6彳6复]复=3[日6夂]夂=5ク“6”是汉字的递归定义符,它表示该汉字的全信息表达式采用的调用方法。这样,汉字“覆”的字母字串所占的字节数就变为4个字节,a(x,y)尺寸参数和b(x,y)位移参数中的x值就变为0,这就使汉字在二维方向的组字技术变为一维方向的组字技术,汉字组字完全相同於英文字母组单词一样简单和容易。从而使“覆”字的字符串所占字节总数就变为11个(包括递归定义符,结构定义符,尺寸参数和位移参数)。还考虑到5%汉字的全信息表达式增加的字节数为65×5%=4个字节,因而“覆”字的字符串所占字节数就增加到11+4=15。采用“递归定义算法”,“覆”字的字符串所占字节总数由65变为15,信息量压缩了4倍。因此得出每个汉字的全信息表达式的字符串所占的字节数比英文单词的字符串所占的字节数减少5个字节。“樟”和“椅”字的计算与“覆”相同。
采用“递归定义算法”计算得出国标字符集(GB2312)中的6763个汉字的全信息表达式总的字节数大约是100K,加上52个TRUETYPE中文字母字字库的字节数30K,总字节数等於130K。目前,在双字节中文操作系统和视窗(如Windows95和Windows98)中使用的TRUETYPE中文字库,字型占用的字节总数大约在2000K(2M)字节,这个数是130K的近16倍。“递归定义算法”的全信息汉字表达式大大压缩了汉字的信息量,使东方的象形文字的信息量相同於拉丁体系文字的信息量。
下面是国标(GB2312)字符集16区(94个汉字)汉字的“递归定义算法”的全信息汉字表达式的举例啊=1[口6阿] 熬=2[6敖6灬]败=1[6贝6攵]阿=1[阝6可] 翱=1[6皋6羽]拜=1[5 二ノ5二二|]埃=1[ 6矣] 袄=1[衤6夭] 稗=1[ 6卑]挨=1[扌6矣] 傲=3[亻6 ] 斑=3[ 6 6王]哎=1[口6艾] 奥=2[6 6大] 班=3[ 丶ノ6王]唉=1[口6矣] 懊=1[忄6奥] 搬=3[扌6般]哀=5[亠口6 ] 澳=1[氵6奥] 扳=1[扌6反]皑=1[白6岂] 芭=2[艹6巴] 般=1[6舟6殳]岂=2[山6已] 捌=3[扌6另6刂] 颁=1[6 6页]癌=3[疒6 ] 扒=1[扌6八] 板=1[ 6反]蔼=2[艹6謁] 叭=1[口八] 版=1[6片6反]矮=1[6 6委] 吧=1[口6巴] 扮=1[扌6分]艾=5艹ノ笆=2[6巴] 拌=1[扌6半]碍=1[6石] 八=5ノ伴=1[亻6半]爱=2[爫冖6友] 疤=2[疒6巴] 瓣=3[6 瓜6辛]隘=1[阝6益] 巴=5丨一半=5 二丨鞍=1[革6安] 拔=1[扌6 ] 办=5[6力 ]氨=2[气6安] 跋=1[ 6 ] 绊=1[纟6半]安=5宀女 靶=1[革6巴] 邦=1[5二一ノ阝]俺=1[亻6奄] 把=1[扌6巴] 帮=2[6邦6巾]按=1[扌6安] 耙=1[6 6巴] 梆=1[ 6邦]暗=1[日6音] 坝=1[ 6贝]榜=1[ 6旁]岸=4[山厂6干] 霸=2[6 6 ]膀=1[月6旁]胺=1[月6安] 罢=2[6罒6去]绑=2[纟6邦]案=2[6安木] 爸=2[6父6巴]棒=1[ 6奉]肮=1[月6亢] 白=白 磅=1[石6旁]昂=2[日6印] 柏=1[ 白] 蚌=1[ 6丰]盎=2[6央6皿] 百=5一白镑=1[钅6旁]凹=5凹丨一丨一摆=1[扌6罢] 傍=1[亻6旁]敖=1[6 攵] 佰=1[亻6百] 谤=1[讠6旁]苞=2[艹6包]包=5勹一剥=1[6录6刂]胞=1[冂6包]褒=4[亠6保6五、全信息汉字表达式的深远影响目前,所有的中文操作系统、中文视窗、各种各样的应用软件和工具软件均是英文软件的二次开发和嫁接。并不能独立于英文系统之外而自行开发。全信息汉字表达式的发明,使独立于英文系统之外的全信息计算机汉字处理系统的实现成为可能。该系统具有自己的“中文字母字信息交换码”英文缩写为CACII(Chinese Alphabet Code for InformationInterchange)(CACII)、“纯中文字母字键盘”、“无编码概念的中文字母字输入法”、“全信息汉字表达式”和“中文字母字组字技术”,形成“F系统”(F-spec)标准,其本质完全不同於现行的双字节中文系统和视窗。
全信息汉字表达式可广泛应用于计算机内部表达,与其它软硬作组成其它系统以及组成其它字母字输入法。也可广泛应用于无键盘输入设备的汉字输入法的设计和中文信息的输入、传输。它与“纯中文字母字键盘”、“无编码概念的中文字母字输入法”和“中文字母字组字技术”,共同组成“全信息计算机汉字处理系统。说明书附面说明此图是以汉字“覆”、“樟”、“椅”三个汉字为例的汉字结构的“树表示法”的示意图。通过对树的结点“根”、“枝”、“叶”的形象逻辑性联想,以树的不同层次结点为汉字结构的象征,找出与汉字相类似的结构层次,使计算机设计者寻找汉字的结构规律,得出与英文相同的文字结构关系,为中文字母字数量的确定和全信息汉字表达式提供依据。树可以有不同的画法,该图的树是与日常生活植物“树”相反的,是将根画在最上面的。通过树表达式得出“覆”字组字的最小单元为“西、ノ、亻、、日、攵”;“樟”字组字的最小单元为“木、亠、 、一、日、十”;“椅”字组字的最小单元为“木、大、一、口、丿”。所有的汉字都可用树表示法找出每个汉字的组字单元,为中文字母字的提取、数量的确定和汉字全信息表达式的实现提供依据。
权利要求
1.全信息汉字表达式采用“树表示法”寻找每一个具体汉字全部信息的结构单元和每一个汉字的计算机处理要素的全部信息组成的计算机内部汉字表达形式。该技术已应用于全信息计算机汉字处理系统的内部码表达式。
2.提取全信息汉字表达式Tn(中文字母字元素)的全部或缩写作为汉字计算机输入的“外码”,生成了《尖端单字节汉字电脑》的中文字母字输入系统。
3.全信息汉字表达式采用的“递归定义算法”找出每个汉字的最小组字单元(非等长序列单字节字符串),形成每个汉字在计算机中的全部信息表示,为“中文字母字信息交换码”的实现提供依据。并已应用于《尖端单字节汉字电脑》底层软件汉化程序和自动造字程序中。
全文摘要
全信息汉字表达式是在汉字中提取了52个中文字母字作为汉字组字的不必再分的字素,组成全信息汉字表达式,形成中文字母字信息交换码。并以52个中文字母字直接生成“无编码概念的中文字母字输入法”,从而结束了由于高位置1设计思路造成的中文计算机的诸多缺陷,使全信息汉字处理系统具有无限的扩充性,可以造出无穷尽个汉字。该技术可广泛应用于中文计算机领域内部表达、输入法自动生成和计算机造字软件等。
文档编号G06F3/023GK1308269SQ9911449
公开日2001年8月15日 申请日期1999年10月21日 优先权日1999年10月21日
发明者周海筹, 何庆, 唐秀昌, 郑承梁, 吴昌森, 张彦红 申请人:张彦红
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1