中文字母字组字技术的制作方法

文档序号:6416806阅读:308来源:国知局
专利名称:中文字母字组字技术的制作方法
“中文字母字组字技术”是专门为“单字节汉字电脑”而发明的汉字组字新技术。这种组字技术的应用,使得中国汉字的庞大信息量能压缩减少到只有256个中文字母字的信息量,从而保证了尖端单字汉字电脑的顺利诞生,并对汉字在计算机的深层次应用进行了有益的探索。
要了解中文字母字组字技术,必须首先了解双字节汉字字库的生成技术。目前,汉字字库的生成技术有两种流派。一种流派认为由偏旁部首组成的字呆板,不美观,因而必须使用人工画字的方法来保证每套字的风格。另一种流派则认为,人工画字花费的时间太多,而且字型的随意性太大,一次性差,不规范。在实际的造字实践中,设计者一定要按某些规律以汉字的距离参数来完成字型的设计。字型设计者遵循这些规律和数据,就可以用计算机进行计算,这样,生产出来的字型必然优于人工画出来的字。我们根据这一造字技术,用计算机计算一套中文字母字的相关距离参数、尺寸大小参数(简体、 繁体各一套),然后根据不同的字体、字型的风格,用计算机调整数据库的各个字的参数来制成新的中文字母字的数据库。这样,可以大大节省制作一套新字体所需的时间。如要制作一套国标GB-2312(80)字符集的6763个汉字的简体字,原来需要造6763个汉字,现在只造256中文字母字就可以了,组字拼字由计算机自动完成,这样就能节省十几倍的时间。
其次要了解POSTSCRIPT中文字库的生成原理。POSTSCRIPT页描述语言是美国ADOBE公司在1986年研究开发的。全世界生产打印设备、激光打印设备、图形描述设计软件、排版软件等都使用该语言来设计软件包和打印程序。POSTSCRIPT中文字库是采用该语言来描述汉字的边缘或轮廓。在该字库出现之前,中国北大方正的王选先生发明了用矢量来描述字的轮廓,用矢量来逼近字的轮廓边缘部分,这种字库称之为“矢量字库”。在这之前,上海印刷技术研究所采用BITMAP字库,也就是“点阵字库”。该字库最大点阵做到1024×1024,所占的信息量大,北大方正的“矢量字库”,用矢量来描述,大大提高了字的质量,减少了字库的信息量。
POSTSCRIPT中文字库的曲线部分是采用贝氏函数二次方程式来描述字轮廓的曲线部分,其基本原理如附图3所示图示的一段曲线,A点是起始点,B点是终点。在二维座标上知道A(X1、Y1)、B(X2、Y2)、C(X3、Y3)、D(X4、Y4)这四点的位置就可以通过贝氏函数二次近似方程式来计算该曲线的轨迹。
用这种方法来描述字的位置就可以通过贝氏函数二次近似方程式来计算该字的轨迹。用这种方法来描述字的轮廓,大大提高了汉字的质量和精度。通过这样处理的字无限放大后不会出现任何拐点和失真,比“矢量字库”的字的精度提高了六倍以上。目前尖端单字节汉字电脑的字库,全部采用POSTSCRIPT页描述字的轮廓,用贝氏函数二次近似方程式来描述字的轮廓曲线,因此,大大提高了字库的质量和精度。
第三要了解中文字母字字库的生成原理和过程。大家知道,英文字母由是由A、B、C、D等26个字母通过输入计算机,便可组成成千上万个单词。中国汉字数量超过英文字母几百倍,要把它们全部放入计算内存,象英文字母一样的地输入和处理,不减少汉字的信息量是不可能完成的。尖端单字节汉字输入系统,采用中文字母字输入的方法,把汉字的信息量减少到只有256个中文字母字的信息量,形成与英文字母一样的一个单字节字库,放到系统的软件中,供计算机输入、输出调用。经过深入的探索,科学的论证,我们认为是非常可行的。于是我们大胆地采用了这一新颖的汉字字库的生成技术。为计算机自动组拼汉字提供了可靠的技术保障,使汉字在电脑的深层次应用以及汉字输入与英文字母的输入达到真正的统一。
第四是了解计算机是如何将英文字母组成英文单词的。由于有了美国ADOBE公司发明的POSTSCRIPT页描述语言,使得英文字母组拼单词非常简单。因为英文字母是由直线段和曲线段组成的。曲线段是由起始点、终点,起始点切线控制点和终点、切线控制点共四点组成的。通过这四点的二维座标数据,就可以组成一条曲线方程式,并通过该曲线、直线等线段就可以组成一个闭合面积。单字节英文字母字库就是存储这样一个描述英文字母的直线段和曲线段数据。如当你在键入一个由四个英文字母组成的英文单词“WORD”时,ADOBE公司开发的ATM字库管理软件,能读出POSTSCRIPT的字库描述信息,当ATM软件接到你键入的W、O、R、D这四个英文字母时,首先要根据各个字母的宽度表参数来安排这四个英文字母的相应位置。然后,根据你所给出的各个字母的大小参数(印刷术语称磅数,英文称POINT)来计算出各个字母的大小。如果您还给出压偏、拉长、空心等操作,ATM根据您给出的指令来控制从字库读出的信息进行您所需要的操作和计算,最后在计算机的屏幕上按照您的要求显示出W、O、R、D这四个字母组成的单词“WORD”,并且打印出这个词。在这里,ATM字库管理软件发挥了重要作用。由于ADOBE公司发明的这套技术,使得屏幕上显示的字母可以无限放大而无任何的拐点和失真。而且打印出来的字与屏幕上显示的字的信息源完全相同,真正做到了WHAT YOU SEE IS WHAT YOU GET。这句英语的意思是“所见即所得”,它在西方排版软件技术领域是一个很重要的指标,也是一句非常流行的技术术语,其意思是“您在屏幕上见到的显示和打印出来的输出完全吻合,没有任何失真”。当然,这也完全归功于美国ADOBE公司发明的POSTSCRIPT页描述语言。这个重要的特性在西方排版软件技术领域是非常熟悉的。但目前所有东方的排版软件还没有这个特性。其原因是目前流行的中文显示字库都是BITMAP字库(点阵字库),他们并没有使用ATM字库的管理技术。BITMAP点阵字库放大后,会出现明显锯齿,而且它们的显示字库和打印字库是完全分开的。因此,我们采用POSTSCRIPT页描述语言,与英文输入组单词一样的原理生成中文字母字字库,其原理和英文组单词一样,字的精度和质量,超过目前东方众多的汉字字库的质量和精度。
第五是了解中文字母字是如何组成汉字的。根据以上的原理,我们再来了解一下中文字母字字是如何组拼汉字和还原汉字的。根据以上英文组成单词的操作,我们用这个操作模拟执行中文字母字的组字和输入操作。由于ADOBE有POSTSCRIPT页描述语言,使得中文字母字组字与英文字母组单词的原理完全一样。首先我们采用POSTSCRIPT来描述中文字母字的直线段和曲线段,用该语言描述生成三个POSTSCRIPT单字节中文字母字数据库,排列方式和各种组字数据格式与英文字母字库一样,并把它们安排在系统的软件中。例如我们输入国际字符集16区第一个“啊”字,您可以通过尖端码国际通用汉字输入法输入“啊”字的三个字母字“口”、“阝”和“可”(“可”字以键盘字母字“一”的代码“G”调出,由计算机自动转换),计算机自动到中文字母字数据库16区第一位读入该字的三个字母字“口”、“阝”、“可”所处的单字节字库中的位置、尺寸数据参数和座标位置参数三组数据,当计算机读得这三组数据之后,首先到单字节的中文字母字字库里找到“口”和“阝”的POSTSCRIPT描述的数据,又到中文字母字字库里读入“可”的POSTSCRIPT描述的数据,再根据“可”字的尺寸参数(该参数的执行可以进行缩小、拉长、压偏和其它变化处理)和位置参数,计算机立即对读入的数据进行运算。计算机根据ATM字库管理技术,用二维座标进行组字操作,并同时进行打印操作。整个组字和输入过程与英文字母的输入和组成单词的过程完全相同。经过这样的处理之后,屏幕上由中文字母字组拼出来的汉字和英文字母一样,可以无限放大而没有任何锯齿痕迹和任何失真,打印出高质量、高精度的汉字。在汉字输入和文字处理上做到了“所见即所得”,使计算机输入和处理中文与输入英文和处理英文没有任何区别,解决了由于文字的差异而造成的计算机在处理各国文字时所存在的电脑深层次应用上不统一和不协调状况。在这里要特别强调的是,中文字母字字库是以单字节的形式形成一个单字节字库,单字节所表示的数是28=256,我们把它们竖立放在一起,这三个单字节所表示的数是28+28+28=768。中文字母字字库的检索地址是以“2”的8位(即以一个单字节为计数单位)来形成字母字地址,以区分于目前以两个字节(即双字节)为计算单位,即以“2”的16位为地址寻找汉字的区别。目前众多的双字节中文系统与单字节的汉字系统的两种文字处理方式表面上都是以英文字母作为输入代码,但其本质是不同的,是有区别的。也就是说单字节汉字系统是按八位地址去寻找中文字母字,而双字节汉字系统是按16位地址去寻找汉字,两者的根本区别就在于此。还由于中文字母字字库存储的只是中文字母字的直线点、曲线点的起始点、终点及控制点的二维座标值,而不是象目前流行的双字节汉字电脑的中文文字处理和排版软件的显示字库是点阵图形,由各个具体的汉字的点阵图形来组成点阵字库。而单字节汉字电脑采用的是中文ATM管理技术,当计算机读到您输入的某个中文字母字各个点的二维座标值后,通过组字拼字计算,得出新的汉字座标值,然后根据这些新的座标值,由计算机自动生成新的中文字母字的显示图形和打印信息。使成千上万个汉字信息量得到减少和压缩。通过对256个中文字母字的输入和处理,达到能处理成千上万个汉字的同样效果,使中国汉字与英文字母的输入真正接轨,使中英文的输入和文字处理达到“单双字节的统一”,这就是中文字母字组字技术运用的效果。
总之,中文字母字组字技术的应用,首次把庞大的中国汉字信息量,压缩减少到只有256个中文字母字的信息量,大大缓解了电脑的内存空间,提高汉字的质量和精度。更重要的是,采用这种方法生成的中文字母字字库,其排列方式、数据格式、输入形式与英文字母完全一致,使得汉字电脑的汉化问题可望得到解决。在双字节中文系统和视窗上不能运行英文软件的问题有望得到解决。
说明书附

图1简要说明此图是以汉字“啊”为例组成的中文字母字组字示意图。图中组字芯片包括了组字模块,它们可以计算出组字后各控制点的新座标。
说明书附图2简要说明此图是折线逼近曲线示意图。用折线段逼近曲线,折线愈多精度愈高,所占内存愈大。
说明书附图3简要说明此图是贝氏函数描述曲线示意图。图示的一段曲线,A点是起始点,B点是终点。在二维座标上知道A(X1、Y1)、B(X2、Y2)、C(X3、Y3)、D(X4、Y4)这四点的位置就可以通过贝氏函数二次近似方程式来计算该曲线的轨迹。
权利要求
1.中文字母字组字技术是专为“尖端单字节汉字电脑”设计的组字新技术。其原理是与英文电脑相同的单字节原理,所生成的是与英文字母字库一样单字节中文字母字字库。在字母字字库中存储的只是256个中文字母字的直线点、曲线点的起止点、终点的二维座标值。
2.中文字母字组字技术采用折线逼近曲线法和采用贝氏函数描述汉字的轮郭曲线。用这种方法所组拼出来的汉字经无限放大后无任何锯齿或失真。
全文摘要
该发明把尖端码国际通用汉字输入法在汉字中提取的256个中文字母字,将其中使用次数较多的78个安排在电脑键位上,把其余的字母字形成一个单字节中文字母字字库放到系统软件中,计算机根据组字程序,自动进行组字运算,将输入的字母字组合还原所有的汉字,汉字的信息量得到压缩。其排列方式、数据格式、字库生成与英文电脑一致,达到了电脑单双字节的统一,在电脑深层次汉字应用上,探索出一条成功之路。
文档编号G06F3/023GK1274108SQ9911428
公开日2000年11月22日 申请日期1999年6月28日 优先权日1999年6月28日
发明者周海筹, 唐秀昌 申请人:张彦红
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1