具有整合码页的多双位元组字语言的处理系统的制作方法

文档序号:6408153阅读:198来源:国知局
专利名称:具有整合码页的多双位元组字语言的处理系统的制作方法
技术领域
本发明是关于双位元组语言处理系统,尤指可同时处理多双位元组语言的处理系统。
当今能处理双位元组字元集(DBCS,Double Byte Character Set)语言的处理系统皆只能同时处理单一双位元组语言。如OS/2-T,WIN-T,OS/2-S,WIN-S,OS/2-J,WIN-J及OS/2-K分别仅能处理如显示、搜寻、置换、排序或转码等等传统汉字(繁体,T)简体汉字(S),日本(J),及韩文(K)。IBM的AIX系统虽能处理多种语言,然其无法于同一视窗(window)中处理多种双位元组语言。
以汉字系统为例,两岸目前的繁体汉字或简体汉字系统,各有自身的码页(code page),输入法(input method)及标准字体(font)。故两岸文字多为单独处理,不论输出或输入,皆有各自的系统可分别处理台湾字集或大陆字集。但现今两岸已都有“同时”使用简繁文字的需求,例如建立名录「台北张三」,「北京李四」,「高雄陈五」,或「上海王六」等等。其需要混合两岸简繁文字,以建议资料档。
再者,不仅海峡两岸的文字并存已有实际需要,其他亚洲各国与两岸往来,亦益趋频繁,例如日本或韩国与两岸亦有经常性沟通需求,故发展出一整合系统以能于同一视窗中支援(如输入、编辑、显示或列印等)或处理不同DBCS语言及不同字,已是当务之急。
公众对两岸文字的解决方式,大都以转码为主,亦即将某方看不懂的资料档转为他方向可看懂的资料档而已。在可同时处理的少数方式中,有的内码与某方者不相容,有的字集尚不完整,做得都不完善。
1993年5月出版的Unicode(ISO 10646),其包含四种亚洲主要语言(T,S,J,K)。这些语言皆含有汉字,Unicode对这四种语言中,相似的字,则给与一共同内码(或码点,code point)。
如下表,“明”与“车”於中、日、韩皆有此汉字,然字体(font)不同,共用一相同内码。“骨”则有字形(shape)的不同,然而也仅给与一相同内码。而“车”则仅有简体字,故单独被指字一内码。Unicode用此种解决了这四种语言的字元如何一起“存储”的问题。
Row-Cell CJ KHex-codeG-Hanzi- TKanji Hanja102/014明 明明明660E 0-4377 1-4D7C0-4C400-59250-3587 1-45920-44320-5705154/168骨 骨骨骨9AA8 0-3947 1-586C0-397C0-4D690-2539 1-56760-25920-4573142/202車 車車車8ECA 1-3335 1-4B4F0-3C560-73331-1921 1-43470-28540-8319143/102 车8F66 0-33350-1921然而Uaicode的使用有下列问题(1)其与使用者在现有设备与投资之间不相容;(2)当今尚无任何单一操作系统可利用Unicode来支援多DBCS语言;(3)由于各种语言字集,皆有其自身的标准字体(font),但Unicode对“明”、“车”、“骨”等字,不管它是属于简、繁、日或韩文何者的汉字,皆共用同一内码,使用者并无法区别它们。这於同一视窗中,支援多DBCS语言时,想要“分别”处理(如显示、搜寻、置换、排序或转码等)DBCS语言的情况,将遭受困难。另外,若想要在同一视窗中,同时显示、列印、编辑或输入多DBCS语言混合的挡案,亦将有所限制。更不用说,于同一视窗中,“同时”以各语言自身的标准字体(native font)显示、列印、编辑或输入多DBCS语言的整合系统。
本发明目的在于可与现存DBCS语言系统相容的情况下提供多DBCS语言的处理能力。
本发明另一目的在於,可很容易地延伸现存的DBCS语言系统使之能提供多DBCS语言的处理能力。
本发明另一目的在於,能於同一视窗中提供“同时”输入、编辑、显示或列印多DBCS语言的字元的能力。
本发明另一目的在于能于同一视窗中支援多DBCS语言时,可“分别”处理(如显示、搜寻、置换、排序或转码等)各DBCS语言的能力。
本发明另一目的在可使用单一输入法同时处理简繁中文字元。
本发明另一目的在提供简易繁体及简体间码转换能力。
本发明首先公开了一个现存的DBCS语言内码码页(code page)作为基本码页(primary code page),而再将另外现存的DBCS语言内码页跟随于基本码页之后,而为第二(secondary),第三…等码页,如此完成一整合码页(integrated code page)的结构。结果该现存的DBCS语言的所有字元,皆可于此整合码页上,找到一码点。由上述整合码页的结构可知,现存码页与此整合码页间的转码问题将可简易的完成。
由于仅有码页结构本身的变更,故现存DBCS语言系统中基于码页的作业,如输入、显示、编辑或列印皆可直接使用,因此解决了于同一视窗中“同时”输入、显示、编辑或列印多种DBCS语言的字元的问题。再者由于所有DBCS语言的字元皆可在此整合码页中找到一对应码点,故亦可“分别”对各DBCS语言的字元作处理(如显示、搜寻、置换、排序或转码)。


图1为两岸标准字集CNS11643及GB2312—80间的比较。
图2为公众所见可同时处理两岸文字的习知技术的码页结构。
图3为本发明的整合码页结构。
图4为利用本发明码页结构,以于同一视窗中,同时显示繁体及简体的流程图。
图5为利用本发明码页结构,以于同一视窗中,分别显示繁体及简体的流程图。
为便读者易于了解,本发明将以汉字简繁系统的整合为例,以描述如何提供一系统,其可同时地支援或处理多种DBCS语言。
请参见图一,此图为两岸各标准字集CNS11643及GB2312-80间的比较。市场上纷呈的各种汉字码一般可分为三大类,分别是内码、外码及交换码。(1)电脑内部存储时,所使用的十六进制码,称为内码。目前台湾市场上最流行的为BIG-5码及IBN5550码。(2)藉由键盘或滑鼠等周边装置,将中文输入到电脑的一种组合关系,称为外码,又称之为输入码。例如仓吉、拼音、五笔…等等。(3)最后,由于市场充斥各种内码,为求使用不同内码的各系统间资料可相互交换,而由台湾中央标准局公布了唯一之中介码,即CNS11643,我们称之为交换码。
在CNS11643-86及GB2312-80间有4383个共通字,2134个可在汉字繁体(Traditional Chinese)及汉字简体(Simplified Chinese)间作一对一应对的简体字或繁体字,246个GB专有字及6534个CNS专有字。
图二所示为目前坊间所见的可同时处理两岸文字的习知技术的码页结构。图二(A)中是换字体挡的方式,其依BIG-5码页的顺序两岸不同的字直接以大陆字集(GB2312-80)中的字体替代。如繁体中之“車”,“骨”分别以简体的“车”“骨”替代。如此台湾字集与大陆字集拥有相同之内码(此处为相同的BIG-5码,而“A140”为其起始位置)。
但这种方法有这样的缺点(1)由于简繁使用相同内码,故无法同时显示或支援混合有简繁字体的本文档,其需由使用者目行选定要切换为不同字集的部分后,才能将其转换为不同字集的字。
(2)简繁间无法共用一套输入法,如使用仓吉输入法输入“車”时,其仓吉码为“十田十”。然输入简体之“车”时,仍是十田十”,故对不懂繁体的使用者而言,并不方便。
(3)当读入的档案为使用GB字集的简体字时,由于它是使用GB内码,故由此系统读入时,得建立庞大的BIG-5及GB间的对照表,将GB内码对应至此系统的码页。
(4)由于此系统的码页结构中的简体字部分,依BIG-5的顺序仅对两岸字集不同的部分作替代,故无法完全显示大陆字集中的标准字体。
(5)无法于同一视窗中,针对不同DBCS语言,分别作处理(如搜寻、显示、置换排序或转码等)。
图2(B)的码页结构,则是加纯简体字于原BIG-5的字体档之后,即采BIG-5为码页之第一部分,再将2,380个纯简体字部分安排于第二部分中,即图一中,2,134个简化字加上246个简体(GB)特有字。如此纯简部分字集被安排一唯一的码点,然而请注意两岸字形(shape)有些微差异的字,如繁体的“骨”及简体的“骨”,则共用一码点,即其并不被归于纯简部分。
此种码页结构也有下列缺点(1)由于此种码页结构中仅考虑纯简部分,故无法完全显示大陆字集中的标准字体。
(2)因非纯简部分与繁体字无法被区别。无法于同一视窗中,对不同DBCS语言部分,分别作处理(如要作搜寻、显示或置换等等)。
(3)当读入文档为使用GB字集的简体字时,由于是使用GB码,它由此系统读入时,得建立庞大的此系统码页与GB码页间的对照表。
由上述可知,目前的简繁系统皆有许多缺点,且建立其新的码页结构皆不太省力,如图二(A)者,得找出两岸字集不同部分,依BIG-5码页的顺序,而对字体档(Font file)相对应的字作替代。而图二(B)则得于原BIG-5码页的字体档之后,将纯简部分的字集填入。
图三为本发明的码页结构的较佳实施例;它是将大陆GB码页整个移入繁体码页(可以是BIG-5或IBN5550)之后;即以原始台湾繁体字集作第一部分,而GB(或称简体)字集作为第二部分,构成本发明所谓的GCCP(Greater China Code Page)和整合码页,如此对每一繁体及简体字元皆对应唯一的码点。由于本发明系以现存的完整GB码页跟随于繁体码页之后,其不用一一挑出简繁不同部分(如图二(A)所示),或纯简部分(如图二(B)所示)。故本发明的GCCP码页的建立远较习知者简易。
目前由于每个中文系统皆提供有使用者造字区,因此可利用此功能而更容易地建立本发明的GCCP码页结构。以IBN5550码作为基本码页时为例,5550之码页结构中,高位元组范围为(81-FC),而低位元组范围则被分割为两部分(40-7E),及(80-FC)。其起始位置为“8140”,而其使用者造字区,则由“DB40"开始。而GB2312-80的码页的高低位元组皆为(A1-FE)。
在此我们若要将GB字集的字体档全部按顺序移入IBM5550的使用者造字区中,则依上述两种码页的结构可知,只要使用一简单的转换演算法,便可将现存GB字集的字体档(FONT FILF),依序自动填入繁体系统中的使用者造字区的字体档中。此转换演算法的建立,相信熟知程序设计者,皆可完成,在此不再赘述。
图四,为以IBM5550码为基本码页情形下,利用使用者造字区以建立GCCP码页结构时,如何于同一视窗中同时显示繁体及简体的流程图。其过程为先由键盘输入(401)输入码(如仓吉码),再根据输入法表格(INPUT TABLE)将其转换为5550内码(402)。而后检查该内码是否大于“DB40”403。若大于“DB40”则计算位置,由使用者造字区的字体档(USER DEFINE CHAPACTER,UDC)中抓取字型(PATTERN)(404);若小于“DB40”,则计算位置并去系统原选建立的字体档中抓取字型(405)。再于(406)中,判断合于输入法之字是否大于1。若是,则全部将的显示于状态栏中(407),再由使用者选择之(408)。最后,再将所需的字型显示于荧幕上(409)。以图四中之输入法表格所示为例,若输入码为“AB”,则将分别由系统字体档及使用者造字区字体档,撷取到“XXXX”及“YYYY”内码,显示于状态栏中,让使用者选取。
另外,输入、列印、编辑等功能同样也可于同一视窗中,以类似的方式同时对繁体及简体字元作处理。
图五所示为以IBN5550码为基本码页下,利用使用者造字区,以建立GCCP码页结构时,如何于同一视窗中,分别对繁体及简体字元的显示作不同处理。其过程为选读入简繁混合的档案的字元(501),再判别其内码是否大于“DB40”。若否,则表示其为繁体字元,而对其作正常显示;若是,则表示其系简体字元,而对之作反白显示。如此可于同一视窗中很容易地区别繁体及简体。当然,为作区别所作之显示方式,并不限于上述“正常”,“反白”方式者。另外,搜寻、置换、排序等等功能,同样可于同一视窗中,以类于上述之方式,分别对繁体及简体字元作处理。
总之,由于本发明较佳实施例的码页结构仅将整个简体以移位的方式填入繁体码页之后,故每一繁体及简体字元皆有自身唯一的码点,如此使用者可清楚判别简繁字元。其(1)如上所述,本发明实施例可于一视窗中,同时显示、输入、列印或编辑简繁字元;(2)也可分别对简繁字元作搜寻、置换、排序、转码等等工作。此外,(3)由于对每一繁体及简体皆对应一唯一码点,故本发明的实施例亦可对简繁字集,共用一套输入法,如对“車”及“车”言,其仓吉码可分别以符合仓吉输入法之方式输入“十田十”及“大手”之仓吉码,而得到所需的“車”及“车”的对应内码点。(4)当读入的档案为使用GB字集的简体字时,由于GCCP的简体(即GB)部分,与现存GB字集,仅存在移位的单纯关系,(如前述我们可以简单的转换演算法程式,将现在GB字集的字体档依序自动填入繁体的使用者造字区的字体档中),故两者间的转码相当简单,而不需要如先有技术那样,要建立一庞大的对照表。
依上述本发明所揭示的方法,当然也可采用以简体码页为基本码页,而将繁体置于第二码页。另外,对于日文、韩文等亦使用汉字的区域,其亦能很容易地利用本发明所揭示的方法,而完成可支援多DBCS语言的系统。
本发明已以上述较佳实施例作了明确地揭示,但其仅作为说明本发明之用,在不脱离本发明于下列申请专利范围中所述的精神及范围下,仍可对本发明作多种修改与改良。
权利要求
1.一具有整合码页的多双位元组语言(DBCS)的处理系统,包括一输入装置,将档案依整合码页内码的型式输入;一处理及输出装置,将该具有整合码页内码型式的档案作处理后输出;前述整合码页至少含有第一部分,它与本地码页大致相同,及第二部分,它由第二双位元组码页构成。
2.如权利要求1所述的处理系统,其中本地码页为汉字繁体字码页。
3.如权利要求1所述的处理系统,其中第二双位元组码页为汉字简体字码页。
4.如权利要求1所述的处理系统,其中处理装置可以是编辑或搜寻或置换或码转换装置。
5.如权利要求1所述的处理系统,其中该输出装置可以是显示装置或列印装置。
6.一具有整合码页的多双位元组语言(DBCS)的处理系统,包括一读入装置,用以将非属整合码页的内码型式的档案读入;一内码转换装置,将该档案内码转换成整合码页的内码型式;一处理及输出装置,该该经转换的档案作处理后输出。其中,该整合码页至少含有第一部分,它大致与本地码有相同,及第二部分,它由第二双位元组码页构成。
7.如权利要求6所述的处理系统,其中本地码页为汉字繁体字码页。
8.如权利要求6所述的处理系统,其中第二双位元组码页为汉字简体字码页。
9.如权利要求6所述的处理系统,其中处理装置可以是编辑或搜寻置换或码转换装置。
10.如权利要求6所述处理系统,其中该输出装置可以是显示装置或列印装置。
11.一种用来通过延伸本地双位元组语言处理系统,来处理其它双位元语言的方法,包括步骤如下(1)建立一整合码页,以取代本地码页,该整合码页至少含有第一部分,它与本地码页大致相同,及第二部分,它由第二双位元组码页所构成;(2)处理多双位元组语言,它用前述本地双位元组语言处理系统,依据前述整合码页进行。
12.如权利要求11所述的方法,更进一步包括步骤如下(3)建立整合码页与使用本地输入法的第二双位元组语言间的输入法对照表。
13.如权利要求11所述的处理系统,其中本地码页为汉字繁体字码页。
14.如权利要求11所述的处理系统,其中第二双位元组码页为汉字简体字码页。
15.一种本地双位元组语言处理系统中,支援其它双位元组语言的整合环境的形成方法,包括步骤如下(1)定义一整合码页,以取代本地码页,该整合码页至少含有第一部分,它与本地码页大致相同,及第二部分,它由第二双位元组码页所构成;(2)将其它双位元组语言的字元,移转至前述本地处理系统的本地码页的使用者定义区中。
16.如权利要求15所述的方法,更进一步包括步骤如下(3)依上述处理系统中本地码页的使用者定义区的操作方式,建立整合码页与使用本地输入法的第二双位元语言间的输入法对照表。
17.如权利要求15所述的方法,其中本地码页为汉字繁体字码页。
18.如权利要求15所述的方法,其中该第二双位元组码页为汉字简体字码页。
19.一种可在本地双位元组语言处理系统中,显示多双位元组语言(DNCS)的系统,包括,一输入装置,将档案依整合码页内码的型式予以输入;一处理及显示装置,将该具有整合码页内码型式的档案经处理后予以显示;前述整合码页至少含有第一部分,它与本地码页大致相同,及第二部分它由其它双位元组码页构成。
20.依权利要求19所述的显示装置,其中显示装置可对各双位元组语言作不同方式的显示。
21.一种可在本地双位元组语言处理系统中,于同一视窗,分别显示多双位元组语言(DBCS)的系统,包括,一输入装置,将档案依整合码页内码的型式予以输入;一处理及显示装置,将该具有整合码页内码型式的档案经处理后予以显示;前述整合码页至少含有第一部分,它与本地码页大致相同,及第二部分它由其它双位元组码页构成。
22.依权利要求21所述的显示装置,其中显示装置可对各双位元组语言作不同方式的显示。
23.一种可在本地双位元组语言处理系统中,显示多双位元组语言(DBCS)的系统,包括,一读入装置,用以将非属整合码页的内码型式的档案予以读入;一内码转换装置,将该档案内码转换成整合码页的内码型式;一处理及显示装置,将该经转换过的档案经处理后予以显示。其中,该整合码页至少含有大致与本地码页相同的第一部分,及第二部分,它由第二双位元组码页构成。
24.依权利要求23所述的显示装置,其中显示装置可对各双位元组语言作不同方式的显示。
25.一种可在本地双位元组语言处理系统中,于同一视窗,分别显示多双位元组语言(DBCS)的系统,包括一读入装置,用以将非属整合码页的内码型式的档案予以读入;一内码转换装置,将该档案内码转换成整合码页的内码型式;一处理及显示装置,将该经转换过的档案经处后显示。其中,该整合码页至少含有第一部分,它大致与本地码页相同,及第二部分,它由第二双位元组码页构成。
26.依权利要求25所述的显示装置,其中显示装置可对各双位元组语言作不同方式的显示。
27.一种支援汉字简繁并存环境的处理系统,包括一输入装置,将档依整合码页内码的型式予以输入;一处理及输出装置,将该具有整合码页内码型式的档案作处理后予以输出;其中前述整合码页包括第一部分的繁体字码页,及第二部分的简体字码页。
28.一种支援汉字简繁并存环境的处理系统,包括一读入装置,用以将非属整合码页的内码型式的档案读入;一内码转换装置,将该档案内码转换成整合码页的内码形式。一处理及输出装置,将该经转换过的档案作处理后输出。其中前述整合码页包括第一部分的繁体字码页,及第二部分的简体字码页。
29.一种可在本地双位元组语言处理系统中,以本地输入法输入第二双位元组语言的方法,包括步骤如下(1)定义一整合码页,以取代本地码页,该整合码页至少含有第一部分,它与本地码页大致相同,及第二部分,它由第二双位元组码页所构成;(2)将其它双位元组语言的字元,移转至前述地处理系统的本地码页的使用者定义区中。(3)依上述处理系统中本地码页的使用者定义共的操作方式,建立整合码页与使用本地输入法的第二双位元组语言间的输入法对照表。
全文摘要
本发明首先公开了以一个现存的DBCS语言内码页作为基本码页,而再将另外现存的DBCS语言内码页跟随基本码页之后,而成为第二,第三…等码页,如此完成一整合码页的结构。结果该现存的DBCS语言的所有字元,皆可于此整合码页上,找到一码点。由上述整合码页的结构可知,现存码页与此整合码页间的转码问题将可简易的完成。
文档编号G06F3/00GK1122922SQ94118090
公开日1996年5月22日 申请日期1994年11月9日 优先权日1994年11月9日
发明者刘友祥, 张忠本, 许其清 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1