专利名称:Unicode四字节古汉字与隶定汉字之间的转换方法
技术领域:
本发明属于计算机技术领域,特别涉及一种Unicode四字节古汉字与隶定汉字之间的转换方法。
背景技术:
本文中术语与缩写说明ISO国际标准组织(International Organization for Standardization)的英文缩写;IEC联合国下属国际电气技术委员会(International Electro-technical Commission)的英文缩写;JTC1系由ISO和IEC双方协议共组的第一联合技术委员会(Join Technical CommitteeOne),负责制订与信息处理、信息技术相关的国际标准;JTC1/SC2为设于JTC1之下的第二分组委员会(Sub-Committee Two);JTC1/SC2/WG2为JTC1/SC2之下的第二工作组(Working Group Two)。对应ISO/IECJTC1/SC2/WG2者,称为中文信息标准分组委员会。
Unicode或翻译为统一码。
隶定汉字指秦汉期间对古文字隶定楷化后所形成的汉字,即今天主要在东亚地区使用的方块形汉字。
ISO目前采用Unicode统一码的连续编码方式对人类字符进行编码管理。其编码结构与字符集IS010646字符码的正规形式(可简称为UCS-4)为32个位,划分成4个八位。这4个八位,由左而右命名为群八位(G-octet)、面八位(P-octet)、列八位(R-octet)和格八位(C-octet),分别代表编码结构中的群组(group)、字面(plane)、列(row)与格(cell)。ISO10646规定其字符码的b32必须为0,因而整个编码空间可区分为128个群组(群八位的值为00~7Fh),每一群组由256个字面所组成(面八位元为00~FFh),每一个字面由256列所组成(列八位为00~FFh),每一列则包含256格(格八位为00~FFh),为一个编码位置。除此之外,ISO10646还规定每一个字面的最后两个编码位置FFFEh和FFFFh,保留不用。所以,ISO10646整个编码空间总共256×128=32,768个字面,每个字面为256×256-2=65,534个编码位置,合计65534×32768=2,147,418,112个编码位置。
ISO10646的第0群组第0字面(群八位和面八位的值都为00h)称为「基本多语文字面」(Basic Multi-lingual Plane,BMP),其编码字符与Unicode相同。BMP之外的32,767个字面区分为辅助字面(supplementary planes)和专用字面(private use planes)。
辅助字面用以收容WG2陆续收集、整理和编码的各国语文字元;专用字面的内容WG2不予规定,保留供使用者自行添加ISO10646未收容的字符。专用字面共8,226个,包括00h群组的0Fh、10h和E0~FFh共计34个字面,以及60~7Fh共32个群组的8,192个字面。除了这8,226个专用字面之外,其余的24,541个字面都是辅助字面。
当计算机系统只使用BMP的字符码时,可以省略群八位和面八位元,因而而将字符码由32个位缩短为16个位,称为ISO10646字符码的基本面形式(可简称为Unicode二字节字符或UCS-2),也可视同于Unicode。
ISO10646所有字面中,目前仅有第0、第1和第2字面真正收容编码字符。WG2集各国专家之力共同整理全世界古今各种语言文字和符号,陆续编入ISO10646。WG2依语言特性把各种文字区分为表意文字和非表意文字两类,表意文字其实就是东亚各国所使用发源于中国的汉字,主要包括中国、日本、南北韩、越南、新加坡和港澳台地区所使用的汉字。除汉字之外的所有其它文字,一律归类为非表意文字,绝大部分为拼音文字。ISO10646的BMP和Unicode同时收编非表意文字、符号和表意文字。但全世界古今各种语言文字和符号的数量庞大,单靠BMP不足以容纳。WG2截至目前为止所收集、整理的非表意文字和符号部分,扣除已编入BMP者,其余全部编入第1字面。而表意文字部分扣除已编入BMP者,其余全部编入第二字面,其内容为(1)中日韩认同表意文字扩充B区,主要是存在于《康熙字典》等古代字书中的生僻汉字,总计42,807个中日韩越汉字,编码范围为0002-0100~0002-A836h。(2)CNS11643兼容字符区收容被认同的CNS11643字符527个,编码范围为0002-F800~0002-FA16h。
目前在计算机系统内和网络世界中可以处理的东亚表意文字,无论是否生僻,都属于隶定的汉字范畴,即人们常说的方块字。然而,这种状况将发生变化,2004年6月,在中国四川成都召开的ISO/IEC JTC1/SC2/WG2/IRG第21次会议中正是要求WG2对古汉字进行单独编码,并成立了古汉字编码专家组。2005年5月在日本召开的IRG第24次会议中将古汉字确定共分4类甲骨文、金文、小篆及其他。ISO/IEC JTC1/SC2/WG2/IRG第25次会议于2005年11月28日-12月2日在美国加州伯克莱大学召开,讨论各会员国提交的古汉字字集。IRG在2006年6月和年底将分别在越南和中国台湾召开第26和27次会议,并且在2007年5、6月间在中国杭州召开28次会议。古汉字的编码工作正在加快进行,并且将最终确定古汉字编码和开发出相应的字模。与Unicode表意文字扩充B编码区放置的生僻汉字不同,新的表意文字扩充区放置的古汉字大多是常用汉字的古代字型。例如, (甲骨文“牛”字)、 (甲骨文“马”字)、 (甲骨文“象”字)、 (甲骨文“为”字)等,它们大多保留了更多东亚表意文字的图画的属性,不仅是古文字和历史学专家学者的研究范围,在社会大众层面也有众多的爱好者。然而,由于古汉字是单独编码,并且被安放在四字节字符编码区,因此古汉字的字模生产、文字录入、文字管理等问题都将浮上台面。这里我们提出一种方法,以解决古文字与目前计算机中使用的二字节和/或四字节编码的东亚表意文字的对应和转换的需求,以便在编码确立并且有了通用的字模之后,人们可以便利地使用这些古汉字。
发明内容
本发明针对国际标准组织对古汉字的编码进展工作,提出一种对单独编码的古汉字的对应和转换方法,具体包括(1)独立编码的古汉字中的甲骨文可以自动转换为对应的二字节和/或四字节编码的东亚表意文字。反之亦然。
(2)独立编码的古汉字中的金文可以自动转换为对应的二字节和/或四字节编码的东亚表意文字。反之亦然。
(3)独立编码的古汉字中的小篆可以自动转换为对应的二字节和/或四字节编码的东亚表意文字。反之亦然。
(4)独立编码的古汉字中的其他字型,古代印章文字、简帛文字等,可以自动转换为对应的二字节和/或四字节编码的东亚表意文字。反之亦然。
(5)对编码中可能出现的一对多、多对一、多对多的情况,提供用户选择。
图1古汉字(甲骨文“牛角”二字)和隶定的二字节和/或四字节编码的东亚表意文字之间自动进行转换的示意图。
图2古汉字和隶定的二字节和/或四字节编码的东亚表意文字之间转换中出现古汉字一字多形(甲骨文“中”字的两种写法)时在古汉字之间选择的示意图。
图3古汉字(甲骨文“亚”字)和隶定汉字之间转换中出现隶定汉字一字多形时在隶定汉字之间选择的示意图。
具体实施例方式
本发明建立古汉字编码和当前计算机中使用的隶定的二字节和/或四字节编码的东亚表意文字编码之间的映射关系。通过这种映射关系,可实现古汉字和当前计算机中使用的二字节和/或四字节编码的东亚表意文字编码之间互相转换。计算机在发现输入古汉字的编码后,查找对应关系表,然后根据对应关系表中关于当前这个古汉字的对应关系,找到其对应的当前计算机中使用的二字节和/或四字节编码的东亚表意文字的字符编码,并将其输出。反之,由当前计算机中使用的二字节和/或四字节编码的东亚表意文字到古汉字的转换也是这样。
如图1所示意,对甲骨文编码的文字, 计算机可以将其自动转换为“牛角”两字,反之亦然。本发明针对独立编码的古汉字中的甲骨文、金文、小篆和其他古汉字,利用分别的对应表,自动在古汉字和二字节和/或四字节编码的东亚表意文字之间进行转换。这种转换可以在网页内两个文本框内实现,也可以类似MS Word软件中的繁简体中文转换工具,在文字编辑软件工具内实现。
同隶定汉字一样,古汉字中也存在同一个字存在多种形体的现象,例如甲骨文的“中”字,就存在 等多种写法。因此,在转换中还需要对目标进行自动取舍或提供使用者参与的取舍方式。针对古汉字一个字存在多个字形的特点,本发明可以提供用户在古汉字和二字节和/或四字节编码的东亚表意文字之间进行转换时,在多个古汉字字形中进行选择,如图2所示意。这种选择也可以经过使用者预先设定,由电脑自动完成。
同样,在东亚表意隶定汉字中也存在一个字对应多个字形的情况。例如甲骨文的 字,也对应有简体“亚”、繁体“亞”和日文“亜”等多种东亚表意文字的不同字形。本发明可以提供用户在古汉字和二字节和/或四字节编码的东亚表意文字之间进行转换时,在多个隶定汉字字形中进行选择,如图3所示意。这种选择也可以经过使用者预先设定,由计算机自动完成。
最后,在东亚表意隶定汉字中也存在多个字对应多个字形的情况。例如甲骨文的 字,则可以对应隶定二字节汉字的“中”字和/或隶定四字节汉字 字。这种选择也可以经过使用者预先设定,由计算机自动完成;也可以由使用者进行选择。
权利要求
1.一种Unicode四字节古汉字与隶定汉字之间的转换方法,其特征在于该方法针对Unicode在四字节表意文字编码扩充区内放置的古汉字,根据这些独立编码的古文字字符编码与目前计算机中使用的二字节和/或四字节编码的东亚表意常用和/或非常用文字的字符编码之间的对应关系,实现古汉字和目前计算机中使用的隶定的二字节和/或四字节编码的东亚表意常用和/或非常用文字之间的双向转换。
2.根据权利要求1所述的Unicode四字节古汉字与隶定汉字之间的转换方法,其特征在于,首先建立Unicode四字节古汉字字符编码与目前计算机中使用的二字节和/或四字节编码的东亚表意文字字符编码之间的映射关系表。
3.根据权利要求1、2独立编码的古汉字中的甲骨文可以自动转换为对应的目前计算机中使用的二字节和/或四字节编码的东亚表意常用文字。反之亦然。独立编码的古汉字中的金文可以自动转换为对应的二字节和/或四字节编码的东亚表意文字。反之亦然。独立编码的古汉字中的小篆可以自动转换为对应的二字节和/或四字节编码的东亚表意文字。反之亦然。独立编码的古汉字中的其他字型,包括古代印章文字、简帛文字等,可以自动转换为对应的二字节和/或四字节编码的东亚表意文字。反之亦然。
4.根据权利要求1、2、3所述的Unicode四字节古汉字与目前计算机中使用的二字节和/或四字节编码的东亚表意常用文字之间的转换方法,对映射关系中出现的一对多、多对一、多对多的情况,根据用户选择,来输出相应的转换后的字符编码。
全文摘要
本发明针对Unicode在表意文字编码扩充区内放置的古汉字,提供一种方法以解决这些独立编码的古文字与目前计算机中使用的隶定的二字节和/或四字节编码的东亚表意文字的对应和转换的问题,以便在最终的众多古汉字编码陆续确立并且有了通用的字模之后,人们可以便利地使用这些古汉字。
文档编号G06F17/28GK101017481SQ200610003449
公开日2007年8月15日 申请日期2006年2月9日 优先权日2006年2月9日
发明者王宏源, 赵锋 申请人:王宏源