“中日韩”多国汉字声数编码输入技术方法

文档序号:6598304阅读:662来源:国知局
专利名称:“中日韩”多国汉字声数编码输入技术方法
目前的汉字编码多为只对某一国或地区使用的汉字的编码。
由中华人民共和国、台湾地区、南朝鲜、日本、香港、新加坡等国家和地区有关组织,根据联合国有关组织的建议,近几年来组织了很多专家,经过反复协调研究,对世界范围内汉字使用区汉字信息处理用的汉字,确定了国际标准汉字字量和图形,并制定了汉字统一标准内码-ISO标准代码。这一标准内码是在原中国大陆和台湾地区、日本、南朝鲜等汉字使用国和地区原本国和地区标准的基础上汇总加工提出的。待再审定报联合国有关国际组织批准,届时汉字就有了统一的信息处理多国汉字字量、图形和内码国际标准,这将给汉字信息在世界范围内的处理、传输搭起了一个世界范围统一的标准平台。
声数编码为大陆、台湾(简体繁体)通用的汉语汉字输入编码技术,这一技术进一步扩充改进,以多国汉字国际标准为依据,成为只要懂得汉语、识汉字的人都能自由的输入中国汉字、日本汉字和朝鲜汉字。同时本技术也可用于其他汉字音码处理中国汉字、日本汉字和朝鲜汉字,是一项通用的使用ISO国际标准码在懂汉语识汉字的人区中,输入ISO确定的任何国家和地区汉字的技术。
“汉字”国际标准通用码-ISO/IECDIS规定三国汉字用Row/CellHex_CODE中的078/000-159/175间,即在16进制的4E00-9FAF之间,对每一个中国汉字(包括简体、繁体、异体)、日本、朝鲜汉字等的具体图形,都一一规定了唯一的国际标准ISO码(16进制的四位码,如“不”字为“4EOD”,“个”字为“4E2A”等)。根据这样的规定,按照声数编码的编码规则,(申请号为85100087,及89102931.1)未来的ISO国际标准码的汉字输入编码方法是一、凡是有汉语读音的汉字,无论是中国简体或繁体及异体汉字,日本汉字、朝鲜汉字,都一一依ISO内码按照该汉字图形使用频度,由高到底排列在带声调的音节中,建立声数码与ISO码对应码数据库表,但该数据库要做如下处理①中国汉字ISO与声数码对应数据表中,凡大陆和台湾通用字形的(即未简化的汉字)ISO码与声数码为对应内外码,即声数码的声、韵、调、序与ISO码相对应的汉字图形一一对应;如“且”字ISO码为“4E14”,声数码为“QMV-QieV”;如果这个汉字也是日本、朝鲜使用的汉字,懂汉语的人都依汉语的读音进行编码输入。如“且”字,不管是在日本汉字文本中或者朝鲜汉字文本中出现,在懂汉语的人群中都可以依声数码编码,击“QMV”键输入该字。也就是说凡大陆和台湾、日本、朝鲜通用的汉字字形内码一致(ISO码统一)中文中又有读音,就依中文读音按声数码输入法输入;这一汉字的声数输入码(外码)也是统一的。
②简化汉字与对应的繁体的汉字如何实现同码同键位输入简化汉字在中国汉字与ISO标准码同声数码有固定的对应数据表,如“伤”字,ISO码为“4F24”,声数码为“VGJ1”(即“shangj1”)。简化汉字与之对应的繁体(同义、同形、同音)汉字用切换的方法使之其ISO标准码与对应的简体字的声数码同码。“伤”字的繁体“傷”字,其ISO码为“50B7”这样的汉字建两个数据表繁体字库表建数据库时,将内码“50B7”替换简体字“伤”的内码“4F24”,而简体的“伤”字和繁体字的“傷”字,其声数码“VGJ1”为统一的外码。这样同一个声数码位有两个不同的ISO码。程序实现时约定一个切换键(如声数码的Alt+F9或其他键)以相同的外码用该切换键来分别访问繁体字或简体字的ISO字形码,同时,提示行翻译提示以“注音字母”或“汉语拼音”拼、注音,以反映该字的汉语读音和输入码。如上方法可以实现简体和繁体对应的汉字(包括该图形的日本汉字、朝鲜汉字)以统一的外码和键位进行输入相同意义的中国汉字或汉语语词。
③异体中国汉字在简体汉字和繁体汉字数据库中,都要按同一外码建对应简体和繁体内码表,即繁体库、简体库表都建有这个异体字的内外码对应表,如“克”(514B”)字,在简化汉字中它具有“克服”和表示重量单位的“克”,同时也代作“剋”(5C05)字与“尅”(524B)字用;在未简化的繁体字中,则只有“剋”和“尅”字为同义,它们互为“异体字”。
像“剋”(5C05)和“尅”(524B)这样的异体字的处理办法是“剋”和“尅”在简体字表和繁体字表中两字都分别建ISO与声数码的对应码表即看着两个汉字图形来处理。这样一个简化汉字“克”所表示的意义要用三个图形来表示,因此也要有三个外码(声数码)来处理。
④大陆用的简体汉字和台湾用的繁体汉字(即原来两岸分别收入的信息处理用的汉字)与②相同繁体或简体数据库中都建立一个与外码相同的数据对应表,即外码与内码同一,两种方式都有。
⑤为了减少存储量,可用程序方式实现,凡中国汉字没有简化的只建一个与ISO码对应的数据库,只要外码仅与一个ISO码有对应关系的汉字(包括日本、朝鲜汉字)在切换简体或繁体汉字输入方式(包括注音字母、汉语拼音不同的外码)时都随意调用。也可用分别建两套数据库的方式,这样写程序容易,可随切换选用不同的数据库。两法比较,前法占存储空间小(减少了重复建库),但要用程序定义,后法数据库需重复建,多占空间,但程序简单。
二、日本汉字、朝鲜汉字的输入编码(懂汉语识汉字的)懂汉语,认识中国汉字的人,输入日本、朝鲜汉字时,凡该汉字有汉语读音,即与中国汉字同形的,可在中文方式用繁体或简体方式按声数编码原则输入;对现代汉语中无读音或者多数人不认识的汉字,用声数码不识字的编码原则编码输入。为了减少翻页查找,将日本和朝鲜汉字用一键领示(或换档)。如日本汉字“伮”字,它的ISO码为“4F2F”,字形结构为左右排列,左边为单立人,右边为奴隶的“奴”字,也可分析为“女、又”,因此这个日本汉字可有两种外码“RNZ”和“RNYZ”。但在实践中往往分不清那个是现代汉语没有读音的日本朝鲜汉字还是汉语中极罕用的有读音的字,所以也可以用凡不认识的汉字和没有汉语读音的汉字都归类为“不识字”类统一处理,这样就需要改变原二级汉字中仅用两码和三码来组“不识字”的编码。
不识字或日本朝鲜汉字的编码,按汉字的结构,取其结构读音(独体字的声母或偏旁部首、笔画的读音声母)的声母取一码、两码、三码、四码不同码长的码元组成,然后再按提示选择输入。为了减少重码,凡不满四个码元的后加一个结构码。(左右、左中右用Z,上下用V,内外用N,左上下右、左右上下、左上下右上下用O等表示结构码元)三、合体的电报用字的编码法如“1月”、“12点”等,也按“不识字”的原则进行编码,即读音声母(或首字母-韵母自成音节为首字母)加序号,如“1月”编码为“YYZ”,“12点”编码为“VEDZ”。输入时,打不识字的领示符然后再打编码和序号。
四、懂日语认识日本汉字的如何按拼(注)音输入日本汉字懂日语的输入日本语文本,或书写日文文章,在通用的日本假名键盘盘面上,打假名时就按键直接输入(通用的日文假名键),输入日本汉字时,用日本汉字“声数编码”(假名拼、注音或罗马字拼注音)编码输入。日本汉字的日语声数编码的编码原则同按汉语的声数编码字、词码,即按其日语读音假名(或罗马拼注音加序号)进行编码,单独一个假名读音的,就是一码字,两个假名拼读的就是两码字,三个假名注音的就是三码字等,同样的假名注音的不同汉字按使用频度排序,(由高频到低频)。假名输入和汉字输入分档进行,即用一领示键来实现日本汉字的输入,没有领示键时就是假名字母的输入,编写程序时需要定义凡有领示符时数字键的第一键是字母键第一键后就是序号键,这样来实现“读音字母加序号”编码输入日本汉字。
五、朝鲜汉字的“声数编码”-拼、注音编码朝鲜汉字的拼(注)音编码方法和原则同日本汉字,只是键盘用通用的朝鲜字母定义的键盘,也用领示键来分档实现汉字的输入,没有领示符键就是朝鲜字母的输入。朝鲜汉字也依音按使用频度排序。
六、中国汉字简体和繁体的输出打印随意选择,是采用程序控的方法,使同一外码对应的一对同义简体和繁体汉字图形符号,按分档符指令调用不同的数据表对应的字模库符号输出来实现。对于已经按原国标(如大陆GB2312等)为内码建立的数据表,也可用程序换算的方式与ISO“CJK”国际标准内码建立转换关系,这样不但省去建字码数据表的工作,同时对原来已建立的声数编码词语库表仍能发挥作用。
权利要求
1.一种ISO“CJK”多国汉字声数编码输入技术方法,其特征在于可按汉字的汉语读音方式编码输入中国汉字、日本汉字、朝鲜汉字,又可按汉字的日语、朝鲜语的读音方式编码输入日本、朝鲜汉字和假名、字母。
2.根据权利要求一所述一种ISO“CJK”多国汉字声数编码输入技术方法,其特征在于懂汉语识汉字的对“CJK”多国汉字的编码方法是汉字按使用频度排列,以其声、韵、调、序编码,罕用的不认识的汉字和汉字无读音的日本、朝鲜汉字,以及合体的电报汉字,用汉字图形结构件(独体字或笔画部首)的汉语读音声母加排列方式和序号组码输入。
3.根据权利要求一所述一种ISO“CJK”多国汉字声数编码输入技术方法,其特征在于懂日语识日本汉字的输入日本汉字,按日本汉字的读音依假名或日本汉字罗马字读音加序号组码输入。
4.根据权利要求一所述一种ISO“CJK”多国汉字声数、编码输入技术方法,其特征在于懂朝鲜语识朝鲜汉字的按朝鲜汉字读音字母注音加序号组码输入。
5.根据权利要求-所述一种ISO“CJK”多国汉字声数编码输入技术方法,其特征在于懂汉语识汉字的对罕用的不认识的汉字和汉字无读音的日本、朝鲜汉字,汉字电报合体字,依汉字图形的偏旁、部首或笔画读音一至四个码元加结构方式和序号组码输入。
6.根据权利要求-所述一种ISO“CJK”多国汉字声数编码输入技术方法,其特征在于中国汉字的简体、繁体字形同键位输入和随意选择输出,日本、朝鲜汉字同中国汉字的输入和输出同步实现。
全文摘要
本发明是《中文声数编码》的发展,它提出了一种懂汉语的人易学、快速输入ISO标准规定的任何中国汉字(简体、繁体)、日本汉字、朝鲜汉字,而且提出了懂日语的、懂朝鲜语的人自由选择熟悉的语种来进行该国的字母或汉字编码输入法,是一种多语种多国汉字“声数编码”——拼(注)音输入法。
文档编号G06F3/023GK1079059SQ9210373
公开日1993年12月1日 申请日期1992年5月20日 优先权日1992年5月20日
发明者唐懋宽, 唐明, 唐杰, 唐学琴 申请人:唐懋宽
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1