一种双字节汉字编码系统中集外汉字的编码方法

文档序号:6595579阅读:1020来源:国知局
专利名称:一种双字节汉字编码系统中集外汉字的编码方法
技术领域
本发明是关于一种汉字编码方法,尤其是关于一种双字节汉字编码系统中集外汉字的编码方法。
背景技术
目前,现有的汉字编码方法都是采用双字节汉字编码方法,如GBK、CJK编码规范。这些汉字编码方法存在的一个共同缺点是不能处理一些集外汉字(如人名、地名中的偏、生汉字)的输入、显示、打印和交换问题,而这些用字又必须要给予准确的表达和处理,否则会给一些应用系统带来麻烦。

发明内容
本发明的目的是为了解决劳动保障、公安、民政、医保等领域中迫切需要的人名、地名中集外汉字的信息处理问题。在现有的输入技术环境下,增加三角码输入法和集外字输入法。在处理集外汉字时,启动集外汉字的显示和打印驱动模块,这样,使集外汉字和非集外汉字都能够正常地输入、显示和打印。在信息交换时,只需掌握这些集外汉字和非集外汉字的内码与实际汉字的对照表,就可解决集外汉字的精确处理问题。
本发明的集外汉字字汇表是发明人以目前已经收集整理到的人名、地名中集外汉字为基础确立的,并在现有编码方法中以GDI方式嵌入这些集外汉字,字汇编排以偏旁部首为序,对具体的集外汉字,根据其使用情况决定将其收入集外字基本集还是收入集外字扩展集。在字汇收录时将简繁字作为不同的两个字来处理,即把简体字和繁体字各作为一个汉字,各占一个码位。所述的集外汉字只需在国内统一以及便于目前的计算机系统和外部设备的使用。本发明的编码方法是采用单/多字节混合编码汉字编码(Multi-bytecharacter set,MBCS)国际标准。在编码范围、汉字排序、汉字内码方面,集外汉字所依据的基本字符集采用汉字内码扩展规范(GBK1.0)。该字符集的字汇与国际标准ISO10646.1中的中、日、韩统一编码汉字大致相当,约21,000个,其中部分汉字是日、韩专用汉字。
本发明在汉字编码方面对每个集外汉字采用三个字节表示,第一个字节表示集外汉字的启用标志,第二个、第三个字节表示集外汉字的内码。集外汉字的第一个字节采用Windows中未定义的低位ASCII码来表示,集外汉字的编码范围确定为068140到06FEFE,除06XX7F,XX=81-FE;06XXFF,XX=81-FD外,并在编码范围确定的基础上,建立一个集外汉字页面。在启用集外汉字的同时启动集外汉字的显示和打印驱动模块,这样,使集外汉字和非集外汉字都能够正常地输入、显示和打印。在信息交换时,只需掌握这些集外汉字和非集外汉字的内码与实际汉字的对照表,就可解决集外汉字的精确处理问题。
本发明为目前在计算机中文信息应用领域广泛存在的偏、生汉字的输入方法提供了很好的解决方案,具有广泛的代表性、实用性和普及性,能够支持用户现有的应用系统,与Windows操作系统中现有的常用汉字输入法相兼容,并在此基础上扩充了汉字输入法,为用户方便地输入自己所需要的集外字提供了便捷快速的方法。


图1是本发明的非集外汉字与集外汉字的编码范围示意图。
具体实施例方式
下面结合实施例对本发明作进一步地说明。
本发明的字汇表是发明人根据目前的应用需求和收集整理到的人名、地名集外字为基础,按照未来的国家标准和行业标准为原则确立的。在字汇收录时将简繁字作为不同的两个字来处理,即把简体字和繁体字各作为一个汉字,分别占用一个码位。所收录的字汇根据偏旁部首为序,对具体的集外汉字,根据其使用情况决定将其收入集外字基本集还是收入集外字扩展集。编码方法采用单/多字节混合编码汉字编码国际标准进行编码,编码需在国内统一,以便于目前的计算机系统和外部设备的使用。本发明所采用的基本字符集为GBK1.0,该字符集的字汇与国际标准ISO10646.1中的中、日、韩统一编码汉字大致相同,约21,000个,其中部分汉字是日、韩专用汉字。
本发明为使计算机中文信息处理应用系统能识别非集外汉字与集外汉字,在集外汉字编码的环境中,对每个集外汉字采用三个字节表示,编码范围确定为068140到06FEFE,除06XX7F,XX=81-FE;06XXFF,XX=81-FD外,如图1所示。第一个字节表示集外汉字的启用标志,第二个、第三个字节代表集外汉字内码。集外汉字的第一个字节采用Windows中未定义的低位ASCII码表示,如图1所示的“06”是作为集外汉字的第一个字节,表示集外汉字的启用标志。本发明使用“06”作为集外汉字的启用标志,是因为在Windows中绝大多数的字符已经被详细定义,并且这种定义已成为了公认的标准,例如A的十六进制是41,@的十六进制是40等。如果随意选择了已有定义的字符,将在信息传输过程中造成二意性,文档则会显示乱码。
在进行中文信息处理时,当遇到偏、生汉字时,就启用集外汉字,同时启动集外汉字的显示和打印驱动模块,使集外汉字和非集外汉字都能够正常地输入、显示和打印。在信息交换时,只需掌握这些集外汉字和非集外汉字的内码与实际汉字的对照表,就可解决集外汉字的精确处理问题。如某个非集外汉字编码是“8140”,代表汉字是“丂”;而在集外汉字编码系统中“068140”代表的汉字是 在这里“06”是集外汉字标志,“8140”是集外汉字的编码。在本发明中对所收集的集外汉字都采用“06”作为启用标志,使集外汉字由三个字节组成,以区别常用的双字节汉字。
权利要求
1.一种双字节汉字编码系统中集外汉字的编码方法,其特征在于,所述方法包括如下步骤a)以人名、地名集外字为基础确立字汇表,在字汇收录时将简体字和繁体字各作为一个汉字处理,即各占一个码位;b)集外汉字根据单/多字节混合编码汉字编码国际标准进行编码;c)集外汉字在编码范围、汉字排序、汉字内码方面采用汉字内码扩展规范为基本字符集;d)在汉字编码范围确定的基础上,建立一个集外字页面,每个集外汉字的编码由三个字节组成,第一个字节表示集外汉字的启用标志,采用Windows中未定义的低位ASCII码字符来表示,第二个和第三个字节代表集外汉字的内码。
2.如权利要求1所述的一种双字节汉字编码系统中集外汉字的编码方法,其特征在于,所述集外汉字的编码范围为068140到06FEFE,除06XX7F,XX=81-FE;06XXFF,XX=81-FD外。
3.如权利要求1所述的一种双字节汉字编码系统中集外汉字的编码方法,其特征在于,所述集外汉字排序是以偏旁部首为序,并根据集外汉字的使用情况决定将集外汉字收入集外字基本集或收入集外字扩展集。
全文摘要
本发明是关于一种双字节汉字编码系统中集外汉字的编码方法。在集外汉字编码范围确定的基础上,建立一个集外汉字页面,对每个集外汉字采用三个字节表示,第一个字节表示集外汉字的启用标志,第二个、第三个字节代表集外汉字内码。集外汉字的第一个字节采用Windows中未定义的低位ASCII码表示。本发明为目前在计算机中文信息应用领域广泛存在的偏、生汉字的输入、显示、打印和交换等信息处理提供了很好的解决方案,能够支持用户现有的应用系统,与Windows操作系统中现有的常用汉字输入法相兼容,并在此基础上扩充了汉字输入法,为用户方便地输入自己所需要的集外字提供了便捷快速的方法。
文档编号G06F3/023GK1501226SQ0214541
公开日2004年6月2日 申请日期2002年11月15日 优先权日2002年11月15日
发明者张惠芬, 袁国华, 杨海音, 鲁明, 胡力旗, 张义恩, 彭朝晖, 王蓓俊, 徐晓燕, 陈金琴, 毛信丽, 范耀周 申请人:上海市社会保障和市民服务信息中心上海市社会保障卡服务中心, 上海市社会保障和市民服务信息中心上
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1