一种汉字压缩编码方法

文档序号:6610591阅读:522来源:国知局

专利名称::一种汉字压缩编码方法
技术领域
:本发明涉及编码方法,更具体地说,涉及一种汉字压縮编码方法。
背景技术
:目前,手机短信在进行编码时是采用国际通用的USC2标准方式进行,每个汉字占用两个字节。而每条短信正文的有效载荷为140个字节,所以对于普通短信,每条最多容纳70个汉字,如果超过了70个汉字,则就必须拆分成多条短信进行发送。
发明内容本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种汉字压縮编码方法。本发明解决其技术问题所采用的技术方案是构造一种一种汉字压縮编码方法,包括以下步骤a、分级汉字库;b、在压縮一段汉字时,搜索经分级的汉字库,确定所述汉字的级别;c、根据所述汉字的级别,压縮所述汉字。在本发明所述的汉字压縮编码方法,其特征在于,在所述步骤a中,将所述汉字库分为一级汉字库、二级汉字库、三级汉字库、四级汉字库、五级汉字库、六级汉字库。优选的,所述一级汉字库包括256个汉字和标点符号,每个汉字和标点符号采用8位编码。优选的,所述二级汉字库包括512个汉字和标点符号,每个汉字和标点符号采用9位编码。优选的,所述三级汉字库包括1024个汉字和标点符号,每个汉字和标点符号采用10位编码。优选的,所述四级汉字库包括2048个汉字和标点符号,每个汉字和标点符号采用ll位编码。优选的,所述五级汉字库包括4096个汉字和标点符号,每个汉字和标点符号采用12位编码。优选的,所述六级汉字库包括8192个汉字和标点符号,每个汉字和标点符号采用13位编码。进一步地,在本发明所述的汉字压縮编码方法中,在步骤C中,还包括对经压縮的所述一段文字,设置级别标志。实施本发明的汉字压縮编码方法,具有以下有益效果适用于手机短信等小段汉字信息传送的应用中。例如,如果在手机短信发送和接收中采用本发明的方法,则最大可以在一条普通短信中传输原来的两倍的汉字,也就是说140个汉字,远远超过了原来一条短信传输70个汉字的容量。如果所需压縮的这段汉字都属于一级汉字库的话,和采用国际通用的USC2标准方式相比,本发明只需其一半的存储空间。即使是所需压縮的这段汉字都属于六级字库,和采用国际通用的USC2标准方式相比,本发明只需其81%的存储空间。下面将结合附图及实施例对本发明作进一步说明,附图中图1是本发明汉字压縮编码方法流程图。具体实施例方式如图1所示,在本发明的汉字压缩编码方法中,按照汉字使用频率,采用分级汉字库的方式,将汉字库分为一级汉字库(包含了最常用的256个汉字和标点符号,每个汉字和标点符号采用8位编码)、二级汉字库(包含了最常用的512个汉字和标点符号,每个汉字和标点符号采用9位编码)、三级汉字库(包含了最常用的1024个汉字和标点符号,每个汉字和标点符号采用10位编码)、四级汉字库(包含了最常用的2048个汉字和标点符号,每个汉字和标点符号采用11位编码)、五级汉字库(包含了最常用的4096个汉字和标点符号,每个汉字和标点符号采用12位编码)、六级汉字库(包含了最常用的8192个汉字和标点符号,每个汉字和标点符号采用13位编码)。在压縮一段汉字时,从一级汉字库依次开始搜索(搜索顺序是一级汉字库、二级汉字库、三级汉字库、四级汉字库、五级汉字库、六级汉字库),判断该段汉字中的所有文字是否全部属于某一级汉字库,如果是的话,采用该级汉字库的编码进行压縮。这样的话,如果所需压縮的这段汉字都属于一级汉字库的话,和采用国际通用的USC2标准方式相比,本发明只需其一半的存储空间。即使是所需压縮的这段汉字都属于六级字库,和采用国际通用的USC2标准方式相比,本发明只需其81%的存储空间。这样的话,对于短信等应用方式,本发明的压縮方法可以在很多情况下为手机用户节省不少费用。为了适应发展,汉字的使用频率可能会有变化,那么我们将每段压縮后的文字第1个字节高4位(这样的话就能支持到16个版本的字库)定义为字库版本。第1个字节低4位保留。为了让解码方知道压縮时采用的是哪一级字库,我们将每段压縮后的文字第2个字节高4位定义为字库序号(我们目前的字库只有六级,所以四个位是足够表示了,如果六级字库不够用,可以考虑将字库增加到七级〉。第2个字节低4位保留。在解压縮时,我们首先读取第一个字节的高4位,判断出压縮方是采用了哪个版本的字库。接着读取第2个字节的高4位,我们就可以知道压縮方是采用了哪一级的字库。知道了上面两个信息,我们就可以索引到具体版本的具体一级的字库,然后通过该版本该级别的字库编码表检索出所有汉字。在一优选实施例中,一级汉字库定义如下:<table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table>权利要求1、一种汉字压缩编码方法,其特征在于,包括以下步骤a、分级汉字库;b、在压缩一段汉字时,搜索经分级的汉字库,确定所述汉字的级别;c、根据所述汉字的级别,压缩所述汉字。2、根据权利要求1所述的汉字压縮编码方法,其特征在于,在所述步骤a中,将所述汉字库分为一级汉字库、二级汉字库、三级汉字库、四级汉字库、五级汉字库、六级汉字库。3、根据权利要求2所述的汉字压縮编码方法,其特征在于,所述一级汉字库包括256个汉字和标点符号,每个汉字和标点符号采用8位编码。4、根据权利要求2所述的汉字压縮编码方法,其特征在于,所述二级汉字库包括512个汉字和标点符号,每个汉字和标点符号采用9位编码。5、根据权利要求2所述的汉字压縮编码方法,其特征在于,所述三级汉字库包括1024个汉字和标点符号,每个汉字和标点符号采用IO位编码。6、根据权利要求2所述的汉字压縮编码方法,其特征在于,所述四级汉字库包括2048个汉字和标点符号,每个汉字和标点符号采用ll位编码。7、根据权利要求2所述的汉字压縮编码方法,其特征在于,所述五级汉字库包括4096个汉字和标点符号,每个汉字和标点符号采用12位编码。8、根据权利要求2所述的汉字压縮编码方法,其特征在于,所述六级汉字库包括8192个汉字和标点符号,每个汉字和标点符号采用13位编码。9、根据权利要求18任一所述的汉字压縮编码方法,其特征在于,在步骤c中,还包括对经压縮的所述一段文字,设置级别标志。全文摘要本发明涉及一种汉字压缩编码方法,包括以下步骤a.分级汉字库;b.在压缩一段汉字时,搜索经分级的汉字库,确定所述汉字的级别;c.根据所述汉字的级别,压缩所述汉字。通过本发明的压缩编码方法,可以将一段汉字最大压缩至原来所需的存储空间大约1/2的大小。适用于手机短信等小段汉字信息传送的应用中。例如,如果在手机短信发送和接收中采用本发明的方法,则最大可以在一条普通短信中传输原来的两倍的汉字,也就是说140个汉字,远远超过了原来一条短信传输70个汉字的容量。文档编号G06F17/28GK101419588SQ20071012416公开日2009年4月29日申请日期2007年10月26日优先权日2007年10月26日发明者斌何申请人:康佳集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1