应用于低速率应急通信的混合汉字编码方法与流程

文档序号:11234053阅读:349来源:国知局
应用于低速率应急通信的混合汉字编码方法与流程
本发明涉及汉字编码
技术领域
,具体涉及一种应用于低速率应急通信的混合汉字编码方法。
背景技术
:当前,低速率应急通信中的汉字编码方法主要采用gb2312编码,其每个汉字用2byte(16bit)进行编码,占用资源较多,编码效率和通信效率低,迫切需要高压缩率的汉字编码技术。目前通用的压缩软件,如winrar等,在汉字文本压缩方面效率欠佳,并不适用于通信设备中。而国内外相关技术研究甚少,少数的文献研究都还比较浅。文献[1]游荣彦,李吉桂.通用简易中文文本压缩方法研究[j].华南师范大学学报(自然科学版),2001(2):84-88.提出了一种以13bit为单位的编码方法,通过提供8192个编码空间以容纳6763个汉字,是一种简单的针对单字的紧凑算法。文献[2]陆挺,刘晓辉.应用于极低速率应急通信的11bit汉字编码方法[j].指挥信息系统与技术,2010,1(3):74-78.基于汉字使用频度,以11bit为编码单位来进行汉字编码。相对于文献[1],压缩率得到了一定提升,但仍着眼于单字。技术实现要素:本申请通过提供一种应用于低速率应急通信的混合汉字编码方法,以解决低速率应急通信中的汉字编码技术占用资源较多,编码效率和通信效率低的技术问题。为解决上述技术问题,本申请采用以下技术方案予以实现:一种应用于低速率应急通信的混合汉字编码方法,信息传输过程中包括单字、双字词语以及短语三种编码,其中,所述单字编码选取n个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字,该混合汉字编码的顺序为短语、双字词语、单字,具体编码流程为:s1:设置索引值初始化为0;s2:取索引后的一个字;s3:在所述短语码表中按序匹配短语首字,如果匹配,则进入步骤s4,否则,进入步骤s6;s4:报文索引后取该短语长度n个字,和短语进行匹配,如果匹配,则进入步骤s5,否则,继续执行步骤s3;s5:对短语进行编码,索引值加n,n为短语平均长度,跳转至步骤s2;s6:判断是否为短语码表最后一个短语,如果是,则进入步骤s7,否则,继续执行步骤s3;s7:在所述双字词语码表中按序匹配词根,如果匹配,则进入步骤s8,否则,进入步骤s10;s8:匹配词尾,如果匹配,则进入步骤s9,否则,继续执行步骤s7;s9:对双字词语进行编码,索引值加2,跳转至步骤s2;s10:判断是否为双字词语码表最后一个词根,如果是,则进入步骤s11,否则,继续执行步骤s7;s11:单字码表中按序匹配,如果匹配,则进入步骤s12,否则,继续执行步骤s11;s12:对单字进行编码,索引值加1,跳转至步骤s2。为了区分三种编码方式,简化编码流程,降低时间损耗,所述单字码表中单字占13bit,其中前1bit作为标志位,所述双字词语码表中双字词语占13bit,其中前2bit作为标志位,所述短语码表中短语占11bit,其中前2bit作为标志位。作为一种优选的技术方案,短语编码格式为00xxxxxxxxx,双字词语编码格式为01xxxxxxxxxxx,单字编码格式为1xxxxxxxxxxxx据国家语言文字工作委员会发布的《中国语言生活状况报告(2015)》(商务印书馆)统计显示,汉字数量超过万个,但常用的仅前几千个。在所述单字编码选取n个汉字建立单字码表时,为了减少编码位数,选取使用频率靠前的3500个汉字建立单字码表,提供12bit共4096个编码空间。据《报告》统计,该3500个汉字使用频率超过了99.8%,具有很强的覆盖性。与现有技术相比,本申请提供的技术方案,具有的技术效果或优点是:具有高压缩率、高速率、易实现等优点,能够满足低速率汉字通信需求,具有很强的工程应用价值。附图说明图1为本发明的编码方法流程图;图2为本发明的解码方法流程图。具体实施方式本申请实施例通过提供一种应用于低速率应急通信的混合汉字编码方法,以解决低速率应急通信中的汉字编码技术占用资源较多,编码效率和通信效率低的技术问题。为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式,对上述技术方案进行详细的说明。实施例一种应用于低速率应急通信的混合汉字编码方法,信息传输过程中包括单字、双字词语以及短语三种编码,其中,所述单字编码选取n个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字。据国家语言文字工作委员会发布的《中国语言生活状况报告(2015)》(商务印书馆)统计显示,汉字数量超过万个,但常用的仅前几千个。在所述单字编码选取n个汉字建立单字码表时,为了减少编码位数,在本实施例中,选取使用频率靠前的3500个汉字建立单字码表,提供12bit共4096个编码空间。据《报告》统计,该3500个汉字使用频率超过了99.8%,具有很强的覆盖性。对于使用过程中出现的其他汉字,本发明将其列为短语类型,在短语码表中进行编码。鉴于日常汉语交流中双字词语出现概率更大,且码表结构相对多字/不定字词语更为清晰,本发明在词语编码中对象限定为双字词语。双字词语码表结构采取“词根+节点”的树形结构。相对于简单的对位编码,优势有两个,以11bit编码为例,树形结构8bit作为词根,3bit作为节点:1、码表结构清晰,便于搜索,节约编解码时间。码表全部搜索一遍,对位编码需要211=2048次,树形结构编码需要28+(23+1)=265次,约为前者的1/8;2、词根与自身组合,可以形成叠词,增加了码表容量。对位编码容量为211=2048个;树形结构编码容量为28×(23+1)=2304个,相对前者,增加了256个,即词根个数。短语码表是用来存储经常性使用的多字短语、短句或单字码表中未被编码的非常用字。其特点有两个:1、不规则性。不同于双字词语,其字数不定、词头不定,决定了编码方法采用对位编码;2、多样性。不同应用领域有较大不同,如军事用语里常用“炮火支援”、“无线电静默”等,经济领域常用“宏观调控”、“国内生产总值”等。因此,短语码表应根据具体使用环境来构建。在本实施例中,短语码表所占空间为9bit,共可容纳512个短语,基本满足实际应用需求。实际应用中可根据特殊情况进行扩缩。在编码时遵循两个原则:比特数尽量少、耗时尽量短。码表由单字、双字词语和短语构成,其压缩效率关系为:短语≥双字词语>单字,可见,不同的编码顺序带来的压缩效果不同。为得到最少的比特数,通过压缩效率关系可得出以下编码顺序:短语→双字词语→单字。单字和短语编码属于对位编码,索引方式采用对位索引;双字词语采用树形结构,索引方式采用先匹配词根,再匹配节点的方式,从而减少索引次数,降低编码耗时。为了区分三种编码方式,简化编码流程,降低时间损耗,所述单字码表中单字占13bit,其中前1bit作为标志位,所述双字词语码表中双字词语占13bit,其中前2bit作为标志位,所述短语码表中短语占11bit,其中前2bit作为标志位。如图1所示,具体编码流程为:s1:设置索引值初始化为0;s2:取索引后的一个字;s3:在所述短语码表中按序匹配短语首字,如果匹配,则进入步骤s4,否则,进入步骤s6;s4:报文索引后取该短语长度n个字,和短语进行匹配,如果匹配,则进入步骤s5,否则,继续执行步骤s3;s5:对短语进行编码,编码格式为:00xxxxxxxxx,索引值加n,n为短语平均长度,跳转至步骤s2;s6:判断是否为短语码表最后一个短语,如果是,则进入步骤s7,否则,继续执行步骤s3;s7:在所述双字词语码表中按序匹配词根,如果匹配,则进入步骤s8,否则,进入步骤s10;s8:匹配词尾,如果匹配,则进入步骤s9,否则,继续执行步骤s7;s9:对双字词语进行编码,编码格式为:01xxxxxxxxxxx,索引值加2,跳转至步骤s2;s10:判断是否为双字词语码表最后一个词根,如果是,则进入步骤s11,否则,继续执行步骤s7;s11:单字码表中按序匹配,如果匹配,则进入步骤s12,否则,继续执行步骤s11;s12:对单字进行编码,编码格式为:1xxxxxxxxxxxx,索引值加1,跳转至步骤s2。对应的解码流程,大致分为两步:1、读取标志位;2、读取相应比特位,匹配字符。解码流程图如图2所示。为了进一步验证本发明的有益效果,将从空间、时间效率上对混合编码方法性能进行评估,并将其与通用压缩软件winrar压缩效果进行对比。(1)空间效率评估假设一篇报文包含m个汉字字符,其中单字、双字词语、短语的个数依次为x、y、z个,则编码后总比特数为:13x+13y+11z(1)总字符数不变:x+2y+nz=m(2)其中,n为短语平均长度,将式(2)代入式(1)后得到式(3):13m-13y-(13n-11)z(3)于是,得到压缩率为:从式(4)可以看出,m一定的情况下,压缩率分别与y、z、n成线性单调递减关系,即y、z或n值越大,压缩率越小,压缩效率越高;m不定的情况下,压缩率与成线性单调递减关系,即双字词语、短语所占比例越高,压缩率越小,压缩效率越高。(2)时间效率评估本发明所述编码方法需要三轮搜索,即分别对短语码表、双字词语码表、单字码表的搜索。除去标志位,每个码表穷举一次,短语码表需匹配512*n次,双字词语需匹配265次,单字码表需匹配4096次。因此,最差情况下,完成一次编码需匹配512n+265+4096次。一段包含m个编码单位的报文,最差情况需匹配(512n+265+4096)m次,复杂度为o(bm)。解码过程相对简单,仅需依次从码表中匹配出相应字符即可,m个编码单位只需匹配m次,复杂度为o(m)。(3)性能对比本实施例对一段含有34个字符的短报文进行压缩编码,并将压缩结果与文献[2]和winrar压缩结果进行对比。该段报文共有34个字符,其中ascii字符3个,中文字符31个,gb2312编码共占65byte,计520bit。在本实施例编码中分配情况如表1。表1字符分配情况类型个数字符数字节数字节比例短语271116.93%双字词语361218.46%单字21214264.61%混合编码压缩后,比特数为334bit,平均比特数为9.8235bit/字符,5.1384bit/byte,相对于gb2312编码的压缩率为64.23%,优于文献[2]的11bit/字符。连续运行1000次,编码共耗时11778ms,平均11.778ms/次,0.453ms/编码单位;解码共耗时62ms,平均0.062ms/次,0.002385ms/编码单位。将本段报文拷贝到文本文档中,用winrar软件压缩后文件大小为134byte,大于原报文大小。可见,在汉字短报文压缩方面,通用压缩软件并不适用。通过上述数据比较得出,本发明的混合编码方法在短语和双字词语占比不足50%的情况下便具有高压缩率,提高其占比,压缩性能还将得到提高。此外,其编解码速度快,耗时短,完全能够满足低速率应急通信要求。本申请的上述实施例中,通过提供一种应用于低速率应急通信的混合汉字编码方法,该应用于低速率应急通信的混合汉字编码方法包括单字、双字词语以及短语三种编码,其中,所述单字编码选取n个汉字建立单字码表,所述双字词语编码采取“词根+节点”的树形结构,所述短语编码采用对位编码,所述短语编码的短语码表存储多字短语、短句以及单字码表中未被编码的非常用字,该混合汉字编码的顺序为短语、双字词语、单字,本发明具有高压缩率、高速率、易实现等优点,能够满足低速率汉字通信需求,具有很强的工程应用价值。应当指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本
技术领域
的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换,也应属于本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1