列表数据的无损压缩方法

文档序号:8365088阅读:615来源:国知局
列表数据的无损压缩方法
【技术领域】
[0001] 本发明公开了列表数据的无损压缩方法,属于计算机数据压缩的技术领域。
【背景技术】
[0002] 数据压缩分为无损压缩和有损压缩,有损压缩能以牺牲相对不重要的细节来大幅 度压缩数据,可以用来压缩音频、图像和视频等。对于文本或其他精确数据,因为需要保留 所有细节,只能采用无损压缩。无损压缩是通过去除冗余数据来达到数据压缩的目的,一切 存在冗余数据的地方都是无损压缩的关注点。
[0003] 最简单的无损压缩方法是游程编码RLE(Run-LengthEncoding),RLE通过将连续 重复数据编码成数据加数量来达到压缩的目的。RLE可以是基于位、字节,也可以基于更长 的数据单位,最常见的是基于字节。另外一类常见的无损压缩方法是熵编码。熵编码理论 由信息学之父香农所创立,最常用的熵编码是哈夫曼编码,哈夫曼编码是算术编码的一种 特例。不过由于算术编码受多项专利保护,与算术编码类似的区间编码在开源社区得到更 多应用。所有熵编码的压缩极限都是熵值,在二进制下为H/8,H即熵,
【主权项】
1. 列表数据的无损压缩方法,其特征在于,包括如下步骤: 循环读入列表各项后将各项插入前缀树; 输出压缩型序列化字节流; 再次压缩字节流。
2. 根据权利要求1所述的列表数据的无损压缩方法,其特征在于,所述输出压缩型序 列化字节流的步骤具体为: 输出根节点; 依据字典序并按深度遍历方法输出各子树;输出前缀数字W及与根节点连同的所有子 树的各子节点,所述前缀数字表示根节点到各子树第一子节点的距离。
3. 根据权利要求1或2所述的列表数据的无损压缩方法,其特征在于,所述列表数据包 括:单词列表、地址列表、网络地址列表、数据库表记录。
4. 根据权利要求1或2所述的列表数据的无损压缩方法,其特征在于,所述列表数据为 单一字段或多字段,所述多字段列表数据的顺序任意,通过字段序号或字段名称定位多字 段列表数据中的任一字段。
5. 根据权利要求1或2所述的列表数据的无损压缩方法,其特征在于,所述再次压缩字 节流的步骤,利用游程编码法、动态马尔可夫编码法、上下文树权法、部分匹配预测法实现。
6. 解压列表数据的方法,为权利要求1或2中任意一项所述方法的逆过程,其特征在 于,解压得到字节流,将字节流反序列化为前缀树,完整输出前缀树得到列表数据。
【专利摘要】本发明公开了列表数据的无损压缩方法,属于计算机数据压缩的技术领域。压缩方法,首先循环读入列表各项后将各项插入前缀树,接着输出压缩型序列化字节流,最后再次压缩字节流。将列表数据各项插入前缀树后,依据根节点与子树第一子节点的距离信息输出压缩型序列化字节流,可用于无序数据的压缩,提高了压缩效率;在输出压缩型序列化字节流后,配合现有的压缩方法,可进一步提高列表数据的压缩效果。本发明还给出了对应于所述压缩方法的解压缩方法。
【IPC分类】H03M7-30
【公开号】CN104682966
【申请号】CN201510131244
【发明人】许军才, 张卫东, 任青文, 沈振中
【申请人】河海大学
【公开日】2015年6月3日
【申请日】2015年3月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1