一种基于语言模型的数据压缩方法与流程

文档序号:17000173发布日期:2019-03-02 01:43阅读:462来源:国知局
一种基于语言模型的数据压缩方法与流程

本发明属于数据压缩技术领域,具体涉及一种基于语言模型的数据压缩方法。



背景技术:

随着信息技术的飞速发展,为了方便数据的传输及使用,需要用到对一些占用存储空间较大的数据进行压缩。

现有的数据压缩方法一般采用仅基于数据的比特位对数据进行压缩,压缩后的数据与原始数据相比,所减少的存储空间并不多,压缩效果并不理想。



技术实现要素:

为解决现有技术的不足,本发明实施例提供了一种基于语言模型的数据压缩方法,该方法包括:

step1、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率;

step2、重复上述步骤step1,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表;

step3、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号;

step4、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码;

step5、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩;

step6、重复上述步骤step3-step5,直至所有需要压缩的词压缩完毕。

进一步地,判断当前需要压缩的词是否在预设的词表中包括:

若所述词不在预设的词表中,则利用哈夫曼编码树对所述词的各个字符进行编码,生成第二数字编码;

利用基于文档频率特征的压缩算法,对所述第二数字编码进行压缩。

本发明实施例提供的基于语言模型的数据压缩方法具有以下有益效果:

利用语言模型、哈夫曼编码树及基于文档频率特征的压缩算法,能够有效地减少数据所占用的存储空间,提高了数据压缩的效果。

附图说明

图1是本发明实施例公开的一种基于语言模型的数据压缩方法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示,本发明实施例提供的基于语言模型的数据压缩方法,包括以下步骤:

s101、判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出所述词在所述词表中的分布概率。

s102、重复上述步骤s101,得到所有需要压缩的词的分布概率,将所述分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表。

s103、根据当前需要压缩的各个词在所述排序列表中的位置,得到所述词的位置序号。

s104、根据所述位置序号,利用哈夫曼树对所述位置序号进行编码,生成第一数字编码。

s105、利用基于文档频率特征的压缩算法,对所述第一数字编码进行压缩。

s106、重复上述步骤s103-s105,直至所有需要压缩的词压缩完毕。

可选地,判断当前需要压缩的词是否在预设的词表中包括:

若所述词不在预设的词表中,则利用哈夫曼编码树对所述词的各个字符进行编码,生成第二数字编码;

利用基于文档频率特征的压缩算法,对所述第二数字编码进行压缩。

本发明实施例提供的基于语言模型的数据压缩方法,通过判断当前需要压缩的词是否在预设的词表中,若是,则利用语言模型,输出词在词表中的分布概率,重复上述步骤,得到所有需要压缩的词的分布概率,将分布概率依据从大到小的顺序依次排列,生成各个词分布概率的排序列表,根据当前需要压缩的各个词在排序列表中的位置,得到词的位置序号,根据位置序号,利用哈夫曼树对位置序号进行编码,生成数字编码,利用基于文档频率特征的压缩算法,对数字编码进行压缩,有效地减少了数据所占用的存储空间,提高了对数据的压缩效果。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1