压缩装置、压缩方法、解压装置、解压方法以及信息处理系统的制作方法

文档序号:9439446阅读:354来源:国知局
压缩装置、压缩方法、解压装置、解压方法以及信息处理系统的制作方法
【专利说明】压缩装置、压缩方法、解压装置、解压方法以及信息处理系统
技术领域
[0001]涉及数据的压缩技术或者解压技术的至少一方。
【背景技术】
[0002]根据使用了哈夫曼编码、算术压缩等可变长度压缩编码的压缩算法,使用与压缩对象数据内的字符代码对应的压缩编码来生成压缩数据。另外,有利用哈夫曼编码等压缩算法,分配与作为字符代码的组合的单词建立有对应关系的压缩编码来进行压缩数据的生成的压缩技术(例如,参照专利文献I等)。
[0003]专利文献1:日本特开2010-93414号公报
[0004]在特定的语言(例如,英语、德语等)中,根据构成文档的字符串中所包含的空格符号,来表示作为构成文档单位的单词的划分。在上述压缩算法中,对包含多个字符的单词分配一个压缩编码,另一方面对空格符号也分配压缩编码。由于与单词等同地对空格符号也分配压缩编码,所以压缩所使用的压缩编码数目增多,而成为压缩率降低的重要因素。

【发明内容】

[0005]根据本发明的一个侧面,目的在于在用符号来表示构成数据的单位间的划分的数据的压缩中提高压缩率。
[0006]根据一个实施方式,压缩装置包含:存储部,其将一个压缩编码与第一要素建立对应关系地存储,所述一个压缩编码与构成数据的要素之一的第一要素和在上述数据中表示上述要素间的划分的第一划分符号的组合对应;获取部,其从上述存储部获取与从上述数据读出的上述第一要素建立对应关系地存储的上述压缩编码;以及写入部,其将获取的上述压缩编码,写入储存上述数据的压缩数据的储存区域。
[0007]根据一个实施方式,解压装置包含:存储部,其将与构成数据的要素之一的第一要素和在上述数据中表示上述要素间的划分的第一划分符号的组合与一个压缩编码建立对应关系地存储;获取部,其从上述存储部获取与从对上述数据进行压缩而得到的压缩数据中读出的上述压缩编码对应的上述组合;以及写入部,其将获取的上述组合所包含的上述第一要素以及上述第一划分符号双方写入对上述压缩数据进行解压而得到的解压数据的储存区域。
[0008]根据一个实施方式,信息处理系统包含存储装置和信息处理装置,信息处理装置包含:存储部,其存储对构成数据的要素之一的第一要素和在上述数据中表示上述要素间的划分的划分符号的组合与一个压缩编码建立有对应关系的转换词典;接收部,其从上述存储装置接受对数据进行压缩而得到的压缩数据;第一获取部,其从上述转换词典获取与从上述压缩数据读出的上述压缩编码对应的上述组合;第一写入部,其将获取的上述组合所包含的上述第一要素以及上述划分符号双方,写入对上述压缩数据进行解压而得到的解压数据的第一储存区域;处理部,其对写入上述第一储存区域的上述解压数据进行信息处理;第二获取部,其从上述转换词典获取与从进行了上述信息处理的上述解压数据读出的上述第一要素建立对应关系地存储的上述压缩编码;第一写入部,其将获取的上述压缩编码,写入储存上述数据的压缩数据的第二储存区域;以及发送部,其将写入上述第二储存区域的压缩数据发送至上述存储部。
[0009]根据一个实施方式,计算机可读取的存储介质存储一种压缩词典数据,该压缩词典数据具有按照数据要素的每个种类包含将与在数据中表示要素间的划分的划分符号和被上述划分符号划分的一个数据要素的组合对应的一个压缩编码与上述数据要素建立有对应关系的压缩处理用信息的结构,且是在计算机的压缩处理中,基于上述一个数据要素来参照上述一个压缩编码的上述压缩词典数据。
[0010]根据一个实施方式,计算机可读取的存储介质存储一种解压词典数据,该解压词典数据具有按照数据要素的每个种类包含将在数据中表示要素间的划分的划分符号和被上述划分符号划分的一个数据要素的组合同与上述组合对应的一个压缩编码建立有对应关系的解压处理用信息的结构,且是在计算机的解压处理中,基于上述一个压缩编码来参照上述组合的上述解压词典数据。
[0011]根据一个侧面,能够提高使用空格符号的文档数据的压缩效率。
【附图说明】
[0012]图1表不压缩词典的例子。
[0013]图2表示朝向压缩编码的转换例。
[0014]图3表示朝向解压数据的转换例。
[0015]图4表示功能模块的结构例。
[0016]图5表示压缩功能的处理步骤例。
[0017]图6表示压缩词典生成的处理步骤例。
[0018]图7表示统计处理的处理步骤例。
[0019]图8表示统计表Tl的数据结构的例子。
[0020]图9表示压缩数据生成处理的处理步骤例。
[0021]图10表示压缩数据生成处理的处理步骤例。
[0022]图11表示压缩词典的数据结构例。
[0023]图12表示解压功能的处理步骤例。
[0024]图13表示解压词典生成的处理步骤例。
[0025]图14表示解压数据生成处理的处理步骤例。
[0026]图15表不解压词典的数据结构例。
[0027]图16表示计算机I的硬件构成例。
[0028]图17表示通过计算机I动作的程序构成例。
[0029]图18表示使用了计算机I的系统构成例。
[0030]图19表示使用了计算机I的系统构成例。
[0031 ] 图20表示压缩词典的数据结构例。
[0032]图21表示解压词典的数据结构例。
[0033]图22表示csv形式的数据结构的例子。
[0034]图23表示压缩词典的数据结构例。
[0035]图24是解压词典的数据结构例。
【具体实施方式】
[0036]以下示出实施方式。
[0037][压缩编码的例子]
[0038]图1表示压缩词典的例子。压缩词典DO包含符号压缩词典DOl以及符号串压缩词典D02。符号压缩词典DOl示出表示字符、数字等符号的字符代码与压缩编码的对应关系。符号串压缩词典D02示有表示单词、标签等符号串的字符代码串与压缩编码的对应关系。压缩词典Dl包含符号压缩词典D11、符号串压缩词典D12以及控制符号压缩词典D13。符号压缩词典Dll不有表不字符、数字等符号的字符代码与压缩编码的对应关系。符号串压缩词典D12示有表示单词、标签等符号串以及空格符号的组合的字符代码串与压缩编码的对应关系。控制符号压缩词典D13示有表示删除之前的空格符号的意思的控制符号以及划分符号的组合的字符代码串与压缩编码的对应关系。
[0039]在图1所例示的压缩词典DO以及压缩词典Dl中以建立有对应关系的方式登录有压缩编码和与压缩编码建立有对应关系的符号或者符号串。读出与被登录到压缩词典D0、压缩词典Dl的符号或者符号串中,与从压缩对象的数据读出的符号或者符号串一致的符号或者符号串对应的压缩编码。
[0040]在本实施方式中,用O”表示压缩词典DO所包含的压缩编码。在将压缩编码表示为O”的情况下在圆括号内示有与压缩编码对应的符号或者符号串。另外,用“CO”表示压缩词典Dl所包含的压缩编码。在压缩编码CO中,在圆括号内也示出与压缩编码对应的符号或者符号串。例如,与“a”对应的压缩编码被表示为“压缩编码c (a) ”等,与“about Λ”对应的压缩编码被表示为“压缩编码c (about Λ ) ”等。空格符号是ASCII码系统中用0x20来表示的符号,在本实施方式的说明中被表示为“Λ”。
[0041]另外,详细内容后述,将删除之前解压的空格符号的意思的控制符号表示为“[-Λ]”。例如,压缩编码c([_A];)与控制符号[-Λ]以及划分符号“;”的组合对应。
[0042]压缩词典DO内的符号串压缩词典D02将压缩编码与符号串和空格符号的每一个建立对应关系,相对于此压缩词典Dl内的符号串压缩词典D12不是符号串单体,而是将一个压缩编码与符号串和空格符号的组合建立对应关系。在使用压缩词典Dl来进行压缩的情况下,通过与被登录于符号串压缩词典D12的组合对应的压缩编码对存在于压缩对象的数据内的符号串和空格符号的组合进行编码。
[0043]另一方面,符号串和空格符号以外的划分符号(逗号、冒号等)的组合未被登录到符号串压缩词典Dll内。在压缩对象的数据内,不光存在空格符号后续的符号串,也有可能存在空格符号以外的划分后续的符号串。若对于逗号、冒号等与空格符号不同的划分符号每一个符号设置符号串压缩词典D12,则压缩编码的种类增大,其结果,压缩词典的数据尺寸增大。因此,表示删除空格符号的意思的控制符号被各单词通用使用。在压缩词典Dl内的控制符号压缩词典D13中,控制符号和划分符号的组合与一个压缩编码建立对应关系。将压缩对象的数据内的符号串和空格符号以外的划分符号的组合与符号串压缩词典D12内的压缩编码、以及控制符号压缩词典D13内的压缩编码组合并进行编码。登录到控制符号压缩词典D13的压缩编码被登录到符号串压缩词典D12的各单词通用使用,与对各划分符号分别独立地设置符号串压缩词典D12相比,压缩词典的数据尺寸难以增大。
[0044]图2表示朝向压缩编码的转换例。在图2中示有英语例文El“He Λ spent AmuchAtime Δ for Λ talking Λ about Ahis Δ invent1n.”。在图 2 的例子中,是英语例文El 被储存于存储区域Al的状态。对于英语例文El中的“about Λ”以及“ invent1n.”的每一个部分,示有压缩编码的例⑴?(4)。压缩编码的例⑴以及例(3)是使用了压缩词典DO所包含的压缩编码的例子,压缩编码的例⑵以及例⑷是使用了压缩词典Dl所包含的压缩编码的例子。
[0045]图2的例(I)表示基于压缩词典DO对英语例文El中的“about Λ”的部分进行了压缩的情况的例子。分别与“about Δ”所包含的单词“about”以及符号“Λ”的对应的压缩编码c' (about)以及压缩编码y (Δ)被用于压缩数据。S卩,在例(I)中,与英语例文El中的“about Λ”的部分对应的压缩数据为(about)c' (Λ)”。
[0046]图2的例(2)表示基于压缩词典Dl对英语例文El中的“about Λ”的部分进行了压缩的情况的例子。由于在符号串压缩词典D12中登录有单词“about Λ”,所以与英语例文El中的“about Λ”的部分对应的压缩数据为“c (about Λ )”。在例(I)中“about Λ”的部分的压缩数据由两个压缩编码构成,相对于此在例⑵中构成“about Λ”的部分的压缩数据压缩编码是一个。
[0047]图2的例(3)表示基于压缩词典DO对英语例文El中的“invent1n.”的部分进行压缩的情况的例子。分别与“invent1n.”所包含的单词“
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1