压缩装置、压缩方法、词典生成装置、词典生成方法、解压装置、解压方法、解压程序以及信...的制作方法_6

文档序号:9332137阅读:来源:国知局
302的区域管理以及针对RAM302的访问,还有处理器301进行与例程的处理结果相应的例程的调出来提供。复制部143的功能通过处理器301的针对RAM302的访问处理来提供。排序部144的功能通过处理器301的针对RAM302的访问和与访问结果相应的运算处理来提供。分配部142的功能通过处理器301进行基于针对RAM302的访问的运算处理来提供。
[0190]图30表示使用了计算机I的系统构成例。图30所例示的信息处理系统包含基地台2、网络3、计算机Ia以及计算机lb。计算机Ia通过无线或者有线的至少一方,同与计算机Ib连接的网络3连接。图3所示的压缩部11、解压部12、生成部13以及生成部14也可以仅包含于计算机la,也可以包含于计算机Ia以及计算机Ib双方。也可以是计算机Ia包含压缩部11以及生成部13,计算机Ib包含解压部12以及生成部14,也可以与其相反,计算机Ib包含压缩部11以及生成部13,计算机Ia包含解压部12以及生成部14。
[0191]例如,由计算机Ia生成的压缩文件F2通过经由网络3的通信发送至计算机lb,通过计算机Ib对压缩文件F2进行解压而生成解压文件F3。压缩文件F2也可以通过无线发送至基地台2,再从基地台2发送至计算机lb。
[0192]由于根据本实施方式的压缩功能、解压功能,压缩率的增大得到抑制,所以通信的压缩数据的量减少。由此抑制针对通信处理的图30所例示的系统的硬件资源的使用。
[0193]图31表示使用了计算机I的系统构成例。图31所例示的信息处理系统包含计算机1、网络3、客户端装置6、存储区域网络(SAN) 4以及存储装置5。例如,计算机I进行与来自客户端装置6的请求相应的信息处理。信息处理对象的数据例如被压缩而存储至存储装置5。计算机I在从客户端装置6接受请求的情况下,获取被压缩而存储至存储装置5的信息处理对象的数据并对其进行解压。计算机I对解压后的数据执行从客户端装置6请求的信息处理,并且对信息处理后的数据进行压缩,并将压缩后的数据储存至存储装置5。信息处理例如是存储于存储装置5的数据的更新处理、存储于存储装置5存储的数据的分析/解析处理等。
[0194]在图31所例示的系统中,即使不是在每次进行压缩处理、解压处理时生成压缩词典、解压词典,也可以保持创建了一次的压缩词典、解压词典,并基于该压缩词典、解压词典执行压缩处理或者解压词典。在该情况下,图4的S103的处理、图11的S503的处理也可以仅加载所保持的压缩词典、解压词典。
[0195]在图31例示的系统中,每次接受信息处理的请求时都进行数据的解压。若解压处理花费时间,则到针对这样的请求的响应为止的时间也增大。根据本实施方式的压缩功能压缩率不易降低,所以抑制从存储装置5读出压缩数据的I/O次数的增大。另外,由于压缩编码数目不会极端增大,所以抑制解压处理所涉及的存储器访问的次数。另外,还将压缩文件F2的加载所确保的存储区域抑制成较小的存储区域。
[0196][压缩编码的种类]
[0197]在英日辞典等中被分类为达到大学教育课程程度所需的单词的数量约为4000个。这4000个单词是在文档数据中使用频率相对较高的基础单词。其中,名词是2000个左右,形容词是700个左右,动词是800个左右。例如,若对形容词的活用形分别分配压缩编码,则关于形容词将分配2100种左右的压缩编码。另外,例如,若对动词的活用形分别分配压缩编码,则关于动词将分配3200?4000种左右的压缩编码(这是因为,存在过去时和过去分词是相同的书写的动词,所以对于各动词存在4?5种活用形)。
[0198]在本实施方式中也可以不使用在本实施方式中所示的压缩词典、解压词典的结构,而使用由一般的哈夫曼编码算法生成的压缩词典、解压词典。在哈夫曼编码中,解压词典通过压缩编码的分配对象的字符信息彼此的出现频率的比较来分配位。在这里,生成与对出现频率进行比较后的字符信息的组对应的节的数据。并且,在生成的节彼此中进行出现频率的比较,依次生成位。反复上述步骤形成树结构的数据(哈夫曼树)。若存在2的12次方的压缩编码的分配对象的字符信息(叶子的数据),则通过它们的比较生成2的11次方的节的数据。若通过节彼此的频率信息的比较,依次生成节的数据,则将叶子的数据和节的数据相加存在2的13次方。节的数据分别包含对上位的节的数据的指针和下位的指针(位是I的情况和位是O的情况双方)。若各个指针是2个字节,则通过指针确定3 X 2的14次方的哈夫曼树的数据结构内的位置。
[0199]然而,若对活用形分配压缩编码,则4000个基础单词成为8000个左右。于是,存在2的13次方的压缩编码的分配对象的字符信息,结果不能够通过2个字节来确定哈夫曼树的数据结构内的位置。于是,根据构架,例如,指针使用4个字节,哈夫曼树的数据大小因压缩编码的分配对象成倍而倍增,还因指针的数据大小的原因而倍增。
[0200][变形例的说明]
[0201]以下,对上述实施方式的变形例的一部分进行说明。在图7所示的转换表Tl中,也可以设定同义词、近义词。例如,字符信息“center ”、“centre”以及“middle”与通用字符信息“center”建立对应关系。并且,例如,在转换表Tl中,字符信息“center”与通用字符信息“center”以及识别符号[cl]的组合建立对应关系。另外,例如,在转换表Tl中,字符信息“centre”与通用字符信息“center”以及识别符号[c2]的组合建立对应关系。并且,例如,在转换表Tl中,字符信息“middle”与通用字符信息“center”以及识别符号[c3]的组合建立对应关系。通过将像这样设定有同义词或者近义词的转换表Tl应用于上述实施方式,能够抑制由同义词、近义词等书写差异引起的压缩率降低。
[0202]在图7所示的转换表Tl中,也可以设定首字母是大写字母的单词和首字母是小写字母的单词双方。例如,转换表Tl使字符信息“this”以及“This”分别与通用字符信息“this”建立对应关系。字符信息“this”与通用字符信息“this”以及识别符号[Cl]的组合建立对应关系。字符信息“This”与通用字符信息“this”以及识别符号[c2]的组合建立对应关系。通过将像这样设定有单词的首字母是大写字母的情况和小写字母的情况双方的转换表Tl应用于上述实施方式,能够抑制由句子的开头的单词的书写差异引起的压缩率降低。
[0203]另外,压缩处理的对象除了文件以外,也可以是从系统输出的监视消息等。例如,通过上述压缩处理对依次储存至缓冲区的监视消息进行压缩,进行作为日志文件储存等处理。另外,例如,也可以以数据库内的页为单位进行压缩,以将多个页归在一起而成的单位进行压缩。另外,压缩词典也可以对多个监视消息使用通用的压缩词典,也可以对多个页使用通用的压缩词典。
[0204]附图标记说明
[0205]I…计算机;la…计算机;lb…计算机;2…基地台;3…网络;
[0206]4…存储区域网络;5…存储装置;6…客户端装置;11...压缩部;
[0207]12…解压部;13…生成部;14…生成部;15…存储部。
【主权项】
1.一种压缩装置,其特征在于,包含: 存储部,其存储对相互不同的多个字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息; 获取部,其在获取了所述多个字符信息中的第一字符信息的情况下,从所述词典信息获取与所述第一字符信息相关联的所述第一压缩编码;以及 写入部,其将获取的所述第一压缩编码写入储存压缩数据的储存区域。2.根据权利要求1所述的压缩装置,其特征在于, 所述多个字符信息的通过所述多个字符信息的每一个表示的意思或者语法上的功能的至少一部分相互通用, 根据所述多个字符信息的出现频率的合计来生成所述第一压缩编码。3.根据权利要求1或2所述的压缩装置,其特征在于, 所述词典信息还将第一识别信息与所述第一字符信息相关联,所述第一识别信息对所述多个字符信息所包含的所述第一字符信息以外的字符信息与所述第一字符信息进行识别, 所述获取部获取所述第一压缩编码,并且获取所述第一识别信息, 所述写入部将所述第一压缩编码以及所述第一识别信息写入所述储存区域。4.根据权利要求3所述的压缩装置,其特征在于, 所述第一识别信息是根据所述第一字符信息的出现频率生成的压缩编码, 将所述第一压缩编码接在所述第一识别信息后写入所述储存区域。5.根据权利要求3所述的压缩装置,其特征在于, 所述第一识别信息是固定长度的压缩编码,将所述第一识别信息接在所述第一压缩编码后写入所述储存区域。6.一种压缩方法,其特征在于, 使计算机执行: 在获取了多个字符信息中的第一字符信息的情况下,参照对相互不同的所述多个字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息,通过所述词典信息获取与所述第一字符信息相关联的所述第一压缩编码, 将获取的所述第一压缩编码写入储存压缩数据的储存区域。7.—种压缩程序,其特征在于, 使计算机执行如下处理: 在获取了多个字符信息中的第一字符信息的情况下,参照对相互不同的所述多个字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息,根据所述词典信息获取与所述第一字符信息相关联的所述第一压缩编码, 将获取的所述第一压缩编码写入储存压缩数据的储存区域。8.一种解压装置,其特征在于,包含: 存储部,其存储对相互不同的多个字符信息通用地分配的第一压缩编码和与所述多个字符信息对应的第一字符信息相关联的词典信息; 获取部,其在从压缩数据获取了所述第一压缩编码的情况下,从所述词典信息中获取在所述词典信息中与所述第一压缩编码相关联的所述第一字符信息;以及 写入部,其将获取的所述第一字符信息写入储存所述压缩数据的解压结果的储存区域。9.根据权利要求8所述的解压装置,其特征在于, 所述词典信息通过将储存目的地信息与所述第一压缩编码相关联,来将所述第一压缩编码和所述第一字符信息相关联,所述储存目的地信息表示所述第一字符信息与识别信息的组合的储存目的地,所述识别信息对所述多个字符信息所包含的第二字符信息与所述多个字符信息所包含的所述第二字符信息以外的字符信息进行识别。10.根据权利要求9所述的解压装置,其特征在于, 根据所述多个字符信息的出现频率的合计生成所述第一压缩编码, 所述词典信息还将表示基于所述多个字符信息的出现频率的合计生成所述第一压缩编码的意思的标志信息与所述第一压缩编码建立对应关系, 在所述词典信息中所述标志信息与所述第一压缩编码建立有对应关系的情况下,所述获取部通过基于所述储存目的地信息的向所述储存目的地的访问来获取所述第一字符信息。11.一种解压方法,其特征在于, 使计算机执行: 生成使对相互不同的多个字符信息通用地分配的第一压缩编码和与所述多个字符信息对应的第一字符信息相关联的词典信息; 在从压缩数据中获取了所述第一压缩编码的情况下,从所述词典信息中获取在所述词典信息中与所述第一压缩编码相关联的所述第一字符信息; 将获取的所述第一字符信息写入储存所述压缩数据的解压结果的储存区域。12.—种解压程序,其特征在于, 使计算机执行如下处理: 生成使对多个字符信息通用地分配的第一压缩编码和与所述多个字符信息对应的第一字符信息相关联的词典信息, 在从压缩数据中获取了所述第一压缩编码的情况下,从所述词典信息中获取在所述词典信息中与所述第一压缩编码相关联的所述第一字符信息, 将获取的所述第一字符信息写入储存所述压缩数据的解压结果的储存区域。13.一种信息处理系统,其特征在于, 其包含: 存储装置,其存储有压缩数据;以及 处理装置,其执行与针对所述压缩数据的处理请求相应的处理, 所述处理装置包含: 存储部,其存储使对相互不同的多个字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息; 读出部,其根据所述处理请求,从所述存储装置读出所述压缩数据; 第一获取部,其在从所述压缩数据获取了所述第一压缩编码的情况下,从所述词典信息获取在所述词典信息中与所述第一压缩编码相关联的第一字符信息; 第一写入部,其将获取的所述第一字符信息写入储存所述压缩数据的解压结果的第一储存区域; 处理部,其对所述第一储存区域所储存的解压结果执行与所述处理请求相应的处理;第二获取部,其在从进行了与所述处理请求相应的处理的数据中获取了所述第一字符信息的情况下,根据所述词典信息获取与所述第一字符信息相关联的所述第一压缩编码;第二写入部,其将获取的所述第一压缩编码写入第二储存区域;以及储存部,其将被写入所述第二区域的数据储存至所述存储装置。14.一种词典生成装置,其特征在于,包含: 分配部,其对与相互不同的多个字符信息对应的I种通用字符信息进行压缩编码的分配处理;以及 生成部,其生成使对所述通用字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息。15.根据权利要求14所述的词典生成装置,其特征在于, 所述多个字符信息的通过所述多个字符信息的每一个表示的意思或者语法上的功能的至少一部分相互通用, 根据所述多个字符信息的出现频率的合计生成所述压缩编码。16.根据权利要求14或者15所述的词典生成装置,其特征在于, 所述词典信息还将第一识别信息与所述多个字符信息中的第一字符信息相关联,所述第一识别信息对所述多个字符信息所包含的所述第一字符信息以外的字符信息和所述第一字符信息进行识别。17.—种词典生成方法, 使计算机执行: 对与相互不同的多个字符信息对应的I种通用字符信息进行压缩编码的分配处理;生成将对所述通用字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息。18.一种词典生成程序,其特征在于, 使计算机执行如下处理: 对与相互不同的多个字符信息对应的I种通用字符信息进行压缩编码的分配处理;生成将对所述通用字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息。19.一种词典生成装置,其特征在于,包含: 生成部,其生成将对相互不同的多个字符信息通用地分配的第一压缩编码和与所述多个字符信息对应的第一字符信息相关联的词典信息。20.一种词典生成方法,其特征在于, 使计算机执行: 生成将对相互不同的多个字符信息通用地分配的第一压缩编码和与所述多个字符信息对应的第一字符信息相关联的词典信息。21.一种词典生成程序,其特征在于, 使计算机执行如下处理: 生成将对相互不同的多个字符信息通用地分配的第一压缩编码和与所述多个字符信息对应的第一字符信息相关联的词典信息。
【专利摘要】根据一个侧面,目的在于抑制由书写差异的存在引起的压缩率的降低。根据一个实施方式,压缩装置包含:存储部,其存储对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;获取部,其在获取了上述多个字符信息中的第一字符信息的情况下,从上述词典信息中获取与上述第一字符信息相关联的上述第一压缩编码;以及写入部,其将获取的上述第一压缩编码写入储存压缩数据的储存区域。
【IPC分类】H03M7/40
【公开号】CN105052041
【申请号】CN201380074814
【发明人】村松千织, 西泽信一郎, 片冈正弘, 出内将夫
【申请人】富士通株式会社
【公开日】2015年11月11日
【申请日】2013年3月22日
【公告号】WO2014147672A1
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1