压缩装置、压缩方法、词典生成装置、词典生成方法、解压装置、解压方法、解压程序以及信...的制作方法

文档序号:9332137阅读:503来源:国知局
压缩装置、压缩方法、词典生成装置、词典生成方法、解压装置、解压方法、解压程序以及信 ...的制作方法
【技术领域】
[0001]本发明涉及数据的压缩技术或者解压技术的至少一方。
【背景技术】
[0002]在使用了哈夫曼编码、算术压缩等可变长度压缩编码的压缩算法中,对压缩编码的分配对象的字符信息组,字符信息组所包含的每个字符信息分配与出现频率等统计信息相应的长度的压缩编码。在哈夫曼编码的压缩算法中,基于字符信息组所包含的字符信息间的出现频率的大小比较来进行压缩编码的生成。在算术压缩中,生成基于字符信息组整体的各字符信息的出现比例确定的编码长度的压缩编码。在这些压缩算法中,出现频率越高的字符信息越分配较短的压缩编码,从而短的压缩编码的使用频率升高,所以压缩数据整体的压缩率提高。
[0003]哈夫曼编码、算术压缩等压缩算法中的可变长度压缩编码的分配对象是字符、数字等符号。另外,存在对压缩编码的分配对象进行扩长,对作为符号的组合的单词、标签等字符串分配可变长度压缩编码的技术。在该情况下,由于对多个符号的组合分配一个压缩编码,所以压缩率提高(例如,参照专利文献I)。
[0004]现有技术文献
[0005]专利文献
[0006]专利文献1:日本特开2010-93414号公报
[0007]专利文献2:日本特开平05-241777号公报

【发明内容】

[0008]发明要解决的课题
[0009]文档数据由作为字符、数字等符号的组合的单词、标签等字符串构成。文档数据内的各字符串分别与特定的含义、语法上的功能等概念对应,但即使是与通用的概念对应的字符串,彼此也存在符号的组合(书写)不同,所谓的书写差异。作为书写差异的例子,可举出动词、形容词等活用词的活用、同义词、近义词等。
[0010]在对单词、标签等字符串的可变长度压缩编码的分配中,越是出现频率较高的字符信息越分配较短的压缩编码。若产生书写相互不同的多个字符串(多个种类的字符串)与一个概念对应的书写差异,则与I种字符串与一个概念对应的没有书写差异的情况下的字符串的出现频率相比,多个种类的字符串的每一种的出现频率降低。因此,对多个种类的字符串的每一种分配的压缩编码变长,而成为压缩率降低的重要因素。
[0011]根据本发明的一个侧面,目的在于抑制由书写差异的存在引起的压缩率的降低。
[0012]用于解决课题的手段
[0013]根据一个实施方式,压缩装置包含:存储部,其存储对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;获取部,其在获取了上述多个字符信息中的第一字符信息的情况下,从上述词典信息中获取与上述第一字符信息相关联的上述第一压缩编码;以及写入部,其将获取的上述第一压缩编码写入储存压缩数据的储存区域。
[0014]根据一个实施方式,解压装置包含:存储部,其存储使对相互不同的多个字符信息通用地分配的第一压缩编码和与上述多个字符信息对应的第一字符信息相关联的词典信息;获取部,其在从压缩数据中获取了上述第一压缩编码的情况下,从上述词典信息中获取在上述词典信息中与上述第一压缩编码相关联的上述第一字符信息;以及写入部,其将获取的上述第一字符信息写入储存上述压缩数据的解压结果的储存区域。
[0015]根据一个实施方式,信息处理系统是包含存储有压缩数据的存储装置、和执行与针对上述压缩数据的处理请求相应的处理的处理装置的信息处理系统,上述处理装置包含:存储部,其存储使对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;读出部,其根据上述处理请求,从上述存储装置中读出上述压缩数据;第一获取部,其在从上述压缩数据中获取了上述第一压缩编码的情况下,从上述词典信息中获取在上述词典信息中与上述第一压缩编码相关联的第一字符信息;第一写入部,其将获取的上述第一字符信息写入储存上述压缩数据的解压结果的第一储存区域;处理部,其对被储存至上述第一储存区域的解压结果执行与上述处理请求相应的处理;第二获取部,其在从进行了与上述处理请求相应的处理的数据中获取了上述第一字符信息的情况下,根据上述词典信息获取与上述第一字符信息相关联的上述第一压缩编码;第二写入部,其将获取的上述第一压缩编码写入第二储存区域;以及储存部,其将被写入上述第二区域的数据储存至上述存储装置。
[0016]根据一个实施方式,词典生成装置包含:分配部,其对与相互不同的多个字符信息对应的I种通用字符信息进行压缩编码的分配处理;以及生成部,其生成使对上述通用字符信息分配的第一压缩编码与上述相互不同的多个字符信息的每一个相关联的词典信息。
[0017]根据一个实施方式,词典生成装置包含生成部,该生成部生成使对相互不同的多个字符信息通用地分配的第一压缩编码和与上述多个种类的字符信息对应的第一字符信息相关联的词典信息。
[0018]发明效果
[0019]根据一个侧面,能够抑制由书写差异的存在引起的压缩率的降低。
【附图说明】
[0020]图1表示压缩处理以及解压处理的概要。
[0021]图2表示朝向压缩编码的转换例。
[0022]图3表示功能模块的结构例。
[0023]图4表示压缩功能的处理步骤例。
[0024]图5表示压缩词典生成的处理步骤例。
[0025]图6表示频率汇总处理的处理步骤例。
[0026]图7表不转换表Tl的例子。
[0027]图8表示统计表T2的例子。
[0028]图9表示压缩词典Dl的数据结构例。
[0029]图10表示压缩数据生成处理的处理步骤例。
[0030]图11表示解压功能的处理步骤例。
[0031]图12表示解压词典生成的处理步骤例。
[0032]图13表示解压词典D2的数据结构例。
[0033]图14表示解压数据生成处理的处理步骤例。
[0034]图15表示朝向压缩编码的转换例。
[0035]图16表示压缩词典的数据结构例。
[0036]图17表不解压词典的数据结构例。
[0037]图18表示解压数据生成处理的处理步骤例。
[0038]图19表示压缩编码的分配例。
[0039]图20表示解压词典的数据结构例。
[0040]图21表示解压数据生成处理的处理步骤例。
[0041]图22表示解压数据生成处理的处理步骤例。
[0042]图23表示解压数据生成处理的处理步骤例。
[0043]图24表示解压数据生成处理的处理步骤例。
[0044]图25表示解压数据生成处理的处理步骤例。
[0045]图26表示解压数据生成处理的处理步骤例。
[0046]图27表示解压数据生成处理的处理步骤例。
[0047]图28表示计算机I的硬件构成例。
[0048]图29表示通过计算机I运作的程序构成例。
[0049]图30表示使用了计算机I的系统构成例。
[0050]图31表示使用计算机I的系统构成例。
【具体实施方式】
[0051][压缩处理以及解压处理的流程]
[0052]图1表示压缩处理以及解压处理的概要。压缩文件F2的生成基于文件Fl和转换表Tl来进行。转换表Tl对与通用的概念对应的多个种类的字符信息的每一种与表示在该多个种类的字符信息中通用的概念的通用字符信息建立对应关系。例如,转换表Tl还可以使识别多个种类的字符信息彼此的识别符号与上述多个种类的字符信息(相互不同的多个字符信息)的每一种建立对应关系。
[0053]对于各个分配压缩编码的对象的字符信息组,文件Fl中的频率汇总Hl基于转换表Tl来进行。在频率汇总Hl的处理中,将在转换表Tl中与通用字符信息建立有对应关系的字符信息作为通用字符信息来计数。另外,在频率汇总Hl的处理中,与识别符号建立有对应关系的字符信息也可以以通用字符信息以及识别符号双方来计数。频率汇总Hl的处理的汇总结果被储存至频率表T2。
[0054]另外,例如,频率汇总Hl的处理也可以代替文件F1,基于估计较多地包含与文件Fl通用的字符信息的文件(例如,版数不同的书籍等)来进行。另外,频率汇总Hl例如也可以基于包含文件Fl的多个文件(对某个文件进行分割而得到的分割文件组(包含文件Fl)等)来进行。
[0055]对被储存至频率表T2的字符信息组(包含通用字符信息、或者包含通用字符信息和识别符号双方),基于每一个的出现频率进行编码分配Η2的处理。例如,根据哈夫曼编码的算法,通过字符信息彼此的出现频率的比较来对各字符信息分配压缩编码。另外,例如,根据算术压缩,根据分配压缩编码的对象的字符信息组整体的各字符信息的出现比例来设定编码长度,将所设定的编码长度的压缩编码分配给各字符信息。压缩词典Dl中对字符信息组(包含通用字符信息、或者包含通用字符信息和识别符号双方)的每一个,示有与分配的压缩编码的对应关系。在压缩处理Η3中,从压缩词典Dl中依次获取与文件Fl所包含的字符信息对应的压缩编码。压缩文件F2包含依次获取的压缩编码的压缩编码串(压缩数据)、转换表Tl以及频率表Τ2。
[0056]在上述处理中,在频率汇总Hl的处理中,由于将与通用的概念对应的多个种类的字符信息集中成通用字符信息,所以在编码分配Η2中,分配压缩编码的对象的字符信息的种类减少。因此,抑制由书写差异引起的出现频率降低,从而将分配给字符信息的压缩编码的编码长度抑制成较短的编码长度,所以抑制以书写差异为重要因素的压缩率的降低。另夕卜,分配压缩编码的对象的字符信息的种类减少,从而编码分配Η2的处理量减少。而且,由于对多个种类的字符信息的任意一个都分配压缩编码,所以也抑制由未分配压缩编码引起的未预期的压缩率降低。
[0057]另外,频率表Τ2所储存的通用字符信息的出现频率的信息能够保持原样活用于文本挖掘。即使不对压缩数据进行解压,也能够从频率表Τ2中提取在文档数据内以哪一程度的频率示有什么样的概念等信息。
[0058]解压文件F3的生成基于压缩文件F2来进行。如上所述,压缩文件F2包含压缩数据、转换表Tl以及频率表Τ2。对被储存至从压缩文件F2取出的频率表Τ2的字符信息组(包含通用字符信息、或者包含通用字符信息和识别符号双方)的每一个,基于在频率表Τ2中建立有对应关系的出现频率,进行编码分配Η4的处理。编码分配Η4的处理基于与编码分配Η2的处理相同的算法来进行。解压词典D2示出压缩编码与被分配了压缩编码的字符信息的对应关系。在解压处理Η5中,从解压词典D2中获取与从压缩文件F2取出的压缩编码对应的字符信息。在解压处理Η5中,在从压缩文件F2得到与通用字符信息对应的压缩编码的情况下,从解压词典D2获取与压缩编码对应的通用字符信息。另外,在使用与识别符号建立有对应关系的压缩编码的情况下,解压词典D2代替通用字符信息,包含从压缩文件F2取出的转换表Tl内的通用字符信息的储存位置(偏置值)。在解压处理Η5中,在从解压词典D2中得到了偏置值的情况下,基于偏置值以及识别符号获取原先的字符信息。解压文件F3包含由通过解压处理Η5得到的字符信息构成的字符信息列。
[0059]在压缩文件F2所包含的频率表Τ2中,由于与通用的概念对应的多个种类的字符信息被集中成通用字符信息,所以在编码分配Η4中,也会将分配压缩编码的对象的字符信息的种类抑制成较少的种类。
[0060]若文件Fl和解压文件F3是同一数据,则压缩处理Η3以及解压处理Η5是可逆的压缩解压处理。若文件Fl和解压文件F3不是同一数据,则压缩处理Η3以及解压处理Η5是非可逆的压缩解压处理。即,若在转换表Tl中通过识别符号来识别与通用的概念对应的多个种类的字符信息彼此,则在解压时能够基于识别符号在转换表Tl中确定压缩前的字符信息,所以进行可逆的压缩解压处理。
[0061][书写差异和字符信息的出现频率]
[0062]作为书写差异的一个例子,在文档数据内可能存在同义词。例如,在英语中存在用英式英语和美式英语而书写不同的单词(例如“pavement”和“sidewalk”等),也存在本身具有多种书写方式的单词(例如“center”和“centre”等)。另外,例如,在日语中在将外来语置换为日语书写时,有多种书写方式是被认可的(例如V夕一 7 二一只”和y夕7 X —只”等)。并且,在各语言中,与同义词相同,可能存在近义词(例如“center”和“middle”等)。由于这些同义词、近义词概念通用,所以通过集中为通用字符信息,来抑制由书写差异引起的出现频率降低。由此,将对字符信息分配的压缩编码的编码长度抑制成较短的编码长度,所以抑制以书写差异为重要因素的压缩率的降低。另外,由于压缩编码的分配对象的字符信息被集中为通用字符信息,所以减少可变长度压缩编码分配的处理量。而且,抑制由未对字符串分配压缩编码引起的未预期的压缩率降低。
[0063]另外,在英语等语言中,句子的开头的单词的首字母用大写字母书写。若仅将首字母是小写字母书写的单词作为压缩编码的分配对象,则不会将文档数据中的句子的开头的单词置换为压缩编码,所以成为压缩率不提高的重要因素。另一方面,若对首字母是大写字母书写的单词和小写字母书写的单词双方分别独立地分配压缩编码,则分配压缩编码的对象的字符信息的种类加倍,所以压缩编码的分配处理的处理量增大。通过对该书写差异,使用与首字母是大写字母书写的单词和小写字母书写的单词双方对应的通用字符信息和表示首字母是大写字母还是小写字母的识别符号,也得到压缩率降低的抑制以及压缩编码分配的处理量抑制的效果。
[0064]另外,在特定的语言(例如,英语、德语以及日语等)中,存在活用词。所谓的活用词是根据语法上的制约词性发生变化的单词,例如在英语中是动词、形容词以及副词等。在用存在活用词的语言描述的文档数据中,存在根据与语法上的制约相应的词性变化而用不同的字符串表示的单词。例如,在英语中,对于I种动词,存在原形、第三人称单数现在时、过去时、过去分词以及现在分词这5种活用形。这些虽然与通用的概念对应但书写不同。因此,例如,通过将用活用形表述的单词集中为与活用词的概念对应的通用字符信息(例如动词的原形)并进行压缩处理,能够得到压缩率降低的抑制以及压缩编码分配的处理量抑制的效果。另外,通过同时采用表示活用形的识别符号(例如表示过去时),能够在解压时返回到原本的活用形。
[0065]字符信息的出现频率因文档数据而不同。因此,出现频率按照每个字符信息而不同。然而,与同义词、近义词、或者句子的开头的单词的首字母的书写差异不同,对于活用词而言,与通用的概念对应的多个种类的字符信息的出现频率的趋势类似。在活用词中相互不同的活用形的字符信息彼此有时在文档内被同时采用。例如,有时在包含“search datafor...”等的句子之后,接着“the searched data is…”等句子。由于在被集中为通用字符信息的字符信息彼此中出现频率的趋势类似,所以分配与字符信息其本身的出现频率不匹配的编码长度的压缩编码的情况减少。
[0066]另外,例如,关于动词存在原形和过去时的出现频率较高,而过去分词的出现频率较低等,在动词整体中通用的趋势。即使对表示活用形的识别符号也基于出现频率分配压缩编码,从而对出现频率较高的活用
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1