数据存储方法及设备的制作方法

文档序号:6583396阅读:177来源:国知局
专利名称:数据存储方法及设备的制作方法
技术领域
本发明涉及数据存储领域,特别涉及数据存储方法及设备。
背景技术
在如今的数据存储领域中,数据量的增长导致了包括硬件成本、维护成本和人力 成本在内的存储系统整体拥有成本(Total Cost of Ownership,TCO)的增长。减少数据传 输、数据存储和数据管理过程中的数据量就成为大规模分布式存储系统中的一个需求,而 重复数据删除技术是一种在文件内部层次通过无损的数据压縮方法来消除重复数据的技 术,在诸如数据归档等应用类型的存储系统中具有很好的应用价值。 现有的重复数据删除技术主要是基于比特级,将文件分割成互不交叠的数据块, 然后对内容相同的块在存储系统中只保存一份,一个被保存的数据块可能属于同一个文件 的不同部分,也可能属于多个文件的不同部分。 在对上述现有技术进行实践和研究的过程中,本发明的发明人发现 按照现有的数据存储方法进行文件的储存后,在查找文件时,系统需要先对有关
的非重复大块进行检索,这些大块随机分布在存储设备中,要逐个地对文件进行重构,然后
检查文件内容是否与要求的查询相匹配,这样会降低文件搜索效率;除此而外,由于现有技
术是基于比特级对文件进行分割,因此在数据存储的过程中可能把差别很小的两个文件划
分为几乎完全不同的数据块,不能很好的删除重复数据。

发明内容
本发明实施例提供数据存储方法及设备,提高了数据管理和数据检索的效率。
为实现上述目的,本发明实施例提供了如下方案
—种数据存储方法,包括 解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示 所述待储存文件的属性信息; 按照所述语义信息,将所述待储存文件分解为至少两个语义数据块; 获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容
信息; 存储待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于 标识所述语义数据块的位置; 储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映 射关系。 —种数据储存设备,包括 解析模块,用于解析待储存文件,得到所述待储存文件包括的语义信息,所述语义 信息用于指示待储存文件的属性信息; 语义分解模块,用于按照语义信息将待储存文件分解为至少两个语义数据块;
标识获取模块,用于获取所述语义分解模块分解的语义数据块的内容标识,所述 内容标识用于指示所述语义数据块的内容信息; 第一映射关系存储模块,用于存储待储存文件信息与所述标识获取模块获取的所
述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置; 数据储存模块,用于储存所述语义分解模块分解的语义数据块; 第二映射关系储存模块,用于储存所述标识获取模块获取的内容标识与所述语义
数据块的存储位置的第二映射关系。 可见,本发明实施例的数据存储方法,通过解析待储存文件,得到所述待储存文件 包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息,按照所述语义信息, 将所述待储存文件分解为至少两个语义数据块,获取所述语义数据块的内容标识,所述内 容标识用于指示所述语义数据块的内容信息,存储待储存文件信息与所述内容标识的第一 映射关系,所述待储存文件信息用于标识所述语义数据块,储存所述语义数据块以及所述 内容标识与所述语义数据块的存储位置的第二映射关系。这样由于数据是以语义数据块为 单位进行储存的,则在查看文件时,可以查看文件中一部分语义数据块的数据。采用本发明 实施例提供的技术方案,提高了数据管理和数据检索的效率。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
图1是本发明方法实施例提供的数据存储方法的流程图; 图2是本发明方法实施例中将语义数据块包装到固定长度的第一对象中的结构 示意图; 图3是本发明实施例中提供的电子邮件系统中对数据存储的方法流程图; 图4是本发明实施例中提供的MP3文件的结构示意图; 图5是本发明设备实施例一提供的数据存储设备的结构示意图; 图6是本发明设备实施例二提供的数据存储设备的结构示意图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
为便于说明,下面介绍本发明的一个具体实施例,如下一种数据存储方法,本方 法实施例的方法是适用于数据存储系统中,如邮件系统等,流程图如图1所示,包括
步骤100、解析待储存文件,得到待储存文件包括的语义信息; 可以理解,语义信息是用于指示待储存文件的属性信息,可以包括以下任意两种 以上信息应用元数据如文件类型,文件格式,应用软件等,应用提示即应用标记符,文件系统元数据等,其中文件系统元数据包括目录条目、文件的索引(inode)信息等。 例如,通常情况, 一个电子邮件文件中包括6个语义信息即发件地址(FROM)、收
件地址(TO)、标题(SUBJECT)、文本(TEXT)、附件名称(ATTACHMENT FILE NAME)和附件内容信息。 步骤101、按照语义信息将待储存文件分解为至少两个语义数据块(Semantic Chunk, SC) 5 步骤102、获取所述语义数据块的内容标识; 可以理解,内容标识用于指示所述语义数据块的内容信息。在获取语义数据块的
内容标识时,系统可以通过加密哈希(Hash)算法得到,能全局唯一标识语义数据块的数据
内容,其中hash算法包括信息-摘要算法5(MD5)或安全哈希算法(SHA1)等。 步骤103、存储待储存文件信息与所述内容标识的第一映射关系; 其中,待储存文件信息用于标识所述语义数据块的位置,待储存文件信息可以包
括待储存文件的属性、名称等信息,例如从0到100字节的文件1标识一个语义数据块,从
100到1000字节的文件1标识另一个语义数据块。 可以理解,在储存待储存文件信息与内容标识的第一映射关系时,可以将待储存 文件信息和内容标识进行对应储存,例如从0到100字节的文件1对应内容标识l,从100 到1000字节的文件1对应内容标识2等。
步骤104、储存所述至少两个语义数据块; 上述步骤103和104并没有顺序关系,也没有互为条件的关系。 步骤105、储存所述内容标识与相应语义数据块的存储位置的第二映射关系; 具体地,在储存内容标识与相应语义数据块的存储位置的第二映射关系时,可以
将内容标识和语义数据块的存储位置如存储地址等信息对应的储存,例如内容标识1对
应身份标识号码(Identification Identity, ID) 1,内容标识2对应ID2等。 其中,语义数据块的存储位置是在步骤104进行储存时获得的。 可见,本发明实施例的数据存储方法包括将待储存文件按照语义信息分解成至
少两个语义数据块,储存该语义数据块,并获取所述语义数据块的内容标识,将获取的语义
数据块、和内容标识与相应语义数据块的存储位置进行对应地储存成第一映射关系和第二
映射关系。这样使得数据存储系统中,数据是以语义数据块为单位进行储存的,则在查看文
件时,可以查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据
并重构后,才能查看文件相比,本发明实施例的方法能提高文件搜索效率,方便对数据管理
和检索。 在一个具体的实施例中,执行上述步骤101时,可以基于语义信息对应的文件切 分方法,将待储存文件切分成至少两个语义数据块。 其中,文件切分方法是预置在数据存储系统中的算法,在数据存储系统中包括多 个对应不同应用的数据切分库函数,每个数据切分库函数对文件中相应语义信息对应的 数据进行切分。如果系统中没有预置步骤100中解析出的语义信息对应的数据切分函 数,则系统会按照默认的数据切分函数如Rabin指纹方法(Rabin' s Fingerprinting Algorithm)对文件进行切分。 在另一个具体的实施例中,在执行上述步骤104时可以包括
6
将获取的语义数据块的内容标识,和当前存储的内容标识进行匹配;若确定所述 当前存储的内容标识中不包括获取的所述语义数据块的内容标识,则储存该语义数据块; 当然,若确定当前存储的内容标识中包括获取的所述语义数据块的内容标识,则说明系统 中已经储存了该内容标识对应的数据,为了避免重复储存数据,则不执行储存该语义数据 块。 将获取的语义数据块的内容标识,和当前存储的内容标识匹配,只有在当前存储 的内容标识中不包括该获取的内容标识时,才储存该语义数据块,这样减少文件中重复数 据的储存,有效删除了文件中的重复数据。 在其它的具体实施例中,在执行步骤104时,可以将分解的至少两个语义数据块 包装到固定长度的第一对象中,并进行储存。 可以理解,对象是存储设备的存储单位,一个固定长度的第一对象可能包括一个 或几个逻辑语义数据块,也可能包括一个语义数据块的一部分。具体地,在进行包装成第一 对象时,可以如图2所示, 将至少两个语义数据块封装成所述第一对象;或者,
将一个语义数据块分解为至少两个的第一对象;或者,
将语义数据块直接转化为所述第一对象。 例如语义数据块1、语义数据块2、语义数据块3、语义数据块4和语义数据块5需 要存储时,由于语义数据块1的长度大于第一对象的长度时,则将语义数据块1分解成第一 对象1和第一对象2 ;由于语义数据块2、语义数据块3和语义数据块4的总长度不大于第 一对象的长度时,将语义数据块2、语义数据块3和语义数据块4封装成第一对象3 ;由于语 义数据块5的长度与第一对象的长度大致相同时,将语义数据块5直接转化为第一对象5 ;
其中,由于第一对象的大小与语义数据块的大小不可能很好对应,允许包装成的 第一对象中存在多个没有数据的字节,例如当语义数据块2、语义数据块3和语义数据块4 的总长度为100字节,而第一对象3的长度为103字节,这时,将语义数据块2、语义数据块 3和语义数据块4封装成第一对象3,剩下3个字节没有数据。 其中,语义数据块的存储位置可以包括第一对象的对象标识和位置偏移量,其 中,第一对象的对象标识用于标识第一对象,位置偏移量用于指示语义数据块在第一对 象中的存储位置,例如对象标识可以采用UUID(通用唯一识别码,Universally Unique Identifier)标识第一对象,位置偏移量可以采用语义数据块位于第一对象的第几字节与 第几字节之间来指示语义数据块在第一对象中的存储位置。 将待储存文件分解为多个语义数据块后,由于每个语义数据块是变长的,自识别
的和自描述的逻辑单位,为了使得对这些数据的管理更方便和容易,将至少两个语义数据
块包装到固定长度的第一对象中,避免了对存储设备上的小碎片进行操作的代价。 以下以数据存储系统为电子邮件归档系统、网络(Web)文件归档系统及动态影像
专家压縮标准音频层面3 (MP3)文件归档系统为例说明本发明实施例的方法 1、电子邮件归档 当邮件系统接收到由Alice发来的邮件时,对邮件的存储的具体步骤参考图3所 示,包括 步骤A1、接收来自Alice的邮件;
步骤Bl、加载邮件并开始扫描; 步骤Cl、判断当前的扫描位置是否是邮件的结束,如果是,执行步骤Dl,如果不是,则返回步骤B1进行扫描; 步骤D1、通过邮件系统中语义数据压縮(SDD)库提供的应用接口标记检索(tagRetrieval),解析到邮件包括如下的语义信息"FR0M地址"、"T0地址""SUBJECT",TEXT"、附件文件名和附件内容; 步骤E1、通过SDD库提供的应用接口文件切分(File Divider),将邮件分解为6个语义数据块,并分别计算6个语义数据块的Hash值即内容标识,在储存语义数据块后,将计算得到的6个语义数据块的Hash值与6个语义数据块相应的存储位置进行对应地储存。
2、Web文件归档 大多数web文件为超文本标记语言(Hyper Text Mark-up Language,HTML)文件,用来描述在互联网上的可读浏览器的超文本页,对HTML文件进行的储存时通过如下步骤来实现 (1) Web文件储存系统在进行解析待储存的HTML文件得到语义信息时 —个HTML文件由若干元素组成,每个元素通常有通常用一个开始标记(tag)和一
个结束标记表示,如以〈元素名称(element-name) >开始。元素的属性包含在开始标记和
结束标记中,因此在解析语义信息时,可以解析每个开始标记,得到的元素即为语义信息。 (2)在划分语义数据块时 在划分语义数据块时,是将每个标记的开始或结束作为语义分块的切入点。但是,在一般情况下,HTML文件格式包含非常多的标记,它们用以划定该文件元素的范围,这样潜在地导致了实际上不同大小元素的存在。 因此在划分语义数据块时,可以将一个标记的开始和结束作为候选切分点(candidate dividing point) P,先于P的m字节开始,在P之后的m字节结束,将一个指针的标识符(identifier)作为语法(Shingle)的指纹,即identifier(P)=fingerprint (shingle [P_m, P+m]),其中Shingle的大小是2m字节,其中m可以依据不同的工作量予以配置。如果候选切分点P的Rabin指纹与一个预先标记的值匹配,那么就将该点P作为切分语义数据块的一个划分点。
(3)进一步的对系统中的Web文件进行去重 由于web文件在每个站点总是成批归档,而在同一站点内通常会有相同或近似的风格及格式的Web页,则可以将系统中储存的Web文件进行对比得到该站点的模板(template)。如在同一站点内的两个web页有着同样的抬头(header)片段及底部(bottom)片段(对应于开始元素、标题元素以及风格元素等等),相似的工具条片段以及甚至相似的内容片段。利用上述得到的模板,可以进一步对web文件进行划分并去重相同的片段。
由于待储存或搜索的web区域可以使用〈protocolname>://〈machinename>/〈file name>这样的统 一 资源定位符(Uniform ResourceLocator, URL)结构来指定,其中〈protocol name〉是指浏览器与服务器通信使用的协议(如HTTP、文件传输协议等等),〈腿chine n謙〉是指服务器的名字(web地址),〈filename〉是指在服务器存储文档的目录路径。 因此,具有相同服务器名字的URL限制储存在特定的服务器页中,同时拥有相同文件夹前缀的URL仅限制储存在其子文件夹的页中。
3、MP3文件归档 MP3是一种数字音频编码格式,使用有损数据压縮技术,即减低声音一些部分的精 确性,被认为是在大多数人们的听力解析能力之外。使用MP3格式的音频数据的归档对相 关的应用是很重要的。 如图4所示,MP3文件有一个标准格式,包含三个部分标记V2 (TAG_V2即ID3V2) 元数据(metadata),帧(Frames),分别对应的标记VI (TAG_V1即ID3V1)元数据,其中,帧包 含MP3抬头(header)和MP3数据(data) 。 MP3抬头含有一个同步的字,用于识别一个合法 帧的开始,随后的一位显示这是MPEG标准,两位显示层3被使用。 —般情况下,MP3文件含有ID3元数据,先于或在MP3帧之后,ID3V2部分是一个可 变长度的tag表,用以描述音频。在压縮音频文件中一个标记是指包含诸如标题,艺术家, 专辑,音轨号或其他与该文件内容相关信息的元数据的域。另外,可以扩展ID3V1信息,它 是一个拥有128字节的tag结构,如下表1所示
表1
Type def struct taglD3Vl {
char Header[3];/*Should be "TAG", otherwise recognized as
without ID3 VI*/ charTitle[30];
char Artist[30]; char Album [30];
char Year[4]; /* issue time of the audio */
char Comment[28];
char reserve; char track;;
char Genre; /* type of the audio */
}ID3Vl,*pID3Vl; 由于许多不同的MP3文件有着相同的音频内容和不同的标记描述信息,即相同的 歌曲由同一个歌手演唱,但发布在不同的专辑中,或者相同的歌曲由不同的工作室编码,这 样就有了不同的评论tag,或者甚至有些tag被人使用一些音频编辑工具修改或评论。因 此,在切分时,将把每个MP3文件切分成如图3所示的三个部分,其中ID3V2和ID3V1标记 被解析和存储在MDS的File_Attibutes_Table中,音频帧作为一个逻辑的语义数据块进行 存储,以便进一步被打包成物理对象而实际存储到磁盘设备中。 可见,本发明实施例的数据存储方法是将待储存文件按照语义信息分解成至少 两个语义数据块,储存该语义数据块,并获取所述语义数据块的内容标识,将待储存文件信 息、和内容标识与语义数据块的存储位置对应地储存成第一映射关系和第二映射关系。这样使得数据存储系统中,数据是以语义数据块为单位进行储存的,则在查看文件时,可以查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据并重构后,才能查看文件相比,本发明实施例的方法能提高文件搜索效率,方便对数据管理和检索;
另外,本发明实施例中,将获取的语义数据块的内容标识,和当前存储的内容标识匹配,只有在当前存储的内容标识中不包括该获取的内容标识时,才储存该语义数据块,这样减少文件中重复数据的储存。 本发明实施例还提供了一种数据存储设备,如图5所示,包括 解析模块00,用于解析待储存文件,得到所述待储存文件包括的语义信息,所述语
义信息用于指示待储存文件的属性信息,可以包括以下任意两种以上信息文件类型,文件
格式,应用提示,文件系统元数据; 语义分解模块IO,用于按照所述解析模块00解析得到的语义信息将待储存文件分解为至少两个语义数据块; 标识获取模块ll,用于获取所述语义分解模块10分解的语义数据块的内容标识;
可以理解,内容标识用于指示所述语义数据块的内容信息,标识获取模块11在获取语义数据块的内容标识时,可以通过加密哈希(hash)算法得到,能全局唯一标识语义数据块的数据内容,其中hash算法包括MD5或SHAl等。 第一映射关系存储模块12,用于存储待储存文件信息与所述标识获取模块获取的
所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置; 数据储存模块13,用于储存所述语义分解模块10分解的语义数据块; 第二映射关系储存模块14,用于储存所述标识获取模块11获取的内容标识与所
述语义数据块的存储位置的第二映射关系。 可见,本发明实施例的数据存储设备中解析模块00解析待储存文件得到语义信息,语义分解模块10将待储存文件按照语义信息分解成至少两个语义数据块,标识获取模块11获取所述语义数据块的内容标识,第一映射关系存储模块12将待储存文件信息与所述标识获取模块获取的所述内容标识的第一映射关系进行存储,数据储存模块13储存该语义数据块,第二映射关系储存模块14将所述标识获取模块获取的内容标识与所述语义数据块的存储位置的第二映射关系进行存储。这样使得数据存储设备在查看文件时,可以查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据并重构后,才能查看文件相比,本发明实施例的设备能提高文件搜索效率,方便对数据管理和检索。
本发明实施例还提供了另一种数据存储设备,如图6所示,本实施例的设备相对于上一个设备实施例,细化了数据储存模块13,结构示意图如图6所示,其中
语义分解模块10具体用于基于所述解析模块00解析得到的语义信息对应的文件切分方法,将所述待储存文件切分成至少两个语义数据块。 文件切分方法是预置在数据存储设备中的算法,在数据存储设备中包括多个不同的应用相关的数据切分库函数,每个数据切分库函数对文件中相应语义信息对应数据进行切分。如果设备中没有预置解析单元OO中解析出的语义信息对应的数据切分函数,则语义分解模块10会按照默认的数据切分函数如Rabin指纹方法对文件进行切分。
数据储存模块13具体包括 匹配单元130,用于将所述标识获取模块11获取的语义数据块的内容标识,和当
10前存储的内容标识进行匹配; 存储单元131,用于若所述匹配单元130确定所述当前存储内容标识中不包括所 述标识获取模块11获取的所述语义数据块的内容标识,则储存所述语义分解模块分解的 所述语义数据块。 当然,若确定当前存储的内容标识中包括获取的所述获取的语义数据块的内容标 识,则说明系统中已经储存了该语义数据块,不再存储该语义数据块。 在其他的实施例中,数据储存模块13还可以包括定长包装单元132,用于将所述 语义分解模块10切分得到的至少两个语义数据块包装到固定长度的第一对象中。
本发明实施例的设备中,匹配单元130将获取的语义数据块的内容标识,和当前 存储的内容标识进行匹配,只有在当前存储的内容标识中不包括该获取的内容标识时,存 储单元131才储存该语义数据块,这样减少文件中重复数据的储存; 且通过定长包装单元132将语义数据块包装到固定长度的第一对象中,这样方便 了数据存储设备对数据的管理。 具体地,定长包装单元132在进行包装成第一对象时,可以将至少两个语义数据 块封装成所述第一对象;或者,将一个语义数据块分解为至少两个的第一对象;或者,将语 义数据块直接转化为所述第一对象。这时,语义数据块的存储位置可以包括第一对象的对 象标识和位置偏移量,其中,第一对象的对象标识用于标识第一对象,位置偏移量用于指示 语义数据块在第一对象中的存储位置。 可见,本发明实施例的数据存储方法包括将待储存文件按照语义信息分解成至 少两个语义数据块,储存该语义数据块,并获取所述语义数据块的内容标识,将待储存文件 信息、和内容标识与语义数据块的存储位置对应地储存成第一映射关系和第二映射关系。 这样使得数据存储系统中,数据是以语义数据块为单位进行储存的,则在查看文件时,可以 查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据并重构后, 才能查看文件相比,本发明实施例的方法能提高文件搜索效率,方便对数据管理和检索;
另外,本发明实施例中,将获取的语义数据块的内容标识,和当前存储的内容标识 匹配,只有在当前存储的内容标识中不包括该获取的内容标识时,才储存该语义数据块,这 样减少文件中重复数据的储存。 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可
以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储
介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。 以上对本发明实施例所提供的数据存储方法及设备,进行了详细介绍,本文中应
用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理
解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在
具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发
明的限制。
权利要求
一种数据存储方法,其特征在于,包括解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息;按照所述语义信息,将所述待储存文件分解为至少两个语义数据块;获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息;存储待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系。
2. 根据权利要求1所述的方法,其特征在于,所述按照语义信息,将所述待储存文件分 解为至少两个语义数据块,包括基于所述语义信息对应的文件切分方法,将所述待储存文件切分成至少两个语义数据块。
3. 根据权利要求2所述的方法,其特征在于,所述储存所述语义数据块包括 将获取的所述内容标识,和当前存储的内容标识进行匹配;若确定所述当前存储的内容标识中不包括获取的所述内容标识,则储存所述语义数据块。
4. 根据权利要求1至3任一项所述的方法,其特征在于,所述储存所述语义数据块,还 包括将所述至少两个所述语义数据块包装到固定长度的第一对象中;所述语义数据块的存储位置包括所述第一对象的对象标识和位置偏移量,其中,所述 第一对象的对象标识用于标识所述第一对象,所述位置偏移量用于指示所述语义数据块在 所述第一对象中的存储位置。
5. 根据权利要求l所述的方法,其特征在于,所述语义信息包括以下至少两种信息文 件类型,文件格式,应用提示,文件系统元数据。
6. —种数据储存设备,其特征在于,包括解析模块,用于解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息 用于指示待储存文件的属性信息;语义分解模块,用于按照语义信息将待储存文件分解为至少两个语义数据块;标识获取模块,用于获取所述语义分解模块分解的语义数据块的内容标识,所述内容 标识用于指示所述语义数据块的内容信息;第一映射关系存储模块,用于存储待储存文件信息与所述标识获取模块获取的所述内 容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;数据储存模块,用于储存所述语义分解模块分解的语义数据块;第二映射关系储存模块,用于储存所述标识获取模块获取的内容标识与所述语义数据 块的存储位置的第二映射关系。
7. 根据权利要求6所述的设备,其特征在于,所述语义分解模块具体用于基于所述解 析单元解析得到的语义信息对应的文件切分方法,将所述待储存文件切分成至少两个语义数据块。
8. 根据权利要求6所述的设备,其特征在于,所述数据储存模块包括 匹配单元,用于将所述标识获取模块获取的语义数据块的内容标识,和当前存储的内容标识进行匹配;存储单元,用于若所述匹配单元确定所述当前存储内容标识中不包括所述标识获取模 块获取的所述语义数据块的内容标识,则储存所述语义分解模块分解的所述语义数据块。
9. 根据权利要求6至8中任意一项所述的设备,其特征在于,所述数据储存模块还包括定长包装单元,用于将所述语义分解模块分解的至少两个语义数据块包装到固定长度 的第一对象中;所述第二映射关系储存模块储存的所述语义数据块的存储位置包括所述第一对象的 对象标识和位置偏移量,其中,第一对象的对象标识用于标识所述第一对象,位置偏移量用 于指示语义数据块在所述第一对象中的存储位置。
全文摘要
本发明实施例公开了数据存储方法及设备,应用于数据存储技术领域。本发明实施例的数据存储方法,通过解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息;按照所述语义信息,将所述待储存文件分解为至少两个语义数据块,获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息,储存至少两个语义数据块,和待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置,储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系,提高了文件搜索效率,方便对数据管理和检索。
文档编号G06F17/30GK101777056SQ20091021692
公开日2010年7月14日 申请日期2009年12月31日 优先权日2009年12月31日
发明者刘川意, 吕先红, 张巍, 曹振奇, 汪东升, 王奇, 鞠大鹏 申请人:成都市华为赛门铁克科技有限公司;清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1