一种对文件内容与元数据进行组织管理的方法

文档序号:6369361阅读:128来源:国知局
专利名称:一种对文件内容与元数据进行组织管理的方法
技术领域
本发明属于计算机数据存储领域,尤其涉及一种对文件内容与元数据进行组织管理的方法。该方法将文件内容与元数据合并存储,在文件内部实现对文件内容与元数据的组织管理,使文件具有自描述性。
背景技术
随着信息技术的发展,新的数据类型不断出现,包含了丰富的元数据(metadata),元数据用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。传统文件系统技术信息自描述能力不强,没有对元数据扩展提供足够的支持,不能为操作系统提供文件语义结构的信息,导致用户无法有效组织与管理海量文件。
由于操作系统将文件视为无意义的数据流。为了支持元数据,ー种方法是在用户数据的头部存放通用的元数据信息,比如数码照片的EXIF (Exchangeable Image FileFormat)元数据头在照片拍摄时就存储在该照片数据的头部。但是目前只有图片与音频、视频等个别特殊格式的文件拥有文件的内部结构来存储相应的元数据,格式千差万別,并且难于对元数据进行统ー管理,同时也依赖应用程序对文件元数据进行提取与管理。为了充分利用文件的元数据信息,学术界提出了各种解决方案,比较有代表性的是借助数据库管理技术与语义文件系统。基于关系模型的数据库将文件与元数据之间的关联存放在表中,并通过索引技术进行快速查找,但是数据库本身过于复杂,并且不能精确将半结构化数据映射为结构化的表。语义文件系统利用元数据抽取工具获得文件的元数据,并可以记录用户的活动并对文件进行标注,将文件元数据组织为〈key,value)键值对的形式,实现统一元数据。文件的元数据信息存放在数据库文件或XML文件中。通过关系数据库等工具管理元数据,实现基于文件属性的文件系统访问。若使用XML文件存储元数据,需要时对内容进行解析,XML文件需要驻留内存,当文件元数据规模增大时开销较大。传统的文件组织方式导致文件的自描述性不强,目前这些技术将文件元数据存放在文件系统之上,或者仅限于特定格式,无法统一管理,或者在传统文件系统的基础上手动额外增加了语义结构,本身不具有自描述的结构特性并且元数据与文件内容相分离,依赖数据库等特定应用程序。

发明内容
本发明的目的在于提供一种对文件内容与元数据进行组织管理的方法,该方法不局限于特定格式的文件,在文件内部实现元数据的自组织与自我管理,增加了文件的自描述性,消除了对特定格式与数据库等的信赖。在本发明中提到的文件属性与文件元数据等价。本发明提供的一种对文件内容与元数据进行组织管理的方法,其特征在于,该方法按照下述步骤对原有文件进行组织管理,生成新格式文件
第Al步建立内容为空的新文件;第A2步将新的文件按照上述逻辑结构划分成三个区域文件结构描述块组,数据块组和属性块组;其中,文件结构描述块,包括三个部分内部描述块,属性块位图和数据块位图,内部描述块用来描述文件的内部结构、文件数据与元数据的分布信息,属性块位图与数据块位图保存属性块与数据块的位置信息以及对应的块大小信息;数据块组用于保存原文件的数据内容,通过数据块位图查找访问;属性块组用于保存原文件的属性内容,通过属性块位图查找访问;第A3步若原有文件为空文件,则跳至第A6步,否则进入第A4歩;第A4步获取原有文件的所有元数据信息,转换为属性描述信息,逐个写入属性块组,记录属性块组的信息,并更新文件结构描述块组中对应的属性块位图中的LBA地址信息;获取原有文件的文件内容,写入数据块组,记录数据块组的信息,并更新文件结构描述块组中对应的数据块位图中的LBA地址信息;
第A5步更新内部描述块中其他描述文件内部结构的信息;第A6步得到新格式文件,其中数据块组对应着原文件的文件内容,属性块组对应着原文件的元数据信息。本发明提供的按照上述方法生成的文件的访问方法,其特征在于,该方法包括下述步骤第BI步系统根据用户的访问请求的具体描述,检索文件系统中的位置文件Bitmap或FAT表;若文件存在则得到文件的LBA首地址,进入第B2步,否则,文件不存在,转入第B6步;第B2步由文件LBA首地址读取文件结构描述块;第B3步如果请求对象为文件数据,则抽取结构描述块中的对应的数据描述信息以及数据块位图的LBA地址;如果请求对象为文件属性,则抽取结构描述块中的属性描述信息以及属性块位图的LBA地址;第B4步由LBA地址读取属性块位图或数据块位图,系统根据请求,对位图索引,完成对相应块的读写访问;第B5步系统将访问结果返回给用户,转入第B7步;第B6步系统将出错信息返回给用户;第B7步访问结束。与现有技术相比,本发明具有以下技术效果( I)支持对大量元数据信息的存储,能够方便的实现对扩展属性与文件关联等特性的支持。(2)将文件与元数据合并存储,在文件内部实现对元数据的管理,使文件内部实现结构化的同时具有自我描述性。( 3)相比较现有技木,本发明可以对一般文件元数据进行统ー管理,不局限于特定格式文件,对元数据的组织不依赖数据库等技术。(4)避免了元数据的集中存放,文件之间不会相互造成影响。文件的访问流程基本与现有系统保持一致,并且对文件的读写性能几乎不产生影响。(5)本发明可以方便的支持属性扩展与语义关联,实现了元数据的统一管理,并且不依赖于数据库等应用,为信息的检索提供支持。支持语义结构,从而获得高效的文件检索。


图I为本发明提出的文件逻辑结构示意图;图2为本发明提出的文 件底层结构示意图,其中I指向文件索引节点块的指针,2指向文件数据块的指针,指向文件属性块的指针;图3为本发明方法的总体流程示意图;图4为文件数据访问流程示意图;图5为文件属性访问流程示意图;图6为文件属性的内部结构示意图。
具体实施例方式在用户的角度上来看,所关心的文件信息,一方面是文件本身的内容,一方面是文件的属性信息,而文件的属性信息,是以键值对(key-value)的形式存放,在新的文件格式下,通过文件结构描述块将二者组织起来,如图I所示,经组织后的新文件格式的逻辑结构分为三部分I)文件结构描述块,包括三个部分内部描述块,属性块位图(AttributeBitmap)和数据块位图(Data Bitmap)。内部描述块用来描述文件的内部结构、文件数据与元数据的分布等信息。属性块位图与数据块位图保存属性块与数据块的位置信息以及对应的块大小信息;2)数据块组,保存原文件的数据内容,通过数据块位图查找访问3)属性块组,保存原文件的属性内容,通过属性块位图查找访问。在文件的内部结构中,文件结构描述块存放在文件的首部。当系统访问文件时,通过提取该文件首部的逻辑块地址找到文件结构描述块组,然后通过结构描述信息访问文件的具体内容与属性。内部描述块存储了描述文件内部结构的基本数据,包括文件总长度(数据长度与属性长度之和)、属性块位图地址和数据块位图地址以及访问权限等信息。属性块位图和数据块位图记录文件中属性块与数据块的分布与使用情况。其中文件的数据与属性信息在逻辑上是顺序存放的,因此都可以根据位图顺序索引相应的数据块。基于上述思想,通过原有文件生成新格式文件的步骤如下I.建立内容为空的新文件。2.将新的文件按照上述逻辑结构划分成三个区域文件结构描述块组,数据块组,属性块组。(其中文件描述块组和属性块组,会可根据用户需要预分配一定区域来读写,比如4KB大小。文件描述块组为单个,连续区间,属性块组与数据块组在物理上可以不连续,但是逻辑上连续,逻辑连续由描述块来实现。)3.若原有文件为空文件(即不含元数据及文件内容),则跳至步骤7,否则进入步骤4.4.获取原有文件的所有元数据信息,转换为属性描述信息,逐个写入属性块组,记录属性块组的信息,并更新文件结构描述块组中对应的属性块位图中的LBA地址等信息。5.获取原有文件的文件内容,写入数据块组,记录数据块组的信息,并更新文件结构描述块组中对应的数据块位图中的LBA地址等信息。步骤4和5之间的先后顺序可以互換。6.更新内部描述块中其他描述文件内部结构的信息,如文件长度,访问权限等。7.至此,生成的新格式文件中的数据块组对应着原文件的文件内容,属性块组对应着原文件的元数据信息。图2描述了文件的底层结构。在系统中,根索引节点(Root Inode)存放有指向子索引节点的块指针。如果子索引节点类型为文件,则该索引节点有块指针指向存放文件内 容的数据块和指向存放元数据内容的元数据块。系统首先载入根索引节点,然后根据索引节点树找到待访问文件的索弓丨节点即可访问所有文件及其元数据。当用户有需要访问文件的内容或属性时,需要通过系统调用发送请求,系统根据该元数据组织方式提供的访问机制响应用户请求。如图3所示,本发明对新格式文件访问步骤具体由(Cl) (CS)组成(Cl)用户通过系统调用向系统发送对新格式文件的访问请求;(C2)系统根据请求的具体描述,检索文件系统中的位置文件(Bitmap)或FAT表。若文件存在则得到文件的LBA (Logical Block Addressing)首地址,进入(C3)否则,文件不存在,转第(C7);(C3)由文件LBA首地址读取文件的结构描述块;(C4)如果请求对象为文件数据,则抽取结构描述块中的对应的数据描述信息以及数据块位图的LBA地址;如果请求对象为文件属性,则抽取结构描述块中的属性描述信息以及属性块位图的LBA地址;(C5)由LBA地址读取属性块位图或数据块位图,系统根据请求,对位图索引,完成对相应块的读写访问;(C6)系统将访问结果返回给用户,转入(C8);(C7)系统将出错信息返回给用户;(C8)访问结束。下面通过借助实施例更加详细地说明本发明,但以下实施例仅是说明性的,本发明的保护范围并不受这些实施例的限制。本发明方法包括数据访问过程与属性访问过程。下面结合附图和实例对发明作进ー步详细说明。如图4所示,本发明方法的数据访问过程包括步骤(Dl) (D8)(Dl)用户通过系统调用向系统发出数据读写请求,进入步骤(D2);(D2)根据请求对文件的描述,检索文件系统中的位置文件(Bitmap)或FAT表,查找文件的逻辑地址,此过程按照原方式进行。如果文件存在则得到文件的LBA首地址,进入步骤(D3),否则文件不存在,转入步骤(D8);(D3)获取文件的LBA首地址,进入步骤(D4);(D4)由文件LBA首地址读取结构描述块,块大小通常为IKB 4KB。抽取并检验是否符合结构描述块中的访问权限,符合权限要求,进入步骤(D5),否则转入步骤(D8);
(D5)抽取结构描述块中数据块位图的LBA地址与数据块长度等信息,转入步骤(D6)。(D6)由数据块位图LBA地址读取数据块位图,由数据块长度与文件指针偏移量计算出需要读写的块的位置,通过索引数据块位图转换为具体的LBA地址,转入(D7);(D7)通过数据块的LBA地址完成对数据的顺序读写访问,转入(D9)。(D8)将出错信息返回用户,转入(D9);(D9 )访问过程结束。随着应用的多元化,除了对文件本身数据的访问,更多是对文件扩展属性的访问。如图5所示,本发明方法对属性访问过程包括步骤(Al) (AS) (Al)用户通过系统调用向系统发出文件属性读写请求,进入步骤(A2);(A2)根据请求对文件的描述,检索文件系统中的位置文件(Bitmap)或FAT表,查找文件的逻辑地址,此过程按照原方式(即一般方式)进行。如果文件存在则得到文件的LBA首地址,进入步骤(A3),否则文件不存在,转入步骤(AS);(A3)获取文件的LBA首地址,进入步骤(A4);(A4)由文件LBA首地址读取结构描述块,块大小通常为IKB 4KB。抽取结构描述块中的访问权限,符合权限要求,进入步骤(A5),否则转入步骤(AS);(A5)抽取结构描述块中属性块位图的LBA地址与属性块长度等信息。由于属性信息一般具有固定的格式结构,图6列举了ー种可能,即属性划分为系统属性域与扩展属性域。系统属性域由系统定义,格式与长度固定。扩展属性域一般由用户或者应用程序定义,格式与长度不固定。相关的描述信息保存在结构描述块中,因此根据需要抽取出属性格式与属性域起始LBA地址以及长度等描述信息,转入步骤(A6)。(A6)由属性块位图LBA地址读取属性块位图。由数据块长度与属性格式,属性域地址计算出需要读写的块的位置,通过索引属性块位图转换为具体的LBA地址,转入(A7); (A7)通过属性块的LBA地址完成对文件属性的顺序读写访问,转入(A9)。(A8)将出错信息返回用户,转入(A9);(A9 )属性访问过程结束。以上所述为本发明的较佳实施例而已,本发明不仅局限于上述具体实施方式
,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方式
实施本发明,因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护的范围。
权利要求
1.一种对文件内容与元数据进行组织管理的方法,其特征在于,该方法按照下述步骤对原有文件进行组织管理,生成新格式文件 第Al步建立内容为空的新文件; 第A2步将新的文件按照上述逻辑结构划分成三个区域文件结构描述块组,数据块组和属性块组;其中,文件结构描述块,包括三个部分内部描述块,属性块位图和数据块位图,内部描述块用来描述文件的内部结构、文件数据与元数据的分布信息,属性块位图与数据块位图保存属性块与数据块的位置信息以及对应的块大小信息;数据块组用于保存原文件的数据内容,通过数据块位图查找访问;属性块组用于保存原文件的属性内容,通过属性块位图查找访问; 第A3步若原有文件为空文件,则跳至第A6歩,否则进入第A4步; 第A4步获取原有文件的所有元数据信息,转换为属性描述信息,逐个写入属性块组,记录属性块组的信息,并更新文件结构描述块组中对应的属性块位图中的LBA地址信息;获取原有文件的文件内容,写入数据块组,记录数据块组的信息,并更新文件结构描述块组中对应的数据块位图中的LBA地址信息; 第A5步更新内部描述块中其他描述文件内部结构的信息; 第A6步得到新格式文件,其中数据块组对应着原文件的文件内容,属性块组对应着原文件的元数据信息。
2.ー种按照权利要求I所述方法生成的文件的访问方法,其特征在于,该方法包括下述步骤 第BI步系统根据用户的访问请求的具体描述,检索文件系统中的位置文件Bitmap或FAT表;若文件存在则得到文件的LBA首地址,进入第B2步,否则,文件不存在,转入第B6I K少; 第B2步由文件LBA首地址读取文件结构描述块; 第B3步如果请求对象为文件数据,则抽取结构描述块中的对应的数据描述信息以及数据块位图的LBA地址;如果请求对象为文件属性,则抽取结构描述块中的属性描述信息以及属性块位图的LBA地址; 第B4步由LBA地址读取属性块位图或数据块位图,系统根据请求,对位图索引,完成对相应块的读写访问; 第B5步系统将访问结果返回给用户,转入第B7歩; 第B6步系统将出错信息返回给用户; 第B7步访问结束。
3.根据权利要求2所述的访问方法,其特征在于,数据访问过程包括下述步骤 第Cl步根据用户访问请求对文件的描述,检索文件系统中的位置文件Bitmap或FAT表,查找文件的逻辑地址,此过程按照原方式进行;如果文件存在则得到文件的LBA首地址,进入第C2歩,否则文件不存在,转入第C7步; 第C2步获取文件的LBA首地址; 第C3步由文件LBA首地址读取结构描述块,抽取并检验是否符合结构描述块中的访问权限,符合权限要求,进入第C4步,否则转入第C7步; 第C4步抽取结构描述块中数据块位图的LBA地址与数据块长度等信息;第C5步由数据块位图LBA地址读取数据块位图,由数据块长度与文件指针偏移量计算出需要读写的块的位置,通过索引数据块位图转换为具体的LBA地址;第C6步通过数据块的LBA地址完成对数据的顺序读写访问,转入第CS步;第C7步将出错信息返回用户;第C8步访问过程结束。
4.根据权利要求2所述的访问方法,其特征在于,对属性访问过程包括下述步骤 第Dl步根据用户访问请求对文件的描述,检索文件系统中的位置文件Bitmap或FAT表,查找文件的逻辑地址;如果文件存在则得到文件的LBA首地址,进入第D2歩,否则文件不存在,转入第D7歩; 第D2步获取文件的LBA首地址;第D3步由文件LBA首地址读取结构描述块,抽取结构描述块中的访问权限,符合权限要求,进入第D4步,否则转入第D7步;第D4步抽取结构描述块中属性块位图的LBA地址与属性块长度信息;根据需要抽取出属性格式与属性域起始LBA地址以及长度描述信息;第D5步由属性块位图LBA地址读取属性块位图;由数据块长度与属性格式,属性域地址计算出需要读写的块的位置,通过索引属性块位图转换为具体的LBA地址; 第D6步通过属性块的LBA地址完成对文件属性的顺序读写访问,转入第D8步; 第D7步将出错信息返回用户;第D8步属性访问过程结束。
全文摘要
本发明属于计算机数据存储领域,尤其涉及一种对文件内容与元数据进行组织管理的方法。该方法在文件内部实现元数据的自组织与自我管理,使文件具有自描述性,消除了对特定格式与数据库等的信赖。相比较于原有文件,附加了文件结构描述块和文件属性块。通过用户发送文件访问请求,找到对应的目标文件,通过抽取文件结构描述块块信息,根据用户的选择,根据文件结构描述块块信息中的数据块位图和属性块位图,对文件内容或是对文件属性进行读写。该方法可以方便的支持属性扩展与语义关联,为信息的检索提供支持,支持语义结构,从而可以实现对海量非结构化数据的高效文件检索。
文档编号G06F17/30GK102693286SQ20121014495
公开日2012年9月26日 申请日期2012年5月10日 优先权日2012年5月10日
发明者叶松, 曹强, 杨乐, 谢长生, 黄建忠 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1