一种识别AVI类型block的方法

文档序号:6544568阅读:232来源:国知局
一种识别AVI类型block的方法
【专利摘要】本发明公开了一种识别AVI类型block的方法,该方法是基于AVI文件格式的字节识别码和C4.5决策树的方法,是针对磁盘、U盘等存储介质中AVI文件类型block的识别方法,该方法设计针对磁盘、U盘等存储介质删除数据不依赖文件系统元数据进行雕刻提供了预处理步骤,一般的文件雕刻需要经历分类和恢复两个步骤;本发明的步骤是:首先通过字节识别码识别出具有特定标识码的block,然后对于尚未识别出的block,在通过模拟出与磁盘存储环境相似的训练集得到决策树后,再进行二次识别。该方案适应复杂、多文件、大容量的存储环境。此外,本发明针对原本属于AVI的block具有良好的识别准确率,对于司法取证、数据恢复等应用领域都有较高的应用价值。
【专利说明】—种识别AVI类型block的方法
【技术领域】
[0001]本发明涉及计算机数据挖掘【技术领域】,特别涉及一种识别AVI类型block的方法。
[0002]背景分析
[0003]随着信息技术发展,数据恢复作为信息安全的最后一道屏障的作用越来越重要,在司法取证、军事和民用领域的应用需求越发强烈。传统的数据恢复方法针对碎片化的数据即使使用残存的元数据也不能恢复。因此,在数据可能破损并且缺少元数据的情况下如何恢复出数据这一问题亟需解决。破损的数据往往价值很大,有时候包含着案件的关键信息。而在民用领域,视频恢复也有着广泛的应用场合,例如:婚庆公司需要找回不小心删除的客户婚宴DV。视频恢复对于特定企业具有重大的经济价值。信息技术的发展在为人们创造了惊人的数据同时,也向研究人员提出了数据恢复这一课题。
[0004]早期的数据恢复过于依赖文件系统提供的元数据,后来逐步出现不依赖元数据恢复数据的文件雕刻方法。文件雕刻根据对文件内部结构和内容恢复出数据。最早出现的文件雕刻方法根据文件头尾的标志顺序读取的方法值适合文件顺序存储的情形。研究表明,几M (兆)以上的文件约有15%?20%的文件会产生碎片,也就是说磁盘上存在大量碎片化的文件。针对碎片化的文件,采用连续读取的雕刻方法就会出错。因此,有必要研究能够适用于碎片文件的雕刻方法。
[0005]目前,针对碎片文件的雕刻,已经有相应的框架提出。主要包含识别block、恢复两个部分。但是,在针对AVI (音频视频交错格式)的识别方法中,普遍都有识别率不高的问题。本发明将提出一种新的方法用于AVI类型block的分类。

【发明内容】

[0006]本发明目的在于提出了一种识别磁盘等存储介质中AVI类型block的方法,该方法通过AVI格式固有的字节识别码进行初步识别,然后针对剩余block应用C4.5决策树方法,以字节值频率分布BFD作为特征识别出无字节识别码的AVI类型block,通过先后两轮的识别实现对AVI类型block的识别,
[0007]本发明解决其技术问题所采取的技术方案是:本发明是一种在分析AVI类型block特征的基础上,对block中可能含有的字节特征码和字节值频率分布信息进行挖掘,进而依据字节识别码匹配和应用C4.5决策树分类方法识别目标block的方法,该方法主要包含镜像备份、提取block、字节标志码匹配、C4.5决策树识别等步骤。
[0008]方法流程:
[0009]步骤1:镜像备份。
[0010]主要通过专用的备份工具将存储介质中的内容完全备份到其他存储介质中,避免数据恢复过程中对数据源造成破坏。备份的范围从第一个扇区一直到最后一个扇区。备份数据包括元数据部分和实际数据部分。
[0011]步骤2:提取 block。
[0012]通过扫描存储介质,根据文件表,标记出文件表没有记录的块。这些没有记录的块包含未存储的块和元数据丢失或者毁坏的数据块。将没有标记的块备份到其他存储介质中去作为识别目标block的对象。
[0013]步骤3:字节标志码匹配。
[0014]AVI 类型 block 独有的字节标识码有 List、av1、hdrl、avih、strl、strf > strd、JUNK、odml、mov1、##wb、##dc、##db (## 表不编号 01, 02, 03 等)、rec、idxl 等。对每个 blcok依次检索字节识别码,当block中出现了上文提及到的字节识别码集合中的字节识别码时,就判定为AVI碎片。
[0015]步骤4: C4.5决策树识别。
[0016]在确定镜像所包含的文件类型后,建立由这些类型block构成的训练集。在各种文件类型数量多少未知的情况下,选取每种类型的block等量,并保证block的数目足够多。然后提取每个block的字节频率分布(Byte Frequency Distribution, BFD)。以此为特征,针对训练集依照C4.5算法建立决策树。使用决策树对每个测试集中的block进行识别。
[0017]C4.5算法通过以下步骤建立分类树:(I)计算类别随机变量的熵。(2)轮流以其中一个属性作为根,然后计算熵增益。(3)选择熵增益最大的那个属性为根。
[0018]有益效果:
[0019]1、本发明能够以较高识别率识别出AVI类型的block。
[0020]2、本发明能够适应复杂的存储环境,在包含图片、视频、文档等多种类型格式的block的环境下识别出目标block。
【专利附图】

【附图说明】:
[0021]图1为本发明的方法流程图。
[0022]图2为C4.5算法的流程图。
【具体实施方式】
[0023]以下结合说明书附图对本发明创造作进一步的详细说明。
[0024]如图1和图2所示,本发明提出了一种识别AVI类型block的方法,该方法包括如下步骤:
[0025]步骤1:镜像备份
[0026]备份的对象包括磁盘、U盘、光盘等存储介质。Ghost是针对硬盘克隆的工具。针对U盘备份有UBackUp、U盘备份工具等软件。光盘备份就可以通过刻录软件来实现。这里的备份是完全备份,存储在备份对象上的删除数据和未删除数据都被拷贝存储在另一个介质上。
[0027]I)选择另一存储介质。
[0028]2)根据备份对象不同,选择不同的备份工具,对备份对象的所有数据进行完全备份。
[0029]3)备份完成,保存原存储介质。备份在另一存储介质上的数据将用于AVI类型block的识别。
[0030]本发明所述步骤I是确保根据存储介质类型,选择合适的备份软件,并且备份完成后,保存原存储介质。备份的范围从第一个扇区一直到最后一个扇区。备份数据包括元数据部分和实际数据部分。
[0031]步骤2:提取 block
[0032]I)扫描镜像数据,分析元数据,确定镜像中已分配的block和未分配的block。
[0033]2)已分配的block数据不需要恢复。将已分配的block做标记。然后,依次读取出未分配的block,并以一定的文件形式(这里设定为txt)存储起来。每一个被以txt格式存储的block是识别的对象。
[0034]本发明所述步骤2是根据元数据信息,标记出已分配的block,也即不需要恢复的block。对于未分配block,采用txt文件类型将其逐个保存,用于后续识别。
[0035]步骤3:字节标志码匹配
[0036]AVI文件类型属于RIFF封装类型的文件一种。RIFF文件类型包含各种用去区分数据类型的字节识别码。通过对RIFF文件类型的文件分析,除了 RIFF这个字节识别码外,这些类型的文件没有其他相同的识别码。也就是说,可以通过除RIFF外的字节识别码确定block的类型。
[0037]I)确定AVI类型文件特有的字节标志码。通过对文件格式分析,得到以下字节标志码为 AVI 类型文件独有:List、av1、hdrl、avih、strl、strf、strd、JUNK、odml、mov1、##wb、##dc、##db (## 表示编号 01,02,03 等)、rec、idxl。
[0038]2)通过KMP方法对每个以txt格式存储的block进行字节识别码匹配。只要该txt文件中含有一个匹配的字节识别码,就停止匹配运算,并且认为该block就是AVI类型的 block。
[0039]3)已经识别出来的block组成一个集合。从原来的txt文件集合中剔除出已经识别出来的block。剩下的txt文件用作第二轮C4.5决策树方法识别。
[0040]本发明所述步骤3包括对AVI格式文件特有的字节标识码,有如下:List、av1、hdrl、avih、strl、strf、strd、JUNK、odml、mov1、##wb、##dc、##db (## 表不编号 01,02, 03等)、rec、idxl。这些标识码被用于对每个需要识别的block进行字节匹配。采用KMP方法,对每个以txt格式存储的block进行字节识别码匹配。只要该txt文件中含有一个匹配的字节标识码,就停止匹配运算,并且认为该block就是AVI类型的block。
[0041 ] 步骤4: C4.5决策树识别。
[0042]对存储介质的数据类型初步了解后,建立一个与存储介质类型存储环境相当的训练集。该数据集合包含了存储介质中所有文件类型的block,并且每种文件类型的block数量足够且相同。然后对这些block进行如下预处理步骤:
[0043]I)应用Matlab提取输入的block的BFD特征,所有文件的BFD特征构成了 block数*256的矩阵,并保存为CSV文件。每一行代表一个block的BFD特征,每一列就是一个用作特征的byte value。
[0044]2)根据每个block所属的文件类型,确定该行的属性值。如果该行的BFD为AVI碎片特征,记作Yes。反之,记作No。
[0045]对于预处理获得的CSV文件,通过C4.5决策树方法建立决策树。决策树的每个节点都是作为特征的字节值(byte value)。将字节识别码匹配后剩下的block依次根据C4.5算法识别。具体步骤如下:[0046]I)读取需要识别的block,提取其BFD特征。
[0047]2)根据已经建立的C4.5决策树,在获得某个需要识别的block的BFD后,按照每个节点的阈值逐个选择分支,当判断到叶子结点时,识别完成。
[0048]3)按照步骤I,2完成其他所有block的识别。
[0049]本发明所述步骤4是采用C4.5算法对字节识别码匹配后剩余的block 二次识别,以确保本身无特征标识码而实际是AVI类型的block被识别出来。为了使决策树更加符合实际存储介质的存储环境,在准备训练集前,对存储介质中主要包含的文件类型做初步分析。然后,使得训练集包含的block类型(即block所属文件类型)和存储介质中文件类型一致,并且每种block数目相同,数量足够多。获得训练集后,通过Matlab提取其BFD特征,根据每个block所属的文件类型,确定该行的属性值。最终,形成一个代表训练集的CSV文件。通过C4.5决策树方法对训练集的处理,构建出属于该训练集的决策树。对每个需要识别的block在提取其BFD后,按照决策树每个节点的阈值逐个选择决策树分支,当判断到叶子结点时,识别完成。
【权利要求】
1.一种识别AVI类型block的方法,其特征在于,所述方法包括如下步骤: 步骤1:镜像备份; 所述备份为完全备份,存储在备份对象上的删除数据和未删除数据都被拷贝存储在另一个介质上,包括: 1)选择另一存储介质; 2)根据备份对象不同,选择不同的备份工具,对备份对象的所有数据进行完全备份; 3)备份完成,保存原存储介质;备份在另一存储介质上的数据将用于AVI类型block的识别; 步骤2:提取block ; 1)扫描镜像数据,分析元数据,确定镜像中已分配的block和未分配的block; 2)已分配的block数据不需要恢复;将已分配的block做标记;然后,依次读取出未分配的block,并以txt文件形式存储起来;每一个被以txt格式存储的block是识别的对象; 步骤3:字节标志码匹配; AVI文件类型属于RIFF封装类型的文件一种;RIFF文件类型包含各种用去区分数据类型的字节识别码;通过 对RIFF文件类型的文件分析,除了 RIFF这个字节识别码外,这些类型的文件没有其他相同的识别码;通过除RIFF外的字节识别码确定block的类型; 步骤4:C4.5决策树识别; 建立一个与存储介质类型存储环境相当的训练集,该数据集合包含了存储介质中所有文件类型的block,并且每种文件类型的block数量足够且相同,然后对这些block进行预处理,包括: 1)应用Matlab提取输入的block的BFD特征,所有文件的BFD特征构成了block数*256的矩阵,并保存为CSV文件;每一行代表一个block的BFD特征,每一列就是一个用作特征的 byte value ; 2)根据每个block所属的文件类型,确定该行的属性值;如果该行的BFD为AVI碎片特征,记作Yes,反之,记作No ; 对于预处理获得的CSV文件,通过C4.5决策树方法建立决策树,决策树的每个节点都是作为特征的字节值,将字节识别码匹配后剩下的block依次根据C4.5算法识别,包括: 1)读取需要识别的block,提取其BFD特征; 2)根据已经建立的C4.5决策树,在获得某个需要识别的block的BFD后,按照每个节点的阈值逐个选择分支,当判断到叶子结点时,识别完成; 3)按照步骤1,2完成其他所有block的识别。
2.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于,所述方法的步骤I中包括:确保根据存储介质类型,选择合适的备份软件,并且备份完成后,保存原存储介质;备份的范围从第一个扇区一直到最后一个扇区;备份数据包括元数据部分和实际数据部分。
3.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于,所述方法的步骤2中包括:根据元数据信息,标记出已分配的block,也即不需要恢复的block ;对于未分配block,采用txt文件类型将其逐个保存,用于后续识别。
4.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于,所述方法的步骤3中包括:对AVI格式文件特有的字节标识码,有如下:List、av1、hdrl、avih、strl、strf > strd、JUNK、odml、mov1、##wb、##dc、##db、rec、idxl ;所述标识码对每个需要识别的block进行字节匹配,##表示编号01,02,03…。
5.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于,所述方法的步骤3中,采用KMP方法,对每个以txt格式存储的block进行字节识别码匹配;txt文件中若含有一个匹配的字节标识码,就停止匹配运算,并且认为该block就是AVI类型的block ;已识别出来的block组成一个集合,从原来的txt文件集合中剔除出已经识别出来的block,剩下的txt文件用作第二轮C4.5决策树方法识别。
6.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于,所述方法的步骤4中,采用C4.5算法对字节识别码匹配后剩余的block 二次识别,以确保本身无特征标识码而实际是AVI类型的block被识别出来;在准备训练集前,对存储介质中主要包含的文件类型做初步分析,然后,使得训练集包含的block类型和存储介质中文件类型一致,并且每种block数目相同,数量足够多。
7.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于,所述方法的步骤4中,获得训练集后,通过Matlab提取其BFD特征,根据每个block所属的文件类型,确定该行的属性值,最终,形成一个代表训练集的CSV文件;通过C4.5决策树方法对训练集的处理,构建出属于该训练集的决策树,对每个需要识别的block在提取其BFD后,按照决策树每个节点的阈值逐个选择决策树分支,当判断到叶子结点时,识别完成。
8.根据权利要求1所述的一种识别AVI类型block的方法,其特征在于:所述方法是基于特征识别码和C4.5决 策树方法,用于识别AVI类型block的方法。
【文档编号】G06F11/14GK103942122SQ201410164339
【公开日】2014年7月23日 申请日期:2014年4月22日 优先权日:2014年4月22日
【发明者】杨一涛, 潘俊, 孙国梓, 刘力颖 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1