一种电子邮件数据恢复方法及装置的制作方法

文档序号:7766185阅读:561来源:国知局

专利名称::一种电子邮件数据恢复方法及装置的制作方法
技术领域
:本发明涉及计算机取证领域,特别是涉及一种电子邮件数据恢复方法及装置。技术背景电子邮件是在20世纪70年代发明的,在80年代才得以兴起。70年代的沉寂主要是由于当时使用Arpanet网络的人太少,网络的速度也仅为目前56Kbps标准速度的二十分之一。受网络速度的限制,那时的用户只能发送些简短的信息,根本别想象现在那样发送大量照片;到80年代中期,个人电脑兴起,电子邮件开始在电脑迷以及大学生中广泛传播开来;从90年代中期起,互联网浏览器诞生,全球网民人数激增,电子邮件被广为使用。它已成为人类日常工作及情感交流的重要通讯工具。随时互联网的普及,全球邮件服务器日益增多,采用的服务端软件种类繁多,有kndmail、Qmai1,IMai1,微软ExchangeServer、LotusNotes等,各种邮件服务器之间通常采用了标准的邮件传输协议SMTP,邮件服务器之间电子邮件数据内容的传输早期采用RFC822报文协议,然而由于其局限性,现在逐步采用了多用途hternet报文扩展,S卩MIME(MultipurposeInternetMailExtensions),MIME报文通常使用BASEM、Quoted-Printable来进行邮件内容的编码,以便能将非英文邮件正文及多媒体、图片等类型文件进行传输,通常附件均采用BASE64编码。电子邮件可能存在于服务器的存储介质,也可能存在于普通用户的计算机中的磁盘。然而一旦电子邮件服务器数据遭受破坏(如服务器的磁盘阵列出现故障)或用户有意或无意地在电子邮件客户端(如R)xmail、0utlOOkExpress)中删除了电子邮件,已删除的电子邮件数据,甚至是邮件正文片段、附件通常没有一种有效的数据恢复方法和工具。现有电子邮件数据恢复技术主要存在如下不足一、针对电子邮件数据恢复的恢复软件缺乏,目前全球多种数据恢复软件(如EasyRecovery、FinalData)均无法恢复出电子邮件正文碎片内容或邮件附件。二、数据恢复软件的恢复能力有限。在电子邮件结构体相对完整,有些软件(如WinHex,EnCase)可自定义文件签名,如邮件头中的特征关键特征信息“From:”来实现一定程度的邮件数据恢复,然而邮件通常没有相对固定的尾部特征,因此这种方式的邮件恢复只能根据设定的恢复数据的长度进行恢复,通常恢复出来的邮件内容不完整或多了较多其它不相关数据,因此其效果并不令人满意,需要较多的人工后续处理。三、数据恢复存在一定的缺陷,通常不对不连续的电子邮件碎片数据进行分析处理。电子邮件在磁盘中存储往往不一定是连续存储的,那么这些碎片数据之间可能夹杂其它数据,需要进一步有效地分析和处理,去除不相关的数据。四是目前国内外尚未公开能针对已经残缺了邮件头及邮件正文,仅剩附件的电子邮件碎片数据进行自动智能恢复的方法或工具。
发明内容本发明公开了一种电子邮件数据恢复方法,包括加载邮件关键特征信息库,所述信息库包含了邮件结构体特征信息及邮件附件的文件头部特征信息;根据所述邮件关键特征信息库中的关键特征信息,对磁盘进行匹配扫描;如果在磁盘中发现和所述关键特征信息匹配的信息,记录其在磁盘中的存储位置偏移量;根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组;根据邮件编码特征对所述邮件编码后信息解码,输出邮件相关信息。优选地,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组中,所述根据邮件结构体特征从所述数据中解析邮件编码后信息,具体为根据邮件结构体编码特征,判断邮件结构体数据是否存在;如果邮件结构体存在,根据邮件结构体特征定位解析出邮件编码后信息,包括邮件头、邮件正文及附件编码后信息;根据邮件附件特征解析出邮件附件编码后信息。优选地,如果不存在邮件结构体数据,判断是否存在邮件附件参考信息;如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名。优选地,所述如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名,具体为通过特征库中的关键特征信息定位文件头,并往后读取数据,搜索邮件关键特征;根据搜索到的关键特征判断出邮件编码方式和邮件附件编码后文件名;对附件文件名称进行解码,解码成可识别文字的文件名。优选地,如果不存在邮件附件参考信息,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码,根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名。优选地,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组中,如果从所述数据中解析邮件编码后信息不连续,还对所述信息进行去杂处理。本发明还公开了一种电子邮件数据恢复装置,包括特征库管理模块,用于管理该装置所需的邮件关键特征库信息;所述关键特征信息主要包括邮件结构体特征信息及各类型的邮件附件的文件头部特征信息;扫描处理模块,与所述特征库管理模块相连,主要包括自动扫描单元和位置偏移量存储单元;自动扫描单元用于根据特征库管理模块中的关键特征信息,对存储介质区域进行自动匹配扫描,发现和关键特征信息匹配的信息后,通过所述位置偏移量存储单元记录其在磁盘中的存储位置偏移量信息;分析处理模块,与所述扫描处理模块相连,用于根据存储位置偏移量,定位到邮件的相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对不连续存储的邮件编码后信息进行重组和去杂质处理,形成连续的邮件正文编码后信息;数据挖掘及编码转化模块,与所述分析处理模块相连,用于根据邮件编码特征对所述分析处理模块生成的邮件编码后信息进行解码,输出邮件内容或邮件附件内容等邮件相关信息。优选地,所述分析处理模块包括定位解析单元、判断单元、去杂重组单元;所述判断单元用于根据邮件结构体编码特征,判断邮件结构体数据和邮件附件参考信息是否存在;所述定位解析单元与所述判断单元相连,用于当判断单元判断到邮件结构体存在时,根据邮件结构体特征定位解析出邮件的数据内容,包括邮件头、邮件正文及附件信息,并根据邮件附件特征解析出邮件附件编码后信息;还用于当判断单元判断到邮件附件参考信息存在时,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名;还用于当判断单元判断到不存在邮件附件参考信息存在时,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码,根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名;所述去杂重组单元,与定位解析单元相连,用于定位解析单元遇到不连续存储的邮件信息碎片时,对不连续部分进行去杂处理,重组邮件信息碎片成连续的邮件编码后信肩、ο本发明的有益效果是,由于采用了特征库模块,大大提高了对电子邮件碎片数据的识别能力,最大程度地恢复残缺的电子邮件正文及附件,挖掘出更多的数据。其次分析处理模块根据电子邮件结构及编码的特点,可智能定位到文件残余部分,能有效智能截断尾部,消除了现有技术只能根据设定的大小进行截断导致的邮件内容或附件不完整,或多出大量无效数据的问题。此外,分析处理模块能根据邮件编码(BASE64、Qu0ted-Printable等编码)的特点进行对不连续存储的邮件附件进行重组,去除冗余或无效数据,然后通过数据挖掘及编码转化模块进行数据的解码并导出,可大大提高导出的邮件内容的有效性,无需进行额外的手工数据处理,大大降低了人力和时间投入。图1为本发明的一种电子邮件数据恢复方法示意图2为本发明的一种电子邮件数据恢复方法中细化流程示意图3为本发明中的附件编码内容前包含邮件的附件的信息存储结构图。图4为本发明中的不连续的邮件碎片去杂前示意图5为本发明中的不连续的邮件碎片去杂后示意图6为本发明中的邮件关键特征信息库中邮件结构体特征示意图7为本发明的一种电子邮件数据恢复装置结构图8邮件编码(Base64、Quoted-Printable)特征示意图。具体实施方式本发明的目的在于克服现有技术之不足,提供一种电子邮件碎片数据恢复方法及装置,采用了自动扫描、自动分析判断、自动数据挖掘及编码解码等技术手段进行数据的恢复,整个恢复过程不依赖于操作人员的技术水平,具有自动化、智能化、简单易用高效等优点ο本发明第一个实施例提供了一种电子邮件碎片数据恢复方法,如图1所示,主要包括如下步骤步骤1,加载邮件关键特征信息库,该信息库包含了邮件结构体特征信息(参见图6)及各类型的邮件附件的文件头部特征信息(参见表1)。补充说明邮件结构体信息主要是邮件包含的常见关键词有·From:·To·Subject:·Date·Content-Type:·Content-Transfer-Encoding:·Content-Disposition:·......将待取证分析硬盘通过写保护设备(如只读锁或只读设备)与分析计算机相连接,选择要进行数据恢复的磁盘(即通过只读锁连接的带分析硬盘)。这里,采用写保护设备进行数据恢复,目的是为了防止对原有的磁盘造成进一步的数据破坏。分析计算机把特征库加载到运行系统中。步骤2,根据特征库中的关键特征信息,对指定磁盘区域进行匹配扫描。本步骤中,遍历使用所有的关键特征信息(1,2,...n),然后根据用户的设置(全盘、指定分区、指定磁盘区域)对磁盘进行扫描。步骤3,如果在磁盘发现和关键特征信息匹配的信息后,记录其在磁盘中的存储位置偏移量。步骤4,根据存储位置偏移量信息,定位到邮件的相应磁盘位置的数据,根据邮件结构体特征(参见图6)从所述数据中解析邮件编码后信息(包含正文和附件),并根据邮件编码(主要包括BASE64、Quoted-Printable等)特征对不连续存储的邮件编码后信息(包含正文和附件)进行重组和去杂质处理,形成连续的邮件编码后信息(包括邮件正文和附件的编码后信息)。本实施例步骤3处理后的结果即存储位置偏移量信息作为本步骤操作依据,根据该信息,找到邮件存储位置。根据邮件结构体特征从所述数据中解析邮件编码后信息,具体流程如图2所示,包括如下步骤步骤401,根据邮件结构体编码特征,判断邮件结构体数据是否存在。步骤402,如果邮件结构体存在,根据邮件结构体特征定位出邮件的数据内容,包括邮件头、邮件正文及附件信息。本步骤中,邮件正文部分内容根据邮件结构体的关键特征信息进行分析,对使用BASE64编码的邮件附件进行去除杂质处理,将非BASE64字符去除,并做完整性校验,通常邮件在存储时每行为76个BASE64范围内的字符,以“=”符号作为结束符。邮件正文分析及处理具体包括两种情况第一种情况,在邮件结构体中的关键特征信息特征定位到后,根据其特征进行分析,直至遇到超过1个扇区的数据(即512字节)中不包含邮件结构体的各个特征关键特征信息后,截断数据。第二种情况,在缺失邮件结构体信息的情况下,只能定位到的数据起始位置是邮件附件头部,原有的邮件正文部分已经无法获得,那么直接把该位置作为邮件附件起始位置,并进行逐扇区分析,直至不包含连续BASE64字符的扇区,去除非BASE64字符后,并将该扇区作为附件尾部(注扇区中连续的BASE64字符少于M个字符才认定为附件尾部,该长度为参考值,系统可以根据用户的需求进行设定)邮件编码(BASE64、Quoted-Printable)特征说明Base64编码特征电子邮件BASE64编码的原理是将数据流转化为用64个字符可表示的信息,64个字符分别为大小字母A-Z,小写字母a-z,数字0-9,还有“+”,“/”符号。因此在处理BASE64编码特征时,只要不在64个字符范围内,那么就不属于BASE64编码。具体表现形式可参见图8中红色框中的编码。Quoted-Printable编码特征如邮件正文中包含中文字符,那么在经过Quoted-Printable编码转化后将可以看到大量以“=”符号起始的,后跟2个十六进制字符,如“=DE=EO=Fl=B3”,具体表现形式可参见图8中蓝色框中的编码。步骤403,根据邮件附件特征解析出邮件附件编码后信息。步骤404,如果不存在邮件结构体数据,则判断是否存在邮件附件参考信息。本步骤中,由于邮件数据已经残缺,不完整,因此无法定位到邮件结构体(邮件头,邮件正文),但仍残存邮件附件及部分附件描述信息(邮件附件参考信息)。遇到不连续存储的邮件附件碎片的处理方法,可继续执行步骤404的去杂方法。信息4件附件特征解析出邮件附件名或文件类型对应的扩展名据的展示步骤405,如果存在邮件附件参考信息,则根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名,遇到不连续存储的邮件附件碎片的处理方法,可继续执行步骤404的去杂方法。以下以电子邮件碎片附件为例,附件不采用Quoted-Printable编码,而是采用BASE64编码。根据邮件编码特征(参见图8及其补充说明),以及邮件结构体特征(如Content-Type,Content-Transfer-Encoding,Content-Disposition:attachment))(寸由件碎片进行分析处理。附件编码内容前包含邮件的附件参考信息的存储结构如图3所示,本步骤具体包括如下几个步骤步骤4051,通过特征库中的关键特征信息定位文件头,并往后读取数据,搜索邮件关键特征。本步骤中,通过特征库中的关键特征信息定位到文件头(以0M8R4K为例)后,往前读取数行数据,搜索Content-Type(文件类型)、Content-Transfer-Encoding(数据采用的编码方式,通常邮件附件为BASE64)、Content-Disposition:attachment(说明以下编码是邮件的附件内容)等特征。步骤4052,根据搜索到的关键特征判断出邮件编码方式和邮件附件文件名。本步骤中,Content-Type、Content-Transfer-Encoding、Content-Disposition!attachmentsfilenameBWΡ#W^^^^iii^fflBASE64编码。步骤4053,对附件文件名称进行解码,解码成可识别文字。本步骤中,如图3所示,附件文件名被翻译转化为“真的难吗.doc”。步骤406、如果不存在邮件附件参考信息,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码(BASE64编码还原),根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名。步骤407,根据邮件编码特征(BASE64、Quoted-Printable编码)对邮件头、邮件正文及附件编码后信息碎片进行重组和去杂处理。本步骤中,去杂质处理具体方法为通常较多软件在存储邮件附件都采用BASE64编码,由于附件较大,在恢复过程中经常碰到夹杂其他非BASE64编码的内容,因此需进行额外的编码去杂质处理,通常每行76个BASE64字符,通过去除杂质后,将两段不完整的BASE64数据进行拼合后,对数据长度进行计算,如果刚好等于76个字符,那么可以认定组合正确,如果出现长度不等于76字符,那么继续撤销拼合,继续后续的编码处理,最后导出数据时,增加一个标识,表明该数据不可能不完整,供分析人员查看。去杂前后的效果分别如图4和图5所示。本步骤中,附件编码内容前未找到邮件的附件描述信息,则查询特征库中该附件头部特征关键特征信息对应的文件类型,直接根据规则命名文件名,并增加相应的文件扩展名。因无任何参考信息,无法得知文件具体类型和文件名,所以通过查询特征库中该附件头部特征关键特征信息对应的文件类型,例如JPEG类型,RAR类型,Zip类型,然后直接根据规则命名文件名,并自动增加相应的文件扩展名。步骤5,将步骤4处理后的结果进行统一处理,根据邮件编码特征对所述邮件正文及附件进行分别解码,输出邮件内容或邮件附件内容等邮件相关信息。相关信息可以导出,导出后的邮件附件可直接在Windows用相应的查看软件进行打开,邮件正文可用Word或写字板等打开。本发明第二个实施例提供了一种电子邮件数据恢复装置,如图7所示,该装置包括如下几个组成部分特征库管理模块1,用于管理该装置所需的邮件关键特征库信息。关键特征信息主要包括邮件结构体特征信息(参见图6,红色划线部分属邮件结构体的特征)及各类型的邮件附件的文件头部特征信息(参见表1)。该模块由邮件结构体特征信息存储单元和邮件附件文件头部特征信息存储单元构成。邮件附件文件头部特征信息存储单元用于存储邮件结构体特征信息,邮件附件文件头部特征信息存储单元用于存储邮件附件文件头部特征信息,这些信息标识各种邮件附件类型,如JPEG、Word、Excel、PowerPoint、PDF、RAR、Zip等类型的文件头部特征信息,参见表1。表1邮件关键特征信息库中各类邮件附件类型的特征信息权利要求1.一种电子邮件数据恢复方法,其特征在于,包括加载邮件关键特征信息库,所述信息库包含了邮件结构体特征信息及邮件附件的文件头部特征信息;根据所述邮件关键特征信息库中的关键特征信息,对磁盘进行匹配扫描;如果在磁盘中发现和所述关键特征信息匹配的信息,记录其在磁盘中的存储位置偏移量;根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组;根据邮件编码特征对所述邮件编码后信息解码,输出邮件相关信息。2.根据权利要求1所述的一种电子邮件数据恢复方法,其特征在于,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行碎片重组中,所述根据邮件结构体特征从所述数据中解析邮件编码后信息,具体为根据邮件结构体编码特征,判断邮件结构体数据是否存在;如果邮件结构体存在,根据邮件结构体特征定位解析出邮件编码后信息,包括邮件头、邮件正文及附件编码后信息;根据邮件附件特征解析出邮件附件编码后信息。3.根据权利要求2所述的一种电子邮件数据恢复方法,其特征在于,如果不存在邮件结构体数据,判断是否存在邮件附件参考信息;如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名。4.根据权利要求3所述的一种电子邮件数据恢复方法,其特征在于,所述如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名,具体为通过特征库中的邮件结构体特征信息(Content-Disposition:,Content-Type:,Content-Transfer-Encoding)定位到附件邮件参考信息,读取参考信息中的数据,搜索邮件关键特征;根据搜索到的关键特征判断出邮件编码方式和邮件附件编码后文件名;对附件文件名称进行解码,将邮件附件解码为可阅读的原始文件名。5.根据权利要求3所述的一种电子邮件数据恢复方法,其特征在于,如果不存在邮件附件参考信息,则直接对附件内容进行解码,并查询特征库中各类邮件附件类型的特征信息,根据附件关键特征信息类型定义进行比对,然后将解码后的数据内容自动存储为相应文件类型的扩展名。(因无邮件附件参考信息数据,邮件附件的原始文件名无法恢复)6.根据权利要求1-5所述的方法,其特征在于,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组中,如果从所述数据中解析邮件编码后信息不连续,还对所述信息进行去杂处理。7.一种电子邮件数据恢复装置,其特征在于,包括特征库管理模块,用于管理该装置所需的邮件关键特征库信息;所述关键特征信息主要包括邮件结构体特征信息及各类型的邮件附件的文件头部特征信息;扫描处理模块,与所述特征库管理模块相连,主要包括自动扫描单元和位置偏移量存储单元;自动扫描单元用于根据特征库管理模块中的关键特征信息,对存储介质区域进行自动匹配扫描,发现和关键特征信息匹配的信息后,通过所述位置偏移量存储单元记录其在磁盘中的存储位置偏移量信息;分析处理模块,与所述扫描处理模块相连,用于根据存储位置偏移量,定位到邮件的相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对不连续存储的邮件编码后信息进行重组和去杂质处理,形成连续的邮件正文编码后信息;数据挖掘及编码转化模块,与所述分析处理模块相连,用于根据邮件编码特征对所述分析处理模块生成的邮件编码后信息进行解码,输出邮件内容或邮件附件内容等邮件相关fn息ο8.根据权利要求7所述的一种电子邮件数据恢复装置,其特征在于,所述分析处理模块包括定位解析单元、判断单元、去杂重组单元;所述判断单元用于根据邮件结构体编码特征,判断邮件结构体数据和邮件附件参考信息是否存在;所述定位解析单元与所述判断单元相连,用于当判断单元判断到邮件结构体存在时,根据邮件结构体特征定位解析出邮件的数据内容,包括邮件头、邮件正文及附件信息,并根据邮件附件特征解析出邮件附件编码后信息;还用于当判断单元判断到邮件附件参考信息存在时,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名;还用于当判断单元判断到不存在邮件附件参考信息存在时,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码,根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名;所述去杂重组单元,与定位解析单元相连,用于定位解析单元遇到不连续存储的邮件信息碎片时,对不连续部分进行去杂处理,重组邮件信息碎片成连续的邮件编码后信息。全文摘要本发明公开了一种电子邮件数据恢复方法,包括加载邮件关键特征信息库,所述信息库包含了邮件结构体特征信息及邮件附件的文件头部特征信息;根据所述邮件关键特征信息库中的关键特征信息,对磁盘进行匹配扫描;如果在磁盘中发现和所述关键特征信息匹配的信息,记录其在磁盘中的存储位置偏移量;根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行碎片重组。根据邮件编码特征对所述邮件编码后信息解码,输出邮件相关信息。文档编号H04L12/58GK102045268SQ20101055675公开日2011年5月4日申请日期2010年11月18日优先权日2010年11月18日发明者吴世雄,张雪峰,徐志强申请人:厦门市美亚柏科信息股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1