文本文件指纹获取方法及其装置、数据管理方法

文档序号:6547684阅读:395来源:国知局
文本文件指纹获取方法及其装置、数据管理方法
【专利摘要】本发明属于计算机【技术领域】,特别涉及数据防泄漏领域中的文本文件指纹获取方法及其装置、数据管理方法。一种文本文件指纹获取方法,包括:将文本文件划分为多个文件块,多个所述文件块互不重叠;抽取所述文件块的杂凑值;对所述杂凑值进行抽样和组合,获得所述文本文件的杂凑代表值,所述杂凑代表值即所述文本文件指纹。本发明所提供的文本文件指纹获取方法以及相应的文本文件指纹获取装置,通过将文本文件划分、抽取文本文件中的文件块的杂凑值、并对杂凑值进行抽样和组合,从而获得文本文件的指纹,能对计算机创建/处理、网络传输的业务电子信息中的隐私信息或敏感信息进行有效保护和及时侦查。
【专利说明】文本文件指纹获取方法及其装置、数据管理方法
【技术领域】
[0001]本发明属于计算机【技术领域】,特别涉及数据防泄漏领域中的
[0002]文本文件指纹获取方法及其装置、数据管理方法。
【背景技术】
[0003]随着信息化程度的提高,企业越来越多地利用计算机创建/处理业务电子信息,并通过网络传输业务电子信息实现企业内部信息共享。但是,该业务电子信息中难免会包含一些隐私信息或敏感信息,在方便快捷的同时也增加了信息被侦听、截获及非法拷贝的危险。而当前企业经营、市场竞争中面临的商业机密安全管理的形势严峻,尤其企业在商业活动中使用的诸如经营分析材料、业务技术策略、营销方案、财务分析报表、投资计划、客户信息、研发文档等隐私信息或敏感信息资源。如果这些企业商业机密信息被竞争对手获取,将给公司的业务关系带来危害,使公司的知识产权遭受损失,带来巨大的信息资产损失成本,同时给公司的声誉造成不良影响。
[0004]因此,如何对计算机创建/处理、网络传输的业务电子信息中的隐私信息或敏感信息进行有效保护和及时侦查成为目前亟待解决的技术问题。

【发明内容】

[0005]本发明所要解决的技术问题是针对现有技术中存在的上述不足,提供一种文本文件指纹获取方法及其装 置、数据管理方法,能有效提取文本文件的文件指纹,从而对计算机创建/处理、网络传输的业务电子信息中的隐私信息或敏感信息进行有效保护和及时侦查。
[0006]解决本发明技术问题所采用的技术方案是该文本文件指纹获取方法,包括:
[0007]将文本文件划分为多个文件块,多个所述文件块互不重叠;
[0008]抽取所述文件块的杂凑值;
[0009]对所述杂凑值进行抽样和组合,获得所述文本文件的杂凑代表值,所述杂凑代表值即所述文本文件指纹。
[0010]优选的是,将文本文件划分为多个文件块具体包括:
[0011]对所述文本文件中的数据进行处理,将所述文本文件划分为具有k字节大小的所述文件块,k为大于I的自然数、且与杂凑函数的数据处理长度相适配。
[0012]优选的是,抽取所述文件块的杂凑值具体包括:
[0013]对所述文件块按预设数量字节t和预设固定步长字节ω进行滑动分片形成文件片,k、t和ω满足公式:ω I (k-t),滑动次数η满足公式:n = (k_t)/co,其中:n为大于等于I的自然数,t为大于等于O的整数、ω为大于I的自然数;
[0014]利用杂凑函数对所述文件片进行hash取值,将hp h2、…、hn、hn+1作为所述文件片的片杂凑值,并将所述片杂凑值中的最大值或最小值或其它取值作为所述文件块的杂凑值。[0015]优选的是,对所述杂凑值进行抽样和组合具体包括:
[0016]抽取至少两个所述文件块中的所述杂凑值作为抽样杂凑值;
[0017]将所述抽样杂凑值进行组合,并将组合结果作为所述文本文件的杂凑代表值。
[0018]优选的是,在将文件划分为多个文件块之前,还进一步包括:
[0019]对所述文本文件进行规格化处理,所述规格化处理包括但不仅限于下述操作中的至少一种:
[0020]去除所述文本文件的文档中的空行、多余的空格;
[0021]去除所述文本文件的文档中的页眉、页脚的部分;
[0022]对所述文本文件的表格进行处理,保留表格中的文本字符;
[0023]对文档中的图片采 用OCR技术进行处理,保留图片中的文字。
[0024]进一步优选的是,在对所述文本文件进行规格化处理之前,还进一步包括:
[0025]根据文件的文件头判断文件类型,筛选出文本文件,所述文本文件类型包括但不限于.doc、.txt、.ppt 或.pdf 类型。
[0026]一种数据管理方法,采用上述的文本文件指纹获取方法,用于防止含有隐私信息或敏感信息的文件外泄,或侦查含有同一隐私信息或敏感信息的文件的存储位置。
[0027]一种文本文件指纹获取装置,包括文件指纹提取单元,所述文件指纹提取单元包括文件分块模块、杂凑计算模块和杂凑抽取模块,其中:
[0028]所述文件分块模块,用于将文本文件划分为多个文件块,并将所述文件块划分信息传送至所述杂凑计算模块,多个所述文件块互不重叠;
[0029]所述杂凑计算模块,接收所述文件块划分信息,用于抽取所述文件块的杂凑值,并将所述杂凑值传送至所述杂凑抽取模块;
[0030]所述杂凑抽取模块,接收所述杂凑值,对所述杂凑值进行抽样和组合,获得所述文本文件的杂凑代表值,所述杂凑代表值即所述文本文件指纹。
[0031]优选的是,所述文件分块模块根据所述文件块划分信息,对所述文本文件中的数据进行处理,将所述文本文件划分为具有k字节大小的所述文件块,k为大于I的自然数、且与杂凑函数的数据处理长度相适配。
[0032]优选的是,所述杂凑计算模块中预存有杂凑函数,所述杂凑计算模块对所述文件块按预设数量字节t和预设固定步长字节ω进行滑动分片形成文件片,k、t和ω满足公式:ω I (k-t),其中:t为大于等于O的整数、ω为大于I的自然数;
[0033]并对所述文件片进行hash取值,将hp h2、…、hn、hn+1作为所述文件片的片杂凑值,并将所述片杂凑值中的最大值或最小值或其它取值作为所述文件块的杂凑值。
[0034]优选的是,所述杂凑抽取模块包括抽样子模块和组合子模块,其中:
[0035]所述抽样子模块,接收所述杂凑值,用于抽取至少两个所述文件块中的所述杂凑值作为抽样杂凑值,并将所述抽样杂凑值传送至所述组合子模块;
[0036]所述组合子模块,接收所述抽样杂凑值,用于将所述抽样杂凑值进行组合,并将组合结果作为所述文本文件的杂凑代表值。
[0037]优选的是,其特征在于,还包括规格化处理单元,所述规格化处理单元用于对所述文本文件进行规格化处理,所述规格化处理包括但不仅限于下述操作中的至少一种:
[0038]去除所述文本文件的文档中的空行、多余的空格;[0039]去除所述文本文件的文档中的页眉、页脚的部分;
[0040]对所述文本文件的表格进行处理,保留表格中的文本字符;
[0041]对文档中的图片采用OCR技术进行处理,保留图片中的文字。
[0042]进一步优选的是,还包括判断单元,所述判断单元用于根据文件的文件头判断文件类型,筛选出文本文件,所述文本文件类型包括但不限于.doc、.txt、.ppt或.pdf类型。
[0043]本发明的有益效果是:本发明所提供的文本文件指纹获取方法以及相应的文本文件指纹获取装置,通过将文本文件划分、抽取文本文件中的文件块的杂凑值、并对杂凑值进行抽样和组合,从而有效获得文本文件的指纹,能对计算机创建/处理、网络传输的业务电子信息中的隐私信息或敏感信息进行有效保护和及时侦查。
【专利附图】

【附图说明】
[0044]附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
[0045]在附图中:
[0046]图1为本发明实施例1的文本文件指纹获取方法的原理流程示意图;
[0047]图2为图1中文本文件杂凑代表值获取步骤的原理流程示意图;
[0048]图3为本发明实施例1的文本文件指纹获取装置的结构示意图;
[0049]图4为图3中文件指纹提取单元的结构示意图;
[0050]图5为本发明实施例1的添加的比特串的示意图;
[0051]在附图标记中:
[0052]I 一判断单元;2 —规格化处理单元;3 —文件指纹提取单元;31 —文件分块模块;32 —杂凑计算模块;33-杂凑抽取模块;331 一抽样子模块;332 —组合子模块。
【具体实施方式】
[0053]为使本发明的目的、技术方案和优点更加清楚,以下将结合附图及实施例来详细说明本发明文本文件指纹获取方法及其装置、数据管理方法的实施方式,借此对本发明文本文件指纹获取方法及其装置、数据管理方法如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。如果不冲突,本发明实施例以及实施例中的各个特征在不相冲突前提下的相互结合,均在本发明的保护范围之内。
[0054]实施例1:
[0055]本实施例提供一种文本文件指纹获取方法以及相应的文本文件指纹获取装置,适合于网络传输过程中,对包含隐私信息或敏感信息的文本文件的部分或全部拷贝的检测;也可用于侦查含有同一隐私信息或敏感信息的文本文件存储的位置,了解数据资产的分布情况。
[0056]如图1所示,本实施例提供的文本文件指纹获取方法,包括:
[0057]步骤1:根据文件的文件头判断文件类型。
[0058]在该步骤中,根据文件的文件头或解压后(针对压缩格式的文件包,通常在判断文件类型之前先对文件包进行解压缩,直到文件不能再解压缩为止)的文件的文件头判断文件类型,筛选出文本文件,若文件为文本文件(或者说为文档类的文件,包括大量的文本字符),则继续进行操作以提取该文本文件指纹,否则停止操作。
[0059]文本文件类型包括但不限于.doc (或.docx)、.txt、.ppt (或.pptx)或.pdf类型。通常情况下,利用PHP(Hypertext Preprocessor,超文本预处理器,是一种通用开源脚本语言)取二进制文件头来判断文件类型,每个文件在产生的时候是什么类型的文件,都由这个二进制头部的2个字节决定。例如:标准的.doc类型文档头部的2个字节转成相应的十进制值的时候为208207,标准的.docx类型文档头部的2个字节转成相应的十进制值的时候为8075。常见文件的文件头值与对应的文件类型可查表得到,这里不再详述。
[0060]步骤2:对文本文件进行规格化处理。
[0061]在该步骤中,根据不同的文本文件类型,对文本文件进行规格化处理,规格化处理包括但不仅限于下述操作中的至少一种:
[0062]去除文本文件的文档中的空行、多余的空格;
[0063]去除文本文件的文档中的页眉、页脚的部分;
[0064]对文本文件的表格进行处理,保留表格中的文本字符(通常形成CSV文件);
[0065]对文档中的图片采用OCR技术进行处理,保留图片中的文字。
[0066]例如,.doc类型文件为word文档,其为复合文档,通常需要进行文件内容的分离,去除文本文件的文档中的空行、多余的空格,可能还需要去除文本文件的文档中的页眉、页脚的部分,甚至对文本文件的表格、图片进行处理,保留表格、图片中的文本字符或文字。而.txt类型文件则通常仅需要去除文本文件的文档中的空行、多余的空格,一般不涉及页眉、页脚以及表格、图片的处理。因此,根据不同的文件类型,针对不同的文件内容先做规格化处理,得到无格式化的纯文本文件。
[0067]步骤3:对规格化处理后的文本文件进行分块处理,获得文本文件的杂凑抽取值。如图2所示,该步骤具体包括:
[0068]步骤31:将文本文件划分为多个文件块,多个文件块互不重叠。
[0069]将文本文件划分为多个文件块具体包括:对文本文件中的数据进行处理,将文本文件划分为具有k字节大小的文件块,k为大于I的自然数、且与杂凑函数的数据处理长度相适配。
[0070]其中,为了得到文本文件的杂凑抽取值,一般会选择相应的杂凑函数,本实施例在该步骤中可以按照将选择的杂凑函数的特点以及杂凑函数在处理文件块大小的要求,选择合适的k值,将规格化处理后的文本文件进行分块,形成大小为k字节的文件块,分割后的文件块不重叠。例如,选择MD5为示例的杂凑函数,则以96字节(即768比特)分块来处理文本文件,将文本文件分别处理为1-96字节,97-192字节,193-288字节等的文件块;若文本文件的最后一部分字符为零散字符(小于96字节而无法构成一个完整的文件块),则通过杂凑函数的字符填充进行处理形成文件块。
[0071]接着,对每一文件块,进行下列步骤32和步骤33中的操作。
[0072]步骤32:抽取文件块的杂凑值。抽取文件块的杂凑值具体包括:
[0073]步骤321:对文件块按预设数量字节t和预设固定步长字节ω进行滑动分片形成文件片。
[0074]k、t和ω满足公式:ω | (k_t),即(k_t)能被ω整除;
[0075]滑动次数η满足公式:n = (k-t) / ω,即将文件块划分为η片文件片;[0076]其中:n为大于等于I的自然数,t为大于等于O的整数、ω为大于I的自然数。
[0077] 即对分割后的文件块,按照规定大小t字节和固定步长ω进行滑动分片处理,而预设数量字节t和预设固定步长字节ω可根据应用场合或应用对象的不同进行灵活的配置,以获得较好的划分效率和精度平衡。
[0078]由于文件片的细粒度相对文件块要小,因此将文件块细化为文件片,能更有效地抽取杂凑值,更好地防止隐私信息或敏感信息泄漏。
[0079]步骤322:利用杂凑函数对文件片进行hash取值,将hphy ->hn,hn+1作为文件片的片杂凑值(即hash值),并将片杂凑值中的最大值或最小值作为文件块的杂凑值。即按照一定的规则,对滑动分片处理后的k字节的文件片进行hash值计算取值,得到Ii1A2、…、hn、hn+1,并进一步按照一定的规则得到文件块的杂凑值。当然,根据应用场合或应用对象的不同,也可以采用将片杂凑值中的最大值或最小值作为文件块的杂凑值以外的其他方式来得到文件块的杂凑值,例如,设定为均采用各文件块中对应的第i(l< i < n+1)片的片杂凑值为文件块的杂凑值。
[0080]其中,本实施例中的杂凑函数即密码散列函数(Hash function),它将取任意长度的消息做自变量,结果产生规定长度的消息摘要,h1、h2、-,hn,hn+1即多个规定长度的消息摘要。目前常用的密码散列函数包括SM3、MD5和SHAl等,在具体应用过程中可根据国家的安全政策进行选取。
[0081]步骤33:对杂凑值进行抽样和组合,获得文本文件的杂凑代表值,杂凑代表值即文本文件指纹。对杂凑值进行抽样和组合具体包括:
[0082]步骤331:抽取至少两个文件块中的杂凑值作为抽样杂凑值。即按照某种抽样方式,抽取文件中至少两个文件块(当然也可以是三个文件块、四个文件块或所有文件块)的杂凑值。可以理解的是,根据应用场合或应用对象的不同,抽样方式可以根据需求进行灵活设置,例如,可以采用选取最大值或最小值等的抽样方式。
[0083]步骤332:将抽样杂凑值进行组合,并将组合结果作为文本文件的杂凑代表值。即将抽样后的杂凑值按照一定的方式进行组合,组合后的结果为该文件的杂凑抽取值,也即该文件的指纹。容易理解的是,根据应用场合或应用对象的不同,组合方式可以根据需求进行灵活设置。
[0084]相应的,本实施例还提供一种文本文件指纹获取装置。
[0085]如图3和图4所示,该文本文件指纹获取装置包括文件指纹提取单元3,文件指纹提取单元3包括文件分块模块31、杂凑计算模块32和杂凑抽取模块33,其中:
[0086]文件分块模块31,用于将文本文件划分为多个文件块,并将文件块划分信息传送至杂凑计算模块32,多个文件块互不重叠。即文件分块模块31用于根据杂凑函数的特点对规格化处理后的文件进行分块。具体的,文件分块模块31根据文件块划分信息,对文本文件中的数据进行处理,将文本文件划分为具有k字节大小的文件块,k为大于I的自然数、且与杂凑函数的数据处理长度相适配。
[0087]杂凑计算模块32,接收文件块划分信息,用于抽取文件块的杂凑值,并将杂凑值传送至杂凑抽取模块33。即杂凑计算模块32用于对分块的文件块进行分片和滑动处理,计算分片的文件片的片杂凑值,对文件片内的片杂凑值按照一定规则进行取值以得到文件块的杂凑值。具体的,在杂凑计算模块32中预存有杂凑函数,杂凑计算模块32对文件块按预设数量字节t和预设固定步长字节ω进行滑动分片形成文件片,k、t和ω满足公式:ω I (k-t),其中:t为大于等于O的整数、ω为大于I的自然数;对文件片进行hash取值,将hp h2、...、&、hn+1作为文件片的片杂凑值,并将片杂凑值中的最大值或最小值作为文件块的杂凑值。
[0088]杂凑抽取模块33,接收杂凑值,对杂凑值进行抽样和组合,获得文本文件的杂凑代表值,杂凑代表值即文本文件指纹。即杂凑抽取模块33用于对每一文件块取得的hash值按照一定的抽样方式进行抽取,抽取后的杂凑值按照某种方式进行组合形成杂凑代表值。为了更有效地计算得到杂凑抽取值,优选杂凑抽取模块33包括抽样子模块331和组合子模块332,其中:
[0089]抽样子模块331,接收杂凑值,用于抽取至少两个文件块中的杂凑值作为抽样杂凑值,并将抽样杂凑值传送至组合子模块332 ;
[0090]组合子模块332,接收抽样杂凑值,用于将抽样杂凑值进行组合,并将组合结果作为文本文件的杂凑代表值。
[0091]相应的,该文本文件指纹获取装置还包括规格化处理单元2,规格化处理单元2用于对文本文件进行规格化处理,使得文本文件形成纯文本字符文件。规格化处理包括但不仅限于下述操作中的至少一种:
[0092]去除文本文件的文档中的空行、多余的空格;
[0093]去除文本文件的文档中的页眉、页脚的部分;
[0094]对文本文件的表格进行处理,保留表格中的文本字符;
[0095]对文档中的图片采用OCR技术进行处理,保留图片中的文字。
[0096]进一步优选的是,该文本文件指纹获取装置还包括判断单元1,判断单元I用于根据文件的文件头判断文件类型,筛选出文本文件,文本文件类型包括但不限于.doc、, txt、.PPt或.pdf类型。该判断单元I适用于对压缩文件和未压缩文件的文档类型文件的判断。
[0097]下面将根据本实施例中的文本文件指纹获取方法和该文本文件指纹获取装置,以*.doc文本文件或*.doc文本文件的压缩包为例,来对文本文件指纹获取的主要实现过程进行详细的阐述和说明。
[0098]首先,判断单元I判断文件头为208207的*.doc文件,或者初次判断文件头为8297的*.rar文件和8075的*.zip文件进行解压缩,直到得到不能再解压缩为止的文件头为*.doc的文件。
[0099]接着,为了更有效地防止隐私信息或敏感信息有意或无意的泄漏,提高检测的效率,在杂凑值抽取前对文本文件进行一系列的规格化处理。规格化处理2至少包括但不仅限于以下几部分的处理:
[0100]I)为了防止对文档加空格或空行等类似的修改,去除文档中空行、多余的空格;
[0101]2)去除文档中存在的页眉、页脚的部分;
[0102]3)去除文档中正文部分存在的表格框,留下表格中的文本字符(通常形成CSV文件);
[0103]4)文档中存在的图片采用OCR技术,将图片中的文字保留下来。
[0104]然后,选择SM3为示例的杂凑函数,将规格化处理后的文件,分割成182字节(1456比特)大小的文件块,分割后的文件块不重叠。[0105]进而,对分割为182字节的文件块按照预设数量字节为118字节(944比特)和预设固定步长字节为64字节(512比特)进行滑动分片,滑动次数为I次,其中I=(182-118) /64。根据SM3杂凑函数的特点(SM3杂凑函数分割块的比特数m满足m+l+k E 448mod512,这里m为944,其中k是在分割块的“ I”后,添加“O”的数目),对每一文件片的944比特串先添加I比特串“1”,后添加15比特串“0”,该添加的比特串如图5中
(a)所示;继续在该比特串的后面添加64比特的m的二进制表示值,添加的比特串如图5中
(b)6所示。
[0106]经过上述的杂凑处理后,文件片内计算得到的片杂凑值为64字节的h1; h2。取片杂凑值4,h2之间最小值或最大值作为182字节的文件块的杂凑值;抽取每四块文件块中的最大值或最小值的杂凑代表值,以空格分开形式组合而成的序列,作为文件的指纹信息。
[0107]实施例2:
[0108]本实施例提供一种文本文件指纹获取方法以及相应的文本文件指纹获取装置,与实施例1相比,本实施例中文本文件指纹获取方法以及相应的文本文件指纹获取装置适用于已知文件类型为文本文件的文件。文本文件类型包括但不限于.doc、, txt、.ppt或.pdf
等类型。
[0109]相应的,本实施例中文本文件指纹获取方法可以省略文本文件的筛选的步骤(对应实施例1中的步骤I),因此进一步提高了文本文件指纹获取方法的效率。
[0110]相应的文本文件指纹获取装置可以省略用于文本文件的筛选的判断单元,进一步精简了文本文件指纹获取装置的结构。
[0111]本实施例中文本文件指纹获取方法的其他步骤与实施例1的相应步骤相同,这里不再详述;文本文件指纹获取装置的其他单元的结构和配置与实施例1的相应单元的结构和配置相同,这里也不再详述。
[0112]实施例3:
[0113]本实施例提供一种文本文件指纹获取方法以及相应的文本文件指纹获取装置,与实施例1或实施例2相比,本实施例中文本文件指纹获取方法以及相应的文本文件指纹获取装置适用于已知为文本文件、且该文本文件仅包括规格化的纯文本字符的文件。
[0114]相应的,本实施例中文本文件指纹获取方法可以省略文本文件的筛选(对应实施例I中的步骤I)、规格化处理(对应实施例1中的步骤2)的步骤,因此进一步提高了文本文件指纹获取方法的效率。
[0115]相应的文本文件指纹获取装置可以省略用于文本文件的筛选的判断单元、用于文本文件规格化处理的规格化处理单元,进一步精简了文本文件指纹获取装置的结构。
[0116]本实施例中文本文件指纹获取方法的其他步骤与实施例1或实施例2的相应步骤相同,这里不再详述;文本文件指纹获取装置的其他单元的结构和配置与实施例1或实施例2的相应单元的结构和配置相同,这里也不再详述。
[0117]实施例1-3所提供的文本文件指纹获取方法以及相应的文本文件指纹获取装置,通过将文本文件划分、抽取文本文件中的文件块的杂凑值、并对杂凑值进行抽样和组合,从而获得文本文件的指纹,能对计算机创建/处理、网络传输的业务电子信息中的隐私信息或敏感信息进行有效保护和及时侦查。
[0118]实施例4:[0119]本实施例提供一种数据管理方法,该数据管理方法采用实施例1-3任一的文本文件指纹获取方法(以及相应的文本文件指纹获取装置),用于防止含有隐私信息或敏感信息的文件外泄,或侦查含有同一隐私信息或敏感信息的文件的存储位置。
[0120]当前的业务电子信息仍然主要通过文本字符来传情达意,因此,通过对网络传输的文件进行处理,提取出该文件对应的文本文件,并使得文本文件生成文件指纹,将该文件指纹与隐私信息或敏感信息的杂凑抽取值进行比对,当文件指纹与敏感信息具有一定的匹配度(该匹配度可预设)时,即可认为具有该文本文件的文件包含一定的隐私信息或敏感信息,因此可采用一定的手段阻止文件的传输,从而有效控制隐私信息或敏感信息的外泄;也可通过文件指纹侦查含有同一隐私信息或敏感信息的文件的存储位置,为隐私信息或敏感信息的统一管理提供依据。
[0121]这里应该理解的是,对隐私信息或敏感信息进行杂凑抽取值的方法可以与实施例1-3任一的文本文件指纹获取方法相同;而且,为了进一步提高检测的准确度,可按约定的文本文件指纹获取方法提前对隐私信息或敏感信息进行杂凑抽取值处理,并预先存储在数据库中。这样,在计算机创建/处理、网络传输文件的过程中,可以随时与数据库中的隐私信息或敏感信息杂凑抽取值进行比对,从而对文件进行有效保护和及时侦查。
[0122]可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
【权利要求】
1.一种文本文件指纹获取方法,其特征在于,包括: 将文本文件划分为多个文件块,多个所述文件块互不重叠; 抽取所述文件块的杂凑值; 对所述杂凑值进行抽样和组合,获得所述文本文件的杂凑代表值,所述杂凑代表值即所述文本文件指纹。
2.根据权利要求1所述的文本文件指纹获取方法,其特征在于,将文本文件划分为多个文件块具体包括: 对所述文本文件中的数据进行处理,将所述文本文件划分为具有k字节大小的所述文件块,k为大于I的自然数、且与杂凑函数的数据处理长度相适配。
3.根据权利要求2所述的文本文件指纹获取方法,其特征在于,抽取所述文件块的杂凑值具体包括: 对所述文件块按预设数量字节t和预设固定步长字节ω进行滑动分片形成文件片,k、t和ω满足公式:ω I (k-t),滑动次数η满足公式:n = (k_t)/co,其中:n为大于等于I的自然数,t为大于等于O的整数、ω为大于I的自然数; 利用杂凑函数对所述 文件片进行hash取值,将hphy…、hn、hn+1作为所述文件片的片杂凑值,并将所述片杂凑值中的最大值或最小值或其它取值作为所述文件块的杂凑值。
4.根据权利要求3所述的文本文件指纹获取方法,其特征在于,对所述杂凑值进行抽样和组合具体包括: 抽取至少两个所述文件块中的所述杂凑值作为抽样杂凑值; 将所述抽样杂凑值进行组合,并将组合结果作为所述文本文件的杂凑代表值。
5.根据权利要求1-4任一项所述的文本文件指纹获取方法,其特征在于,在将文件划分为多个文件块之前,还进一步包括: 对所述文本文件进行规格化处理,所述规格化处理包括但不仅限于下述操作中的至少一种: 去除所述文本文件的文档中的空行、多余的空格; 去除所述文本文件的文档中的页眉、页脚的部分; 对所述文本文件的表格进行处理,保留表格中的文本字符; 对文档中的图片采用OCR技术进行处理,保留图片中的文字。
6.根据权利要求5所述的文本文件指纹获取方法,其特征在于,在对所述文本文件进行规格化处理之前,还进一步包括: 根据文件的文件头判断文件类型,筛选出文本文件,所述文本文件类型包括但不限于.doc、.txt、.ppt 或.pdf 类型。
7.一种数据管理方法,其特征在于,采用权利要求1-6任一项所述的文本文件指纹获取方法,用于防止含有隐私信息或敏感信息的文件外泄,或侦查含有同一隐私信息或敏感信息的文件的存储位置。
8.一种文本文件指纹获取装置,其特征在于,包括文件指纹提取单元,所述文件指纹提取单元包括文件分块模块、杂凑计算模块和杂凑抽取模块,其中: 所述文件分块模块,用于将文本文件划分为多个文件块,并将所述文件块划分信息传送至所述杂凑计算模块,多个所述文件块互不重叠;所述杂凑计算模块,接收所述文件块划分信息,用于抽取所述文件块的杂凑值,并将所述杂凑值传送至所述杂凑抽取模块; 所述杂凑抽取模块,接收所述杂凑值,对所述杂凑值进行抽样和组合,获得所述文本文件的杂凑代表值,所述杂凑代表值即所述文本文件指纹。
9.根据权利要求8所述的文本文件指纹获取装置,其特征在于,所述文件分块模块根据所述文件块划分信息,对所述文本文件中的数据进行处理,将所述文本文件划分为具有k字节大小的所述文件块,k为大于I的自然数、且与杂凑函数的数据处理长度相适配。
10.根据权利要求9所述的文本文件指纹获取装置,其特征在于,所述杂凑计算模块中预存有杂凑函数,所述杂凑计算模块对所述文件块按预设数量字节t和预设固定步长字节ω进行滑动分片形成文件片,k、t和ω满足公式:ω I (k_t),其中:t为大于等于O的整数、ω为大于I的自然数; 并对所述文件片进行hash取值,将hp h2、…、hn、hn+1作为所述文件片的片杂凑值,并将所述片杂凑值中的最大值或最小值或其它取值作为所述文件块的杂凑值。
11.根据权利要求10所述的文本文件指纹获取装置,其特征在于,所述杂凑抽取模块包括抽样子模块和组合子模块,其中: 所述抽样子模块,接收所述杂凑值,用于抽取至少两个所述文件块中的所述杂凑值作为抽样杂凑值,并将所述抽样杂凑值传送至所述组合子模块; 所述组合子模块,接收所述抽样杂凑值,用于将所述抽样杂凑值进行组合,并将组合结果作为所述文本文件的 杂凑代表值。
12.根据权利要求8-11任一项所述的文本文件指纹获取装置,其特征在于,还包括规格化处理单元,所述规格化处理单元用于对所述文本文件进行规格化处理,所述规格化处理包括但不仅限于下述操作中的至少一种: 去除所述文本文件的文档中的空行、多余的空格; 去除所述文本文件的文档中的页眉、页脚的部分; 对所述文本文件的表格进行处理,保留表格中的文本字符; 对文档中的图片采用OCR技术进行处理,保留图片中的文字。
13.根据权利要求12所述的文本文件指纹获取装置,其特征在于,还包括判断单元,所述判断单元用于根据文件的文件头判断文件类型,筛选出文本文件,所述文本文件类型包括但不限于.doc、.txt、.ppt或.pdf类型。
【文档编号】G06F17/30GK103971061SQ201410226077
【公开日】2014年8月6日 申请日期:2014年5月26日 优先权日:2014年5月26日
【发明者】彭建芬 申请人:中电长城网际系统应用有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1