文件指纹校验方法及装置的制造方法

文档序号:9888061阅读:313来源:国知局
文件指纹校验方法及装置的制造方法
【技术领域】
[0001]本发明涉及一种信息技术领域,特别是涉及一种文件指纹校验方法及装置。
【背景技术】
[0002]随着信息技术的不断发展,电子化文档类的文件使用量越来越大。通常此类文件数据为非结构化数据,即不方便用数据库二维逻辑表来实现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
[0003]目前,电子化文档在方便人们提高工作效率、节约纸张等自然资源的利用的同时,也带来一些额外的问题和麻烦。如:电子化文档比较容易复制,也比较容易传播。这些文档电子化的新特征使得文档的抄袭在技术上更加容易。加之电子化数据量的日益增大,这类抄袭的人工判断越来越困难。例如,在用户从网络上下载需要的文档文件数据的同时,也需要确保该文档文件数据没有被人修改过,如添加了木马、病毒、非官方插件等,或是在下载中没有被破坏。因此,非常有必要利用现代化信息技术来改进人们对文件数据的相似性校验方法,从而提高人们处理日益增长的海量电子化文档的能力。

【发明内容】

[0004]有鉴于此,本发明提供了一种文件指纹校验方法及装置,主要目的在于可以实现对非结构化数据的相似性进行准确校验。
[0005]依据本发明一个方面,提供了一种文件指纹校验方法,该方法包括:
[0006]提取待校验文件中的文件内容信息并进行预处理;
[0007]提取预处理后的文件内容信息中的指纹信息;
[0008]检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;
[0009]若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。
[0010]依据本发明另一个方面,提供了一种文件指纹校验装置,该装置包括:
[0011 ]提取单元,用于提取待校验文件中的文件内容信息;
[0012]预处理单元,用于对所述提取单元提取的待校验文件中的文件内容信息进行预处理;
[0013]所述提取单元,还用于提取预处理后的文件内容信息中的指纹信息;
[0014]检测单元,用于检测所述提取单元提取的指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;
[0015]确定单元,用于若所述检测单元检测出所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。
[0016]借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
[0017]本发明提供的一种文件指纹校验方法及装置,首先提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。本发明通过对待校验文件进行指纹信息提取并与预置指纹库中的指纹信息之间进行相似度进行检测,提供了对非结构化数据进行指纹校验的方式,可以实现对文件数据的相似性进行准确校验,从而可以提高处理日益增长的海量电子化文档的效率。
[0018]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1示出了本发明实施例提供的一种文件指纹校验方法流程示意图;
[0021]图2示出了本发明实施例提供的另一种文件指纹校验方法流程示意图;
[0022]图3示出了本发明实施例提供的一种文件指纹校验装置结构示意图;
[0023]图4示出了本发明实施例提供的另一种文件指纹校验装置结构示意图。
【具体实施方式】
[0024]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0025]本发明实施例提供了一种文件指纹校验方法,如图1所示,所述方法包括:
[0026]101、提取待校验文件中的文件内容信息并进行预处理。
[0027]其中,所述文件内容信息中包含待校验文件中的文件内容。
[0028]对于本发明实施例,可以通过泛化处理的方式,即模板化处理的方式,提取待校验文件中的文件内容信息,提取的文件内容信息为预设Unicode编码格式。具体地,可以利用预设文档内容提取函数,提取待校验文件中的文件内容,其中,预设文档内容提取函数可以按用户的实际需求进行配置;再利用预设字符集编码探测函数,识别提取的文件内容的编码格式,然后利用预设编码转换库,将提取的文件内容的编码格式转换为预设Unicode编码格式,进而完成提取待校验文件中的文件内容信息。
[0029]对于本发明实施例,在对提取的文件内容信息进行预处理的过程可以包括:去除文件内容中的标点符号、去除无意词、以及对文件内容进行中文分词处理等。
[0030]102、提取预处理后的文件内容信息中的指纹信息。
[0031]其中,所述指纹信息是指可以唯一标识某个文件的特征,每一个文件都会有唯一的指纹信息。所谓指纹,实际上就是将文件内容映射成一个数字,每一段不同内容所映射的数字都不会相同,就好比人的指纹一样。文件指纹在保护数据完整性,身份识别等诸多方面有着举足轻重的作用。
[0032]103、检测指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值。
[0033]其中,所述预置指纹库中保存有用于鉴别文件内容相似的指纹信息。所述预设阈值可以根据实际需求进行配置,例如,可以配置为70 %、80 %等。
[0034]104、若相似度大于或等于预设阈值,则确定待校验文件为内容相似文件。
[0035]例如,预设阈值为65%,提取文件A中的文件内容信息并进行预处理,然后提取预处理后的文件内容信息中的指纹信息,当检测出该指纹信息与预置指纹库中的指纹信息之间的相似度为70%时,确定文件A为内容相似文件;当检测出该指纹信息与预置指纹库中的指纹信息之间的相似度为30 %时,确定文件A不是内容相似文件。
[0036]本发明实施例提供的一种文件指纹校验方法,首先提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。本发明通过对待校验文件进行指纹信息提取并与预置指纹库中的指纹信息之间进行相似度进行检测,提供了对非结构化数据进行指纹校验的方式,可以实现对文件数据的相似性进行准确校验,从而可以提高处理日益增长的海量电子化文档的效率。
[0037]具体地,本发明实施例提供了另一种文件指纹校验方法,如图2所示,所述方法包括:
[0038]201、提取待校验文件中的文件内容信息并进行预处理。
[0039]其中,所述文件内容信息中包含待校验文件中的文件内容。
[0040]对于本发明实施例,可以通过泛化处理的方式,即模板化处理的方式,提取待校验文件中的文件内容信息,具体地实现过程以及预处理步骤,可以参考步骤101中相应描述,在此不再赘述。
[0041]对于本发明实施例,所述步骤201之前,还包括:提取不同预置样本文件中的文件内容信息并进行预处理;获取经过预处理的文件内容信息中的指纹信息;根据所述指纹信息,构建预置指纹库。其中,所述预置样本文件可以为确定文件内容相似性的校准文件。需要说明的是,所述提取不同预置样本文件中的文件内容信息并进行预处理的过程可以参考步骤101中相应描述,在此不再赘述。所述指纹信息的概念描述可以参考步骤102中相应描述,在此不再赘述。
[0042]需要说明的是,可以通过预置Karp-Rabin函数,获取经过预处理的文件内容信息中的指纹信息,其中,所述预置Karp-Rabin函数为通过Karp-Rabin算法编写的函数。具体地,可以通过预置K-gra
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1